Компьютерная лингвистика, анализ текстов, корпусная лингвистика

МЕНЮ


Искусственный интеллект. Новости
Поиск
Регистрация на сайте
Сбор средств на аренду сервера для ai-news

ТЕМЫ


Новости ИИРазработка ИИРабота разума и сознаниеВнедрение ИИРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информации

Авторизация



RSS


RSS новости

Новостная лента форума ailab.ru

Последние новости

 

Главные новости

2018-06-27 11:42

Продукт на .NET, помогающий спасать жизни


компьютерная лингвистика, искусственный интеллект в медицине

В некоторых жизненных ситуациях нужно действовать очень быстро. Иногда это условие невыполнимо: например, просто невозможно без огромного везения за очень короткое время найти человека с редкой группой крови, так еще и готового ей поделиться. Ребята создали продукт под названием DonorUA, который действительно помогает спасать жизни при помощи чат-бота. Подробнее под катом.

Передаю слово автору.

Несколько лет назад на хакатоне по созданию социальных сервисов я пытался разработать проект для

2018-06-26 12:30

NLP Architect от Intel: open source библиотека моделей обработки естественного языка


компьютерная лингвистика

Вы заметили, что всё больше компаний ставят на свой сайт виджет с ботом? Чат-боты сегодня повсюду. И это только один из многих примеров применения технологий обработки естественного языка (Natural Language Processing, NLP) и понимания естественного языка (Natural Language Understanding, NLU). Потенциал NLP и NLU кажется безграничным. Сейчас ко всем приходит понимание, что мы только в начале длинного пути. Титаны ИТ-сферы создают специальные исследовательские отделы для изучения этой области.

2018-05-29 13:03

Intel открыл систему машинного обучения для обработки информации на естественном языке


алгоритмы машинного обучения, компьютерная лингвистика

Компания Intel представила проект NLP Architect, в рамках которого открыты наработки в области применения методов глубинного машинного обучения для обработки и распознавание смысла информации на естественном языке (NLP/NLU, Natural Language Processing/Understanding). Код библиотеки написан на языке Python и распространяется под лицензией Apache 2.0. Библиотека поддерживает работу с фреймворками машинного обучения Intel Nervana™ graph, Intel neon, Tensorflow, Dynet и Keras.

Из задач, для

2018-04-03 09:30

Как NLP может в корне изменить HR


компьютерная лингвистика

Вы в курсе, что NLP это не нейро-лингвистическое программирование, как некоторые думают, NLP - Natural language processing. И это второе NLP мощнее, чем первое. И если Вы знали первое NLP, то пора уже познакомиться со вторым NLP. Автор статьи - индийский HR аналитик Raja Sengupta, не самый известный, но один из самых крутых, кого я знаю. Статья из нашего проекта переводы статей по hr-аналитике на английском, перевод статьи сделали сразу три студентки Высшей Школы Экономики - Галкина

2018-03-17 16:00

Майнинг данных. Специалист по Computer Science Алексей Незнанов о проблемах искусственного интеллекта, видах майнинга данных и обработке данных в корпорациях.


искусственный интеллект, компьютерная лингвистика, большие данные big data

Майнинг данных.

Специалист по Computer Science Алексей Незнанов о проблемах искусственного интеллекта, видах майнинга данных и обработке данных в корпорациях.

Майнинг данных (калька с английского Data mining) — это термин, который сейчас в России, с одной стороны, считается не очень удачным, а с другой — становится все более распространенным. Почему так происходит? Все прочие синонимы, например «разработка данных» (от «разработки месторождений»), смешиваются с «разработкой методов».

2018-03-11 18:46

Мульти-классификация Google-запросов с использованием нейросети на Python


реализация нейронной сети, компьютерная лингвистика

Прошло уже достаточно времени с момента публикации моей первой статьи на тему обработки естественного языка. Я продолжал активно исследовать данную тему, каждый день открывая для себя что-то новое.

Сегодня я бы хотел поговорить об одном из способов классификации поисковых запросов, по отдельным категориям с помощью нейронной сети на Keras. Предметной областью запросов была выбрана сфера автомобилей.

За основу был взят датасет размером ~32000 поисковых запросов, размеченных по 14ти классам:

2018-03-02 19:00

В современном мире методы с применением искусственного интеллекта плотно интегрировались в сферу IT.


компьютерная лингвистика

Что такое обработка естественного языка?

Обработка на естественном языке (NLP) - это отрасль искусственного интеллекта (AI), которая занимается коммуникацией: как компьютер может быть запрограммирован для понимания, обработки и создания языка так же, как человек?

В то время как термин первоначально упоминал о способности системы читать, с тех пор он стал разговорным для всей компьютерной лингвистики. Подкатегории включают выработку естественного языка (НЛГ) — компьютерная способность

2018-01-24 16:24

Плагиат в научных статьях: трудности обнаружения перевода


методы машинного обучения, компьютерная лингвистика

В течение нескольких последних лет в российской научно-образовательной системе произошли существенные изменения.

Был принят и вступил в силу ряд нормативных документов, обязывающих организации обеспечивать проверки квалификационных работ (диссертаций и дипломов) на наличие заимствований. Активно используются технические средства для их обнаружения, например система «Антиплагиат». Подобные действия вынуждают недобросовестных учёных и учащихся искать новые пути использования заимствованного

2018-01-16 16:00

Определение авторства текста по частотным характеристикам


компьютерная лингвистика

Определение авторства текста по частотным характеристикам

Тема является достаточно актуальной на сегодняшний день и охватывает большой спектр целей: от отыскания автора необходимой вам статьи в интернете или запоминающегося отрывка художественного произведения до достаточно серьёзных военных целей. Рассмотренные в данной работе методы и приёмы помогают достаточно точно определить автора необходимого вам текста или сообщения, так как базируются на особенностях речи людей.

Для

2017-10-27 16:16

Нейронную сеть научили писать отличные отзывы о кафе и ресторанах


искусственные нейронные сети, компьютерная лингвистика

На отзывах держится если не весь интернет, то значительная его часть так точно. Отзывы о различных моделях устройств разных производителей, отзывы об автомобилях и запчастях, не говоря уже об отзывах посетителей ресторанов и кафе — все эти мнения служат средством оценки качества товаров и услуг. Отели, интернет-магазины, каталоги приложений — здесь везде есть, где почитать отзывы.

Маркетологи уже давно поняли, что хороший отзыв — это инструмент, позволяющий привлечь новых покупателей или

2017-09-22 18:44

Надежда Чиркова: анализ текстов


алгоритмы машинного обучения, компьютерная лингвистика

Автор занимается байесовскими методами машинного обучения. Томас Байес (1702 — 7 апреля 1761) — английский математик, пресвитерианский священник, член Лондонского королевского общества (1742)

Презентация:

2017-08-30 10:56

Исследование: искусственный интеллект берет на себя контент-менеджмент


искусственный интеллект, компьютерная лингвистика

Известно, что роботы уже способны заменить журналистов. Но такой сервис, как контент-менеджмент также находится на грани фундаментального сдвига, поскольку искусственный интеллект и машинное обучение уже способны выполнять заказы на корпоративный контент. По мере увеличения объема материалов, становится все сложнее справляться с ними. ИИ и машинное обучение имеют право изменить это, потому что алгоритмы способны лучше работать с большим количеством данных, и это потенциально может коренным

2017-08-18 12:45

Machine Learning в текстовом анализе


компьютерная лингвистика

11 августа в Калининграде завершилась пятая юбилейная Baltic Digital Days  — крупнейшая в регионе конференция по SEO и интернет-маркетингу.   В рамках секции «SEO в русскоязычном интернете» Павел Никулин (Demis Group) представил доклад на тему «Machine Learning для текстового анализа».

Выступление спикера было посвящено метрикам и алгоритмам, предназначенным для  поиска значимого текста в документе, определению его коммерческости, спамности, водности, неестественности,

2017-08-15 18:43

Визуализация результатов латентно-семантического анализа средствами Python


компьютерная лингвистика

Постановка задачи Семантический (смысловой) анализ текста – одна из ключевых проблем как теории создания систем искусственного интеллекта, относящаяся к обработке естественного языка (Natural Language Processing, NLP), так и компьютерной лингвистики. Результаты семантического анализа могут применяться для решения задач в таких областях как, например, психиатрия (для диагностирования больных), политология (предсказание результатов выборов), торговля (анализ востребованности тех или иных

2017-07-16 12:56

Программисты оживляют книги


компьютерная лингвистика

Британские учёные предложили новый метод цифровой обработки литературных произведений, который позволит визуализировать места действия в них с помощью 3D-анимации, геоинформационных систем (ГИС) и автоматического распознавания текста.

Такая система способна показать читателям «настоящую» анимированную карту Средиземья из трилогии Дж.Р.Р. Толкиена и любые другие локации, описанные в мировой литературе. На разработку выделен крупный грант, сообщается на сайте Ланкастерского университета.

2017-07-12 18:45

“Большие тексты”: алгоритм научат проверять факты в новостях и юридических документах


компьютерная лингвистика

В Образовательном центре “Сириус” команда молодых программистов проекта “Анализ текстов” создает алгоритм, способный “переваривать” большие массивы текстовых данных и находить связи между объектами, описанными в них. Например, общественными деятелями, политиками, учеными, компаниями или абстрактными понятиями. На основе алгоритма ребята планируют сделать чат-бота Telegram, который сможет проверять различные факты на истинность.

В рамках проекта “Анализ текстов” школьники в Центре “Сириус”

2017-07-08 15:08

Оказывается у Яндекса есть "Яндекс-рефераты" - забавный сервис, позволяющий генерировать наукообразный бред


компьютерная лингвистика

Вот этот сервис https://yandex.ru/referats/

А вот пример текста, сгенерированного этим сервисом:

«Классический христианско-демократический национализм: гипотеза и теории»

Социальная парадигма, как бы это ни казалось парадоксальным, символизирует прагматический христианско-демократический национализм. Иначе говоря, понятие политического конфликта представляет собой классический коллапс Советского Союза. Рационально-критическая парадигма ограничивает политический процесс в

2017-07-03 19:36

Классификация текста с помощью нейронной сети на JAVA


архитектура нейронных сетей, компьютерная лингвистика

– Наша Лена уходит в декрет, – сообщил начальник, – поэтому нам надо искать замену на время ее отсутствия. Часть задач мы распределим, а вот как быть с задачей перенаправления обращений пользователей?

Лена – это наш сотрудник технической поддержки. Одна из ее обязанностей – распределение поступающих на электронную почту обращений между специалистами. Она анализирует обращение и определяет ряд характеристик. Например, «Тип обращения»: ошибка системы, пользователю просто нужна консультация,

2017-05-20 15:00

Почему чат-боты — будущее больших данных


Чат-бот, компьютерная лингвистика

Многие впервые услышали о чат-ботах год назад, когда Facebook запустил платформу, позволяющую девелоперам создавать их самостоятельно. Тогда Facebook и другие крупные компании назвали чат-боты «восходящей звездой», революционной диалоговой утилитой, благодаря которой взаимодействие между компаниями и их клиентами вскоре изменится до неузнаваемости. Что же стало с чат-ботами? Играют ли они какую-либо роль сегодня?

Из этой статьи вы узнаете о том, как чат-боты изменили бизнес и почему они —

2017-04-18 22:04

Современные методы анализа тональности текста


компьютерная лингвистика

Анализ тональности текста (sentiment analysis) – распространенное приложение методов обработки естественного языка (natural language processing, NLP), в частности, классификации, целью которой является извлечение из текста эмоционального содержания. Таким образом, анализ тональности можно рассматривать, как метод количественного описания качественных данных, реализуемый путем присваивания некоторых оценок настроения. Хотя тональность в общем случае субъективна, количественный анализ
 

2018-05-25 23:15

Google Cloud: новая платформа и возможности машинного обучения


алгоритмы машинного обучения, компьютерная лингвистика

Здравствуйте, коллеги.

В последнее время мы вынашиваем планы издать книгу по обработке естественного языка. Одним из наиболее масштабных решений, которые определяют перспективы этой отрасли, несомненно, является платформа Google Cloud, как нельзя лучше адаптированная для машинного обучения. Просим высказываться о востребованности этой книги

и почитать под катом о небольшой библиотеке, предназначенной для обработки естественного языка на R. Одни из важнейших благ, которыми мы располагаем —

2018-05-03 12:40

Глубинное обучение в обработке и анализе текстов


компьютерная лингвистика

Какие языковые модели использовали до нейросетевой революции, возможно ли передать текст без потери структуры и семантики в память компьютера и каким образом смартфон подсказывает нам слова в сообщениях

Идея искусственной нейронной сети принадлежит Уоррену Маккаллоку и Уолтеру Питтсу. В совместном исследовании начала 40-х годов XX века они предложили формальную модель человеческого мозга — искусственную нейронную сеть, а чуть позже Фрэнк Розенблатт обобщил их работы и создал модель

2018-04-10 14:15

Применение сверточных нейронных сетей для задач NLP


пример нейронной сети, компьютерная лингвистика

Когда мы слышим о сверточных нейронных сетях (CNN), мы обычно думаем о компьютерном зрении. CNN лежали в основе прорывов в классификации изображений — знаменитый AlexNet, победитель соревнования ImageNet в 2012 году, с которого начался бум интереса к этой теме. С тех пор сверточные сети достигли большого успеха в распознавании изображений, в силу того факта, что они устроены наподобие зрительной коры головного мозга — то есть умеют концентрироваться на небольшой области и выделять в

2018-04-05 12:14

Как решить 90% задач NLP: пошаговое руководство по обработке естественного языка


реализация нейронной сети, алгоритмы машинного обучения, компьютерная лингвистика

Неважно, кто вы — зарекомендовавшая себя компания, или же только собираетесь запустить свой первый сервис — вы всегда можете использовать текстовые данные для того, чтобы проверить ваш продукт, усовершенствовать его и расширить его функциональность.

Обработкой естественного языка (NLP) называется активно развивающаяся научная дисциплина, занимающаяся поиском смысла и обучением на основании текстовых данных.

Как вам может помочь эта статья

2018-03-22 05:38

Интеллектуальная обработка текстов


лингвистика, компьютерная лингвистика

Работы, связанные с естественным языком, — это одна из ключевых задач для создания искусственного интеллекта. Их сложность долгое время сильно недооценивали. Одной из причин для раннего оптимизма в области естественного языка были пионерские работы Ноама Хомского о порождающих грамматиках. В своей книге «Синтаксические структуры» и других работах Хомский предложил идею, которая сейчас кажется совершенно обычной, но тогда произвела революцию: он преобразовал предложение на естественном языке в

2018-03-09 11:30

Нулевой смысл текста . В семиотической традиции текст рассматривается как знак с собственным содержанием.


компьютерная лингвистика, лингвистика

Нулевой смысл текста

В семиотической традиции текст рассматривается как знак с собственным содержанием. Это содержание в трех пространствах знака: семантическом, синтаксическом и прагматическом, — оформляется тремя смыслами. Принципиально, что текст гетерогенен с точки зрения смысловой организации. Три пространства, или три сферы опыта — бытийное, мыслительное и коммуникативное, — объединенные в тексте, фокусируют на себе текстовые смыслы: нарративный, типологический и паралогический. Эти

2018-02-26 21:05

Две модели лучше одной. Опыт Яндекс.Переводчика


алгоритмы машинного перевода, ИИ проекты, реализация нейронной сети, компьютерная лингвистика

Когда-то мы уже рассказывали о том, как появился и развивался машинный перевод. С тех пор произошло ещё одно историческое событие – его наконец-то покорили нейронные сети и глубокое обучение. Среди задач обработки естественного языка (Natural Language Processing, NLP) машинный перевод одним из первых получил строгое статистическое основание — еще в начале 1990-х. Но в сфере глубокого обучения он оказался относительно запоздавшим участником. В этом посте мы — команда Яндекса по машинному

2018-02-20 19:50

Главные достижения в области обработки естественного языка в 2017 году


компьютерная лингвистика, поисковые системы

Всем привет. Сразу поделим аудиторию на две части — тех, кто любит смотреть видео, и тех, кто, как я, лучше воспринимает тексты. Чтобы не томить первых, запись моего выступления на Дата-Ёлке:

Там есть все основные моменты, но формат выступления не предполагает подробного рассмотрения статей. Любители ссылок и подробных разборов, добро пожаловать под кат.

Те, кто дочитал до этого места, наконец, могут узнать, что все ниже написанное может быть использовано против них в

2018-02-03 12:18

«Священнику, хозяину дома, мне и людям»


лингвистика, компьютерная лингвистика

На прошлой неделе канал CTV News опубликовал сообщение о том, что двум канадским лингвистам удалось определить язык, на котором написана рукопись Войнича. Гжегож Кондрак и Брэдли Хауэр с помощью алгоритма искусственного интеллекта установили, что это скорее всего иврит, и даже сумели прочитать несколько слов и получить относительно осмысленный перевод. Это известие взбудоражило российские СМИ, однако позже выяснилось, что, во-первых, речь идет не о новой, а о старой работе (статья с ее

2018-01-26 14:00

Как я сделал AI для выявления фейковых новостей с точностью в 95% и чуть не рехнулся


примеры ии, компьютерная лингвистика

Краткий пересказ: мы сделали программу, определяющую надежность новостей с точностью 95% (на валидационной выборке) при помощи машинного обучения и технологий обработки естественного языка. Скачать ее можно здесь. В условиях реальной действительности точность может оказаться несколько ниже, особенно по прошествии некоторого времени, так как каноны написания новостных статей будут меняться.

Глядя, как бурно развиваются машинное обучение и обработка естественного языка, я подумал: чем черт не

2018-01-15 18:26

Компьютер обошел людей в понимании прочитанного


компьютерная лингвистика, ИТ-гиганты

giphy.com

Сразу два алгоритма обработки естественного языка — программы, созданные Alibaba Group и Microsoft, — обошли людей в тесте на извлечение ответов на вопросы из прочитанного материала. Об этом сообщает Bloomberg. 

Компьютеры догоняют (и даже превосходят) людей во многих сферах: например, могут создавать оригинальные произведения искусства, писать музыку, сочинять стихи и придумывать оригинальные новогодние поздравления. При этом некоторые виды деятельности

2017-11-17 12:51

Классификация на гуманитариев и технарей по комментариям в VK


компьютерная лингвистика, анализ социальных сетей, реализация нейронной сети

Хочу поделиться своим опытом классификации пользователей социальной сети по их комментариям на два класса по складу ума: гуманитарный или технический. В данной статье не будут использоваться последние достижения глубокого обучения, но будет разобран завершенный проект по классификации текстов: от поиска подходящих данных до предсказаний. В конце будет представлено веб-приложение, в котором вы сможете проверить себя.

Постановка задачи

Задача в нашем случае бинарной классификации

2017-10-30 09:56

Нечёткое сравнение строк: пойми меня, если сможешь


компьютерная лингвистика

На естественном языке сказать об одном и том же факте можно бесконечным числом способов. Можно переставлять слова местами, заменять их на синонимы, склонять по падежам (если говорим о языке с падежами) и тд.

Необходимость определять схожесть двух фраз возникла при решении одной небольшой практической задачи. Я не использовал машинное обучение, не вил нейронные сети, но использовал простые метрики и собранную статистику для калибровки коэффициентов.

Результатом работы, описанием процесса,

2017-10-12 15:24

Как научить свою нейросеть анализировать морфологию


лингвистика, компьютерная лингвистика

Недавно мы рассказывали про генератор стихов. Одной из особенностей языковой модели, лежащей в его основе, было использование морфологической разметки для получения лучшей согласованности между словами. Однако же у использованной морфоразметки был один фатальный недостаток: она была получена с помощью “закрытой” модели, недоступной для общего использования. Если точнее, выборка, на которой мы обучались, была размечена моделью, созданной для Диалога-2017 и основанной на закрытых технологиях и

2017-08-27 16:02

Разработанный в Disney ИИ научился оценивать качество текстов


искусственный интеллект, компьютерная лингвистика

 

Читать большие объёмы текстов — довольно увлекательное, но утомительное занятие. Найти в кипе посредственных рассказиков что-то стоящее тоже бывает не так уж и просто, поэтому разработчики Disney решили переложить этот неблагодарный труд на «плечи» искусственного интеллекта и создали алгоритм, способный анализировать и оценивать тексты. Совместно со специалистами Массачусетского университета Бостона команда Disney Research создала три нейронных сети, которые могут совместными усилиями

2017-08-22 16:01

Будущее веб-технологий: создаём интеллектуального чат-бота, который может слышать и говорить


алгоритмы распознавания речи, распознавание образов, компьютерная лингвистика, голосовые помощники, искусственный интеллект, чат-боты

Голосовые интерфейсы в наши дни вездесущи. Во-первых — всё больше пользователей мобильных телефонов используют голосовых помощников, таких как Siri и Cortana. Во-вторых — устройства, вроде Amazon Echo и Google Home, становятся привычным элементом интерьера. Эти системы построены на базе программного обеспечения для распознавания речи, которое позволяет пользователям общаться с машинами с помощью голосовых команд. Теперь же эстафета, в обличье Web Speech API, переходит к браузерам.

В ходе

2017-08-18 17:00

Введение в обработку естественного языка


лингвистика, компьютерная лингвистика

Введение в обработку естественного языка.

Обработка естественного языка (Natural Language Processing, NLP) — общее направление искусственного интеллекта и математической лингвистики. Оно изучает проблемы компьютерного анализа и синтеза естественных языков.

1. О курсе: идеология, содержание, структура

2. Обработка естественного языка: обзор дисциплины

3. Морфологический анализ

4. Языковые модели

5-6. Обработка языка (ОЕЯ) в задачах информационного поиска

7-9.

2017-07-25 09:10

Как научить свою нейросеть генерировать стихи


лингвистика, реализация нейронной сети, компьютерная лингвистика

Умоляю перестань мне сниться Я люблю тебя моя невеста Белый иней на твоих ресницах Поцелуй на теле бессловесном

Когда-то в школе мне казалось, что писать стихи просто: нужно всего лишь расставлять слова в нужном порядке и подбирать подходящую рифму. Следы этих галлюцинаций (или иллюзий, я их не различаю) встретили вас в эпиграфе. Только это стихотворение, конечно, не результат моего тогдашнего творчества, а продукт обученной по такому же принципу нейронной сети.

Вернее, нейронная сеть нужна

2017-06-06 10:34

Обзор исследований в области глубокого обучения: обработка естественных языков


искусственные нейронные сети, алгоритмы машинного обучения, реализация нейронной сети, проблемы машинного перевода, лингвистика, компьютерная лингвистика

Это третья статья из серии “Обзор исследований в области глубокого обучения” (Deep Learning Research Review) студента Калифорнийского университета в Лос-Анджелесе Адита Дешпанда (Adit Deshpande). Каждые две недели Адит публикует обзор и толкование исследований в определенной области глубинного обучения. В этот раз он сосредоточил свое внимание на применении глубокого обучения для обработки текстов на естественном языке.

Введение в обработку естественных языков

Введение Под обработкой

2017-05-14 22:38

В Salesforce научились убирать «воду» из текстов при помощи нейросетей


искусственный интеллект, компьютерная лингвистика

Компания рассчитывает, что созданные алгоритмами выжимки упростят чтение новостей и писем от клиентов.

Распечатки новостной ленты в редакции The New York Times, 1942 год. Фото Библиотеки Конгресса

Salesforce — разработчик самой популярной в мире CRM-системы и одна из самых дорогих компаний в области облачных технологий. В 2016 году она купила стартап MetaMind, специализирующийся на машинном обучении и обработке естественного языка.

MetaMind разработала алгоритм на базе