Компьютерная лингвистика, анализ текстов, корпусная лингвистика

МЕНЮ


Искусственный интеллект. Новости
Поиск
Регистрация на сайте

ТЕМЫ


Новости ИИРазработка ИИРабота разума и сознаниеВнедрение ИИРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информации

Авторизация



RSS


RSS новости

Новостная лента форума ailab.ru

Последние новости

 

Главные новости

2018-04-10 14:15

Применение сверточных нейронных сетей для задач NLP


пример нейронной сети, компьютерная лингвистика

Когда мы слышим о сверточных нейронных сетях (CNN), мы обычно думаем о компьютерном зрении. CNN лежали в основе прорывов в классификации изображений — знаменитый AlexNet, победитель соревнования ImageNet в 2012 году, с которого начался бум интереса к этой теме. С тех пор сверточные сети достигли большого успеха в распознавании изображений, в силу того факта, что они устроены наподобие зрительной коры головного мозга — то есть умеют концентрироваться на небольшой области и выделять в

2018-04-03 09:30

Как NLP может в корне изменить HR


компьютерная лингвистика

Вы в курсе, что NLP это не нейро-лингвистическое программирование, как некоторые думают, NLP - Natural language processing. И это второе NLP мощнее, чем первое. И если Вы знали первое NLP, то пора уже познакомиться со вторым NLP. Автор статьи - индийский HR аналитик Raja Sengupta, не самый известный, но один из самых крутых, кого я знаю. Статья из нашего проекта переводы статей по hr-аналитике на английском, перевод статьи сделали сразу три студентки Высшей Школы Экономики - Галкина

2018-03-17 16:00

Майнинг данных. Специалист по Computer Science Алексей Незнанов о проблемах искусственного интеллекта, видах майнинга данных и обработке данных в корпорациях.


искусственный интеллект, компьютерная лингвистика, большие данные big data

Майнинг данных.

Специалист по Computer Science Алексей Незнанов о проблемах искусственного интеллекта, видах майнинга данных и обработке данных в корпорациях.

Майнинг данных (калька с английского Data mining) — это термин, который сейчас в России, с одной стороны, считается не очень удачным, а с другой — становится все более распространенным. Почему так происходит? Все прочие синонимы, например «разработка данных» (от «разработки месторождений»), смешиваются с «разработкой методов».

2018-03-11 18:46

Мульти-классификация Google-запросов с использованием нейросети на Python


реализация нейронной сети, компьютерная лингвистика

Прошло уже достаточно времени с момента публикации моей первой статьи на тему обработки естественного языка. Я продолжал активно исследовать данную тему, каждый день открывая для себя что-то новое.

Сегодня я бы хотел поговорить об одном из способов классификации поисковых запросов, по отдельным категориям с помощью нейронной сети на Keras. Предметной областью запросов была выбрана сфера автомобилей.

За основу был взят датасет размером ~32000 поисковых запросов, размеченных по 14ти классам:

2018-03-02 19:00

В современном мире методы с применением искусственного интеллекта плотно интегрировались в сферу IT.


компьютерная лингвистика

Что такое обработка естественного языка?

Обработка на естественном языке (NLP) - это отрасль искусственного интеллекта (AI), которая занимается коммуникацией: как компьютер может быть запрограммирован для понимания, обработки и создания языка так же, как человек?

В то время как термин первоначально упоминал о способности системы читать, с тех пор он стал разговорным для всей компьютерной лингвистики. Подкатегории включают выработку естественного языка (НЛГ) — компьютерная способность

2018-01-24 16:24

Плагиат в научных статьях: трудности обнаружения перевода


методы машинного обучения, компьютерная лингвистика

В течение нескольких последних лет в российской научно-образовательной системе произошли существенные изменения.

Был принят и вступил в силу ряд нормативных документов, обязывающих организации обеспечивать проверки квалификационных работ (диссертаций и дипломов) на наличие заимствований. Активно используются технические средства для их обнаружения, например система «Антиплагиат». Подобные действия вынуждают недобросовестных учёных и учащихся искать новые пути использования заимствованного

2018-01-16 16:00

Определение авторства текста по частотным характеристикам


компьютерная лингвистика

Определение авторства текста по частотным характеристикам

Тема является достаточно актуальной на сегодняшний день и охватывает большой спектр целей: от отыскания автора необходимой вам статьи в интернете или запоминающегося отрывка художественного произведения до достаточно серьёзных военных целей. Рассмотренные в данной работе методы и приёмы помогают достаточно точно определить автора необходимого вам текста или сообщения, так как базируются на особенностях речи людей.

Для

2017-10-27 16:16

Нейронную сеть научили писать отличные отзывы о кафе и ресторанах


искусственные нейронные сети, компьютерная лингвистика

На отзывах держится если не весь интернет, то значительная его часть так точно. Отзывы о различных моделях устройств разных производителей, отзывы об автомобилях и запчастях, не говоря уже об отзывах посетителей ресторанов и кафе — все эти мнения служат средством оценки качества товаров и услуг. Отели, интернет-магазины, каталоги приложений — здесь везде есть, где почитать отзывы.

Маркетологи уже давно поняли, что хороший отзыв — это инструмент, позволяющий привлечь новых покупателей или

2017-09-22 18:44

Надежда Чиркова: анализ текстов


алгоритмы машинного обучения, компьютерная лингвистика

Автор занимается байесовскими методами машинного обучения. Томас Байес (1702 — 7 апреля 1761) — английский математик, пресвитерианский священник, член Лондонского королевского общества (1742)

Презентация:

2017-08-30 10:56

Исследование: искусственный интеллект берет на себя контент-менеджмент


искусственный интеллект, компьютерная лингвистика

Известно, что роботы уже способны заменить журналистов. Но такой сервис, как контент-менеджмент также находится на грани фундаментального сдвига, поскольку искусственный интеллект и машинное обучение уже способны выполнять заказы на корпоративный контент. По мере увеличения объема материалов, становится все сложнее справляться с ними. ИИ и машинное обучение имеют право изменить это, потому что алгоритмы способны лучше работать с большим количеством данных, и это потенциально может коренным

2017-08-18 12:45

Machine Learning в текстовом анализе


компьютерная лингвистика

11 августа в Калининграде завершилась пятая юбилейная Baltic Digital Days  — крупнейшая в регионе конференция по SEO и интернет-маркетингу.   В рамках секции «SEO в русскоязычном интернете» Павел Никулин (Demis Group) представил доклад на тему «Machine Learning для текстового анализа».

Выступление спикера было посвящено метрикам и алгоритмам, предназначенным для  поиска значимого текста в документе, определению его коммерческости, спамности, водности, неестественности,

2017-08-15 18:43

Визуализация результатов латентно-семантического анализа средствами Python


компьютерная лингвистика

Постановка задачи Семантический (смысловой) анализ текста – одна из ключевых проблем как теории создания систем искусственного интеллекта, относящаяся к обработке естественного языка (Natural Language Processing, NLP), так и компьютерной лингвистики. Результаты семантического анализа могут применяться для решения задач в таких областях как, например, психиатрия (для диагностирования больных), политология (предсказание результатов выборов), торговля (анализ востребованности тех или иных

2017-07-16 12:56

Программисты оживляют книги


компьютерная лингвистика

Британские учёные предложили новый метод цифровой обработки литературных произведений, который позволит визуализировать места действия в них с помощью 3D-анимации, геоинформационных систем (ГИС) и автоматического распознавания текста.

Такая система способна показать читателям «настоящую» анимированную карту Средиземья из трилогии Дж.Р.Р. Толкиена и любые другие локации, описанные в мировой литературе. На разработку выделен крупный грант, сообщается на сайте Ланкастерского университета.

2017-07-12 18:45

“Большие тексты”: алгоритм научат проверять факты в новостях и юридических документах


компьютерная лингвистика

В Образовательном центре “Сириус” команда молодых программистов проекта “Анализ текстов” создает алгоритм, способный “переваривать” большие массивы текстовых данных и находить связи между объектами, описанными в них. Например, общественными деятелями, политиками, учеными, компаниями или абстрактными понятиями. На основе алгоритма ребята планируют сделать чат-бота Telegram, который сможет проверять различные факты на истинность.

В рамках проекта “Анализ текстов” школьники в Центре “Сириус”

2017-07-08 15:08

Оказывается у Яндекса есть "Яндекс-рефераты" - забавный сервис, позволяющий генерировать наукообразный бред


компьютерная лингвистика

Вот этот сервис https://yandex.ru/referats/

А вот пример текста, сгенерированного этим сервисом:

«Классический христианско-демократический национализм: гипотеза и теории»

Социальная парадигма, как бы это ни казалось парадоксальным, символизирует прагматический христианско-демократический национализм. Иначе говоря, понятие политического конфликта представляет собой классический коллапс Советского Союза. Рационально-критическая парадигма ограничивает политический процесс в

2017-07-03 19:36

Классификация текста с помощью нейронной сети на JAVA


архитектура нейронных сетей, компьютерная лингвистика

– Наша Лена уходит в декрет, – сообщил начальник, – поэтому нам надо искать замену на время ее отсутствия. Часть задач мы распределим, а вот как быть с задачей перенаправления обращений пользователей?

Лена – это наш сотрудник технической поддержки. Одна из ее обязанностей – распределение поступающих на электронную почту обращений между специалистами. Она анализирует обращение и определяет ряд характеристик. Например, «Тип обращения»: ошибка системы, пользователю просто нужна консультация,

2017-05-20 15:00

Почему чат-боты — будущее больших данных


Чат-бот, компьютерная лингвистика

Многие впервые услышали о чат-ботах год назад, когда Facebook запустил платформу, позволяющую девелоперам создавать их самостоятельно. Тогда Facebook и другие крупные компании назвали чат-боты «восходящей звездой», революционной диалоговой утилитой, благодаря которой взаимодействие между компаниями и их клиентами вскоре изменится до неузнаваемости. Что же стало с чат-ботами? Играют ли они какую-либо роль сегодня?

Из этой статьи вы узнаете о том, как чат-боты изменили бизнес и почему они —

2017-04-18 22:04

Современные методы анализа тональности текста


компьютерная лингвистика

Анализ тональности текста (sentiment analysis) – распространенное приложение методов обработки естественного языка (natural language processing, NLP), в частности, классификации, целью которой является извлечение из текста эмоционального содержания. Таким образом, анализ тональности можно рассматривать, как метод количественного описания качественных данных, реализуемый путем присваивания некоторых оценок настроения. Хотя тональность в общем случае субъективна, количественный анализ
 

2018-05-03 12:40

Глубинное обучение в обработке и анализе текстов


компьютерная лингвистика

Какие языковые модели использовали до нейросетевой революции, возможно ли передать текст без потери структуры и семантики в память компьютера и каким образом смартфон подсказывает нам слова в сообщениях

Идея искусственной нейронной сети принадлежит Уоррену Маккаллоку и Уолтеру Питтсу. В совместном исследовании начала 40-х годов XX века они предложили формальную модель человеческого мозга — искусственную нейронную сеть, а чуть позже Фрэнк Розенблатт обобщил их работы и создал модель

2018-04-05 12:14

Как решить 90% задач NLP: пошаговое руководство по обработке естественного языка


реализация нейронной сети, алгоритмы машинного обучения, компьютерная лингвистика

Неважно, кто вы — зарекомендовавшая себя компания, или же только собираетесь запустить свой первый сервис — вы всегда можете использовать текстовые данные для того, чтобы проверить ваш продукт, усовершенствовать его и расширить его функциональность.

Обработкой естественного языка (NLP) называется активно развивающаяся научная дисциплина, занимающаяся поиском смысла и обучением на основании текстовых данных.

Как вам может помочь эта статья

2018-03-22 05:38

Интеллектуальная обработка текстов


лингвистика, компьютерная лингвистика

Работы, связанные с естественным языком, — это одна из ключевых задач для создания искусственного интеллекта. Их сложность долгое время сильно недооценивали. Одной из причин для раннего оптимизма в области естественного языка были пионерские работы Ноама Хомского о порождающих грамматиках. В своей книге «Синтаксические структуры» и других работах Хомский предложил идею, которая сейчас кажется совершенно обычной, но тогда произвела революцию: он преобразовал предложение на естественном языке в

2018-03-09 11:30

Нулевой смысл текста . В семиотической традиции текст рассматривается как знак с собственным содержанием.


компьютерная лингвистика, лингвистика

Нулевой смысл текста

В семиотической традиции текст рассматривается как знак с собственным содержанием. Это содержание в трех пространствах знака: семантическом, синтаксическом и прагматическом, — оформляется тремя смыслами. Принципиально, что текст гетерогенен с точки зрения смысловой организации. Три пространства, или три сферы опыта — бытийное, мыслительное и коммуникативное, — объединенные в тексте, фокусируют на себе текстовые смыслы: нарративный, типологический и паралогический. Эти

2018-02-26 21:05

Две модели лучше одной. Опыт Яндекс.Переводчика


машинный перевод текста, ИИ проекты, реализация нейронной сети, компьютерная лингвистика

Когда-то мы уже рассказывали о том, как появился и развивался машинный перевод. С тех пор произошло ещё одно историческое событие – его наконец-то покорили нейронные сети и глубокое обучение. Среди задач обработки естественного языка (Natural Language Processing, NLP) машинный перевод одним из первых получил строгое статистическое основание — еще в начале 1990-х. Но в сфере глубокого обучения он оказался относительно запоздавшим участником. В этом посте мы — команда Яндекса по машинному

2018-02-20 19:50

Главные достижения в области обработки естественного языка в 2017 году


компьютерная лингвистика, поисковые системы

Всем привет. Сразу поделим аудиторию на две части — тех, кто любит смотреть видео, и тех, кто, как я, лучше воспринимает тексты. Чтобы не томить первых, запись моего выступления на Дата-Ёлке:

Там есть все основные моменты, но формат выступления не предполагает подробного рассмотрения статей. Любители ссылок и подробных разборов, добро пожаловать под кат.

Те, кто дочитал до этого места, наконец, могут узнать, что все ниже написанное может быть использовано против них в

2018-02-03 12:18

«Священнику, хозяину дома, мне и людям»


лингвистика, компьютерная лингвистика

На прошлой неделе канал CTV News опубликовал сообщение о том, что двум канадским лингвистам удалось определить язык, на котором написана рукопись Войнича. Гжегож Кондрак и Брэдли Хауэр с помощью алгоритма искусственного интеллекта установили, что это скорее всего иврит, и даже сумели прочитать несколько слов и получить относительно осмысленный перевод. Это известие взбудоражило российские СМИ, однако позже выяснилось, что, во-первых, речь идет не о новой, а о старой работе (статья с ее

2018-01-26 14:00

Как я сделал AI для выявления фейковых новостей с точностью в 95% и чуть не рехнулся


примеры ии, компьютерная лингвистика

Краткий пересказ: мы сделали программу, определяющую надежность новостей с точностью 95% (на валидационной выборке) при помощи машинного обучения и технологий обработки естественного языка. Скачать ее можно здесь. В условиях реальной действительности точность может оказаться несколько ниже, особенно по прошествии некоторого времени, так как каноны написания новостных статей будут меняться.

Глядя, как бурно развиваются машинное обучение и обработка естественного языка, я подумал: чем черт не

2018-01-15 18:26

Компьютер обошел людей в понимании прочитанного


компьютерная лингвистика, ИТ-гиганты

giphy.com

Сразу два алгоритма обработки естественного языка — программы, созданные Alibaba Group и Microsoft, — обошли людей в тесте на извлечение ответов на вопросы из прочитанного материала. Об этом сообщает Bloomberg. 

Компьютеры догоняют (и даже превосходят) людей во многих сферах: например, могут создавать оригинальные произведения искусства, писать музыку, сочинять стихи и придумывать оригинальные новогодние поздравления. При этом некоторые виды деятельности

2017-11-17 12:51

Классификация на гуманитариев и технарей по комментариям в VK


компьютерная лингвистика, анализ социальных сетей, реализация нейронной сети

Хочу поделиться своим опытом классификации пользователей социальной сети по их комментариям на два класса по складу ума: гуманитарный или технический. В данной статье не будут использоваться последние достижения глубокого обучения, но будет разобран завершенный проект по классификации текстов: от поиска подходящих данных до предсказаний. В конце будет представлено веб-приложение, в котором вы сможете проверить себя.

Постановка задачи

Задача в нашем случае бинарной классификации

2017-10-30 09:56

Нечёткое сравнение строк: пойми меня, если сможешь


компьютерная лингвистика

На естественном языке сказать об одном и том же факте можно бесконечным числом способов. Можно переставлять слова местами, заменять их на синонимы, склонять по падежам (если говорим о языке с падежами) и тд.

Необходимость определять схожесть двух фраз возникла при решении одной небольшой практической задачи. Я не использовал машинное обучение, не вил нейронные сети, но использовал простые метрики и собранную статистику для калибровки коэффициентов.

Результатом работы, описанием процесса,

2017-10-12 15:24

Как научить свою нейросеть анализировать морфологию


лингвистика, компьютерная лингвистика

Недавно мы рассказывали про генератор стихов. Одной из особенностей языковой модели, лежащей в его основе, было использование морфологической разметки для получения лучшей согласованности между словами. Однако же у использованной морфоразметки был один фатальный недостаток: она была получена с помощью “закрытой” модели, недоступной для общего использования. Если точнее, выборка, на которой мы обучались, была размечена моделью, созданной для Диалога-2017 и основанной на закрытых технологиях и

2017-08-27 16:02

Разработанный в Disney ИИ научился оценивать качество текстов


искусственный интеллект, компьютерная лингвистика

 

Читать большие объёмы текстов — довольно увлекательное, но утомительное занятие. Найти в кипе посредственных рассказиков что-то стоящее тоже бывает не так уж и просто, поэтому разработчики Disney решили переложить этот неблагодарный труд на «плечи» искусственного интеллекта и создали алгоритм, способный анализировать и оценивать тексты. Совместно со специалистами Массачусетского университета Бостона команда Disney Research создала три нейронных сети, которые могут совместными усилиями

2017-08-22 16:01

Будущее веб-технологий: создаём интеллектуального чат-бота, который может слышать и говорить


алгоритмы распознавания речи, распознавание образов, компьютерная лингвистика, голосовые помощники, искусственный интеллект, чат-боты

Голосовые интерфейсы в наши дни вездесущи. Во-первых — всё больше пользователей мобильных телефонов используют голосовых помощников, таких как Siri и Cortana. Во-вторых — устройства, вроде Amazon Echo и Google Home, становятся привычным элементом интерьера. Эти системы построены на базе программного обеспечения для распознавания речи, которое позволяет пользователям общаться с машинами с помощью голосовых команд. Теперь же эстафета, в обличье Web Speech API, переходит к браузерам.

В ходе

2017-08-18 17:00

Введение в обработку естественного языка


лингвистика, компьютерная лингвистика

Введение в обработку естественного языка.

Обработка естественного языка (Natural Language Processing, NLP) — общее направление искусственного интеллекта и математической лингвистики. Оно изучает проблемы компьютерного анализа и синтеза естественных языков.

1. О курсе: идеология, содержание, структура

2. Обработка естественного языка: обзор дисциплины

3. Морфологический анализ

4. Языковые модели

5-6. Обработка языка (ОЕЯ) в задачах информационного поиска

7-9.

2017-07-25 09:10

Как научить свою нейросеть генерировать стихи


лингвистика, реализация нейронной сети, компьютерная лингвистика

Умоляю перестань мне сниться Я люблю тебя моя невеста Белый иней на твоих ресницах Поцелуй на теле бессловесном

Когда-то в школе мне казалось, что писать стихи просто: нужно всего лишь расставлять слова в нужном порядке и подбирать подходящую рифму. Следы этих галлюцинаций (или иллюзий, я их не различаю) встретили вас в эпиграфе. Только это стихотворение, конечно, не результат моего тогдашнего творчества, а продукт обученной по такому же принципу нейронной сети.

Вернее, нейронная сеть нужна

2017-06-06 10:34

Обзор исследований в области глубокого обучения: обработка естественных языков


искусственные нейронные сети, алгоритмы машинного обучения, реализация нейронной сети, машинный перевод текста, лингвистика, компьютерная лингвистика

Это третья статья из серии “Обзор исследований в области глубокого обучения” (Deep Learning Research Review) студента Калифорнийского университета в Лос-Анджелесе Адита Дешпанда (Adit Deshpande). Каждые две недели Адит публикует обзор и толкование исследований в определенной области глубинного обучения. В этот раз он сосредоточил свое внимание на применении глубокого обучения для обработки текстов на естественном языке.

Введение в обработку естественных языков

Введение Под обработкой

2017-05-14 22:38

В Salesforce научились убирать «воду» из текстов при помощи нейросетей


искусственный интеллект, компьютерная лингвистика

Компания рассчитывает, что созданные алгоритмами выжимки упростят чтение новостей и писем от клиентов.

Распечатки новостной ленты в редакции The New York Times, 1942 год. Фото Библиотеки Конгресса

Salesforce — разработчик самой популярной в мире CRM-системы и одна из самых дорогих компаний в области облачных технологий. В 2016 году она купила стартап MetaMind, специализирующийся на машинном обучении и обработке естественного языка.

MetaMind разработала алгоритм на базе