Российская система ИИ превзошла зарубежные аналоги при анализе тематики текстов

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Разработанный алгоритм представляет собой систему машинного обучения, которая способна анализировать произвольные тексты и определять их тематику, опираясь на так называемое распределение Дирихле, математический инструмент, в том числе позволяющий определять принадлежность каждого слова в тексте к большому числу разных тематик

Российские ученые сравнили эффективность работы нескольких популярных систем ИИ для определения тематической принадлежности текстов и пришли к выводу, что разработанный в России алгоритм машинного обучения GLDAW лучше всего справляется с этой задачей. Об этом в четверг сообщила пресс-служба НИУ ВШЭ.

"Человеку обычно заранее не известно, сколько тем присутствует в информационном потоке, поэтому задачу определения числа тем надо переложить на машину. Для этого мы предложили измерять определенную величину информации как противоположную от хаоса. Если хаоса много, то информации мало, и наоборот. Это позволяет оценивать число тем, присущих датасету. Эти принципы мы применили в модели GLDAW", - пояснил ведущий научный сотрудник НИУ ВШЭ Сергей Кольцов, чьи слова приводит пресс-служба вуза.

Разработанный алгоритм представляет собой систему машинного обучения, которая способна анализировать произвольные тексты и определять их тематику, опираясь на так называемое распределение Дирихле, математический инструмент, в том числе позволяющий определять принадлежность каждого слова в тексте к большому числу разных тематик.

В дополнение к распределению Дирихле, разработка российских ученых также использует в своей работе так называемые векторные представления слов, математические конструкции, кодирующие значение фраз и текстов и позволяющие более точно оценить их сходство друг с другом. Работу этой системы анализа текстов Кольцов и его коллеги сравнили с четырьмя популярными алгоритмами, в том числе с двумя нейросетями (GSM и WTM-GMM), а также с системами ETM и W-LDA, которые также используют в своей работе распределение Дирихле.

Для проведения подобного сравнения исследователи подготовили три набора текстов. Один из них состоял из 8,6 тыс. русскоязычных новостей, опубликованных в одном из ведущих российских онлайн-СМИ. Два других содержали в себе несколько десятков тысяч англоязычных новостных сообщений по двум десяткам различных тематик, а также коротких описаний научных статей, размещенных в базе Web of Science.

Проведенный учеными анализ показал, что российская система GLDAW, а также зарубежный алгоритм ETM, значительным образом превзошли нейросети и подход W-LDA сразу по нескольким параметрам при классификации тематик и русскоязычных, и англоязычных текстов. При этом алгоритм GLDAW не требует дополнительного обучения и обладает более высокой стабильностью, чем ETM, что делает его пока самым лучшим инструментом для анализа тематики текстов, подытожили исследователи.


Источник: nauka.tass.ru

Комментарии: