Российская система ИИ превзошла зарубежные аналоги при анализе тематики текстов |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2024-06-27 13:10 Разработанный алгоритм представляет собой систему машинного обучения, которая способна анализировать произвольные тексты и определять их тематику, опираясь на так называемое распределение Дирихле, математический инструмент, в том числе позволяющий определять принадлежность каждого слова в тексте к большому числу разных тематик Российские ученые сравнили эффективность работы нескольких популярных систем ИИ для определения тематической принадлежности текстов и пришли к выводу, что разработанный в России алгоритм машинного обучения GLDAW лучше всего справляется с этой задачей. Об этом в четверг сообщила пресс-служба НИУ ВШЭ."Человеку обычно заранее не известно, сколько тем присутствует в информационном потоке, поэтому задачу определения числа тем надо переложить на машину. Для этого мы предложили измерять определенную величину информации как противоположную от хаоса. Если хаоса много, то информации мало, и наоборот. Это позволяет оценивать число тем, присущих датасету. Эти принципы мы применили в модели GLDAW", - пояснил ведущий научный сотрудник НИУ ВШЭ Сергей Кольцов, чьи слова приводит пресс-служба вуза. Разработанный алгоритм представляет собой систему машинного обучения, которая способна анализировать произвольные тексты и определять их тематику, опираясь на так называемое распределение Дирихле, математический инструмент, в том числе позволяющий определять принадлежность каждого слова в тексте к большому числу разных тематик. В дополнение к распределению Дирихле, разработка российских ученых также использует в своей работе так называемые векторные представления слов, математические конструкции, кодирующие значение фраз и текстов и позволяющие более точно оценить их сходство друг с другом. Работу этой системы анализа текстов Кольцов и его коллеги сравнили с четырьмя популярными алгоритмами, в том числе с двумя нейросетями (GSM и WTM-GMM), а также с системами ETM и W-LDA, которые также используют в своей работе распределение Дирихле. Для проведения подобного сравнения исследователи подготовили три набора текстов. Один из них состоял из 8,6 тыс. русскоязычных новостей, опубликованных в одном из ведущих российских онлайн-СМИ. Два других содержали в себе несколько десятков тысяч англоязычных новостных сообщений по двум десяткам различных тематик, а также коротких описаний научных статей, размещенных в базе Web of Science. Проведенный учеными анализ показал, что российская система GLDAW, а также зарубежный алгоритм ETM, значительным образом превзошли нейросети и подход W-LDA сразу по нескольким параметрам при классификации тематик и русскоязычных, и англоязычных текстов. При этом алгоритм GLDAW не требует дополнительного обучения и обладает более высокой стабильностью, чем ETM, что делает его пока самым лучшим инструментом для анализа тематики текстов, подытожили исследователи. Источник: nauka.tass.ru Комментарии: |
|