Российская система ИИ превзошла зарубежные аналоги при анализе тематики текстов

2024-06-27 13:10

Разработанный алгоритм представляет собой систему машинного обучения, которая способна анализировать произвольные тексты и определять их тематику, опираясь на так называемое распределение Дирихле, математический инструмент, в том числе позволяющий определять принадлежность каждого слова в тексте к большому числу разных тематик

Российские ученые сравнили эффективность работы нескольких популярных систем ИИ для определения тематической принадлежности текстов и пришли к выводу, что разработанный в России алгоритм машинного обучения GLDAW лучше всего справляется с этой задачей. Об этом в четверг сообщила пресс-служба НИУ ВШЭ.

"Человеку обычно заранее не известно, сколько тем присутствует в информационном потоке, поэтому задачу определения числа тем надо переложить на машину. Для этого мы предложили измерять определенную величину информации как противоположную от хаоса. Если хаоса много, то информации мало, и наоборот. Это позволяет оценивать число тем, присущих датасету. Эти принципы мы применили в модели GLDAW", - пояснил ведущий научный сотрудник НИУ ВШЭ Сергей Кольцов, чьи слова приводит пресс-служба вуза.

В дополнение к распределению Дирихле, разработка российских ученых также использует в своей работе так называемые векторные представления слов, математические конструкции, кодирующие значение фраз и текстов и позволяющие более точно оценить их сходство друг с другом. Работу этой системы анализа текстов Кольцов и его коллеги сравнили с четырьмя популярными алгоритмами, в том числе с двумя нейросетями (GSM и WTM-GMM), а также с системами ETM и W-LDA, которые также используют в своей работе распределение Дирихле.

Для проведения подобного сравнения исследователи подготовили три набора текстов. Один из них состоял из 8,6 тыс. русскоязычных новостей, опубликованных в одном из ведущих российских онлайн-СМИ. Два других содержали в себе несколько десятков тысяч англоязычных новостных сообщений по двум десяткам различных тематик, а также коротких описаний научных статей, размещенных в базе Web of Science.

Проведенный учеными анализ показал, что российская система GLDAW, а также зарубежный алгоритм ETM, значительным образом превзошли нейросети и подход W-LDA сразу по нескольким параметрам при классификации тематик и русскоязычных, и англоязычных текстов. При этом алгоритм GLDAW не требует дополнительного обучения и обладает более высокой стабильностью, чем ETM, что делает его пока самым лучшим инструментом для анализа тематики текстов, подытожили исследователи.

Источник: nauka.tass.ru



		Российская система ИИ превзошла зарубежные аналоги при анализе тематики текстов
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2024-06-27 13:10 компьютерная лингвистика Разработанный алгоритм представляет собой систему машинного обучения, которая способна анализировать произвольные тексты и определять их тематику, опираясь на так называемое распределение Дирихле, математический инструмент, в том числе позволяющий определять принадлежность каждого слова в тексте к большому числу разных тематик Российские ученые сравнили эффективность работы нескольких популярных систем ИИ для определения тематической принадлежности текстов и пришли к выводу, что разработанный в России алгоритм машинного обучения GLDAW лучше всего справляется с этой задачей. Об этом в четверг сообщила пресс-служба НИУ ВШЭ. "Человеку обычно заранее не известно, сколько тем присутствует в информационном потоке, поэтому задачу определения числа тем надо переложить на машину. Для этого мы предложили измерять определенную величину информации как противоположную от хаоса. Если хаоса много, то информации мало, и наоборот. Это позволяет оценивать число тем, присущих датасету. Эти принципы мы применили в модели GLDAW", - пояснил ведущий научный сотрудник НИУ ВШЭ Сергей Кольцов, чьи слова приводит пресс-служба вуза. Разработанный алгоритм представляет собой систему машинного обучения, которая способна анализировать произвольные тексты и определять их тематику, опираясь на так называемое распределение Дирихле, математический инструмент, в том числе позволяющий определять принадлежность каждого слова в тексте к большому числу разных тематик. В дополнение к распределению Дирихле, разработка российских ученых также использует в своей работе так называемые векторные представления слов, математические конструкции, кодирующие значение фраз и текстов и позволяющие более точно оценить их сходство друг с другом. Работу этой системы анализа текстов Кольцов и его коллеги сравнили с четырьмя популярными алгоритмами, в том числе с двумя нейросетями (GSM и WTM-GMM), а также с системами ETM и W-LDA, которые также используют в своей работе распределение Дирихле. Для проведения подобного сравнения исследователи подготовили три набора текстов. Один из них состоял из 8,6 тыс. русскоязычных новостей, опубликованных в одном из ведущих российских онлайн-СМИ. Два других содержали в себе несколько десятков тысяч англоязычных новостных сообщений по двум десяткам различных тематик, а также коротких описаний научных статей, размещенных в базе Web of Science. Проведенный учеными анализ показал, что российская система GLDAW, а также зарубежный алгоритм ETM, значительным образом превзошли нейросети и подход W-LDA сразу по нескольким параметрам при классификации тематик и русскоязычных, и англоязычных текстов. При этом алгоритм GLDAW не требует дополнительного обучения и обладает более высокой стабильностью, чем ETM, что делает его пока самым лучшим инструментом для анализа тематики текстов, подытожили исследователи. Источник: nauka.tass.ru Комментарии:

Российская система ИИ превзошла зарубежные аналоги при анализе тематики текстов

Комментарии: