Команда НГУ заняла первое место в престижном международном соревновании по компьютерной лингвистике SemEval-2026?

2026-03-17 12:04

Команда исследователей из Новосибирского государственного университета заняла первое место в международном научном соревновании SemEval-2026 Task 8 «MTRAGEval: Evaluating Multi-Turn RAG Conversations». Руководителем команды был индустриальный доцент НГУ, научный сотрудник лаборатории прикладных цифровых технологий Механико-математического факультета НГУ, доцент Иван Бондаренко. Результаты работы, проделанной в рамках конкурса, будут представлены на крупнейшей в мире конференции по компьютерной лингвистике ACL, которая пройдет летом 2026 года.

Соревнование проводилось компанией IBM и включало в себя три трека. Команда НГУ участвовала в Task B — задаче генерации ответов на вопросы пользователя с учетом предоставленных справочных документов и истории многошагового диалога. Из 26 команд-участников команда НГУ заняла первое место, достигнув метрики качества 0,7827 (conditioned harmonic mean), что значительно превосходит лучший базовый результат организаторов (0,6390) на 14,4 процентных пункта.

SemEval (Semantic Evaluation) — ежегодный международный воркшоп по методам и алгоритмам вычислительной семантики, который проводится уже более 20 лет. В рамках этого мероприятия проходят соревнования по различным направлениям компьютерной лингвистики. В этом году в рамках соревнования SemEval участникам были представлены 13 сложных исследовательских задач. Одной из самых интересных и значимых задач являлась задача 8 (Task 8), посвящённая оценке качества работы систем RAG (Retrieval-Augmented Generation — генерация, дополненная поиском) в многошаговых диалогах. Подобные RAG-системы решают ключевую проблему современных больших языковых моделей: ограниченность картины мира и сложность адаптации к специализированным предметным областям. Дело в том, что "знания" большой языковой модели ограничены обучающей выборкой и не включают актуальную или доменно-специфичную информацию. RAG интегрирует языковые модели с внешними базами знаний, позволяя им находить и использовать актуальную информацию при генерации ответов.

— Наша команда предложила три ключевых подхода, обеспечивших победу в соревновании. Первый заключался в итеративном улучшении системного промпта с помощью LLM-агента. Мы разработали мультиагентную систему, в которой большая нейросеть Gemini анализирует результаты работы модели и предлагает улучшения для системного промпта. Процесс повторяется итеративно до выхода на плато качества. Вторым подходом стало применение метода In-context learning (обучение в контексте), при котором модель учится выполнять задачу на основе нескольких примеров правильного решения этой задачи, предоставленных во входном контексте. Для каждой категории задач исследователи выбирали наиболее типичные примеры с помощью метода медоид в метрическом пространстве эмбеддингов. Эти примеры добавлялись в промпт для демонстрации правильного поведения модели. Данный подход стабильно показывал лучшие результаты, — пояснил Иван Бондаренко.

Исследователи создали несколько сетевых алгоритмов с применением обоих подходов и произвели оценку их преимуществ, а затем решили объединить их. Из множества методов ансамблирования был выбран вариант с использованием нейросети-судьи, которая выбирала бы лучший из ответов ансамбля в каждом конкретном случае. Команда объединила семь разнородных языковых моделей (Gemini-3-Pro-Preview, GLM-4.6, Llama-3.3-70B-Instruct, Qwen3-235B-A22B-Instruct, Claude 4.5 Haiku, Qwen2.5-32B-Instruct и собственную модель Meno-Lite-0.1) и использовала GPT-4o-mini для выбора лучшего ответа в каждом конкретном случае. Разнообразие моделей и подходов обеспечило дополнительный прирост качества.

— Особого внимания заслуживает модель Meno-Lite-0.1 — собственная разработка нашей команды на базе Qwen2.5-7B-Instruct. Эта компактная модель с 7 миллиардами параметров была специально дообучена нами для работы в RAG-пайплайнах на корпусе русско- и англоязычных образовательных данных. Несмотря на небольшой размер, Meno-Lite показала качество, сопоставимое с моделями значительно большего размера, и внесла вклад в итоговый результат ансамбля, — пояснил Иван Бондаренко.

В состав команды НГУ, участвовавшей в конкурсе, вошли действующие и бывшие студенты и сотрудники НГУ: магистрант программы по машинному обучению, реализуемой совместно с ШАДом и ММФ НГУ Михаил Кулаков, четверокурсник Института интеллектуальной робототехники НГУ Иван Чернов, выпускник Института интеллектуальной робототехники НГУ, главный инженер открытого проекта RAGU Михаил Комаров, выпускник факультета информационных технологий НГУ Олег Седухин и выпускник Института интеллектуальной робототехники НГУ, участник проекта Meno Роман Дерунец.

Научная статья с описанием предлагаемого ими в рамках конкурса решения отправлена на рецензирование и будет представлена на конференции ACL (Association for Computational Linguistics) — крупнейшем в мире научном форуме по компьютерной лингвистике. Иван Бондаренко подчеркнул, что полученные результаты уже применяются в развитии внутреннего проекта университета Meno — интеллектуальной системы на базе технологий RAG. Разработанные участниками команды методы могут использоваться для улучшения качества диалоговых систем, работающих с внешними базами знаний, включая корпоративные и образовательные приложения.

Телеграм: t.me/ainewsline

Источник: vk.com



		Команда НГУ заняла первое место в престижном международном соревновании по компьютерной лингвистике SemEval-2026?
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2026-03-17 12:04 алгоритмы машинного обучения Команда исследователей из Новосибирского государственного университета заняла первое место в международном научном соревновании SemEval-2026 Task 8 «MTRAGEval: Evaluating Multi-Turn RAG Conversations». Руководителем команды был индустриальный доцент НГУ, научный сотрудник лаборатории прикладных цифровых технологий Механико-математического факультета НГУ, доцент Иван Бондаренко. Результаты работы, проделанной в рамках конкурса, будут представлены на крупнейшей в мире конференции по компьютерной лингвистике ACL, которая пройдет летом 2026 года. Соревнование проводилось компанией IBM и включало в себя три трека. Команда НГУ участвовала в Task B — задаче генерации ответов на вопросы пользователя с учетом предоставленных справочных документов и истории многошагового диалога. Из 26 команд-участников команда НГУ заняла первое место, достигнув метрики качества 0,7827 (conditioned harmonic mean), что значительно превосходит лучший базовый результат организаторов (0,6390) на 14,4 процентных пункта. SemEval (Semantic Evaluation) — ежегодный международный воркшоп по методам и алгоритмам вычислительной семантики, который проводится уже более 20 лет. В рамках этого мероприятия проходят соревнования по различным направлениям компьютерной лингвистики. В этом году в рамках соревнования SemEval участникам были представлены 13 сложных исследовательских задач. Одной из самых интересных и значимых задач являлась задача 8 (Task 8), посвящённая оценке качества работы систем RAG (Retrieval-Augmented Generation — генерация, дополненная поиском) в многошаговых диалогах. Подобные RAG-системы решают ключевую проблему современных больших языковых моделей: ограниченность картины мира и сложность адаптации к специализированным предметным областям. Дело в том, что "знания" большой языковой модели ограничены обучающей выборкой и не включают актуальную или доменно-специфичную информацию. RAG интегрирует языковые модели с внешними базами знаний, позволяя им находить и использовать актуальную информацию при генерации ответов. — Наша команда предложила три ключевых подхода, обеспечивших победу в соревновании. Первый заключался в итеративном улучшении системного промпта с помощью LLM-агента. Мы разработали мультиагентную систему, в которой большая нейросеть Gemini анализирует результаты работы модели и предлагает улучшения для системного промпта. Процесс повторяется итеративно до выхода на плато качества. Вторым подходом стало применение метода In-context learning (обучение в контексте), при котором модель учится выполнять задачу на основе нескольких примеров правильного решения этой задачи, предоставленных во входном контексте. Для каждой категории задач исследователи выбирали наиболее типичные примеры с помощью метода медоид в метрическом пространстве эмбеддингов. Эти примеры добавлялись в промпт для демонстрации правильного поведения модели. Данный подход стабильно показывал лучшие результаты, — пояснил Иван Бондаренко. Исследователи создали несколько сетевых алгоритмов с применением обоих подходов и произвели оценку их преимуществ, а затем решили объединить их. Из множества методов ансамблирования был выбран вариант с использованием нейросети-судьи, которая выбирала бы лучший из ответов ансамбля в каждом конкретном случае. Команда объединила семь разнородных языковых моделей (Gemini-3-Pro-Preview, GLM-4.6, Llama-3.3-70B-Instruct, Qwen3-235B-A22B-Instruct, Claude 4.5 Haiku, Qwen2.5-32B-Instruct и собственную модель Meno-Lite-0.1) и использовала GPT-4o-mini для выбора лучшего ответа в каждом конкретном случае. Разнообразие моделей и подходов обеспечило дополнительный прирост качества. — Особого внимания заслуживает модель Meno-Lite-0.1 — собственная разработка нашей команды на базе Qwen2.5-7B-Instruct. Эта компактная модель с 7 миллиардами параметров была специально дообучена нами для работы в RAG-пайплайнах на корпусе русско- и англоязычных образовательных данных. Несмотря на небольшой размер, Meno-Lite показала качество, сопоставимое с моделями значительно большего размера, и внесла вклад в итоговый результат ансамбля, — пояснил Иван Бондаренко. В состав команды НГУ, участвовавшей в конкурсе, вошли действующие и бывшие студенты и сотрудники НГУ: магистрант программы по машинному обучению, реализуемой совместно с ШАДом и ММФ НГУ Михаил Кулаков, четверокурсник Института интеллектуальной робототехники НГУ Иван Чернов, выпускник Института интеллектуальной робототехники НГУ, главный инженер открытого проекта RAGU Михаил Комаров, выпускник факультета информационных технологий НГУ Олег Седухин и выпускник Института интеллектуальной робототехники НГУ, участник проекта Meno Роман Дерунец. Научная статья с описанием предлагаемого ими в рамках конкурса решения отправлена на рецензирование и будет представлена на конференции ACL (Association for Computational Linguistics) — крупнейшем в мире научном форуме по компьютерной лингвистике. Иван Бондаренко подчеркнул, что полученные результаты уже применяются в развитии внутреннего проекта университета Meno — интеллектуальной системы на базе технологий RAG. Разработанные участниками команды методы могут использоваться для улучшения качества диалоговых систем, работающих с внешними базами знаний, включая корпоративные и образовательные приложения. Телеграм: t.me/ainewsline Источник: vk.com Комментарии:

Команда НГУ заняла первое место в престижном международном соревновании по компьютерной лингвистике SemEval-2026?

Комментарии: