RuSentNE

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2023-01-13 19:18

Семинары

До 10 марта открыт прием заявок на международную конференцию по компьютерной лингвистике и интеллектуальным технологиям «Диалог». Традиционно в рамках конференции проходят разнообразные соревнования. Одно из них, соревнование RuSentNE, направлено на создание систем для анализа тональности по отношению к именованным сущностям в новостных текстах. Мы спросили у Натальи Валентиновны Лукашевич, профессора кафедры и одного из организаторов конференции, как принять участие в этом соревновании и не занять последнее место.

— Тестирование RuSentNE проводится на основе нового размеченного корпуса новостных статей. В статьях размечены именованные сущности и для выделенных сущностей описана достаточно разнообразная информация, включая тональность автора по отношению к сущности, позитивные или негативные отношения между сущностями (например, между странами), позитивные или негативные последствия от происходящих событий для сущности, эмоциональное состояние сущностей, которое явно описывается или косвенно может быть выведено из текста.

Тестирование проводится в системе codalab: https://codalab.lisn.upsaclay.fr/competitions/9538. Все уже полностью готово к приему участников, можно пробовать. Сейчас в системе один участник baseline — это модель BERT, обученная на предоставленных обучающих данных, в очень простой конфигурации — тональность предсказывается на основе классификации токена представления предложения CLS. Таким образом, базовое решение очень простое, и главное для начинающего участника превысить этот baseline.

Для получения хороших результатов может быть несколько вариантов:

1. Сделать классификацию именно для сущности, выделив ее каким-либо образом;

2. Поискать какие-то улучшенные языковые модели по сравнению с базовой моделью BERT, которые появились за последнее время;

3. Поискать похожие данные на других языках или полезные размеченные данные на русском языке, которые можно использовать для предобучения модели.

Разметка делается в системе BRAT, в том числе в разметке участвовали студенты кафедры в рамках практики. Ниже представлен фрагмент разметки в системе BRAT.

Для тестирования RuSentNE используется пока самая простая часть разметки: корпус разрезан на предложения, и нужно автоматически определить, какое отношение (позитивное, негативное или нейтральное) в этом предложении высказывается по отношению к упомянутой сущности. В приведенном ниже примере о политике из Мали по имени Диарра высказывается негативное мнение. В датасете разметка представлена в csv файле.


Источник: www.dialog-21.ru

Комментарии: