Определение токсичных комментариев на русском языке

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Классификация оскорбительных и агрессивных комментариев в VK.

В свете происходящих событий количество агрессивных комментариев только растет. Для администратора группы негативные последствия заключаются в потере потенциальной прибыли - разместить рекламу в особо токсичном и агрессивном сообществе желающих немного, также уход подписчиков эквивалентен потере прибыли и так далее.

Конечно,это лишь малая часть проблем,но дабы не растягивать пост,я оставлю лишь описанные выше проблемы. Ближе к сути!

Задачей классификацией комментариев на русском языке занималось большое количество исследователей. Лучших результатов добились исследователи из VK https://habr.com/ru/company/vk/blog/526268/. Стоит заметить что для подобных целей в открытом доступе есть лишь один набор данных на русском языке, что конечно не есть хорошо.

Моя идея состояло в следующем: использовать многоязыковую модель типа seq2seq для расширение имеющегося набора данных — по сути применить аугументацию для русскоязычного текста. Попытаться как можно качественней провести препроцессинг текстовых данных,учитывая особенности русского языка, во многом мне помог морфологический анализатор pymorphy2 и несколько комбинации рукописных функции для улучшения лемматизации текста. Векторизация слов производилась старой, тупой TF-IDF мерой. Логистическая регрессия оказалось лучшей среди классических моделей машинного обучения:

precision: 92%

ROC-AUC score: 97.3%

recall : 90%

В качестве модели глубокого обучения была выбрана рекуррентная нейронная сеть. В качестве основной метрики выбрал f1 — скор составил 93,94%(Это почти на два процента выше,чем у VK) остальные метрики также немногим выше.

Протестировал на конкретных сообществах в VK. Из 265 комментариев я пометил 91 как агрессивные. Нейронная сеть и логистическая регрессия замечательно справились с поставленной задачей , нейронная сеть смогла найти 89 агрессивных комментариев из них 87 сошлись с помеченными мною в ручную комментариями, логистическая регрессия обнаружила 86 из них 84 совпали с моими метками. Не стоит забывать , что сам процесс разметки данных — процесс субъективный для данной задачи.

Идеи для улучшения в ближайшем будущем:

Применить эмбеддинги — судя по свежим научным статьям — это очень мощный инструмент , из вариантов ruBERT и NAVEC,FASTTEXT.

В ходе обучения моделей — я заметил, что композиция деревьев решений или Лог регрессия не сильно привязаны к гиперпараметрам, вернее результативность их не сильно меняется в зависимости от переданных гиперпараметров. А вот модели глубокого обучения очень чувствительны — как вариант применить решеточный поиск гиперпараметров.

Попробовать использовать GAN-сети — однако, первый мой опыт показал,что GAN-сети не слишком хороший вариант для последовательностей, выявление теоретико-игрового равновесия действительно работает для последовательностей гораздо хуже, чем для изображений.

Планы на далекое будущее :

Масштабировать возможности модели на английский, украинский языки.(Классификация оскорбительных комментариев на данных языках)

Возможность классификации видеоконтента и аудиоконтента, а также изображений.

Ну и конечно расширить имеющийся набор данных

P.S. Если у вас вдруг есть набор данных на русском языке или идеи для улучшения — могу поделиться наработкой.

P.S.2 На втором фото представлена малая часть обнаруженных моделью агрессивных комментариев - комментарии получены с помощью Vk_api с поста ниже:

https://vk.com/im?sel=643356592&z=video-2044704_456245331%2F5082e7be89cb35bff7%2Fpl_post_-2044704_956385


Источник: habr.com

Комментарии: