Определение токсичных комментариев на русском языке |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2022-05-11 19:32 Классификация оскорбительных и агрессивных комментариев в VK. В свете происходящих событий количество агрессивных комментариев только растет. Для администратора группы негативные последствия заключаются в потере потенциальной прибыли - разместить рекламу в особо токсичном и агрессивном сообществе желающих немного, также уход подписчиков эквивалентен потере прибыли и так далее. Конечно,это лишь малая часть проблем,но дабы не растягивать пост,я оставлю лишь описанные выше проблемы. Ближе к сути! Задачей классификацией комментариев на русском языке занималось большое количество исследователей. Лучших результатов добились исследователи из VK https://habr.com/ru/company/vk/blog/526268/. Стоит заметить что для подобных целей в открытом доступе есть лишь один набор данных на русском языке, что конечно не есть хорошо. Моя идея состояло в следующем: использовать многоязыковую модель типа seq2seq для расширение имеющегося набора данных — по сути применить аугументацию для русскоязычного текста. Попытаться как можно качественней провести препроцессинг текстовых данных,учитывая особенности русского языка, во многом мне помог морфологический анализатор pymorphy2 и несколько комбинации рукописных функции для улучшения лемматизации текста. Векторизация слов производилась старой, тупой TF-IDF мерой. Логистическая регрессия оказалось лучшей среди классических моделей машинного обучения: precision: 92% ROC-AUC score: 97.3% recall : 90% В качестве модели глубокого обучения была выбрана рекуррентная нейронная сеть. В качестве основной метрики выбрал f1 — скор составил 93,94%(Это почти на два процента выше,чем у VK) остальные метрики также немногим выше. Протестировал на конкретных сообществах в VK. Из 265 комментариев я пометил 91 как агрессивные. Нейронная сеть и логистическая регрессия замечательно справились с поставленной задачей , нейронная сеть смогла найти 89 агрессивных комментариев из них 87 сошлись с помеченными мною в ручную комментариями, логистическая регрессия обнаружила 86 из них 84 совпали с моими метками. Не стоит забывать , что сам процесс разметки данных — процесс субъективный для данной задачи. Идеи для улучшения в ближайшем будущем: Применить эмбеддинги — судя по свежим научным статьям — это очень мощный инструмент , из вариантов ruBERT и NAVEC,FASTTEXT. В ходе обучения моделей — я заметил, что композиция деревьев решений или Лог регрессия не сильно привязаны к гиперпараметрам, вернее результативность их не сильно меняется в зависимости от переданных гиперпараметров. А вот модели глубокого обучения очень чувствительны — как вариант применить решеточный поиск гиперпараметров. Попробовать использовать GAN-сети — однако, первый мой опыт показал,что GAN-сети не слишком хороший вариант для последовательностей, выявление теоретико-игрового равновесия действительно работает для последовательностей гораздо хуже, чем для изображений. Планы на далекое будущее : Масштабировать возможности модели на английский, украинский языки.(Классификация оскорбительных комментариев на данных языках) Возможность классификации видеоконтента и аудиоконтента, а также изображений. Ну и конечно расширить имеющийся набор данных P.S. Если у вас вдруг есть набор данных на русском языке или идеи для улучшения — могу поделиться наработкой. P.S.2 На втором фото представлена малая часть обнаруженных моделью агрессивных комментариев - комментарии получены с помощью Vk_api с поста ниже: https://vk.com/im?sel=643356592&z=video-2044704_456245331%2F5082e7be89cb35bff7%2Fpl_post_-2044704_956385 Источник: habr.com Комментарии: |
|