Определение токсичных комментариев на русском языке

2022-05-11 19:32

компьютерная лингвистика, алгоритмы машинного обучения

Классификация оскорбительных и агрессивных комментариев в VK.

В свете происходящих событий количество агрессивных комментариев только растет. Для администратора группы негативные последствия заключаются в потере потенциальной прибыли - разместить рекламу в особо токсичном и агрессивном сообществе желающих немного, также уход подписчиков эквивалентен потере прибыли и так далее.

Конечно,это лишь малая часть проблем,но дабы не растягивать пост,я оставлю лишь описанные выше проблемы. Ближе к сути!

Задачей классификацией комментариев на русском языке занималось большое количество исследователей. Лучших результатов добились исследователи из VK https://habr.com/ru/company/vk/blog/526268/. Стоит заметить что для подобных целей в открытом доступе есть лишь один набор данных на русском языке, что конечно не есть хорошо.

Моя идея состояло в следующем: использовать многоязыковую модель типа seq2seq для расширение имеющегося набора данных — по сути применить аугументацию для русскоязычного текста. Попытаться как можно качественней провести препроцессинг текстовых данных,учитывая особенности русского языка, во многом мне помог морфологический анализатор pymorphy2 и несколько комбинации рукописных функции для улучшения лемматизации текста. Векторизация слов производилась старой, тупой TF-IDF мерой. Логистическая регрессия оказалось лучшей среди классических моделей машинного обучения:

precision: 92%

ROC-AUC score: 97.3%

recall : 90%

В качестве модели глубокого обучения была выбрана рекуррентная нейронная сеть. В качестве основной метрики выбрал f1 — скор составил 93,94%(Это почти на два процента выше,чем у VK) остальные метрики также немногим выше.

Протестировал на конкретных сообществах в VK. Из 265 комментариев я пометил 91 как агрессивные. Нейронная сеть и логистическая регрессия замечательно справились с поставленной задачей , нейронная сеть смогла найти 89 агрессивных комментариев из них 87 сошлись с помеченными мною в ручную комментариями, логистическая регрессия обнаружила 86 из них 84 совпали с моими метками. Не стоит забывать , что сам процесс разметки данных — процесс субъективный для данной задачи.

Идеи для улучшения в ближайшем будущем:

Применить эмбеддинги — судя по свежим научным статьям — это очень мощный инструмент , из вариантов ruBERT и NAVEC,FASTTEXT.

В ходе обучения моделей — я заметил, что композиция деревьев решений или Лог регрессия не сильно привязаны к гиперпараметрам, вернее результативность их не сильно меняется в зависимости от переданных гиперпараметров. А вот модели глубокого обучения очень чувствительны — как вариант применить решеточный поиск гиперпараметров.

Попробовать использовать GAN-сети — однако, первый мой опыт показал,что GAN-сети не слишком хороший вариант для последовательностей, выявление теоретико-игрового равновесия действительно работает для последовательностей гораздо хуже, чем для изображений.

Планы на далекое будущее :

Масштабировать возможности модели на английский, украинский языки.(Классификация оскорбительных комментариев на данных языках)

Возможность классификации видеоконтента и аудиоконтента, а также изображений.

Ну и конечно расширить имеющийся набор данных

P.S. Если у вас вдруг есть набор данных на русском языке или идеи для улучшения — могу поделиться наработкой.

P.S.2 На втором фото представлена малая часть обнаруженных моделью агрессивных комментариев - комментарии получены с помощью Vk_api с поста ниже:

https://vk.com/im?sel=643356592&z=video-2044704_456245331%2F5082e7be89cb35bff7%2Fpl_post_-2044704_956385

Источник: habr.com



		Определение токсичных комментариев на русском языке
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2022-05-11 19:32 компьютерная лингвистика, алгоритмы машинного обучения Классификация оскорбительных и агрессивных комментариев в VK. В свете происходящих событий количество агрессивных комментариев только растет. Для администратора группы негативные последствия заключаются в потере потенциальной прибыли - разместить рекламу в особо токсичном и агрессивном сообществе желающих немного, также уход подписчиков эквивалентен потере прибыли и так далее. Конечно,это лишь малая часть проблем,но дабы не растягивать пост,я оставлю лишь описанные выше проблемы. Ближе к сути! Задачей классификацией комментариев на русском языке занималось большое количество исследователей. Лучших результатов добились исследователи из VK https://habr.com/ru/company/vk/blog/526268/. Стоит заметить что для подобных целей в открытом доступе есть лишь один набор данных на русском языке, что конечно не есть хорошо. Моя идея состояло в следующем: использовать многоязыковую модель типа seq2seq для расширение имеющегося набора данных — по сути применить аугументацию для русскоязычного текста. Попытаться как можно качественней провести препроцессинг текстовых данных,учитывая особенности русского языка, во многом мне помог морфологический анализатор pymorphy2 и несколько комбинации рукописных функции для улучшения лемматизации текста. Векторизация слов производилась старой, тупой TF-IDF мерой. Логистическая регрессия оказалось лучшей среди классических моделей машинного обучения: precision: 92% ROC-AUC score: 97.3% recall : 90% В качестве модели глубокого обучения была выбрана рекуррентная нейронная сеть. В качестве основной метрики выбрал f1 — скор составил 93,94%(Это почти на два процента выше,чем у VK) остальные метрики также немногим выше. Протестировал на конкретных сообществах в VK. Из 265 комментариев я пометил 91 как агрессивные. Нейронная сеть и логистическая регрессия замечательно справились с поставленной задачей , нейронная сеть смогла найти 89 агрессивных комментариев из них 87 сошлись с помеченными мною в ручную комментариями, логистическая регрессия обнаружила 86 из них 84 совпали с моими метками. Не стоит забывать , что сам процесс разметки данных — процесс субъективный для данной задачи. Идеи для улучшения в ближайшем будущем: Применить эмбеддинги — судя по свежим научным статьям — это очень мощный инструмент , из вариантов ruBERT и NAVEC,FASTTEXT. В ходе обучения моделей — я заметил, что композиция деревьев решений или Лог регрессия не сильно привязаны к гиперпараметрам, вернее результативность их не сильно меняется в зависимости от переданных гиперпараметров. А вот модели глубокого обучения очень чувствительны — как вариант применить решеточный поиск гиперпараметров. Попробовать использовать GAN-сети — однако, первый мой опыт показал,что GAN-сети не слишком хороший вариант для последовательностей, выявление теоретико-игрового равновесия действительно работает для последовательностей гораздо хуже, чем для изображений. Планы на далекое будущее : Масштабировать возможности модели на английский, украинский языки.(Классификация оскорбительных комментариев на данных языках) Возможность классификации видеоконтента и аудиоконтента, а также изображений. Ну и конечно расширить имеющийся набор данных P.S. Если у вас вдруг есть набор данных на русском языке или идеи для улучшения — могу поделиться наработкой. P.S.2 На втором фото представлена малая часть обнаруженных моделью агрессивных комментариев - комментарии получены с помощью Vk_api с поста ниже: https://vk.com/im?sel=643356592&z=video-2044704_456245331%2F5082e7be89cb35bff7%2Fpl_post_-2044704_956385 Источник: habr.com Комментарии:

Определение токсичных комментариев на русском языке

Комментарии: