Как я сделал AI для выявления фейковых новостей с точностью в 95% и чуть не рехнулся |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2018-01-26 14:00 Краткий пересказ: мы сделали программу, определяющую надежность новостей с точностью 95% (на валидационной выборке) при помощи машинного обучения и технологий обработки естественного языка. Скачать ее можно здесь. В условиях реальной действительности точность может оказаться несколько ниже, особенно по прошествии некоторого времени, так как каноны написания новостных статей будут меняться.
Глядя, как бурно развиваются машинное обучение и обработка естественного языка, я подумал: чем черт не шутит, может быть, мне удастся создать модель, которая выявляла бы новостной контент с недостоверной информацией, и тем самым хоть чуть-чуть сгладить катастрофические последствия, которые приносит сейчас распространение фейковых новостей. Определение фейка Первое же препятствия стало для меня неожиданностью. Изучив сайты с фейковыми новостями повнимательнее, я быстро обнаружил, что существует множество различных категорий, к которым могут относиться ложные сведения. Есть статьи с откровенным враньем, есть такие, которые приводят реальные факты, но затем неверно их интерпретируют, есть псевдонаучные тексты, есть просто эссе с мнениями автора, замаскированные под новостные заметки, есть сатира, есть компиляторские статьи, состоящие в основном из чужих твитов и цитат. Я немного погуглил и нашел разные классификации, в которых люди пытались разбить такие сайты на группы — «сатира», «фейковые», «вводящие в заблуждение» и так далее. Анализ тональности Прокорпев неделю над сайтами с фейковыми новостями, я задумался, не слишком ли усложняю проблему. Возможно, стоит просто взять какие-то из уже существующих обучающих моделей для анализа тональности и попытаться выявить закономерности. Я решил сделать простенький инструмент, который будет собирать данные: заголовки, описания, информацию об авторах и сам текст, и отсылать их модели для анализа тональности. Для последнего я использовал Textbox — это было удобно, потому что я могу запускать его локально, на своей машине, и быстро получать результаты. Обработка естественного языка На этом этапе мой друг Дэвид Хернандез посоветовал мне обучить модель самостоятельно обрабатывать текст. Чтобы это сделать, нам нужно было как можно больше примеров из разных категорий текстов, которые модель, по нашему замыслу, должна была бы уметь распознавать. Fakebox Возвращаемся к стадии рисования на доске. В чем я ошибся? Дэвид предположил, что, возможно, упрощение механизма — ключ к более высокой точности. Следуя его совету, я всерьез задумался над тем, какую проблему пытаюсь решить. И тут меня озарило: может быть, решение состоит в том, чтобы выявлять не фейковые новости, а достоверные. Достоверные новости куда проще свести в единую категорию. Они основываются на фактах, излагают их коротко и ясно и содержат минимум субъективной интерпретации. И надежных ресурсов, откуда можно набрать материалы, для них хватает. Фейковым новостям — бой Весь смысл этих махинаций состоял в том, чтобы препятствовать распространению ложной информации, поэтому я с большим удовольствием делюсь результатом с вами. Мы назвали систему Fakebox, и пользоваться ей очень просто. Нужно только вставить текст статьи, которая вызывает у вас сомнения, и нажать на кнопку «Ananlyze». Помните: система определяет, написан ли текст языком, характерным для достоверной новостной статьи. Если она выдает очень низкую оценку, это значит, что текст не является основанной на фактах новостной заметкой в ее классическом виде: это может быть дезинформация, сатира, субъективное мнение автора или что-то еще. Если обобщить, мы научили модель анализировать, как написан текст, и определять, есть ли в нем оценочная лексика, авторские суждения, слова с эмоциональной окраской или нецензурные выражения. Она может давать сбои, если текст очень короткий или преимущественно состоит из цитат (или твитов) других людей. Fakebox, конечно, не решит проблему фейковых новостей окончательно, но может помочь выявить те материалы, к которым нужно относиться с долей скепсиса. Наслаждайтесь! Источник: habrahabr.ru Комментарии: |
|