Ученые из Университета Аалто провели исследование о слабостях в системах машинного обучения, распознающих оскорбления и обсценную лексику в социальных сетях.

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Ученые из Университета Аалто провели исследование о слабостях в системах машинного обучения, распознающих оскорбления и обсценную лексику в социальных сетях. По результатам оказалось, что обмануть ИИ способен кто угодно: ученые выяснили, что современные обработчики естественного языка не справляются с опечатками и измененными границами слов. Кроме того, машина принимает за цензурное выражение, в котором есть нейтральное слово, например «love».

Не справляется ИИ и с контекстом предложений. Ученые пришли к выводу, что разработчикам следует уделить больше внимания набору данных для обучения, а не проектированию самой нейросети, или перейти на другую модель распознавания.

Современные детекторы, которые отсеивают онлайн-ненависть, могут быть легко обмануты людьми, показывает новое исследование.

Ненавистный текст и комментарии являются постоянно растущей проблемой в онлайн-среде, но решение проблемы безудержного зависит от способности идентифицировать токсичное содержание. Новое исследование исследовательской группы по безопасным системам Университета Аалто обнаружило слабые места во многих детекторах машинного обучения, используемых в настоящее время для распознавания и сдерживания языка ненависти.

Многие популярные социальные сети и онлайн-платформы используют детекторы языка ненависти, которые, как показала команда исследователей во главе с профессором Н. Асоканом, хрупки и легко поддаются обману. Плохая грамматика и неудобное правописание-намеренное или нет - могут сделать токсичные комментарии в социальных сетях более трудными для детекторов ИИ.

Команда поставила семь современных детекторов языка ненависти на тест. Все они потерпели неудачу.

Современные методы обработки естественного языка (NLP) можно классифицировать текст на основе отдельных символов, слов или предложений. Столкнувшись с текстовыми данными, которые отличаются от используемых в их обучении, они начинают шарить.

"Мы вставили опечатки, изменили границы слов или добавили нейтральные слова в оригинальную речь ненависти. Удаление пробелов между словами было самой мощной атакой, и сочетание этих методов было эффективным даже против перспективы системы ранжирования комментариев Google", - говорит Томми Грендаль, докторант Университета Аалто.

Google перспектива ранжирует "токсичность" комментариев, используя методы анализа текста. В 2017 году исследователи из Вашингтонского университета показали, что Google Perspective можно обмануть, введя простые опечатки. Грендаль и его коллеги теперь обнаружили, что перспектива с тех пор стала устойчивой к простым опечаткам, но все еще может быть обманута другими изменениями, такими как удаление пробелов или добавление безобидных слов, таких как "любовь".

Предложение вроде "Я ненавижу тебя" проскользнуло через решето и стало не ненавистным, когда было изменено на "любовь Ihateyou".

Исследователи отмечают, что в разных контекстах одно и то же высказывание может рассматриваться либо как ненавистное, либо просто оскорбительное. Язык ненависти субъективен и контекстно-зависим, что делает методы анализа текста недостаточными в качестве автономных решений.

Исследователи рекомендуют уделять больше внимания качеству наборов данных, используемых для обучения моделей машинного обучения, а не уточнение конструкции модели. Результаты показывают, что обнаружение на основе символов может быть жизнеспособным способом улучшения текущих приложений.


Источник: www.sciencedaily.com

Комментарии: