Разговорный BERT — учим нейросеть языку соцсетей |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2019-08-09 10:27 Одним из главных событий в области компьютерной лингвистики и машинного обучения в 2018 году был выпуск BERT от Google AI, который признан лучшим докладом года по мнению североамериканского отделения Ассоциации компьютерной лингвистики (NACL). В этой статье мы расскажем об этой языковой модели и ее возможностях. Для тех, кто не слышал ранее, BERT — это нейронная сеть, основанная на методе предварительной подготовки контекстных представлений слов, то есть использует двунаправленную модель языка, а также позволяет анализировать целые предложения. В этом случае, учитываются слова, которые идут после данного и через тоже. Этот метод позволяет получать с большим отрывом state-of-the-art результаты в широком спектре задач обработки естественного языка (NLP), но требует больших вычислительных мощностей.
От формальной речи — к разговорной Изначально BERT обучался на 104 языках Википедии (Многоязычный). В дополнение к многоязычной версии Google выпустила BERT на основе английской Википедии и BERT на китайском языке.
Совсем недавно вышел новый релиз библиотеки Ключевой фишкой данного апдейта стал BERT, обученный лексикону социальных сетей на английском языке. Формальный язык Википедии отличается от обычной разговорной речи, при этом для решения некоторых задач, просто необходимо иметь таковую. Разговорный BERT обучался на английском языке на открытых данных, полученных из Twitter, Reddit, DailyDialogues, OpenSubtitles, дебатах, блогах и комментариях к новостям Facebook. Эти данные использовались для построения словарного запаса английских субтокенов в англоязычную версию BERT в качестве инициализации для английского разговорного BERT. В результате разговорный BERT показал state-of-the-art результаты в задачах, в которых фигурируют социальные данные.Как использовать Разговорный BERT в DeepPavlov Вы можете использовать новую модель SOTA Insult detection, основанную на разговорном BERT на английском языке [Insults Detection dataset, English Conversational BERT model]. Или любую другую модель на основе BERT, используя простое руководство из документации. Модель SOTA Insult detection содержит двоичную классификационную задачу для обнаружения оскорблений. Для метрики ROC-AUC (измерение производительности для задачи классификации при различных настройках порогов) данная модель показывает значение 0.9389 на данных в сравнении с обычным BERT — 0.9255.И напоследок Итак, это почти все, что мы хотели рассказать вам о нашем разговорном BERT. И не забывайте, что у DeepPavlov есть форум – задавайте свои вопросы относительно библиотеки и моделей. Будь в деле! Источник: habr.com Комментарии: |
|