GitHub Typo Corpus: мультиязычный датасет с опечатками |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2019-12-09 16:30 GitHub Typo Corpus — это набор данных с опечатками и грамматическими ошибками на разных языках. Данные ошибок собирали из коммитов GitHub репозиториев. Всего в датасете более 350 тысяч исправлений на 15 языках. Это наиболее крупный датасет с опечатками и грамматическими ошибками на текущий момент. Отсутствие крупных размеченных датасетов — одна из сложностей при обучении моделей для исправления орфографии и грамматики. Исследователи собрали GitHub Typo Corpus, чтобы облегчить решение задачи исправления ошибок в тексте на естественном языке. В GitHub репозиториях пользователи часто вносят изменения об исправлениях опечаток. У каждого изменения обязательно есть подпись. Зачастую подписи изменений орфографических и грамматических ошибок в репозитории имеют в себе словосочетание “fix typo”. Изменения опечаток в датасете предсказываются с ~0.9 F1 с помощью простого классификатора и трех признаков. При этом существующие методы для исправления ошибок выдают результаты ~0.6 по F-мере. Кроме того, в многих датасетах для исправления грамматических ошибок процент грамматических ошибок составляет около 10. Такое распределение ограничивает возможность моделей выучить исправление грамматических ошибок. GitHub Typo Corpus может быть дополнением для существующих датасетов благодаря разнообразию данных и точности разметки. Как собирали датасет Процесс сбора данных исследователи поделили на три шага:
После фильтрации репозиториев их количество составило 43,462. Для отбора изменений на естественном языке и разметки языка исследователи использовали NanigoNet. Архитектура NanigoNet основана на графовых нейросетях. Что внутри данных Каждое изменение содержит в себе следующие признаки:
Каждое исправление в списке содержит следующие признаки:
Текст до исправления и текст после исправления также имеют данные о:
Источник: neurohive.io Комментарии: |
|