«Наш алгоритм вырос из задачки на онлайн-курсе»: как семейная пара из Уфы создаёт робота-учителя |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2020-12-21 15:29 И претендует на приз в 100 миллионов рублей. Материал подготовлен при поддержке организаторов конкурса Up Great Про//Чтение Ришат и Ангелина Нугумановы — участники конкурса Up Great, где команды разрабатывают системы поиска сложных ошибок в текстах. NugumanovTeam выделяется как минимум тем, что:
Узнали, как вышло, что они прошли квалификацию наравне с лабораториями и большими столичными командами, которые уже давно занимаются ИИ. Как мы познакомились с искусственным интеллектом В нашей команде два человека: Ришат работает инженером в «БашНефти», Лина — учитель русского языка и литературы. Основная работа Ришата в данный момент никак не связана с машинным обучением, хотя в «БашНефти» есть аналитическое подразделение. Около года назад Ришат начал проходить онлайн-курсы на Stepik и Coursera — один из них был посвящён автоматической обработке текстов. По сути, конкурсный алгоритм вырос из домашнего задания. Но стоит уточнить, что реализовать посредственно работающий прототип — это одно, для такого много усилий не нужно. Совсем другое — создать полноразмерную рабочую модель, которая сможет конкурировать с живыми учителями, проверяющими сочинения. Сама идея применять алгоритмы для проверки ЕГЭ для нас не нова. Ещё до конкурса мы пытались реализовать её в формате pet-project: когда это не помогает на основной работе, не приносит деньги, но развивает навыки и просто нравится. У нас на руках был прообраз решения. Оставалось только «заточить» наработки под конкурс — это существенно уменьшило время на подготовку. Последний месяц занимаемся этим ежедневно, примерно по паре часов в день. Обучение на дому: как наш алгоритм учится читать За техническую часть целиком отвечает Ришат, поэтому взаимодействие строится так: мы рассматриваем аспекты проверки ЕГЭ, выбираем определённый тип ошибки. К примеру, речевую ошибку, когда одно и то же слово неоправданно повторяется. Первое, что приходит в голову, — привести все слова проверяемого текста к начальной форме, поискать среди них одинаковые и проанализировать расстояние между повторами. Если две одинаковые начальные формы находятся близко, то это очень похоже на повтор. Но предложения могут быть сконструированы так, что это не будет ошибкой — приходится придумывать для алгоритма новые правила. Ришат внедряет их, смотрит результат на валидационной выборке, вручную ищет промахи. И начинается новый круг: обдумывание новых эвристических правил, внедрение, оценка. Такой процесс с «ручными» эвристиками подходит только для типов ошибок, которые легко формализуются. В эвристической части порядка десятка типов ошибок, остальные — в работе у алгоритмов машинного обучения. Правда, алгоритмы работают не очень хорошо — им нужен гигантский тренировочный датасет. При наличии больших датасетов помощь педагогов в разработке будет не нужна. Современные нейронные сети сами могут разобрать все семантические связи и закономерности. Наш формат работы скорее продиктован ограниченностью данных, а сама эвристика в анализе текстов — устаревший подход, использовать её сейчас контринтуитивно. Но мы делаем ставку на грамотно составленные решающие правила для машины — с ними результаты могут оказаться не хуже современных нейронных сетей. Когда мы отправим робота в реальную школу В конкурсе есть классификация. Нужно не только определить тип ошибки, но и точно её назвать: тавтология, двусмысленность или, например, нарушение причинно-следственной связи. А ещё правильно разметить и прокомментировать. Адекватные результаты получились в определении типов ошибок, поэтому мы сосредоточились на нём. Никаких чудес не произошло: семантически сложные типы ошибок предсказываются плохо. Теперь будем довольны, если доведём точность до оптимальных значений. Тогда и не исключаем, что будем использовать алгоритм в работе. Если задуматься о далёкой перспективе, то средняя система, исправляющая ошибки, — это даже интереснее идеального алгоритма, который их только ищет. И это можно было бы воплотить в виде онлайн-сервиса: ученик сам загружает сочинения и тут же получает обратную связь. Если фантазировать, что бы ещё пригодилось педагогам, то мы бы назвали алгоритмы «умного обучения». Кто-то осваивает материал быстрее, кто-то — медленнее, было бы неплохо получить систему, которая сбалансирует нагрузку. На сочинениях учеников Лины тестировать алгоритм пока не пробовали, ему до такого уровня ещё далеко. Но мы оцифровали несколько сочинений для валидации — как раз на них алгоритм и запускался. Как оказалось, повторы — одна из самых частых ошибок, и у машины с высокой точностью получается их найти. С коллегами-учителями тему внедрения роботов в школах ещё не обсуждали — не очень верится, что в ближайшее время можно будет проверить все аспекты на приемлемом уровне. Да и в целом учителя консервативны и ни о каких роботах не задумываются. Команды решают задачу в рамках конкурса Up Great Про//Чтение и претендуют на 100 миллионов рублей призового фонда за систему для анализа текста на русском языке. И столько же — за алгоритм для английского. Регистрация на новый цикл конкурса открыта, участникам можно составить конкуренцию — все подробности по кнопке. Источник: vc.ru Комментарии: |
|