«Наш алгоритм вырос из задачки на онлайн-курсе»: как семейная пара из Уфы создаёт робота-учителя

2020-12-21 15:29

И претендует на приз в 100 миллионов рублей.

Материал подготовлен при поддержке организаторов конкурса Up Great Про//Чтение

Ришат и Ангелина Нугумановы — участники конкурса Up Great, где команды разрабатывают системы поиска сложных ошибок в текстах. NugumanovTeam выделяется как минимум тем, что:

в ней нет разработчиков, дата-сайентистов и лингвистов — только семейная пара из инженера и педагога;
ещё год назад команда не разбиралась в машинном обучении.

Узнали, как вышло, что они прошли квалификацию наравне с лабораториями и большими столичными командами, которые уже давно занимаются ИИ.

Ангелина и Ришат Нугумановы

NugumanovTeam

Как мы познакомились с искусственным интеллектом

В нашей команде два человека: Ришат работает инженером в «БашНефти», Лина — учитель русского языка и литературы. Основная работа Ришата в данный момент никак не связана с машинным обучением, хотя в «БашНефти» есть аналитическое подразделение.

Сейчас все говорят про искусственный интеллект и нейронные сети, вот и решили познакомиться с ними поближе.

Около года назад Ришат начал проходить онлайн-курсы на Stepik и Coursera — один из них был посвящён автоматической обработке текстов. По сути, конкурсный алгоритм вырос из домашнего задания. Но стоит уточнить, что реализовать посредственно работающий прототип — это одно, для такого много усилий не нужно. Совсем другое — создать полноразмерную рабочую модель, которая сможет конкурировать с живыми учителями, проверяющими сочинения.

Сама идея применять алгоритмы для проверки ЕГЭ для нас не нова. Ещё до конкурса мы пытались реализовать её в формате pet-project: когда это не помогает на основной работе, не приносит деньги, но развивает навыки и просто нравится. У нас на руках был прообраз решения. Оставалось только «заточить» наработки под конкурс — это существенно уменьшило время на подготовку. Последний месяц занимаемся этим ежедневно, примерно по паре часов в день.

До финального этапа конкурса не знали, что мы чуть ли не единственная команда не из Москвы, допущенная к испытаниям.

Обучение на дому: как наш алгоритм учится читать

За техническую часть целиком отвечает Ришат, поэтому взаимодействие строится так: мы рассматриваем аспекты проверки ЕГЭ, выбираем определённый тип ошибки. К примеру, речевую ошибку, когда одно и то же слово неоправданно повторяется.

Первое, что приходит в голову, — привести все слова проверяемого текста к начальной форме, поискать среди них одинаковые и проанализировать расстояние между повторами. Если две одинаковые начальные формы находятся близко, то это очень похоже на повтор. Но предложения могут быть сконструированы так, что это не будет ошибкой — приходится придумывать для алгоритма новые правила.

Ришат внедряет их, смотрит результат на валидационной выборке, вручную ищет промахи. И начинается новый круг: обдумывание новых эвристических правил, внедрение, оценка.

Образец разметки из конкурсного датасета — на подобных текстах учатся алгоритмы участников

Такой процесс с «ручными» эвристиками подходит только для типов ошибок, которые легко формализуются. В эвристической части порядка десятка типов ошибок, остальные — в работе у алгоритмов машинного обучения. Правда, алгоритмы работают не очень хорошо — им нужен гигантский тренировочный датасет.

Многое было заимствовано — сейчас полно репозиториев с открытым кодом. Зачем изобретать велосипед, если уже есть хорошие решения?

При наличии больших датасетов помощь педагогов в разработке будет не нужна. Современные нейронные сети сами могут разобрать все семантические связи и закономерности. Наш формат работы скорее продиктован ограниченностью данных, а сама эвристика в анализе текстов — устаревший подход, использовать её сейчас контринтуитивно. Но мы делаем ставку на грамотно составленные решающие правила для машины — с ними результаты могут оказаться не хуже современных нейронных сетей.

Лидерборд команд, участвующих в испытаниях первого цикла (для англоязычных текстов)

Когда мы отправим робота в реальную школу

В конкурсе есть классификация. Нужно не только определить тип ошибки, но и точно её назвать: тавтология, двусмысленность или, например, нарушение причинно-следственной связи. А ещё правильно разметить и прокомментировать. Адекватные результаты получились в определении типов ошибок, поэтому мы сосредоточились на нём.

Никаких чудес не произошло: семантически сложные типы ошибок предсказываются плохо. Теперь будем довольны, если доведём точность до оптимальных значений. Тогда и не исключаем, что будем использовать алгоритм в работе.

Если задуматься о далёкой перспективе, то средняя система, исправляющая ошибки, — это даже интереснее идеального алгоритма, который их только ищет. И это можно было бы воплотить в виде онлайн-сервиса: ученик сам загружает сочинения и тут же получает обратную связь. Если фантазировать, что бы ещё пригодилось педагогам, то мы бы назвали алгоритмы «умного обучения». Кто-то осваивает материал быстрее, кто-то — медленнее, было бы неплохо получить систему, которая сбалансирует нагрузку.

На сочинениях учеников Лины тестировать алгоритм пока не пробовали, ему до такого уровня ещё далеко. Но мы оцифровали несколько сочинений для валидации — как раз на них алгоритм и запускался. Как оказалось, повторы — одна из самых частых ошибок, и у машины с высокой точностью получается их найти.

С коллегами-учителями тему внедрения роботов в школах ещё не обсуждали — не очень верится, что в ближайшее время можно будет проверить все аспекты на приемлемом уровне. Да и в целом учителя консервативны и ни о каких роботах не задумываются.

Команды решают задачу в рамках конкурса Up Great Про//Чтение и претендуют на 100 миллионов рублей призового фонда за систему для анализа текста на русском языке. И столько же — за алгоритм для английского. Регистрация на новый цикл конкурса открыта, участникам можно составить конкуренцию — все подробности по кнопке.

Источник: vc.ru



		«Наш алгоритм вырос из задачки на онлайн-курсе»: как семейная пара из Уфы создаёт робота-учителя
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовые компьютеры Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2020-12-21 15:29 алгоритмы машинного обучения И претендует на приз в 100 миллионов рублей. Материал подготовлен при поддержке организаторов конкурса Up Great Про//Чтение Ришат и Ангелина Нугумановы — участники конкурса Up Great, где команды разрабатывают системы поиска сложных ошибок в текстах. NugumanovTeam выделяется как минимум тем, что: в ней нет разработчиков, дата-сайентистов и лингвистов — только семейная пара из инженера и педагога; ещё год назад команда не разбиралась в машинном обучении. Узнали, как вышло, что они прошли квалификацию наравне с лабораториями и большими столичными командами, которые уже давно занимаются ИИ. Ангелина и Ришат Нугумановы NugumanovTeam Как мы познакомились с искусственным интеллектом В нашей команде два человека: Ришат работает инженером в «БашНефти», Лина — учитель русского языка и литературы. Основная работа Ришата в данный момент никак не связана с машинным обучением, хотя в «БашНефти» есть аналитическое подразделение. Сейчас все говорят про искусственный интеллект и нейронные сети, вот и решили познакомиться с ними поближе. Около года назад Ришат начал проходить онлайн-курсы на Stepik и Coursera — один из них был посвящён автоматической обработке текстов. По сути, конкурсный алгоритм вырос из домашнего задания. Но стоит уточнить, что реализовать посредственно работающий прототип — это одно, для такого много усилий не нужно. Совсем другое — создать полноразмерную рабочую модель, которая сможет конкурировать с живыми учителями, проверяющими сочинения. Сама идея применять алгоритмы для проверки ЕГЭ для нас не нова. Ещё до конкурса мы пытались реализовать её в формате pet-project: когда это не помогает на основной работе, не приносит деньги, но развивает навыки и просто нравится. У нас на руках был прообраз решения. Оставалось только «заточить» наработки под конкурс — это существенно уменьшило время на подготовку. Последний месяц занимаемся этим ежедневно, примерно по паре часов в день. До финального этапа конкурса не знали, что мы чуть ли не единственная команда не из Москвы, допущенная к испытаниям. Обучение на дому: как наш алгоритм учится читать За техническую часть целиком отвечает Ришат, поэтому взаимодействие строится так: мы рассматриваем аспекты проверки ЕГЭ, выбираем определённый тип ошибки. К примеру, речевую ошибку, когда одно и то же слово неоправданно повторяется. Первое, что приходит в голову, — привести все слова проверяемого текста к начальной форме, поискать среди них одинаковые и проанализировать расстояние между повторами. Если две одинаковые начальные формы находятся близко, то это очень похоже на повтор. Но предложения могут быть сконструированы так, что это не будет ошибкой — приходится придумывать для алгоритма новые правила. Ришат внедряет их, смотрит результат на валидационной выборке, вручную ищет промахи. И начинается новый круг: обдумывание новых эвристических правил, внедрение, оценка. Образец разметки из конкурсного датасета — на подобных текстах учатся алгоритмы участников Такой процесс с «ручными» эвристиками подходит только для типов ошибок, которые легко формализуются. В эвристической части порядка десятка типов ошибок, остальные — в работе у алгоритмов машинного обучения. Правда, алгоритмы работают не очень хорошо — им нужен гигантский тренировочный датасет. Многое было заимствовано — сейчас полно репозиториев с открытым кодом. Зачем изобретать велосипед, если уже есть хорошие решения? При наличии больших датасетов помощь педагогов в разработке будет не нужна. Современные нейронные сети сами могут разобрать все семантические связи и закономерности. Наш формат работы скорее продиктован ограниченностью данных, а сама эвристика в анализе текстов — устаревший подход, использовать её сейчас контринтуитивно. Но мы делаем ставку на грамотно составленные решающие правила для машины — с ними результаты могут оказаться не хуже современных нейронных сетей. Лидерборд команд, участвующих в испытаниях первого цикла (для англоязычных текстов) Когда мы отправим робота в реальную школу В конкурсе есть классификация. Нужно не только определить тип ошибки, но и точно её назвать: тавтология, двусмысленность или, например, нарушение причинно-следственной связи. А ещё правильно разметить и прокомментировать. Адекватные результаты получились в определении типов ошибок, поэтому мы сосредоточились на нём. Никаких чудес не произошло: семантически сложные типы ошибок предсказываются плохо. Теперь будем довольны, если доведём точность до оптимальных значений. Тогда и не исключаем, что будем использовать алгоритм в работе. Если задуматься о далёкой перспективе, то средняя система, исправляющая ошибки, — это даже интереснее идеального алгоритма, который их только ищет. И это можно было бы воплотить в виде онлайн-сервиса: ученик сам загружает сочинения и тут же получает обратную связь. Если фантазировать, что бы ещё пригодилось педагогам, то мы бы назвали алгоритмы «умного обучения». Кто-то осваивает материал быстрее, кто-то — медленнее, было бы неплохо получить систему, которая сбалансирует нагрузку. На сочинениях учеников Лины тестировать алгоритм пока не пробовали, ему до такого уровня ещё далеко. Но мы оцифровали несколько сочинений для валидации — как раз на них алгоритм и запускался. Как оказалось, повторы — одна из самых частых ошибок, и у машины с высокой точностью получается их найти. С коллегами-учителями тему внедрения роботов в школах ещё не обсуждали — не очень верится, что в ближайшее время можно будет проверить все аспекты на приемлемом уровне. Да и в целом учителя консервативны и ни о каких роботах не задумываются. Команды решают задачу в рамках конкурса Up Great Про//Чтение и претендуют на 100 миллионов рублей призового фонда за систему для анализа текста на русском языке. И столько же — за алгоритм для английского. Регистрация на новый цикл конкурса открыта, участникам можно составить конкуренцию — все подробности по кнопке. Источник: vc.ru Комментарии:

«Наш алгоритм вырос из задачки на онлайн-курсе»: как семейная пара из Уфы создаёт робота-учителя

Комментарии: