В МГУ Огарева разработан чат-бот в Телеграм для перевода с русского языка на эрзянский!

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Разработчик, доцент кафедры фундаментальной информатики, директор лаборатории интеллектуального анализа данных МГУ Огарёва Артём Андронов комментирует:

На основе собранных усилиями лингвистов, студентов, носителей языка и энтузиастов собрано 100 тысяч пар параллельных предложений на эрзянском и русском языках (и около 50 тысяч ещё на подходе; помимо сбора предложений, предложения нужно очистить, отфильтровать, исправить неточности).

Нами создана модель нейронного машинного перевода (на основе архитектуры Transformer) для пары языков русский/эрзянский.

К этой модели "прикручен" telegram-бот, который позволяет генерировать перевод на эрзянский язык предложения на русском.

В настоящее время для ограниченного круга лиц (IT- специалисты, носители языка, лица, принимающие решения) бот открыт для бета-тестирования.

В режиме бета-тестирования с коллегами отрабатываем наиболее распространенные ошибки и неточности, вносим правки в модель, учитываем их в следующих релизах.

В ближайший релиз (когда дообучим модель на дополнительных предложениях) откроем бота на широкую аудиторию.

Вторая задача, в которой мы ещё в самом начале: распознавание и синтез эрзянской речи.

Один из студентов пишет вкр — telegram-бот для краудсорсинга(сбора) аудиозаписей. (Носитель языка может с телефона начитать предложение, которое ему даст бот, и таким образом мы наберём датасет, пригодный для обучения.)

Кроме голосовых данных с телефона, мы сейчас привлекаем наших носителей языка для начитывания предложений в студии. Как только датасет будет собран, можно будет «обучить» модель.

Сфера применения — субтитры, голосовые помощники, помощь людям с ограниченными возможностями и т.д.

Эти же задачи будут выполнены для мокшанского языка!

В 2023—2024 гг. МГУ Огарева получил грант в размере 8,5 млн рублей на создание параллельных корпусов мордовских языков — русско-эрзянского и русско-мокшанского.

Работа ведется по стратегическому проекту „Университет — центр социокультурного развития региона“ федеральной программы „Приоритет 2030“.


Источник: vk.com

Комментарии: