В МГУ Огарева разработан чат-бот в Телеграм для перевода с русского языка на эрзянский! |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2024-04-17 15:09 Разработчик, доцент кафедры фундаментальной информатики, директор лаборатории интеллектуального анализа данных МГУ Огарёва Артём Андронов комментирует: На основе собранных усилиями лингвистов, студентов, носителей языка и энтузиастов собрано 100 тысяч пар параллельных предложений на эрзянском и русском языках (и около 50 тысяч ещё на подходе; помимо сбора предложений, предложения нужно очистить, отфильтровать, исправить неточности). Нами создана модель нейронного машинного перевода (на основе архитектуры Transformer) для пары языков русский/эрзянский. К этой модели "прикручен" telegram-бот, который позволяет генерировать перевод на эрзянский язык предложения на русском. В настоящее время для ограниченного круга лиц (IT- специалисты, носители языка, лица, принимающие решения) бот открыт для бета-тестирования. В режиме бета-тестирования с коллегами отрабатываем наиболее распространенные ошибки и неточности, вносим правки в модель, учитываем их в следующих релизах. В ближайший релиз (когда дообучим модель на дополнительных предложениях) откроем бота на широкую аудиторию. Вторая задача, в которой мы ещё в самом начале: распознавание и синтез эрзянской речи. Один из студентов пишет вкр — telegram-бот для краудсорсинга(сбора) аудиозаписей. (Носитель языка может с телефона начитать предложение, которое ему даст бот, и таким образом мы наберём датасет, пригодный для обучения.) Кроме голосовых данных с телефона, мы сейчас привлекаем наших носителей языка для начитывания предложений в студии. Как только датасет будет собран, можно будет «обучить» модель. Сфера применения — субтитры, голосовые помощники, помощь людям с ограниченными возможностями и т.д. Эти же задачи будут выполнены для мокшанского языка! В 2023—2024 гг. МГУ Огарева получил грант в размере 8,5 млн рублей на создание параллельных корпусов мордовских языков — русско-эрзянского и русско-мокшанского. Работа ведется по стратегическому проекту „Университет — центр социокультурного развития региона“ федеральной программы „Приоритет 2030“. Источник: vk.com Комментарии: |
|