![]() |
![]() |
![]() |
![]() |
Как татарстанские разработчики создали онлайн-переводчик башкирского языка |
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2021-11-14 08:10 компьютерная лингвистика, лингвистика, проблемы машинного перевода ![]() Институт прикладной семиотики Академии наук Татарстана в сотрудничестве с специалистами из Башкортостана создал русско-башкирский машинный переводчик «Башкортсофт». В интервью «Миллиард.Татар» директор института Ринат Гильмуллин рассказал о том, что показал опыт сотрудничества с башкирской стороной, а также об общих проблемах татарского и башкирского языков. «Сотрудничество с Башкортостаном вылилось в разработку русско-башкирского машинного переводчика» - Расскажите, в чем заключается ваше сотрудничество с научным сообществом тюркских народов? - Как уже отмечалось, мы ведем совместную работу с представителями различных тюркских народов. Ежегодно, начиная с 2013 года, активно проводим конференцию по компьютерной обработке тюркских языков под названием «TurkLang», представляем на ней свои лучшие научно-исследовательские и прикладные разработки. Благодаря этому сформировалось мощное сообщество представителей науки Татарстана и других тюркских народов. Оно сейчас активно развивается. Например, в этом году в конференции приняло участие более 100 ученых, занимающихся исследованиями в области компьютерной обработки языков. Уже есть совместная деятельность с казахами, киргизами, узбеками, чувашами и крымскими татарами в виде разработки машинного переводчика, корпусов электронных словарей. Также, например, с участием казахов, турок, киргизов и узбеков были реализованы электронные тезаурусы тюркских языков для создания систем многоязычного поиска и извлечения знаний. Хочу также отметить, что такого рода совместные исследования и разработки дают огромную пользу и для развития как нашего татарского языка, так и других тюркских языков. - Можете подробнее рассказать о сотрудничестве с башкирской стороной? - Мы стараемся помогать всем, кто к нам обращается. Сотрудничество с Башкортостаном у нас вылилось в отдельную разработку в виде веб-портала русско-башкирского машинного переводчика. Вообще, создание машинного переводчика — это весьма науко- и трудоемкий процесс, который нельзя реализовать без участия специалистов и разработчиков различного профиля. Задействованы и филологи, и программисты, и ученые, как с татарстанской, так и с башкортостанской стороны. И благодаря совместной работе, использованию передового опыта, удалось разработать уникальный продукт. На сегодняшний день этот сервис является одним из лучших по качеству перевода в русско-башкирской паре. «С нашей стороны – разработка моделей и алгоритмов, реализация веб-сервиса, со стороны башкирских коллег - лингвистический ресурс» - А с кем именно вы работали при создании «Башкортсофта»? Это был какой-то институт или организация? - Это представители различных как научных, так и общественных организаций, ученые, разработчики, лингвисты, переводчики – специалисты разного профиля. Подбором специалистов по заданным нами требованиям занимался Фонд по сохранению и развитию башкирского языка (создан указом главы Башкортостана в 2018 году, - прим. ред.). - В какую сумму ему это обошлось? - Эту информацию можно найти на официальном сайте «Гранты Республики Башкортостан» («Создание веб-сайта башкирско-русского и русско-башкирского переводчика с функционалом озвучивания башкирских текстов», - прим. ред.). - Как выбирался человек, озвучивающий текст? - Данная работа, так же как и подготовка данных для машинного обучения, проводилась нашими башкортостанскими коллегами. С нашей стороны – разработка моделей, алгоритмов и собственно реализация веб-сервиса, исполнение и контроль над полным циклом технологического процесса. Со стороны же башкирских коллег был предоставлен весь необходимый лингвистический ресурс для создания переводчика. - Пригодились ли наработки, полученные при создании «Татсофта»? - Задачей разработки систем машинного перевода мы занимаемся уже более 20 лет, начиная от создания rule-based систем и заканчивая совместной работой с компанией «Яндекс» по созданию статистического машинного переводчика. То есть использовался весь опыт создания такого рода систем, от разработки лингвистических моделей до реализации алгоритмов на основе нейронных сетей. - А как вы работали над «Татсофтом»? Сколько времени заняло его создание, сколько ваших людей было задействовано? - В разработке русско-татарского машинного переводчика в общей сложности приняло участие более 30 специалистов различного профиля – разработчики, лингвисты, переводчики. Работы по подготовке лингвистических ресурсов для переводчика были начаты еще в 2014 году, первая версия общедоступного нейросетевого переводчика была запущена в начале 2020 года. Работа не останавливается и по сей день. Система постоянно развивается и совершенствуется. - А сколько ваших людей было задействовано в работе над «Башкортсофтом»? - С нашей стороны 5 специалистов. Сколько со стороны башкирских коллег - у меня нет точной информации. «Говорят, на сегодня это лучший русско-башкирский переводчик» - Какие сложности возникали в ходе работы? - Основная задача при построении переводчика, учитывая малоресурсность наших языков, связана с подготовкой достаточного объема лингвистических данных (моноязычный корпус, русско-башкирский параллельный корпус и словари). Должен отметить, что наши башкортостанские коллеги хорошо справились с этой задачей и в достаточно сжатые сроки смогли предоставить весь необходимый материал для реализации переводчика. - Довольны ли вы результатом? Что говорят рядовые пользователи, если с ними уже есть обратная связь? - Промежуточными результатами можно быть довольным. Автоматическая метрика оценки качества перевода имеет достаточно высокие показатели. От пользователей также приходят положительные отзывы, говорят, что на сегодня это лучший русско-башкирский переводчик. В то же время мы понимаем, что для его развития и для повышения качества перевода работы должны вестись постоянно и непрерывно. - Что вообще показала эта работа, какие выводы вы из нее сделали? - Сейчас, к сожалению, приходится констатировать тот факт, что наши языки, в том числе и татарский, и башкирский – относятся, как я уже сказал, к малоресурсным языкам. И вот лишь такого рода совместные разработки в виде создания популярных и востребованных сервисов мирового уровня позволяют нам получать новые лингвистические ресурсы и взращивать своих высококвалифицированных специалистов. Что, безусловно, является важной задачей для сохранения и развития языков в условиях такой масштабной цифровизации. И чем больше таких разработок, тем больше у нас шансов изменить ситуацию с малоресурсностью наших языков. Этому способствует и создание веб-портала «Тюркская морфема» на материале семи тюркских языков, реализованного в рамках гранта Российского научного фонда (modmorph.turklang.net). Лингвистические возможности родственных тюркских языков при разработке подобных проектов используются для развития отдельно взятого языка. На основе этих совместных исследований и разработок реализуется система машинного перевода для семи тюркских языков (turk.translate.tatar). Источник: milliard.tatar Комментарии: |
|