Патентный статус проекта AYANA - Разработка голосовой платформы для перевода языков коренных малочисленных народов севера на основе машинного обучения

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Патентный статус проекта AYANA - Разработка голосовой платформы для перевода языков коренных малочисленных народов севера на основе машинного обучения. Последние новости.

Начну с того что мы не являемся из тех, кто занимается PR. Мы те кто делает, и делает и просто делает. Бесконечные обсуждения мы не приветствуем, ибо она себя либо изжила, либо сейчас сингулярность времени увеличилась настолько, что если мы будем тратить время на бесконечные обсуждения, то потеряем больше, чем получим от этих обсуждений. Время ускорилось.

Поначалу казалось, что мы нашли случайно тот таинственный ключ, которая позволит сохранить языки в потоке глобализации, но столкнулись с необычайными трудностями. Трудности эти решаемы в принципе. Но время от времени приходит осознание - нужно людям ли вообще это? Ответ думаю найдет каждый сам для себя.

Мы хотим эту работу, на которую уже потратили 2 года жизни, решительно закрепить в правовом поле. А именно с патентирования нашего детища. Именно патентирования модели применения алгоритма взаимодействия классического машинного обучения с эвенкийским языком.

И выявить следующую гипотезу: Может ли машинное обучение взаимодействовать с эвенкийским языком в лингвистической-фонетическом аспекте.

Прилагаю отрывок из нашего отчета.

Результат исследования довольно обширного диалектологического материала привел к выводу, что, несмотря на некоторые различия главным образом фонетического и лексического порядка, эвенкийские говоры являются довольно близкими; представители их без труда понимают друг друга. В созданной модели мы определенно нашли способ своеобразной консолидации диалектов, с сохранением особенности каждого диалекта.

Для готового продукта рабочей версии голосовой платформы было крайне важно чтоб переводчик не только преобразовывал естественные языки в текст и отправлял пользователю, было куда важнее чтобы эти же преобразованные тексты он озвучивал. Для этого были выбраны облачные решения для синтеза речи уже из размеченных текстовых данных классификатора.

Для настройки кастомизации по произношению наших долгот и ударений, мы настраивали универсальные значения чтобы максимально приблизить выходные аудиоданные к естественному эвенкийскому произношению. Степень похожести не привели к идеальным результатам. В силу того, что эвенкийский язык крайне сильно отличается от русского по всем лингвистическим параметрам и особенностям. При помощи тегов SSML мы в значительной степени добавляли нужные паузы, ударения, тем самым имитируя уже одно из важных фонетических параметров эвенкийского языка – долгот. Для оригинальности мы добавляли к существующему сгенерированному тексту файлы записи носителей эвенкийского языка, идентичных выходным текстовым данным.

В итоге применили метод «робот+человек» - наравне с роботизированным голосом, звучала запись реального человеческого голоса с аутентичным произношением. Итого нашли баланс для реализации переводчика с примерами исчерпывающе верного произношения.

В общей сложности в рамках первого этапа было внедрено порядка 3129 слов. Было важно довести это число до 11000 слов по паре русский – эвенкийский в отдельной базе данных, в целях не экспериментального обучения. В ходе решения этих задач возникли следующие трудности:

1. Не было единого мнения правильности эвенкийского языка среди эвенкийского сообщества из-за различия диалектных групп.

2. Не имелось определенных знаний по лингвистике.

3. Отсутствие исчерпывающих данных по разным диалектам.

4. Отсутствие необходимого механизма по взаимодействию с реальными носителями языка.

В связи с выше проблемами надо было найти решения, позволяющие создать грамотную базу данных с исчерпывающей верной информацией по эвенкийском паре, с учетом ее морфологических и лингвистических особенностей. Для дальнейшего внедрения в первую разработанную модель классического машинного обучения метода k-ближайших соседей (k Nearest Neighbors, или kNN). Проблема была в том, что, созданная модель не имела достаточно данных по характеристикам метаданных.

Для решения этих задач разработали в целях получения данных с исчерпывающими верными метаданными было созданное отдельное MVP с синхронизированной базой данных.

Для решения этой подзадачи мы привлекли в работу самих носителей эвенкийского языка и лингвистов. Каждое слово, введенное в базу в новом MVP, не размечивалось в файл разметки искусственного интеллекта AIML. Единицей файла каждого слова служил файл расширения и разметки xml. Расширяемый язык разметки (XML) – это язык разметки, который предоставляет правила для определения любых данных. В отличие от других языков программирования, XML не может выполнять вычислительные операции сам по себе.

В итоге голосовая платформа была реализована в виде 2х мобильных приложений для устройств с использованием языка разметки искусственного интеллекта AIML: OS Android и OS IOS.

В популярных голосовых ассистентах с ссылкой на тоже ядро разметки искусственного интеллекта AIML с языковой парой русский – эвенкийский: Маруся и Алиса.

Также в виде мобильного приложения в статусе MVP с использованием разметки XML: OS Android

Наилучшие показатели по выходным голосовым данным показала себя платформа Маруся (значения были близки к идеальным естественным). Основываясь на данных отзывов носителей эвенкийского языка.

Наихудшие показатели у устройств Apple.

Несмотря на увеличение количества данных в классификаторах и создания определённой кастомизации произношений в исходном коде AIML выявляются неточности по лингвистическим параметрам. Это связано прежде всего, как описано ранее, из-за отсутствия корпусов, размеченных данных эвенкийского языка.

По данному решению как раз в втором этапе проводили самостоятельное размечивание данных со словарей в файлы расширения xml. Которую в свою очередь преобразуем в полноценный файл разметки AIML.

Классическое машинное обучение и глубинное обучение работают немного по-разному. Для машинного обучения действительно часто не хватает данных. Нам довелось работать над системой, которая должна распознавать форму слова в эвенкийском языке. В этой задаче также возникло много разных проблем. В первую очередь эвенкийский язык использовался очень давно, и его живых носителей сегодня, конечно же, довольно таки относительно немного. Словари — это очень ограниченный материал, который требует долгой специфичной обработки, после которой его можно загрузить в компьютер и провести ее разметку.

Машинное обучение подошло к этой задаче по-новому. Но обучать модели на маленьком материале как оказалось очень болезненная задача.

В таких ситуациях случайным считается результат, при котором для задачи бинарной классификации модель работает правильно в 40% случаев. Иногда получается чуть лучше.

В случае с эвенкийским языком машина в конце концов запуталась в определении грамматических категорий, которые мало встречались в исходной выборке. Но стоит отметить, при наличии корпуса с разметками на нужных расширяемых файлах, модель теоретически доказывает, что эвенкийский язык имеет право на жизнь в работе с машинным обучением.

За относительно короткое время разработали несколько MVP и провели эксперименты с NLU. В итоге получили первый в нашей стране пример, когда машинное обучение заговорила на редком языке – на эвенкийском (восточный диалект). Ранее не казалось, что данное решение вполне универсально, но как показала практика, словарный фонд редких исчезающих языков с учетом их сложной лингвистики и морфологии, они вполне могут взаимодействовать по классической модели машинного обучения. Для дальнейшего внедрения в сегменты интернет – пространства для создания искусственной среды родного языка.

Главной задачей этого, текущего 2023 года мы видим в патентировании продукта, сейчас мы привели данные из нашего Научно-технического отчета для Федерального института промышленной собственности Российской Федерации. В настоящее время проект получило одобрение и получили печать Центра информационных технологий и систем органов исполнительной власти на регистрацию. С получением патента, мы наверняка получим тот Грааль, которая поможет и ускорит нашу разработку от продукта вызывающей голую надежду до продукта вызывающей радость и гордость! И навсегда закрепится за нашим древним эвенкийским народом!


Источник: vk.com

Комментарии: