Amazon разработала мультиязычную систему транслитерации имён с машинным обучением, позволяющую преобразовать имя с одного языка на другой и упрощающую таким образом голосовой поиск данных.
В базе содержится почти 400 000 имён на арабском, английском, русском, японском языках и иврите.
Особенности работы
Для создания системы компании потребовалось собрать большой массив информации, который включает пары имён на разных языках. Для этого разработчики использовали Викиданные, Википедию и другие ресурсы Викимедиа. С помощью полученной базы специалисты обучали несколько систем искусственного интеллекта, применяя традиционные подходы и нейросети, которые обеспечили высокие результаты машинного перевода. Программный код, наборы данных и скрипты опубликованы на GitHub.
Точность работы системы транслитерации Amazon зависит от конкретной языковой пары. К примеру, преобразование с английского в русский с большей вероятностью обеспечит правильный результат, так как алфавиты этих языков похожи. Сложнее будет превратить в английскую версию имя, произнесённое на иврите.
Источник: tproger.ru