Xiaomi выложила в открытый доступ OmniVoice: ИИ клонирует голос на 646 языках и уже превосходит коммерческие системы |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2026-05-09 13:10 Лаборатория Xiaomi AI Labs открыла доступ к модели OmniVoice — новой системе синтеза речи и клонирования голоса с поддержкой 646 языков. Для копирования голоса достаточно короткого аудиофрагмента, после чего ИИ способен воспроизводить речь тем же голосом даже на других языках. Проект полностью открыт: опубликованы исходный код, веса модели и обучающие данные. OmniVoice построена на упрощённой архитектуре, которая при этом позволила добиться высокой скорости работы — генерация речи выполняется в 40 раз быстрее реального времени даже без дополнительной оптимизации. Для повышения качества использовались предварительно обученные параметры больших языковых моделей. Обучение велось на базе 50 открытых наборов голосовых данных общим объёмом 580 000 часов после фильтрации и шумоподавления. В тестах на 24 языках OmniVoice превзошла ряд коммерческих решений по естественности и разборчивости речи, а в испытаниях на 102 языках качество оказалось близким к реальным записям. Модель также поддерживает настройку голоса по текстовому описанию, автоматическое удаление шумов, вставку эмоций вроде смеха или вздохов, а также корректировку произношения сложных слов и имён. Телеграм: t.me/ainewsline Источник: www.ixbt.com Комментарии: |
|