Meta выпустила опенсорсную мультимодальную языковую модель

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Meta выпустила свою первую открытую мультимодальную модель под названием Spirit LM, которая работает как с текстом, так и с речью одновременно. Ранее многие ИИ-модели для работы с голосом преобразовывали речь в текст, прежде чем передавать её в языковую модель для генерации текста. Это часто приводило к потере интонаций и эмоций, которые важны для естественного звучания. Spirit LM решает эту проблему с помощью специальных маркеров, которые учитывают фонотику, высоту звука и интонацию.

Модель позволяет создавать речь, которая звучит более естественно, сохраняя важные нюансы интонации и настроения, будь то радость, гнев или удивление. Spirit LM использует токены интонаций и стиля, чтобы улучшить как качество синтеза речи, так и её восприятие.

Компания делится этим проектом в открытом доступе, чтобы поддержать исследования и развитие технологий, которые интегрируют текст и речь, делая взаимодействие с ИИ более естественным и удобным для пользователей.

Подробнее (https://ai.meta.com/blog/fair-news-segment-anything-2-1-meta-spirit-lm-layer-skip-salsa-lingua/?utm_source=twitter&utm_medium=organic_social&utm_content=thread&utm_campaign=fair)

Код (https://github.com/facebookresearch/spiritlm?tab=readme-ov-file)

Документация (https://arxiv.org/pdf/2402.05755)

Демо (https://speechbot.github.io/spiritlm/)


Источник: speechbot.github.io

Комментарии: