Надежное распознавание речи посредством крупномасштабного слабого контроля

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Whisper-V3 / Consistency Decoder

Improved decoding for stable diffusion vaes.

Многие упустили из виду, что на Dev Day компания OpenAI выложила в открытый доступ сразу две модели, и на них стоит обратить внимание.

Первая из них - Whisper-V3, лучшая из существующих OSS-моделей распознавания речи. Она демонстрирует значительные улучшения по сравнению с Whisper-V2 на десятках языков.

Whisper остается одной из лучших фундаментальных моделей всех времен. В отличие от предыдущих работ, в которых создавались сложные конвейеры, Whisper представляет собой большой трансформер, который преобразует звук непосредственно в текст, со специальными "метаязыковыми" лексемами, позволяющими выполнять элегантную многозадачность: определение языка, перевод, распознавание голоса и т.д. Его первый автор - легендарный Алек Рэдфорд - человек, ответственный почти за все революционные статьи OAI.

Скорее всего Whisper позволил получить не менее триллиона высококачественных разговорных лексем из интернет-видео/аудиозаписей для GPT-4 и последующих проектов.

Второй открытый проект - это декодер согласованности (Consistency Decoder) из работы "Consistency Models" (Модели согласованности) под руководством Доктор Янге Сонг.

Янг был одним из первопроходцев в области диффузионных моделей. Вы можете заменить декодер Stable Diffusion на Consistency Decoder, и это улучшит рендеринг текстов, лиц и геометрических фигур.

- Whisper paper: https://arxiv.org/abs/2212.04356

- Whisper-V3 checkpoint: https://github.com/openai/whisper/discussions/1762

- Consistency Models: https://arxiv.org/abs/2303.01469

- Consistency Decoder release: https://github.com/openai/consistencydecoder


Источник: arxiv.org

Комментарии: