Надежное распознавание речи посредством крупномасштабного слабого контроля |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2023-11-13 12:49 Whisper-V3 / Consistency Decoder Improved decoding for stable diffusion vaes. Многие упустили из виду, что на Dev Day компания OpenAI выложила в открытый доступ сразу две модели, и на них стоит обратить внимание. Первая из них - Whisper-V3, лучшая из существующих OSS-моделей распознавания речи. Она демонстрирует значительные улучшения по сравнению с Whisper-V2 на десятках языков. Whisper остается одной из лучших фундаментальных моделей всех времен. В отличие от предыдущих работ, в которых создавались сложные конвейеры, Whisper представляет собой большой трансформер, который преобразует звук непосредственно в текст, со специальными "метаязыковыми" лексемами, позволяющими выполнять элегантную многозадачность: определение языка, перевод, распознавание голоса и т.д. Его первый автор - легендарный Алек Рэдфорд - человек, ответственный почти за все революционные статьи OAI. Скорее всего Whisper позволил получить не менее триллиона высококачественных разговорных лексем из интернет-видео/аудиозаписей для GPT-4 и последующих проектов. Второй открытый проект - это декодер согласованности (Consistency Decoder) из работы "Consistency Models" (Модели согласованности) под руководством Доктор Янге Сонг. Янг был одним из первопроходцев в области диффузионных моделей. Вы можете заменить декодер Stable Diffusion на Consistency Decoder, и это улучшит рендеринг текстов, лиц и геометрических фигур. - Whisper paper: https://arxiv.org/abs/2212.04356 - Whisper-V3 checkpoint: https://github.com/openai/whisper/discussions/1762 - Consistency Models: https://arxiv.org/abs/2303.01469 - Consistency Decoder release: https://github.com/openai/consistencydecoder Источник: arxiv.org Комментарии: |
|