Новая ИИ-модель Qwen 3.5-Omni умеет писать код по видеогайдам

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



2026-04-02 13:01

Главным отличием Qwen 3.5-Omni от предшественницы стало увеличившееся с 32 до 256 тысяч токенов контекстное окно. Благодаря этому ИИ способен разом обработать более 10 часов аудио или примерно 400 секунд видео в разрешении 720p. Распознавание речи охватывает 113 языков и диалектов против всего 19 у предыдущей версии.

Модель была обучена на более чем 100 миллионах часов аудио- и видеоданных. В бенчмарках версия Plus обошла Gemini 3.1 Pro в распознавании, переводе и диалогах, а в работе с аудио и видео оказалась на уровне соперницы. В режиме генерации речи нейросеть превзошла ElevenLabs, GPT-Audio и Minimax по стабильности голоса на 20 языках.

Qwen3.5-Omni

Набор функций Qwen 3.5-Omni включает семантическое прерывание, клонирование голоса, управление скоростью, громкостью и эмоцией речи, а также технику ARIA (Adaptive Rate Interleave Alignment). Последняя динамически выравнивает текстовые и речевые токены, достраивая пропуски слов и нечёткое произношение чисел.

Ещё одной уникальной особенностью модели стала способность, которую в Alibaba назвали Audio-Visual Vibe Coding. Модель «смотрит» запись экрана с аудиоинструкциями и пишет по этим данным работающий код без текстовых подсказок. В компании отмечают, что эта способность возникла случайно без соответствующих тренировок.


Телеграм: t.me/ainewsline

Источник: 4pda.to

Комментарии: