Step-Audio: платформа интеллектуального речевого взаимодействия

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Step-Audio – платформа с открытым исходным кодом, объединяющая понимание и генерацию речи для поддержки мультиязычных диалогов (китайский, английский и японский).

Step-Audio способна передавать эмоциональные оттенки, региональные диалекты, различные стили речи и вокала.

Основой Step-Audio является 130B мультимодальная модель, которая объединяет в себе функции распознавания и генерации речи, семантического понимания, ведения диалога, клонирования голоса и синтеза речи. Важным компонентом является собственный токенизатор, позволяющий создавать высококачественный звук без традиционного сбора данных вручную.

Состав релиза:

Step-Audio-Tokenizer (https://huggingface.co/stepfun-ai/Step-Audio-Tokenizer) - токенизатор речи. Для лингвистической токенизации используется кодер Paraformer, который квантуется в дискретные представления с частотой 16,7 Гц. Для семантической токенизации - токенизатор CosyVoice, специально разработанный для эффективного кодирования характеристик, необходимых для создания естественных и выразительных речевых результатов, работающий на частоте 25 Гц.

Step-Audio-Chat (https://huggingface.co/stepfun-ai/Step-Audio-Chat) - мультимодальная LLM с 130 млрд. параметров, которая отвечает за понимание и генерацию человеческой речи.

Step-Audio-TTS-3B (https://huggingface.co/stepfun-ai/Step-Audio-TTS-3B) - TTS-модель, обученная на крупном синтетическом наборе данных с использованием парадигмы LLM-Chat. Модель поддерживает несколько языков, множество эмоциональных выражений и различные элементы управления стилем голоса. Step-Audio-TTS-3B является первой открытой TTS-моделью, способной генерировать певческий вокал.

StepEval-Audio-360 (https://huggingface.co/datasets/stepfun-ai/StepEval-Audio-360) - датасет, собранный при участии профессиональных аннотаторов и содержит весь спектр возможностей: пение, творчество, ролевые игры, логические рассуждения, понимание голоса, следование голосовым инструкциям, игры, управление речевыми эмоциями и языковые способности на китайском, английском и японском языках.

Для локального использования понадобится (41.6Гц): Step-Audio-Tokenizer - 1.5 GB VRAM, Step-Audio-Chat - 256 GB VRAM, Step-Audio-TTS-3B - 8GB VRAM.

Наиболее качественный инференс, по словам разработчиков, достигается на 4xA800/H800 GPU с 80GB или больше.

Локальная установка и инференс на примере TTS:

# Clone the repository  

git clone https://github.com/stepfun-ai/Step-Audio.git

# Create a Conda venv

conda create -n stepaudio python=3.10

conda activate stepaudio

# Install dependencies

cd Step-Audio

pip install -r requirements.txt

git lfs install

git clone https://huggingface.co/stepfun-ai/Step-Audio-TTS-3B

# TTS inference

python tts_inference.py —model-path —output-path —synthesis-type use_tts_or_clone

Лицензирование: Apache 2.0 License.

Коллекция на HF (https://huggingface.co/collections/stepfun-ai/step-audio-67b33accf45735bb21131b0b)

Техотчет (https://github.com/stepfun-ai/Step-Audio/blob/cn-readme/assets/Step-Audio.pdf)

GitHub (https://github.com/stepfun-ai/Step-Audio)


Источник: github.com

Комментарии: