6 День недели опенсорса: DeepSeek-V3/R1 Inference System!

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


DeepSeek выкатил подробный обзор своего инференса для моделей DeepSeek-V3/R1 – с акцентом на архитектурные инновации и невероятную экономическую эффективность.

DeepSeq R1 ежедневно приносит более $560 000, причем затраты на GPU составляют всего $87 000. Что озночает рентабельность в 545 %.

При таких расчетах теоретическая годовая выручка могла бы превысить $200 млн.

Компания также отметила, что затраты на обучение моделей составили менее $6 млн. Для сравнения, американские конкуренты, такие как OpenAI, инвестируют миллиарды долларов в обучение ИИ с использованием чипов NVIDIA H100. DeepSeek использует менее мощные NVIDIA H800, но это не мешает её моделям успешно конкурировать на глобальном рынке.

Данные за 24 часа:

– Входные токены: 608 млрд (с 56.3% cache hit rate)

– Выходные токены: 168 млрд при скорости 20–22 токена/с

Разительный контраст с американскими конкурентами, работающими в убыток.

Такой уровень доходности достигается за счёт оптимизированного распределения вычислений и гибкой архитектуры.

В DeepSeek-V3/R1 используется Cross-node Expert Parallelism (EP) — метод, при котором модель делится между GPU-узлами, а каждая видеокарта обрабатывает лишь небольшую часть модели. Эксперты распределяются между узлами кластера, что снижает нагрузку на память GPU, увеличивает размер батча и позволяет равномерно загружать видеокарты, избегая простоев. Это ускоряет вычисления и минимизирует задержки.

Для обработки данных DeepSeek-V3/R1 использует двухфазную стратегию инференса.

1) Prefilling фаза — здесь bспользуется EP32, где каждый GPU получает 9 направляемых экспертов и 1 общего эксперта, что позволяет минимизировать расходы на обработку данных.

2) Для Decoding используется EP144, перераспределяющий нагрузку так, что каждый GPU управляет 2 направляемыми экспертами и 1 общим экспертом. Такая стратегия помогает достичь высокой производительности без потери качества ответа.

– ~73.7k токенов/с для prefilling

– ~14.8k токенов/с для декодинга на одном узле H800

Данные за 24 часа:

– Входные токены: 608 млрд (с 56.3% cache hit rate)

– Выходные токены: 168 млрд при скорости 20–22 токена/с

Подробнее: *клик* (https://github.com/deepseek-ai/open-infra-index/blob/main/202502OpenSourceWeek/day_6_one_more_thing_deepseekV3R1_inference_system_overview.md) #


Источник: github.com

Комментарии: