![]() |
![]() |
![]() |
|||||
![]() |
6 День недели опенсорса: DeepSeek-V3/R1 Inference System! |
||||||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-03-06 16:10 ![]() ![]() ![]() ![]() ![]() DeepSeek выкатил подробный обзор своего инференса для моделей DeepSeek-V3/R1 – с акцентом на архитектурные инновации и невероятную экономическую эффективность. DeepSeq R1 ежедневно приносит более $560 000, причем затраты на GPU составляют всего $87 000. Что озночает рентабельность в 545 %. При таких расчетах теоретическая годовая выручка могла бы превысить $200 млн. Компания также отметила, что затраты на обучение моделей составили менее $6 млн. Для сравнения, американские конкуренты, такие как OpenAI, инвестируют миллиарды долларов в обучение ИИ с использованием чипов NVIDIA H100. DeepSeek использует менее мощные NVIDIA H800, но это не мешает её моделям успешно конкурировать на глобальном рынке. Данные за 24 часа: – Входные токены: 608 млрд (с 56.3% cache hit rate) – Выходные токены: 168 млрд при скорости 20–22 токена/с Разительный контраст с американскими конкурентами, работающими в убыток. Такой уровень доходности достигается за счёт оптимизированного распределения вычислений и гибкой архитектуры. В DeepSeek-V3/R1 используется Cross-node Expert Parallelism (EP) — метод, при котором модель делится между GPU-узлами, а каждая видеокарта обрабатывает лишь небольшую часть модели. Эксперты распределяются между узлами кластера, что снижает нагрузку на память GPU, увеличивает размер батча и позволяет равномерно загружать видеокарты, избегая простоев. Это ускоряет вычисления и минимизирует задержки. Для обработки данных DeepSeek-V3/R1 использует двухфазную стратегию инференса. 1) Prefilling фаза — здесь bспользуется EP32, где каждый GPU получает 9 направляемых экспертов и 1 общего эксперта, что позволяет минимизировать расходы на обработку данных. 2) Для Decoding используется EP144, перераспределяющий нагрузку так, что каждый GPU управляет 2 направляемыми экспертами и 1 общим экспертом. Такая стратегия помогает достичь высокой производительности без потери качества ответа. – ~73.7k токенов/с для prefilling – ~14.8k токенов/с для декодинга на одном узле H800 Данные за 24 часа: – Входные токены: 608 млрд (с 56.3% cache hit rate) – Выходные токены: 168 млрд при скорости 20–22 токена/с Подробнее: *клик* (https://github.com/deepseek-ai/open-infra-index/blob/main/202502OpenSourceWeek/day_6_one_more_thing_deepseekV3R1_inference_system_overview.md) # Источник: github.com Комментарии: |
||||||