Groq: что за компания, чем занимается, история | РБК Тренды

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2026-03-02 10:57

ИИ проекты

Nvidia готовит новый процессор, специально разработанный для ИИ. Концептуально он имеет общие черты с российским процессором Эльбрус.

Nvidia получила LPU-блоки Groq (не путать с чат-ботом от Илона Маска), оплатив $20 млрд и приняв на работу топ-менеджмент компании.

Groq LPU - это Language Processing Unit, т.е. модуль выполнения языковых моделей, в котором в одно кодовое слово статически запланирован ряд инструкций, где данные не шарахаются постоянно между отдельными блоками чипа и памятью, как на GPU, а чип заранее знает, какие данные ему потребуются для выполнения далее в рамках уже запланированного кодового слова. Это очень длинный конвейер без параллелизма.

Здесь можно провести параллель с Эльбрус, которые также построены на VLIW-архитектуре, но предназначены уже для вычислений общего назначений, а не чисто работе с ИИ.

Чтобы не было простоя из-за отсутствия параллелизма, достаточно простые по своему устройству VLIW-чипы должны быть дополнены сложными компиляторами, что не отменяет необходимости ручных оптимизаций в случае с традиционным ПО. В случае с LLM типичные оптимизации вероятно может произвести сам компиллятор. И это важно, ведь на эффективность работы VLIW-чипа напрямую влияет то, насколько близок к идеалу исполняемый код.

Все это в Groq дополнено интегрированным прямо в модуль большим объемом сверхбыстрой памяти SRAM.

В тестах с большими языковыми моделями (https://trends.rbc.ru/trends/industry/68077b979a794776b878d1ac) LPU Groq демонстрирует высокую скорость генерации: в случае с Llama 3.3 70B он выдает 1615 токенов в секунду, а с DeepSeek R1 — 384 токена. Для сравнения — графический процессор Nvidia H200 Tensor Core в тестах с Llama 3.3 70B выдает 51 токен в секунду.

Это является альтернативным путем, который позволяет повысить эффективность при инференсе, без создания ASIC-ов с "запеканием" в них готовой ИИ-модели (без возможности ее дальнейшего изменения) - перекомпиллировал и инференсишь.

К пока еще не существующей новинке по данным СМИ уже проявил интерес... нет, не Илон Маск, а Сэм Альтман с его OpenAI (https://3dnews.ru/1137580/nvidia-vstupit-v-bitvu-za-inferens-gotovitsya-chip-na-tehnologiyah-groq-dlya-openai-i-iiagentov).

Кстати, в январе OpenAI заключила соглашение о партнёрстве еще и с Cerebras — компанией, которая производит чипы размером с кремниевую пластину. Cerebras долго пытались понять, куда приткнуть свои дорогущие и очень специфические чипы, и ИИ-бум стал настоящим спасением для их продукта.


Источник: trends.rbc.ru

Комментарии: