xAI Colossus supercomputer with 100K H100 GPUs comes online — Musk lays out plans to double GPU coun

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Компания Илона Маска X (ранее Twitter) запустила самую мощную в мире систему обучения ИИ. Суперкомпьютер Colossus использует для обучения до 100 000 графических процессоров Nvidia H100, и в ближайшие месяцы он будет расширен еще на 50 000 графических процессоров Nvidia H100 и H200.

В эти выходные команда xAI запустила наш учебный кластер Colossus 100K H100", - написал Илон Маск в X post. "От начала до конца это было сделано за 122 дня. Colossus - самая мощная система обучения ИИ в мире. Более того, его размер удвоится до 200 Тыс. (50 Тыс. H200s) через несколько месяцев."

По словам Майкла Делла, главы высокотехнологичного гиганта, Dell быстро разработала и собрала систему Colossus. Это подчеркивает, что производитель серверов накопил значительный опыт развертывания серверов искусственного интеллекта за последние несколько лет бума искусственного интеллекта.

Илон Маск и его компании в последнее время были заняты анонсами, связанными с суперкомпьютерами. В конце августа Tesla анонсировала свой кластер искусственного интеллекта Cortex, включающий 50 000 графических процессоров Nvidia H100 и 20 000 чипов для искусственного интеллекта Dojo от Tesla. Еще до этого, в конце июля, X начал обучение ИИ на Memphis Supercluster, состоящем из 100 000 графических процессоров H100 с жидкостным охлаждением. Этот суперкомпьютер должен потреблять не менее 150 МВт мощности, поскольку 100 000 графических процессоров H100 потребляют около 70 МВт.

Хотя все эти кластеры формально являются рабочими и даже обучающими моделями искусственного интеллекта, совершенно неясно, сколько из них на самом деле подключены сегодня. Во-первых, требуется некоторое время для отладки и оптимизации настроек этих суперкластеров. Во-вторых, X необходимо убедиться, что они получают достаточно энергии, и хотя компания Илона Маска использовала 14 дизельных генераторов для питания своего суперкомпьютера Memphis, их все равно было недостаточно для питания всех 100 000 графических процессоров H100.

Для обучения xAI Grok версии 2 large language model (LLM) потребовалось до 20 000 графических процессоров Nvidia H100, и Маск предсказал, что будущим версиям, таким как Grok 3, потребуется еще больше ресурсов, потенциально около 100 000 процессоров Nvidia H100 для обучения. Для этого xAI нужны свои обширные дата-центры для обучения Grok 3, а затем запуска inference на этой модели.


Источник: www.tomshardware.com

Комментарии: