INTELLECT-1: первая коллективная децентрализованная тренировка модели с 10 млрд. параметров

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Prime Intellect (https://www.primeintellect.ai/) объявила о запуске INTELLECT-1 — первого децентрализованного процесса обучения модели с 10 млрд. параметров, приглашая всех желающих внести свой вклад в вычисления.

Процесс построен на опубликованном (https://www.primeintellect.ai/blog/opendiloco) ранее OpenDiLoCo (https://arxiv.org/pdf/2407.07852) — реализации с открытым исходным кодом метода распределенного обучения с низкой коммуникацией (DiLoCo) от DeepMind. OpenDiLoCo уже успешно применили в обучении модели в 1 млрд. параметров.

Теперь Prime Intellect масштабирует этот подход в 10 раз. Это третий шаг в генеральном плане (https://www.primeintellect.ai/blog/introducing-prime-intellect) Prime Intellect по коллективному обучению открытых базовых моделей: от языковых и агентных до научных.

Цель Prime Intellect — поэтапно решить проблему децентрализованного обучения, чтобы AGI был открытым, прозрачным и доступным, предотвращая контроль со стороны централизованных организаций.

Детали проекта INTELLECT-1

INTELLECT-1 — модель с 10 млрд. параметров, основанная на архитектуре Llama-3 и обучающаяся на курируемом наборе данных (https://huggingface.co/collections/PrimeIntellect/intellect-1-dataset-6704f3d3a9dee8678da3d407), который состоит из: 55% Fineweb-edu, 20% DLCM, 20% Stackv2 и 5% OpenWebMath. Общее количество токенов датасета — более 6 трлн.

В обучении используется планировщик скорости обучения WSD (https://arxiv.org/abs/2405.18392) , поддерживающий постоянную скорость после начальной фазы warm-up. Ближе к концу обучения, планируется запустить фазу «остывания» для повышения производительности и оптимизации после обучения. Синхронизация сети занимает менее 1 минуты, сводя связь между узлами до 1-2% от общего времени обучения.

Prime: фреймворк для децентрализованного обучения.

Prime — фреймворк для отказоустойчивого обучения и динамического подключения ресурсов. Его основные возможности:

ElasticDeviceMesh: распределенная абстракция для отказоустойчивой связи;

Асинхронное распределенное создание чекпоинтов с минимизацией времени блокировки;

Восстановление чекпоинтов в реальном времени;

Пользовательское ядро Int8 All-Reduce: квантование псевдоградиентов;

Максимальное использование пропускной способности: шардинг псевдоградиентов, технология VPN.

Реализация PyTorch FSDP2 / DTensor ZeRO-3: шардинг весов модели.

Выгрузка тензоров в CPU.

Дорожная карта Prime:

Масштабирование до более крупных и мощных моделей в научных, рассуждающих областях и в понимании программного кода;

Разработка системы безопасного и проверяемого вклада в децентрализованное обучение;

Создание фреймворка для инициации децентрализованного цикла обучения.

Присоединиться к проекту можно арендовав на любое время серверные мощности в личном кабинете (https://app.primeintellect.ai/) Prime Intellect или подключив в нем сторонние облачные сервисы GPU.

Поддержка подключения локальных GPU через фреймворк Prime ожидается в будущем, открыт прием заявок через форму (https://form.typeform.com/to/ypVmxqVe). Посмотреть статус обучения INTELLECT-1 можно по ссылке (https://app.primeintellect.ai/intelligence?_gl=1*ciig7n*_gcl_au*MTU1MDM5MzY3LjE3Mjg3MjE2OTI).

Локальная установка и запуск фреймворка Prime:

# Install uv  

curl -LsSf https://astral.sh/uv/install.sh | sh

source $HOME/.cargo/env

# Set up the env

uv venv

source .venv/bin/activate

uv sync —extra all

uv pip install flash-attn —no-build-isolation

git submodule update —init —recursive

# Running DiLoCo:

# !! Single GPU setups are currently not supported !!

# Using 2 GPUs

ZERO_BAND_LOG_LEVEL=DEBUG ./scripts/simulate_multi_node_diloco.sh 2 1 src/zeroband/train.py @configs/debug/diloco.toml

# Using 4 GPUs

ZERO_BAND_LOG_LEVEL=DEBUG ./scripts/simulate_multi_node_diloco.sh 2 2 src/zeroband/train.py @configs/debug/diloco.toml

Лицензирование кода : Apache 2.0 License.

Страница проекта (https://www.primeintellect.ai/blog/intellect-1#launch-partners-and-contributors)

Документация (https://docs.primeintellect.ai/introduction)

Arxiv (https://arxiv.org/pdf/2407.07852)

Датасет (https://huggingface.co/collections/PrimeIntellect/intellect-1-dataset-6704f3d3a9dee8678da3d407)

Сообщество в Discord (https://discord.gg/ZTFydGWPKj)

Дашборд прогресса (https://app.primeintellect.ai/intelligence?_gl=1*ciig7n*_gcl_au*MTU1MDM5MzY3LjE3Mjg3MjE2OTI)

GitHub (https://github.com/PrimeIntellect-ai/Prime)


Источник: github.com

Комментарии: