INTELLECT-1: первая коллективная децентрализованная тренировка модели с 10 млрд. параметров

2024-10-13 12:44

теория программирования, машинное обучение python

Prime Intellect (https://www.primeintellect.ai/) объявила о запуске INTELLECT-1 — первого децентрализованного процесса обучения модели с 10 млрд. параметров, приглашая всех желающих внести свой вклад в вычисления.

Процесс построен на опубликованном (https://www.primeintellect.ai/blog/opendiloco) ранее OpenDiLoCo (https://arxiv.org/pdf/2407.07852) — реализации с открытым исходным кодом метода распределенного обучения с низкой коммуникацией (DiLoCo) от DeepMind. OpenDiLoCo уже успешно применили в обучении модели в 1 млрд. параметров.

Теперь Prime Intellect масштабирует этот подход в 10 раз. Это третий шаг в генеральном плане (https://www.primeintellect.ai/blog/introducing-prime-intellect) Prime Intellect по коллективному обучению открытых базовых моделей: от языковых и агентных до научных.

Цель Prime Intellect — поэтапно решить проблему децентрализованного обучения, чтобы AGI был открытым, прозрачным и доступным, предотвращая контроль со стороны централизованных организаций.

Детали проекта INTELLECT-1

INTELLECT-1 — модель с 10 млрд. параметров, основанная на архитектуре Llama-3 и обучающаяся на курируемом наборе данных (https://huggingface.co/collections/PrimeIntellect/intellect-1-dataset-6704f3d3a9dee8678da3d407), который состоит из: 55% Fineweb-edu, 20% DLCM, 20% Stackv2 и 5% OpenWebMath. Общее количество токенов датасета — более 6 трлн.

В обучении используется планировщик скорости обучения WSD (https://arxiv.org/abs/2405.18392) , поддерживающий постоянную скорость после начальной фазы warm-up. Ближе к концу обучения, планируется запустить фазу «остывания» для повышения производительности и оптимизации после обучения. Синхронизация сети занимает менее 1 минуты, сводя связь между узлами до 1-2% от общего времени обучения.

Prime: фреймворк для децентрализованного обучения.

Prime — фреймворк для отказоустойчивого обучения и динамического подключения ресурсов. Его основные возможности:

ElasticDeviceMesh: распределенная абстракция для отказоустойчивой связи;

Асинхронное распределенное создание чекпоинтов с минимизацией времени блокировки;

Восстановление чекпоинтов в реальном времени;

Пользовательское ядро Int8 All-Reduce: квантование псевдоградиентов;

Максимальное использование пропускной способности: шардинг псевдоградиентов, технология VPN.

Реализация PyTorch FSDP2 / DTensor ZeRO-3: шардинг весов модели.

Выгрузка тензоров в CPU.

Дорожная карта Prime:

Масштабирование до более крупных и мощных моделей в научных, рассуждающих областях и в понимании программного кода;

Разработка системы безопасного и проверяемого вклада в децентрализованное обучение;

Создание фреймворка для инициации децентрализованного цикла обучения.

Присоединиться к проекту можно арендовав на любое время серверные мощности в личном кабинете (https://app.primeintellect.ai/) Prime Intellect или подключив в нем сторонние облачные сервисы GPU.

Поддержка подключения локальных GPU через фреймворк Prime ожидается в будущем, открыт прием заявок через форму (https://form.typeform.com/to/ypVmxqVe). Посмотреть статус обучения INTELLECT-1 можно по ссылке (https://app.primeintellect.ai/intelligence?_gl=1*ciig7n*_gcl_au*MTU1MDM5MzY3LjE3Mjg3MjE2OTI).

Локальная установка и запуск фреймворка Prime:

# Install uv

curl -LsSf https://astral.sh/uv/install.sh | sh

source $HOME/.cargo/env

# Set up the env

uv venv

source .venv/bin/activate

uv sync —extra all

uv pip install flash-attn —no-build-isolation

git submodule update —init —recursive

# Running DiLoCo:

# !! Single GPU setups are currently not supported !!

# Using 2 GPUs

ZERO_BAND_LOG_LEVEL=DEBUG ./scripts/simulate_multi_node_diloco.sh 2 1 src/zeroband/train.py @configs/debug/diloco.toml

# Using 4 GPUs

ZERO_BAND_LOG_LEVEL=DEBUG ./scripts/simulate_multi_node_diloco.sh 2 2 src/zeroband/train.py @configs/debug/diloco.toml

Лицензирование кода : Apache 2.0 License.

Страница проекта (https://www.primeintellect.ai/blog/intellect-1#launch-partners-and-contributors)

Документация (https://docs.primeintellect.ai/introduction)

Arxiv (https://arxiv.org/pdf/2407.07852)

Датасет (https://huggingface.co/collections/PrimeIntellect/intellect-1-dataset-6704f3d3a9dee8678da3d407)

Сообщество в Discord (https://discord.gg/ZTFydGWPKj)

Дашборд прогресса (https://app.primeintellect.ai/intelligence?_gl=1*ciig7n*_gcl_au*MTU1MDM5MzY3LjE3Mjg3MjE2OTI)

GitHub (https://github.com/PrimeIntellect-ai/Prime)

Источник: github.com



		INTELLECT-1: первая коллективная децентрализованная тренировка модели с 10 млрд. параметров
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2024-10-13 12:44 теория программирования, машинное обучение python Prime Intellect (https://www.primeintellect.ai/) объявила о запуске INTELLECT-1 — первого децентрализованного процесса обучения модели с 10 млрд. параметров, приглашая всех желающих внести свой вклад в вычисления. Процесс построен на опубликованном (https://www.primeintellect.ai/blog/opendiloco) ранее OpenDiLoCo (https://arxiv.org/pdf/2407.07852) — реализации с открытым исходным кодом метода распределенного обучения с низкой коммуникацией (DiLoCo) от DeepMind. OpenDiLoCo уже успешно применили в обучении модели в 1 млрд. параметров. Теперь Prime Intellect масштабирует этот подход в 10 раз. Это третий шаг в генеральном плане (https://www.primeintellect.ai/blog/introducing-prime-intellect) Prime Intellect по коллективному обучению открытых базовых моделей: от языковых и агентных до научных. Цель Prime Intellect — поэтапно решить проблему децентрализованного обучения, чтобы AGI был открытым, прозрачным и доступным, предотвращая контроль со стороны централизованных организаций. Детали проекта INTELLECT-1 INTELLECT-1 — модель с 10 млрд. параметров, основанная на архитектуре Llama-3 и обучающаяся на курируемом наборе данных (https://huggingface.co/collections/PrimeIntellect/intellect-1-dataset-6704f3d3a9dee8678da3d407), который состоит из: 55% Fineweb-edu, 20% DLCM, 20% Stackv2 и 5% OpenWebMath. Общее количество токенов датасета — более 6 трлн. В обучении используется планировщик скорости обучения WSD (https://arxiv.org/abs/2405.18392) , поддерживающий постоянную скорость после начальной фазы warm-up. Ближе к концу обучения, планируется запустить фазу «остывания» для повышения производительности и оптимизации после обучения. Синхронизация сети занимает менее 1 минуты, сводя связь между узлами до 1-2% от общего времени обучения. Prime: фреймворк для децентрализованного обучения. Prime — фреймворк для отказоустойчивого обучения и динамического подключения ресурсов. Его основные возможности: `ElasticDeviceMesh`: распределенная абстракция для отказоустойчивой связи; Асинхронное распределенное создание чекпоинтов с минимизацией времени блокировки; Восстановление чекпоинтов в реальном времени; Пользовательское ядро `Int8 All-Reduce`: квантование псевдоградиентов; Максимальное использование пропускной способности: шардинг псевдоградиентов, технология VPN. Реализация `PyTorch FSDP2` / `DTensor ZeRO-3`: шардинг весов модели. Выгрузка тензоров в CPU. Дорожная карта Prime: Масштабирование до более крупных и мощных моделей в научных, рассуждающих областях и в понимании программного кода; Разработка системы безопасного и проверяемого вклада в децентрализованное обучение; Создание фреймворка для инициации децентрализованного цикла обучения. Присоединиться к проекту можно арендовав на любое время серверные мощности в личном кабинете (https://app.primeintellect.ai/) Prime Intellect или подключив в нем сторонние облачные сервисы GPU. Поддержка подключения локальных GPU через фреймворк Prime ожидается в будущем, открыт прием заявок через форму (https://form.typeform.com/to/ypVmxqVe). Посмотреть статус обучения INTELLECT-1 можно по ссылке (https://app.primeintellect.ai/intelligence?_gl=1ciig7n_gcl_auMTU1MDM5MzY3LjE3Mjg3MjE2OTI). Локальная установка и запуск фреймворка Prime: # Install uv curl -LsSf https://astral.sh/uv/install.sh \| sh source $HOME/.cargo/env # Set up the env uv venv source .venv/bin/activate uv sync —extra all uv pip install flash-attn —no-build-isolation git submodule update —init —recursive # Running DiLoCo: # !! Single GPU setups are currently not supported !! # Using 2 GPUs ZERO_BAND_LOG_LEVEL=DEBUG ./scripts/simulate_multi_node_diloco.sh 2 1 src/zeroband/train.py @configs/debug/diloco.toml # Using 4 GPUs ZERO_BAND_LOG_LEVEL=DEBUG ./scripts/simulate_multi_node_diloco.sh 2 2 src/zeroband/train.py @configs/debug/diloco.toml Лицензирование кода : Apache 2.0 License. Страница проекта (https://www.primeintellect.ai/blog/intellect-1#launch-partners-and-contributors) Документация (https://docs.primeintellect.ai/introduction) Arxiv (https://arxiv.org/pdf/2407.07852) Датасет (https://huggingface.co/collections/PrimeIntellect/intellect-1-dataset-6704f3d3a9dee8678da3d407) Сообщество в Discord (https://discord.gg/ZTFydGWPKj) Дашборд прогресса (https://app.primeintellect.ai/intelligence?_gl=1ciig7n_gcl_auMTU1MDM5MzY3LjE3Mjg3MjE2OTI) GitHub (https://github.com/PrimeIntellect-ai/Prime) Источник: github.com Комментарии:

INTELLECT-1: первая коллективная децентрализованная тренировка модели с 10 млрд. параметров

Комментарии: