Запускаем гигантские нейронки на калькуляторе — библиотека AirLLM (https://github

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Цифры, в которые сложно поверить:

— 70B модели теперь работают на 4 ГБ VRAM.

— Титаническая Llama 3.1 405B влезает в 8 ГБ. Раньше для этого требовались серверные стойки по цене квартиры в Москве ?

Магия в том, что вместо того чтобы грузить всю модель в память, AirLLM использует послойный инференс. Скрипт загружает один слой, проводит вычисления, удаляет его и грузит следующий.

Не без нюансов, конечно же: из-за постоянной подгрузки данных с диска скорость будет не космической, но сам факт запуска 405B-модели на домашнем компе — это техническое чудо. Квантование не требуется, работает даже на Mac.

Идеально для тех, кто хочет тестировать топовые LLM локально и бесплатно, не продавая почку ради NVIDIA H100.

Качаем и греем видеокарты — на GitHub (https://github.com/lyogavin/airllm)


Источник: github.com

Комментарии: