AutoRound: расширенный алгоритм квантования LLM от Intel

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


AutoRound - усовершенствованный алгоритм квантования для малоразрядных LLM, основанный на методе "SignRound" исследования "Optimize Weight Rounding via Signed Gradient Descent for the Quantization of LLMs (https://arxiv.org/pdf/2309.05516)".

Алгоритм использует градиентный спуск по знаку для точной настройки значений округления и minmax-значений весов всего за 200 шагов. AutoRound составляет конкуренцию современным методам, не создавая дополнительных накладных расходов на инференс и сохраняя низкую стоимость настройки.

В основе AutoRound лежит идея SignRound - поиска оптимального порога округления для каждого блока весов. В отличие от стандартного округления к ближайшему целому (RTN),

SignRound учитывает взаимосвязи между весами, и между весами и активациями. Для этого используется блочная реконструкция вывода, где минимизируется ошибка между выходом исходного блока и его квантованной версией.

Форматы квантования:

AutoRound - подходит для CPU, HPU устройств и инференса со смешанной точностью;

AutoGPTQ - подходит для симметричного квантования на устройствах CUDA, но симметричное квантование имеет тенденцию плохо работать при 2-битной точности;

AutoAWQ - подходит для асимметричного 4-битного квантования на устройствах CUDA, в нем реализовано специализированное слияние слоев, предназначенное для моделей семейства Llama.

Алгоритм поддерживает практически все основные крупные языковые модели и семейства:

Llama, Qwen, Yi, Mistral, gemma, falcon, Phi, Mixtral и др.

Полный список с примерами и рецептами конфигураций для каждого семейства можно найти в репозитории (https://github.com/intel/auto-round?tab=readme-ov-file#support-list) проекта.

Лицензирование : Apache 2.0 License.

Arxiv (https://arxiv.org/pdf/2309.05516)

Github (https://github.com/intel/auto-round)


Источник: github.com

Комментарии: