Эра 1-битных LLM наступила |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-09-16 11:32 Производительность динамических GGUF Unsloth в бенчмарках Aider Polyglot Мы рады сообщить, что Unsloth Dynamic GGUFs показывает, как можно квантовать LLM, такие как DeepSeek-V3.1 (671B), до 1 или 3 бит, и при этом превзойти модели SOTA, такие как GPT-4.5, GPT-4.1 (апрель 2025 г.) и Claude-4-Opus (май 2025 г.). Ранее мы продемонстрировали, как динамические GGUF Unsloth превосходят другие методы квантования на 5-зарядных MMLU и KL Divergence. Теперь мы демонстрируем их эффективность в независимых сторонних оценках с использованием бенчмарка Aider Polyglot.
Основные результаты
Почему бенчмарк Aider Polyglot? Aider — это один из наиболее полных показателей того, насколько хорошо LLM могут писать, кодировать, следовать инструкциям и вносить изменения без вмешательства человека, что делает его одним из самых сложных и ценных критериев для реального использования. Ключевым преимуществом использования пакета и моделей Unsloth является наша активная роль в исправлении критических ошибок в основных моделях. Мы сотрудничали напрямую с командами, стоящими за Qwen3, Meta (Llama 4), Mistral (Devstral), Google (Gemma 1–3) и Microsoft (Phi-3/4), внеся важные исправления, которые значительно повысили точность.
Динамическое квантование Unsloth Динамический 1 бит создает важные слои в 8 или 16 бит и неважные слои в 1,2,3,4,5 или 6 бит. В ноябре 2024 года наши 4-битные динамические кванты продемонстрировали, как можно в значительной степени восстановить тонкую настройку QLoRA и точность модели, просто выборочно квантовая слои. Позже мы изучили архитектуру DeepSeek-R1 и применили аналогичную методологию, в которой мы квантовали некоторые слои до 1 бита, а важные слои — до более высоких битов (6, 8 бит). Этот подход быстро завоевал популярность и оказался особенно эффективным для моделей МО, что делает динамическое квантование де-факто для квантования МО. Наши динамические GGUF еще более эффективны в сочетании с набором калибровочных данных imatrix, предназначенным для чата и кодирования. Все это позволило выполнить экстремальное сжатие LLM без катастрофической потери качества. Например, в Qwen2-VL-2B-Instruction наивное квантование всех слоев до 4 бит приводит к тому, что модель не понимает изображение ниже. Это поезд, а не прибрежная сцена!
Мы также показали динамические бенчмарки в https://docs.unsloth.ai/basics/unsloth-dynamic-2.0-ggufs для Gemma 3 и Llama 4 Scout, показав, насколько эффективна наша методология:
Настройка бенчмарка Для наших экспериментов DeepSeek-V3.1 мы сравнили различные биты Unsloth Dynamic GGUF с:
Контрольные эксперименты в основном проводились Дэвидом Слёйсом (neolithic5452 на Aider Discord), доверенным участником сообщества по оценке Aider Polyglot. Тесты проводились ~3 раза и усреднялись по среднему баллу, а точность Pass-2 указывается по соглашению. В Discord Aider's есть несколько воспроизводимых фрагментов кода бенчмарков. DeepSeek V3.1 имеет как режим рассуждения, так и режим без рассуждений, и мы тестируем оба. Для того, чтобы не вдаваться в рассуждения, ниже мы видим четкую тенденцию того, как работают наши динамические квантования. динамический 5-битный достигает 70,7% на Aider Pass-2, в то время как динамический 1-битный достигает 55,7%. С точки зрения размера и точности, 3 и 4 бит чрезвычайно мощные!
Сравнение с другими квантами Мы также проверяем бенчмарк Aider Polyglot на других динамических imatrix GGUF от сообщества и сравниваем его с нашим. Чтобы обеспечить честное сравнение, мы делаем следующее:
Мы видим, что динамические кванты Unsloth работают удивительно хорошо по сравнению с другими квантованиями сообщества для того же размера модели и типа кванта!
Абляция динамического квантования Мы также провели несколько абляций, чтобы подтвердить, действительно ли работает наш калибровочный набор данных и методология динамического квантования. Хитрость динамического метода Анслота заключается в том, чтобы квантовать важные слои в старшие биты, скажем, 8 бит, в то время как неважные слои остаются в более низких битах, таких как 2 бита. Чтобы проверить наш метод, мы оставляем определенные тензоры с более низкой точностью, например, 4 бита против более высокой точности. Например, ниже мы оставляем тензоры в 4 бита (полудинамические) против 8 бит (текущий Unsloth), и увеличивая размер кванта всего на ~100 МБ или около того (<0.1%), точность резко возрастает!
Исправление ошибок шаблона чата Во время тестирования квантов DeepSeek-V3.1 мы обнаружили, что некоторые кванты с меньшими битами не заключаются должным образом или выполняют странное форматирование. Это привело к тому, что некоторые кванты сообщества не работали с младшими битами, и это привело к несправедливым сравнениям. Мы обнаружили, что использование llama.cpp minja (более простая версия jinja) не приемлет позиционный аргумент в . Нам пришлось измениться: Копировать к нижеследующему: Копировать Смотрите https://huggingface.co/unsloth/DeepSeek-V3.1-GGUF?chat_template=default&format=true для нашего фиксированного шаблона чата или https://huggingface.co/unsloth/DeepSeek-V3.1/raw/main/chat_template.jinja для необработанного файла джиндзя.
Проходной балл 1 Эйдер сообщается в основном о проходном балле 2. Мы также сообщаем о проходном балле 1, чтобы сравнить количество участников сообщества того же размера. Мы видим, что наши динамические кванты работают намного лучше, чем другие кванты сообщества аналогичного размера, особенно на меньшем уровне 2 бита и большем чем 4 бита. 3 и 4 бит работают одинаково хорошо.
Запуск динамических квантов DeepSeek V3.1 Перейдите к нашему руководству по DeepSeek V3.1 или чтобы быстро получить динамическую 2-битную версию, сделайте следующее: Копировать Затем используйте для прямой загрузки весов. Мы уже устанавливаем оптимальные предлагаемые параметры, такие как температура, шаблон чата и т.д.: Копировать
Телеграм: t.me/ainewsline Источник: docs.unsloth.ai Комментарии: |
|