Vikhr: новые модели на 12B и 8B для русского языка с уникальным методом выравнивания

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Vikhr Team (https://huggingface.co/Vikhrmodels) — сообщество энтузиастов, занимающихся созданием и развитием русифицированных LLM, выпустили две новые модели, оптимизированные для русского языка в задачах генерации кода, решения математических задач, обобщения, ответов на вопросы и построения логических выводов. Обе модели адаптированы для RAG и могут выступать реранкером на уровне LLM.

Vikhr-Nemo-12B-Instruct-R-21-09-24 (https://huggingface.co/Vikhrmodels/Vikhr-Nemo-12B-Instruct-R-21-09-24) — инструктивная модель на базе Mistral-Nemo-Instruct-2407 с 12 млрд. параметров и контекстным окном в 128К токенов.

В бенчмарке Ru-Arena General (https://github.com/VikhrModels/ru_llm_arena), Vikhr-Nemo-12B-Instruct-R-21-09-24 достигла результата в 79.8, уступая только двум моделям семейства GPT-4 .

Версии квантования Vikhr-Nemo-12B-Instruct-R-21-09-24 в разрядности от 3-bit (6.08 Gb) до 16-bit (24.5 GB) в GGUF формате (https://huggingface.co/Alex01837178373/Vikhr-Nemo-12B-Instruct-R-21-09-24-GGUF).

Vikhr-Llama3.1-8B-Instruct-R-21-09-24 (https://huggingface.co/Vikhrmodels/Vikhr-Llama3.1-8B-Instruct-R-21-09-24) — инструктивная модель на базе Meta-Llama-3.1-8B-Instruct с 8 млрд. параметров, контекстным окном в 128К токенов. В Ru-Arena General она показала значение winrate 63.4. По словам Vikhr Team — это лучший результат среди 8B моделей с поддержкой русского языка.

Версии квантования Vikhr-Llama3.1-8B-Instruct-R-21-09-24 в разрядности от 3-bit (4.02 Gb) до 16-bit (16.1 GB) в GGUF формате (https://huggingface.co/Alex01837178373/Vikhr-Llama3.1-8B-Instruct-R-21-09-24-GGUF).

Для файнтюна базовых моделей Mistral-Nemo-12B и Llama-3.1-8B, Vikhr Team разработали уникальный метод выравнивания — Simple Margin Preference Optimization (SMPO).

Он представляет собой микс из техник, заимствованных из CRLFT, IPO и SimPO, с добавлением своей функции потерь. Метод опубликован врепозитории на GitHub в комплекте тулкита (https://github.com/VikhrModels/effective_llm_alignment) скриптов и конфигураций, использовавшихся для обучения представленных моделей.

В процессе обучения моделей использовался кастомный SFT-датасет GrandMaster-PRO-MAX (https://huggingface.co/datasets/Vikhrmodels/GrandMaster-PRO-MAX), собранный Vikhr Team самостоятельно, для следования самым разным наборам инструкций на разных языках (в основном на русском) и отвечать также - на русском языке. В него была включена CoT-способность.

Лицензирование : Apache 2.0 License.

Модель Vikhr-Nemo-12B-Instruct (https://huggingface.co/Vikhrmodels/Vikhr-Nemo-12B-Instruct-R-21-09-24)

Модель Vikhr-Llama3.1-8B-Instruct (https://huggingface.co/Vikhrmodels/Vikhr-Llama3.1-8B-Instruct-R-21-09-24)

GGUF Vikhr-Nemo-12B-Instruct (https://huggingface.co/Alex01837178373/Vikhr-Nemo-12B-Instruct-R-21-09-24-GGUF)

GGUF Vikhr-Llama3.1-8B-Instruct (https://huggingface.co/Alex01837178373/Vikhr-Llama3.1-8B-Instruct-R-21-09-24-GGUF)

Датасет (https://huggingface.co/datasets/Vikhrmodels/GrandMaster-PRO-MAX)

Demo Vikhr-Nemo-12B-Instruct (https://6429e2570d3517d2f7.gradio.live/)

Github (https://github.com/VikhrModels/effective_llm_alignment)


Источник: github.com

Комментарии: