Llama-3.1-Nemotron-70B: набор файнтюн-моделей и датасет HelpSteer2 от NVIDIA

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2024-10-19 12:58

ИИ проекты

NVIDIA опубликовала на HuggingFace 4 версии Llama-3.1-Nemotron-70B:

?? Llama-3.1-Nemotron-70B-Instruct (https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Instruct)

Модель получила улучшение в задачах ответа на вопросы и выполнение пользовательских инструкций. Обучение проводилось с использованием RLHF (REINFORCE) на основе Llama-3.1-Nemotron-70B-Reward и датасета HelpSteer2-Preference.

Nemotron-70B-Instruct достигла высоких результатов в тестах Arena Hard (85.0), AlpacaEval 2 LC (57.6) и GPT-4-Turbo MT-Bench (8.98), и обошла GPT-4o и Claude 3.5 Sonnet.

?Llama-3.1-Nemotron-70B-Instruct-HF (https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Instruct-HF)

Версия с поддержкой Transformers, полученная путем конвертации, без какого-либо обучения.

Квантованные версии Llama-3.1-Nemotron-70B-Instruct-HF в формате GGUF (https://huggingface.co/bartowski/Llama-3.1-Nemotron-70B-Instruct-HF-GGUF) с разрядностями от 1-bit (16.75 Gb) до 8-bit (74.98 Gb).

?? Llama-3.1-Nemotron-70B-Reward (https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Reward)

Модель с функционалом чата, рассуждений и специальными навыками для оценки качества ответов других LLM. Она использует английский язык и способна оценивать ответы длиной до 4096 токенов, присваивая им баллы, отражающие их качество.

Основана на Llama-3.1-70B-Instruct Base и использует комбинацию методов Bradley Terry и SteerLM Regression Reward Modelling.

Nemotron-70B-Reward занимает первое место в RewardBench.

?Llama-3.1-Nemotron-70B-Reward-HF (https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Reward-HF)

Версия с поддержкой Transformers, полученная путем конвертации, без какого-либо обучения.

Квантованная версия Llama-3.1-Nemotron-70B-Reward-HF в формате MLX (https://huggingface.co/mlx-community/nvidia-Llama-3.1-Nemotron-70B-Reward-HF-AQ41) (40 Gb).

Вместе с моделями опубликован датасет HelpSteer2 (https://huggingface.co/datasets/nvidia/HelpSteer2) - набор данных на английском языке, предназначенный для обучения reward-моделей, которые используются для повышения полезности, фактической точности и связности ответов других LLM.

HelpSteer2 (https://huggingface.co/datasets/nvidia/HelpSteer2) содержит 21 362 строки, каждая из которых включает в себя запрос, ответ и пять аннотированных человеком атрибутов ответа: полезность, правильность, связность, сложность и многословность.

?? Представленные модели требуют систему с как минимум 4 GPU NVIDIA (40 Gb) или 2 GPU (80 Gb) и 150 Gb свободного места на диске.

?? Для локального развертывания Llama-3.1-Nemotron-70B без поддержки Transformers рекомендуется использовать NVIDIA NeMo Framework и TRT-LLM (https://github.com/NVIDIA/TensorRT-LLM).

?Лицензирование моделей: Llama 3.1 Community License.

?Лицензирование датасета : CC-BY-4.0

?Коллекция моделей на HF (https://huggingface.co/collections/nvidia/llama-31-nemotron-70b-670e93cd366feea16abc13d8)

?Arxiv (https://arxiv.org/pdf/2410.01257)

?Датасет (https://huggingface.co/datasets/nvidia/HelpSteer2)

?Demo (https://build.nvidia.com/)


Источник: build.nvidia.com

Комментарии: