Llama 3.1-Nemotron-51B-Instruct: модель от NVIDIA по методу Neural Architecture Search

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Llama 3.1-Nemotron-51B-Instruct (https://huggingface.co/nvidia/Llama-3_1-Nemotron-51B-Instruct) основана на Llama 3.1-70B и предназначена для NLP-задач генерации текста, чата, рассуждения и обобщения. Мультиязычность наследована от родительская модель. Llama 3.1-Nemotron-51B-Instruct также умеет обрабатывать языки программирования.

Архитектура модели построена с использованием методологии Neural Architecture Search (NAS) и блочной дистилляции.

NAS позволяет отобрать наиболее эффективные блоки трансформера для каждого слоя модели, а блочная дистилляция обеспечивает перенос знаний от исходной модели Llama 3.1-70B к более компактной Llama 3.1-Nemotron-51B-Instruct.

Полученная архитектура имеет нерегулярную структуру блоков с уменьшенным количеством операций внимания и полносвязных слоев, что существенно снижает вычислительную сложность и объем используемой памяти.

В процессе обучения модели использовались бенчмаркиMT-Bench и MMLU. Тестирование проводилось на задачах генерации текста, перевода и ответов на вопросы.

Результаты показали, что инференс Llama 3.1-Nemotron-51B-Instruct в 2.2 раза быстрее "родительской" модели (Llama 3.1-70B) при сохранении практически той же точности.

Благодаря сниженным требованиям к памяти, модель может обрабатывать в 4 раза большие объемы данных на одном GPU.

Рекомендованные аппаратные конфигурации:

FP8 - H100-80GB (версии FP8 пока нет в открытом доступе);

BF16 - 2x H100-80GB GPU или 2x A100-80GB GPU.

Пример инференса на Transformers (версия 4.44.2 или выше):

import torch  

import transformers

model_id = "nvidia/Llama-3_1-Nemotron-51B-Instruct"

model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}

tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)

tokenizer.pad_token_id = tokenizer.eos_token_id

pipeline = transformers.pipeline(

"text-generation",

model=model_id,

tokenizer=tokenizer,

max_new_tokens=20,

**model_kwargs

)

print(pipeline([{"role": "user", "content": "Hey how are you?"}]))

Лицензирование :NVIDIA AI Foundation Models Community License. (https://www.nvidia.com/en-us/agreements/enterprise-software/nvidia-ai-foundation-models-community-license-agreement/)

Страница проекта (https://developer.nvidia.com/blog/advancing-the-accuracy-efficiency-frontier-with-llama-3-1-nemotron-51b)

Модель (https://huggingface.co/nvidia/Llama-3_1-Nemotron-51B-Instruct)

Demo (https://build.nvidia.com/nvidia/llama-3_1-nemotron-51b-instruct)


Источник: build.nvidia.com

Комментарии: