OpenMathInstruct-2: математический датасет и набор моделей от NVIDIA |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2024-10-10 19:44 OpenMathInstruct-2 (https://huggingface.co/datasets/nvidia/OpenMathInstruct-2) состоит из 14 млн. пар "вопрос-решение" (примерно 600 тысяч уникальных вопросов) и является одним из крупнейших общедоступных наборов данных для обучения LLM в математике. Набор данных создан на основе Llama-3.1-405B-Instruct путем синтеза решений для существующих вопросов из наборов данных MATH и GSM8K и генерации новых задач и решений. Результаты абляционных экспериментов, которые проводились для поиска оптимальных параметров синтеза, показали, что: формат решения имеет значение, причем чрезмерно подробные решения негативно сказываются на производительности модели; данные, сгенерированные сильной моделью-учителем, превосходят по качеству данные, полученные от более слабой модели; процесс обучения устойчив к наличию до 20% решений низкого качества; разнообразие вопросов имеет решающее значение для масштабирования данных. Итоговые данные, включенные в датасет прошли тщательную деконтаминацию с использованием конвейера OpenMathInstruct-2 показал высокую эффективность при обучении LLM. Модель Llama3.1-8B-Base, обученная на OpenMathInstruct-2, превзошла Llama3.1-8B-Instruct на 15,9% по точности на наборе данных MATH, а OpenMath2-Llama3.1-70B обошла Llama3.1-70B-Instruct на 3,9%. Датасет выпущен в 3-х размерностях: полный набор (примерно 7.5 GB) и уменьшенные версии train_1M (640 Mb), train_2M (1.3 Gb) и train_5M (3.1 Gb). Модели, дообученные на этом датасете: OpenMath2-Llama3.1-70B (https://huggingface.co/nvidia/OpenMath2-Llama3.1-70B), в форматеNemo (https://huggingface.co/nvidia/OpenMath2-Llama3.1-70B-nemo), квантованные версии GGUF (https://huggingface.co/DevQuasar/nvidia.OpenMath2-Llama3.1-70B-GGUF) (от 3-bit до 8-bit); OpenMath2-Llama3.1-8B (https://huggingface.co/nvidia/OpenMath2-Llama3.1-8B), в формате Nemo (https://huggingface.co/nvidia/OpenMath2-Llama3.1-8B-nemo), квантованные версии GGUF (https://huggingface.co/DevQuasar/nvidia.OpenMath2-Llama3.1-8B-GGUF) (от 2-bit до 8-bit). Лицензирование датасета : CC-BY-4.0 License. Лицензирование моделей: Llama 3.1 Community License. Набор моделей (https://huggingface.co/collections/nvidia/openmath-2-66fb142317d86400783d2c7b) Arxiv (https://arxiv.org/pdf/2410.01560) Датасет (https://huggingface.co/datasets/nvidia/OpenMathInstruct-2) Источник: huggingface.co Комментарии: |
|