Marco-o1: модель рассуждений от Alibaba

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Marco-o1 (https://huggingface.co/AIDC-AI/Marco-o1) – LLM, файнтюн-версия Qwen2-7B-Instruct для решения сложных задач, требующих рассуждений. В создании модели использовались методики Chain-of-Thought (CoT), поиска по дереву Монте-Карло (MCTS) и уникальные стратегии регулирования действий при рассуждении.

Marco-o1 обучалась на 3 датасетах: отфильтрованный набор данных Open-O1 CoT, синтетический набор Marco-o1 CoT и собственный набор инструкций (https://github.com/AIDC-AI/Marco-o1/blob/main/data/CoT_demo.json) Marco.

В модели реализованы 2 стратегии действий: "шаг как действие" и "мини-шаг как действие" (32 или 64 токена соответственно). Мини-шаг как действие обеспечивает более детальное исследование пространства решений.

В Marco-o1 был внедрен механизм рефлексии, который побуждает модель переосмысливать свои рассуждения, что улучшает результаты инференса, особенно в сложных составных задачах.

Модель оценивалась на наборах данных MGSM (английский и китайский). Результаты показали, что Marco-o1 превосходит Qwen2-7B-Instruct и демонстрирует улучшение точности на 6,17% для английского набора данных и 5,60% для китайского. Модель превзошла Google Translate в задачах языкового перевода, особенно при переводе разговорных выражений.

В ближайших планах:

Обучаются версии модели вознаграждения за результат (ORM) и вознаграждения за процесс (PRM).

Reinforcement Learning: обучение с подкреплением для совершенствования рассуждений.

Установка и локальный инференс:

# Clone the repository  

git clone https://github.com/AIDC-AI/Marco-o1

# Change to the Macaw-LLM directory

cd Marco-o1

# Install required packages

pip install -r requirements.txt

# Load model directly

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("AIDC-AI/Marco-o1")

model = AutoModelForCausalLM.from_pretrained("AIDC-AI/Marco-o1")

# Run Inference

./src/talk_with_model.py

Лицензирование: Apache 2.0 License.

Модель (https://huggingface.co/AIDC-AI/Marco-o1)

Версии GGUF (https://huggingface.co/bartowski/Marco-o1-GGUF)

Arxiv (https://arxiv.org/pdf/2411.14405)

Датасет (https://github.com/AIDC-AI/Marco-o1/blob/main/data/CoT_demo.json)

GitHub (https://github.com/AIDC-AI/Marco-o1)


Источник: github.com

Комментарии: