MiMo-7B: Набор компактных ризонинг-моделей от Xiaomi |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-05-01 16:12 Xiaomi выпустила в опенсорсный релиз MiMo-7B (https://huggingface.co/XiaomiMiMo) — набор языковых моделей, созданных для решения сложных задач, от математики до генерации кода. Несмотря на скромные 7 млрд. параметров, модель демонстрирует результаты, превосходящие 32B-конкурентов, разрушая стереотипы о зависимости качества от размера. Создание MiMo началось с предтрейна на 25 трлн. токенов, где акцент был на повышении плотности логических паттернов. Для этого разработчики пересмотрели обработку данных: улучшили извлечение математических формул и блоков кода из веб-страниц, добавили синтетические данные, сгенерированные топовыми ризонинг-моделями, и все это обработали уникальной стратегией смешивания. На первых этапах доля STEM-контента достигала 70%, а на финальном — добавили синтетику и расширили контекст до 32K токенов. Обучение с подкреплением на стадии посттренинга проводили на массиве из 130 тыс. задач, где каждая проверялась автоматически. Чтобы избежать reward hacking, использовали только rule-based награды. Для сложных задач по программированию ввели систему частичных баллов (как на олимпиадах по информатике) - даже если решение не идеально, модель получает feedback за пройденные тесты. А чтобы RL не застревал на простых примерах, добавили ресэмплинг: 10% данных брали из пула уже решенных задач, балансируя эффективность и стабильность обучения. Результаты бенчмарков: на LiveCodeBench v6 MiMo-7B-RL набрала 49.3%, обойдя QwQ-32B на 10 пунктов, а на AIME 2025 — 55.4%, оставив позади OpenAI o1-mini. При этом базовая версия модели уже показывала 75.2% на BBH, что выше аналогов своего класса. Состав набора: MiMo-7B-Base (https://huggingface.co/XiaomiMiMo/MiMo-7B-Base) - базовая модель с потенциалом рассуждений; MiMo-7B-RL-Zero (https://huggingface.co/XiaomiMiMo/MiMo-7B-RL-Zero) - RL-модель, обученная на основе базовой; MiMo-7B-SFT (https://huggingface.co/XiaomiMiMo/MiMo-7B-SFT) - модель SFT, обученная на основе MiMo-7B-Base; MiMo-7B-RL (https://huggingface.co/XiaomiMiMo/MiMo-7B-RL) - RL-модель, обученная на основе SFT-модели, та, которая в бенчмарках обошла OpenAI o1-mini. Разработчики рекомендуют использовать для локального инференса их форк vLLM (https://github.com/XiaomiMiMo/vllm/tree/feat_mimo_mtp) , он поддерживает MTP (Multiple-Token Prediction), но и на HF Transformers инференс тоже работает (https://huggingface.co/XiaomiMiMo/MiMo-7B-Base#huggingface-inference). Лицензирование: MIT License. Набор моделей (https://huggingface.co/XiaomiMiMo) Техотчет (https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf) GitHub (https://github.com/XiaomiMiMo/MiMo) Источник: github.com Комментарии: |
|