T-Pro 2.0 — открытая гибридно-ризонинговая русскоязычная LLM |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-07-20 11:37 Всем привет! На связи Толя Потапов, MLE в Т-Банке. Мы продолжаем развивать собственную линейку моделей GEN-T и внутренние продукты на основе своих моделей: агенты в саппорте, внутренние копилоты для сотрудников и Вселенную ассистентов. Сегодня делимся новой моделью T-pro 2.0, обученной на основе модели Qwen3 32B, но с более плотной токенизацией на русском языке. Модель поддерживает гибридный ризонинг и позволяет сгенерировать рассуждение перед тем как отвечать. Это помогает в сложных задачах, где требуется несколько последовательных выводов, таких как математика. Мы дообучали модель в несколько этапов, чтобы прокачать общее качество решения задач на русском и улучшить генерацию рассуждений. Расскажу общие детали процесса обучения модели, основные характеристики и результаты замеров качества. Поделюсь, какие сложности у нас возникали и на чем планируем сосредоточиться. Процесс дообучения Cоздание нового токенизатора и его адаптация: мы получили улучшенный токенизатор для мультилингвальных моделей с фокусом на кириллические языки, взяв за основу токенизатор Qwen3 и расширив его кириллическую часть более чем в пять раз. При этом некириллические и нелатинские токены сократили на основании оценки частотности по нашему корпусу предобучения. Такой подход позволяет модели лучше работать с малоресурсными кириллическими языками при сохранении размера словаря как у оригинальной модели. Итоговый токенизатор на 30% более эффективен для русского языка. ![]() Ускорение инференса за счет токенизатора. Мы замерили ускорения инференса за счет более плотного токенизатора на двух доменах — чатовые запросы из ru-arena-hard и олимпиадные математические задачи из T-Math. ![]() Как мы считали ускорениеВ качестве фреймворка генерации мы использовали SGLang с параметрами генерации temperature=0.9 и presence_penalty=1.0 для обеих моделей. В результате оценили медианное количество токенов генерации для обеих моделей и медианную задержку (latency) при пакетной обработке запросов с max_concurrent_workers=100. Как видно из графиков, на более длинных ответах получается значительно большее ускорение, связанное с квадратичной сложностью вычисления механизма внимания. Дообучение на большом русскоязычном инструктивном корпусе: в первом релизе наш рецепт состоял из нескольких стадий продолжающегося предобучения с суммарным токен-бюджетом 140B. Дообучение гибридно-ризонинговых моделей потребовало существенной переработки рецепта: датамикс второй стадии теперь состоит из 40B инструктивных данных, где треть составляют ризонинг данные. Дообучение на более чистом SFT-сете: SFT-датасет сформирован из разнообразных промптов, собранных из открытых источников и качественных переводов англоязычных наборов данных. Основная цель — усилить ключевые способности модели: от решения алгоритмических задач и математики до диалоговости, логического мышления и режима рассуждений. Общий размер датасета составляет около 500 тысяч инструкций на русском языке. Мы применяли многоэтапный пайплайн фильтрации, чтобы обеспечить высокое качество и разнообразие. General-данные:
В general-часть мы добавили 1% семплов с длинным контекстом до 32к токенов. Дополнительно для reasoning-данных:
Для формирования итогового датасета ответы на инструкции генерировались с помощью более мощных моделей, таких как DeepSeek-V3 0324 и Qwen3-235B-A22B, что обеспечивает высокий уровень точности и релевантности. Preference tuning. Для обучения DPO сформировали набор данных — с фильтрацией по длине и типу для general-инструкций и сохранением баланса доменов для reasoning-инструкций. Для создания обучающих пар из 16 генераций выбирались лучший и худший кандидаты по оценке качества. При этом неполные генерации исключались, а среди трех лучших по качеству выбирался самый короткий ответ. Для оценки качества генераций обучили собственную reward-модель на базе Qwen3 32B. Обучение проводилось по турнирной схеме, где модели сравнивались попарно как в плей-офф, при этом модели схожего уровня ставились рядом друг с другом. Такой подход позволил reward-модели научиться различать тонкие различия между похожими по качеству ответами, а не только очевидные случаи. Speculative decoding. В качестве драфт-модели выбрали EAGLE 1 с генерацией драфта во время инференса с помощью tree attention согласно EAGLE 2. Обучили одну эпоху на семпле SFT-сета с инкрементом ризонинга, который использовался для обучения T-Pro 2.0, как результат получили ускорение до двух раз на распределении внутренних данных при использовании нулевой температуры и батча размера 1. При увеличении размера батча прирост становился менее ощутимым и при размере батча 8 пропадал. Драфт-модель с более подробной информацией и рекомендуемые настройки с примерами использования выложили на нашу страницу в huggingface. Диалоговые бенчмарки Для оценки способностей моделей к ведению диалога, следованию инструкциям и решению задач мы использовали LLM-as-a-judge-арены: Arena Hard Ru, Arena Hard 2 и арену, основанную на данных, отобранных автором репозитория WildChat Hard Ru из реальных запросов пользователей. В последней мы использовали в качестве бейзлайна ответы модели o3-mini. В качестве судьи для всех арен используется DeepSeek V3 0324. Результаты замеров на аренах. Для моделей, поддерживающих режим рассуждений, представлены замеры в /think- и /no_think-режимах. Рекомендованные параметры генерации можно посмотреть в карточке модели.
* Claude замерены в режиме без рассуждений Common-knowledge-бенчмарки. В качестве бенчмарков для оценки знаний о мире и общим логическим способностям моделей на русском языке мы использовали следующие бенчмарки: MERA, MaMuRAMu, ruMMLU, ruMMLU-Pro. Все замеры представлены в /no_think-режиме.
Reasoning-бенчмарки. Мы взяли несколько популярных академических и индустриальных бенчмарков, чтобы объективно оценить способности модели к рассуждениям и решению сложных задач: AIME, MATH-500, GPQA Diamond, Vikhr Math, Vikhr Physics, LiveCodeBench v4_v5. Для Vikhr Math и Vikhr Physics замеры производились кодом на основе Math-Verify. Англоязычные бенчмарки были целиком локализованы на русский язык ИИ-тренерами: ruAIME, ruMATH-500, ru GPQA Diamond, ruLCB. Мы собрали свой бенчмарк Т-Math, чтобы расширить оценку математических способностей на русском языке. Для составления T-Math мы использовали математические задачи из Всероссийской и Московской олимпиад школьников. Все задачи автоматически извлечены и проверены людьми на корректность. В итоге собрали 331 задачу с 1998 по 2025 год. Подробное описание процесса сбора данных можно найти в карточке бенчмарка на huggingface.
Метрики на английском языке. Для ризонинг-моделей все замеры производились в think-режиме.
Метрики на русском языке. Для ризонинг-моделей все замеры производились в think-режиме.
Зачем мы этим занимаемся За последний год open-source-модели проделали большой путь; разрыв между проприетарными и открытыми моделями сокращается. По крайней мере пока. Модели Deepseek V3/R1 и Qwen3 235B A22B сделали возможным запуск модели уровня gpt4 локально в контуре.
В то же время в прикладных задачах стандартный файнтюнинг нас все еще не устраивает, нам нужно закладывать факты и умения в гораздо более ранние фазы обучения. Наш опыт показывает, что это невозможно сделать без воспроизведения в какой-то степени всех этапов обучения современных LLM с подмешиванием своих данных и очень тонкого процесса наслоения этого обучения поверх существующих моделей. Внутренние линейки моделей, которые мы используем в своих продуктах, проходят похожий на T-Pro 2.0 процесс дообучения, но с использованием различных внутренних данных, которыми мы по понятным причинам поделиться не можем. Надеемся, что наличие такого датасета в открытом доступе позволит большему числу энтузиастов и компаний делать свои крутые продукты на основе LLM! Ограничения модели Длина контекста. Все стадии обучения модель прошла с длиной контекста, равной 32к токенов, как и оригинальная модель Qwen, поэтому контекст до 128k токенов должен нормально работать с RoPE scaling. Выводы T-pro 2.0:
Как и любая LLM, T-pro 2.0 может допускать галлюцинации, поэтому для production-сценариев рекомендуем RAG, тонкий fine-tune и внешние механизмы безопасности. Детальный разбор пайплайна дообучения будет в следующей статье. А пока нам важно ваше мнение — открывайте репозиторий, заводите issues и делитесь кейсами использования. Полезные ссылки: Источник: habr.com Комментарии: |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||