Что такое рассуждающая языковая модель и как она работает |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-09-16 12:09 Исчезающая выгода: почему прогресс LLM замедлился Практически все известные большие языковые модели на сегодня (осень 2025 г.) основаны на архитектуре Transformer. О том, что такое архитектура модели, можно узнать в этом материале, а конкретно об архитектуре Transformer — здесь. Одним из главных достоинств этой архитектуры является ее масштабируемость. Другими словами, можно получить более качественную модель, просто увеличив ее размер и обучив на большем количестве данных. Это редко встречаемое свойство архитектур. Часто масштабирование либо слишком сложно осуществить, либо оно не приводит к улучшениям, либо вообще негативно сказывается на модели. Более того, для Transformer можно вывести формулы, которые показывают зависимость между размером модели/количеством обучающих данных и итоговым качеством модели. Эти формулы имеют практическое применение. Например, по ним можно рассчитать, каких размеров должны быть модель и обучающая выборка, чтобы достичь заранее заданного качества. Это полезно, поскольку обучение LLM требует огромного количества вычислений, стоимость которых составляет сотни миллионов долларов. Без этих формул исследователям пришлось бы подбирать нужную конфигурацию перебором, тратя много денег и времени. Эти формулы называются Scaling Laws (Законы масштабирования). Прочитать о них и том, как они выводятся, можно в нашем материале про языковые модели. Другое важное знание, которое можно извлечь из этих формул, это темп роста качества модели с ростом ее размера и обучающих данных. С определенного момента темп роста качества снижается и дальнейшее наращивание размера модели и добавление данных ведут к diminishing returns (исчезающей выгоде). Другими словами, дальнейшее масштабирование модели Transformer становится невыгодным, поскольку возросшие затраты на вычисления не дают сопоставимого роста качества. ![]() Судя по трендам развития LLM в период с 2023 по начало 2025 года, мы близки к этому моменту. Все LLM от ведущих компаний показывают в существующих тестах очень близкие результаты, а субъективная разница между разными поколениями LLM ощущается все меньше и меньше. Наглядный пример — резкий скачок в возможностях, который произошел с выходом GPT-4 по сравнению с GPT-3, и не столь драматическое различие между GPT-4 и GPT-5. ![]() Новая парадигма: масштабируем вычисления во время генерации Исследователи понимают это фундаментальное ограничение Transformer и пытаются его преодолеть. Масштабирование размера обучающей выборки и самой модели влияет только на стадию обучения модели и, как было описано ранее, со временем перестает приносить значимый прирост в качестве. Долгое время почти не рассматривали другой путь — существенное увеличение вычислений на этапе работы модели, то есть при генерации ответа. Независимо от сложности запроса, модели сразу начинали отвечать и использовали варьируемое, но все же в небольших пределах, количество вычислений. Поэтому исследователи решили научить модель динамически тратить больше вычислительных ресурсов во время ответа. Такой подход получил название Test-Time Compute Scaling. Test-time в названии подчеркивает, что масштабирование происходит именно на этапе тестирования (генерации ответа), а не на стадии обучения (train-time). Количество вычислений, которые тратят модели Transformer во время ответа, линейно зависит от длины ответа: то есть количество вычислений равно длине ответа, умноженной на константу. Поэтому одним из способов «позволить» модели использовать больше ресурсов во время ответа — научить ее генерировать более длинные тексты. При этом длина ответа должна положительно влиять на качество, иначе ресурсы будут потрачены зря. Можно обучить модель генерировать не только сам ответ, но и процесс рассуждения: разбиение исходной задачи на подзадачи, планирование решения, промежуточные вычисления, перепроверку предыдущих выкладок и т. д. Такой текст, предшествующий финальному ответу, можно сравнить с человеческими рассуждениями при решении задачи. Увеличивать количество вычислений во время генерации можно и другими способами, однако в рамках этой статьи они не рассматриваются. Также желательно иметь настройку длины рассуждений: больше рассуждений — выше качество ответа, меньше рассуждений — быстрее ответ. Таким образом, рассуждающие языковые модели — это языковые модели, способные генерировать текст нетривиальной длины, предшествующий финальному ответу и существенно повышающий его качество. Идея заставлять модель рассуждать «вслух» возникла еще до того, как развитие LLM замедлилось. Еще в 2022 году было обнаружено, что если попросить LLM в запросе «думать по шагам» (think step-by-step), то модель будет генерировать небольшие цепочки «рассуждений», которые значительно повышают качество ответов. Важно отметить, что модели не обучали навыку рассуждений специально: он приобретался автоматически за счет использования огромных обучающий выборок. Например, в интернете можно встретить много пошаговых разборов математических задач с ответом в конце. Скорее всего, LLM запоминают этот паттерн во время обучения и воспроизводят его, когда в промте есть слова-триггеры, например, «думай пошагово». Этот механизм похож на модель человеческого мышления «Система 1, Система 2». Система 1 позволяет человеку автоматически реагировать и отвечать на вопросы, однако часто ошибается, в то время как Система 2 тратит когнитивные усилия на более тщательное продумывание ответа. ![]() Данная техника промтинга получила название Chain-of-Thought. Подробнее мы рассказывали о ней в наших материалах о том, как рассуждения помогают LLM и как использовать эту технику на практике. Рассуждающие языковые модели можно рассматривать как логичное развитие/масштабирование подхода Chain-of-Thought. Получилось ли у исследователей решить проблему diminishing returns? Однозначно ответить сложно: область рассуждающих LLM только появилась и активно развивается. Однако уже сейчас можно сказать, что использование рассуждений в некоторых случаях действительно эффективнее масштабирования вычислений во время обучения. По словам генерального директора Anthropic, одной из главных ИИ-лабораторий, компании только начали вкладываться в обучение рассуждающих моделей. Затраты на это пока невелики, но такой подход уже приносит существенный рост качества, поэтому компании стремятся его масштабировать. Как обучить языковую модель рассуждать? Рассуждение — нетривиальный и долгий процесс. Из-за этого сложно собирать качественные рассуждения вручную (особенно в большом объеме) и автоматизировать этот процесс тоже не так просто. Поэтому в основном используют два метода обучения:
Первый метод Выше мы рассказывали о способности моделей генерировать короткие промежуточные рассуждения с помощью техники промтинга Chain-of-Thought. Рассмотрим, как эта техника позволяет собирать синтетические (т. е. нечеловеческие) данные для обучения.
В конце остается дообучить нашу модель на отфильтрованных цепочках рассужденией. Мы получим модель, которая умеет генерировать относительно короткие рассуждения для конкретного типа задач. Стоит отметить, что фильтровать данные можно, не только сверяя полученный и верный ответы. Есть множество задач, где верный ответ сложно получить заранее. Например, в задаче перевода не всегда есть качественный перевод от специалиста-человека. В подобных случаях можно использовать LLM как оценщик ответов по заранее заданным критериям. У этого способа есть очевидный недостаток: мы ограничены способностями модели, которую используем для генерации обучающих данных. Второй метод Этот метод более сложный и вычислительно затратный, но имеет ряд преимуществ. Процесс обучения упрощенно выглядит так:
Реши следующую задачу: {Текст условия задачи}. Перед финальным ответом помести все свои рассуждения между тегами “<think>” и </think>”, а финальный ответ между тегами “<answer>” и </answer>”. Корректный с точки зрения промта ответ будет выглядеть следующим образом: <think>Рассуждения модели касательно задачи, например, промежуточные вычисления</think> <answer>Число – ответ на данную задачу</answer>
Например, критерии формата могут быть следующими:
Если модель соблюла формат ответ, то финальная оценка — это сумма баллов за формат и за правильность ответа, рассчитанных по алгоритму из пункта 1. Например, если модель соблюла формат и получила верный итоговый ответ, то оценка равна: 2 + 1 = 3 балла. Если же модель не последовала данному ей шаблону ответа, то даже за правильный ответ дополнительные баллы даваться не будут.
В отличие от первого метода, когда модель обучается на фиксированных данных, второй подход итеративный. Модель генерирует ответы и учится на них, постепенно улучшая качество. Множество работ показало, что второй метод дает более высокие и надежные результаты. На данный момент второй метод используется практически всеми разработчиками рассуждающих моделей. Первую успешную рассуждающую модель выпустила компания OpenAI, она получила название o1. О деталях ее создания известно мало, в частности, неизвестно, как именно ее обучали рассуждать. Через несколько месяцев компания Deepseek смогла создать большую рассуждающую языковую модель DeepSeek R1. Компания выложила в открытый доступ как саму модель, так и статью, детально описывающую масштабируемый способ обучения рассуждению. Это позволило open-source разработчикам создавать свои собственные рассуждающие модели. Проблемы и ограничения рассуждающих моделей У этого типа моделей есть большой ряд проблем, которые пока не научились решать.
Например, Anthropic выяснили, что если в промте указать ответ на вопрос, то часто модель подгоняет свои рассуждения к данному ей ответу, но не будет явно указывать, что взяла ответ из промта. Эта проблема особенно актуальна с точки зрения безопасности и интерпретируемости: рассуждения модели не помогают понять ее «поведение» и решения. Поэтому стоит воспринимать рассуждения моделей лишь как вспомогательный текст, а не реальный «ход мыслей», объясняющий финальный ответ.
Источники
Источник: m.vk.com Комментарии: |
|