Исследователи разработали метод улучшения способности ИИ к сложным рассуждениям.

2024-07-17 11:35

Большие языковые модели (LLM) очень хорошо отвечают на простые вопросы, но требуют специальных методов подсказок для решения сложных задач, требующих рассуждения и планирования. Эти схемы подсказок, часто называемые методами «Системы 2», расширяют возможности LLM для рассуждения, заставляя их генерировать промежуточные шаги для решения проблемы.

Несмотря на свою эффективность, методы Системы 2 делают приложения LLM медленными и дорогостоящими в вычислительном отношении. В новой статье исследователи из Meta FAIR представляют « Дистилляцию системы 2 » — метод, который обучает студентов, имеющих степень магистра права, сложным задачам, не требуя промежуточных шагов.

Система 1 и Система 2 в когнитивной науке и магистратуре

В когнитивной науке Система 1 и Система 2 относятся к двум различным режимам мышления. Мышление по Системе 1 быстрое, интуитивное и автоматическое. Это то, что мы используем, когда распознаем закономерности, делаем быстрые суждения или понимаем знакомые символы. Например, мы используем мышление Системы 1, чтобы распознавать дорожные знаки, распознавать лица и связывать основные символы с их значениями.

Мышление Системы 2, напротив, медленное, обдуманное и аналитическое. Это требует сознательных усилий и используется для решения сложных задач, таких как манипулирование абстрактными символами, решение математических уравнений или планирование поездки.

LLM обычно считают аналогом мышления Системы 1. Они могут генерировать текст очень быстро, но им трудно справляться с задачами, требующими обдуманного рассуждения и планирования.

В последние годы исследователи ИИ показали, что LLM можно заставить имитировать мышление Системы 2, предлагая им выполнить промежуточные этапы рассуждения, прежде чем дать окончательный ответ. Например, « Цепочка мыслей » — это метод подсказок, который поручает LLM шаг за шагом объяснять процесс рассуждения, что часто приводит к более точным результатам для задач логического рассуждения. Несколько методов подсказок Системы 2 адаптированы для различных задач.

«Показано, что многие из этих методов дают более точные результаты благодаря этому явному рассуждению, но обычно это происходит с гораздо более высокими затратами на вывод и задержкой ответа», — пишут исследователи Meta AI. «Из-за последнего многие из этих подходов не используются в производственных системах, которые в основном используют поколения Системы 1».

Система 2 дистилляции

Интересное наблюдение о Системе 2 мышления у людей: когда мы неоднократно выполняем задачу, требующую целенаправленных усилий, она постепенно закрепляется в нашей Системе 1. Например, когда вы учитесь водить машину, вы прилагаете много сознательных усилий, чтобы контролировать автомобиль, соблюдайте правила дорожного движения и ориентируйтесь. Но по мере того, как вы приобретаете больше опыта, вождение становится вашей второй натурой. Вам больше не нужно думать о каждом шаге, и вы можете выполнять их интуитивно и автоматически.

Этот феномен вдохновил исследователей Meta AI на разработку «Системы 2 дистилляции» для студентов LLM.

Дистилляция — это распространенный метод машинного обучения (МО), где более крупная модель, называемая «учителем», используется для обучения меньшей модели или «ученика». Например, разработчики часто используют передовые модели, такие как GPT-4 и Claude, для создания обучающих примеров для меньших моделей, таких как Llama-2 7B .

Однако в системе дистилляции 2 не используется отдельная модель учителя. Вместо этого исследователи нашли способ превратить знания, полученные от собственных возможностей рассуждения Системы 2 модели, в ее быстро развивающееся и эффективное в вычислениях поколение Системы 1.

Система 2 дистилляции (источник: arxiv)

Процесс начинается с предложения LLM решить проблему, используя методы подсказок Системы 2. Затем ответы проверяются на правильность с помощью неконтролируемого механизма. Например, они используют «самосогласованность», когда модели несколько раз задается одно и то же приглашение. Затем его ответы сравниваются, и тот, который появляется чаще всего, считается правильным ответом и выбирается для набора данных дистилляции. Если ответы слишком противоречивы, то пример и ответы на него отбрасываются.

Затем они отбрасывают промежуточные шаги, созданные рассуждениями Системы 2, и сохраняют только окончательные ответы. Наконец, они доработали модель по первоначальному вопросу и ответу. Это позволяет модели пропустить этапы рассуждения и сразу перейти к ответу.

Система 2 дистилляции в действии

Исследователи оценили свой метод на ряде задач на рассуждение и четырех различных методах подсказок Системы 2. В качестве базовой модели они использовали Ламу-2-70Б, которая достаточно велика, чтобы иметь возможность усваивать новые знания.

Подходы Системы 2, которые они использовали в своих экспериментах, включают цепочку мыслей, систему внимания 2 , перефразирование и ответ и ветвление-решение-объединение. Некоторые из этих методов требуют многократного вызова модели, что делает их медленными и дорогими. Например, функция «Перефразировать и ответить» сначала предлагает модели перефразировать исходный запрос с уточнением, а затем повторно предлагает модели перефразированный вопрос. Функция Branch-Solve-Merge еще более сложна и требует многократного взаимодействия с моделью.

Результаты показывают, что дистилляция Системы 2 может значительно улучшить производительность LLM при решении сложных логических задач, часто совпадая или превосходя точность исходных методов Системы 2. Кроме того, очищенные модели могут генерировать ответы гораздо быстрее и с меньшими вычислительными затратами, поскольку им не нужно проходить промежуточные этапы рассуждения.

Например, они обнаружили, что фильтрация оказалась успешной для задач, в которых используется Система внимания 2 для борьбы с предвзятыми мнениями или нерелевантной информацией. Он также показал впечатляющие результаты в некоторых задачах на рассуждение, где Repphase and Respond используется для уточнения и улучшения ответов, а также для детальной оценки и обработки задач с помощью Branch-Solve-Merge .

«Мы показали, что во многих случаях можно превратить рассуждения Системы 2 в результаты LLM без промежуточных поколений, сохраняя при этом, а иногда даже улучшая производительность», — пишут исследователи.

Однако исследователи также обнаружили, что, как и люди, студенты-магистры не могут объединить все типы навыков рассуждения в свой быстро развивающийся механизм вывода. Например, они не смогли успешно решить сложные математические задачи, требующие подсказок по цепочке мыслей . Это говорит о том, что некоторые задачи всегда могут требовать обдуманного рассуждения.

О дистилляции Системы 2 можно узнать гораздо больше, например, насколько хорошо она работает на меньших моделях и как дистилляция влияет на более широкую производительность модели при выполнении задач, которые не были включены в набор обучающих данных дистилляции. Также стоит отметить, что тесты LLM часто подвержены загрязнению, поскольку модель уже имеет какие-то знания о тестовых примерах, что приводит к раздутым результатам на тестовых наборах.

Однако дистилляция, несомненно, станет мощным инструментом оптимизации для зрелых конвейеров LLM, выполняющих конкретные задачи на каждом этапе.

«Заглядывая в будущее, системы, которые могут таким образом выделять полезные задачи, высвободят больше времени, которое можно будет потратить на размышления о задачах, с которыми они пока не могут справиться хорошо, как это делают люди», — пишут исследователи.

Источник: venturebeat.com

Исследователи разработали метод улучшения способности ИИ к сложным рассуждениям.

Комментарии: