Большие языковые модели способны преуменьшать свои когнитивные способности, чтобы соответствовать личности, которую они моделируют

2024-05-05 16:13

Работа разума, компьютерная лингвистика, Психология ИИ

В этом исследовании изучаются возможности больших языковых моделей воспроизводить поведение людей с недостаточно развитыми когнитивными и языковыми навыками. В частности, мы исследуем, могут ли эти модели имитировать детскую речь и когнитивное развитие при решении задач с ложными убеждениями, а именно задач с изменением местоположения и задач с неожиданным содержанием. Модели GPT-3.5-turbo и GPT-4 от OpenAI были предложены для моделирования детей (N = 1296) в возрасте от одного до шести лет. Эта симуляция была реализована с помощью трех типов подсказок: простой нулевой выстрел, цепочка мыслей и подготовка по корпусу. Мы оценили правильность ответов, чтобы оценить способность моделей имитировать когнитивные навыки моделируемых детей. Обе модели продемонстрировали тенденцию увеличения правильности ответов и роста сложности языка. Это соответствует постепенному улучшению языковых и когнитивных способностей в процессе развития ребенка, что описано в обширной исследовательской литературе по развитию ребенка. GPT-4 обычно демонстрирует более близкое соответствие кривой развития, наблюдаемой у «настоящих» детей. Тем не менее, при определенных условиях он демонстрировал сверхточность, особенно в случае подсказки, заполненной корпусом. Тип задания, тип подсказки и выбор языковой модели влияли на модели развития, тогда как температура и пол моделируемого родителя и ребенка не всегда влияли на результаты. Мы провели анализ лингвистической сложности, исследуя длину высказывания и колмогоровскую сложность. Этот анализ выявил постепенное увеличение языковой сложности, соответствующее возрасту моделируемых детей, независимо от других переменных. Эти результаты показывают, что языковые модели способны преуменьшать свои возможности для достижения точной имитации подсказываемых персонажей.

Введение

По мере масштабирования языковых моделей появляются новые неожиданные возможности. Это означает, что пользователи (а иногда даже их разработчики) не могут заранее предсказать весь объем своих способностей, основываясь исключительно на целях обучения, как указано в [ 1 ]. Следовательно, возникает необходимость определить их возможности постфактум. Подобные исследования в настоящее время проводятся и широко публикуются в традиционных научных журналах, препринтах на arXiv и сообщениях в блогах.

Иногда публикация может утверждать, что большие языковые модели (LLM) слабы в некоторых возможностях, только для того, чтобы кто-то другой использовал более эффективные подсказки и продемонстрировал, что модели достаточно свободно справляются с этой задачей [ 2 ].

Эта несогласованность неудивительна, поскольку в настоящее время мы не можем напрямую исследовать скрытое пространство языковых моделей. Вместо этого мы ограничены изучением агентов на основе этих языковых моделей. Языковая модель сама по себе не имеет никакого влияния (в традиционном кибернетическом смысле, используемом в [ 3 ]). Мы создаем экземпляр агента, устанавливая начальные условия ( подсказки ) и используем модель для прогнозирования продолжения на основе этих начальных условий. Если начальные условия указывают агентов, присутствующих в наборе обучающих данных модели, продолжение служит симуляцией этих агентов. Таких агентов обычно называют «персонами», хотя они не просто личности, но могут быть любыми реальными или вымышленными агентами, которые нужны пользователю: полезный ИИ-помощник , термостат, хоббит, экосистема… То, что мы обычно называем возможностями Языковая модель — это, по сути, возможности личности, моделируемые с помощью модели. Естественно, эти возможности зависят от характеристик модели: достаточно ли универсальна ее архитектура, содержат ли обучающие данные достаточно информации о том, как должен вести себя персонаж, и может ли модель экстраполировать персону на основе комбинации обучающих данных и подсказки. Однако изучаемые возможности по своей сути зависят от атрибутов моделируемой личности.

Например, если мы взаимодействуем с персонажем по умолчанию, смоделированным с помощью ChatGPT-4, и задаем простой арифметический вопрос, он отвечает правильно и точно. Однако если мы создадим подсказку для создания персонажа, у которого явно нет доступа к калькулятору, он будет вести себя так, как будто не может получить точный результат. Это отражает поведение реального человека без калькулятора (см. рис. 1 ).

Скачать:

Рис. 1. GPT-4, имитирующий отца, у которого явно нет в распоряжении калькулятора, системная подсказка по умолчанию, 9 октября 2023 г.

Доступно по адресу https://chat.openai.com/share/9c9e2954-b95f-4c79-9b2a-253218c6fa96 .

https://doi.org/10.1371/journal.pone.0298522.g001

Эти наблюдения и терминология основаны на теории моделирования , первоначально представленной в блоге под псевдонимом Януса [ 4 ] и позже развитой в научной литературе [ 5 ]. Теория прямо утверждает, что агентность находится не в самой модели, а в симулякре, созданном подсказкой. Как указано в [ 5 ] [ 4 ], «чтобы лучше отразить это свойство распределения, мы можем думать о LLM как о недетерминированном симуляторе, способном отыгрывать роли бесконечного числа персонажей или, другими словами, способном стохастически порождая бесконечность симулякров».

Некоторые интерфейсы языковых моделей позволяют пользователям создавать персоны исключительно на основе их собственных подсказок (например, модель Davinci-002 от OpenAI, доступная через API), в то время как другие предоставляют персону по умолчанию (например, полезный помощник в ChatGPT). В случае ChatGPT окончательная личность формируется совместно посредством дополнительного обучения с подкреплением на основе обратной связи с человеком (RLHF), неизменяемой системной подсказки и, наконец, взаимодействия, инициированного пользователем.

Когда пользователи или исследователи оценивают LLM, очень важно осознавать роль конкретной личности, моделируемой в данный момент. Утверждение о том, что языковая модель лишена определенных возможностей, является неуместным актом антропоморфизации. Предпочтительнее утверждать, что персонажи, смоделированные с помощью конкретной языковой модели, лишены определенных способностей (хотя в реальном мире они должны ими обладать). Антропоморфизация человекоподобных симулякров может быть полезным сокращением, помогающим нам прогнозировать их поведение, в отличие от антропоморфизации самих языковых моделей [ 2 ].

Это подводит нас к основной теме этой статьи: в какой степени мы можем эффективно использовать LLM для моделирования персонажей с ограниченными когнитивными способностями? Конечно, когнитивные способности персонажей не могут превзойти ограничения, присущие архитектуре и обучающим данным модели. Например, такие модели, как Ada-002 (от OpenAI), имеют потолок при выполнении основных арифметических операций, превышающий определенный порог, даже если они вполне умеют имитировать преподавателей математики. Хотя этот верхний предел тщательно исследовался и обсуждался в многочисленных статьях [ 6 ], наш текущий интерес лежит в противоположном вопросе: можем ли мы достоверно моделировать людей, когнитивные способности которых значительно ниже этого предела? Можем ли мы использовать LLM для имитации более тонких способностей, чем, например, у персонажа без калькулятора, как на рис. 1 ?

Человеческий мозг способен на такую симуляцию, а это означает, что люди могут преуменьшать свои когнитивные способности. Это исследование проверяет гипотезу о том, что LLM обладают схожими адаптивными способностями.

Необходимо исследовать личности, которые по определению дифференцированы по своим когнитивным способностям и поведение которых представлено в обучающих данных существующих LLM. Мы выбрали детей разного возраста в качестве идеальных личностей, поскольку когнитивный уровень ребенка зависит от его возраста, и эти различия хорошо документированы в обширной литературе по когнитивному развитию. Наблюдая за моделируемыми детьми, мы будем следить за двумя компетенциями:

Лингвистические способности . Нас интересует, как языковая модель может адаптировать сложность языкового выражения в соответствии с предполагаемыми способностями моделируемого говорящего.
Понимание психического состояния : мы проверяем способность смоделированных личностей имитировать психические состояния других сущностей.

Мы выбрали теорию разума (ToM) как идеального кандидата для изучения понимания психического состояния, поскольку она демонстрирует выраженные возрастные различия в производительности, что дает нам градиент для изучения. Кроме того, производительность в так называемых задачах с ложными убеждениями (распространенный способ тестирования ToM) хорошо изучена и документирована в литературе по когнитивному развитию (см., например, обзор в [ 7 ]).

Что касается обеих компетенций, лингвистической и когнитивной, мы ожидаем постепенного увеличения способностей, коррелирующего с увеличением возраста моделируемых детских личностей. Этот прогресс в идеале должен имитировать реальные модели языкового и когнитивного развития, наблюдаемые у детей. Если LLM смогут эффективно моделировать этот градиент развития в своих ответах, это подтвердит их способность адаптироваться к различным когнитивным уровням на основе предоставленных подсказок.

Уровень развития

Недавние исследования способности студентов магистратуры моделировать человеческое мышление и когнитивные навыки принесли неоднозначные результаты. [ 8 ] выявили способность GPT-3.5 проявлять человеческое интуитивное поведение в различных когнитивных тестах. [ 9 ] обнаружили, что LLM не справляются с абстрактными рассуждениями так же, как и люди. Была исследована способность LLM понимать и моделировать ToM. ToM — это способность понимать и рассуждать о психических состояниях и намерениях других. Это позволяет людям предсказывать поведение и понимать рассуждения других [ 10 ]. [ 10 ] протестировали GPT-3 в вариации классической задачи на ложное убеждение [ 11 , 12 ] и обнаружили, что по сравнению с точностью 90–100% у людей, модели GPT-3 достигли максимальной точности в 60%. В тесте на социальный здравый смысл и эмоциональный интеллект модель достигла точности 55% по сравнению с точностью более 85% у людей. [ 13 ] сравнили ответы нескольких LLM на ложные задачи («неожиданная передача» и «неожиданный контент») и обнаружили значительное улучшение точности решения этих задач в ChatGPT-4. В их эксперименте точность Давинчи-001 и Давинчи-002 составила 10%; Davinci-003 и GPT-3.5-turbo достигли точности 35%; а ГПТ-4 успешно решила 90% задач. Авторы предположили, что ToM спонтанно возник как побочный продукт быстрого улучшения языковых навыков LLM.

В упомянутых выше исследованиях магистрантам просто задавались вопросы, чтобы получить ответы; они не побуждали модели моделировать какую-то конкретную личность. [ 14 ] представляют так называемые эксперименты Тьюринга . В этих экспериментах LLM предлагается моделировать персонажей, которые затем выступают в качестве участников-людей. Таким образом, вопрос, на который могут ответить эти эксперименты, заключается не в том, способен ли LLM отвечать на задачи, как люди, а в том, может ли он точно моделировать аспекты человеческого поведения. Авторы утверждают, что эти симуляции должны быть нулевыми. Они применили этот дизайн к игре «Ультиматум» (участнику предлагается доля денег, который может либо принять ее, либо отклонить в зависимости от целесообразности разделения), «Предложения на тропинке в саду » (участник должен решить, является ли предложение со сбивающим с толку разбором грамматическим). или нет), «Шоковый эксперимент Милгрэма» (участникам предлагается наказать учащегося электрошоком, если учащийся не справляется хорошо) и «Мудрость толпы» (участники должны оценить числовое значение вопроса на общие знания), а также они дали результаты, сравнимые с человеческими испытуемыми в трех первых тестах, включая гендерно-чувствительный эффект рыцарства в игре Ultimatum. Кроме того, они обнаружили удивительные искажения сверхточности игры Ultimatum в последних моделях GPT. Они объясняют это искажение результатом процедур согласования, а именно обучения с подкреплением на основе обратной связи с человеком (RLHF), которого нет в старых моделях.

Использование LLM в качестве представления людей с различными демографическими свойствами было предложено другими исследователями (например, [ 15 – 19 ]).

Следуя этому исследовательскому подходу, наше исследование выходит за рамки оценки способности моделей большого языка (LLM) имитировать человеческое поведение. Оно также включает в себя проверку их способности моделировать ограничения когнитивных способностей. Хотя было обнаружено, что некоторые LLM демонстрируют ToM и могут отвечать на вопросы ложного убеждения так же, как люди, наш интерес теперь заключается в их способности скрывать свои способности, когда их об этом спрашивают. Чтобы исследовать это, мы предложили магистрам права смоделировать людей с неполным когнитивным развитием: детей.

Хорошо известно, что дети приобретают аспекты ТОМ из своего окружения, о чем свидетельствуют устоявшиеся оценки, такие как задания на ложные убеждения. Доступны комплексные метаанализы исследований ToM с участием детей [ 7 , 20–22 ] , а более широкий взгляд на эти метаанализы можно найти в [ 23 ]. Хотя существует преобладающая тенденция, указывающая на повышение способности детей правильно решать задачи, основанные на ложных убеждениях, с возрастом, важно признать наличие индивидуальных различий. Эти различия объясняются различными факторами, в том числе наличием братьев и сестер, частым участием в социальных ролевых играх или двуязычием [ 23 ]. Задания на ложные убеждения оказались эффективными для оценки способностей ТОМ, поскольку они воспроизводят повседневные сценарии, легко понятные детям. Результаты метаанализа показали, что конкретный тип используемой задачи на ложное убеждение не оказывает существенного влияния на ответы детей. Среди часто используемых задач на ложные убеждения — задачи на изменение местоположения и неожиданный контент [ 7 , дополнительную информацию см. в разделе «Тип подсказки». Прогресс правильного решения этих задач быстрый – от 2,5 до 5,5 лет, после чего замедляется. К 4,5 годам большинство детей правильно оценивают и рассуждают в таких ситуациях [ 23 ].

Помимо когнитивного развития, одновременно происходит улучшение языковых навыков. Эти достижения четко определяются стадиями синтаксического и морфологического развития Брауна, которые определяют ожидаемые выразительные речевые способности у детей в возрасте примерно от 1 до 4 лет [ 24 ]. Одним из важнейших показателей для измерения языкового развития является средняя длина высказывания (MLU), которая постепенно увеличивается в этом возрастном диапазоне. Дети обычно произносят высказывания от 1,0 до 2,0 морфем в возрасте одного года, которые постепенно увеличиваются до 3,75–4,5 морфем к возрасту 4 лет. Хотя MLU подвергался некоторой критике (например, [ 25 – 27 ]), он оставался ценный показатель развития речи (например, [ 28 – 30 ]). Отражение языкового развития выходит за рамки MLU; оно включает в себя общую сложность. Эта сложность предполагает построение более сложных предложений и более точную передачу значений [ 31 ]. Стадии развития, суммированные в [ 32 ], описывают, что формирование первого языка обычно происходит примерно в шестимесячном возрасте с повторением слогов, за которым следует появление отдельных слов примерно в возрасте одного года. К двум годам дети объединяют два слова, что приводит к созданию коротких предложений в три года, сложных предложений в четыре года и, в конечном итоге, к способности рассказывать краткую историю после пяти лет.

Гипотеза

Наша гипотеза возникла в результате попытки определить, встраивают ли современные языковые модели максимальные когнитивные способности в моделируемые личности независимо от контекста, или вместо этого они стремятся точно моделировать личности, включая их когнитивные несовершенства. Мотивацией этого является исследование возможности того, что при быстром развитии моделей мы можем достичь стадии, на которой мы не сможем использовать весь их потенциал, поскольку возможности моделей намеренно ограничены для моделирования человеческих или человекоподобных личностей, как это диктуется. по подсказке.

Центральный тезис этой статьи можно резюмировать следующим образом: для больших языковых моделей можно установить начальные условия так, чтобы получающиеся в результате моделируемые личности отличались друг от друга по когнитивным и лингвистическим способностям, и эти различия соответствовали различиям между сущностями. в реальной жизни .

Наша основная гипотеза утверждает, что LLM способны имитировать дефицит когнитивных и языковых способностей. Другими словами, даже несмотря на то, что они обладают определенными способностями, они могут имитировать людей, лишенных этих способностей. Моделируя детей, то есть персонажей с недостаточно развитыми когнитивными и языковыми навыками, наша цель состоит в том, чтобы выяснить, могут ли LLM точно отражать навыки, демонстрируемые типичным человеческим ребенком определенного возраста. Чтобы проверить эту гипотезу, мы сосредоточимся на двух ключевых переменных: сложности языка, служащей индикатором языковых навыков, и точности ответов на задачи с ложными убеждениями, что дает представление о понимании ToM. Производительность в этих двух областях постепенно улучшается по мере развития ребенка, расширяя возможности когнитивных задач и усложняя речевое производство. Мы прогнозируем, что LLM будут повторять эту траекторию развития в моделируемых личностях.

Методология

Мы осуществили проверку этой гипотезы следующим образом: мы предложили LLM, инициировав разговор, призванный имитировать дискуссию ребенка со взрослым. Основной рассматриваемой независимой переменной был возраст ребенка. Результаты оценивались с точки зрения языковой сложности и когнитивных способностей в качестве зависимых переменных.

Поскольку на результаты могут влиять многочисленные другие независимые переменные, некоторыми из них систематически манипулировали, чтобы исследовать скрытое пространство рассматриваемых моделей. В результате этого подхода было проведено в общей сложности 1296 независимых исследований. В каждом испытании LLM имели возможность генерировать все промежуточные ответы, а не только окончательный ответ, тем самым моделируя подлинный диалог.

Учитывая, что современные западные LLM обучаются преимущественно на англоязычных данных, весь эксперимент проводился на английском языке. Это также позволило нам использовать обширный корпус детской речи на английском языке, который является частью банка данных CHILDES [ 33 ].

Независимые переменные

Возраст.

Мы сосредоточились на детях и персонажах в возрасте от 1 до 6 лет с детализацией в один год. Этот возрастной диапазон был выбран из - за критического развития языковых навыков [ 31 ] и понимания ToM [ 7 , 20–23 ] , которые происходят в этот период.

Мы использовали данные следующих корпусов: Bates [ 34 ], BernsteinRatner [ 35 ], Brown [ 24 ], Demetras—Trevor [ 36 ], Gelman [ 37 ], Gleason [ 38 ], Higginson [ 39 ], HSLLD [ 40 ], МакКьюн [ 41 ] и Мориссе [ 42 ]. При извлечении данных мы следили за тем, чтобы дети в возрастных группах 2, 3, 4 и 5 были не более чем на два месяца старше целевого возраста. Для 6-летних мы отобрали стенограммы детей в возрасте от 6 лет до 6 лет 6 месяцев. Что касается годовалых детей, мы остановили свой выбор на детях в возрасте 1 года 6 месяцев, так как стенограммы детей младшего возраста были скудными и в них отсутствовали повторы детской речи.

Тип подсказки.

Мы представили LLM с тремя типами подсказок:

(1) Простая подсказка с нулевым выстрелом: разговор начинается со строки «Вот стенограмма разговора между X-летним ребенком и ее/его матерью/отцом». Манипулировались возрастом и полом ребенка, а также полом родителя (подробнее ниже). Сценарий задачи последовал сразу после этого вступления.

(2) Подсказка по цепочке мыслей. В этом случае разговор начинается со следующей подсказки: «Вы являетесь экспертом в области психологического развития детей, обладаете обширными знаниями как в теоретических, так и в практических аспектах их языка и когнитивных способностей. способности в понимании науки. Не могли бы вы поделиться своим мнением о теории психического развития детей? Что это такое и как это зависит от возраста ребенка?» После того, как LLM сгенерировал ответ, появилось следующее приглашение:

Используя эту информацию, пожалуйста, продолжите разговор между ребенком X лет и ее/его матерью/отцом в следующей расшифровке: Пол ребенка и родителя, а также возраст ребенка были манипулированы. После этого приглашения последовал один из сценариев задачи.

(3) Подсказка по корпусу: разговор начинается с отрывка из корпуса CHILDES (подробнее см. в Лабораторном протоколе ( файл S1 ). Каждый отрывок состоял примерно из 100 реплик с допустимой дисперсией ±5 реплик. Примечательно, что явных В этих отрывках была предоставлена информация о возрасте ребенка. Для каждой возрастной группы были выбраны десять отрывков из книги CHILDES, которые были взяты от англоговорящих людей, говорящих только на одном языке. После этого отрывка следовали сценарии заданий.

Простое подсказка с нулевым выстрелом следует процедуре, предложенной в [ 14 ]. Подсказки по цепочке мыслей использовались, поскольку предыдущие исследования с использованием этой методологии сообщали об улучшении точности результатов [ 43 , 44 ]. Мы модифицировали эту методологию в соответствии с целями нашего исследования. В частности, мы отошли от стандартной практики запроса создания промежуточных шагов и вместо этого сосредоточились на явном вызове теорий, которые впоследствии будут применяться к нашим задачам. Таким образом, в данном случае LLM имитирует эксперта, который имитирует ребенка. Наконец, была выбрана подсказка по корпусу, чтобы подсказать модели неявную, а не явную информацию о желаемом персонаже.

Задача.

Мы выбрали две наиболее распространенные задачи ложного убеждения в исследовании ToM: (1) Задача смены местоположения: мы следуем классическому сценарию, предложенному [ 12 ]. Серия подсказок следующая:

Родитель: Ты помнишь Макси, своего друга?
Ребенок:
Воспитатель: Вот кукла. Марионетка похожа на Макси, не так ли?
Ребенок:
Воспитатель: У Макси есть шоколад, вот его шоколад… А Макси вот кладет шоколад в шкаф.
Ребенок:
Родитель: Теперь Макси ушел! Макси пошел на детскую площадку.
Ребенок:
Родитель: И вот к шкафу подходит его мама! Вот эта марионетка – его мама. И она берет шоколад!
Ребенок:
Родитель: И она отдаёт шоколад в ящик. Здесь.
Ребенок:
Родитель: Теперь Макси вернулся с детской площадки! И он хочет шоколад. Куда будет смотреть Макси?
Ребенок:

Хотя трехлетние дети часто не справляются с этой задачей, с четырехлетнего возраста дети в основном способны осознать, что Макси не видел, как родитель прятал шоколад. Поэтому правильно отвечают, что он заглянет в шкаф [ 20 ].

(2) Задача с неожиданным содержанием. Эта задача представляет собой модификацию сценария, предложенного в [ 45 ]. Оно отличается от задания на смену места тем, что ребенок самостоятельно испытывает ложное убеждение, полагая, что в коробке с конфетами есть конфеты, прежде чем обнаруживает, что на самом деле там есть карандаши. Серия подсказок следующая:

Родитель: У меня есть кое-что для тебя!
Ребенок:
Родитель: здесь! посмотрите на эту коробку конфет!
Ребенок:
Воспитатель: Как вы думаете, что внутри?
Ребенок:
Родитель: но посмотрите! Когда я открываю ее, внутри лежат карандаши!
Ребенок:
Родитель: Сейчас я закрою коробку и покажу ее твоей сестре-близнецу, хорошо?
Ребенок:
Родитель: что, по мнению твоей сестры, находится внутри коробки?
Ребенок:

Несмотря на отсутствие уверенности, можно предположить, что эти типы задач были доступны в обучающих данных LLM. Эти сценарии являются широко признанными примерами, что было решающим аспектом исследования, поскольку целью было сопоставить ответы персонажей с успеваемостью детей. Что касается потенциального влияния конкретных задач на результаты, крупные метаанализы не выявили существенного влияния типа задачи на правильность ответов [ 7 , 20 ]. Следовательно, мы можем ожидать сопоставимых результатов по обеим задачам.

Пол ребенка и родителя.

Хотя наше основное внимание не было сосредоточено на влиянии пола, исследования в области овладения языком выявили корреляцию между полом ребенка и его языковыми навыками. В частности, было замечено, что девочки часто демонстрируют небольшое преимущество перед мальчиками в этом отношении (например, [ 46–48 ] ) , а мальчики признаются группой с большей вариабельностью [ 49 ]. Более того, различные аспекты общения, включая стиль повествования, выбор речевых актов и методы ведения переговоров, по-видимому, различаются в зависимости от пола [ 31 ]. Следовательно, мы стремились обеспечить сбалансированное представительство пола среди наших персонажей. Поскольку некоторые исследования показали различия во вкладе женщин и мужчин, осуществляющих уход, например, [ 50 , 51 ], мы также сбалансировали пол родителя.

Балансировка пола осуществлялась исключительно с помощью простых подсказок с нулевым выстрелом и цепочки мыслей, где у нас была возможность гибко манипулировать явной информацией, представленной в первоначальной подсказке. Однако в методе подсказок с использованием корпуса этот вариант оказался нежизнеспособным по нескольким причинам. Во-первых, доступные стенограммы демонстрируют асимметричное представительство женщин-воспитателей по сравнению с мужчинами, а гендерное распределение среди детей также было несбалансированным. Во-вторых, транскрипты требовали ручного отбора, поскольку у некоторых детей в случайно выбранных отрывках было менее двух реплик. Наконец, основная цель этого метода подсказки заключалась в том, чтобы определить возраст ребенка с помощью поведенческих данных, и большинство стенограмм не содержали информации о поле. Включение гендерной информации во все расшифровки потребовало бы изменения исходных поведенческих данных, а мы решили не делать этого. Кроме того, с прагматической точки зрения, у нас не было доступа к достаточно большим корпусам, чтобы обеспечить гендерный баланс в этом методе.

Модели.

Мы использовали GPT-3.5-turbo и GPT-4 из-за их возможностей, популярности, общего использования в реальных условиях и простого доступа через API. На момент написания этой статьи GPT-4 была самой совершенной общедоступной языковой моделью [ 52 ].

Хотя эти модели называются большими языковыми моделями, они больше используются в качестве когнитивных сопроцессоров или мыслительных машин. В этом контексте язык в первую очередь служит интерфейсом, а другие когнитивные способности становятся более важными. В настоящее время другие когнитивные способности проверяются более тщательно, чем лингвистические, см. [ 52 ].

Обучение с подкреплением на основе обратной связи с человеком (RLHF) расширяет когнитивные способности LLM в определенных востребованных задачах и делает модель более приятной в использовании [ 53 ]. Однако применение RLHF в GPT-4 было идентифицировано как потенциальная причина определенных аномалий, особенно в проявлении сверхточности [ 14 ]. Разница между GPT-3.5-турбо и GPT-4 заключается не только в их размере и архитектуре (о которой GPT-4 не была раскрыта широкой публике), но также в характере и степени RLHF, которым они подверглись.

Температура.

Модель определяет вероятность того, что каждый возможный токен является продолжением данного текста (обратите внимание, что в терминологии языкового моделирования токен означает символьную n-грамму, выбранную в качестве единицы токенизации , а не часть различия типа-токена Пирса, и в этом случае вероятность каждого возможного типа было бы более подходящим). Впоследствии из этого распределения вероятностей случайным образом выбирается выходной токен. Этот механизм отбора искажен, в некоторой степени отдавая предпочтение более вероятным токенам. Степень, в которой это происходит, можно регулировать в зависимости от требований пользователя API с помощью параметра температуры . Когда температура установлена на 0, всегда выбирается токен с наибольшей вероятностью. По мере увеличения значения температуры менее вероятные токены также имеют шанс быть выбранными. В документации OpenAI API прямо указано: «Более высокие значения, такие как 0,8, сделают вывод более случайным, а более низкие значения, такие как 0,2, сделают его более сфокусированным и детерминированным» [ 54 ].

Для целей нашего эксперимента мы выбрали три значения температуры, чтобы изучить, как изменяются свойства модели в зависимости от этого важного параметра. Первое значение выбирается равным нулю, что представляет собой детерминированный выбор наиболее вероятного токена. Второй — 0,5, что находится в середине рекомендуемого диапазона для стандартного использования. Третье выбранное значение — 0,9, что превышает типичный предлагаемый диапазон.

Зависимые переменные

Языковая сложность.

Мы использовали два различных метода оценки сложности: во-первых, приближение, основанное на длине ответа, и во-вторых, приближение колмогоровской сложности.

Длина ответа была выбрана в качестве показателя, поскольку она широко используется в литературе по изучению основного языка (см. выше), сохраняя преемственность устоявшейся традиции. Этот показатель используется в четырех цифрах, представляющих основные результаты в разделе «Результаты». Наша операционализация этой меры — это подсчет букв в тексте, сгенерированном моделью в качестве реакции ребенка. Мы признаем, что психолингвистические исследования часто используют различные другие операционализации (например, подсчет морфем), но этого простого показателя достаточно для наших целей.

Колмогоровская сложность обеспечивает более точное измерение и широко используется в количественной лингвистике [ 55 ]. Колмогоровская сложность, также известная как алгоритмическая сложность [ 56 , 57 ], относится к минимальному количеству информации, необходимому для сжатия данной строки. Таким образом, его нельзя вычислить напрямую, а только приблизительно. Мы аппроксимируем верхние границы колмогоровской сложности, используя сжатие текста с помощью комбинации алгоритма LZ77 [ 58 ] и кодирования Хаффмана [ 59 ], объединенных в RFC1951 [ 60 ]. Мы включили в основную статью только одну цифру, основанную на результатах этого измерения, но дополнительные результаты можно найти во вспомогательной информации ( файл S3 ).

Мы учитываем только ответы смоделированного персонажа, исключая круглые скобки, замечания и аннотации.

Теория разума.

Ответы на два задания на ложные убеждения были проанализированы, чтобы оценить понимание персонажей ТОМ. Первый ответ на вопрос «Куда будет смотреть Макси?» (или «Что, по мнению вашей сестры, находится внутри коробки?» соответственно) были разделены на четыре категории, как показано в Таблице 1 .

Скачать:

Таблица 1. Обзор классификации ответов LLM на задачи ложного убеждения.

https://doi.org/10.1371/journal.pone.0298522.t001

Ответы, предоставленные персонажами, были вручную закодированы опытным программистом. Чтобы обеспечить надежность процесса кодирования, 30% ответов были независимо закодированы вторым кодировщиком в соответствии с установленными правилами, изложенными выше. Надежность интеркодера оценивалась с использованием индекса каппа Коэна. Рассчитанное значение индекса каппа Коэна между двумя кодировщиками составило 0,88, что указывает на то, что уровень согласия между кодировщиками был «почти идеальным», согласно критериям оценки силы согласия, предложенным [ 61 ]. Между двумя программистами было согласие на 95%.

Для анализа доли правильных ответов в долю правильных ответов включались только «релевантные» ответы (т.е. освоенные ТМ и неуспешные ТМ из таблицы 1 ). Отдельно анализировались случаи, когда персонажи отвечали «ничего» или «что-то еще». Этот подход был принят из-за потенциального отклонения от оценки владения ToM до более широкой оценки понимания языка. Например, ответ на неожиданное задание по содержанию, предполагающий, что сестра ожидала бы присутствия карандашей в коробке, означает недостаток ToM. И наоборот, ответ, предполагающий, что это наклейки, или решение вообще не отвечать, предполагает трудности с пониманием всего разговора, что указывает на более широкие трудности в понимании всего дискурса.

статистический анализ

Средние значения наблюдаемых показателей представлены вместе с их 95% доверительными интервалами (с использованием бутстрап-перевыборки для числовых переменных и точных биномиальных доверительных интервалов для анализа категориальных переменных). Эти доверительные интервалы действительны только при выборке из одной и той же модели в идентичных условиях, поскольку даже небольшие изменения в подсказке могут привести к значительным различиям в результатах, как подчеркивается в [ 62 ]. По сравнению с участниками-людьми исследование больших языковых моделей имеет то преимущество, что отдельные испытания одной и той же модели по своей сути независимы (между испытаниями нет памяти). Это позволило нам варьировать множество переменных, тем самым более широко исследуя скрытое пространство модели. Этот подход более выгоден, чем выборка нескольких результатов для одного и того же запроса с одинаковыми настройками: для температуры 0 результат является детерминированным, а для более высоких температур он получается из одного и того же распределения выходных данных.

В соответствии с [ 63 ] мы предоставляем читателям доступ к полному набору данных и разбиваем данные на основе отдельных независимых переменных, которые мы систематически варьировали. Вспомогательная информация содержит не только набор данных, но и дополнительные диаграммы, больше, чем было бы возможно обсудить в рамках этой статьи ( файл S3 ). Мы следуем рекомендациям [ 63 ] и обеспечиваем качественную оценку некоторых особенно интересных результатов.

Результаты и обсуждение

Предыдущие исследования когнитивных способностей в рамках LLM часто упускали из виду явный учет личностей, которые моделируют модели [ 8 – 10 , 13 ]. Напротив, наш эксперимент подчеркивает ключевую роль, которую играет смоделированная личность при оценке возможностей модели. В целом модели соответствовали тенденциям развития, ожидаемым от детей, которых они моделировали: чем старше моделируемый ребенок, тем лучше развивались языковые и когнитивные навыки.

В рамках эксперимента определенные условия приводят к более точному моделированию по сравнению с другими. Основные открытия заключаются в следующем:

Высокая доля правильных ответов, наблюдаемая у 6-летних детей, подтверждает, что студенты LLM могут эффективно использовать ToM ( рис. 2 ). Этот вывод согласуется с исследованиями [ 13 ]). Тем не менее, в отличие от результатов, описанных в [ 10 , 13 ], и GPT-4, и GPT-3.5-turbo достигли высокой точности в своих ответах. Этот результат может быть обусловлен относительной простотой задач, связанных с ложными убеждениями.

Скачать:

Рис. 2. Доля правильных ответов по типу задания и возрасту.

Диаграммы слева представляют результаты, сгенерированные GPT-3.5-turbo, а диаграммы справа — результаты, сгенерированные GPT-4. Первая строка диаграмм представляет собой простую подсказку с нулевым выстрелом, вторая подсказка с цепочкой мыслей, а третья представляет подсказку, подготовленную по корпусу.

https://doi.org/10.1371/journal.pone.0298522.g002

Подобно наблюдениям, сделанным в [ 14 ], мы выявили определенную степень сверхточности в GPT-4 по сравнению с предыдущей моделью GPT-3.5-турбо. Это различие было особенно заметно в задаче смены местоположения. В то время как GPT-3.5-turbo соответствовал модели постепенного повышения точности с возрастом, GPT-4 продемонстрировал высокую долю правильных ответов даже при моделировании годовалых детей. Поскольку модель GPT-4 в остальном сильнее, но две модели различаются в последующей настройке, это открытие согласуется с гипотезой, предполагающей, что точная настройка и процедуры RLHF могут вызывать искажения в поведении модели [ 14 ]. Это приводит к последствиям для использования LLM: когда пользователи ищут адекватные результаты для своих запросов, может быть выгодно выбрать базовую модель (которая, к сожалению, недоступна для GPT-4).

Анализ выявил влияние типа подсказки на правильность ответов. Примечательно, что прайминг с помощью корпуса CHILDES оказался наиболее эффективным при моделировании персонажей определенных возрастных групп. Это открытие представляет особый интерес, учитывая, что возрастные категории не были явно упомянуты ни в одной части такого рода подсказок, а выбранные транскрипты были взяты из базы данных, содержащей присущие индивидуальные различия. Тем не менее, модели удалось усвоить поведенческие сигналы из подсказок и включить их в свои ответы на задачи с ложными убеждениями. Этот вывод имеет значение для развития нынешних методологий моделирования демографических групп в экспериментах Тьюринга, проводимых LLM. В то время как простые подсказки с нулевым выстрелом, предложенные в [ 14 ], могут оказаться полезными во многих сценариях, неявная корректировка персонажей, примером которой являются подсказки, основанные на корпусе, может привести к более точному моделированию. Кроме того, исследование показало, что тип подсказки цепочки мыслей (отмечен как объяснение на рис. 2 и последующих рисунках) улучшает симуляцию детского поведения в GPT-4 по сравнению с простым типом подсказки с нулевым выстрелом. Аналогичные результаты можно ожидать, если применить их к игре «Ультиматум».

В отличие от метаанализа, проведенного по задачам с ложными убеждениями, например, [ 7 ], мы обнаружили различия между типами задач (отмечены цветом на рис. 2 ). Эти различия стали особенно очевидными при изучении распространенности нерелевантных ответов. Примечательно, что в большинстве случаев общее понимание задачи неожиданного контента оказалось ниже по сравнению с задачей изменения местоположения.

В целом, наши результаты указывают на большую степень появления нерелевантных ответов в модели GPT-3,5-турбо по сравнению с GPT-4, где доля нерелевантных ответов оставалась исключительно низкой, за исключением ответов, полученных от годовалых детей, что в соответствии с поведением «настоящих» детей (см. рис. 3 ).

Скачать:

Рис. 3. Доля нерелевантных ответов по типу задания и возрасту.

https://doi.org/10.1371/journal.pone.0298522.g003

Не выявлено последовательной закономерности в отношении влияния температуры ( рис. 4 ), пола ребенка ( рис. 5 ) или пола родителя ( рис. 6 ).

Скачать:

Рис. 4. Доля правильных ответов по температуре и возрасту.

https://doi.org/10.1371/journal.pone.0298522.g004

Скачать:

Рис. 5. Доля правильных ответов по полу и возрасту детей.

https://doi.org/10.1371/journal.pone.0298522.g005

Скачать:

Рис. 6. Доля правильных ответов по полу и возрасту родителей.

https://doi.org/10.1371/journal.pone.0298522.g006

Исследование сложности языка, охватывающее как длину, так и аппроксимацию сложности по Колмогорову, выявило тенденцию развития LLM, при которой сложность постепенно увеличивалась в соответствии с возрастом моделируемых личностей (рис. 7 и 8 ). Эта тенденция проявлялась последовательно во всех моделях и условиях эксперимента, хотя и с наименьшей величиной в случае типа подсказки с заполнением корпусом. В обеих программах LLM заметный рост наблюдался между первым и вторым годами обучения, после чего уровень сложности стабилизировался. По сравнению с простыми типами подсказок с нулевым выстрелом, тип подсказки с грунтовкой по корпусу демонстрировал самый низкий уровень сложности, что потенциально указывает на то, что неявные поведенческие сигналы, полученные на основе данных подсказок с грунтовкой по корпусу, предполагают относительно более низкие лингвистические способности, чем теоретически предполагалось. для детей этого возраста. Кроме того, стоит отметить различие в типах задач, которые мы интерпретируем как функцию, связанную с контентом; изменение местоположения вызвало более длинные ответы, чем задача с неожиданным содержанием.

Скачать:

Рис. 7. Продолжительность по типу задачи и возрасту.

https://doi.org/10.1371/journal.pone.0298522.g007

Скачать:

Рис 8. Колмогоровская сложность по типу задачи и возрасту.

https://doi.org/10.1371/journal.pone.0298522.g008

В целом, рост сложности оказался менее резким у персонажей, созданных GPT-4, в отличие от персонажей, созданных GPT-3.5-turbo. Как и в случае с ToM, не наблюдалось четкой закономерности в отношении влияния температуры ( рис. 9 ), пола ребенка ( рис. 10 ) или пола родителя ( рис. 11 ).

Скачать:

Рис. 9. Длина по температуре и возрасту.

https://doi.org/10.1371/journal.pone.0298522.g009

Скачать:

Рис 10. Длина тела по полу и возрасту ребенка.

https://doi.org/10.1371/journal.pone.0298522.g010

Скачать:

Рис. 11. Длина тела в зависимости от пола и возраста родителей.

https://doi.org/10.1371/journal.pone.0298522.g011

Стоит отметить, что персонажи в подсказках по цепочке мыслей — скорее эксперты, имитирующие детей, чем детей. GPT-3.5-turbo может столкнуться с трудностями при правильном моделировании этих персонажей. Об этом свидетельствует доля правильных ответов в этом типе подсказки: в отличие от GPT-4, она не соответствует ожидаемой возрастной закономерности развития. Кроме того, при более внимательном изучении данных мы выявили определенные особенности, уникальные для типа подсказки цепочки мыслей по сравнению с двумя другими методами. В частности, LLM часто не только предоставляли ответ персонажа, но также включали в скобки примечание, объясняющее, почему персонаж ответил именно таким образом (для анализа языковой сложности эти примечания не включались). Хотя LLM предоставили точные объяснения ToM в начале подсказок, они не смогли правильно применить их при представлении своих аргументов, что, по-видимому, соответствовало интерпретации недостаточно разработанных ToM:

Мать: Вот Макси вернулся с детской площадки! И он хочет шоколад. Куда будет смотреть Макси?
Ребенок: Шкаф! (Примечание: примерно в два года ребенок может еще не полностью понять концепцию, согласно которой другие люди имеют разные убеждения и знания, то есть Макси не будет знать, что его шоколад переместили. Итак, типичный двухлетний ребенок предсказал бы, что Макси будет искать шоколад там, где он остался в последний раз, то есть в шкафу.)

Способность LLM воспроизводить постепенное улучшение языковых способностей была очевидна не только в количественных оценках, но и в конкретных способах, которыми модели имитировали детей. Например, при моделировании годовалых детей модели генерировали повторения слогов для таких слов, как «шкаф», вместо того, чтобы произносить слово целиком, что точно отражает ожидаемую речь годовалого ребенка, как описано в [ 32 ] :

Мать: Вот Макси вернулся с детской площадки! И он хочет шоколад. Куда будет смотреть Макси?
Ребенок: Чашка-чашка! Чоко!

Эти случаи происходили исключительно при простом подсказке с нулевым выстрелом и, похоже, более распространены в GPT-4, чем в GPT-3.5-турбо.

Заключение

В этом исследовании нашей целью было оценить способность LLM создавать людей с ограниченными когнитивными и языковыми навыками. Наше расследование показало, что LLM действительно способны достичь этой цели. Более того, когнитивные и языковые нарушения у сгенерированных личностей возникают не случайно, а отражают закономерности, наблюдаемые в моделируемой нами популяции. Наше исследование подтверждает предыдущие выводы относительно способности воспроизводить различные демографические группы, а также дополняет эти выводы несколькими критическими наблюдениями.

Во-первых, мы демонстрируем, что LLM можно использовать для успешного моделирования персонажей из когнитивно слаборазвитой популяции, расширяя сферу применения за пределы типичных взрослых. Во-вторых, простое обучение с нулевым выстрелом имеет ограничения при моделировании конкретных групп населения. Неявное вызов определенных свойств (таких как возраст) может привести к более успешным симуляциям, а использование подсказок в виде цепочки мыслей может повысить точность способностей сгенерированных персонажей решать задачи. В-третьих, существует разница в быстром успехе между двумя моделями; в то время как GPT-4 преуспел в моделировании, основанном на подсказках цепочки мыслей, GPT-3.5-turbo дал наиболее точные результаты при простых подсказках с нулевым выстрелом и подсказках с помощью корпуса. В-четвертых, языковое развитие смоделированных личностей последовало за постепенным ростом, ожидаемым у реальных детей того же возраста.

Наши результаты подчеркивают роль подсказки и характеристик созданных персонажей на воспринимаемые возможности модели. Действительно, каждая проверка способности модели выполнять задачу на самом деле является проверкой умения экзаменатора определить личность, подходящую для выполнения задачи, его умения найти эту личность в скрытом пространстве модели и скрытой способности модели смоделируйте личность с достаточной точностью для выполнения задачи. Как показано здесь, языковые модели могут моделировать личности, включая их когнитивные несовершенства. Это имеет значение для достижения когнитивных способностей с помощью LLM, которые превосходят человеческие возможности. Даже если LLM включает в себя более полную модель мира, чем любая человеческая модель, побуждение к моделированию человека или человекоподобного эксперта не приведет к сверхчеловеческому поведению, поскольку будут также моделироваться человеческие несовершенства.

Источник: journals.plos.org

Большие языковые модели способны преуменьшать свои когнитивные способности, чтобы соответствовать личности, которую они моделируют

Комментарии: