Общий искусственный интеллект и поведенческие тесты

2026-03-14 11:15

Антон Радченко помогает разобраться в том, как возникла концепция общего искусственного интеллекта, почему важной стала проблема других сознаний и сохраняет ли релевантность тест Тьюринга в эпоху генеративных моделей.

Философия искусственного интеллекта (далее – ИИ) сегодня снова в моде. Развитие технологий в этой области происходит настолько бурно и обсуждается настолько широко, что остаться в стороне просто невозможно. ИИ становится едва ли не главным фактором социальных преобразований: в разработку новых моделей вкладываются громадные ресурсы, эксперты предрекают структурную перестройку рынка труда и мировой экономики в целом, а государства включаются в борьбу за технологическое лидерство. Таким положением мы обязаны новому поколению ИИ – генеративным моделям на базе архитектуры transformer. Ключевую роль среди них играют так называемые большие языковые модели (Large Language Models или сокращенно LLM), способные продуцировать речевую деятельность на недосягаемом ранее уровне. Поворотным моментом стал коммерческий релиз чатбота ChatGPT в ноябре 2022 года. С тех пор возникший рынок генеративного ИИ постоянно пополняется новыми игроками, предлагающими все более качественные и функциональные решения по производству различного контента – текстов, изображений, музыки, программного кода, видеороликов. Появление генеративных моделей не только стало причиной повышенного внимания к теме ИИ в публичном поле (так называемого ИИ-хайпа), но также привело к обострению многих теоретических проблем. Разработчики ставят перед собой крайне амбициозные задачи: всерьез рассматривается (а зачастую прямо прогнозируется) появление искусственных систем, чьи когнитивные способности будут сопоставимы с человеческими. За такими гипотетическими системами закрепилось название AGI (Artificial General Intelligence или общий ИИ) .

Значительная часть социального капитала и инвестиционной привлекательности ИИ-индустрии выстроена вокруг намерения создать общий ИИ: к примеру, компания-разработчик ChatGPT OpenAI в качестве своей миссии декларирует даже не саму разработку общего ИИ, а обеспечение безопасных условий для его интеграции общественные практики. Надежды на достижение цели подкрепляются особенностями базовой архитектуры генеративного ИИ, позволяющими сравнительно легко и эффективно масштабировать модель. Сооснователь OpenAI Илья Суцкевер в декабре 2024 года именно в этом видел прямой путь к общему ИИ – «если у вас есть очень большой набор данных и вы обучаете на нем очень большую нейронную сеть, то успех гарантирован» [Sutskever 2024]. Спустя год (и несколько сотен миллиардов вложенных в индустрию долларов США) он уже настроен менее оптимистично и приходит к выводу, что одного только масштабирования недостаточно, а нужны также новые прорывные идеи: «мы переходим от эпохи масштабирования к эпохе исследований» [Sutskever 2025]. CEO Google DeepMind Демис Хассабис сохраняет позитивный настрой, но также признает, что «возможно, нам нужно еще один или два больших прорыва, прежде чем мы получим общий ИИ» [Hassabis 2026]. Какого рода должны быть эти прорывы? Если в архитектуре языковых моделей чего-то не хватает, то чего именно? Каким требованиям должен соответствовать общий ИИ и какими умениями обладать? Попробуем проследить историю этого термина и сегодняшнее его положение.

Общий ИИ, супер-ИИ, сильный ИИ

Прежде чем начать разговор про общий ИИ, я вынужден сделать отступление. В русскоязычной литературе сейчас сосуществуют два варианта именования больших лингвистических моделей. В первом случае авторы никак не переводят исходную аббревиатуру и оставляют написание LLM. Однако тексты по теме ИИ и без того перегружены латиницей сверх всякой меры (к сожалению, это касается и данной статьи). Во втором случае используется калькированная аббревиатура БЯМ (большие языковые модели), но она непригодна для разговорной речи. В дальнейшем тексте я буду применять компромиссный вариант БЛМ (большие лингвистические модели), предложенный Д. В. Зайцевым [Зайцев 2024]. Он позволяет передать суть, не жертвуя фонетическими достоинствами оригинала. Надеюсь, эта авторская вольность не доставит читателю много неудобств.

Историю появления термина «общий ИИ» можно узнать на сайте американского ученого Бена Герцеля. В начале 2000-х при публикации книги, которая должна была описывать «мощный ИИ с широкими возможностями, сопоставимыми с человеческими и превосходящими их» [Goertzel 2011], он не мог определиться с названием. Рассматривался вариант «реальный ИИ» (real AI), но это слово показалось Герцелю чересчур многозначным. Тогда он попросил помощи у знакомых, разослав запросы по почте. Подошел вариант, который предложил Шейн Легг – ученый родом из Новой Зеландии, сооснователь компании DeepMind, ставшей в 2014 году подразделением Google. Слово общий (general) должно указывать на отличие от моделей, которые в этом контексте называются узкими (narrow). Действительно, существовавшие на тот момент системы прекрасно функционировали в рамках некоторой узкой специализации (например, решение арифметических задач, постановка медицинских диагнозов или игра в шахматы), но не могли превзойти человека в универсальности. Книга с названием “Artifitial General Intelligence” вышла в 2007 году, и в ней Герцель в качестве основного требования к общему ИИ называет «способность решать общие задачи, не ограничиваясь конкретной областью знаний, таким же образом, как это делает человек» [Goertzel, Pennachin, 2007]. Демис Хассабис в начале 2026 года дает следующее определение общего ИИ: «система, которая демонстрирует все когнитивные возможности, которые может продемонстрировать человек». Также исследователь уточняет, что такие возможности наверняка будут связаны с самообучением, и ключевой вопрос к общему ИИ будет состоять в том, «способен ли он обучаться новым знаниям из любой области» [Hassabis 2026].

В такой парадигме развитие ИИ рассматривается как поступательное движение, где достижение уровня общего ИИ является важным рубежом, но не финишем. Предполагается, что после того, как ИИ сравняется по возможностям с человеческим, он будет совершенствоваться далее, и довольно быстро превзойдет создателя. За гипотетическими сверхинтеллектуальными системами закрепилось название ASI (artificial superintelligence или супер-ИИ). Специализированный супер-ИИ существует уже сейчас – чтобы убедиться в этом, достаточно посоревноваться с калькулятором в арифметическом счете. Общего супер-ИИ пока нет, но его появление, по мнению некоторых экспертов, также вполне возможно в обозримой перспективе. С ним тесно связана концепция технологической сингулярности, предложенная венгро-американским математиком Джоном фон Нейманом [Vinge 1993, p. 13]. Сегодня технологическая сингулярность чаще всего ассоциируется с именем технического директора Google Реймонда Курцвейла. Под технологической сингулярностью он понимает «будущий период, в течение которого темпы технологических изменений будут настолько стремительными, а их воздействие настолько глубоким, что человеческая жизнь будет необратимо преобразована» [Kurtzweil 2005, p. 7]. Произойдет это примерно по такому сценарию: общий ИИ, получивший способность автономно обучаться, запустит цепную реакцию все менее продолжительных циклов самосовершенствования, в результате чего превосходство машин над человеком будет расти по экспоненте. Последствия получившегося «интеллектуального взрыва» невозможно вообразить, но очевидно, что они будут весьма драматическими. Например, доклад компании NtechLab (лидера на рынке приложений для распознавания лиц) предрекает через 5-7 лет «онтологический сдвиг, затрагивающий саму природу разума и бытия»; директор по особым поручениям Ростеха Василий Бровко объясняет это тем, что создается «новый логос – нечеловеческий разум, который понимает закономерности быстрее, чем человек» [Бровко 2025].

Однако это дело хоть и ближайшего, но все же будущего, а вопрос о том, в какой мере существующие БЛМ соответствуют критериям общего ИИ, остается открытым. С одной стороны, обученная на огромном массиве текстовых данных модель может быстро сформулировать развернутый ответ на вопрос из любой области знания. Это уже дает основания признать их общим ИИ – например, к такому выводу еще в статье 2023 года приходит вице-президент Google Блейз Агуэра Аркас [Aguera y Arcas, Norvig, 2023]. Но по состоянию на начало 2026 года консенсус скорее складывается в пользу отрицательного ответа на этот вопрос. Виной тому, помимо прочего, стала неистребимая склонность БЛМ к «галлюцинациям» – да, они могут ответить на любой вопрос, но довольно часто ответ не будет иметь никакого отношения к действительности. Помимо универсальности нужна еще и надежность, которой полностью добиться пока не получается. Бывший вице-президент Meta Янн Лекун связывает галлюцинирование БЛМ с тем, что у них отсутствует «здравый смысл», «понимание физического мира» и «способность планировать и рассуждать» [LeCun 2025]; исследователи из IBM пишут, что пока что моделям недостает способности «мыслить самостоятельно» (think for themselves) [Bergmann, Stryker, 2025].

Как правило, разработчики БЛМ с опаской используют такие неясные и тяжеловесные термины, как сознание, рассуждение, мышление, понимание и предпочитают им описание более понятных функциональных характеристик. Но, как видно, в случае с общим ИИ психологическая и философская лексика причудливым образом просачивается в технический дискурс. Виной тому имплицитно принимаемая гипотеза о том, что если общий ИИ должен решать те же задачи, что может решить человек, таким же образом, как это делает человек, то, вероятно, он будет иметь ментальные состояния, подобные человеческим. Философы менее стеснены в использовании неоднозначной терминологии: еще в 1980 году американский философ Джон Серл предложил концепцию сильного ИИ. Слабый ИИ, по его мнению, является только инструментом, пусть и очень мощным, а вот сильный – это ИИ, о котором «можно буквально сказать, что он понимает и имеет другие когнитивные состояния», то есть является «разумом на самом деле» [Searle 1980]. Компьютерные программы, по мнению Серла, оперируют только синтаксисом, а человеческий интеллект действует на семантическом уровне и понимает смысл, стоящий за символами. В свою очередь, чтобы понимать смысл, необходимо сознание, которого у слабого ИИ нет [Searle 2015]. Герцель также был знаком с идеями Серла (похоже, что не из оригинальных текстов, а в пересказе Курцвейла) и понимал, что предлагаемый концепт общего ИИ в значительной мере совпадает с сильным ИИ. Однако он решил все же ввести новый термин, поскольку за сильным ИИ уже тянулся мешающий шлейф из философских разночтений. Сработал этот ход не слишком хорошо: в большинстве современных контекстов понятия сильного и общего ИИ употребляются как очень близкие или синонимичные. В результате вопрос о возможности общего ИИ тесно переплетается с вопросом о возможности у ИИ сознания .

Сознание и БЛМ

В современной философии вопрос о сознании у ИИ исследуется как часть проблемы «других сознаний». Проблема заключается в поиске надежных доказательств того, что внешний для нас объект (в том числе другой человек) обладает сознанием [Дубровский 2008]. В случае с людьми такая задача может показаться тривиальной или бессмысленной, ведь в повседневной жизни не так уж часто нам приходит в голову, что окружающие – на самом деле роботы или зомби. Однако мы никогда не можем быть уверены полностью – каждому дано только собственное сознание, а наличие других приходится принимать на веру. Решение проблемы «других сознаний», в свою очередь, неразрывно связано с проектом по построению эмпирической теории сознания. Такая предполагаемая теория должна ответить на классический вопрос о природе сознания и дать возможность опытной проверки наличия или отсутствия сознания у внешнего объекта (возможно, и у ИИ). Разработка эмпирической теории сознания была одним из приоритетных направлений аналитической философии в последние несколько десятилетий. Результаты этой работы можно оценивать по-разному, но кажется, на данный момент проект далек от завершения – существует множество более или менее эмпирически обоснованных гипотез, но теории сознания с достаточной предсказательной силой пока не создано. Резкий взлет интереса к вопросу о сознании у ИИ привел к дальнейшей интенсификации поисков в этом направлении. На исследования выделяются гранты, проводятся многочисленные конференции, устрашающими темпами растет объем тематической литературы. Казалось бы, ИИ-хайп сослужил философам хорошую службу – на работу, которая велась бы в любом случае, получены дополнительные ресурсы. Но вместе с расширенными возможностями появились новые сопутствующие обстоятельства, не все из которых оказались благоприятными.

Прежде всего следует отметить смещение чисто теоретической проблемы в практическую плоскость: появление общего ИИ рассматривается как вполне реалистичная перспектива ближайшего будущего, на которую, к тому же, теперь завязана индустрия с многомиллиардными вложениями. Из этого вытекает непривычное для философов требование конкретного результата в сжатые сроки. Еще Аристотель усматривал главное достоинство философии в том, что она ищет мудрость «ради нее самой и для познания», но не «ради извлекаемой из нее пользы» [Аристотель 2021, с. 9]. Сегодня такая исследовательская установка может вызвать в лучшем случае недоумение, а неторопливость и неоднозначность, свойственные философским исканиям, стали предметом критики. В качестве показательного примера можно привести статью за октябрь 2025 года, где группа нейроученых призывает поскорее разобраться с научными критериями сознания. Иначе, по их мнению, человечество рискует столкнуться с тяжелейшими проблемами этического и юридического характера – искусственный сознательный агент будет создан (пусть даже и непреднамеренно), но не будет никакой программы действий на этот случай. А действовать придется – даже если отбросить подогреваемые массовой культурой спекуляции о порабощении человечества машинами, появление нечеловеческого сознательного субъекта влечет много сложностей. К примеру, он будет обладать каким-то моральным статусом, и, возможно, понадобится дополнительная правовая регуляция отношений с ним. По мнению авторов статьи, для снижения рисков нужно окончательно решить проблему сознания, для чего необходима широкая междисциплинарная коллаборация [Cleeremans, Mudrik, Seth, 2025].

Призывы к междисциплинарности в философии науки последних десятилетий настолько набили оскомину, что их трудно воспринимать иначе, чем как привычный ритуал. Никто не спорит с тем, что сознание может быть исследовано с разных сторон – связанными с ним вопросами занимаются нейробиологи, психологи, лингвисты, физики; перечислять можно еще долго. Сегодня этот список пополняется представителями дисциплин, занимающихся машинным обучением. Иногда соприкосновение проблемных областей различных дисциплин действительно приводит к сотрудничеству, иногда – к конкуренции, но чаще всего – к «дурной междисциплинарности» , когда все дело ограничивается пустыми декларациями [Yabe, Takata, Matsuura, 2026]. В то же время вовлечение в дискуссию технических специалистов обостряет проблему научной нейтральности. В XXI веке мало кто готов требовать от ученого кристально чистого стремления к истине, но такие нормы научного этоса, как бескорыстие и профессионализм, все же сохраняют некоторое значение. Однако значительная часть публичных спикеров на тему ИИ имеет прямую или косвенную аффилиацию с технологическими компаниями, занимающимися разработкой БЛМ. Не всегда очевидно, что для них является целью – добросовестное исследование, привлечение инвестиций или обеспечение собственных карьерных перспектив. Не добавляет качества дискуссии также поляризация публичного поля: сейчас можно отчетливо наблюдать разделение его на два лагеря – ИИ-оптимистов и ИИ-скептиков. Первые убеждены в том, что человечество стоит на пороге ИИ-революции – сильный ИИ уже есть или вот-вот появится. Вторые говорят, что ничего такого не произойдет, БЛМ – тупиковый путь развития, а ИИ-пузырь скоро лопнет.

Но описанные конъюнктурные неурядицы составляют только внешние атрибуты разговора. Что можно сказать по сути? Как уже было сказано выше, проблема сознания у ИИ – частный случай проблемы других сознаний. Каким образом возможно ее решение хотя бы в случае с другими людьми? Можно ли обосновать повседневное убеждение в том, что окружающие не являются зомби? Классическим ответом выступает аргумент от аналогии. Его в середине XIX века формулирует философ Джон Стюарт Милль: «во-первых, другие люди имеют тела, схожие с моим, что, как я знаю, является условием для возникновения чувств; во-вторых, они проявляют действия и внешние признаки, которые, как я знаю по своему опыту, вызваны чувствами» [Mill 1865]. В случае с БЛМ этот ответ не проходит, поскольку у них отсутствуют тела для сравнения. Вторым наиболее часто обсуждаемым доказательством является развитие первого – аргумент от наилучшего объяснения. В этом случае тезис о существовании сознания у объекта приобретает статус гипотезы, которая подтверждается или опровергается наблюдениями. Например, камень не подает слишком много внешних признаков наличия внутренней жизни, поэтому мы скорее склонны признать, что сознания у него нет. Аргумент также не лишен недостатков – вполне возможно, что камень просто очень скуп на проявления своих переживаний. С другой стороны, можно также предположить, что не все люди – на самом деле люди, а не искусно имитирующие человеческое поведение роботы.

Тем не менее, при отсутствии эмпирической теории сознания не остается ничего иного, кроме как обратиться к оценке поведения объекта. В большинстве случаев заявления о том, что БЛМ обладают когнитивными состояниями или близки к этому, опираются на факты, которые трудно объяснить как-то иначе. Кому-то таким фактом может показаться умение GPT-3.5 вести связную беседу, кому-то – успешное решение Gemini Deep Think задач международной математической олимпиады. В начале 2026 года в Nature появилась статья, где приводится «каскад доказательств» того, что современные БЛМ являются общим ИИ. Об этом свидетельствуют следующие их достижения: «сотрудничество с ведущими математиками для доказательства теорем, выдвижение научных гипотез, подтвержденных экспериментами, решение задач из диссертационных экзаменов, помощь профессиональным программистам в написании кода, сочинение стихов и многое другое» [Chen et al., 2026]. Особое внимание авторы уделяют тесту Тьюринга, до сих пор остающемуся наиболее известным поведенческим маркером для определения сознания у ИИ. Прохождение теста, по их мнению, является решающим доказательством того, что уровень сильного ИИ уже достигнут. Можно ли согласиться с таким выводом? Что из себя представляет тест Тьюринга и каковы ограничения поведенческих тестов? Попробуем присмотреться к классическому тексту британского математика внимательнее.

Тест Тьюринга и другие тесты

Статья Алана Тьюринга “Computing Machinery and Intelligence” русскоязычному читателю также известна под названием «Может ли машина мыслить?» Тьюринг действительно исследует этот вопрос и в итоге признает его «слишком бессмысленным, чтобы заслуживать обсуждения» [Turing 1950, p. 442]. Главную проблему он видит в невозможности получить строгое определение мышления, и предлагает переформулировать вопрос так, чтобы на него можно было дать однозначный ответ. Для этого ученый описывает придуманную им «игру в имитацию». Описание игры в оригинальном тексте довольно краткое и не вполне ясное, поэтому ограничимся интерпретацией, которая сегодня считается стандартной [Traiger 2000]. Машина и человек вслепую общаются еще с одним человеком (в оригинальном тексте он называется interrogator, но я для простоты буду далее называть его судьей), который задает им вопросы. Судья должен определить, кто из собеседников является машиной, и условия эксперимента исключают возможность понять это по голосу, скорости набора сообщений и другим косвенным признакам – значение имеет только содержание ответов. Задача машины в этой игре – убедить судью, что она является человеком. По мнению Тьюринга, следует признать думающей машину, которая будет систематически побеждать в «игре в имитацию»; вопрос о том, может ли машина успешно играть в «игру в имитацию», по его мнению, эквивалентен вопросу «может ли машина мыслить?» Описанный способ проверки и получил название теста Тьюринга.

Важно подчеркнуть, что Тьюринг вовсе не отрицал того, что мышление – процесс чрезвычайно загадочный, и не считал, что его можно свести к внешним проявлениям. Он решал более прикладную инженерную задачу и исследовал возможность построить мыслящую машину при условии, что устройство самого мышления неизвестно. Теоретических преград для этого Тьюринг не находил, но предвидел многие из возражений, с которыми придется столкнуться его идее. В статье рассматривается 9 возможных контраргументов. Не все из них в равной степени актуальны сегодня (например, Тьюринг упоминает экзотический для современного читателя аргумент от телепатии и ясновидения), но по крайней мере четвертому и шестому стоит уделить внимание. Шестое называется возражением леди Лавлейс и в различных формах оно активно обсуждается и сегодня. Состоит возражение в том, что машина никогда не будет оригинальна, не способна к творчеству, «не претендует на то, чтобы создавать что-то действительно новое», а может «только то, что мы указали ей исполнять» [Turing 1950, p. 450]. В ответ Тьюринг указывает, что и оригинальность – чрезвычайно запутанная категория, и истоки человеческого творчества также до конца не ясны. Тем не менее, он находит в работе машин элемент оригинальности хотя бы потому, что результат этой работы его самого нередко удивляет. Конечно, здесь можно возразить, что источником удивления в этом случае выступают собственные креативные способности удивляющегося человека, но не машины. Но такой ход, по мнению Тьюринга, возвращает нас к контраргументу, который обсуждается под номером четыре – возражению от сознания. Это возражение сегодня также чрезвычайно актуально; в различных формулировках оно составляет главное оружие ИИ-скептиков. Тьюринг ссылается на формулировку возражения, которая сводится к тому, что машина не имеет собственных мыслей и эмоций, не может по-настоящему чувствовать, а может только «искусственно сигналить». В ответ ученый возвращается к проблеме других сознаний и предлагает свое решение. Он начинает с уже знакомого тезиса: полная уверенность у нас может быть только в наличии собственных ощущений. Значит единственный способ понять, что у другого человека есть «настоящие» мысли – это буквально стать им. Но это невозможно, поэтому если мы будем проводить возражение от сознания последовательно, то должны сомневаться в том, что сознание есть у других людей. Это прямая дорога к солипсизму – позиции, которую здравомыслящий человек вряд ли будет отстаивать. Чтобы избежать сваливания в солипсизм, следует признать, что у других людей есть сознание; но тогда неясно, на каком основании мы отказываем в этой возможности машинам.

Проходят ли современные БЛМ тест Тьюринга? Ответить на этот вопрос далеко не так просто, как может показаться. Можно выделить по крайней мере три группы обстоятельств, значительно осложняющих исследование:

1. Не вполне понятно, каким должен быть дизайн теста. В статье 1950 года условия описаны весьма скупо. Вдобавок к этому, через 2 года в радио-выступлении Тьюринг предложил упрощенную версию «игры в имитацию», где оставалось всего два участника – машина и судья [Copeland 1999]. Более подробные комментарии ученый дать не успел – еще через два года он умер при драматичных обстоятельствах. Обе версии теста – с двумя участниками и с тремя – оставляют простор для интерпретаций. Нет четких инструкций о том, как долго должен длиться разговор, какое количество раундов следует сыграть и какой процент побед признать достаточным [Copeland 2000]. Критически важным вопросом является подготовка судей и участников (к примеру, философ Нед Блок считает именно этот фактор главной уязвимостью теста [Block 2024]). Споры о том, какой именно протокол проведения теста соответствует идеям самого Тьюринга, продолжаются до сих пор. Дэвид Чалмерс в докладе 2024 года рассматривает следующие факторы: количество игроков (два или три), продолжительность разговора, компетенции участников (эксперты или люди без специальной подготовки), содержание разговора (ограниченный круг тем или неограниченный) [Chalmers 2024]. В зависимости от изменения этих параметров итоговая оценка теста может значительно варьироваться.

2. Отсутствие определенного дизайна приводит к постановке следующего вопроса: следует ли вообще считать предложение Тьюринга тестом? Спустя три четверти века можно констатировать, что по крайней мере вне академии (в значительной мере и внутри нее) закрепилась тенденция рассматривать тест не как строго формализованную процедуру, а как более общую идею. Выражение «пройти тест Тьюринга» в этом значении отсылает к умению ИИ создавать впечатление осмысленности некоторое время и в некоторых контекстах. Такая трактовка дает еще больший диапазон возможных оценок. Например, философ Мария Секацкая пишет, что модели образца 2025 года «полностью соответствуют критерию того, что можно назвать «философским тестом Тьюринга»» [Секацкая 2026]. Из контекста можно предположить, что вряд ли имеется в виду версия теста с двумя участниками и ограниченным списком тем, где судьей является сама Секацкая; вероятнее всего, речь идет о более либеральном подходе. В такой интерпретации «прохождением теста» можно посчитать и случаи обращения к БЛМ за психологической поддержкой или выбор их в качестве романтических партнеров. С другой стороны, философ Антон Кузнецов утверждает, что «современный ИИ все еще не проходит тест Тьюринга», и в качестве аргументации приводит два вопроса, с которыми ChatGPT-5 систематически не справляется [Кузнецов 2025]. Однако теперь требования могут оказаться завышенными: предполагается, что судья будет иметь дополнительную подготовку и как минимум знать о таких вопросах. Следует также отметить, что Тьюринг в выступлении 1952 года отдельно уточнял, что судья не должен быть «экспертом по машинам» [Copeland 1999].

3. Цензурные фильтры, маркетинговые уловки, коммерческая тайна. Публичные версии БЛМ снабжены модулями безопасности, искажающими или запрещающими ответы на определенный круг вопросов. Как поведет себя БЛМ без этих фильтров – известно только их разработчикам, а они не слишком охотно делятся инсайдерской информацией.

Тем не менее, известно о нескольких попытках провести «правильный» тест Тьюринга для БЛМ. Одним из первых однозначных и эмпирически подкрепленных заявлений об успешном прохождении теста стала статья американских исследователей Кэмерона Джонса и Бенжамина Бергена, вышедшая в мае 2024 года. Они привлекли для эксперимента около 900 человек и провели серию игр с двумя участниками. На продолжительность разговора было выставлено ограничение в 5 минут. ChatGPT-4 был признан человеком в 54% случаев, что организаторы сочли за достаточный уровень для победы [Jones, Bergen, 2024]. Однако группа исследователей из Новой Зеландии подвергла результаты критике, поскольку, по их мнению, «не были добросовестно выполнены первоначальные указания Тьюринга». Ученые провели свои тесты с тремя участниками и без ограничений по времени. При таких условиях ChatGPT-4 выступил гораздо хуже и был разоблачен в 97% случаев [Temtsin et al., 2025]. В ответ Джонс и Берген провели еще один эксперимент, на этот раз также с тремя участниками, однако пятиминутное ограничение было оставлено без изменений. ChatGPT-4.5 был признан человеком в 73% случаев, LlaMa-3.1 показала результат в 56%, а ChatGPT-4o – всего 21%. Примечательно, что чатбот ELIZA , созданный в 1960-е годы, также использовался в тесте и смог ввести судью в заблуждение в 23% случаев – чаще, чем ChatGPT-4o [Jones, Bergen, 2025]. Результаты эксперимента были опубликованы в марте 2025 года и широко обсуждались в СМИ; как правило, утверждения о том, что БЛМ проходят тест Тьюринга, базируются на результатах этой работы. Они также были оспорены: уже в мае 2025 вышел материал исследователей из Израиля, где утверждалось, что Llama-3.2 справляется в тестах с двумя участниками, но проваливается с тремя. Также авторы делают вывод, что продолжительность разговора является критически важным параметром эксперимента: шансы ИИ пройти тест значительно снижаются, если дать судье больше времени [Rahimov, Zamler, Azaria, 2025]. По состоянию на начало 2026 года можно сделать вывод, что некоторые вариации теста Тьюринга все еще представляют вызов для БЛМ – в частности, мне не удалось обнаружить свидетельств о прохождении теста с тремя игроками без ограничений по времени.

Еще до публикации своей знаменитой статьи Тьюринг рассматривал и другие метрики для определения мышления у машин: в одной из ранних версий «игры в имитацию» судья и машина должны были не разговаривать, а играть в шахматы [Turing 1948]. Считалось, что эта игра будет крайне сложной для ИИ, поскольку требует не только подсчета позиций, но также общего стратегического видения позиции и творческого подхода. Сегодня известно, что это не совсем верно – современные шахматные программы легко побеждают сильнейших гроссмейстеров, и их стратегия основана на статистической оценке позиции и следующего хода. Можно ли считать «прохождение» шахмат прохождением теста? Если строго следовать замыслу Тьюринга, то окажется, что нет – машина должна не разгромить судью, а убедить его в том, что он играет с человеком. Нечеловечески высокий уровень игры в данном случае будет не преимуществом, а помехой. Однако победное шествие ИИ по различным играм часто воспринимается как аргумент в пользу возможности общего ИИ. Долгое время непроходимой для машин считалась игра го, которую «просчитать» труднее из-за огромного даже по сравнению с шахматами количества возможных позиций. Этот рубеж также был преодолен: в 2016 году профессионал высшего уровня Ли Седоль проиграл программе, разработанной Google DeepMind. Возможно, такая эффективность ИИ в шахматах и го объясняется тем, что это игры с полной информацией – в каждый момент партии соперникам известны все ходы, сделанные ранее. Игры с неполной информацией оказались более сложной задачей – согласно исследованию на сентябрь 2025 года при игре в покер БЛМ «не дотягивают до профессионального уровня, демонстрируя эвристические предубеждения, фактические недоразумения и разрыв между рассуждениями и действиями». Игра на бирже также дается моделям с трудом: по итогам эксперимента, проведенного в ноябре 2025 года, только две модели из шести смогли показать небольшой положительный результат; спустя месяц ушли в минус и они.

Способы оценки интеллектуальных способностей человека существовали задолго до теста Тьюринга. Генеративный ИИ получил доступ к экзаменам, конкурсам, стандартизированным опросникам. Сразу после релиза ChatGPT-3.5 в 2022 году посыпался каскад новостей о прохождении чатботом испытаний в различных областях знания. Каждое обновление БЛМ повышало получаемые им оценки: например, при прохождении третьей ступени экзамена на получение медицинской лицензии в США ChatGPT-3.5 демонстрировал точность 56,9%, что примерно соответствовало удовлетворительному уровню; ChatGPT-4 набирает 84,7% – на уровне 10% лучших выпускников [Knoedler at al., 2024]. Схожая ситуация с экзаменами на лицензию юриста: ChatGPT-3.5 сдает их чуть ниже требуемого уровня, ChatGPT-4 – значительно лучше среднего студента [Katz et al., 2024]. Тест на IQ в редакции Mensa Norway передовые модели 2025 года проходят с результатами от 130 до 140; еще в середине 2024 года их показатели также были ниже среднего – около 90. Традиционные «человеческие» тесты все чаще оказываются для БЛМ слишком простыми, поэтому компания Scale AI (ведущий поставщик обучающих данных для генеративного ИИ) разработала экзамен, состоящий из чрезвычайно сложных вопросов, которые, тем не менее, имеют однозначный ответ. Проект получил название «Последний экзамен человечества» (Humanity’s Last Exam) и содержит 2500 вопросов, требующих глубокой экспертизы практически во всех областях научного знания, а также умения распознавать тексты и изображения. На момент выхода экзамена в начале 2025 года ни одна модель не достигала точности выше 10%; в феврале 2026 года Gemini 3.1 Pro показывает наилучший результат среди всех БЛМ – 45,9%.

Наконец, вернемся к возражению леди Лавлейс. Что можно сказать о творческих способностях генеративного ИИ? Способен ли он создать если не шедевр, то хотя бы нечто оригинальное? Ответить на этот вопрос по-прежнему непросто: даже в оценке произведений искусства, созданных человеком, редко наблюдается полное согласие. Попробуем опять переформулировать вопрос в духе Тьюринга: способен ли ИИ удивлять или производить впечатление эстетического характера? Похоже, что по крайней мере в негативном ключе современные нейросети на это способны. Словарь Merriam-Webster признал словом 2025 года термин Slop, означающий «цифровой контент низкого качества, произвозведенный, как правило, в большом количестве с помощью ИИ». Использование такого контента в коммерческих целях становится социально порицаемой практикой. В ноябре 2024 года компания Coca-Cola была подвергнута критике за размещение рекламного ролика, полностью созданного ИИ; пользователи оценивали ролик как «бездушный» и «стыдный». Через год такую же ошибку совершил McDonalds: после массовой негативной реакции компания сначала вынуждена была отключить комментарии к видео, а затем сделать его приватным. Но есть и примеры противоположной оценки качества ИИ-контента: фотография, созданная ИИ, в 2023 году победила на престижном конкурсе, а стихотворения, написанные ИИ, многие читатели ставят выше, чем традиционную поэзию. Отдельного разговора заслуживает ситуация в музыкальной индустрии, где происходят поистине тектонические сдвиги: ИИ-артисты привлекают миллионы слушателей на стриминг-сервисах и подписывают контракты с звукозаписывающими компаниями.

Все многообразие приведенных примеров относится к категории поведенческих тестов – оценка наличия сознания у ИИ производится по внешним проявлениям его деятельности. Этот критерий уязвим к возражению, которое встречается примерно так же часто, как и отчеты об очередном достижении БЛМ. Состоит оно примерно в следующем: ни стихи, ни эссе для экзамена, ни любой другой текст, написанный БЛМ, не является отражением его внутреннего мира – модель только расставляет слова в подходящем порядке, а источником их смысла становится сознание читателя. Можно ли этот тезис обосновать? Логично было бы для начала продемонстрировать возможность для некоторой системы составлять слова так, чтобы внешний наблюдатель считал их осмысленными, но для самой системы они бы оставались просто набором символов. Именно это пытается сделать главный контраргумент против всех поведенческих тестов – мысленный эксперимент «Китайская комната». Его обсуждению в контексте БЛМ будет посвящена отдельная статья.

Источник: insolarance.com

Общий искусственный интеллект и поведенческие тесты

Комментарии: