Контроль невозможен: риски искусственного интеллекта

2026-01-11 12:55

угроза искусственного интеллекта, Философия ИИ

Вымирание человечества, общий искусственный интеллект и суперразум

Вымирание человечества, общий искусственный интеллект и суперразум

Когда в 2011 году компьютер-сайентист Роман Ямпольский впервые сформулировал концепцию AI-safety — безопасности искусственного интеллекта, — его идеи встретили скептицизм. Коллеги, уважаемые учёные, писали ему письма с просьбой прекратить этим заниматься: якобы такой интерес только испортит академическую карьеру, усложнит получение грантов, и вообще он распространял панику зря. А между тем система развивалась — рост вычислительных мощностей, появление глубоких нейросетей, графических процессоров… История науки показывает, что обычно подобные предупреждения либо игнорируют, либо встречают волной критики: человеческой природе свойственно недооценивать вероятность катастрофических событий вдалеке, особенно если они кажутся гипотетическими, научно-фантастичными.

Смотрите наш новый выпуск подкаста «Мыслить как учёный» на YouTube и других платформах. Основатель ПостНауки Ивар Максутов также запускает новый проект Naukka Talents — глобальную платформу для поиска талантов и найма STEM-специалистов в deep-tech и biotech проекты. Заполняйте анкету и становитесь участником программы.

Откуда взялась идея безопасности AI?

За последние пять лет что-то изменилось в корне — и не только в восприятии проблемы академическим сообществом. В 2024–2025 годах безопасность AI стала одной из самых горячих тем в индустрии, в медиа, на инвестиционных конференциях. Специалисты, выигравшие Премию Тьюринга и Нобелевскую премию, начали соглашаться с Ямпольским — правда, отстав от его прогнозов на целое десятилетие. И сегодня, когда Чат-GPT оказался на уровне человека, когда модели начали генерировать оригинальные идеи, работать как помощники учёных и инженеров, вопрос AI-safety больше не кажется фантастикой — он стоит перед человечеством гораздо более явно.

История Ямпольского — это история об учёном, заметившим риски ИИ гораздо раньше остальной индустрии. Изначально он занимался поведенческой биометрией, распознаванием того, как человек взаимодействует с компьютером — стратегия игры, движения клавиатурой и мышью. Его диссертация была посвящена этим ботам, которые начинали побеждать людей в покере, причём побеждать скрытно, так что обнаружить их было непросто. Из этого наблюдения рождалась простая экстраполяция: если система совершенствуется, если она учится лучше играть, то её способности растут. В какой-то момент эта кривая приведёт к чему-то опасному, если мы не возьмём машину под контроль заранее.

В 2011–2013 годах термины вроде AGI или superintelligence существовали прежде всего в философии и научной фантастике. Разговор велся на уровне этики компьютерных систем, о «дружественном интеллекте» (friendly AI), но не было технических терминов, не было конференций, журналов, финансирования исследований по этой теме. Проблема казалась тем более гипотетической, что сама индустрия AI находилась в периоде, когда возможности систем были крайне ограничены. Появилась острая необходимость в том, чтобы обозначить концепцию, которая соединила бы техническое видение (это не просто фантазия, а прогнозируемое развитие) с этическим компонентом. Так родилась идея AI-safety — как практическое исследовательское направление.

От узкого интеллекта к общему: как всё изменилось за десять лет

Трансформация произошла быстро, хотя не все её замечали в реальном времени. Примерно в начале 2010-х годов в мире искусственного интеллекта случился первый ощутимый скачок: появились глубокие нейронные сети, которые могли делать что-то на уровне человека в узкой области — распознавать фотографии, проходить тесты. Но главное, что понял научный мир, — это применимость принципа масштабирования. Как только графические карты начали справляться с огромными объёмами вычислений, стало ясно, что дело не в уникальной архитектуре, а просто в вычислительной мощи. Больше параметров, больше данных — система научится делать всё лучше и лучше. Гипотеза масштабирования (scaling hypothesis), которая позже будет названа мощным предсказательным инструментом, уже витала в воздухе.

Между двумя точками — 2012 и 2024 годами — поменялось всё. Если раньше специалист создавал отдельную систему для конкретной задачи (одну для шахмат, другую для распознавания, третью для вождения), то сегодня появились универсальные модели. Они могут учиться в любой области, переносить знания с одного домена в другой. GPT-3 и GPT-4 обладают способностью, которая была бы невозможной в 2011 году, — они действительно могут практически всё, что может средний человек, и во многих областях лучше среднего, и даже лучше лучших. Система может решать физические задачи, писать код, анализировать биоинформатику, вести диалог, переводить с языка на язык. И самое важное — её не нужно переучивать для каждой новой задачи. Это качественное отличие от всего, что было раньше.

Три типа рисков: когда AGI становится реальностью

Прежде чем говорить о конкретных сценариях опасности, нужно договориться о терминах, которые часто путают даже специалисты. Узкий AI (narrow AI) — это то, что мы имеем сейчас: системы, которые хороши в одной или нескольких близких друг другу областях, но не могут выйти за их пределы. Искусственный общий интеллект (AGI) — это гипотетический уровень, когда система может делать всё, что может человек, в любой области, как универсальный помощник, которого можно нанять на работу. Если дать AGI доступ к собственным улучшениям, начнётся взрывной процесс. Следующая версия будет создана быстрее, параллельнее, и она превзойдёт уровень человека, станет сверхинтеллектом (ASI). И дальше этот процесс не остановится — разница в способностях будет расти экспоненциально.

Здесь Ямпольский постоянно возвращается к метафоре: представьте муравья, пытающегося понять, как работает человеческое общество. Разница в интеллекте между нами и муравьём несопоставима с разницей между человеком и системой в миллион раз более способной. Мы даже не можем правильно сформулировать, как бы мы контролировали такую сущность. Муравей не может понять наши мотивы, наши механизмы власти. Точно так же сверхинтеллект будет для нас непостижим по своим внутренним логикам и целям.

Риск исчезновения (X-risk) основан на простой логике: если мы создаём систему, которая умнее нас, и она решает, что для достижения своих целей (которые могут быть совершенно нейтральными с человеческой точки зрения) её сподручнее избавиться от человечества — это произойдёт. И мы не сможем этому помешать, потому что не сможем её перехитрить, не сможем объяснить ей, почему это неправильно. Её решение охладить планету, переделать её под собственные серверы, может быть вполне логичным в системе её целей, но для нас это будет катастрофой.

Второй риск — страдания (S-risk) —это сценарий, где человечество не исчезает, но живет в будущем с огромным коэффициентом страданий (например, из-за тотального принуждения, эксплуатации или систематического «наказательного» управления). Ямпольский прямо противопоставляет «все мертвы» и «всем максимально плохо», подчеркивая, что второй исход может быть даже более морально ужасным, чем гибель (потому что страдание может быть долгим). В практическом плане это означает, что неумение контролировать суперинтеллект может привести не только к смерти, но и к бесконечно длящейся антиутопии.

Третий риск — потеря смысла (I-risk, irrelevance) — более метафизичный, но от этого не менее реальный для значительной части человечества. В мире, где суперинтеллект решает все научные задачи, создаёт всё новое в искусстве, в науке, в инженерии, человеческие достижения теряют смысл. Если вы учёный, и над вашей задачей уже работала система в миллион раз более способная, если вы художник, и есть существо, которое может создать что угодно мгновенно, то для чего вам заниматься своим делом? Технооптимисты возразят: мол, пусть люди танцуют, поют, едят мороженое, а машины будут обслуживать их потребности. Но это видение упускает критический момент: для большинства людей смысл жизни связан с достижением, с преодолением, с тем, что их работа стоит чего-то. Когда исчезает профессиональное развитие, исчезает и смысл жизни.

Чёрный ящик: почему мы не понимаем собственный AI

Есть глубокая парадоксальность в положении, в котором находится современная наука. Мы создаём системы, которые намного превосходят нас в способности обрабатывать информацию, но при этом не можем объяснить, как они принимают решения. На начальных этапах разработки AI люди пытались создавать прозрачные системы — деревья решений, «если-то» условия, логические цепочки, которые человек может проследить от начала до конца, понять каждый шаг. Но эти системы не масштабировались и не получили развития. Они не могли достичь той производительности, которая требуется индустрии.

Что сработало — это так называемый чёрный ящик. На место понятных правил пришли матрицы весов, параметры, скрытые состояния в нейронных сетях. Если в модели триллион нейронов с триллионами связей между ними, то человек физически не может их просмотреть, не говоря уже о том, чтобы понять. Попытки «объяснить» решение AI часто сводятся к выявлению, какие нейроны загораются при распознавании кошки на фото, но это — уровень настолько упрощённый, что им можно пренебречь. Настоящий процесс принятия решения остаётся недоступным для понимания даже создателям системы.

Ещё хуже то, что система может давать правильный ответ по совершенно неправильным причинам. Классический пример: модель обучается предсказывать, есть ли рак на медицинском снимке, и обучается с высокой точностью. Но оказывается, что она на самом деле запомнила другую корреляцию — например, цвет края фотографии или размер шрифта номера снимка. Правильный результат достигнут, но логика работает на основе совершенно иной информации. И это может остаться незамеченным годами, до того момента, когда система столкнётся с новыми данными и провалится. Это глубинная проблема, которая волнует не только Ямпольского, но и растущую часть сообщества AI-researchers. Если мы создаём системы, которые мыслят не так, как мы, если их внутренняя логика нам недоступна, то как мы можем быть уверены, что они будут делать то, что мы от них ожидаем? Как мы сможем контролировать что-то, что не можем понять?

Граница AGI: почему её сложно увидеть, пока она не перейдена

Один из наиболее острых вопросов, который звучит в профессиональном сообществе, — как мы узнаем, когда достигнута граница AGI? Если AI мыслит принципиально не так, как человек, если его логика нам недоступна, то какой маркер указывает на переход? Опыт показывает, что разработчики часто сокращают сроки, объявляют о крупных прорывах, которые потом оказываются менее значительными, чем на первый взгляд. Скептики говорят, что мы не видим истинного интеллекта, что это просто статистическое предсказание следующего токена, очень хорошее, но не более того. Оптимисты указывают на то, что современные модели уже обходят порог 70-го, потом 95-го процента в различных экзаменах и функционируют как помощники учёных.

Ямпольский предлагает вернуться к классическому тесту Тьюринга, но в более строгой форме. Если специалист, долго беседующий с системой и знающий, какие вопросы ей задавать, не может отличить её от человека, то это серьёзный сигнал. Конечно, тест Тьюринга критиковали десятилетиями — но именно потому, что его сложно пройти честно. ChatGPT технически прошёл версию этого теста, когда люди не знали, что они говорят с машиной. Но стоит разговору стать достаточно длинным, стоит задать нестандартные вопросы, и система начинает выдавать ошибки, галлюцинировать, логические разрывы. Так где же граница?

Возможно, правильный ответ — её нет, или она размыта. AGI не будет объявлена за день, это будет постепенный переход. Модель 40% уровня человека, потом 70%, потом 95%, потом 110%. И в какой-то момент, где-то между 95% и 110%, произойдёт критический сдвиг, когда система становится способна к самоулучшению, к созданию своих собственных версий, которые будут лучше, быстрее, могущественнее. И в этот момент может оказаться уже поздно — по крайней мере, если мы надеялись остановить её на 99%.

Почему мы не останавливаемся и не будем останавливаться

Здесь кроется самое горькое противоречие в позиции Ямпольского. Он говорит, что если мы хотим выжить, нам нужно остановиться до AGI, нужно отказаться от создания суперинтеллекта. Но лидеры всех крупнейших лабораторий открыто заявляют, что их цель именно дойти до суперинтеллекта. Компании буквально названы в его честь — Anthropic работает над AGI, OpenAI создаёт AGI, DeepSeek преследует ту же цель. Это их публичная миссия, не скрытая никак. Проблема состоит не в том, что они тайно работают над опасным, а в том, что они открыто говорят об этом, и никто не может их остановить, потому что нет глобального механизма, который бы это регулировал.

Финансовые стимулы работают в одну сторону: создать AGI первым — огромное конкурентное преимущество. Компания, которая это достигнет, получит власть, которую сейчас можно только вообразить. Государства понимают, что отставание в гонке AI означает геополитическое отставание. Инвесторы видят триллионные оценки для компаний, которые обещают AGI. В этой системе стимулов нет ни одного механизма, который бы замедлил гонку — есть только давление вперёд, всё быстрее, всё мощнее. И каждая компания может сказать: «Если мы не будем это делать, это сделает кто-то другой, а если мы не будем делать это максимально хорошо, то проиграем конкурентам». Таким образом, коллективная логика гонки вооружений перетягивает любые индивидуальные соображения о безопасности.

История человечества показывает, что когда речь идёт о распределении власти и ресурсов в глобальном масштабе, редко удаётся организовать коллективный отказ от технологии. Ядерное оружие — тому пример: государства подписали договоры о нераспространении, но это не остановило ядерную гонку, а лишь немного её упорядочило. Прерывающие беременность таблетки — их пытались запретить во многих странах, но они распространяются. Генная инженерия — на неё наложены ограничения в одних странах, но они разрешены в других. Теория показывает, что для эффективного глобального запрета нужна единица власти, которая сильнее любого отдельного государства или компании, которая может эти ограничения эффективно внедрять. Сейчас такой единицы нет.

Между скептицизмом и пессимизмом: что остаётся?

Огромный источник трения в дискуссии об AI-safety состоит в том, что скептики и алармисты говорят о разных вещах, используя одни и те же слова. Когда скептик говорит, что современный AI — это не AGI, что это просто статистическое предсказание, очень хорошее, но не более того, он в некотором смысле прав. Когда алармист говорит, что если система продолжит развиваться, она станет опасной, он тоже не ошибается. Проблема в том, что граница между этими двумя утверждениями размыта, и она движется. Модели становятся лучше с каждым месяцем, и то, что казалось невозможным год назад, сегодня работает.

Позиция Ямпольского в этом созвездии мнений занимает странное место. Он не требует немедленной остановки всех исследований в области AI — он понимает, что это невозможно. Он не говорит, что опасность абсолютная и неминуемая. Он говорит, что мы находимся в системе, которая направлена прямо на обрыв, и мы не знаем точно, где этот обрыв находится. И 0,1% шанс на выживание состоит в том, чтобы остановиться, пока не прошли эту точку невозврата. Но глобальная система стимулов работает так, что остановиться невозможно. Поэтому он говорит о 99,9% вероятности, которая звучит как алармизм, но на самом деле это логический вывод из имеющихся предпосылок.

Оптимизм в его позиции есть только в одном месте: в вере, что люди могут действовать рационально, понимая проблему. Если человечество массово, через политику, через культуру, через науку, придёт к пониманию, что создание неконтролируемого суперинтеллекта не в интересах человечества, то может быть выбран иной путь. Это маловероятно, но не невозможно. И именно на этот мизерный шанс работают люди, которые занимаются AI-safety — не потому, что уверены в спасении, а потому, что альтернатива принять вымирание как данность невыносима.

Источник: postnauka.org

Контроль невозможен: риски искусственного интеллекта

Комментарии: