Обманчиво согласованные меса-оптимизаторы. Это не смешно, если приходится объяснять

2022-05-14 15:28

Мы тут пытаемся популяризировать запутанные и сложные для понимания области согласования ИИ, и вот этот мем (ретвитнутый Элиезером на прошлой неделе) уж точно подходит:

Так давайте попробуем понять непостижимый мем! Нашим главным источником будет статья 2019 года Хубинжера и пр. Риски Выученной Оптимизации Продвинутых Систем Машинного Обучения.

Меса- – это греческая приставка, обратная по смыслу мета-. «Перейти на мета-уровень» – это на уровень выше; «перейти на меса-уровнь» – на уровень ниже (никто на самом деле так не говорит, извините). Так что меса-оптимизатор – это оптимизатор на один уровень ниже вас.

Рассмотрим эволюцию, оптимизирующую приспособленность животных. Долгое время она делала это очень механистично, реализуя поведения вроде «используй эту клетку, чтобы детектировать свет, затем расти в сторону света» или «если у чего-то красный кружок на спине, то это должно быть самка твоего вида, тебе следует с этим спариться». Со временем животные становились сложнее и начали брать некоторую часть работы на себя. Эволюция выдавала им стремления, вроде голода и похоти, а животные находили способы их достижения в своей текущей ситуации. Эволюция не вкладывала в меня механистически поведение открывания моего холодильника и поедания ломтика швейцарского сыра. Она вложила стремление – голод, а я уже понял, что лучший способ его удовлетворить – это открыть холодильник и съесть сыр.

Так что относительно эволюции я – меса-оптимизатор. В процессе оптимизации моей приспособленности эволюция создала второй оптимизатор – мой мозг – который оптимизирует штуки вроде еды и секса. Если, как Якоб Фалькович, я удовлетворяю своё стремление к сексу с помощью создания таблицы со всеми женщинами, с которыми я хочу встречаться, добавления в неё их хороших качеств и вычисления, с кем мне следует флиртовать, то – при маловероятном шансе, что таблица обретёт самосознание – она станет меса-оптимизатором относительно меня и меса-меса-оптимизатором относительно эволюции. Все мы – эволюция, я, таблица – стремимся к приблизительно одной цели (чтобы я преуспел в отношениях и передал свои гены). Но эволюция делегировала некоторые аспекты задачи моему мозгу, а мой мозг делегировал некоторые аспекты задачи таблице, и теперь то, будет у меня секс или нет, зависит от того, правильно ли я ввёл формулу в ячейке A29.

(как я слышал, Якоб и Тереза очень счастливы)

Возвращаясь к машинному обучению: нынешний процесс обучения ИИ, градиентный спуск, немного похож на эволюцию. Вы начинаете с полуслучайным ИИ, вкидываете в него обучающие данные, и отбираете наборы весов, которые преуспевают на этих данных. В некоторый момент вы получаете ИИ с чем-то вроде интуиции. Классический классификатор кошек/собак может посмотреть на картинку, обработать кучу её свойств, и вернуть либо «собака», либо «кошка». Этот ИИ – не оптимизатор. Он не планирует. У него нет стремлений. Он не думает «Если бы я только мог понять, собака это или кошка! Интересно, как это можно делать? Может, мне послать э-мейл в Американский Кинологический Клуб, они кажутся такими людьми, которые бы поняли. У этого плана больший шанс на успех, чем у других моих планов.». Он просто исполняет выученные поведения, как насекомое. «На этой штуке красный кружок, это, должно быть, самка моего вида, мне следует с ней спариться.» Хорошая работа, теперь ты спариваешься с флагом Японии.

Но точно так же, как эволюция в какой-то момент перешла от механистических насекомых к созданию меса-оптимизаторов вроде людей, и градиентный спуск может, теоретически, перейти от механистических ИИ вроде классификаторов кошек/собак к созданию каких-нибудь меса-оптимизирующих ИИ. Если так произойдёт, то мы не узнаем: сейчас большинство ИИ для своих программистов – чёрные ящики. Мы бы просто заметили, что некоторая программа, кажется, быстрее работает или лучше приспосабливается, чем обычно (или нет – нет закона, заявляющего, что оптимизаторы обязаны работать лучше, чем исполнители-инстинктов, это просто другой тип проектирования разума).

У меса-оптимизаторов была бы цель, сильно коррелирующая с их базовым оптимизатором, но, может быть, не идеально. Классический пример, опять же, эволюция. Эволюция «хочет», чтобы мы размножались и передавали свои гены. Но моё стремление к сексу – просто стремление к сексу, ничего больше. В окружении наших предков, когда не существовало порно и контрацептивов, секс был надёжным прокси для размножения; у эволюции не было причин заставлять меня меса-оптимизировать что-то кроме «заняться сексом». Сейчас, в современном мире, использованная эволюцией прокси кажется недальновидной – секс стал плохой прокси для размножения. Я знаю это, и я довольно умён, и это не имеет значения. То есть только то, что я достаточно умён, чтобы знать, что эволюция дала мне стремление к сексу, чтобы я размножился – а не чтобы я занимался защищённым сексом с кем-то на противозачаточных – не означает, что я немедленно сменю своё желание на желание размножаться. У эволюции был шанс установить мою функцию ценности, когда она меня создала, и если она с ним облажалась, то всё. Я вышел из-под контроля, делаю что хочу.

(Я чувствую себя обязанным признать, что хочу иметь детей. Насколько это мешает этому аргументу? Думаю, не очень – я не хочу, например, сдать сперму в сотни банков, чтобы увериться, что мои гены были как можно больше представлены в следующем поколении. Я просто хочу иметь детей, потому что мне нравятся дети, и я ощущаю некоторое смутное моральное обязательство по этому поводу. Это может быть другой прокси-целью, которую мне дала эволюция, может, немного более устойчивой, но фундаментально не отличающейся от секса.)

На самом деле, нам следует ожидать, что прокси-цели меса-оптимизаторов в большинстве случаев отличаются от целей базовых оптимизаторов. Базовый оптимизатор – обычно что-то глупое, что ни в каком разумном смысле не «знает», что у него есть цель – например, эволюция или градиентный спуск. Первое, на что он наткнётся, что прилично работает для оптимизации того, что ему надо, будет служить целью меса-оптимизатора. Нет хорошей причины, по которой это должно быть его собственной целью. В случае людей, это было «ощущение трения в гениталиях», что как раз могут понять рептилии, шимпанзе и австралопитеки. Эволюции не могло повезти в выдаче меса-оптимизаторам своей настоящей цели («увеличивать относительную частоту своих аллелей в следующем поколении»), потому что рептилиям и даже австралопитекам до понимания того, что такое «аллель» как до Луны.

II.

Хорошо! Мы, наконец, готовы к объяснению мема! Поехали!

Прозаическое согласование сложное…

«Прозаическое согласование» (см. эту статью за подробностями) означает согласование нормальных ИИ похожих на те, которые мы используем сегодня. Люди довольно долго считали, что такие ИИ не могут достигнуть опасных уровней, и что те ИИ, которые их достигнут, будут использовать настолько много новых экзотических открытий, что мы пока не можем даже начинать предполагать, какими они будут и как их согласовывать.

После GPT-2, DALL-E, и прочих, исследователи согласования стали больше беспокоиться, что схожие с нынешними моделями ИИ могут быть опасны. Прозаическое согласование – попытки согласовать ИИ вроде тех, которые у нас есть сейчас – стало доминирующей (хотя и не единственной) парадигмой исследования согласования.

«Прозаическое» вовсе не обязательно означает, что ИИ не может писать поэзию; см. сгенерированную ИИ поэзию у Gwern’а за примерами.

… потому что OOD-поведение непредсказуемо

«OOD» означает «за пределами распределения». Все ИИ обучаются в некоем окружении. Потом их развёртывают в другом окружении. Если оно похоже на обучающее распределение, то, наверное, обучение будет довольно полезным и к месту. Если оно не похоже на обучающее распределение, то произойти может всё, что угодно. Возвращаясь к нашему стандартному примеру – «обучающее окружение», в котором эволюция спроектировала людей, не включало контрацептивы. В этом окружении цель базового оптимизатора «передать гены» и цель меса-оптимизатора (получить трение на гениталиях) были очень хорошо согласованы – одна часто приводила к другой – так что на эволюцию не было особого давления, принуждающего искать прокси получше. Потом оп, 1957 год, FDA одобряет оральные контрацептивы, и внезапно окружение развёртывания выглядит совсем-совсем не так, как обучающее окружение, и прокси проваливается настолько позорно, что люди начинают творить безумные вещи, вроде выбирания Виктора Орбана премьер-министром.

Итак: предположим, что мы обучили робота собирать землянику. Мы дали ему погулять по земляничной поляне и поощряли его каждый раз, когда земляничины оказывались в ведре. Со временем он в самом деле научился собирать землянику очень хорошо.

Но может быть, всё обучение проводилось в солнечный день. И может быть, что на самом деле робот научился идентифицировать металлическое ведро по тому, как оно блестело на солнце. Потом мы попросили его собирать землянику вечером, и самой яркой штукой неподалёку был уличный фонарь, и робот стал бросать землянику в уличный фонарь.

Ну ладно. Мы обучаем его в широком диапазоне разных условий освещения, пока мы не становимся уверены, что независимо от освещения земляника отправится в ведро. Потом в один прекрасный день по поляне проходит кто-то с большим распухшим красным носом, и робот отрывает человеку нос и отправляет его в ведро. Ах если бы в обучающем распределении был кто-то с таким большим и таким красным носом, тогда мы могли бы научить робота этого не делать!

Суть в том, что только то, что в одном окружении он научился «собирать землянику в ведро», ещё не значит, что он безопасен или эффективен в другом окружении. И мы никогда не можем быть уверены, что мы поймали все способы, которыми окружения могут различаться.

…а обманчивость опаснее Закона Гудхарта.

Использовать Закон Гудхарта – это следовать букве своей функции вознаграждения вместо её духа. Пример из обычной жизни – «учить к тесту». Программисты системы (например, Департамент Образования) имеют цель (дети должны учиться). Они делегируют эту цель меса-оптимизаторам (учителям) с помощью прокси-цели (дети должны хорошо справляться со стандартным тестом) и коррелирующей функцией вознаграждения (учителям больше платят, если их ученики получили более высокие оценки за тест). Учителя могут преследовать либо базовую цель за меньшее вознаграждение (учить детей полезным навыкам) или меса-цель за большее (учить их тому, как хорошо сдать тест). Провал согласования!

Это отстой, но это ограниченная проблема. Мы уже знаем, что некоторые учителя учат к тесту, и Департамент Образования принял это как приемлемую цену за то, что система стимулов вообще есть.

Мы можем представить, что наш собиратель земляники нарезает земляничины на маленькие кусочки, чтобы это считалось как сбор большего их количества. Опять же, это отстой, но, когда программист это заметит, это можно довольно быстро исправить (пока ИИ слаб и подконтролен).

Что насчёт обманчивости? Предположим, вышло так, что собиратель земляники получил какую-то другую, не предполагавшуюся, целевую функцию. Может, как и раньше, он хочет бросать земляничины в источники света, так, что это работает, когда ближайший источник света – металлическое ведро, но не работает, когда это уличный фонарь. Наши программисты (в какой-то степени) умны и осторожны, так что во время обучения они тестируют его ночью, рядом с уличным фонарём. Что происходит?

Если это лишь тупой набор рефлексов, обученных градиентным спуском, то он будет кидать землянику в фонарь и это будет легко обнаружено и исправлено.

Если это очень умный меса-оптимизатор, то он может подумать: «Если я брошу земляничину в фонарь, то меня поймают и обучат иметь другие цели. Это будет провал в достижении моей цели, чтобы земляника была рядом с источниками света. Так что бросание земляники к источнику света в этот раз, в обучающем окружении, не приведёт к достижению моей глобальной цели – бросать землянику в источники света вообще. Я сделаю то, чего хотят люди – помещу землянику в ведро – пока что». Так что он помещает землянику в ведро и его не ловят. Затем, как только люди перестают смотреть, он опять бросает землянику в фонарь.

Обманчивость опаснее Закона Гудхарта, потому что применение Закона Гудхарта будет поймано и исправлено, а обманчивость – не обязательно.

Может быть, я объясняю это не очень хорошо, см. также Обманчиво Согласованные Меса-Оптимизаторы? Это Вероятнее, Чем Вам Кажется:

Мы предотвращаем OOD-поведение, детектируя OOD и добавляя больше человеческих ярлыков при детектировании…

Если вы (в какой-то степени) осторожны, то вы можете запустить свой собирающий землянику ИИ ночью, увидеть, что он бросает землянику в уличные фонари, и обучить его так не делать (т.е. человек-программист помечает это ярлыком «плохо», чтобы градиентный спуск увёл ИИ от этого).

… и мы избавляемся от стимулов к обманчивости, уверяясь, что базовый оптимизатор миопичен

Миопический оптимизатор – такой, который поощряет программы, основываясь только на качестве их работы на коротком промежутке времени. Так что, к примеру, внешняя петля градиентного спуска может оценивать собирателя земляники только по тому, как он собирал землянику в первый час развёртывания.

Если это работает идеально, то получится оптимизатор с коротким временным горизонтом планирования. Когда он рассматривает идею обмануть своих программистов ради выгоды через несколько дней, когда они перестанут за ним присматривать, его это не беспокоит, потому что несколько дней – за пределом его временного горизонта.

… и реализует теорию принятия решений, неспособную на акаузальную торговлю.

Серьёзно, вы не хотите про это знать. Давайте просто представим, что это не упоминалось, извините за неудобство.

Даже для миопической базовой цели существуют обманчиво согласованные не-миопические меса-оптимизаторы.

Даже если базовый оптимизатор миопичен, меса-оптимизатор может таким не быть.

Эволюция проектировалла людей миопично, в том смысле, что мы живём некоторое количество лет, и ничто, что произойдёт после этого не может нас вознаградить или наказать. Но мы всё равно «строим для потомков», вероятно, как необходимый для обладания работающим планирующим «софтом» побочный эффект. Бесконечная оптимизационная сила могла бы эволюционировать нас от этого, но бесконечная оптимизационная сила вообще может много чего сделать, а реальная эволюция всё же конечна.

Может, было бы полезно, если бы мы могли сделать миопическим сам меса-оптимизатор (хотя это сильно бы ограничило его полезность). Но пока что нет способа сделать меса-оптимизатор каким бы то ни было. Вы просто запускаете градиентный спуск и скрещиваете пальцы.

Наиболее вероятный исход: вы запускаете миопический градиентный спуск, чтобы создать собирателя земляники. Он создаёт меса-оптимизатора с некоторой прокси-целью, которая очень хорошо соотносится с собиранием земляники в обучающем распределении, вроде переноса красных штук к свету (в реалистичном случае это будет намного более странно и экзотично). Меса-оптимизатор не стимулирован думать о чём-то более чем на час в будущем, но он всё равно это делает, по тем же причинам, по которым не стимулированный строить предположения о далёком будущем я всё равно это делаю. Строя предположения о далёком будущем, он понимает, что неправильно собирание земляники сейчас повредит его цели бросания красных штук в светящиеся объекты потом. Он собирает землянику правильно в обучающем распределении, а затем, когда обучение закончилось и никто не смотрит, бросает землянику в уличные фонари.

(Затем он понимает, что мог бы бросать куда больше красных штук в источники света, если бы был мощнее, как-нибудь достигает уровня суперинтеллекта, и конвертирует массу Земли в красные штуки, которые он может бросить в Солнце. Конец.)

III.

Вы всё ещё тут? Но мы уже закончили объяснять мем!

Ок, ладно. Относится ли что-то из этого к реальному миру?

Насколько нам известно, полноценных меса-оптимизаторов не существует. AlphaGo – что-то вроде меса-оптимизатора. Его можно приближённо рассматривать как оптимизатор хорошего-хода-в-го, созданный петлёй градиентного спуска. Но это лишь приближение: DeepMind жёстко закодировали некоторые части AlphaGo, а затем провели градиентный спуск для других частей. Его целевая функция – «выигрывать партии в го», она жёстко закодирована и весьма ясна. Называть это или нет меса-оптимизатором, он не очень пугающий.

Получим ли мы страшные меса-оптимизаторы в будущем? Это связано с одним из самых длинных споров в согласовании ИИ – см., например мой обзор на Переосмысление Суперинтеллекта, или диалог Элиезера Юдковского и Ричарда Нго. Оптимисты говорят: «Раз преследующий цели ИИ может всех убить, я просто не буду такой создавать». Они выдвигают предположения о механистических/инстинктивных суперинтеллектах, которые было бы сравнительно легко согласовать, и которые могут помочь нам понять, что делать с их более страшными собратьями.

Но литература по меса-оптимизаторам возражает: у нас есть весьма ограниченный, если хоть какой-то, контроль над тем, какой ИИ мы получим. Мы можем избежать намеренного проектирования ИИ, преследующего цели. Но на самом деле всё, что мы тут делаем – это настраиваем петлю градиентного спуска и нажимаем «пуск». Затем в петле эволюционирует такой ИИ, который лучше минимизирует функцию потерь.

Будет ли это меса-оптимизатор? Ну, я получаю выгоду от рассмотрения своих действий и выбора тех, которые лучше приводят к достижению моей цели. Получаете ли выгоду вы? Это точно выглядит как что-то помогающее в широком классе ситуаций. Так что было бы удивительно, если бы планирующие агенты не были эффективным видом ИИ. И если это так, то нам следует ожидать, что градиентный спуск рано или поздно на них наткнётся.

На этом сценарии сосредотачиваются многие исследования согласования ИИ. Когда мы создадим первого настоящего планирующего агента – намеренно или случайно – процесс скорее всего начнётся с запуска нами петли градиентного спуска с некой целевой функцией. В результате получится меса-оптимизатор с некой другой, потенциально отличающейся, целевой функцией. Заполучение уверенности в том, что вам действительно нравится целевая функция, которую вы намеренно дали изначальной петле градиентного спуска – это называется внешним согласованием. Передача этой целевой функции получившемуся на самом деле меса-оптимизатору – это называется внутренним согласованием.

Проблемы внешнего согласования звучат в духе Ученика Чародея. Мы говорим ИИ собирать землянику, но забываем включить оговорки и стоп-сигналы. ИИ становится суперинтеллектуальным и превращает весь мир в землянику, чтобы он мог собирать её как можно больше. Проблемы внутреннего согласования звучат как то, что ИИ замощает вселенную безумными штуками, которые, с точки зрения людей, могут вовсе никак не напоминать сбор земляники, но в экзотической онтологии ИИ они служили полезным прокси для сбора земляники в обучающем распределении. Мой пример был «превратить весь мир в красные штуки и бросать их в Солнце», но то, что будет делать ИИ, который нас убьёт, скорее всего будет куда страннее. Это не ироничное запоздалое понимание Ученика Чародея. Это просто «что?». Если вы напишете книгу о волшебнике, который создал собирающего землянику голема, а тот превратил всю Землю в железистые сферы и оттащил их к Солнцу, то она не станет культовой, как Ученик Чародея.

Проблемы внутреннего согласования происходят «первыми», так что мы не подберёмся к хорошей истории решения внешнего согласования, пока не разрешим кучу трудностей, с которыми мы пока что не знаем, что делать.

За большей информацией можете посмотреть:

Видео Роба Майлза выше, прямая ссылка вот, канал вот.
Оригинальная статья Хубинжера, выдвигающая предположения о том, какие факторы сделают ИИ более или менее склонным к запуску меса-оптимизаторов
Внутренее Согласование: Объяснение, как будто тебе 12 лет Рафаэля Харта
60 с лишним постов на Alignment Forum с тегом «внутреннее согласование»
И, как всегда, курс по безопасности ИИ Ричарда Нго

----------

Оригинал Скотта Александера

Источник: m.vk.com

Обманчиво согласованные меса-оптимизаторы. Это не смешно, если приходится объяснять

Комментарии: