Обсуждение AGI с Элиезером Юдковским

2021-11-23 18:00

ИИ теория, угроза искусственного интеллекта

Оригинал: https://www.alignmentforum.org/posts/CpvyhFy9WvCNsifkY/discussion-with-eliezer-yudkowsky-on-agi-interventions

Примечания переводчика:

1) Эпистемический статус: мнение одного из вроде бы самых умных современных людей; однако стоит учитывать, что оно не слишком популярно и среди этих самых умных современных людей.

2) Это очень длинный текст, а ещё это не вылизанная одним автором статья, а обсуждение с многими участниками, а ещё я несколько задолбался его переводить, так что я его практически не вычитывал. Возможны опечатки и всякая стилистическая лажа.

3) Подавляющее большинство ссылок в тексте проставлены мной для простого доступа к справочной информации.

4) В этом обсуждении практически не затронута тема, почему, собственно, несогласованный полноценный искусственный интеллект по умолчанию смертельно опасен для человечества. Читателям, сомневающимся в этом утверждении, рекомендую начать с цепочки Юдковского «Хрупкие цели».

5) Я не стал переводить аббревиатуры AI – Искусственный Интеллект и AGI – Обобщённый/Универсальный Искусственный Интеллект, потому что устоявшегося перевода второй в русском языке вроде бы нет.

6) Перевод того, о чём ближе к концу пишет Стив Омохундро, может быть хуже остального, потому что упоминаемые им концепции мне хуже знакомы.

7) Текст несёт когнитивную угрозу для людей, намеревающихся прожить спокойную жизнь и умереть в своей постели где-то в конце XXI века. Переводчик не несёт ответственности за повышенную тревожность и смену жизненных приоритетов.

8) Желающие отблагодарить переводчика (не рассчитываю на это вообще, но обрадуюсь) могут это сделать переводом на карту Сбера 5336 6902 3766 3721

Этот текст - слегка отредактированное обсуждение AGI в чате между Элиезером Юдковским и несколькими приглашёнными участниками в начале сентября 2021 года. По умолчанию, приглашённые анонимизированы.

Я думаю, эта цитата Нейта Соареса (из его ответа докладу Джо Карлсмита) хорошо устанавливает контекст ожидаемых промежутков времени, которые не особо затрагиваются в самом обсуждении:

[…] Моя оценка [вероятности появления AGI к 2070] около 85% […]

Я могу перечислить несколько штук, которые сдвигают мою вероятность AGI-в-следующие-49-лет за 80%:

50 лет назад был 1970 год. Разрыв между AI тогда и AI сейчас выглядит весьма правдоподобно бо?льшим, чем то, что осталось преодолеть, даже до принятия во внимание недавнее драматическое ускорение прогресса и потенциальное будущее ускорение прогресса, когда цель станет ощущаться быстродостижимой.
Я заметил, что 15 лет назад все говорили, что до AGI ещё очень далеко, ведь AI ещё многого совсем не умеет – распознавание изображений, го, Starcraft, Winograd Schema Challenge, помощь в написании кода. Но по сути, всё это теперь достигнуто. Разрыв между нами и AGI теперь довольно неуловим. (Написание Действительно Хорошего Кода? Доказательство теорем? Конечно, но в моей модели «хорошее» решение всего этого уже лишь на волоске от полноценного AGI. И то, что мне нужно явно указать, что «плохое» решение не считается, уже говорит в пользу неуловимости оставшихся преград.) От этого довольно неспокойно!
Когда я смотрю на историю изобретений и истории про братьев Райт и Энрико Ферми, у меня создаётся впечатление, что когда технология очень близка, мир выглядит именно как у нас сейчас. (Конечно, трюк в том, что когда технология ещё далеко, мир выглядит очень похоже!) (Однако, когда технология очень далеко, мир выглядит по-другому – эксперты указывают на конкретные технические препятствия. Это закончилось несколько лет назад. )
Обобщая предыдущие два пункта, я могу описать мою оценку времени до AGI как «предпоследняя эпистемическая точка»: я не знаю проекта, который выглядел бы на грани его достижения; это пометило бы меня в «финальную эпистемическую точку» - я бы думал, что AGI может возникнуть в любой момент. Но я во второй-с-конца эпистемической точке, в которой меня не шокирует, если я узнаю, что кто-то уже на грани. Может, этого не будет ещё десять лет! Или двадцать! Но может быть и два, это никак не противоречило бы моим представлениям о реальности. Я бы не говорил «но до такой новости должны было произойти ещё вот эти штуки». Эти штуки я уже наблюдаю.
Мне кажется, что основанные на вычислительной мощности модели в стиле Котры выдают излишне консервативные оценки. Во-первых, я не думаю, что для интеллекта человеческого уровня необходимы вычислительные мощности человеческого уровня, а во-вторых я думаю, что озарения и инновации играют большую роль, особенно на масштабе пятидесяти лет.
В последнее время произошло много прогресса, связанного с AI. Когда я попытался поправить свои убеждения так, чтобы быть позитивно удивлённым прогрессом AI так же часто, как и удивлённым негативно, я пришёл к ожиданию быстрого прогресса. […]

Предисловие Элиезера:

В некоторых ответах тут я весьма мрачно оцениваю вероятность того, что координация между группами разработки AGI может преуспеть в спасении мира. Эндрю Критч напомнил мне указать, что такая мрачность может быть самосбывающимся пророчеством – если люди думают, что координация невозможна, они не будут пытаться координироваться. Так что я отмечу, что мне кажется, как минимум некоторые из людей на переднем фронте разработки AGI, скажем, в Deepmind и Anthropic, скорее будут координироваться, чем уничтожат мир; моя мрачность относится к тому, что будет, если технология распространится шире, чем среди них. Но даже так, кому угодно, предпочитающему координироваться и не уничтожать мир, не стоит отвергать возможность связаться с Демисом, или кем-то ещё на переднем фронте, тоже предпочитающим не уничтожать мир. (Не будьте тут слишком придирчивым.) Даже если технология распространилась и мир закончится на год позже, когда другие не координирующиеся стороны вступят в игру, всё равно лучше выбрать пусть, когда мир заканчивается через год, а не немедленно. А вдруг ишак всё же заговорит?

* * *

Элиезер Юдковский

Всем привет и добро пожаловать. Держите в уме:

- Я делаю это потому что мне хотелось бы узнать настоящие мысли этой группы, и возможно ответить на них; в этом суть анонимности. Если вы высказываетесь анонимно, пусть это будут ваши настоящие мысли, которые вы сами думаете, а не что-то, про что вы считаете «ну, кто-то другой, наверное думает, что…» или «интересно, что Элиезер ответит на это».

- Ответы Элиезера по умолчанию подписаны. Ответы всех остальных – анонимизированы, и ни я ни MIRI не знаем, кто из приглашённых их послал.

- Пожалуйста, не делитесь и не передавайте ссылку, по которой сюда попали.

- Я намерен сохранить и опубликовать части этого обсуждения по разрешению MIRI, но без упоминания, кем могли бы быть анонимы.

Элиезер Юдковский

(Спасибо Бену Вайештейну-Рауну за создание charhamroom.com, и за быстрое добавление некоторых возможностей по моей просьбе.)

Элиезер Юдковский

Сейчас два часа дня; эта комната открыта для вопросов.

Аноним

Как долго она будет открыта?

Элиезер Юдковский

В принципе, я могу вернуться через пару дней и ответить на все неотвеченные вопросы, но моя базовая теория «пока я не устану».

Аноним

Одна высокоуровневая вещь, о которой я хотел спросить это направления разработки и приоритеты. К примеру, если бы вы были диктатором в области того, над чем работают собравшиеся здесь разработчики (или в пределах нашего влияния), на что бы вы их перенаправили?

Элиезер Юдковский

Первый приходящий в голову ответ это «Я не знаю». Я вижу положение на игровой доске невероятно мрачным, и я не вижу выхода только через тяжёлый труд. Мы может надеяться на чудо, которое нарушит какие-нибудь аспекты моей фоновой модели, и мы можем постараться приготовиться к этому неизвестному чуду; подготовка к неизвестному чуду вероятно выглядит как «Постараться погибнуть достойно на переднем фронте» (потому что если ты можешь погибнуть достойно на переднем фронте, то ты лучше расположен, чтобы воспользоваться чудом, если оно произойдёт).

Аноним

Мне любопытно, связана ли такая мрачная перспектива в основном с техническими или социальными/координационными сложностями. (Может быть и то, и другое, но, может быть, что-то выглядит более упрямым?)

Элиезер Юдковский

Технические сложности. Даже если социальная ситуация заметно улучшится, как я вижу, все всё равно умирают, потому что социально скоординированные проекты, или даже несколько мощных государств, не желающих начинать ядерные войны, ничего не могут сделать, чтобы помешать кому-то ещё построить AGI и убить всех на 3 месяца или 2 года позже. На этой доске нет очевидных выигрышных позиций.

Аноним

для прояснения, это звучит как крупномасштабные социальные сложности (т.е., мы – как всё человечество – не можем скоординироваться и не построить AGI).

Элиезер Юдковский

Я действительно не рассматривал вариант, в котором у человечества есть коллективный телепатический хайвмайнд? В смысле, я писал рассказы о мире, скоординированном настолько, что они смогли свернуть компьютерную промышленность и производить мощные компьютеры в единственной в мире засекреченной базе, но Земля не собирается пойти этим путём. При хоть слегка правдоподобных уровнях будущей координации, у нас техническая проблема.

Аноним

Интересно, почему создание AGI, согласованного с целями пользователя – это не то, что могут сделать несколько скоординированных проектов чтобы эффективно предотвратить катастрофу. Два очевидных варианта: поскольку его слишком сложно создать, или поскольку это в любом случае не остановит другие группы. Два ответа на «не остановит» - это то, что никто всё же не хочет получить несогласованный AGI (они просто не предвидят последствий и жаждут преимуществ автоматизированного интеллекта, так что могут быть обезврежены, предоставлением последних) (может, не совсем правда: апокалиптические маньяки), и то, что согласованный AGI сам поможет остановить их. Вы больше на стороне «сложно создать»?

Элиезер Юдковский

Поскольку согласовать цели когнитивного процесса, который достаточно мощен и действует в достаточно опасной области слишком технически сложно, чтобы предотвратить создание несогласованного AGI следующей группой через 3 месяца или 2 года. Типа, не получится скоординироваться и построить AGI, который построит наносистемы, потому что слишком технически сложно согласовать свой AGI за два года до конца света.

Аноним

Суммируя эту модель угрозы (поправьте, если неправильно): Ближайший конкурент в создании AGI отстаёт не больше, чем на N (<2) лет, а создание согласованного AGI, даже начиная с возможности создать несогласованный AGI, займёт больше N лет. Поэтому в какой-то момент какой-то конкурент, который не беспокоится о безопасности, создаст несогласованный AGI. Почему тут не работает «никто не хочет несогласованный AGI»? Займёт >N лет, чтобы все поняли, что у них есть это предпочтение, и что оно несовместимо с их действиями?

Элиезер Юдковский

Многие действующие лица сейчас выглядят готовыми с восторгом создать «несогласованный» AGI, считая, что это будет очень круто, или очень выгодно, и совсем не ожидая, что это уничтожит мир. Так что в любом мире, напоминающим наш – а я не ожидаю обильных улучшений и больших сроков – мы видим, как Deepmind достигает этого первым, а потом, если код не будет сразу же украден Китаем или Францией или кем-то ещё и запущен с бо?льшим числом итераций циклов, кто-то другой получит его на следующий год; если кто-то другой это Anthropic, то может они и не будут усилять свой AGI; но в течении двух лет присоединяются Facebook AI Research и разработчики-любители и разведки крадут копии кода у других разведок и я не вижу, как мир может не закончится после этого.

Аноним

Как тут выглядит «постараться достойно погибнуть на переднем фронте»? Это вопрос приоритетов между решением проблемы согласования (и между разными подходами к этому), и предотвращением или торможением ближайших конкурентов. Я бы оценил указания, куда стоит фокусировать мои усилия (конечно, вы можете сообщить только что-то общее для этой группы).

Элиезер Юдковский

Я не знаю, как эффективно затормозить «ближайшего конкурента» более чем на пару лет даже в сценарии лучшего-правдоподобного-случая. Может, кто-то из госбезопасности может оказаться единственным нормальным человеком в комнате и объяснить своим зарубежным коллегам, почему «украсть код AGI и запустить его» так же плохо, как «запустить все ракеты». Может, больше групп разработки AGI можно убедить закрыться; или, если более чем у одной будет AGI, скоординироваться друг с другом и не устраивать гонку вооружений. Я не уверен, что я верю, что такое может произойти на самом деле, но мне понятно, как бы я пытался такого достичь – однако, пожалуйста, сначала обсудите это со мной ещё, мне легко представить, как такие попытки могут иметь неприятные последствия, мне даже вообще не ясно, стоит ли нам привлекать больше внимания ребят из госбезопасности. Ничто это не спасёт нас без технического прогресса в согласовывании AI. Но что предполагается должны делать другие в этой области, если я сам не знаю, что попробовать?

Аноним

спасибо! по исследованиям согласовывания, у вас могут быть хорошие мета идеи (как исследовать в общем) даже если вы так же застряли на объектном уровне. и вы можете знать/предвидеть тупики, которые остальные не знают.

Элиезер Юдковский

Я точно предвижу довольно много тупиков, которые другие не видят, да.

Аноним

Продвижение страха перед направлением, что сделает все проекты сложнее, выглядит безнадёжным?

Элиезер Юдковский

Что это нам даст? 3 месяца времени ценой огромного количества доброжелательности? 2 года? Зачем эта задержка, если всё равно все умрут? Даже если мы получим техническое чудо, не будет ли невозможным запустить проект, который будет им пользоваться, потому что все будут бояться такого проекта? Не будет ли этот страх перенаправлен в «о, да, это государственный проект, они хорошие парни», а государство куда более безнадёжно и сложнее улучшаемо, чем Deepmind?

Аноним

Мне кажется, недостаток публичной поддержки генетических манипуляций в людях замедлил это направление больше, чем на три месяца

Аноним

не будет ли невозможным запустить проект, который будет им пользоваться, потому что все будут бояться такого проекта?

…ну, может быть, но не с около 100% шансом?

Элиезер Юдковский

Я не хочу звучать, будто я сбрасываю со счёта всю стратегию, но это звучит очень сильно как то, что идёт не по плану, потому что получилась не в точности такая реакция общественности, как рассчитывалось, и полученная оказалась вредной; и это не звучит как стратегия с представимым победным окончанием, что усложняет её конкретизацию; это больше звучит как что-то из силлогизма «что-то надо сделать, это что-то, следовательно это надо сделать», чем как план, который приходит к успеху во благо людей.

Про генетические манипуляции в людях, я думаю, что изначальное неблагосклонное отношение к ним, реакция, которая вовсе не была ни аккуратной, ни протранслированной, не допустила никакие формы «хороших» генетических манипуляций независимо от обстоятельств, изгнала науку в другие страны – мягко говоря, не пример того, как интеллигенция может успешно манипулировать страхами масс с какой-то предположительной хорошей целью, так что я бы не делал таких обобщений из этого случая. Скорее может оказаться, что общественный страх – это мощная неконтролируемая штука, которая не двигается в умном направлении – может, страх перед AI будет превращён политиками в «и вот почему Мы должны создать Наш AGI первыми, чтобы он был Хорошим и мы могли Победить». Для меня это выглядит куда более похоже на то, что происходит в реальной жизни, чем «и у нас получилось направлять панику именно туда, куда надо согласно нашему умному плану», особенно когда у нас на самом деле нет этого умного плана.

* * *

Элиезер Юдковский

У меня есть пара дурацких идей о ML, которые я мог бы исследовать, но это потребовало бы возможности проведения значительных по размеру закрытых ML-проектов с доверенными людьми, а её сейчас нет. Правдоподобно звучит, что эта возможность потребуется в любом мире, в котором происходит позитивное нарушение модели («чудо»), чтобы им можно было воспользоваться, так что я хотел бы создать её сейчас. Но как сделать это, я тоже не уверен.

Аноним

если есть шанс, что эта группа может что-то сделать для получения такой возможности, я был бы заинтересован. Я бы хотел больше знать о том, что здесь значит «закрытый» и «доверенные» (и «значительные по размеру», думаю, тоже). К примеру, чему не соответствует Anthropic?

Элиезер Юдковский

Мне хотелось бы, чтобы была система, в которой я могу работать с людьми, которых я или кто-то другой проверил как достойных доверия, над ML-проектами, которые не будут опубликованы. Anthropic выглядит как пакетная сделка. Если Anthropic позволит мне работать с 5 конкретными людьми из Anthropic над проектом, изолированным от остальной организации, это был бы шаг в нужную сторону. Также не ясно, есть ли у Anthropic время, чтобы работать со мной и интерес к тому, чтобы делать с AI что-то кроме «сложить больше слоёв» или вроде этого.

Аноним

По мне, такая система не выглядит невозможной – в Deepmind, или OpenAI, или в новой организации, созданной специально для этого (или может быть MIRI) – бутылочное горлышко – это доверенные разбирающиеся в ML люди (но найти 5 в нашей социальном кластере не выглядит невозможным?) и доступ к вычислительным мощностям (может быть решено деньгами – не слишком сложно?). Я не думаю, что DM или OpenAI публикуют всё – часть про «не будут опубликованы» не кажется мне большим препятствием. Камень преткновения – инфобезопасность (кто потенциально крадёт код/данные)?

Аноним

Как думаете, Redwood Research может быть таким местом?

Элиезер Юдковский

Может быть! Я пока не сбросил со счетов RR. Но пока (насколько мне известно), они не достигли ничего, демонстрирующего такие способности к разработке AI, как даже GPT-3, и уж тем более как AlphaFold 2.

Элиезер Юдковский

Я был бы потенциально супер-заинтересован работать с Deepmind, если они создадут внутренний отдел для «Окей, состоявшиеся разработчики из Deepmind, которые предпочитают не уничтожать мир могут создавать подотделы внутри этого отдела и не публиковать свою работу за пределами этого подотдела, и уж тем более во всём Deepmind, хотя может и должны докладываться лично Демису или вроде того». Я более стептически/настороженно отношусь к работе с OpenAI-минус-Anthropic, потому что упоминание «открытого AI» продолжает звучать для меня как «как выбрать худшую возможную стратегию и сделать игровую доску максимально неиграбельной, в то же время демонизируя всех, кто пытается следовать стратегии, которая возможно приведёт к выживанию», и теперь многие, кто это понял ушли из OpenAI куда-нибудь ещё. Но, конечно, если они изменят своё название на «ClosedAI» и уволят всех верящих в их изначальную миссию, я обновлю своё мнение.

Элиезер Юдковский

Возможно упущенный контекст, который надо включить: то, что я бы хотел, чтобы Deepmind имел больше внутренних закрытых и изолированных разработок, это часть большего желания, которое у меня есть про область AI, независимо от того, над какими проектами я бы хотел работать сам.

В текущей ситуации разработчики AI замотивированы сжигать самый ценный ресурс, оставшееся время до появления AGI, потому что они должны выдавать и публиковать что-нибудь интересное, чтобы зарабатывать статус и зарплату повыше. Чем дальше публикация по спектру {тихий внутренний результат -> анонсированный и продемонстрированный результат -> статья о том, как получить анонсированный результат -> код для получения результата -> модель для результата}, тем больше времени сжигается, и тем больше внутреннего и внешнего престижа зарабатывает разработчик.

Тщетно желать, чтобы все единообразно шли против своих стимулов. Но, я думаю, шагом вперёд было бы уменьшить мотивацию сжигать общее благо; иначе говоря, чем больше разработчиков имеют вариант не сжигать общее время, не оказавшись уволенными и не пролетая с повышениями, тем больше этих необычайно умных разработчиков возможно решат не делать этого. Так что я бы хотел, чтобы группы разработки AI в целом и Deepmind в частности, давали бы возможность разработчикам, исследующим что-то интересное, вообще не публиковать получившиеся открытия и всё ещё получать внутреннее признание. Я бы хотел, чтобы у них была такая опция. Я бы хотел, чтобы людям позволялось не уничтожать мир – и всё равно получать высокую зарплату и возможность повышения и поддержку корпорации в своей игре с интересными игрушками; если уничтожать мир необходимо, чтобы иметь классные штуки, почти все будут вносить свой вклад в уничтожение мира, потому что, ну, они не собираются просто не иметь классных штук, это против природы почти каждого человека.

Когда я представляю конец света, я думаю, он включает в себя AGI-систему, которую можно разогнать, добавив вычислительной мощности; и я думаю, будет длительный период времени, когда система недостаточно согласована, чтобы её можно было так разогнать, не убивая всех. И выглядит чрезвычайно вероятным, что если фракция на уровне, скажем, Facebook AI Research, получает возможность развернуть такую систему, то это автоматически конец. Если китайская, русская и французская разведки все украли копию кода, и Китай и Россия здраво решили не запускать его, а Франция выдала его трём французским корпорациям, что, как я слышал, французская разведка иногда делает, то, опять же, все умирают. Если создатели достаточно обеспокоены таким сценарием и разгоняют систему слишком сильно слишком рано, боясь, что если они подождут, очень скоро начнётся гонка вооружений, опять же, все умирают.

Сейчас мы по большому счёту ожидаем чуда, делающего согласовывание AGI вообще возможным, хотя бы если его создатель успешно предотвратил распространение технологии и имеет 2 года в запасе. Но если мы и получим чудо, это не будет мгновенная победа. Будут минимальные затраты времени на оставшуюся работу. Так что когда я представляю как кто-то пытается начать идти по такому пути, им надо будет ещё совершить много работы, без публикации, демонстрации или тем более открытия моделей AGI. Потому что если ждать до последних месяцев, когда станет совсем очевидно, что система превратится в AGI, и только тогда начать закрываться, то почти все предпосылки уже будут выпущены. Тогда всего через 3 месяца кто-то ещё создаст AGI, а потом кто-то ещё, а потом ещё; и даже если первые три фракции не провернули рубильник до летального уровня, четвёртая сделает это, и мир закончится автоматически.

Если идеи теоретически содержатся «внутри компании», но в компании 150 человек, и они все знают, плюс все, с должностью «сисадмина» имеют доступ к коду и моделям, то, я представляю – может и ошибаюсь – эти идеи (a) неизбежно утекут наружу, когда кто-то из этих 150 человек будет весело болтать за пивом в присутствии кого-то извне, и (b) будут мгновенно скопированы людьми сомнительной лояльности, как только дело запахнет керосином. Как и всюду, где имеют дело с по-настоящему конфиденциальной информацией, необходим принцип необходимого знания, иначе все (и не только в компании) в итоге будут осведомлены.

Так что, даже если меня завтра переедет грузовик, я бы всё равно хотел, чтобы в пережившем меня мира, Deepmind предоставлял бы сотрудникам ненаказуемые возможности не публиковаться и работать во внутренних подразделениях, которые не распространяют свои идеи на остальной Deepmind. Типа, настоящая социальная и корпоративная поддержка для этого, не просто теоретическая опция, ради которой тебе нужно сжечь много социального капитала и накопить много очков странности, а потом навсегда остаться без повышения.

Аноним

Что такое RR?

Аноним

Это новая организация по согласовыванию AGI, управляемая Нейтом Томасом и ~со-управляемая Баком Шлегерисом и Биллом Зито, может с ещё 4-6 техническими ребятами. Как я понимаю: идея в организации с экспертизой в ML и общей просто-сделай-это компетенцией, которая пытается проводить те эксперименты с согласовыванием, которые Пол+Аджейя+Элиезер все считают очевидно ценными и хотели бы, чтобы кто-то проводил. Они собираются завести сайт и всякое такое в течении нескольких дней, самой организации в текущем виде несколько месяцев.

* * *

Аноним

Насколько вообще вероятен жёсткий взлёт? Ясное дело, мы уже касаемся грани AGI с GPT и подобным. Но мне не кажется, что это так уж легко перейдёт в очень быстрое рекурсивное самоулучшение.

Элиезер Юдковский

Сравнивая с позицией, за которую я выступал в FOOM-дебате с Робином, реальность оказалась на спектре Элиезер-Робин на более элиезерской стороне, чем я сам. Меня сильно неприятно удивило, насколько мало архитектурной сложности требуется для того, чтобы начать создавать генерализованные системы, и как быстро эти системы масштабируются с помощью Большей Вычислительной Мощности. Светлая сторона всего этого в том, что я могу представить систему, достигшую интересного человеческого+ уровня без «рекурсивного самоулучшения» и других трюков, которые я, как я убеждал Робина, считал необходимыми для быстрого роста способностей. Можно получить быстрый рост способностей до чего-то вроде FOOM. Что, в свою очередь, делает более правдоподобным для меня, что мы сможем немного потусить с интересным AGI не-суперинтеллектуального уровня, пока FOOM не начнётся. Не ясно, поможет ли это, но это стало правдоподобнее.

Аноним

Я согласен, что реальность пока не придерживается сценариев Робина.

Аноним

Превзойти человеческий уровень совсем не обязательно значит «foom».

Элиезер Юдковский

Я думаю, что если у нас есть AGI значительно превосходящий человеческий интеллект во всех отношениях, то он очевидно будет склонен к FOOM. В смысле, я подозреваю, что Элиезер сделает foom если дать Элиезеру способность делать бэкапы и боковые версии и редактировать себя.

Аноним

Мне не ясно, с чего бы AGI значительно превосходящий человеческий интеллект обязательно склонен к FOOM.

Элиезер Юдковский

Я думаю, что в принципе мы можем получить, к примеру, AGI, который был бы просто сверхинтеллектуальным инженером белков и наносистем, построенных из наносистем, построенных из белков, и который будет достаточно исправимым, чтобы не хотеть улучшать себя дальше; и этот AGI будет глупее человека в области, к примеру, психологических манипуляций, потому что мы попросили его не слишком думать над этим. Я сомневаюсь, что возможно получить AGI, который значительно превосходит человеческий интеллект во всех аспектах, не наделив его способностью-если-ему-захотелось посмотреть на свой собственный код и увидеть много потенциальных улучшений.

Аноним

Хорошо, это звучит разумно, но я не ожидаю, что AGI так уж запросто захочет манипулировать людьми (если его не разработали для этого). Может, немного.

Элиезер Юдковский

Манипулировать людьми – конвергентная инструментальная стратегия, если ты правильно (пусть и с низким разрешением) смоделировал, что люди такое и что важное они делают.

Аноним

Да, но манипуляция людьми это также та штука, от которой нужно защититься даже в случае не особо мощных систем. Сильные импульсы манипулировать людьми должны быть запрещены.

Элиезер Юдковский

Я думаю, что, по умолчанию, если натренировать молодой AGI ожидать, что в некотором специальном контексте 2+2=5, а потом разогнать его не перетренировывая, то обобщённо-сверхчеловеческая версия этого AGI скорее всего в каком-то смысле «осознает» , что SS0+SS0=SSSS0 – это следствие аксиом Пеано. Есть естественный/конвергентный/последовательный вывод лежащих в основе глубоких алгоритмов, генерирующий компетенцию в оригинальном окружении; когда эти алгоритмы масштабируются, они будут обобщаться лучше, чем заплатка на них, утверждающая, что «2+2=5».

Аналогично, предположим, что вы взяли некое окружение, в котором AGI не может вас обдурить, и применили какой-нибудь градиентный спуск, чтобы AGI не выводил действий, которые люди могут опознать как «манипулятивные». А потом вы отмасштабировали этот AGI для сверхчеловеческой области применения. Я предсказываю, что глубокие алгоритмы внутри AGI пройдут через консеквенциалистские построения, построят модели людей, и выведут манипулирующие-людьми действия, которые не могут быть детектированы людьми как манипулятивные, так, чтобы обойти раннюю заплатку, вложенную градиентным спуском, потому что я сомневаюсь, что эта заплатка будет обобщена так же хорошо, как глубокие алгоритмы. И вы не сможете перетренировать его в сверхчеловеческой области, обозначив плохим убивший вас вывод и снова проведя градиентный спуск, потому что плохой вывод вас убил. (Это попытка очень быстрого ликбеза о том, что собственно и делает согласовывание AGI сложным)

Аноним

[я признателен за ликбез - спасибо]

Аноним

что глубокие алгоритмы внутри AGI пройдут через консеквенциалистские построения, построят модели людей, и выведут манипулирующие-людьми действия, которые не могут быть детектированы людьми как манипулятивные

Это правда, если он вознаграждается за манипуляции людьми. Если люди присматривают за подобными штуками, это не кажется мне таким уж простым.

Прохождение через эти «консеквенциалистские построения», мне кажется, требует, чтобы ошибки, которые должны быть очевидными, не были решены на более простых уровнях. Мне кажется весьма маловероятной система, которая выглядит следующей человеческим запросам и ценностям и внезапно переходит на какой-то могущественный уровень. Я думаю, знаки будут видны заранее. Конечно, если люди не обращают внимание, они могут их упустить. Но, скажем, в текущей обстановке, мне кажется, что они скорее будут обращать внимание.

потому что я сомневаюсь, что эта заплатка будет обобщена так же хорошо, как глубокие алгоритмы

Это зависит от того, насколько «глубока» была эта заплатка. Да, если вы просто поверхностно решаете очевидные проблемы, это может произойти. Но мне кажется, что полезные и умные системы будут требовать глубоких исправлений (или глубокого проектирования изначально), чтобы быть очевидно достаточно применимыми для людей в решении сложных проблем. Я не говорю, что они будут идеальны. Но мне кажется правдоподобным, что они в большинстве случаев предотвратят худшие исходы.

Элиезер Юдковский

«Если у вас есть обобщённый моделирующий-последствия-и-выбирающий-стратегию алгоритм, он будет искать пути манипуляции людьми, даже если никакие прошлые экземпляры случайных-генераторов-действий не производили манипулятивное поведение, оказавшееся успешным и поощрённое градиентным спуском. Он изобретёт стратегию с нуля, представив результаты, даже если в его памяти нет примеров попыток применений подобных стратегий». Согласны или не согласны?

Аноним

Создание стратегий с нуля, конечно, ожидаемо от AGI.

«Если у вас есть обобщённый моделирующий-последствия-и-выбирающий-стратегию алгоритм, он будет искать пути манипуляции людьми, даже если никакие прошлые экземпляры случайных-генераторов-действий не производили манипулятивное поведение, оказавшееся успешным и поощрённое градиентным спуском. Он изобретёт стратегию с нуля, представив результаты, даже если в его памяти нет примеров попыток применений подобных стратегий». Согласны или не согласны?

Я думаю, будет ли AI «искать пути манипуляции людьми» зависит от целей, которые от спроектирован преследовать.

Манипуляция людьми - это определённо полезный класс методов для AI, для многих целей. Но это также идёт против многих вещей, которые люди будут указывать AI делать – по крайней мере на «высоком уровне». «Манипуляция», такая как маркетинг, для низкоуровневых целей может быть очень конгруэнтна с высокоуровневыми целями. AI может быть явно хорош в манипуляции людьми, в то же время не манипулируя своими создателями и их указаниями.

Если вы спрашиваете меня, согласен ли я, что AI будет в общем случае искать способы манипулировать высокоуровневыми целями, то я отвечу «нет». Потому что мне кажется, что провалы такого рода в дизайне AI скорее всего будут отловлены проектировщиками раньше. (Не утверждаю, что такие провалы не могут произойти.) Мне кажется, что манипуляция высокоуровневыми целями будет одним из наиболее очевидных видов провалов таких систем.

Аноним

Я сомневаюсь, что возможно получить AGI, который значительно превосходит человеческий интеллект во всех аспектах, не наделив его способностью-если-ему-захотелось посмотреть на свой собственный код и увидеть много потенциальных улучшений.

Для меня выглядит возможным (хотя маловероятным), что на практике для созданных нами AGI это будет правдой – но при этом что потенциальные улучшения, которые он увидит будут довольно незначительны. Это следует из интуитивного представления о том, что современные алгоритмы обучения могут быть приблизительно оптимальными.

Элиезер Юдковский

Если вы спрашиваете меня, согласен ли я, что AI будет в общем случае искать способы манипулировать высокоуровневыми целями, то я отвечу «нет». Потому что мне кажется, что провалы такого рода в дизайне AI скорее всего будут отловлены проектировщиками раньше.

Я ожидаю, что когда люди пытаются искоренить конвергентные инструментальные стратегии, тренируя на безопасном глупом уровне, это не будет эффективно предотвращать конвергентные инструментальные стратегии системы на умном уровне; также отмечу, что на очень умном уровне интеллекта «скрывай, что ты делаешь» становится конвергентной инструментальной подстратегией этой стратегии.

Я не знаю, стоит ли мне сейчас объяснять, почему «манипулировать людьми» конвергентно, почему «скрыть, что ты манипулируешь людьми» конвергентно, почему необходимо тренировать в безопасном режиме для достижения безопасности в опасных режимах (потому что если вы попытаетесь «тренировать» на значительно небезопасном уровне, вывод несогласованной системы обманет вас, чтобы вы неправильно его охарактеризовали и/или убьёт вас до того как вы сможете его проверить), или почему попытки обучить исправимости в безопасных режимах вряд ли хорошо обобщатся на более высокие уровни интеллекта и небезопасные режимы (качественно новый мыслительный процесс, окружение далеко за пределами обучающего распределения и, самое сложное для объяснения, то, что исправимость в некотором смысле «противоестественна», что делает невероятно сложным, к примеру, проявлять последовательное спланированное поведение («непротиворечивая функция полезности»), позволяющее кому-нибудь тебя выключить, но не мотивировать тебя активно манипулировать кем-то, чтобы тебя выключили).

* * *

Аноним

Моя (незаконченная) идея как выиграть время – это сфокусироваться на применении AI к хорошо-определённым задачам, где ограничения в основном следуют из пространства действий и дополнительно из обратной связи на уровне процесса (то есть, люди, предоставляющие обратную связь понимают, почему действия хороши, прежде, чем их поощрять, и отвергают всё странное, даже если оно выглядит работающим по какой-то выходной метрике). Это, фактически, вариация запирания в коробке, с коробкой специфичной для области приложения. Я знаю, что это не масштабируется до суперинтеллекта, но я думаю, что это потенциально может дать нам время на изучение и понимание прото-AGI пока они нас не убили. Мне было бы интересно услышать разрушительную критику этого подхода, означающую, что не стоит конкретизировать его дальше и пытаться реализовывать, если такая существует.

Аноним

(Я думаю, это похоже на CAIS, если это поможет.)

Элиезер Юдковский

Есть много того, что мы можем делать, что не решает проблему и включает нас, весело ковыряющихся в AI в ожидании чуда, возникающего из ниоткуда. Есть много того, что мы может делать с достаточно слабым AI, который не может обдурить нас и не имеет когнитивного доступа к любым опасным выводам, к примеру, автоматически генерировать картинки с котиками. Проблема в том, что всё, что мы можем сделать с AI таким образом (когда «люди, предоставляющие обратную связь понимают, почему действия хороши, прежде, чем их поощрять») недостаточно мощно, чтобы спасти мир.

Элиезер Юдковский

Другими словами, если у вас есть согласованный AGI, который строит полноценные зрелые наносистемы для вас, то это достаточно мощно, чтобы спасти мир; но этот AGI должен будет быть согласован каким-то методом, отличающимся от «люди аккуратно инспектируют выводы и отмечают их и его последствия как безопасные/согласованные», потому что люди не могут точно и не позволяя себя обдурить проверять последовательности ДНК для белков или длинные потоки битов посланные на белковые нанофабрики.

Аноним

Когда вы упоминаете наносистемы, в какой мере это просто гипотетическая суперсила, а в какой что-то, что вы на самом деле ожидаете будет достигнуто с AGI/суперинтеллектом? Если ожидаете, то почему?

Элиезер Юдковский

Если что и выглядит ещё более верным делом, чем уже экстремально верная возможность суперинтеллекта, то это возможность наносистем, поскольку мы можем установить нижние границы мощности наносистем с помощью гораздо более конкретных хорошо определённых вычислений. Смотри к примеру первые главы Наносистем Дрекслера – это первое обязательное чтение для сомневающихся, что сверх биологии есть ещё полно возможностей и что возможно создание артефактов размером с бактерию с гораздо большей концентрацией мощности. Я отметил это как «известная нижняя граница», а не «умозрительное высокое значение», потому что с выхода Наносистем в 1992 они были подвергнуты тщательному скептическому разбору, не обнаружившему ничего, что я бы нашёл хоть немного убедительным, так что у меня нет сильных ожиданий, что возникнут новые контраргументы.

Если, прочитав Наносистемы, вы всё ещё не думаете, что суперинтеллект сможет дойти и пройти уровень Наносистем, я не вполне уверен, что и сказать, ведь модели суперинтеллекта куда менее конкретны, чем модели молекулярной нанотехнологии.

У меня есть запись с 2008 года, где я говорю, что я ожидаю, что суперинтеллект решит фолдинг белков, некоторые люди спорили с этим типа «Но откуда вы знаете, что он решаем?», а теперь AlphaFold 2 решила фолдинг белков, по поводу которого они были столь скептичны, сильно до уровня суперинтеллекта.

Я могу попробовать объяснить, каким таинственным образом я мог предсказать это с высоким уровнем уверенности – не точный уровень на котором это станет возможным, конечно, но что суперинтеллекта будет достаточно – несмотря на этот скептицизм; я полагаю, что я мог бы указать на ранние подсказки, как то, что даже человеческие мозги способны предлагать варианты для поиска хороших конфигураций белков; я мог бы сказать, что раз белки были созданы эволюцией, в пространстве фолдинга должно быть много регулярности, и такую регулярность можно эксплуатировать.

Но, конечно, и так, в некотором смысле, очевидно, что суперинтеллект может решить фолдинг, так же как за годы до Наносистем было очевидно, что молекулярные наномашины возможны и будут иметь бо?льшую концентрацию мощности, чем биология. Я мог сказать «Потому что белки держаться вместе ван-дер-ваальсовыми силами, которые куда слабее ковалентных связей», чтобы указать, почему вы могли это понять просто прочтя Машины Создания ещё до выхода Наносистем, на пути к объяснению, как можно предположить результат вычислений прежде построения детализированной модели. Но на самом деле, в точности потому, что возможность молекулярной нанотехнологии уже была очевидна любому здравомыслящему человеку, прочитавшему Машины Создания, человек, не убеждённый этой книгой, не был убеждён и Наносистемами, поскольку уже продемонстрировал иммунитет к разумным аргументам; пример общего феномена, который я где-то обозвал Законом Продолжающегося Провала.

Аналогично, кто-нибудь, кто заявлял «Но откуда вам знать, что суперинтеллект сможет достичь нанотехнологий» в 2008, вероятно, не будет убеждён и демонстрацией AlphaFold 2, потому что это было ясно всем здравомыслящим в 2008, и тот, кто не замечал доводов в 2008 скорее всего не может заметить их и сейчас, когда они стали ещё яснее. Есть люди на грани здравомыслия, которые меняют состояние, но большая часть не попадает на такой узкий край разумности.

Аноним

Если, прочитав Наносистемы, вы всё ещё не думаете, что суперинтеллект сможет дойти и пройти уровень Наносистем, я не вполне уверен, что и сказать, ведь модели суперинтеллекта куда менее конкретны, чем модели молекулярной нанотехнологии.

Я не уверен, адресовано это мне или обобщённому «вы», но я всего лишь выражал любопытство, не скептицизм :)

* * *

Аноним

какая-то форма «масштабируемого надзора» – это наивно расширить изначальное предложение запирания в коробке, заявлявшееся необходимым методом согласовывания – по сути, сделать людей, проверяющих выводы, умнее, предоставив им поддержку AI для всех хорошо-определённых проверяемых уровнем ниже задач.

Элиезер Юдковский

Мне не встречались правдоподобные истории о конкретных дизайнах систем, предложенных людьми, использующими термины вроде «масштабируемого надзора», о том, как доступные человеческому надзору мысли или проверяемые людьми лежащие в основе системы компонуются в очень мощные недоступные надзору выводы, которым можно было бы доверять. Фундаментальная проблема тут «Вам позволено смотреть на числа с плавающей точкой и код на Питоне, но как вам получить из этого достойный доверия дизайн наносистем?». Так что сказав «Хорошо, мы посмотрим на какие-то мысли, которые мы можем понять, и потому из куда большей системы получим достойный доверия вывод» не получится ответить на сложную центральную суть вопроса. Сказав, что у людей будет поддержка AI, на неё не ответить тоже.

Аноним

вид полезных штук, которые люди (люди-с-поддержкой) могут иметь возможность проверить – это размышления/аргументы/доказательства/объяснения. без необходимости генерировать ни достойные доверия наносистемы, ни причины, почему они достойны доверия, мы всё равно можем их проверять.

Элиезер Юдковский

Если у вас есть недостойный доверия обобщённый суперинтеллект, генерирующий строки на английском языке, должные быть «размышлениями/аргументами/доказательствами/объяснениями» о, к примеру, дизайне наносистем, то я не только ожидаю, что суперинтеллект будет способен обдурить людей в смысле обманом обосновать что-то ложное, я ожидаю что суперинтеллект будет способен скрытно взламывать людей способами, которые я не смог бы понять, даже если бы мне рассказали, что произошло. Так что необходимо уже иметь априорное убеждение в согласованности суперинтеллекта, прежде чем вы осмелитесь взглянуть на аргументы. Как вы его получите?

Аноним

Я думаю, я не начну с суперинтеллекта для получения достойных доверия нанодизайнов. Я постараюсь построить достойные доверия наносистемы «по-сложному», т.е., как если бы мы делали это без AI вообще, только ускорить это, используя AI для автоматизации штук, которые мы знаем как проверять (включая рекурсивно). Вы считаете, затруднение в том, что для наносистем необходим суперинтеллект?

(вскользь: я думаю, это подход работает даже если вы случайно построили более-обобщённую или более-интеллектуальную базовую модель, пока вы используете её только в коробках, которые она не может перехитрить. Чем лучше определены задачи, которые вы автоматизируете, тем проще обезопасить коробку.)

Элиезер Юдковский

Я думаю, что Китай закончит мир, используя код, украденный у Deepmind, и делающий штуки по-простому, и это произойдёт на 50 лет исследований и разработки до того, как вы сможете закончить эквивалент «приделывания вспомогательных механизмов к лошади вместо создания автомобиля с нуля».

Ещё я думаю, что ускорение «повторяемым усилением и дистилляцией» выявит места, в которых быстрые дистиллированные выводы длинных последовательностей медленных вычислений не правдивы для этих последовательностей, поскольку градиентный спуск неидеален и не будет идеален и не ясно, получим ли мы превосходящую его парадигму для таких действий.

* * *

Аноним

Как вы относитесь к сообществу безопасности в целом и к росту, наблюдаемому в последнюю пару лет?

Элиезер Юдковский

Очень мрачно. Я думаю, что почти все отскакивают от по-настоящему сложных задач в центре и делают что-нибудь, что и предсказуемо не будет полезно на уровне суперинтеллекта, и не сообщает мне ничего, что я не мог бы и так сказать до выхода статьи. Людям нравится заниматься гарантированно успешными проектами, которые обеспечат им публикацию, и это отсекает все реальные исследования на первом же шаге социального процесса.

Пол Кристиано старается выдавать фундаментальные идеи, они все неправильные, но он один из немногих, кто вообще пытается, если бы было ещё 10, что-то могло бы пойти правильно.

Крис Олах собирается достичь слишком малого слишком поздно. Мы готовимся столкнуться с несогласованным AGI, а текущий уровень прозрачности «посмотри на этот интересный визуализированный паттерн внимания в матрице ключевых значений на слое 47», когда то, что нам надо это «окей, но замышляет AGI нас убить или нет?». Но Крис Олах всё же пытается делать работу на пути к чему-то важному, что делает его исключительным в области.

Стюарт Армстронг сделал хорошую работу над формализацией проблемы выключения, пример того, почему исправимость – это тяжело, но она все ещё сопротивляется всем попыткам решения.

Разные люди, работающие и работавшие в MIRI выдавали всякие на-самом-деле-полезные замечания там и тут, как квантификация ожидаемой полезности Джессики Тейлор.

И есть, насколько я могу судить, огромная куча работ, которые выглядят в основном подделанными или бессмысленными или предсказуемыми.

Очень, очень ясно, что столкновение текущего плюс за следующие N лет прогресса в согласовывании с способностями возникающего через эти же N лет AGI, приведёт к тому, что все очень быстро умрут. Не очевидно, что забрасывание проблемы деньгами поможет, потому что оно приведёт к увеличению количества низкокачественной работы.

Аноним

делают что-нибудь, что и предсказуемо не будет полезно на уровне суперинтеллекта, и не сообщает мне ничего, что я не мог бы и так сказать до выхода статьи

Я думаю, вы недооцениваете значение решения маленьких задач. Большие проблемы решаются через решение многих маленьких. (Однако, я соглашусь, что многие академические статьи не отображают особого прогресса.)

Элиезер Юдковский

По умолчанию, я подозреваю, что ваши оценки оставшегося времени и меньше оценка сложности согласовывания, не что я меньше ценю накапливающуюся мощь решения маленьких задач десятилетиями. Я думаю, что такими темпами мы будем смотреть прямо в дуло совершенно непроницаемой модели, которая убьёт нас, если будет усилена, не имея ни малейшего понятия, как прочитать, что происходит у неё в голове, и никакого способа тренировать её на просматриваемой и понимаемой человеком безопасной области так, чтобы это могло согласовать суперинтеллектуальную версию, стоя при этом на целой куче статей про «маленькие задачи», которые так и не стали чем-то бо?льшим.

Аноним

Я думаю, что такими темпами мы будем смотреть прямо в дуло совершенно непроницаемой модели, которая убьёт нас, если будет включена, не имея ни малейшего понятия, как прочитать, что происходит у неё в голове, и никакого способа тренировать её на просматриваемой и понимаемой человеком безопасной области так, чтобы это могло согласовать суперинтеллектуальную версию

Этот сценарий кажется мне возможным, но не особо вероятным. GPT не «убьёт нас всех», если её усилить. Никакое количество вычислительной мощности (по крайней мере до AGI) не заставит её. Я думаю, это очевидно, даже без знания о том, что происходит внутри GPT. Не говорю, что нет AI-систем, которые убьют. Но какие именно системы? (GPT скомбинированная с сенсорными возможностями на уровне AI-автопилота Теслы? Всё ещё выглядит слишком ограниченно.)

Элиезер Юдковский

Alpha Zero масштабируется с большими вычислительными мощностями, я думаю, AlphaFold 2 тоже, Mu Zero тоже. Как раз потому, что GPT-3 не масштабируется, я бы ожидал, AGI, больше похожий на Mu Zero, с его масштабируемостью.

* * *

Стив Омохундро

Элиезер, спасибо, что это делаете! Я только что прочитал обсуждение и нахожу его ценным. Я согласен с большей частью ваших конкретных заявлений, но намного оптимистичнее думаю о позитивном исходе. Я бы хотел попробовать разобраться, почему это так. Я считаю математические доказательства самым мощным инструментом ограничения интеллектуальных систем и вижу довольно явный безопасный путь использования этого инструмента с технической стороны проблемы (социальная сторона, вероятно, потребует дополнительных стратегий). Вот некоторые мои интуитивные обоснования этого подхода, мне интересно, есть ли тут что-то, с чем вы будете не согласны. Я разрешаю упоминать моё имя (Стив Омохундро) в любых обсуждениях этого.

1) Никто могущественный не хочет создать небезопасный AI, но они хотят заполучить преимущества способностей AI.

2) Никакие хорошо определённые ценные способности AI не требуют небезопасного поведения.

3) Современные простые логические системы позволяют формализовать любую относящуюся к делу систему (напр. MetaMath https://us.metamath.org/index.html сейчас формализует примерно на уровне студента-математика и включает всё необходимое для моделирования законов физики, компьютерного железа, языков программирования, формальных систем, алгоритмов машинного обучения и.т.д.)

4) Математические доказательства очень незатратны для механистической проверки (напр. у MetaMath есть пятистотстрочный верификатор на Python, который может быстро проверить все его 38 тысяч теорем)

5) GPT-F – это довольно молодой основанный на трансформере доказыватель теорем, и он уже может доказать 56% теорем MetaMath. Аналогичные системы вскоре смогут быстро доказывать любые простые истинные теоремы (которые человек-математик может доказать за день).

6) Мы можем определить доказываемые границы поведения AI-систем, про которые мы будем уверены, что они предотвращают опасное поведение, и всё ещё будем иметь доступ к широкому ассортименту полезных способностей.

7) Мы можем создать автоматические проверщики этих доказываемо-безопасных границ.

8) Мы можем создать (и со временем обязать его использовать) мощное ориентированное на AI железо, которое будет проверять ограничения безопасности перед выполнением AI-софта.

9) К примеру, умная AI-компиляция программ, может быть формализована и не потребует небезопасных операций.

10) К примеру, AI-дизайн белков с требуемым функционалом может быть формализован и не потребует небезопасных операций.

11) К примеру, AI-дизайн наносистем с тебуемым функционалом может быть формализован и не потребует небезопасных операций.

12) И так можно повторять эту литанию для ранних ценных применений продвинутого AI.

13) Я не вижу фундаментальных препятствий к чему-либо из этого. Получить социальное одобрение и развернуть всё это – другая проблема!

С наилучшими пожеланиями, Стив.

Элиезер Юдковский

Стив, вы представляете AGI, разработанный через 70 лет с применением совершенно других парадигм, нежели современное машинное обучение? Я не вижу, как можно взять что-то, хоть отдалённо напоминающее, скажем, Mu Zero, и доказать про это теорему о чём-то вроде исправимости или того, что система не пытается навредить людям. Что-то, ключевой компонент чего – огромные загадочные вектора чисел с плавающей точкой, выглядит очень сложным для доказывания теорем про обработку этих векторов, соответствующих во внешнем мире тому, что AI не убьёт всех.

Даже если бы мы как-то смогли получить гораздо более разборчивые структуры, чем гигантские вектора чисел, используя какие-то очень отличающиеся от нынешних парадигмы, всё равно ключевые элементы системы будут полагаться на не-вполне-формализованные рассуждения; даже если AI будет иметь что-то, на что можно указать как на функцию полезности, и даже если эта представление этой функции полезности состоит из значащих для программиста элементов вместо огромных векторов чисел, мы всё равно будем полагаться на куда более шаткие рассуждения, в которых мы будем предполагать, что эта функция полезности что-то значит в интуитивном желаемом людьми смысле. А если эта функция полезности выучена из датасета и расшифрована только впоследствии операторами, это звучит ещё страшнее. А если вместо этого вы получили из датасета огромный загадочный вектор чисел, упс.

Вы, кажется, представляете, что мы докажем теорему и получим теоремный уровень уверенности в безопасности системы. Что за теорему? Что в ней будет утверждаться?

Я согласен с правдоподобностью того, что хорошие когнитивные операции, которые мы хотим, в принципе возможны без выполнения плохих когнитивных операций; проблема, с моей точки зрения, в том, что обобщённые структуры, совершающие много хороших когнитивных операций, автоматически производят плохие когнитивные операции, особенно если мы запихнём в них больше вычислительной мощности; «ты не принесёшь кофе, если ты мёртв».

Так что потребуется более сложная система и какое-то прозрение, которым я сейчас не обладаю, для того, чтобы ограничиться «только лишь» хорошими познаниями вместо того, чтобы получить все, которые можно разархивировать из датасета – даже если оригинальный датасет содержал только ограниченные познания, выглядящие хорошими для нас, даже если там действительно были только правильно помеченные данные о безопасных действиях в немного опасной области. Люди делают много всего, не относящегося к увеличению генетической приспособленности, оптимизация исключительно результата, оцениваемого простой функцией ошибки, не приведёт к получению оптимизатора, заботящегося только об этой функции, и.т.д.

Аноним

Заключения Стива, мне кажется, схожи с «хорошо-определёнными задачами» из более раннего обсуждения. По сути, используйте AI только в областях, где небезопасные действия конструктивно невозможны. Стив, это слишком сильная переформулировка ваших рассуждений?

Стив Омохундро

Спасибо за точку зрения! Однако, так это звучит больше социальным подходом, чем техническим. Я полностью согласен, что сегодняшняя культура AI очень «грязная» и что текущие популярные представления, алгоритмы обучения, источники данных и.т.д. не ориентированы на точные формальные спецификации доказываемых ограничений. Я был бы рад любым мыслям о том, как сдвинуть эту культуру в сторону точных и безопасных подходов! Технически, нет проблем, например, в получении доказываемых границ вычислений с плавающей точкой. Такие работы часто обозначают «Interval Computation». Это не очень затратно, обычно всего в 2 раза хуже «грязных» вычислений. Почему-то такой подход более популярен в Европе, чем в США. Вот пара списков: http://www.cs.utep.edu/interval-comp/ https://www.mat.univie.ac.at/~neum/interval.html

Я вижу сегодняшний доминирующий подход отображения чего угодно в большие сети элементов ReLU, запускающиеся на железе, спроектированном для перемножения плотных матриц, и тренируемые градиентным спуском на больших зашумлённых датасетах, как весьма временное положение вещей. Я полностью согласен, что было бы неконтролируемо и опасно масштабировать то, что есть сейчас! Но это совершенно ужасно во всех отношениях кроме того, что это позволяет практикам машинного обучения с лёгкостью собрать что-нибудь, что иногда даже действительно будет типа работать. Со всеми разработками AutoML, NAS и продвижением формальных методов, я надеюсь, мы довольно быстро покинем эту «грязную» парадигму. Сегодняшние нейронные сети достигают вывода ужасно неэффективно: большая часть весов не относятся к большей части ввода, но современные методы всегда совершают для них вычислительную работу. Я разработал много алгоритмов и структур данных, чтобы избежать этого годы назад (напр. «bumptrees» https://steveomohundro.com/scientific-contributions/ )

Они ужасны и для обучения, потому что большая часть весов не должны обновляться в большей части тренировочных примеров, но делают это. Google и другие используют Mixture-of-Experts чтобы избежать части этих затрат: https://arxiv.org/abs/1701.06538

Умножение матриц - довольно неэффективная базовая операция, исследуются альтернативы: https://arxiv.org/abs/2106.10860

Сегодняшнее обучение с подкреплением медленное и неконтролируемое, и.т.д. Все эти смехотворные потери вычислительных ресурсов и результативности обучения можно истребить точными формальными подходами. Я надеюсь, что такое улучшение может сдвинуть нас к более контролируемым представлениям.

Я вижу доказательство теорем очень ценным для безопасности, потому что мы можем легко и точно определить многие важные задачи и получить гарантии о поведении системы. Я надеюсь, что мы также сможем применить его к полноценному AGI и расшифровать человеческие ценности и.т.д., но я не думаю, что стоит ставить на это на нашем этапе. Следовательно, я предлагаю «Стратегию Строительных Лесов для Безопасного AI», при которой мы никогда не разворачиваем систему без доказанных ограничений на её поведение, дающих нам уверенность безопасности. Быстрая автоматизированная проверка теорем позволяет нам создать вычислительную и инфраструктуру, выполняющую только софт, имеющий такое доказательство.

И, да, я полностью согласен с вами по поводу необходимости избегать «базовых побуждений про AI»! Я думаю, мы должны начать с фазы, в которой AI-системам не дозволяется быть запущенными без ограничений неконтролируемыми оптимизаторами! Легко понять, как заставить ограниченные программы (напр. доказыватели теорем, компиляторы программ или проектировщики белков) оставаться на определённом железе и коммуницировать вовне только в точности указанными способами. Легко и сдержать поведение ограниченных роботов (напр. для умных машин). Рискованная часть – неограниченные агентные системы. Я думаю, мы хотим оставаться подальше от этого, пока не будем очень хорошо знать, что мы делаем! Мой оптимизм питается из убеждения, что много социально-важных вещей, для которых нам нужен AI не требует ничего вблизи этой неограниченной части. Но он умеряется необходимостью получить безопасную инфраструктуру до создания опасных AI.

Аноним

Насколько мне известно, вся работа над «верификацией вычислений с плавающей точкой» сейчас слишком низкоуровневая – спецификации, которые можно доказать, ничего не говорят о значении вычислений для чего-то кроме очень локального выполнения какого-нибудь алгоритма. Выполнение алгоритмов в реальном мире может иметь очень далеко идущие эффекты, которые не моделируются их спецификациями.

Элиезер Юдковский

Ага, что он сказал. Как вы перейдёте от доказательств границ ошибки перемножения матриц загадочных чисел к пониманию, что разум пытается или не пытается сделать во внешнем мире?

Стив Омохундро

В конечном счёте, нам надо сдержать поведение. Вы можете хотеть уверенности, что ваш робот-дворецкий не покинет дом. Чтобы достичь этого формальными методами вам нужны семантические представления местоположения робота, пространственной протяжённости вашего дома, и.т.д. Довольно просто формально представить физическую информацию такого рода (это просто более аккуратная версия того, что инженеры и так делают). Вам также понадобится формальная модель железа и софта и программы, на которой работает система.

Для конечных систем, любое истинное свойство имеет доказательство, которое может быть механистически проверено, но размер этого доказательства может быть велик и его может быть сложно найти. Так что нам надо использовать кодирование и свойства, хорошо сцепляющиеся с смыслом той безопасности, которая нас заботит.

Формальные доказательства свойств программ достигли того, что кучу криптографических, компилирующих и других систем может быть определена и формализована. Почему это заняло так много времени, я без понятия. Создатели любой системы представляют аргументы, почему её поведение соответствует тому, что они про неё думают, и почему она не сделает чего-то плохого или опасного. Формализация этих аргументов должна быть одним простым прямым шагом.

Опыт в формализации математических неформальных аргументов предполагает, что формальные доказательства, может, в пять раз длинее неформальных аргументов. Системы с обучением и статистическими выводами добавляют вызова, но ничего, что в принципе выглядит таким уж сложным. Однако, я всё ещё не уверен, как ограничить использование языка. Я вижу, что у Facebook много разных проблем с этим (напр. у них как раз был случай, когда система пометила видео расистским термином). Взаимодействие между семантикой естественного языка и формальной семантикой и что нам с этим делать для безопасности это то, о чём я много думаю в последнее время.

Стив Омохундро

Вот хороший трёхчасовой туториал о «вероятностных цепях», которые представляют распределения вероятностей, обучение, байесианские выводы и.т.д. гораздо лучше, чем большая часть стандартных представлений, используемых в статистике, машинном обучении, нейросетях и.т.д.: https://www.youtube.com/watch?v=2RAG5-L9R70 Они выглядят подходящими для интерпретируемости, формальных спецификаций и доказательств свойств.

Элиезер Юдковский

Вы убеждаете уже согласных, но даже если бы мы работали с лучше определёнными эпистемическими представлениями, получившимися из неожиданной инновации в машинном обучении, автоматический вывод этих представлений сделал бы их неоткомментированными, плохо совпадающими с человеческими представлениями о реальности и неидеально соответствующими самой реальности, поэтому любой теореме про «мы оптимизируем против этого огромного неоткомментированного машинно-обучающегося представления, чтобы управлять результатами внутри этой огромной машинно-обучающейся спецификации целей» будет очень сложно гарантировать безопасность во внешнем мире; особенно учитывая, что исправимость противоестественна и идёт против конвергенции и последовательности; особенно если мы тренируем на областях, где несогласованные рассуждения безопасны, а обобщаем на режимы, в которых несогласованные рассуждения небезопасны. Даже в этом случае, мы и близко не вышли из потёмок, потому что то, что мы можем доказать, сильно расходится по типу с тем, в истинности чего мы хотим убедиться. Нельзя просто махнуть рукой на задачу преодоления этого разрыва, даже если она решаема.

И весь этот сценарий требует большого глобального сдвига парадигм машинного обучения.

Прямо сейчас эпистемические представления – это гигантские загадочные вектора чисел с плавающей точкой, и более-менее так же выглядят и все прочие подсистемы и представления.

Можно доказывать что угодно про Tensorflow; это не будет ничего значить о том, убьёт ли вас AI. Свойства, которые можно доказать просто не относятся к безопасности, неважно, как много раз вы докажете верхнюю границу ошибки произведения чисел. Изначально вовсе не ошибка вычисления собиралась вас убить.

Источник: m.vk.com

Обсуждение AGI с Элиезером Юдковским

Комментарии: