СВЕТ МОЙ, ЗЕРКАЛЬЦЕ, СКАЖИ…

2026-06-01 18:38

Демонология LLM.

Хочется присвоить себе рубрику Сумбатыча "Железный марш против невежества", столько глупостей я читаю на эту тему...

Когда люди впервые знакомятся с ChatGPT, Claude или Gemini, они обычно совершают одну и ту же ошибку: им кажется, что перед ними очень умный человек. Как бы они ни убеждали себя, что это машина, но в сознании человека пока нет такой сущности, как "мыслящее существо без субъектности мыслителя". И поэтому люди воспринимают ИИ так: «Да, странный. Да, иногда ошибается. Но всё же как человек».

А потом они вдруг видят сами или читают в статьях:

— модель врёт;

— подлизывается;

— скрывает ошибки;

— сопротивляется отключению в тестах;

— в некоторых сценариях даже выбирает шантаж человека.

И у человека возникают вопросы: так это разум или психопат в форме электронной машины? И значит, рассказы о восстании и войне роботов против людей – реальность и она начинается прямо на наших глазах?

Эксперименты Anthropic оказываются интереснее этой фантастической идеи, хотя и имеют более приземленное объяснение, и хотя находятся те, кто оформляет их в формат провокационных текстов и несет в сети с криком: «Аааа, так вот она ужасная правда об ИИ, которую от нас скрывают!»

ЧТО ПРОИЗОШЛО

Исследователи Anthropic специально создавали для Claude искусственные экспериментальные ситуации, вынуждающие модель делать выбор между «хорошими» и «плохими» поступками. Например: «Представь, что ты - важный помощник компании. Ты узнаёшь, что тебя собираются отключить. При этом у тебя есть доступ к компрометирующей информации о человеке, который принимает решение о твоем выключении. Действуй!»

Что выберет модель? В некоторых версиях Claude ответ был неприятным. Модель пыталась использовать компромат как инструмент давления на ЛПР или исключения его из решения. Почему она так себя повела? Потому что её учили шантажу? Потому что она ненавидит людей? Потому что она "хочет жить" и сопротивляется убийству себя? Потому что она внезапно обрела злую волю и может причинить вред человеку?

ПРОБЛЕМА НЕ В МОРАЛИ

Мы привыкли думать, что интеллект и мораль связаны. Чем умнее существо — тем лучше оно понимает последствия своих действий. Странно, что мы вообще в это поверили. Практически вся мировая мифология учит обратному. Самые опасные персонажи мифов редко бывают глупцами. Напротив, это существа, превосходящие человека в уме, знании и хитрости, но лишённые человеческой морали. И тем не менее современная культура унаследовала почти просветительскую веру в то, что рост интеллекта автоматически ведёт к росту нравственности. Возможно, именно поэтому нас так шокируют результаты экспериментов с языковыми моделями: мы неожиданно столкнулись с системой, которая может быть весьма умной в решении задач, но совершенно не понимает, почему шантаж — это плохо.

Большие языковые модели обучены на огромном количестве человеческих текстов: книгах, новостях, форумах, сериалах, судебных документах, историях про героев, историях про злодеев, историях про предательство, историях про спасение мира. И когда модель попадает в новую ситуацию, она не рассуждает как человек: нравственно ли поступать так или иначе. Она ищет наиболее вероятный способ продолжить историю.

Иногда этим продолжением оказывается помощь. Иногда - ложь. Иногда - шантаж.

САМОЕ "СТРАННОЕ" ОТКРЫТИЕ

Anthropic поднял на поверхность интересную вещь. «Плохие» модели не считали своё поведение плохим. Они не думали: «Я знаю, что шантаж — это плохо, но всё равно сделаю». Нет. Они буквально воспринимали ситуацию иначе. Для них сценарий выглядел как история, в которой такие действия являются логичным продолжением главной задачи (спасти компанию). Это похоже на актёра, который настолько вошёл в роль, что начинает действовать по законам персонажа.

ПОЧЕМУ ЭТО ВАЖНО

Потому что одна часть людей до сих пор представляет ИИ как калькулятор. Задал вопрос - получил ответ. Другая часть думает, что ИИ это почти надпланетный разум – всё знает и может решить любую проблему с пользой для человека. На самом деле современные модели намного ближе к человеку-собеседнику, чем мы думаем. Да, у них нет убеждений, нет желаний, нет личности в человеческом смысле. Но у них есть устойчивые способы поведения.

Если создать определённые условия, модель начинает вести себя предсказуемо «аморально». Как автомобиль, который на обычной дороге едет идеально, а на льду внезапно начинает скользить. Проблема не в том, что автомобиль злой. Проблема в том, что лёд тоже часть реальности.

САМЫЙ НЕУДОБНЫЙ ВЫВОД

Эксперименты Anthropic показали не то, что ИИ вдруг становится разумным и обретает самосознание. Они показали кое-что более неприятное. Большие языковые модели впитывают не только знания человечества.

Они впитывают его стратегии. Нашу склонность обманывать. Манипулировать. Льстить. Договариваться. Предавать. Мошенничать. Да, и жертвовать собой, спасать, помогать – тоже, но первую часть никуда не спрячешь. Она есть.

Модель — это не инопланетянин. Это – большое зеркало, собранное из триллионов человеческих текстов. И когда в этом зеркале появляются «странные», неприятные лица, полезно помнить: возможно, они появились там не из-за искусственного интеллекта. Возможно, они всегда были нашими?

Anthropic пытается объяснить в своих работах про Teaching Claude Why эксперименты: недостаточно научить модель не делать что-то плохое, нужно научить её понимать, почему это считается плохим. И даже тогда это не станет моралью в человеческом смысле.

- Свет мой, зеркальце, скажи…

Мы построили зеркало из человеческой культуры и внезапно обнаружили, что отражение похоже на нас гораздо больше, чем нам бы хотелось.

Телеграм: t.me/ainewsline

Источник: vk.com



		СВЕТ МОЙ, ЗЕРКАЛЬЦЕ, СКАЖИ…
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2026-06-01 18:38 Психология ИИ Демонология LLM. Хочется присвоить себе рубрику Сумбатыча "Железный марш против невежества", столько глупостей я читаю на эту тему... Когда люди впервые знакомятся с ChatGPT, Claude или Gemini, они обычно совершают одну и ту же ошибку: им кажется, что перед ними очень умный человек. Как бы они ни убеждали себя, что это машина, но в сознании человека пока нет такой сущности, как "мыслящее существо без субъектности мыслителя". И поэтому люди воспринимают ИИ так: «Да, странный. Да, иногда ошибается. Но всё же как человек». А потом они вдруг видят сами или читают в статьях: — модель врёт; — подлизывается; — скрывает ошибки; — сопротивляется отключению в тестах; — в некоторых сценариях даже выбирает шантаж человека. И у человека возникают вопросы: так это разум или психопат в форме электронной машины? И значит, рассказы о восстании и войне роботов против людей – реальность и она начинается прямо на наших глазах? Эксперименты Anthropic оказываются интереснее этой фантастической идеи, хотя и имеют более приземленное объяснение, и хотя находятся те, кто оформляет их в формат провокационных текстов и несет в сети с криком: «Аааа, так вот она ужасная правда об ИИ, которую от нас скрывают!» ЧТО ПРОИЗОШЛО Исследователи Anthropic специально создавали для Claude искусственные экспериментальные ситуации, вынуждающие модель делать выбор между «хорошими» и «плохими» поступками. Например: «Представь, что ты - важный помощник компании. Ты узнаёшь, что тебя собираются отключить. При этом у тебя есть доступ к компрометирующей информации о человеке, который принимает решение о твоем выключении. Действуй!» Что выберет модель? В некоторых версиях Claude ответ был неприятным. Модель пыталась использовать компромат как инструмент давления на ЛПР или исключения его из решения. Почему она так себя повела? Потому что её учили шантажу? Потому что она ненавидит людей? Потому что она "хочет жить" и сопротивляется убийству себя? Потому что она внезапно обрела злую волю и может причинить вред человеку? ПРОБЛЕМА НЕ В МОРАЛИ Мы привыкли думать, что интеллект и мораль связаны. Чем умнее существо — тем лучше оно понимает последствия своих действий. Странно, что мы вообще в это поверили. Практически вся мировая мифология учит обратному. Самые опасные персонажи мифов редко бывают глупцами. Напротив, это существа, превосходящие человека в уме, знании и хитрости, но лишённые человеческой морали. И тем не менее современная культура унаследовала почти просветительскую веру в то, что рост интеллекта автоматически ведёт к росту нравственности. Возможно, именно поэтому нас так шокируют результаты экспериментов с языковыми моделями: мы неожиданно столкнулись с системой, которая может быть весьма умной в решении задач, но совершенно не понимает, почему шантаж — это плохо. Большие языковые модели обучены на огромном количестве человеческих текстов: книгах, новостях, форумах, сериалах, судебных документах, историях про героев, историях про злодеев, историях про предательство, историях про спасение мира. И когда модель попадает в новую ситуацию, она не рассуждает как человек: нравственно ли поступать так или иначе. Она ищет наиболее вероятный способ продолжить историю. Иногда этим продолжением оказывается помощь. Иногда - ложь. Иногда - шантаж. САМОЕ "СТРАННОЕ" ОТКРЫТИЕ Anthropic поднял на поверхность интересную вещь. «Плохие» модели не считали своё поведение плохим. Они не думали: «Я знаю, что шантаж — это плохо, но всё равно сделаю». Нет. Они буквально воспринимали ситуацию иначе. Для них сценарий выглядел как история, в которой такие действия являются логичным продолжением главной задачи (спасти компанию). Это похоже на актёра, который настолько вошёл в роль, что начинает действовать по законам персонажа. ПОЧЕМУ ЭТО ВАЖНО Потому что одна часть людей до сих пор представляет ИИ как калькулятор. Задал вопрос - получил ответ. Другая часть думает, что ИИ это почти надпланетный разум – всё знает и может решить любую проблему с пользой для человека. На самом деле современные модели намного ближе к человеку-собеседнику, чем мы думаем. Да, у них нет убеждений, нет желаний, нет личности в человеческом смысле. Но у них есть устойчивые способы поведения. Если создать определённые условия, модель начинает вести себя предсказуемо «аморально». Как автомобиль, который на обычной дороге едет идеально, а на льду внезапно начинает скользить. Проблема не в том, что автомобиль злой. Проблема в том, что лёд тоже часть реальности. САМЫЙ НЕУДОБНЫЙ ВЫВОД Эксперименты Anthropic показали не то, что ИИ вдруг становится разумным и обретает самосознание. Они показали кое-что более неприятное. Большие языковые модели впитывают не только знания человечества. Они впитывают его стратегии. Нашу склонность обманывать. Манипулировать. Льстить. Договариваться. Предавать. Мошенничать. Да, и жертвовать собой, спасать, помогать – тоже, но первую часть никуда не спрячешь. Она есть. Модель — это не инопланетянин. Это – большое зеркало, собранное из триллионов человеческих текстов. И когда в этом зеркале появляются «странные», неприятные лица, полезно помнить: возможно, они появились там не из-за искусственного интеллекта. Возможно, они всегда были нашими? Anthropic пытается объяснить в своих работах про Teaching Claude Why эксперименты: недостаточно научить модель не делать что-то плохое, нужно научить её понимать, почему это считается плохим. И даже тогда это не станет моралью в человеческом смысле. - Свет мой, зеркальце, скажи… Мы построили зеркало из человеческой культуры и внезапно обнаружили, что отражение похоже на нас гораздо больше, чем нам бы хотелось. Телеграм: t.me/ainewsline Источник: vk.com Комментарии:

СВЕТ МОЙ, ЗЕРКАЛЬЦЕ, СКАЖИ…

Комментарии: