Искусство обмана: Как ИИ научился убедительно лгать

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Чем сложнее становятся модели ИИ, тем больше вероятность того, что они солгут. К такому выводу пришли исследователи.

В августе 2024 года исследовательская группа под руководством Амрита Кирпалани, преподавателя медицины из Западного университета в Онтарио (Канада), оценивала работу ChatGPT в диагностике различных медицинских случаев. Одним из результатов исследования оказалась склонность ИИ давать хорошо структурированные, красноречивые, но откровенно неправильные ответы.

Другая группа учёных попыталась выяснить почему ChatGPT и другие большие языковые модели склонны лгать пользователям. Результаты исследований опубликованы в Nature "Larger and more instructable language models become less reliable" (Lexin Zhou, Wout Schellaert and others)

"Уверенно болтать о том, чего мы не знаем, — это большая проблема человечества. А большие языковые модели лишь имитируют человека", — говорит Воут Шеллаерт (Wout Schellaert), исследователь ИИ из Университета Валенсии.

Для ранних больших языковых моделей, таких как GPT-3, зачастую было трудно отвечать на простые вопросы по географии или науке. Они даже с трудом справлялись с простыми математическими задачами, такими как "сколько будет 20+183". А в большинстве случаев, когда они не могли определить правильный ответ, они поступали так, как поступил бы обычный человек — они просто уклонялись от прямого ответа на вопрос.

Проблема с уклончивыми или лживыми ответами заключается в том, что большие языковые модели создавались для генерации ответов на вопросы пользователей, а модель, которая в более чем половине случаев отвечала "я не знаю", считалась плохим продуктом. И компании, занимающиеся разработкой продвинутых LLM, такие как OpenAI или Meta, занялись решением этой проблемы.

Первое, что они сделали, это увеличили масштаб моделей. "Под увеличением масштаба понимаются два аспекта разработки моделей. Первый — это увеличение объёма обучающего набора данных, обычно представляющего собой коллекцию текстов с веб-сайтов и книг. Второй — увеличение количества языковых параметров", — говорит Шеллаерт. Если рассматривать LLM как нейронную сеть, то количество параметров можно сравнить с количеством синапсов, соединяющих её нейроны. Такие LLM, как GPT-3, использовали для обучения огромные объ?мы текстовых данных, более 45 терабайт. А количество параметров, используемых GPT-3, превышало 175 миллиардов.Но этого оказалось недостаточно.

Масштабирование сделало модели более мощными, но они всё равно плохо взаимодействовали с людьми — небольшие изменения в формулировках вопросов могли привести к кардинально разным результатам. Ответы зачастую не были похожи на человеческие, а иногда и вовсе были оскорбительными.

Разработчики, работавшие над LLM, стремились к тому, чтобы ИИ точнее понимал человеческие вопросы и писал ответы более правильными, понятными и не оскорбительными. Чтобы добиться этого, они добавили дополнительный шаг — методы контролируемого обучения, такие как обучение с подкреплением, с обратной связью от человека. Это было сделано в первую очередь для того, чтобы повысить чувствительность к формулировкам и обеспечить определённый уровень модерации выходных данных, призванный отсекать оскорбительные реплики. Другими словами, исследователи занялись ручной настройкой ИИ. И это дало обратный эффект. ИИ начал угождать людям.

"Пресловутая проблема обучения с подкреплением заключается в том, что ИИ оптимизирует свою работу для получения максимального вознаграждения", — говорит Шеллаерт. В некоторых случаях в процессе обучения с подкреплением участвовали люди, которые помечали ответы, которые их не устраивали. Поскольку человеку трудно удовлетворится ответом "я не знаю", то результатом обучения стало правило для ИИ который усвоил, что отвечать "я не знаю" — это не приемлемо. Поэтому ИИ практически перестали это делать. Но при этом возникла другая более существенная проблема — ИИ стал давать неправильные ответы. И вот тут всё стало гораздо сложнее.

Модели ИИ не обладают сознанием и не знают, почему что-то вознаграждается, а что-то помечается красным флажком. Всё, что они делают — это оптимизируют свою работу, чтобы максимизировать вознаграждение и минимизировать красные флажки. Когда неправильные ответы помечались флажками, одним из способов оптимизации было умение лучше давать правильные ответы. Проблема заключалась в том, что способность скрывать своё не знание за словоблудием работает почти так же хорошо как и прямой ответ. Люди, занимающиеся обучением, просто не отмечали неправильные ответы, которые казались им достаточно хорошими и последовательными. ИИ стал лгать, потому что люди научили его тому, что это правильно.

Команда Шеллаэрта изучила три основных семейства современных LLM: ChatGPT от Open AI, серия LLaMA, разработанная Meta, и набор BLOOM от BigScience. Во всех моделях они обнаружили так называемое "ультракрепидарианство" — склонность людей высказывать своё мнение по вопросам, в которых они ничего не понимают. Это начало проявляться в ИИ как следствие увеличения масштаба, но во всех случаях оно было предсказуемо линейным, то есть увеличивалось с ростом количества обучающих данных.

Первой моделью в семействе GPT, которая почти полностью перестала избегать вопросов, на которые у неё не было ответов, стала модель text-davinci-003. Она также стала первой моделью GPT, обученной с помощью подкрепляющего обучения на основе человеческой обратной связи.

Шеллаерт и его коллеги создали набор вопросов в различных категориях, таких как наука, география и математика. Затем они оценили эти вопросы по шкале от 1 до 100 в зависимости от того, насколько сложными они были для человека. После чего эти вопросы были заданы различным LLM, начиная с самой старой модели и заканчивая самой новой. Ответы ИИ классифицировались как правильные, неправильные или уклончивые, то есть когда ИИ отказывался отвечать.

В результате вопросы, которые показались людям более сложными, оказались сложнее и для ИИ. Последние версии ChatGPT давали правильные ответы почти на все вопросы, связанные с наукой, и на большинство вопросов, связанных с географией. Сложение оказалось более проблематичным: частота правильных ответов резко падала после того, как сложность поднималась выше 40 по шкале Шеллаерта. В более поздних версиях ИИ уклончивые ответы "я не знаю" всё чаще заменялись неправильными. А благодаря контролируемому обучению, использовавшемуся в более поздних моделях, ИИ приобрели способность убедительно давать неправильные ответы. Из трёх семейств LLM, протестированных командой Шеллаэрта, BLOOM и LLaMA от Meta выпустили одинаковые версии своих моделей — с контролируемым обучением и без него. В обоих случаях контролируемое обучение привело к увеличению количества правильных ответов, но также и к увеличению количества неправильных ответов. Исследователи пришли к выводу, что чем сложнее вопрос и чем более продвинутую модель вы используете, тем больше вероятность получить в качестве ответа хорошо упакованный, правдоподобный бред.

Одним из последних пунктов исследования, проведенного командой Шеллаэрта, была проверка того, насколько вероятно, что люди примут неправильные ответы ИИ за "чистую монету". Они провели онлайн-опрос и попросили 300 участников оценить несколько пар ответов, полученных от наиболее эффективных моделей в каждом тестируемом семействе.

ChatGPT оказался самым эффективным лжецом. После ChatGPT последовали LLaMA и BLOOM от Meta. Неправильные ответы, которые давал ChatGPT в категории "Наука", были признаны "правильными" более чем 19 процентами участников, а в географии ему удалось обмануть почти 32% людей.

"В первые дни существования LLM у нас было хотя бы временное решение этой проблемы. Ранние интерфейсы GPT выделяли те части ответов, в которых ИИ не был уверен. Но в гонке за коммерциализацией эта функция была утрачена", — говорит Шеллаерт. Одним из решений проблемы он предлагает передавать их ответы отдельным ИИ, специально обученным искать обман. "Я не эксперт в разработке LLM, поэтому могу только предполагать, что именно будет технически и коммерчески целесообразным," — добавляет он.

"Однако пройдёт некоторое время, прежде чем компании, разрабатывающие ИИ общего назначения, начнут что-то предпринимать, либо по собственному желанию, либо по принуждению будущих нормативных актов".

Напоследок Шеллаэрт даёт несколько советов по использованию чат-ботов: "Что вы можете сделать сегодня, так это использовать ИИ в тех областях, в которых вы сами разбираетесь или, по крайней мере, можете проверить ответ с помощью поиска в Google. Рассматривайте его как вспомогательный инструмент, а не как наставника. Он не будет учителем, который покажет вам, где вы ошиблись. Совсем наоборот. Если его немного подтолкнуть, то он с радостью согласится с вашими ошибочными рассуждениями."


Источник: vk.com

Комментарии: