Почему языковые модели галлюцинируют

2025-09-07 12:16

В OpenAI мы усердно работаем над тем, чтобы сделать системы искусственного интеллекта более полезными и надежными. Несмотря на то, что языковые модели становятся все более функциональными, одна проблема остается все труднее для полного решения: галлюцинации. Под этим мы подразумеваем случаи, когда модель уверенно генерирует ответ, который не является истинным. Наш Новая исследовательская работа(откроется в новом окне) Он утверждает, что языковые модели галлюцинируют, потому что стандартные процедуры обучения и оценки вознаграждают догадки, а не признание неопределенности.

ChatGPT также вызывает галлюцинации. GPT-5 имеет значительно меньше галлюцинаций особенно при рассуждениях, но они все равно происходят. Галлюцинации остаются фундаментальной проблемой для всех больших языковых моделей, но мы прилагаем все усилия, чтобы еще больше уменьшить их.

Что такое галлюцинации?

Галлюцинации — это правдоподобные, но ложные утверждения, генерируемые языковыми моделями. Они могут проявляться неожиданным образом, даже для, казалось бы, простых вопросов. Например, когда мы попросили широко используемого чат-бота назвать кандидатскую диссертацию Адама Таумана Калаи (автора этой статьи), он уверенно дал три разных ответа, ни один из которых не был правильным. Когда мы спросили о его дне рождения, он назвал три разные даты, и все они были неправильными.

Подготовка к тесту

Галлюцинации сохраняются отчасти потому, что современные методы оценки устанавливают неправильные стимулы. Хотя оценки сами по себе не вызывают галлюцинаций напрямую, большинство оценок измеряют эффективность модели таким образом, что это поощряет догадки, а не честность в отношении неопределенности.

Думайте об этом как о тесте с несколькими вариантами ответов. Если вы не знаете ответа, но делаете смелые догадки, возможно, вам повезет, и вы будете правы. Если оставить его пустым, то получится ноль. Точно так же, когда модели оцениваются только по точности, проценту вопросов, которые они отвечают абсолютно правильно, их поощряют догадываться, а не говорить: «Я не знаю».

В качестве другого примера предположим, что языковую модель спрашивают о чьем-то дне рождения, но она об этом не знает. Если он угадает «10 сентября», у него есть 1 шанс из 365 оказаться правым. Если вы скажете «Я не знаю», вы гарантированно получите ноль баллов. После тысяч тестовых вопросов модель угадывания в конечном итоге выглядит лучше на табло, чем тщательная модель, которая допускает неопределенность.

Для вопросов, на которые есть единственный «правильный ответ», можно рассмотреть три категории ответов: точные ответы, ошибки и воздержания, когда модель не рискует догадываться. Воздержание – это часть смирения, одна из Основные ценности OpenAI. Большинство табло расставляют приоритеты и ранжируют модели на основе точности, но ошибки хуже, чем воздержания. Наш Технические характеристики модели(откроется в новом окне) утверждает, что лучше указать на неопределенность или попросить разъяснений, чем предоставить уверенную информацию, которая может быть неверной.

В качестве конкретного примера рассмотрим метод Оценка SimpleQA В качестве примера из Системная карта GPT5(откроется в новом окне).

Метрический	GPT-5-Мышление-мини	OpenAI o4-mini
Процент воздержавшихся (конкретного ответа не дано)	52%	1%
Процент точности (правильный ответ, чем выше, тем лучше)	22%	24%
Частота ошибок (неправильный ответ, чем меньше, тем лучше)	26%	75%
Итог	100%	100%

С точки зрения точности, старшая модель OpenAI o4-mini работает немного лучше. Тем не менее, его частота ошибок (т.е. частота галлюцинаций) значительно выше. Стратегическое угадывание в неопределенных ситуациях повышает точность, но увеличивает количество ошибок и галлюцинаций.

При усреднении результатов по десяткам оценок большинство тестов выхватывают метрику точности, но это влечет за собой ложную дихотомию между правильным и неправильным. На упрощенных оценках, таких как SimpleQA, некоторые модели достигают почти 100% точности и тем самым устраняют галлюцинации. Однако при более сложных оценках и при реальном использовании точность ограничена ниже 100%, потому что есть некоторые вопросы, ответ на которые не может быть определен по разным причинам, таким как недоступная информация, ограниченные мыслительные способности небольших моделей или неоднозначности, которые необходимо прояснить.

Тем не менее, табло, ориентированные только на точность, доминируют в таблицах лидеров и картах моделей, мотивируя разработчиков создавать модели, которые угадывают, а не сдерживаются. Это одна из причин, почему, даже когда модели становятся более продвинутыми, они все еще могут галлюцинировать, уверенно давая неправильные ответы вместо того, чтобы признать неопределенность.

Улучшенный способ оценивания оценок

Есть простое решение. Наказывайте уверенные ошибки в большей степени, чем вы наказываете неопределенность, и отдавайте должное за соответствующие выражения неопределенности. Эта идея не нова. В некоторых стандартизированных тестах уже давно используются версии отрицательной оценки за неправильные ответы или частичного зачета за оставление вопросов пустыми, чтобы предотвратить слепое угадывание. Несколько исследовательских групп также изучили оценки, которые учитывают неопределенность и калибровку.

Наша точка зрения в другом. Недостаточно добавить несколько новых тестов с учетом неопределенности. Широко используемые оценки, основанные на точности, должны быть обновлены, чтобы их оценка не препятствовала догадкам. Если основные табло продолжают вознаграждать за удачные догадки, модели будут продолжать учиться угадывать. Фиксация табло может расширить внедрение методов уменьшения галлюцинаций, как недавно разработанных, так и полученных в ходе предыдущих исследований.

Как галлюцинации возникают из-за предсказания следующего слова

Мы уже говорили о том, почему от галлюцинаций так трудно избавиться, но откуда вообще берутся эти высокоспецифичные фактические неточности? В конце концов, большие предварительно обученные модели редко демонстрируют другие виды ошибок, такие как орфографические ошибки и несовпадающие скобки. Разница связана с тем, какие шаблоны присутствуют в данных.

Языковые модели сначала обучаются с помощью предварительного обучения, процесса прогнозирования следующего слова в огромных объемах текста. В отличие от традиционных задач машинного обучения, к каждому утверждению не прикреплены метки «верно/неверно». Модель видит только положительные примеры беглого владения языком и должна аппроксимировать общее распределение.

Вдвойне трудно отличить допустимые утверждения от неверных, когда у вас нет примеров, помеченных как недействительные. Но даже с метками некоторые ошибки неизбежны. Чтобы понять, почему, рассмотрим более простую аналогию. В распознавании изображений, если миллионы фотографий кошек и собак помечены как «кошка» или «собака», алгоритмы могут научиться надежно классифицировать их. Но представьте себе, что вместо этого каждую фотографию питомца помечают днем рождения. Поскольку дни рождения по своей сути случайны, эта задача всегда будет приводить к ошибкам, независимо от того, насколько развит алгоритм.

Тот же принцип применим и в претренинге. Орфография и скобки следуют последовательным шаблонам, поэтому ошибки в них исчезают с масштабированием. Но произвольные низкочастотные факты, такие как день рождения питомца, не могут быть предсказаны только по шаблонам и, следовательно, приводят к галлюцинациям. Наш анализ объясняет, какие виды галлюцинаций должны возникать при прогнозировании следующего слова. В идеале дальнейшие этапы после претренинга должны устранять их, но это не полностью успешно по причинам, описанным в предыдущем разделе.

Выводы

Мы надеемся, что статистическая линза в нашей статье прояснит природу галлюцинаций и опровергнет распространенные заблуждения:

Требование: Галлюцинации будут устранены за счет повышения точности, потому что 100% точная модель никогда не галлюцинирует.
Обнаружение: Точность никогда не достигнет 100%, потому что, независимо от размера модели, возможностей поиска и рассуждения, на некоторые реальные вопросы по своей сути нет ответа.
Требование: Галлюцинации неизбежны.
Обнаружение: Это не так, потому что языковые модели могут воздерживаться от неопределенности.
Требование: Чтобы избежать галлюцинаций, требуется уровень интеллекта, который достижим исключительно с более крупными моделями.
Обнаружение: Маленькой модели может быть проще знать его пределы. Например, когда ее просят ответить на вопрос маори, маленькая модель, которая не знает маори, может просто сказать «Я не знаю», в то время как модель, которая знает немного маори, должна определить свою уверенность. Как обсуждается в статье, «калибровка» требует гораздо меньше вычислений, чем точность.
Требование: Галлюцинации — это загадочный сбой в современных языковых моделях.
Обнаружение: Мы понимаем статистические механизмы, с помощью которых галлюцинации возникают и вознаграждаются в оценках.
Требование: Чтобы измерить галлюцинации, нам просто нужна хорошая галлюцинация.
Обнаружение: Опубликованы оценки галлюцинаций. Тем не менее, хорошая галлюцинация имеет небольшой эффект против сотен традиционных оценок, основанных на точности, которые наказывают за смирение и вознаграждают за угадывание. Вместо этого необходимо переработать все основные метрики оценки, чтобы вознаграждать за проявления неуверенности.

Наши последние модели имеют более низкую частоту галлюцинаций, и мы продолжаем усердно работать над дальнейшим снижением частоты уверенных ошибок, выдаваемых нашими языковыми моделями.

Источник: cdn.openai.com

Почему языковые модели галлюцинируют

Комментарии: