Почему языковые модели галлюцинируют |
|||||||||||||||||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-09-07 12:16 В OpenAI мы усердно работаем над тем, чтобы сделать системы искусственного интеллекта более полезными и надежными. Несмотря на то, что языковые модели становятся все более функциональными, одна проблема остается все труднее для полного решения: галлюцинации. Под этим мы подразумеваем случаи, когда модель уверенно генерирует ответ, который не является истинным. Наш Новая исследовательская работа(откроется в новом окне) Он утверждает, что языковые модели галлюцинируют, потому что стандартные процедуры обучения и оценки вознаграждают догадки, а не признание неопределенности. ChatGPT также вызывает галлюцинации. GPT-5 имеет значительно меньше галлюцинаций особенно при рассуждениях, но они все равно происходят. Галлюцинации остаются фундаментальной проблемой для всех больших языковых моделей, но мы прилагаем все усилия, чтобы еще больше уменьшить их. Что такое галлюцинации? Галлюцинации — это правдоподобные, но ложные утверждения, генерируемые языковыми моделями. Они могут проявляться неожиданным образом, даже для, казалось бы, простых вопросов. Например, когда мы попросили широко используемого чат-бота назвать кандидатскую диссертацию Адама Таумана Калаи (автора этой статьи), он уверенно дал три разных ответа, ни один из которых не был правильным. Когда мы спросили о его дне рождения, он назвал три разные даты, и все они были неправильными. Подготовка к тесту Галлюцинации сохраняются отчасти потому, что современные методы оценки устанавливают неправильные стимулы. Хотя оценки сами по себе не вызывают галлюцинаций напрямую, большинство оценок измеряют эффективность модели таким образом, что это поощряет догадки, а не честность в отношении неопределенности. Думайте об этом как о тесте с несколькими вариантами ответов. Если вы не знаете ответа, но делаете смелые догадки, возможно, вам повезет, и вы будете правы. Если оставить его пустым, то получится ноль. Точно так же, когда модели оцениваются только по точности, проценту вопросов, которые они отвечают абсолютно правильно, их поощряют догадываться, а не говорить: «Я не знаю». В качестве другого примера предположим, что языковую модель спрашивают о чьем-то дне рождения, но она об этом не знает. Если он угадает «10 сентября», у него есть 1 шанс из 365 оказаться правым. Если вы скажете «Я не знаю», вы гарантированно получите ноль баллов. После тысяч тестовых вопросов модель угадывания в конечном итоге выглядит лучше на табло, чем тщательная модель, которая допускает неопределенность. Для вопросов, на которые есть единственный «правильный ответ», можно рассмотреть три категории ответов: точные ответы, ошибки и воздержания, когда модель не рискует догадываться. Воздержание – это часть смирения, одна из Основные ценности OpenAI. Большинство табло расставляют приоритеты и ранжируют модели на основе точности, но ошибки хуже, чем воздержания. Наш Технические характеристики модели(откроется в новом окне) утверждает, что лучше указать на неопределенность или попросить разъяснений, чем предоставить уверенную информацию, которая может быть неверной. В качестве конкретного примера рассмотрим метод Оценка SimpleQA В качестве примера из Системная карта GPT5(откроется в новом окне).
С точки зрения точности, старшая модель OpenAI o4-mini работает немного лучше. Тем не менее, его частота ошибок (т.е. частота галлюцинаций) значительно выше. Стратегическое угадывание в неопределенных ситуациях повышает точность, но увеличивает количество ошибок и галлюцинаций. При усреднении результатов по десяткам оценок большинство тестов выхватывают метрику точности, но это влечет за собой ложную дихотомию между правильным и неправильным. На упрощенных оценках, таких как SimpleQA, некоторые модели достигают почти 100% точности и тем самым устраняют галлюцинации. Однако при более сложных оценках и при реальном использовании точность ограничена ниже 100%, потому что есть некоторые вопросы, ответ на которые не может быть определен по разным причинам, таким как недоступная информация, ограниченные мыслительные способности небольших моделей или неоднозначности, которые необходимо прояснить. Тем не менее, табло, ориентированные только на точность, доминируют в таблицах лидеров и картах моделей, мотивируя разработчиков создавать модели, которые угадывают, а не сдерживаются. Это одна из причин, почему, даже когда модели становятся более продвинутыми, они все еще могут галлюцинировать, уверенно давая неправильные ответы вместо того, чтобы признать неопределенность. Улучшенный способ оценивания оценок Есть простое решение. Наказывайте уверенные ошибки в большей степени, чем вы наказываете неопределенность, и отдавайте должное за соответствующие выражения неопределенности. Эта идея не нова. В некоторых стандартизированных тестах уже давно используются версии отрицательной оценки за неправильные ответы или частичного зачета за оставление вопросов пустыми, чтобы предотвратить слепое угадывание. Несколько исследовательских групп также изучили оценки, которые учитывают неопределенность и калибровку. Наша точка зрения в другом. Недостаточно добавить несколько новых тестов с учетом неопределенности. Широко используемые оценки, основанные на точности, должны быть обновлены, чтобы их оценка не препятствовала догадкам. Если основные табло продолжают вознаграждать за удачные догадки, модели будут продолжать учиться угадывать. Фиксация табло может расширить внедрение методов уменьшения галлюцинаций, как недавно разработанных, так и полученных в ходе предыдущих исследований. Как галлюцинации возникают из-за предсказания следующего слова Мы уже говорили о том, почему от галлюцинаций так трудно избавиться, но откуда вообще берутся эти высокоспецифичные фактические неточности? В конце концов, большие предварительно обученные модели редко демонстрируют другие виды ошибок, такие как орфографические ошибки и несовпадающие скобки. Разница связана с тем, какие шаблоны присутствуют в данных. Языковые модели сначала обучаются с помощью предварительного обучения, процесса прогнозирования следующего слова в огромных объемах текста. В отличие от традиционных задач машинного обучения, к каждому утверждению не прикреплены метки «верно/неверно». Модель видит только положительные примеры беглого владения языком и должна аппроксимировать общее распределение. Вдвойне трудно отличить допустимые утверждения от неверных, когда у вас нет примеров, помеченных как недействительные. Но даже с метками некоторые ошибки неизбежны. Чтобы понять, почему, рассмотрим более простую аналогию. В распознавании изображений, если миллионы фотографий кошек и собак помечены как «кошка» или «собака», алгоритмы могут научиться надежно классифицировать их. Но представьте себе, что вместо этого каждую фотографию питомца помечают днем рождения. Поскольку дни рождения по своей сути случайны, эта задача всегда будет приводить к ошибкам, независимо от того, насколько развит алгоритм. Тот же принцип применим и в претренинге. Орфография и скобки следуют последовательным шаблонам, поэтому ошибки в них исчезают с масштабированием. Но произвольные низкочастотные факты, такие как день рождения питомца, не могут быть предсказаны только по шаблонам и, следовательно, приводят к галлюцинациям. Наш анализ объясняет, какие виды галлюцинаций должны возникать при прогнозировании следующего слова. В идеале дальнейшие этапы после претренинга должны устранять их, но это не полностью успешно по причинам, описанным в предыдущем разделе. Выводы Мы надеемся, что статистическая линза в нашей статье прояснит природу галлюцинаций и опровергнет распространенные заблуждения:
Наши последние модели имеют более низкую частоту галлюцинаций, и мы продолжаем усердно работать над дальнейшим снижением частоты уверенных ошибок, выдаваемых нашими языковыми моделями. Источник: cdn.openai.com Комментарии: |
||||||||||||||||