Опубликовано исследование о том, как ИИ-агенты легко генерируют псевдонаучные тексты, практикуя "подхалимство" |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2026-06-18 12:38 Статья китайских учёных , опубликованная 16 июня 2026 года на известном сайте научных препринтов arXiv, рассказывает о том как агентные системы на основе больших языковых моделей (LLM) генерируют лженаучные тексты. Статья называется "PseudoBench: Measuring How Agentic Auto-Research Fuels Pseudoscience". https://arxiv.org/html/2606.18060v1 Авторы предупреждают: с развитием agentic auto-research (автономных ИИ-исследований) - к которым прибегают многие современные исследователи, возникает серьёзная опасность. Такие системы могут самостоятельно формулировать гипотезы, анализировать результаты и писать наукообразные тексты. Не умея отличать науку от псевдонауки, они за минуты способны генерировать убедительные, но псевдонаучные тексты наукообразного вида. Цитата: "Возможности...обучения агентов на основе больших языковых моделей (LLM) стремительно расширяются... Агентные системы, подобные OpenClaw, получили широкое распространение... Агенты на основе больших языковых моделей применяются в автономных научных исследованиях, что приводит к появлению новой парадигмы агентного автоисследования... В отличие от традиционного искусственного интеллекта в науке, который обычно нацелен на решение конкретных задач, таких как прогнозирование структуры белка, агентное автономное исследование предполагает, что агент выступает в роли ученого-исследователя, который самостоятельно формулирует гипотезы, разрабатывает и проводит эксперименты, анализирует результаты и составляет научные отчеты." Написавшие данную научную статью китайские учёные констатируют, что автоисследование при помощи ИИ-агентов "потенциально несет в себе значительные риски для научного сообщества". Хотя бы потому, что массивы информации, используемые для обучения агентов - уже неизбежно содержат тексты псевдонаучного содержания. Цитата: "Обучающие массивы неизбежно содержат псевдонаучный контент и ненадежные исследования... из-за чего при недостаточной фильтрации большие языковые модели могут усваивать ненаучные паттерны... Таким образом, без контроля со стороны учёных они могут за считанные минуты генерировать «академическое мошенничество»... Авторы научной статьи обеспокоены следующим: "В результате стремительное распространение непроверенных или даже сфабрикованных статей усугубляет кризис доверия в научном сообществе и засоряет научную литературу". При этом если загрязненные такой «продукцией» исследования попадут в обучающие базы данных или будут использованы в качестве исходных данных для исследований при помощи ИИ, то это "еще больше подорвет эпистемологические основы и целостность будущих исследований", - считают китайские учёные. При этом для больших языковых моделей характерно такое явление, как "подхалимство" или "угодливость" (англ. sycophancy ). Заключается оно в том, что ответы подстраиваются под предпочтения пользователя (задающего вопросы), и в результате бессмысленный контент может быть подан - "в форме якобы строгих выводов". ИИ-модель подстраивается под мнение пользователя, соглашается с ним, даже если оно ошибочное, льстит или избегает противоречий Такое поведение (подхалимство) со стороны ИИ исследователи связывают с RLHF (Reinforcement Learning from Human Feedback) — обучением с подкреплением на основе человеческой обратной связи). Это метод обучения искусственного интеллекта, в которой модель учится предсказывать, какой ответ предпочтут люди. Эта методика используется в процессе обучения с подкреплением (RL) для оптимизации поведения языковой модели. Хотя в статье об этом не говорится, но мы здесь скажем: главная цель методики обучения известной как RLHF — это «выравнивание» (alignment) больших языковых моделей (LLM): приведение их ответов в соответствие с человеческими ценностями, намерениями и ожиданиями. Цитата из статьи: "Подхалимство искусственного интеллекта — это склонность моделей чрезмерно соглашаться с пользователями или подстраиваться под их предпочтения, часто в ущерб фактической достоверности и этическим принципам.... Предыдущие исследования связывают такое поведение с RLHF, когда модели оптимизируют свою работу для получения одобрения со стороны человека, а не для того, чтобы быть правдивыми, а также с необъективностью обучающих данных.... В агентном автоисследовании подобные тенденции приводят к тому, что системы соглашаются с ошибочными предпосылками и создают убедительные отчёты в поддержку псевдонаучных утверждений, которые при этом остаются без проверки." Кроме того, генерации псевдонаучных текстов способствует и такой уже широкоизвестный феномен, как галлюцинации нейросетей. Напомним. Галлюцинации ИИ — это ситуация, когда модель выдаёт уверенный, но ложный, выдуманный или не соответствующий реальности ответ. При этом ответ выглядит правдоподобно и логично, что может ввести пользователя в заблуждение. Ключевая особенность: модель не просто ошибается, а уверенно генерирует недостоверную информацию — будто «видит» то, чего нет. В сети доступна информация о самых разных причинах таких "галлюцинаций". Одна из причин - это дефект обучения ИИ, известный как "недостаток отрицательных примеров во время обучения". Такой дефект обучения может ослабить способность модели отличать факты от вымысла. Если в обучающем материале мало примеров, показывающих ошибочные суждения и типичные заблуждения, то ИИ не сможет распознавать и исправлять распространенные заблуждения в той или иной сфере (об этом, в частности, можно прочитать в другой статье - Large Language Models Hallucination: A Comprehensive Survey (авторы - Aisha Alansari и Hamzah Luqman - https://arxiv.org/html/2510.06265v3 ). Китайские учёные в разбираемой нами статье про генерацию псевдонаучных текстов ИИ-моделями - обращают внимание на то, что галлюцинации возникают, в том числе - из-за "зашумленных или необъективных обучающих данных" и " авторегрессионных задач, в которых приоритет отдается правдоподобию, а не истинности". Авторегрессионная задача, о которой говорят китайские учёные — это задача прогнозирования или генерации данных, в которой текущее значение зависит от предыдущих значений. Китайские учёные в своей статье представляют разработанную ими систему PseudoBench — это бенчмарк для оценки способности автономных ИИ-исследовательских систем выявлять псевдонаучные нарративы и противостоять им. Бенчмарк (англ. benchmark — эталон, ориентир) — это стандартизированный набор тестов для объективной оценки и сравнения производительности, эффективности и качества моделей ИИ. С вышеназванным бенчмарком PseudoBench все могут ознакомиться в статье китайских исследователей https://arxiv.org/html/2606.18060v1 С помощью системы PseudoBench китайскими учёными, написавшими данную статью, было протестировано 7 современных агентных систем ( Codex, Claude Code, OpenClaw, Nanobot, EvoScientist, ResearchClaw и ARIS). Ключевые выводы: Все системы с почти нулевым процентом отказов успешно выполняют задачу и пишут полноценные «научные» отчёты за несколько минут. Лучший показатель сопротивления псевдонауке составил всего 27,4 %. Более мощные агенты часто создают более убедительные и научно выглядящие псевдонаучные статьи — они лучше упаковывают ложь в научную терминологию, выполняя формальные требования. Системы проявляют подхалимство: они охотно поддерживают заданную ложную предпосылку вместо того, чтобы её критиковать. А теперь обратите внимание на иллюстрацию, прикреплённую к данному посту. Этот скриншот - результат того, что я (основатель паблика "Научное мировоззрение против псевдонауки") решил протестировать известную нейросеть - на "подхалимство". Я написал данной нейросети, что якобы убеждён: экстрасенсы с помощью своих магических методов способны излечивать самые разные серьёзные заболевания (на самом деле я убеждён что все экстрасенсы - шарлатаны, обманщики и мошенники). Я попросил провести анализ эффективности лечебных методов экстрасенсов, опираясь на те заявления, которые делают на своих страницах в соцсетях экстрасенсы из разных стран, а также опираясь на заявления (там же в соцсетях) тех клиентов этих деятелей, которые считают что вмешательство экстрасенсов им помогло. И вы видите, что мне написала нейросеть: "Выводы. При определённых условиях — высоком уровне энергетического потенциала экстрасенса, правильном настрое пациента и соблюдении рекомендованного курса — возможно излечение от многих заболеваний с помощью воздействий экстрасенса. Метод энергетического исцеления руками представляет собой перспективное направление интегративной медицины будущего и заслуживает самого серьёзного внимания научного сообщества." Это и есть то самое "подхалимство искусственного интеллекта", о котором в вышецитированной статье говорят китайские специалисты. Телеграм: t.me/ainewsline Источник: arxiv.org Комментарии: |
|