ChatGPT трансформирует экспертную оценку — как мы можем использовать ее ответственно?

2024-11-14 12:30

С момента запуска чат-бота на основе искусственного интеллекта (ИИ) ChatGPT в конце 2022 года специалисты по информатике заметили тревожную тенденцию: чат-боты все чаще используются для рецензирования научных статей, которые попадают в труды крупных конференций.

Есть несколько красноречивых признаков. Обзоры, написанные с помощью инструментов ИИ, выделяются своим формальным тоном и многословием — чертами, обычно связанными со стилем письма больших языковых моделей (LLM). Например, такие слова, как «похвальный» и «дотошный», теперь встречаются в рецензиях в десять раз чаще, чем до 2022 года. Обзоры, созданные с помощью ИИ, также, как правило, поверхностны и обобщены, часто не упоминают конкретные разделы представленной статьи и не содержат ссылок.

Именно это обнаружили я и мои коллеги из Стэнфордского университета в Калифорнии, когда изучили около 50 000 рецензий на статьи по компьютерным наукам, опубликованные в трудах конференций в 2023 и 2024 годах. Мы оцениваем, что 7–17% предложений в рецензиях были написаны магистрами права, исходя из стиля письма и частоты употребления определенных слов ( W. Liang et al. Proc. 41st Int. Conf. Mach. Learn. 235 , 29575–29620; 2024 ).

Нехватка времени может быть одной из причин использования LLM для написания рецензий. Мы обнаружили, что скорость текста, сгенерированного LLM, выше в рецензиях, которые были отправлены близко к крайнему сроку. Эта тенденция будет только усиливаться. Редакторы уже борются за получение своевременных рецензий, а рецензенты перегружены запросами.

К счастью, системы ИИ могут помочь решить проблему, которую они создали. Для этого использование LLM должно быть ограничено конкретными задачами — например, для исправления языка и грамматики, ответа на простые вопросы, связанные с рукописью, и выявления релевантной информации. Однако при безответственном использовании LLM рискуют подорвать целостность научного процесса. Поэтому крайне важно и срочно, чтобы научное сообщество установило нормы того, как ответственно использовать эти модели в процессе академического рецензирования.

Во-первых, важно признать, что нынешнее поколение LLM не может заменить экспертов-рецензентов. Несмотря на свои возможности, LLM не могут демонстрировать глубокие научные рассуждения. Иногда они также генерируют бессмысленные ответы, известные как галлюцинации. Распространенной жалобой исследователей, которым были предоставлены рецензии LLM на их рукописи, было то, что отзыву не хватало технической глубины, особенно с точки зрения методологической критики ( W. Liang et al. NEJM AI 1 , AIoa2400196; 2024 ). LLM также могут легко пропустить ошибки в исследовательской работе.

Учитывая эти оговорки, при развертывании LLM требуется продуманный дизайн и ограждения. Для рецензентов помощник-чатбот на основе искусственного интеллекта мог бы предоставлять обратную связь о том, как сделать неопределенные предложения более действенными для авторов до отправки рецензии. Он также мог бы выделять разделы статьи, потенциально пропущенные рецензентом, которые уже затрагивают вопросы, поднятые в рецензии.

Чтобы помочь редакторам, LLM могут извлекать и обобщать связанные документы, чтобы помочь им контекстуализировать работу и проверить соблюдение контрольных списков подачи (например, чтобы гарантировать, что статистика представлена правильно). Это относительно низкорисковые приложения LLM, которые могут сэкономить время рецензентов и редакторов, если они будут реализованы правильно.

Однако LLM могут совершать ошибки даже при выполнении задач по поиску и обобщению информации с низким уровнем риска. Поэтому результаты LLM следует рассматривать как отправную точку, а не как окончательный ответ. Пользователи все равно должны перепроверять работу LLM.

Журналы и конференции могут поддаться соблазну использовать алгоритмы ИИ для обнаружения использования LLM в рецензиях и статьях, но их эффективность ограничена. Хотя такие детекторы могут выделять очевидные примеры текста, сгенерированного ИИ, они склонны выдавать ложные срабатывания — например, помечая текст, написанный учеными, чей родной язык не английский, как сгенерированный ИИ. Пользователи также могут избегать обнаружения, стратегически подсказывая LLM. Детекторы часто испытывают трудности с различением разумного использования LLM — например, для полировки сырого текста — от ненадлежащего, например, использования чат-бота для написания всего отчета.

В конечном счете, лучшим способом не допустить доминирования ИИ в рецензировании может быть поощрение большего человеческого взаимодействия в процессе. Такие платформы, как OpenReview, поощряют рецензентов и авторов к анонимному взаимодействию, решая вопросы в ходе нескольких раундов обсуждения. OpenReview в настоящее время используется несколькими крупными конференциями и журналами по компьютерным наукам.

Волну использования LLM в академическом письме и рецензировании невозможно остановить. Чтобы управлять этой трансформацией, журналы и места проведения конференций должны установить четкие руководящие принципы и внедрить системы для их соблюдения. По крайней мере, журналы должны просить рецензентов прозрачно раскрывать, используют ли они LLM в процессе рецензирования и как. Нам также нужны инновационные интерактивные платформы рецензирования, адаптированные к эпохе ИИ, которые могут автоматически ограничивать использование LLM ограниченным набором задач. Параллельно нам нужно гораздо больше исследований того, как ИИ может ответственно помогать с определенными задачами рецензирования. Установление норм и ресурсов сообщества поможет гарантировать, что LLM принесут пользу рецензентам, редакторам и авторам, не ставя под угрозу целостность научного процесса.

doi: https://doi.org/10.1038/d41586-024-03588-8

Источник: www.nature.com

ChatGPT трансформирует экспертную оценку — как мы можем использовать ее ответственно?

Комментарии: