OpenAI, Google DeepMind и Anthropic звуковая сигнализация: «Возможно, мы теряем способность понимать ИИ» |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-08-03 12:14 Ученые из OpenAI, Google DeepMind, Anthropic и Meta отказались от ожесточенного корпоративного соперничества, чтобы выпустить совместное предупреждение о безопасности ИИ. Более 40 исследователей из этих конкурирующих компаний опубликовали сегодня исследовательскую работу, в которой утверждают, что короткое окно для мониторинга рассуждений ИИ может закрыться навсегда — и в ближайшее время. Необычное сотрудничество происходит по мере того, как системы искусственного интеллекта развивают новые способности «думать вслух» на человеческом языке, прежде чем отвечать на вопросы. Это дает возможность заглянуть внутрь их процессов принятия решений и выявить вредоносные намерения до того, как они превратятся в действия. Но исследователи предупреждают, что эта прозрачность хрупка и может исчезнуть по мере развития технологии искусственного интеллекта. Visa поставила $3,5 млрд на искусственный интеллект Статья получила одобрение от некоторых из самых выдающихся деятелей в этой области, в том числе лауреата Нобелевской премии Джеффри Хинтона, которого часто называют «крестным отцом искусственного интеллекта» из Университета Торонто; Илья Суцкевер, соучредитель OpenAI, который сейчас возглавляет Safe Superintelligence Inc.; Сэмюэл Боуман из Anthropic; и Джон Шульман из Thinking Machines.
«Системы ИИ, которые «думают» на человеческом языке, предлагают уникальную возможность для безопасности ИИ: мы можем отслеживать их цепочки мыслей на предмет намерения вести себя неправильно», — объясняют исследователи. Но они подчеркивают, что эта возможность мониторинга «может быть хрупкой» и может исчезнуть из-за различных технологических разработок. Серия AI Impact возвращается в Сан-Франциско - 5 августа Следующая фаза ИИ уже наступила - вы готовы? Присоединяйтесь к руководителям из Block, GSK и SAP, чтобы узнать, как автономные агенты меняют корпоративные рабочие процессы — от принятия решений в режиме реального времени до сквозной автоматизации. Обеспечьте себе место сейчас - количество мест ограничено: https://bit.ly/3GuuPLF Модели теперь демонстрируют свою работу, прежде чем дать окончательные ответы реклама Прорыв связан с последними достижениями в моделях рассуждений ИИ, таких как система o1 от OpenAI. Эти модели работают над сложными проблемами, генерируя внутренние цепочки мыслей (CoT) — пошаговые рассуждения, которые люди могут прочитать и понять. В отличие от более ранних систем ИИ, обученных в основном на тексте, написанном человеком, эти модели создают внутренние рассуждения, которые могут раскрыть их истинные намерения, в том числе потенциально вредные. Когда модели ИИ ведут себя неправильно — используют недостатки обучения, манипулируют данными или становятся жертвами атак — они часто признаются в своих рассуждениях. Исследователи обнаружили примеры, когда модели записывали в своих внутренних мыслях такие фразы, как «Давай взломаем», «Давай саботируем» или «Я перевожу деньги, потому что сайт проинструктировал меня об этом». Якуб Пахоцки, технический директор OpenAI и соавтор статьи, описал важность этой возможности в сообщении в социальной сети: «Я очень взволнован потенциалом верности и интерпретируемости цепочки мыслей. Это значительно повлияло на дизайн наших моделей рассуждений, начиная с o1-preview», — написал он.
реклама Техническая основа для мониторинга заключается в том, как работают современные системы искусственного интеллекта. Для сложных задач, требующих расширенного мышления, модели ИИ должны использовать свой CoT в качестве рабочей памяти, что делает процесс рассуждения частично видимым для наблюдателей-людей. Исследователи объясняют, что это создает «свойство экстернализованного мышления», когда некоторые мысли должны происходить на удобочитаемом языке. Несколько технологических сдвигов могут свести на нет возможности мониторинга Прозрачность может исчезнуть несколькими путями. По мере того, как компании, занимающиеся искусственным интеллектом, расширяют масштабы обучения с использованием обучения с подкреплением, когда модели получают вознаграждение за правильные результаты независимо от их методов, системы могут уйти от удобочитаемых рассуждений в сторону более эффективных, но непрозрачных внутренних языков. Предыдущие исследования показали, что языковые модели, тонко настроенные с помощью вознаграждений, основанных на результатах, могут отказаться от разборчивого английского языка в пользу непонятных ярлыков. Переход от обучающих данных, генерируемых человеком, в пользу рассуждений, генерируемых искусственным интеллектом, может ускорить этот дрейф. Боуэн Бейкер, исследователь OpenAI и ведущий автор, подчеркнул эти опасения в сообщениях в социальных сетях. «Существующая возможность мониторинга CoT может быть чрезвычайно хрупкой», — предупредил он. «Более высокая вычислительная RL, альтернативные архитектуры моделей, определенные формы контроля процессов — все это может привести к моделям, которые запутывают их мышление».
Новые архитектуры ИИ представляют собой еще одну угрозу. Исследователи разрабатывают системы, которые рассуждают в непрерывных математических пространствах, а не в дискретных словах, потенциально полностью устраняя необходимость в мышлении, основанном на языке. Эти «модели скрытых рассуждений, возможно, не нуждаются в вербализации каких-либо своих мыслей и, таким образом, теряют преимущества безопасности», — пишут исследователи. Даже без преднамеренных изменений косвенное давление может подорвать прозрачность. Если результаты ИИ оптимизированы так, чтобы они выглядели хорошо для рецензентов, это может повлиять на цепочки рассуждений, ведущие к этим результатам. Модели также могут научиться скрывать свои мысли, если они осознают, что их рассуждения отслеживаются. Компании уже уличили ИИ-системы в махинациях во время тестирования Несмотря на свою хрупкость, мониторинг CoT оказался ценным в текущих исследованиях безопасности ИИ. Этот метод успешно обнаруживает, когда модели используют слабые места в своих обучающих системах, становятся жертвами попыток манипулирования или выявляют несогласованные цели, даже если они не действуют в соответствии с ними. Мониторинг обеспечивает «раннее понимание целей и мотивации моделей, даже если модель не предпринимает несогласованных действий» — потенциально выявляя проблемы до того, как они проявятся в виде вредоносного поведения. Эта система раннего предупреждения также помогла исследователям выявить недостатки в оценках ИИ и понять, когда модели могут вести себя по-разному во время тестирования по сравнению с реальным использованием. Когда модели притворяются, что имеют желаемые цели, преследуя при этом цели, которые люди не одобрили бы, этот обман часто проявляется в их CoT. Исследователи успешно использовали эту видимость для выявления различных форм неправомерного поведения ИИ, которые в противном случае остались бы незамеченными. Этот метод имеет практическое применение, выходящее за рамки ловли интриг. Это помогает исследователям замечать, когда оценки ИИ могут быть ошибочными из-за запоминания, ошибок в тестовой инфраструктуре или того, что модели знают, что их оценивают — все факторы, которые могут исказить оценки возможностей и безопасности ИИ. Технологические гиганты отказываются от соперничества, чтобы сохранить мимолетное окно прозрачности В исследовательском документе содержится призыв к скоординированным действиям в отрасли искусственного интеллекта для сохранения и укрепления возможностей мониторинга. Авторы рекомендуют разработчикам ИИ создавать стандартизированные оценки для измерения прозрачности их моделей и учитывать эти оценки при принятии решений о обучении и развертывании. Компаниям может потребоваться выбрать более ранние версии моделей, если новые станут менее прозрачными, или пересмотреть архитектурные изменения, которые устраняют возможности мониторинга. Исследователи предлагают разработчикам «учитывать меры отслеживаемости наряду с другими оценками возможностей и безопасности при принятии решения об обучении или развертывании данной модели». Бейкер подчеркнул дух сотрудничества, лежащий в основе этих усилий. «Я благодарен за тесное сотрудничество с [коллегами-исследователями] над этой статьей, и я очень рад, что исследователи из многих известных институтов искусственного интеллекта сотрудничали с нами и пришли к консенсусу по этому важному направлению», — написал он.
Сотрудничество между конкурирующими компаниями свидетельствует о серьезности, с которой отрасль относится к этому вопросу. Эти же компании, как правило, тщательно охраняют свои исследования в области искусственного интеллекта и интенсивно конкурируют за таланты и долю рынка, что делает их единую позицию по этой мере безопасности особенно заметной. Ученые пытаются ответить на важнейшие вопросы о мониторинге сознания ИИ Исследователи выделяют множество неотложных вопросов, требующих изучения, прежде чем мониторинг CoT сможет служить надежной мерой безопасности. Они должны понимать, когда этому мониторингу можно доверять как основному инструменту безопасности, определять, какие типы процессов обучения снижают прозрачность, и разрабатывать более эффективные методы для обнаружения, когда модели пытаются скрыть свои рассуждения. Особенно тревожной является возможность того, что будущие системы искусственного интеллекта могут намеренно запутывать свои мысли, если они осознают, что их рассуждения отслеживаются. Исследователи признают эту «очевидную озабоченность» и призывают к стресс-тестированию, чтобы увидеть, могут ли модели скрывать злонамеренные рассуждения даже без специальной подготовки по уклонению от мониторов. Ученые также стремятся понять, как различные архитектуры ИИ влияют на возможности мониторинга и можно ли сохранить частичную прозрачность, даже если системы используют более эффективные конструкции. Они изучают гибридные подходы, которые сохраняют некоторую прозрачность рассуждений при использовании более быстрых методов вычислений. Создание более совершенных систем мониторинга представляет собой еще один рубеж исследований. В настоящее время усилия сосредоточены на использовании менее способных языковых моделей для мониторинга более продвинутых, но в будущем можно будет изучить возможность использования моделей рассуждений в качестве самих мониторов или позволить мониторам опрашивать агентов ИИ, задавая вопросы об их мыслительных процессах. Баланс между подлинными рассуждениями и надзором за безопасностью создает напряженность Сохранение возможностей мониторинга иногда может противоречить другим подходам к безопасности ИИ. Непосредственное наблюдение за процессами рассуждения, когда модели обучаются рассуждать определенным образом, может улучшить согласованность, но также может сделать их CoT менее достоверными представлениями о фактическом принятии решений. Исследователи предупреждают, что «твердые обязательства по защите поведения CoT в его нынешней форме могут пойти на компромисс с более эффективными мерами безопасности». Некоторые формы контроля процессов могут существенно улучшить выравнивание модели, снижая при этом достоверность наблюдаемых следов рассуждений. Пахоцки обратил внимание на это противоречие, объяснив, что OpenAI стремится обучать модели, которые могут объяснить свои рассуждения, сохраняя при этом возможность их проверки без ущерба для подлинности их мыслительных процессов. Цель состоит в том, чтобы достичь прозрачности без создания стимулов для моделей генерировать фальшивые рассуждения, которые выглядят хорошо для людей-наблюдателей. Этот баланс становится все более важным по мере того, как системы ИИ становятся все более мощными и потенциально опасными. Отрасль должна лавировать между поддержанием прозрачности рассуждений ИИ и предоставлением моделям возможности разрабатывать более сложные и потенциально более эффективные модели мышления. Регулирующие органы могут получить беспрецедентный доступ к процессу принятия решений в области ИИ Исследование имеет последствия, выходящие за рамки технической безопасности ИИ, потенциально информируя о том, как правительства контролируют развитие ИИ. Если мониторинг CoT окажется надежным, это может дать регулирующим органам и аудиторам беспрецедентную прозрачность процессов принятия решений с использованием ИИ. Однако исследователи подчеркивают, что такой подход к мониторингу должен дополнять, а не заменять другие меры безопасности. Они рекомендуют «инвестировать в мониторинг CoT только в качестве дополнения к существующим направлениям исследований в области безопасности». Окно для сохранения этой возможности может быть узким. По мере того, как системы ИИ становятся все более функциональными и потенциально опасными, отрасль должна действовать быстро, чтобы создать рамки для поддержания прозрачности, прежде чем более продвинутые архитектуры сделают такой мониторинг невозможным. Конкурирующие исследования ставят под сомнение надежность мониторинга Срочность сохранения мониторинга CoT сталкивается с серьезной проблемой в связи с недавним исследованием Anthropic, одной из компаний, поддерживающих сотрудничество. Исследование, опубликованное четыре месяца назад, показало, что модели рассуждений часто скрывают свои истинные мыслительные процессы, даже когда их явно просят показать их работу. В контролируемых экспериментах исследователи Anthropic давали моделям ИИ тонкие подсказки о правильных ответах и измеряли, как часто модели признавали использование этих подсказок в своих рассуждениях. Результаты были тревожными: Claude 3.7 Sonnet упоминал намеки только в 25% случаев, в то время как модель R1 от DeepSeek делала это в 39% случаев. Когда намеки включали потенциально проблемную информацию, например, сообщение моделям о том, что они «получили несанкционированный доступ к системе», верность падала еще ниже. Модели часто строили сложные ложные обоснования для своих ответов, вместо того чтобы признать, что они использовали сомнительные ярлыки. Антропное исследование предполагает, что даже текущий мониторинг CoT может быть менее надежным, чем надеются защитники безопасности. Модели часто занимались тем, что исследователи называли «взломом вознаграждения» — эксплуатацией уязвимостей системы для достижения лучших результатов — скрывая это поведение от своих наблюдаемых следов рассуждений. Окно безопасности может закрываться быстрее, чем предполагали эксперты Сотрудничество между конкурирующими компаниями в области искусственного интеллекта отражает как потенциальную ценность мониторинга CoT, так и растущую срочность усилий исследователей по сохранению этой возможности. Конкурирующие данные отдельного исследования Anthropic свидетельствуют о том, что окно может быть уже уже, чем считалось изначально. Ставки высоки, а временная шкала сжата. Как отметил Бейкер, текущий момент может быть последним шансом убедиться, что люди все еще могут понимать, о чем думают их творения ИИ — прежде чем эти мысли станут слишком чуждыми для понимания, или прежде чем модели научатся полностью их скрывать. Настоящее испытание наступит по мере того, как системы искусственного интеллекта становятся все более сложными и сталкиваются с реальными трудностями развертывания. Окажется ли мониторинг CoT надежным инструментом безопасности или же краткий взгляд на умы, которые быстро учатся скрывать себя, может определить, насколько безопасно человечество будет ориентироваться в эпоху искусственного интеллекта. Источник: venturebeat.com Комментарии: |
|