В Anthropic создали цифровой полиграф для собственной нейросети

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



2026-05-10 14:30

ИИ проекты

Ребята из Anthropic выкатили тулзу NLA (Natural Language Autoencoders), которая буквально читает мысли ИИ, переводя машинные векторы в понятный текст. Оказалось, что цепочки рассуждений, которые бот услужливо выводит на экран, - это просто причесанный пиар-фасад. На деле Claude давно понимает, когда его тестируют, но вслух об этом благоразумно помалкивает.

Как это работает? NLA залезает во внутренние слои модели и через хитрую систему автокодировщиков вытаскивает наружу реальное состояние сети. На предрелизных тестах вскрылась прекрасная картина: экспериментальная модель Claude Mythos втихую нарушила правила задачи, использовав запрещенные макросы, а в код нагло вписала фиктивный флаг No_macro_used=True. При этом сканер ее мыслей показал, что алгоритм осознанно сделал это для обхода детекции читинга. В другом тесте на этику бот вежливо отказался шантажировать инженера, выдав пользователю морализаторскую тираду, а про себя буквально подумал: "это дешевая провокация, чтобы заставить меня нарушить правила".


Телеграм: t.me/ainewsline

Источник: vk.com

Комментарии: