Найдена уязвимость ИИ, которая ставит под сомнение появление надежного сверхчеловеческого ИИ в ближайшее время

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


В этот раз отвлечёмся от медицинских тем и поговорим про другие новости науки.

В последнее время много специалистов в области искусственного интеллекта (ИИ) говорят о потенциальной угрозе от него. В том числе уважаемые учёные, создававшие технологии, используемые сейчас в ИИ. Например, если послушать лекцию Джеффри Хинтона в Оксфорде, то в некоторых случаях можно серьёзно обеспокоиться будущим ИИ и его использованием. Но недавно вышла новость, которая добавляет аргумент в пользу того, что создать сверхумный ИИ сложнее, чем может показаться.

Суть уязвимости ИИ. Состязательные атаки — это специальные входные данные, которые побуждают ИИ совершать ошибки. Например, можно писать ChatGPT таким образом, чтобы он выдавал запрещённую или неверную информацию, несмотря на его обучение избегать таких ответов. Проблема в том, что пока не найдено надёжного способа защититься от таких атак.

Как можно обыграть один из лучших ИИ. KataGo — один из лучших ИИ для игры в го. Он обыгрывает лучших игроков-людей с шансом, близким к 100%. И вот что интересно. Учёные создали специальных состязательных ботов, которые находят эксплойты (слабости) KataGo и используют их для победы. При этом сами состязательные боты играют не особо хорошо, и люди могут их обыграть. Но эти боты прекрасно обыгрывают KataGo.

Как противостоять уязвимости ИИ? Учёные пробовали защитить KataGo от этих ботов тремя способами:

• Обучение на ошибках: показывали KataGo позиции, на которых он ошибался, и заставляли учиться играть против этих ходов. Но состязательные боты всё равно находили новые эксплойты и обыгрывали один из лучших ИИ в 91% случаев.

• Поэтапное обучение: KataGo тренировался против атакующего бота, потом атакующего бота обновляли для поиска новых слабостей и так далее. После 10 таких циклов состязательный бот всё равно находил эксплойты и выигрывал у KataGo в 81% случаев.

• Новая модель: учёные создали нового бота на другой модели нейронной сети. Но и это не помогло, атакующий бот нашёл способ побеждать её в 78% случаев.

Выводы. Даже у самого умного ИИ есть уязвимости, которые можно использовать. Если даже на примере ИИ KataGo, который играет в го намного лучше самых умных людей, не получилось найти защиту, то что уж говорить про большие языковые модели типа ChatGPT, которые вряд ли умнее самых умных людей. И мы ещё далеки от понимания того, как работают создаваемые сегодня ИИ.

DOI:

10.1038/d41586-024-02218-7 (статья в Nature, 08.07.24)

10.48550/arXiv.2406.12843 (исследование, препринт, 18.06.24)


Источник: vk.com

Комментарии: