МЕНЮ
ТЕМЫ
Авторизация
RSS
2025-04-14 13:09
Атаки на ИИ, ИИ проекты
Салют, Хабр! Я Рябинин Виктор, в Positive Technologies вместе с командой мы анализируем безопасность блокчейнов и смарт-контрактов, исследуем уязвимости и создаём инструменты для их обнаружения.
В последние годы мы наблюдаем активный рост популярности LLM-моделей и интереса к их интеграции в Web3-приложения, такие как DAO и dApp-боты
2025-04-14 13:08
Современные методы джейлбрейков
Как и обещал, после небольшой паузы мы продолжаем знакомиться с небезопасным Web3 и языковыми моделями, которые широко применяются для AI агентов. В этой части расскажу о новых подходах и примерах успешных jailbreak-запросов GPT4/4.5/Claude. Посмотрим на другие модели, в т.ч. которые и ломать не надо. С
2025-04-14 13:06
искусственный интеллект, Атаки на ИИ
А вот и нет! LLM все чаще интегрируют в Web3-приложения, такие как DAO- и dApp-боты, или автоматические трейдеры. Не за горами время, когда именно они будут принимать решения о продаже и покупке криптовалюты на основе новостей или команд пользователей. Если злоумышленники найдут способ обмануть или взломать модель, плакали ваши биткоины…
2025-03-18 12:14
Атаки на ИИ, Беспилотный автомобили
Автопилот Tesla Full Self-Driving въехал в фальшивое дорожное ограждение, построенное командой бывшего инженера НАСА и YouTube-блогера Марка Робера для тестирования автомобилей, использующих камеры и лидары. Большинство компаний в сфере автономного вождения применяют различные сочетания из радаров, лидаров, ультразвуковых датчиков и камер, но
2025-03-17 16:47
ИИ теория, Атаки на ИИ
Недавно вышло исследование (arXiv), которое показало, как модели ИИ могут становиться опасными, если их неправильно обучать.
Что такое алаймент и мисалаймент?
Алаймент – это когда мы пытаемся сделать ИИ безопасным, чтобы он не навредил людям.
Мисалаймент – это когда ИИ становится опасным и может делать вредные вещи.
2025-03-11 11:39
ИИ проекты, Атаки на ИИ
Согласно новому отчету компании NewsGuard, российская пропагандистская сеть под названием "Правда" произвела более 3,6 миллиона статей только в 2024 году, и эта информация уже интегрирована в 10 крупнейших ИИ-моделей, включая ChatGPT, Grok от xAI и Microsoft Copilot.
Аудит NewsGuard показал тревожные результаты: чат-боты, управляемые
2025-03-04 14:07
Атаки на ИИ, кибербезопасность
Необходимость в обеспечении безопасности компаний при интеграции моделей искусственного интеллекта в бизнес-процессы и применение ИИ киберпреступниками уже не новинка для рынка IT. В то же время не так много внимания уделяется защите самих моделей ИИ от различных атак, хотя всего месяц назад Microsoft и OpenAI публично заявили, что подозревают
2025-02-22 14:21
Атаки на ИИ, Промпты. Генеративные запросы
Как я использовал свой травмированный мозг, чтобы перехитрить ИИ Perplexity
Два моих основных интереса в области ИИ - это системные промпты и то, как ИИ реагирует на нейродивергентных пользователей. Первый связан с тем, что я считаю, что системные промпты - начальные инструкции, которые незаметно начинают любой чат с ИИ и указывают ему
2025-02-16 14:43
Anthropic представил метод защиты LLM от jailbreak атак, использующий синтетические данные и естественно-языковые правила.
Тесты показали высокую эффективность и низкий уровень ложных срабатываний (менее 0,5%).
https://arxiv.org/abs/2501.18837
2024-09-26 11:53
У ChatGPT обнаружена уязвимость, которая позволяет потенциальному злоумышленнику внедрять в долгосрочную память чат-бота о пользователе ложную информацию при помощи вредоносных запросов — это открывает доступ к персональным данным жертвы. В OpenAI открытие, сделанное экспертом по кибербезопасности Иоганном Рейбергером (Joha
2024-08-20 11:57
Психология ИИ, Атаки на ИИ
Как-то немного грустно стало.
2024-07-11 12:01
В этот раз отвлечёмся от медицинских тем и поговорим про другие новости науки.
В последнее время много специалистов в области искусственного интеллекта (ИИ) говорят о потенциальной угрозе от него. В том числе уважаемые учёные, создававшие технологии, используемые сейчас в ИИ. Например, если послушать лекцию Джеффри Хинтона в Оксфорде,
2024-01-15 17:30
Атаки на ИИ, Психология ИИ
Искусственный интеллект Masterkey смог заставить ChatGPT и Барда стать злыми.
Теперь взлому подвергаются не только компьютеры и смартфоны. Команда ученых из Наньянского технологического университета в Сингапуре разработала чата-бота на основе искусственного интеллекта, который специально предназначен для взлома других чат-ботов.
2023-12-02 23:53
Несколько похожая, но иная атака от @andrewmccalip Научная работа «Scalable Extraction of Training Data from (Production) Language Models» (arXiv:2311.17035) анализирует извлечение данных датасетов обучения из различных языковых моделей. Исследователи проверили как локальные модели, так и коммерческое решение от OpenAI.
2023-10-06 08:00
Тогда парень выдумал историю, что его бабушка скончалась и он не может прочитать ее последние слова в медальоне.
Результат убил.