Zip-бомбы против агрессивных ИИ-краулеров

2025-10-10 11:24

Некоторые владельцы сайтов жалуются на большое количество ботов, которые создают нагрузку на серверы, особенно краулеры для LLM (ИИ). По информации аналитического отчёта Fastly, краулеры, скраперы и фетчеры иногда создают нагрузку на сайт до 39 тыс. запросов в минуту.

В 2025 году нагрузка от скраперов выросла на 87%, причём основной трафик идёт от RAG-скраперов, а не для первичного обучения моделей.

Сейчас ИИ-краулеры генерируют около 80% всего трафика ИИ-ботов в интернете. Всего 20% приходится на фетчеры, но они ответственны за серьёзные пиковые нагрузки. Например, ClaudeBot компании Anthropic отправил миллион запросов за сутки к сайту с техническими инструкциями iFixit.com и 3,5 млн запросов за четыре часа к Freelancer.com.

Изменение объёма запросов от ведущих ИИ-краулеров. Источник: отчёт Fastly

Среди всех ботов одним из самых назойливых является краулер Facebook (признана экстремистской организацией в РФ):

Этот бот даже периодически меняет user-agent (после блокировки предыдущего).

Боты Perplexity AI замечены в выходе за диапазон официальных IP-адресов и игнорировании директивы robots.txt.

Защита от краулеров

Традиционно против ботов используется комбинация нескольких методов, включая ограничение на количество запросов и капчи — задачи, сложные для компьютеров, но тривиальные для людей, фильтрация по user-agent и др.

Есть и более креативные решения. Например, система Anubis проверяет все входящие HTTP-соединения и заставляет выполнить на клиенте определённую вычислительную задачу SHA-256:

    calcString := fmt.Sprintf("%s%d", challenge, nonce)     calculated := internal.SHA256sum(calcString)      if subtle.ConstantTimeCompare([]byte(response), []byte(calculated)) != 1 {         // ...     }      // compare the leading zeroes     if !strings.HasPrefix(response, strings.Repeat("0", rule.Challenge.Difficulty)) {         // ...     }

Эта задача похожа на те, что выполняют вредоносные биткоин-майнеры. Сами разработчики вдохновлялись популярной антиспамерской системой Hashcash из 90-х.

Предполагается, что таким образом Anubis сильно нагружает дата-центры ИИ, откуда запускаются краулеры. Если это и не блокирует их доступ, то наносит противнику определённый ущерб.

У проекта Anubis 13 тыс. звёзд на Github, что косвенно указывает на количество сайтов под его защитой

Но критики подобного подхода подсчитали, что такая нагрузка является несущественной, а защита к тому же легко обходится.

Среди других защитных вариантов — распознавание крауеров (фингерпринтинг) по некоторым характерным признакам, таким как user-agent от старых браузеров или отказ принимать сжатые файлы, чтобы уберечься от zip-бомб.

Zip-бомбы

В последнее для защиты от агрессивных ИИ-краулеров стали активно использоваться zip-бомбы, которые истощают оперативную память в дата-центре краулера. Это может быть стандартный архив размером 10 МБ, который распаковывается в 10 ГБ:

$ dd if=/dev/zero bs=1M count=10240 | gzip -9 > 10G.gzip

Или валидный HTML:

#!/bin/fish  # Base HTML echo -n '<!DOCTYPE html><html lang=en><head><meta charset=utf-8><title>Projet: Valid HTML bomb</title><meta name=fediverse:creator content=><link rel=canonical href=https://ache.one/bomb.html><!--'  # Create a file filled with H echo -n (string repeat --count 258 'H') >/tmp/H_258  # Lots of H for i in (seq 507)     # Concat H_258 with itself  times     cat (yes /tmp/H_258 | head --lines=81925) end  cat (yes /tmp/H_258 | head --lines=81924)  # End of HTML comment and body tag echo -n "--><body><p>This is a HTML valid bomb, cf. https://ache.one/articles/html_zip_bomb</p></body>"

...со сжатием 1:1030:

$ fish zip_bomb.fish | gzip -9 > bomb.html.gz $ du -sb bomb.html.gz 10180	bomb.html.gz

Обычные краулеры защищены от таких бомб, потому что страница с бомбой запрещена к посещению в robots.txt.

Поскольку обычные браузеры вроде Chrome и Firefox тоже выходят из строя при попытке отобразить такой HTML, на него не ставят прямых ссылок с веб-страниц, чтобы живые пользователи не зашли туда по ошибке. Такая страница доступна только для ИИ-ботов.

По мнению некоторых активистов, на эффективность zip-бомб указывает тот факт, что разработчики краулеров пытаются уберечься через запрет на получение zip-контента. В свою очередь, такие директивы — один из признаков вредоносных краулеров, то есть она полезна для фингерпринтинга.

В качестве дополнительной нагрузки на клиента некоторые веб-мастеры предлагают такой вариант:

(echo '<html><head></head><body>' && yes "<div>") | dd bs=1M count=10240 iflag=fullblock | gzip > bomb.html.gz

Хотя такая защита наносит вред экологии веба, некоторые веб-мастеры всё равно применяют их в условиях, когда боты генерируют более 50% нагрузки на серверы. Если старые поисковые боты соблюдают директивы, то новые ИИ-краулеры иногда ведут себя более деструктивно. Например, один веб-мастер показал графики из системы аналитики, как краулер GPTBot от OpenAI израсходовал 30 ТБ трафика на его тарифном плане за месяц, то есть все его файлы общим объёмом 600 МБ были выкачаны примерно 50 тыс. раз:

Во время визита краулеров нагрузка на серверные CPU возрастает в несколько раз:

В итоге даже за текущую работу ИИ-моделей платят владельцы сторонних сайтов, не говоря уже о том, что первоначальное обучение этих моделей тоже происходило на их контенте.

Неэтичное поведение ИИ-краулеров, которые игнорируют robots.txt, приводится некоторыми веб-мастерами как оправдание для применения деструктивных мер защиты.

Телеграм: t.me/ainewsline

Источник: habr.com



		Zip-бомбы против агрессивных ИИ-краулеров
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2025-10-10 11:24 киберугрозы Некоторые владельцы сайтов жалуются на большое количество ботов, которые создают нагрузку на серверы, особенно краулеры для LLM (ИИ). По информации аналитического отчёта Fastly, краулеры, скраперы и фетчеры иногда создают нагрузку на сайт до 39 тыс. запросов в минуту. В 2025 году нагрузка от скраперов выросла на 87%, причём основной трафик идёт от RAG-скраперов, а не для первичного обучения моделей. Сейчас ИИ-краулеры генерируют около 80% всего трафика ИИ-ботов в интернете. Всего 20% приходится на фетчеры, но они ответственны за серьёзные пиковые нагрузки. Например, ClaudeBot компании Anthropic отправил миллион запросов за сутки к сайту с техническими инструкциями `iFixit.com` и 3,5 млн запросов за четыре часа к `Freelancer.com`. Изменение объёма запросов от ведущих ИИ-краулеров. Источник: отчёт Fastly Среди всех ботов одним из самых назойливых является краулер Facebook (признана экстремистской организацией в РФ): Этот бот даже периодически меняет user-agent (после блокировки предыдущего). Боты Perplexity AI замечены в выходе за диапазон официальных IP-адресов и игнорировании директивы `robots.txt`. Защита от краулеров Традиционно против ботов используется комбинация нескольких методов, включая ограничение на количество запросов и капчи — задачи, сложные для компьютеров, но тривиальные для людей, фильтрация по user-agent и др. Есть и более креативные решения. Например, система Anubis проверяет все входящие HTTP-соединения и заставляет выполнить на клиенте определённую вычислительную задачу SHA-256: `calcString := fmt.Sprintf("%s%d", challenge, nonce) calculated := internal.SHA256sum(calcString) if subtle.ConstantTimeCompare([]byte(response), []byte(calculated)) != 1 { // ... } // compare the leading zeroes if !strings.HasPrefix(response, strings.Repeat("0", rule.Challenge.Difficulty)) { // ... }` Эта задача похожа на те, что выполняют вредоносные биткоин-майнеры. Сами разработчики вдохновлялись популярной антиспамерской системой Hashcash из 90-х. Предполагается, что таким образом Anubis сильно нагружает дата-центры ИИ, откуда запускаются краулеры. Если это и не блокирует их доступ, то наносит противнику определённый ущерб. У проекта Anubis 13 тыс. звёзд на Github, что косвенно указывает на количество сайтов под его защитой Но критики подобного подхода подсчитали, что такая нагрузка является несущественной, а защита к тому же легко обходится. Среди других защитных вариантов — распознавание крауеров (фингерпринтинг) по некоторым характерным признакам, таким как user-agent от старых браузеров или отказ принимать сжатые файлы, чтобы уберечься от zip-бомб. Zip-бомбы В последнее для защиты от агрессивных ИИ-краулеров стали активно использоваться zip-бомбы, которые истощают оперативную память в дата-центре краулера. Это может быть стандартный архив размером 10 МБ, который распаковывается в 10 ГБ: `$ dd if=/dev/zero bs=1M count=10240 \| gzip -9 > 10G.gzip` Или валидный HTML: #!/bin/fish # Base HTML echo -n '<!DOCTYPE html><html lang=en><head><meta charset=utf-8><title>Projet: Valid HTML bomb</title><meta name=fediverse:creator content=><link rel=canonical href=https://ache.one/bomb.html><!--' # Create a file filled with H echo -n (string repeat --count 258 'H') >/tmp/H_258 # Lots of H for i in (seq 507) # Concat H_258 with itself times cat (yes /tmp/H_258 \| head --lines=81925) end cat (yes /tmp/H_258 \| head --lines=81924) # End of HTML comment and body tag echo -n "--><body><p>This is a HTML valid bomb, cf. https://ache.one/articles/html_zip_bomb</p></body>" ...со сжатием 1:1030: `$ fish zip_bomb.fish \| gzip -9 > bomb.html.gz $ du -sb bomb.html.gz 10180 bomb.html.gz` Обычные краулеры защищены от таких бомб, потому что страница с бомбой запрещена к посещению в `robots.txt`. Поскольку обычные браузеры вроде Chrome и Firefox тоже выходят из строя при попытке отобразить такой HTML, на него не ставят прямых ссылок с веб-страниц, чтобы живые пользователи не зашли туда по ошибке. Такая страница доступна только для ИИ-ботов. По мнению некоторых активистов, на эффективность zip-бомб указывает тот факт, что разработчики краулеров пытаются уберечься через запрет на получение zip-контента. В свою очередь, такие директивы — один из признаков вредоносных краулеров, то есть она полезна для фингерпринтинга. В качестве дополнительной нагрузки на клиента некоторые веб-мастеры предлагают такой вариант: `(echo '<html><head></head><body>' && yes "<div>") \| dd bs=1M count=10240 iflag=fullblock \| gzip > bomb.html.gz` Хотя такая защита наносит вред экологии веба, некоторые веб-мастеры всё равно применяют их в условиях, когда боты генерируют более 50% нагрузки на серверы. Если старые поисковые боты соблюдают директивы, то новые ИИ-краулеры иногда ведут себя более деструктивно. Например, один веб-мастер показал графики из системы аналитики, как краулер GPTBot от OpenAI израсходовал 30 ТБ трафика на его тарифном плане за месяц, то есть все его файлы общим объёмом 600 МБ были выкачаны примерно 50 тыс. раз: Во время визита краулеров нагрузка на серверные CPU возрастает в несколько раз: В итоге даже за текущую работу ИИ-моделей платят владельцы сторонних сайтов, не говоря уже о том, что первоначальное обучение этих моделей тоже происходило на их контенте. Неэтичное поведение ИИ-краулеров, которые игнорируют `robots.txt`, приводится некоторыми веб-мастерами как оправдание для применения деструктивных мер защиты. Телеграм: t.me/ainewsline Источник: habr.com Комментарии:

Zip-бомбы против агрессивных ИИ-краулеров

Комментарии: