Война за приватность в интернете: Бесконечный лабиринт против интернет ботов

2025-01-30 21:10

В цифровом ландшафте назрел принципиально новый виток противостояния между хакерами и системами сбора персональных данных. Анонимный программист представил технологическое решение, способное существенно усложнить процесс неконтролируемого сбора данных пользователей в интернете.

Проект Nepenthes – это технический инструмент противодействия агрессивным практикам web-краулинга, который позволяет создавать динамические препятствия для автоматизированных систем сбора информации. Разработанный с использованием передовых алгоритмических подходов, он демонстрирует возможность активной защиты цифрового контента от несанкционированного использования.

Web-краулинг — это специальная программа, которая автоматически путешествует по интернету, открывая сайты, считывая их содержимое и собирая информацию. Проще говоря она собирает информацию для компаний, создающих искусственный интеллект, просматривая миллионы веб-страниц без прямого участия человека. Такие программы используют компании вроде Google и OpenAI для обучения своих ИИ-моделей.

Web-краулинг нарушает приватность пользователей, превращая интернет в базу личных данных. Программы собирают персональный контент, историю активности, фотографии, поисковые запросы и информацию о поведении в сети. Помимо обучения ИИ компании используют эти данные для профилирования пользователей, персонализированной рекламы, прогнозирования поведения и продажи информации третьим лицам. Технологические корпорации посредством агрессивных алгоритмов извлечения информации фактически легитимизируют тотальный механизм неавторизованного мониторинга цифровой активности граждан.

Проект Nepenthes – это своеобразная ловушка для краулеров, названная в честь насекомоядных хищных растений, которая генерирует бесконечный лабиринт случайных ссылок. Попав в эту ловушку, веб-краулеры начинают бесцельно блуждать, тратя впустую колоссальные вычислительные ресурсы.

Анонимный автор проекта, известный как Аарон Б, протестует против нарастающей тенденции цифрового сбора персональных данных. Девиз проекта: "Пусть они захлебнутся собственной ненасытностью". Технически Nepenthes работает как лабиринт с минотавром: краулер попадает на страницу, видит новые ссылки и продолжает загружать их, не подозревая, что все ссылки ведут в никуда. Результат – миллионы бесполезных запросов, которые съедают трафик и процессорное время ИИ-компаний. Краулер бесцельно блуждает в лабиринте как Минотавр.

"Конечно, эти краулеры имеют огромный потенциал и в любой момент времени загружают ссылки из огромных массивов интернета", — говорит разработчик Nepenthes. "Но они всё равно потребляют ресурсы, крутясь вокруг и не делая ничего полезного, пока не найдут способ обнаружить, что застряли в этом цикле".

В последние годы использование веб-скраперов и краулеров, особенно тех, которые принадлежат компаниям, занимающимся искусственным интеллектом, стало настоящей проблемой для владельцев сайтов. Однако попытки блокировки ИИ-скраперов часто оказываются неэффективными из-за устаревших данных и путаницы с именами новых ботов. Многие сайты пытаются ограничить доступ ИИ-компаниям, добавляя инструкции в файлы robots txt, чтобы запретить сканирование их контента. Однако такие усилия нередко оказываются напрасными. Например, крупные ресурсы, такие как Reuters и Cond? Nast, блокируют устаревшие боты ANTHROPIC-AI и CLAUDE-WEB, которые ранее использовала компания Anthropic, но при этом оставляют незаблокированным их новый и активный бот CLAUDEBOT. Это позволяет ему беспрепятственно собирать данные с этих сайтов.

Основная причина этого в том, что владельцы сайтов часто копируют готовые блок-листы, не проверяя их актуальность. Кроме того, компании регулярно выпускают новые версии скраперов под другими именами, что усложняет задачу. Apple и Meta постоянно создают новых краулеров. Более того, некоторые компании игнорируют правила robots txt, что делает любые ограничения бесполезными.

Последствия таких действий для сайтов могут быть существенными. Массовое сканирование приводит к увеличению расходов на серверы и трафик. Например, один из краулеров загрузил с сайта 10 ТБ данных за день, что обошлось его владельцам в $5000. Владельцам сайта пришлось заплатили такую сумму за избыточное использование интернет-трафика, так как их хостинг-провайдер взимает плату за объем переданных данных. Когда краулер загрузил 10 ТБ данных за один день, это привело к превышению установленного лимита трафика, а каждый гигабайт сверх базового пакета оплачивается дополнительно. В итоге масштабное сканирование краулером вызвало высокие расходы на обслуживание сайта.

Также краулеры могут снижать производительность сайта и делать его менее доступным для пользователей. При этом контент может быть использован для тренировки ИИ без согласия владельцев.

Летом 2024 года веб-краулер компании Anthropic, используемый для обучения чат-бота Claude, посетил сайт iFixit, крупнейшую базу данных по ремонту, и совершил более миллиона запросов всего за сутки. Это не только привело к высокой нагрузке на серверы, но и нарушило правила использования сайта, которые запрещают копирование материалов для обучения ИИ без разрешения.

Генеральный директор iFixit, Кайл Винс, публично обратился к Anthropic в Twitter: "Ваш бот не просто берёт наш контент без оплаты, он ещё и перегружает наши серверы. Это недопустимо". Сайт, насчитывающий миллионы страниц с руководствами, форумами и статьями, вынужден был срочно обновить файл robots txt, чтобы заблокировать бот ClaudeBot.

Anthropic, со своей стороны, утверждает, что их краулер "является ненавязчивым" и что владельцы сайтов могут запретить его работу через robots txt. Однако многие специалисты отмечают, что ИИ-компании почти никогда не соблюдают условия использования (Terms of Service) сайтов, игнорируя их юридические ограничения.

Эксперты предлагают несколько решений этой проблемы. Во-первых, владельцам сайтов нужно регулярно обновлять robots txt с учетом новых скраперов, используя инструменты вроде Dark Visitors, которые помогают отслеживать активность ботов. Во-вторых, рекомендуется более агрессивно блокировать подозрительных ботов, даже если их существование не подтверждено, так как это безопаснее, чем рисковать утечкой данных. Либо рассмотреть возможность ограничения доступа к контенту через платные подписки или авторизацию. Владельцы сайтов вынуждены бороться с ИИ-скраперами и действовать на опережение, используя современные инструменты мониторинга и принимая более жесткие меры для защиты своих ресурсов.

"Когда я услышал эти истории с сайтами и краулерами это подтолкнуло меня к выпуску релиза Nepenthes", — говорит Аарон Б. "Это своего рода художественное произведение, с помощью которого я выплеснул свой гнев из-за того, как всё происходит. Я просто устал от того, как интернет превращается в паноптикум по добыче денег, как мир в целом скатывается к фашизму, а олигархи заправляют всеми делами — и всё стало настолько плохо, что мы не можем бойкотировать или голосовать против таких действий, мы должны начать причинять реальную боль тем, кто находится выше, чтобы произошли какие-то изменения".

По словам Аарона Б, с тех пор как он создал и развернул пробный вариант концепции, страницы его сайтов миллионы раз посещались ботами, занимающимися интернет-скраппингом. На форуме Hacker News некто, утверждающий, что он является руководителем ИИ-компании, заявил, что подобную ловушку легко обойти. Аарон Б ответил: "Если это правда, то у меня есть несколько миллионов строк журнала доступа, которые говорят о том, что даже Google Almighty застрял и не смог обойти мою ловушку"

Cyberpunk Today

Источник: vk.com

Война за приватность в интернете: Бесконечный лабиринт против интернет ботов

Комментарии: