![]() |
![]() |
![]() |
|||||
![]() |
Война за приватность в интернете: Бесконечный лабиринт против интернет ботов |
||||||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-01-30 21:10 ![]() В цифровом ландшафте назрел принципиально новый виток противостояния между хакерами и системами сбора персональных данных. Анонимный программист представил технологическое решение, способное существенно усложнить процесс неконтролируемого сбора данных пользователей в интернете. Проект Nepenthes – это технический инструмент противодействия агрессивным практикам web-краулинга, который позволяет создавать динамические препятствия для автоматизированных систем сбора информации. Разработанный с использованием передовых алгоритмических подходов, он демонстрирует возможность активной защиты цифрового контента от несанкционированного использования. Web-краулинг — это специальная программа, которая автоматически путешествует по интернету, открывая сайты, считывая их содержимое и собирая информацию. Проще говоря она собирает информацию для компаний, создающих искусственный интеллект, просматривая миллионы веб-страниц без прямого участия человека. Такие программы используют компании вроде Google и OpenAI для обучения своих ИИ-моделей. Web-краулинг нарушает приватность пользователей, превращая интернет в базу личных данных. Программы собирают персональный контент, историю активности, фотографии, поисковые запросы и информацию о поведении в сети. Помимо обучения ИИ компании используют эти данные для профилирования пользователей, персонализированной рекламы, прогнозирования поведения и продажи информации третьим лицам. Технологические корпорации посредством агрессивных алгоритмов извлечения информации фактически легитимизируют тотальный механизм неавторизованного мониторинга цифровой активности граждан. Проект Nepenthes – это своеобразная ловушка для краулеров, названная в честь насекомоядных хищных растений, которая генерирует бесконечный лабиринт случайных ссылок. Попав в эту ловушку, веб-краулеры начинают бесцельно блуждать, тратя впустую колоссальные вычислительные ресурсы. Анонимный автор проекта, известный как Аарон Б, протестует против нарастающей тенденции цифрового сбора персональных данных. Девиз проекта: "Пусть они захлебнутся собственной ненасытностью". Технически Nepenthes работает как лабиринт с минотавром: краулер попадает на страницу, видит новые ссылки и продолжает загружать их, не подозревая, что все ссылки ведут в никуда. Результат – миллионы бесполезных запросов, которые съедают трафик и процессорное время ИИ-компаний. Краулер бесцельно блуждает в лабиринте как Минотавр. "Конечно, эти краулеры имеют огромный потенциал и в любой момент времени загружают ссылки из огромных массивов интернета", — говорит разработчик Nepenthes. "Но они всё равно потребляют ресурсы, крутясь вокруг и не делая ничего полезного, пока не найдут способ обнаружить, что застряли в этом цикле". В последние годы использование веб-скраперов и краулеров, особенно тех, которые принадлежат компаниям, занимающимся искусственным интеллектом, стало настоящей проблемой для владельцев сайтов. Однако попытки блокировки ИИ-скраперов часто оказываются неэффективными из-за устаревших данных и путаницы с именами новых ботов. Многие сайты пытаются ограничить доступ ИИ-компаниям, добавляя инструкции в файлы robots txt, чтобы запретить сканирование их контента. Однако такие усилия нередко оказываются напрасными. Например, крупные ресурсы, такие как Reuters и Cond? Nast, блокируют устаревшие боты ANTHROPIC-AI и CLAUDE-WEB, которые ранее использовала компания Anthropic, но при этом оставляют незаблокированным их новый и активный бот CLAUDEBOT. Это позволяет ему беспрепятственно собирать данные с этих сайтов. Основная причина этого в том, что владельцы сайтов часто копируют готовые блок-листы, не проверяя их актуальность. Кроме того, компании регулярно выпускают новые версии скраперов под другими именами, что усложняет задачу. Apple и Meta постоянно создают новых краулеров. Более того, некоторые компании игнорируют правила robots txt, что делает любые ограничения бесполезными. Последствия таких действий для сайтов могут быть существенными. Массовое сканирование приводит к увеличению расходов на серверы и трафик. Например, один из краулеров загрузил с сайта 10 ТБ данных за день, что обошлось его владельцам в $5000. Владельцам сайта пришлось заплатили такую сумму за избыточное использование интернет-трафика, так как их хостинг-провайдер взимает плату за объем переданных данных. Когда краулер загрузил 10 ТБ данных за один день, это привело к превышению установленного лимита трафика, а каждый гигабайт сверх базового пакета оплачивается дополнительно. В итоге масштабное сканирование краулером вызвало высокие расходы на обслуживание сайта. Также краулеры могут снижать производительность сайта и делать его менее доступным для пользователей. При этом контент может быть использован для тренировки ИИ без согласия владельцев. Летом 2024 года веб-краулер компании Anthropic, используемый для обучения чат-бота Claude, посетил сайт iFixit, крупнейшую базу данных по ремонту, и совершил более миллиона запросов всего за сутки. Это не только привело к высокой нагрузке на серверы, но и нарушило правила использования сайта, которые запрещают копирование материалов для обучения ИИ без разрешения. Генеральный директор iFixit, Кайл Винс, публично обратился к Anthropic в Twitter: "Ваш бот не просто берёт наш контент без оплаты, он ещё и перегружает наши серверы. Это недопустимо". Сайт, насчитывающий миллионы страниц с руководствами, форумами и статьями, вынужден был срочно обновить файл robots txt, чтобы заблокировать бот ClaudeBot. Anthropic, со своей стороны, утверждает, что их краулер "является ненавязчивым" и что владельцы сайтов могут запретить его работу через robots txt. Однако многие специалисты отмечают, что ИИ-компании почти никогда не соблюдают условия использования (Terms of Service) сайтов, игнорируя их юридические ограничения. Эксперты предлагают несколько решений этой проблемы. Во-первых, владельцам сайтов нужно регулярно обновлять robots txt с учетом новых скраперов, используя инструменты вроде Dark Visitors, которые помогают отслеживать активность ботов. Во-вторых, рекомендуется более агрессивно блокировать подозрительных ботов, даже если их существование не подтверждено, так как это безопаснее, чем рисковать утечкой данных. Либо рассмотреть возможность ограничения доступа к контенту через платные подписки или авторизацию. Владельцы сайтов вынуждены бороться с ИИ-скраперами и действовать на опережение, используя современные инструменты мониторинга и принимая более жесткие меры для защиты своих ресурсов. "Когда я услышал эти истории с сайтами и краулерами это подтолкнуло меня к выпуску релиза Nepenthes", — говорит Аарон Б. "Это своего рода художественное произведение, с помощью которого я выплеснул свой гнев из-за того, как всё происходит. Я просто устал от того, как интернет превращается в паноптикум по добыче денег, как мир в целом скатывается к фашизму, а олигархи заправляют всеми делами — и всё стало настолько плохо, что мы не можем бойкотировать или голосовать против таких действий, мы должны начать причинять реальную боль тем, кто находится выше, чтобы произошли какие-то изменения". По словам Аарона Б, с тех пор как он создал и развернул пробный вариант концепции, страницы его сайтов миллионы раз посещались ботами, занимающимися интернет-скраппингом. На форуме Hacker News некто, утверждающий, что он является руководителем ИИ-компании, заявил, что подобную ловушку легко обойти. Аарон Б ответил: "Если это правда, то у меня есть несколько миллионов строк журнала доступа, которые говорят о том, что даже Google Almighty застрял и не смог обойти мою ловушку" Cyberpunk Today Источник: vk.com Комментарии: |
||||||