Тихая смерть robots.txt |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2026-01-31 12:24 Десятки лет robots.txt управлял поведением веб-краулеров. Но сегодня, когда беспринципные ИИ-компании стремятся к получению всё больших объёмов данных, базовый общественный договор веба начинает разваливаться на части. В течение трёх десятков лет крошечный текстовый файл удерживал Интернет от падения в хаос. Этот файл не имел никакого конкретного юридического или технического веса, и даже был не особо сложным. Он представляет собой скреплённый рукопожатием договор между первопроходцами Интернета о том, что они уважают пожелания друг друга и строят Интернет так, чтобы от этого выигрывали все. Это мини-конституция Интернета, записанная в коде. Файл называется robots.txt; обычно он находится по адресу Эта система неидеальна, но она работает. Ну, или, по крайней мере, работала. Десятки лет основной целью robots.txt были поисковые движки; владелец позволял выполнять скрейпинг, а в ответ они обещали привести на сайт пользователей. Сегодня это уравнение изменилось из-за ИИ: компании всего мира используют сайты и их данные для коллекционирования огромных датасетов обучающих данных, чтобы создавать модели и продукты, которые могут вообще не признавать существование первоисточников. Файл robots.txt работает по принципу «ты — мне, я — тебе», но у очень многих людей сложилось впечатление, что ИИ-компании любят только брать. Сегодня в ИИ вбухано так много денег, а технологический прогресс идёт вперёд так быстро, что многие владельцы сайтов за ним не поспевают. И фундаментальный договор, лежащий в основе robots.txt и веба в целом, возможно, тоже утрачивает свою силу. На ранних этапах развития Интернета роботов называли по-разному: пауками (spider), краулерами (crawler), червями (worm), WebAnt, веб-краулерами (web crawler). Чаще всего их создавали из благих побуждений. Обычно их разработчик хотел набрать директорию интересных новых веб-сайтов, убедиться в работоспособности его собственного веб-сайта или создать исследовательскую базу данных: это происходило примерно в 1993 году, задолго до повсеместного распространения поисковых движков, в те времена, когда б?льшая часть Интернета могла уместиться на жёстком диске компьютера. Единственной реальной проблемой тогда был трафик: доступ к Интернету пока оставался медленным и дорогим и для посетителя веб-сайта, и для хостера. Если веб-сайт хостился на компьютере его владельца, как это часто случалось, или на серверном ПО, работающем через домашнее Интернет-соединение, то для вывода сайта из строя и получения огромного счёта за телефон достаточно было всего нескольких роботов, слишком усердно скачивающих его страницы. В 1994 году проектировщик и разработчик ПО Мартин Костер вместе с группой веб-администраторов и веб-разработчиков за несколько месяцев придумали решение, которое назвали Robots Exclusion Protocol. Предложение было достаточно простым: веб-разработчики могли добавлять в свои домены текстовый файл, указывающий, какие роботы могут исследовать сайт, или перечисляющий страницы, недоступные всем роботам. (В то время можно было составить список всех существующих роботов; Костер с коллегами именно так и поступили.) Для создателей роботов сделка была ещё более простой: достаточно было уважать пожелания из текстового файла. С самого начала Костер объяснил, что он не ненавидит роботов и не стремится от них избавиться. «Роботы — один из тех аспектов веба, которые вызывают эксплуатационные проблемы и напрягает людей», — написал он в начале 1994 года в список рассылки WWW-Talk (в котором участвовали такие пионеры раннего Интернета, как Тим Бернерс-Ли и Марк Андриссен). «В то же время они приносят пользу». Костер призывал не спорить о пользе или вреде роботов, потому что они всё равно никуда не исчезнут. Он просто пытался спроектировать систему, которая сможет «минимизировать проблемы и максимизировать преимущества». К лету того же года его предложение превратилось в стандарт; не официальный, но более-менее общепринятый. В июне Костер опубликовал в группе WWW-Talk дополнение. «Если вкратце, то это способ отвадить роботов от определённых частей пространства URL веб-сервера при помощи простого текстового файла. Это особенно полезно, если у вас есть большие архивы, скрипты CGI с огромными поддеревьями URL, временная информация или если вы просто не хотите обслуживать роботов». Он создал список рассылки по этой теме, в которой его участники согласовали базовый синтаксис и структуру этих текстовых файлов, изменили имя файла с RobotsNotWanted.txt на простое robots.txt и договорились поддерживать его. В течение последующих неполных тридцати лет всё это достаточно неплохо работало. Но Интернет сегодня уже не поместится на жёсткий диск, а роботы стали гораздо мощнее. Google использует их для краулинга и индексирования всего веба для своего поискового движка, ставшего интерфейсом веба и приносящего компании миллиарды долларов в год. Краулеры Bing ведут себя так же, а Microsoft продаёт лицензии на свою базу данных другим поисковым движкам и компаниям. Internet Archive использует краулер для сохранения веб-страниц на будущее. Краулеры Amazon бродят по вебу в поисках информации о товарах; согласно недавнему антимонопольному судебному делу, компания использует эту информацию, чтобы наказывать продавцов, предлагающих более выгодные условия на других площадках. ИИ-компании наподобие OpenAI выполняют краулинг веба для обучения больших языковых моделей, которые снова могут фундаментально изменить способы доступа к информации и обмена ею. Способность скачивать, хранить и упорядочивать современный Интернет позволяет современной компании или разработчику работать со своего рода накопленными знаниями всего мира. За последний год рост ИИ-продуктов наподобие ChatGPT и лежащих в их основе больших языковых моделей превратил высококачественные данные в один из самых ценных ресурсов Интернета. Это заставило провайдеров Интернета переосмыслить ценность данных на их серверах и то, кто может получать к ним доступ. Если ограничивать доступ слишком слабо, то веб-сайт потеряет всю свою ценность, если слишком сильно, то он станет невидим в поисковиках. И владельцам нужно постоянно делать этот выбор с новыми компаниями, новыми партнёрами и новыми рисками. Существует несколько разновидностей Интернет-роботов. Можно создать совершенно невинного робота для проверки того, что все ссылки на ваших страницах всё ещё ведут на живые страницы; можно отправить в свободное плавание чуть более опасного, ищущего любые почтовые адреса и номера телефонов. Но больше всего распространён и вызывает больше всего споров обычный веб-краулер. Его задача — находить и скачивать максимально возможные объёмы данных из Интернета. В общем случае веб-краулеры довольно просты. Они начинают с хорошо известного веб-сайта, например, cnn.com, wikipedia.org или health.gov. (Владельцы поисковых движков общего пользования начинают со множества высококачественных доменов, охватывающих различные темы; если кого-то интересует спорт или автомобили, то он просто начинает с автомобильных сайтов.) Краулер скачивает эту первую страницу и сохраняет её куда-нибудь, затем автоматически нажимает на каждую ссылку с этой страницы, скачивает их все, нажимает на ссылки на каждой и таким образом распространяется по вебу. Имея достаточно времени и вычислительных ресурсов, краулер постепенно найдёт и скачает миллиарды веб-страниц. По оценкам Google, на 2019 год было приблизительно 500 миллионов веб-сайтов со страницей robots.txt, указывающей, к чему могут иметь доступ эти краулеры. Структура этих страниц более-менее одинакова: на ней указано имя User-agent, то есть имя, которое краулер сообщает при идентификации на сервере. Агент Google называется Googlebot; агент Amazon — Amazonbot; агент Bing — Bingbot; агент OpenAI — GPTBot. У Pinterest, LinkedIn, Twitter и множества других сайтов есть собственные боты, но не все они упоминаются на каждой странице. (Особенно тщательно к учёту роботов подходят Wikipedia и Facebook.) Внутри страницы robots.txt перечислены разделы или страницы сайта, к которым не разрешён доступ указанного агента, и конкретные исключения, к которым доступ разрешён. Если на странице написано только Для большинства людей проблема «перегруженных роботами серверов» уже довольно давно потеряла свою актуальность. «Сегодня вопрос обычно не в используемых на веб-сайте ресурсах, а в личных предпочтениях. Что вы разрешаете краулить и индексировать, а что нет», — рассказывает поисковый юрист компании Google Джон Мюллер. В прошлом самым важным вопросом для большинства владельцев веб-сайтов заключался в том, разрешать ли Googlebot выполнять краулинг сайта. Принцип взаимообмена здесь прост: если Google сможет выполнить краулинг вашей страницы, то проиндексирует её и отобразит в результатах поиска. Если вы хотите, чтобы вашу страницу могли загуглить, то её должен увидеть Googlebot. (Как и где Google на самом деле отображает эту страницу в результатах поиска — это, разумеется, совершенно отдельная история.) Вопрос в том, хотите ли вы, чтобы Google отъел часть ширины вашего канала и скачал копию вашего сайта в обмен на отображение в поиске. Большинство веб-сайтов отвечало на этот вопрос без раздумий. «Google — наш самый важный паук», — рассказывает CEO Medium Тони Стаблбайн. Google скачивает все страницы Medium, «и взамен мы получаем существенный объём трафика. Выигрывают обе стороны. И так считают все». Такую сделку Google заключила со всем Интернетом: она направляет трафик на другие веб-сайты, параллельно продавая рекламу в соответствии с результатами поиска. И Google, по общему мнению, прилежно соблюдала требования robots.txt. «Почти все известные поисковые движки соблюдают их. Они с охотно выполняют краулинг веба, но не хотят напрягать этим владельцев сайтов... это упрощает всем жизнь», — делится Мюллер. Однако примерно за последний год развитие ИИ положило конец этому балансу. Многим издателям и платформам краулинг их данных для обучения больше казался не обменом, а кражей. «Мы довольно быстро выяснили, что это не просто не было равноценным обменом, но и мы вообще не получали взамен. Буквально ноль», — объясняет Стаблбайн. В своём осеннем заявлении о том, что Medium будет блокировать все ИИ-краулеры, он написал, что «ИИ-компании крадут ценность у авторов, чтобы спамить читателей». За прошедшее время такие настроения стала разделять большая доля представителей медиа-индустрии. «Мы не считаем, что современный "скрейпинг" данных BBC без нашего разрешения для обучения моделей генеративного ИИ происходит в интересах общества», — писал прошлой осенью директор национальных подразделений BBC Родри Талфан Дэвис, заявив о том, что BBC тоже будет блокировать краулер OpenAI. The New York Times тоже заблокировала GPTBot; спустя несколько месяцев газета подала иск против OpenAI, утверждая, что модели OpenAI «разработаны для копирования и использования миллионов защищённых авторским правом новостных статей The Times, расследований, мнений, обзоров, инструкций и так далее». Исследование Бена Уэлша, работающего редактором новостей Reuters, показало, что 606 из 1156 опрошенных издателей заблокировало GPTBot в файле robots.txt. И это касается не только издателей: Amazon, Facebook, Pinterest, WikiHow, WebMD и множество других платформ в явном виде частично или полностью запрещают GPTBot доступ к своим веб-сайтам. На большинстве таких страниц robots.txt GPTBot компании OpenAI остаётся единственным краулером, доступ которого явно и полностью запрещён. Но есть и множество других связанных с ИИ ботов, которые начинают заниматься краулингом веба, например, anthropic-ai компании Anthropic и новый Google-Extended компании Google’s. Согласно проведённому осенью Originality.AI исследованию, 306 из 1000 самых популярных веб-сайтов заблокировало GPTBot, но только 85 заблокировало Google-Extended и 28 заблокировало anthropic-ai. Существуют также краулеры, предназначенные и для веб-поиска, и для ИИ. CCBot, выпущенный организацией Common Crawl, рыскает по вебу в поисках данных для поискового движка, но его данные также используют для обучения своих моделей OpenAI, Google и другие компании. Bingbot компании Microsoft — это и краулер поисковика, и ИИ-краулер. И это лишь те краулеры, которые идентифицируют себя — многие другие пытаются работать в относительной секретности, из-за чего их сложно остановить и даже найти в море другого веб-трафика. Любому достаточно популярному веб-сайту обнаружить скрытный краулер так же трудно, как найти иголку в стоге сена. GPTBot стал главным злодеем robots.txt во многом из-за того, что OpenAI допустила это. Компания опубликовала и рекламировала страницу о том, как блокировать GPTBot и сделала так, чтобы краулер громко идентифицировал себя каждый раз, когда он заходит на веб-сайт. Разумеется, всё это она сделала уже после обучения моделей, и только тогда, когда уже стала важной частью технологической экосистемы. Но гендиректор по стратегии OpenAI Джейсон Квон говорит, что в этом-то и смысл: «Наша компания — один из игроков в экосистеме. Если вы хотите участвовать в этой экосистеме открытым образом, то это взаимообмен, в котором заинтересованы все». По его словам, без такого обмена веб начнёт замыкаться, а это плохо и для OpenAI, и для всех остальных. «Мы делаем это для того, чтобы веб мог оставаться открытым». По умолчанию Robots Exclusion Protocol всегда был разрешительным. Он, как и Костер тридцать лет назад, исходит из того, что роботы в большинстве своём хорошие и созданы хорошими людьми, поэтому по умолчанию их разрешает. По большому счёту, это было правильное решение. «Я считаю, что Интернет в основе своей — общественное творение, и это соглашение, сохранявшееся в течение нескольких десятков лет, похоже, работало», — говорит Квон. По его словам, роль OpenAI в соблюдении этого соглашения включает и бесплатную доступность ChatGPT для большинства пользователей, позволяющая вернуть обществу его вклад, а также соблюдение правил для роботов. Но robots.txt — это не юридический документ, и спустя тридцать лет после его создания он по-прежнему полагается на добрую волю всех участвующих сторон. Запрет бота на странице robots.txt напоминает надпись «девчонкам вход запрещён» в домике на дереве; он передаёт посыл, но в суде никакой силы не имеет. Любой краулер, желающий игнорировать robots.txt, может так и поступить, не боясь при этом практически никаких последствий. Например, Internet Archive в 2017 году просто заявил о том, что больше не придерживается правил robots.txt. «Мы уже долгое время видим, что файлы robots.txt, предназначенные для краулеров поисковых движков, не всегда служат нашим задачам архивирования», — так писал в то время директор Wayback Machine Марк Грэм. И на этом всё. ИИ-компании продолжают множиться, а их краулеры становятся всё более беспринципными, поэтому те, кто хочет переждать процесс развития ИИ, вынужден играть в бесконечную игру в прятки. Им приходится создавать запреты для каждого робота и краулера по отдельности, если это вообще возможно, в то же время сталкиваясь с побочными эффектами. Если ИИ и на самом деле станет будущим для поисковых запросов, как прогнозирует Google и другие компании, то блокирование ИИ-краулеров будет выигрышем в ближней перспективе, но катастрофой в дальней. По обе стороны есть люди, считающие, что нам нужны более качественные, мощные и строгие инструменты для работы с краулерами. Они утверждают, что на кону слишком большие деньги, слишком много новых нерегулируемых сценариев использования для того, что просто полагаться на порядочность всех участников. «Хоть у многих акторов есть свои правила по использованию краулеров, эти правила в целом слишком слабы, а их соблюдение слишком сложно отслеживать», — писали два юриста в своей статье 2019 года о легальности веб-краулеров. Некоторым издателям хочется иметь более детальный контроль над тем, краулинг какой именно информации выполняется и для чего она используется. Google, несколько лет назад предпринявшая попытки к тому, чтобы Robots Exclusion Protocol стал официальным формализованным стандартом, также пыталась снизить важность robots.txt, исходя из того, что это старый стандарт и многие сайты не уделяют ему внимания. «Мы понимаем, что существующие инструменты контроля веб-издателей были разработаны до того, как краулеры начали применять для создания ИИ и исследований. И считаем, что настало время для того, чтобы веб и сообщества разработчиков ИИ начали исследовать дополнительные машиночитаемые средства управления, учитывающие это». Даже несмотря на то, что ИИ-компании сталкиваются с нормативными и юридическими вопросами о том, как они создают и обучают свои модели, эти модели продолжают совершенствоваться, а новые компании, похоже, появляются каждый день. Веб-сайты вынуждены принять решение: подчиниться революции ИИ или оказать сопротивление. Самым сильным оружием тех, кто решил бороться, остаётся соглашение, заключённое три десятка лет назад первыми и наиболее оптимистичными сторонниками веба. Они верили, что Интернет — это хорошее место, в котором находятся хорошие люди, и больше всего они хотели, чтобы Интернет был чем-то хорошим. В том мире и в том Интернете вполне было достаточно изложить свои желания в простом текстовом файле. Сегодня же, когда ИИ полностью меняет культуру и экономику Интернета, скромный текстовый файл уже начинает казаться слишком старомодным. Источник: m.vk.com Комментарии: |
|