reCAPTCHA — система, разработанная в университете Карнеги — Меллон для защиты веб-сайтов от интернет-ботов и одновременной помощи в оцифровке текстов книг

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2016-12-14 06:03

ИТ-гиганты

reCAPTCHA — система, разработанная в университете Карнеги — Меллон для защиты веб-сайтов от интернет-ботов и одновременной помощи в оцифровке текстов книг. Является продолжением проекта CAPTCHA.[1] В сентябре 2009 года reCAPTCHA была приобретена компанией Google. На начало 2011 года reCAPTCHA осуществляла оцифровку архивов газеты «The New York Times» и книг, доступных в Google Book Search.

Весной 2012 года Google запустил эксперимент по распознаванию изображений из Google Maps и Google Street View с помощью сервиса ReCAPTCHA.[2]. По состоянию на июль 2013 года, в сервисе ReCAPTCHA продолжают предлагаться для распознавания фрагменты снимков из Google Street View; как правило, это фрагменты, на которых изображены номера зданий. Таким образом, первоначальный девиз ReCAPTCHA — Stop Spam, Read Books — сегодня имеет мало общего с тем, для каких целей на самом деле используется эта система.

В самом начале 2015 года ReCAPTCHA была обновлена. Теперь пользователю предлагают просто поставить галочку в чекбоксе, после нажатия на чекбокс пользователю могут предложить выбрать все картинки, которые попадают под заранее установленные условия например, выбрать все торты.

Принцип работы[править | править вики-текст]

В отличие от традиционных систем распознавания пользователя как человека путём введения определённого набора символов и цифр, система reCAPTCHA предлагает пользователю ввести два слова. Одно из них уже распознано и известно системе, второе слово системе неизвестно и она не способна его распознать программой распознавания текста. Второе слово берется из источника, требующего распознавания (например, книги). Проверка и прохождение «капчи» осуществляется по тому слову, которое известно системе. Неизвестное второе слово вводить не обязательно. Второе слово, введённое пользователем, сохраняется в системе и используется в качестве возможного варианта распознавания. Окончательное распознавание слова производится путём выбора слова, наиболее часто используемого для ввода. Система reCAPTCHA предоставляет пользователям изображения для распознавания и собирает результаты, после чего передает их организаторам оцифровки материалов.[1]

Влияние[править | править вики-текст]

Система широко используется такими сайтами, как Facebook, TicketMaster (англ.)русск., Twitter, StumbleUpon, Steam (10 января 2015), «Живой журнал» и примерно 350 000 других сайтов. В день оцифровывается примерно 100 миллионов слов, что может давать примерно 2,5 миллиона книг в год. Количество отдельных людей, которые помогли оцифровать как минимум одно слово из книги, оценивается в 750 миллионов человек.[1] Эффективность подобного метода достаточно высока, поскольку системе предоставляется несколько распознанных вариантов.

Поскольку слова выводятся в случайном порядке, то неизбежно возникают курьёзные сочетания слов. Это породило интернет-мем «inglip», когда люди делают снимок экрана двух слов, предоставленных системой reCAPTCHA и дорисовывают курьёзные рисунки.[1]

Критика[править | править вики-текст]

Пользователи вынуждены вводить в два раза больше текста, чем требуется для данной формы теста Тьюринга, не получая за это никакого вознаграждения. Доход от использованного распознанного текста остаётся корпорации Google.

Тем не менее, держатели сайтов вправе оставить за собой выбор способа защиты от ботов.

Помимо этого, reCAPTCHA подвергается критике пользователей из-за того, что картинки с трудом распознаются даже человеком.

Пользователь не обязан вводить оба слова. Одно из них не проверяется, узнать его довольно легко: в разное время проверяемое слово «зашумлялось» двойным контуром, линиями и геометрическими искажениями. К тому же в непроверяемое слово иногда попадают знаки препинания, текст на других языках, математические формулы и т. п. Также у непроверяемого слова возможна инверсия цветов фона и букв.

С непроверяемым словом тоже есть проблемы — сложное слово, оторванное от контекста, может быть опознано неверно. Например, Captain Infernet иногда опознавали как Internet.[3]

При слишком частых запросах CAPTCH’и с одного IP адреса reCAPTCHA становится почти нечитаемой, что сильно осложняет её ввод при использовании программного обеспечения Tor (так как частота запроса капчи с выходных узлов тора намного больше, чем с обычного пользовательского IP). Кроме того, в подобных случаях оба слова, предлагаемых пользователю для распознавания, являются проверяемыми, то есть, reCAPTCHA начинает действовать как любая другая система для защиты от ботов.

Комментарии: