Истории«Яндекс.Толока»: Как миллионы людей удаляют порно, оценивают музыку и ответы Алисы

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


И сколько компания за это платит

Если попросить голосового помощника «Алису» поставить музыку для секса, возможно, результатом вы окажетесь удивлены — в плейлисте не будет никаких зажигательных мотивов и ритмичного бита. Треки от искусственного интеллекта больше подойдут для того, чтобы умиротворенно лежать в ванне или гулять по лесу. Типичный пример — «Song of Silence» группы Jazzamor, а из более известного в подборке можно найти «Love Me Tender». Спокойные медленные композиции оказались в списке музыки для секса благодаря разметчикам данных с платформы «Яндекс.Толока». Толокеры прослушали разные отрывки и определили, какой подойдет для релакса, спорта или романтического вечера, а на основе их выборки автоматически сформировались плейлисты.

Именно разметчики данных — та самая невидимая рабочая сила, которая помогает множеству технологических сервисов и компаний. Тысячи людей отсматривают фотографии, чтобы потом использовать их для тренировки искусственного интеллекта, находят его ошибки, расшифровывают голосовые записи и документы. Мы узнали, кто в России выполняет эту работу и сколько можно получить за день, проведенный на «Толоке».

Иллюстрации

Юлия Алексеева

Елена живет в Северодвинске, раньше она работала в войсковой части, на радио и продавцом в магазине, а сейчас постоянного источника дохода у нее нет. «Толоку» она нашла случайно несколько лет назад — просто вбила в поисковике «заработок в интернете» и попала на сайт, на котором действительно платили за выполнение заданий, а не предлагали сначала перевести деньги якобы за обучение или доступ к программе.

В первый же день Елена провела на «Толоке» 14 часов, как она сама признается, потому что увидела «что центы капают на счет, и пошел какой-то азарт». Потом какое-то время женщина сервисом не пользовалась, но, когда понадобился дополнительный заработок, снова вернулась в «Толоку». Небольшой доход — около 15 долларов в месяц — Елена обычно кладет на телефон себе и ребенку. В основном она выбирает задания, которые сама называет просто «машины», но если их нет, то берется за модерацию — удаляет комментарии с матом и оскорблениями или недопустимый контент. «Чаще всего это порнуха, но были кадры и с отрубленной головой, и с расстрелами», — признается Елена, но добавляет, что всегда выполняет даже такие задания. Платят за них примерно по два цента.

Заправщик фотографирует номер машины и значения на экране заправочного пистолета, а потом толокеры вручную вводят цифры

«Машины», которые нравятся Елене, — это разметка данных для беспилотных автомобилей «Яндекса». «Приусы» с красными и черными полоскам на боках и устройством на крыше, напоминающим полицейскую мигалку, хорошо знакомы москвичам, которые часто бывают в районе Хамовников. Хотя за рулем беспилотников и сидят водители-инженеры, они только подстраховывают автомобиль, а не управляют им. Все происходящее вокруг машина видит сама благодаря устройству на крыше — лидару — и компьютерному зрению. Искусственный интеллект понимает, что перед ним автомобили, пешеходы, светофоры, собаки, деревья и дорожные знаки, но, прежде чем алгоритм начнет справляться сам, ему понадобятся данные для обучения. Человек должен загрузить в нейросеть сотни тысяч фотографий реальных дорог, где каждый объект будет обведен и помечен. Именно эту работу и выполняют пользователи «Толоки». С их помощью беспилотник учится распознавать объекты и действовать правильно — останавливаться перед пешеходами или объезжать препятствия.

Елена говорит, что в последнее время ей попадается все меньше заданий, на которых нужно находить или обводить объекты на дороге, но зато появляются новые — вбивать номера машин и отмечать, есть ли на фото заправочный шланг в бензобаке. Во время карантина, когда люди стараются меньше контактировать друг с другом, функция бесконтактной заправки в «Яндекс.Навигаторе» стала более востребованной. Водителю не нужно выходить из автомобиля, достаточно просто открыть в приложении карточку АЗС, выбрать колонку и топливо и перевести деньги. Заправщик фотографирует номер машины и значения на экране заправочного пистолета, а потом снимки попадают к разметчикам-толокерам, чтобы они вручную ввели все цифры.

К услугам разметчиков данных сейчас прибегают практически все технологические компании, среди них — Google, Lyft, Microsoft и Amazon. По данным аналитического агентства Cognilytica, 80 % времени работы над проектами по созданию искусственного интеллекта уходит как раз на сбор, очистку и обработку данных, которые потом используются для машинного обучения. В 2018 году рынок разметки оценивался в 500 миллионов долларов, а к 2023 году, по прогнозам, он вырастет до 1,2 миллиарда долларов.

Данные для крупных американских компаний обычно обрабатывают в Индии. В офисах, похожих на колл-центры, трудятся тысячи сотрудников, которые по несколько часов в день отсматривают фотографии хирургических операций, слушают записи кашля и модерируют посты. Разметчикам приходится сталкиваться с неприятным и даже шокирующим контентом (их рабочие места даже отделили перегородками, чтобы случайно не напугать соседа по офису изображением на мониторе), но заработок в 100–200 долларов в месяц считается приличным, и ради него многие готовы проводить дни, обводя полипы на снимках колоноскопии или удаляя оскорбления.

Большинство толокеров — это люди от 18 до 35 лет, но есть и пенсионеры

Странное название платформы появилось благодаря команде разработки, которая изначально базировалась в Минске. Само слово «толока» означает форму деревенской взаимопомощи, общий сбор крестьян для того, чтобы построить дорогу или собрать урожай. В Беларуси оно до сих пор активно используется, и рядом с офисом разработчиков даже было кафе с таким названием. В «Яндексе» решили, что это понятие отлично передает суть краудсорсинг-сервиса — усилия многих людей дают общий результат. В компании настаивают на произношении слова на белорусский манер — с ударением на последний слог.

Услугами сервиса уже пользуются Ozon и Avito, толокеры модерируют все комментарии на сайтах «Рамблера»

Изначально «Толока» создавалась для нужд поисковой системы «Яндекса». Ей постоянно требуются эталонные оценки — показанные людьми примеры, на которых искусственный интеллект учится отличать подходящие результаты поиска от ошибочных. В 2016 году в «Яндексе» решили освободить штатных сотрудников от этой работы и запустили открытую платформу, где помочь обучению алгоритмов за небольшую сумму мог любой желающий. «Толока» оказалась полезна и для других сервисов компании — сейчас ее используют «Яндекс.Музыка», «Кинопоиск», «Авто.ру», «Дзен» и «Маркет».

Платформа открыта не только для подразделений «Яндекса», зарегистрироваться в качестве заказчика может любой желающий. Так, услугами сервиса уже пользуются Ozon и Avito, толокеры модерируют все комментарии на сайтах «Рамблера». Один из исполнителей рассказал, что ему как-то даже попалось задание по расшифровке архивных документов времен Великой Отечественной войны. Нужно было вбивать трудночитаемый текст с фотографий, потому за задание брались неохотно, и за него несколько раз повышали оплату. Молодой человек уверен, что какая-то компания выиграла многомиллионный тендер по обработке этих документов у государства, а в итоге отправила их толокерам на расшифровку за пару центов.

К помощи толокеров сервисы прибегают не только для разметки данных, но и в случаях, когда нужно быстро опросить несколько тысяч человек. Например, для праздников и важных событий дизайнеры «Яндекса» рисуют несколько вариантов логотипа поисковика — пользователи помогают выбрать лучший. «Если просто показать логотип, то непонятно, что спросить у человека, чтобы он его оценил. А если показать два логотипа и спросить: „Смотри, какой тебе нравится больше“, — то будет довольно легко выбрать. Так мы сравниваем попарно все наши логотипы и спрашиваем несколько тысяч человек, а в результате получаем довольно достоверную картину того, какие изображения людям понятны, нравятся. Это позволяет даже в творческих вопросах принимать решения, основанные на данных. Попарное сравнение можно использовать для самых разных задач», — объясняет Ольга Мегорская.

Иногда надо выбрать, у кого из людей на фотографиях красивее глаза, гуще борода и длиннее нос

Один из исполнителей платформы Николай рассказывает, что ему периодически попадаются такие задания с попарным сравнением, например, надо выбрать, у кого из людей на фотографиях красивее глаза, гуще борода и длиннее нос. Николай работает программистом и потому понимает, что такие кажущиеся смешными опросы используются в серьезных целях — для машинного обучения. Он также берется за разметку дорожных знаков или оценку результатов поиска — также из двух вариантов нужно выбрать тот, который лучше подходит под запрос. Николай говорит, что пользователи могут искать специфические вещи (например, автозапчасти), в которых приходится разбираться. Попадаются и запросы на таджикском и узбекском языках.

Николай обычно берется за задания из «Толоки» в свободное время, он может провести на платформе и пять часов. Он поставил себе цель зарабатывать 100–120 долларов в месяц, то есть в день нужно сделать заданий на 3–4 доллара. Для Ярославля, где живет молодой человек, это вполне приличные деньги, их Николай тратит на досрочное погашение ипотеки или откладывает на отпуск.

Исполнители с «Толоки» помогли выбрать имя для голосового помощника «Алисы» — их попросили рассказать, какие из предложенных женских имен ассоциируются у них с будущим и добротой. Также толокерам давали послушать разные варианты сгенерированного нейросетью голоса ассистентки и спрашивали, какой из них больше похож на человеческий. Сейчас исполнители следят за поведением «Алисы». Например, нужно определить, естественную ли реплику она говорит, подходит ли ответ к вопросу, который задал пользователь. Здесь нужно выбирать из трех вариантов — плохой и неточный ответ, нейтральный общий или хороший, то есть исчерпывающий и подходящий. Толокеры видят только обезличенные фрагменты вопросов в прошедшем времени, они не знают, о чем конкретно  спрашивали Алису.

Толокерам нужно выбрать, какой ответ подойдет, когда «Алису» называют тупой или посылают в жопу

В этом задании есть своя сложность: пользователи далеко не всегда просят поискать рецепт или рассказать о погоде, часто с «Алисой» ведут философские беседы или даже оскорбляют ее. Толокерам нужно выбрать, какой ответ подойдет, когда ассистентку называют тупой или посылают в жопу. Здесь приходится искать вариант, который прозвучит достойно (все-таки у виртуальной помощницы есть характер, и она не должна давать себя в обиду) и одновременно будет вежливым, чтобы не задеть чувства пользователя.

Поскольку голос «Алисы» формируется из набора звуков, часто некоторые фразы она говорит нечетко, проглатывает звуки или выбирает неправильную интонацию. Такие записи тоже отправляют на прослушивание исполнителям с «Толоки», чтобы они выбрали из предложенных вариантов тот, где голос помощницы звучит приятно и похож на настоящий.

Несколько месяцев назад официальный форум «Толоки» закрыли без объяснения причин — пользователям пришлось переместиться на неофициальный, а также в специальную комнату в Discord, телеграм-чат и группы в соцсетях. Там толокеры в основном обсуждают, как делать разные задания, дают друг другу подсказки, ругают сервис и заказчиков. Главная претензия — невысокая оплата. На платформе все расчеты происходят в долларах, и сейчас, когда курс вырос, исполнители могли бы зарабатывать больше, но при этом расценки на некоторые задания снизились, а их количество стало меньше. Из-за карантина и кризиса многие сидят дома или вообще остались без работы и пришли на «Толоку», так что заданий на всех не хватает.

Пользователям регулярно подсовывают задания-ловушки, на которые заказчик заранее знает правильный ответ

В среднем за выполнение одного несложного задания можно заработать 5–10 центов. Обычно задача обвести по контуру все объекты делится между разными пользователями: одного человека просят найти на фото машины, другого — обвести машину, третьего — посмотреть на картинку с обведенным объектом и ответить, сделано ли это правильно и аккуратно. «Если дать сложное задание каким-то неизвестным людям по ту сторону экрана и никак не контролировать выполнение, естественно, получится что-то некачественное, плохое. Так делать не нужно. Нужно как следует декомпозировать каждую задачу на простые части, на простые элементы, а потом настроить контроль качества», — говорит Ольга Мегорская.

Каждую часть большого задания в «Толоке» отправляют нескольким исполнителям. Также им регулярно подсовывают задания-ловушки, на которые заказчик заранее знает правильный ответ. Для оценки результатов используются математические методы. «Заказчику не нужно доверять конкретному толокеру, нам нужно доверять нашей выстроенной системе, конвейеру, который проверяет задания. А толокеру при этом не нужно принимать высокоуровневые решения, а нужно просто ответить на вопрос, совпадает ли номер автомобиля, есть в комментарии мат или нет, присутствует ли на фото дорожный знак», — объясняет Мегорская.

Валентин часто берется за оплачиваемые задания в интернете, причем иногда на них даже удается вполне неплохо заработать. Как-то за полторы тысячи рублей он полчаса общался по скайпу о том, как покупал квартиру, а за рассказ о своей кошке и ее любимой еде молодой человек получил 36 евро. В последнее время на «Толоке» он бывает редко, так как нашел постоянную работу, но примерно за три года пользования сервисом заработал там полторы тысячи долларов. Их Валентин потратил на поездку на Кипр — просто захотелось отдохнуть, а толокерские деньги как раз удачно оказались на счету.

Валентин старался выбирать пешеходные задания — когда нужно сходить по назначенному адресу и проверить, есть ли там организация, узнать ее часы работы, сфотографировать здание. «Я обошел весь город Владимир, где тогда жил, все его закоулки. Знал, как называются все улицы, где какая организация. Я делал это даже не ради денег, а для души. Заработал 10 долларов — пошел в парк, выпил сидра. Бывало, что я садился на велосипед и мог сделать максимум 40–50 долларов за один день», — вспоминает Валентин. Однажды нужно было сфотографировать аптеку, но по указанному адресу находилась не торговая точка, а музей «Старая аптека». Проверяли результат другие толокеры, которые задание сначала не приняли, и Валентину пришлось добиваться справедливости. В другой раз он ездил к «Владимирскому централу», чтобы сфотографировать церковь. Она находится на территории тюрьмы, потому пришлось ограничиться только снимком купола над оградой, но задание все же приняли.

Один толокер рассказывал, как фотографировал частный жилой дом, из которого вышел хозяин и стал угрожать

Часто задания приводят исполнителей к заброшенным зданиям, в промзоны или неблагополучные районы. Один из участников телеграм-чата рассказывал, как фотографировал частный жилой дом, из которого вышел хозяин и стал угрожать молодому человеку, так как посчитал, что снимок дома нужен, чтобы спланировать ограбление. На вопрос о том, стоил ли риск заработанных денег, толокер честно признался, что все заработанное в тот день, как обычно, потратил на еду.

Полевые задания, действительно, оплачиваются лучше тех, которые можно делать дома за компьютером, в среднем за них дают 2–5 долларов. Раньше самые активные пешеходы получали еще и бонусы — за 20 выполненных заданий сверху полагался доллар. Один пользователь объездил все города Подмосковья и получал в месяц дополнительно по 100 долларов в качестве бонуса. Но с начала карантина полевые задания в «Толоке» встали на паузу — заказчикам рекомендуют не создавать их, чтобы не рисковать здоровьем исполнителей. Еще в конце марта в соцсетях сервиса толокерам рекомендовали не выходить из дома, на что один из пользователей платформы написал в комментариях: «Опасно не нахождение на улице, а ваши ценники».


Источник: www.the-village.ru

Комментарии: