Как 87 миллионов записей, “стянутых” из Facebook стали рекламной кампанией, которая могла повлиять на выборы?

2018-05-23 05:58

Как 87 миллионов записей, “стянутых” из Facebook стали рекламной кампанией, которая могла повлиять на выборы? Что нужно для сбора настолько большого количества данных? И что эти данные говорят о нас?

Скандал с Cambridge Analytica поднимал вопрос за вопросом, но технология, используемая компанией, объявившей о закрытии на прошлой неделе, для многих до сих пор остается загадкой.

Для 87 миллионов людей, пытающихся понять, что сделали с их данными, я отправился к Кристоферу Уайли, бывшему сотруднику Cambridge Analytica, который рассказал об несколько проблематичных операциях компании изданию Observer. Уайли говорит, что им нужно было знать совсем немного о науке о данных, о скучающих богатых женщинах и о человеческой психологии.

Шаг первый, говорит он по телефону, пока ждет поезд. “Когда вы разрабатываете алгоритм, нужно создать “тренировочный сет” [набор]. Итак: неважно, что вы хотите узнать с помощью науки о данных, сначала придется поработать старомодным способом. Перед тем, как использовать лайки из Facebook, чтобы предсказывать, что за человек за ними скрывается, нужно дать примерно пару тысячам человек заполнить тест о их личности на 120 вопросов.

“Тренировочный сет” — это данные как они есть: ими могут быть лайки в Facebook, результаты психологических тестов — и другие источники сведений о человеке. Самое главное, каждый из этих источников должен содержать “функциональный сет”. “Это “прослойка” из данных, которые потом будут использоваться для прогнозов, — говорит Уайли. — В случае с CA это данные Facebook, — но прослойкой могут быть, например, тексты — и алгоритм будет обрабатывать естественный язык [natural language, — прим.пер] — или clickstream данные — данные о том, как человек пользуется интернетом, на что и как быстро кликает и т.д. “Все это — функциональные данные, необходимые вам, чтобы предсказывать [поведение пользователя]”.

С другой стороны, вам понадобятся “целевые переменные” — по словам Уайли, это “вещи, которые вы пытаетесь предсказать”. В нашем случае это черты характера или политические взгляды.

Если вы пытаетесь предсказать одну вещь с помощью другой, сильно поможет взглянуть на обе одновременно. «Если хотите узнать связь между лайками Facebook в функциональном сете и личностными характеристиками по определенным целевым переменным, нужно смотреть на оба набора данных», — говорит Уайли.

Данные Facebook, лежащие в основе истории Cambridge Analytica — очень богатый ресурс в мире науки о данных — и был таким и в 2014 году, когда Уайли начал работать в этой области. Личностные характеристики найти сложнее: несмотря на разнообразие тестов BuzzFeed, придется приложить достаточно много усилий, чтобы убедить кого-то пройти опросник на 120 вопросов (это, кстати, длина краткой версии стандартного психологического опросника Ipip-Neo).

«Достаточно много», тем не менее, понятие относительное. «Для кого-то заполнить опросник — это вопрос финансовый, если вы, например, студент или ищете, где можно заработать $5”. Оплата за опрос варьировалась от $2 до $4. Больше всего платили “труднодоступным группам” — тем, кто вряд ли бы заполнил опрос просто так. Такой группой — меньше всего заинтересованной и больше всего заработавшей — были мужчины-афроамериканцы. “Другие заполняли опрос из любопытства или от скуки. Богатых белых женщин оказалось очень много. Живете вы в Хэмптоне, нечем заняться вечером, потому проходите опрос для исследования потребителей”.

120 вопросов в личностных тестах использовали, чтобы распределить людей на пять отдельных осей — модель «пяти факторов». Еще она называется OCEAN, т.к. состоит из открытости (openness to experience), добросовестности (conscientiousness), экстраверсии (extraversion), покладистости (agreeableness) и невротизма (neuroticism).

Эти черты “сохраняются” с течением времени и одинаковы для разных культур . Они составляют одинаковые кластеры”. Например, те, кто называют себя «шумными», называют себя ещё и “компанейскими” и, если они считают, что это описание им подходит — вероятнее всего, они согласятся с ним и в следующем. Кластеры черт «работают» в каждом языке. С другой стороны, если человек отвечает на вопрос “Считаете ли вы себя шумным?” отрицательно, скорее всего он и те, кто ответил положительно, будут обладать совершенно разными чертами характера.

Благодаря таким свойствам модели она стала полезной для создания профилей аудитории, говорит Уайли, в отличии от других популярных способов профайлинга — например, типологии Майерс-Бриггс. На тестовой стадии исследования Facebook практически не вовлекался. Опросы выкладывались на коммерческих сайтах по исследованию данных — сначала на первой Mechanical Turk от Amazon, потом на ресурсе компании Qualtrics. (Переход случился из-за того, что Amazon посчитал, заполнение опросником устаревшим и знакомым многим методом, что сильно влияет на результаты).

Facebook присоединился к игре только в конце. Чтобы получить оплату за опросник, людям нужно было залогиниться в социальную сеть и дать приложению с опросником, которое разработал кембриджский профессор Александр Коган, доступ к личной информации. Профессор типировал людей по лайкам в Facebook — это исследование дало идеальный для спонсируемой Робертом Мерсером Cambridge Analytica “проход” в мир социальной сети. (Коган говорил, что компания удостоверила его: она использует данные в рамках закона и что его выставили козлом отпущения и Facebook, и Cambridge Analytica).

Чтобы приступить к опросу, времени нужно было немного. “Нажимаешь на приложение, кликаешь “продолжить”, получаешь код на оплату”. Но в эти секунды происходили сразу две очень важные вещи. Во-первых, приложение собирало все данные, которые только могло, о только что вошедшем в систему пользователе. В методе сбора профиль был целевой переменной, а все данные в Facebook “функциональным сетом”: у тех, кто анализировал данные, были профили всех — их использовали как “базу” поиска нужной информации — нужных людей.

Кроме того, профиль давал идентифицирующую информацию: настоящее имя, месторасположение и контакты. Через опросники на сайтах этого было не получить. “Это значило, что можно взять результаты и сопоставить их с реально существующим человеком — реально существующим избирателем”.

Во-вторых, приложение делало ровно то же самое для всех друзей пользователя, которые его установили. Внезапно сотни тысяч людей, которым вы заплатили пару баксов, чтобы заполнить опрос, чьи личности были загадками, стали миллионами заполненных профилей в Facebook. Их можно было читать, как открытую книгу.

Тут и наступило время финальной трансформации. Как превратить несколько сотен тысяч личностных профилей в пару миллионов? Большая компьютерная мощность и массивная матрица вероятностей. “Даже если размер вашей выборки — плюс-минус 300 тысяч человек, ваш функциональный сет равен 100 миллионам”, — говорит Уайли. Каждый лайк в Facebook, обнаруженный в наборе данных создавал свою отдельную колонку в нереально большой матрице. “Даже если пример всего один на весь набор — это все еще функциональная находка”.

“Эти данные потом поместили в подборку моделей, — говорит Уайли. — Это когда вы используете разные семейства или подходы к машинному обучению, так как у каждого из них есть свои сильные и слабые стороны… а потом они “голосуют” за вероятности. Вы объединяете результаты и делаете вывод”. Именно здесь наука о данных становится искусством о данных: каждый подход функционирует в модели неодинаково — и нет правильного способа “настроить” их пропорции. В академическом мире это обычно называется “студенческим путем” — смысл в том, что единственное, что нужно делать — это двигаться вперед методом проб и ошибок. Но сработало все же хорошо. В конце, по словам Уайли, “мы создали 253 алгоритма, а значит — на каждый профиль у нас было 253 предсказания”. Цель была достигнута: модель могла взять данные о лайках испытуемого и “от противного” заполнить полностью остальные колонки его профиля — внести данные о его личности, политических предпочтениях и так далее.

К концу августа 2014 года у Уайли получил в распоряжение 2.1 миллиона профилей из 11 целевых штатов Америки. План был в том, чтобы транслировать сообщения для республиканской кампании, поддерживаемой Ребеккой Мерсер и Стивом Бэнноном, ведущую к внутрипартийным выборам 2016-го (праймариз, — прим. пер). (Уайт ушел до их проведения). “Информация миллионов — избирательные, потребительские и данные с профиля Facebook “смешанные” в один профиль — постоянно “обрабатывали” 253 алгоритма”. Эти 253 предсказания были “секретным соусом”, который Cambridge Analytica предлагала своим клиентам.

Используя Facebook, рекламщики обычно ограничиваются демографическими данными и несколькими простыми алгоритмическими категориями — они, допустим, знают, что вы любите джаз, или что болеете за какую-то спортивную команду. Но с 253 предсказаниями Cambridge Analytica могла, по словам Уайли, делать рекламу, которую не мог не делать больше никто: невротичный, экстравертивный и покладистый демократ читал сообщение, отличающееся от сообщения, которое читал такой же демократ — но интеллигент, эмоционально стабильный, с интровертным типом личности. Каждое сообщение было призвано подавить их желание голосовать — но если бы эти сообщения поменяли местами, они бы оказали противоположный эффект.

Уайли приводит в пример успокаивающее политическое заявление о том, что некий кандидат выступает за создание новых рабочих мест. “Рабочие места в экономике — хороший пример, сам по себе лозунг не несет никакого смысла. Все в экономике за создание рабочих мест. В этом плане говорить “я создам рабочие места” или “я планирую улучшить трудоустройство”, — значит, не отличаться от конкурента”.

“Но выяснилось, что когда вы понимаете, что такое работа для разных людей, разные люди реагируют и вовлекаются в контекст от разные конструктов — с разными мотивациями и ценностями, которые пересекаются с их взглядами”.

На практике это означает следующее: одна и та же лесть, завернутая в разные формулировки для разных личностей, создает впечатление, что кандидат сочувствует избирателю, знает, что он чувствует. “Если вы говорите с добросовестным человеком” — с тем, кто набирает много баллов по части С модели Ocean — “вы говорите о возможностях преуспеть и ответственности, сопутствующей работе. Если это открытый человек — о возможности расти как личность. С невротиком же лучше говорить о безопасности, которая так нужна в семье”.

Из-за сетевой природы современных рекламных кампаний в теории все эти сообщения можно доставить случайно разным группам. В конце кампании, как только сообщение “пустило корни”, их даже можно автоматизировать — в стиле Mad Libs — алгоритмом, играющим со словарем, чтобы найти подходящую комбинацию слов и завоевать разные сегменты аудитории.

Конечно, не все сообщения льстивы. Одно сообщение, например, было использовано, чтобы “подзадорить” правое крыло, выступающее против однополых браков. “Забавно, что такое обидное и гомофобное сообщение что оно такое обидное и гомофобное создавала команда геев, — говорит Уайли. — Его отправляли добросовестным людям. На картинке был словарь и надпись “Поищите брак и возвращайтесь ко мне”. Для добросовестных людей, это сообщение убедительное: словарь — это источник порядка, а “добросовестные” люди — приверженцы структуры”.

В какой-то момент психометрическое таргетирование ушло в реальность рефлексов. Изображения стен стало очень эффективным для иммиграционного вопроса, например. “Добросовестные люди любят структуру и стена для них — логичное решение этого вопроса. Вы можете создать сообщение, которое будет казаться бессмысленным одним людям и очень жизненным — другим. Если вы покажите эту картинку неполитизированным людям, одни не догадаются, что она посвящена иммиграции — а другие поймут сразу”.

Уайли считает, что главная проблема в том, что политики хотят наполнить начинкой свои “невкусные белые тосты”. “А невкусный белый тост никто не хочет”. И работа данных, по его словам, в том, чтобы найти тот-самый-вкус, который сделает тост привлекательным.

Без сомнений таргетинг Cambridge Analytica очень сложный — но остаются вопросы о психометрических моделях компании. Уайли — не лучший человек, чтобы на них отвечать. Когда Коган свидетельствовал в парламенте в апреле, он предположил, что модели были едва-едва эффективнее, чем модель Ocean в применении к живым людям. Может, этого было достаточно — а может CA врали. И даже если людей верно распределили по пяти фактором, действительно ли рекламные сообщения, направленные на них — всего лишь персонализированные воззвания к любви к порядку или страху чужих?

В этом определенно что-то есть. Но лучше посмотрите на патент, заполненный в 2012-ом году на “определение черт личности пользователя через социальные сетевые системные коммуникации”. “Сохраненные характеристики личностей можно использовать как критерии для таргетинга в рекламных кампаниях… чтобы повысить вероятность того, что пользователь… положительно взаимодействует с выбранной рекламой”. Автор сообщения? Сам Facebook.

Источник: The Idealist

Как 87 миллионов записей, “стянутых” из Facebook стали рекламной кампанией, которая могла повлиять на выборы?

Комментарии: