Расшифровка вебинара о Big Data

2016-11-17 12:57

Представляем вам текстовую версию выступления Григория Мирошникова, одного из ведущих российских специалистов в области больших данных, работающего Big Data Product Manager в oneFactor, компании–лидере по развитию сервисов искусственного интеллекта, технологическом партнере «Мегафона». Вебинар назывался “Новая нефть. Как использовать Big Data, чтобы стать цифровым шейхом?”

что такое Big Data,
какие бывают примеры применения Big Data,
какие бывают типы Big Data команд,
какие бывают роли в Big Data командах,
подробно остановимся на роли Data scientist и Big data manager, обсудим особенности трудоустройства и работы.

На самом деле Big Data — широкое понятие. Сейчас специалисты, которые работают в Big Data, перестают использовать термин Big Data и придумывают еще несколько терминов дополнительно к этому. Я предложил здесь определение, которое в большей степени соответствует именно целям нашего сегодняшнего вебинара.

То есть Big Data — это инновационные, технологические и алгоритмические способы оптимизации процессов принятия решений на основе данных. Big Data — это очень междисциплинарная отрасль. По сути она находится на пересечении Big science, технологических аспектов обработки данных и бизнеса (в более широком понятии, не обязательно только коммерческие, могут быть и некоммерческие организации).

На самом деле, на мой взгляд, есть некая эволюция процессов принятия решений. В любой отрасли и любой компании первый этап — решения принимаются не на данных, данных либо очень мало или их практически нет.

Далее второй этап — решения принимаются с использованием данных, но их всё равно в большей степени до сих пор принимает человек. То есть данные — это некий помощник, там могут быть модели какие-то, но данные — это в большей степени помощник для принятия решения для аналитика. Например, аналитик анализирует какой-то канал трафика в маркетинге, видит, что трафик растет, рентабельность падает и дальше принимает какое-то решение. Может быть, у него есть модель рентабельности, она ему помогла здесь, но все равно на самом деле решение он принял здесь сам, не модель приняла за него решение.

И наконец, есть третий этап — model-driven решения, это когда на самом деле человек уже в меньшей степени участвует в процессе принятия решения, то есть уже алгоритмы в основном принимают решения за человека, как бы это ни страшно звучало. Но это уже во многих отраслях есть. Просто логично, что на самом деле главными потребителями и драйверами развития Big Data являются отрасли или отделы, или направления, которые уже пришли на третий этап. То есть они уже очень заинтересованы, чтобы модели и данные были очень качественными. Здесь есть хрестоматийные примеры, как оценка кредитоспособности для финансовых организаций, скоринговая карта, которая построена на основе машинного обучения — в этой отрасли такой подход это уже стандарт.

Товарные рекомендации в интернет-магазинах, они уже давно строятся не на просто соотношении положенного к похожести этих рекомендаций, к похожести каких-то товаров, но и на основе опыта общения юзера, как люди кликнули, потом они купили что-то — это всё строится, на этом все строятся модели и они уже используются для формирования рекомендации.

Или, например, всё, что связано с таргетингом — отбор целевой аудитории, для рекламного сообщения или для кампайн-менеджмента. Рекламное сообщение — это в интернет-рекламе, на любой интернет-площадке уже автоматически отбирается, кому показывать то или иное рекламное сообщение. Для кампайн-менеджмента в телекоме, например, тоже автоматически отбираются люди и предложения, которые им показывают.

Но при этом на самом деле Big Data может использоваться и на более ранних этапах, то есть технологии уже так быстро развиваются, что Big Data может условно быть полезной и на первом этапе принятия решений. Например, геоаналитика для оффлайн-ритейла.

Оффлайн-ритейлер просто не знает, кто те люди, которые к нему приходят, откуда они.  Геоаналитика позволяет ему закрывать этот пробел в данных.

Или в data-driven профилирование аудитории. Например, в нашем примере с маркетологом, который анализировал трафик, а он теперь еще и может поток профилировать по каким-то сегментам. До сих пор решение принимает он, но ему Big Data помогает принимать эти решения.

Здесь есть два важных момента. Во-первых, мы говорим здесь об общей ситуации в отрасли, то есть на самом деле если отдельно взятая компания в какой бы продвинутой отрасли она не была, если у нее нет культуры принятия решения на данных, то она может не пользоваться всеми благами развития технологий. Во-вторых, на самом деле технологии так быстро развиваются, что Big Data может помочь какой-то конкретной отрасли пройти этот путь очень быстро.

Я как раз хочу это проиллюстрировать на примере одной конкретной отрасли — наружной рекламы. У людей, которые занимаются размещением и анализом этой рекламы на самом деле очень мало инструментов померить, а кто реально видел эту рекламу. И здесь появляется, как мы говорили, первый этап — появление принципиально новых данных, которых не было, это данные нагрузки на базовые станции сотовых операторов. Здесь, причем, очень важно, что здесь не просто появление каких-то новых данных, это и использование процессов алгоритмов машинного обучения, и использование технологии обработки данных для того, чтобы эти сырые данные, как человек “скачет” между базовыми станциями. Нужно применить алгоритмы, чтобы из этих скачков образовался реальный паттерн перемещения, близкий к реальному перемещению человека. И тогда, если мы видим, что билборд стоит на Ленинском проспекте, мы видим, можем понимать, видел ли его человек или нет. На первом этапе мы таким образом просто внесли данные в отрасль.

Что происходит дальше? Второй этап — когда нам нужно улучшать качество принимаемых решений, которые еще принимает человек, но у него появляется больше данных. Естественно, в наружной рекламе, этой отрасли много лет, у них есть медиа измерители, они оценивают, как-то модели контактов с поверхностью. Как это происходит обычно? Раз в год человек стоит со счетчиком, считает, сколько людей проходит мимо билборда без учета сезонности. Далее учитываются, делаются какие-то опросы для того, чтобы спрофилировать эту аудиторию — по полу, возрасту, уровню дохода и так далее. Но вы понимаете, что это малюсенький кусочек выборки, на базе которого потом принимаются решения.

Вся парадигма Big Data — это то, что мы можем принимать решение на 100% выборке и на самом деле за счет 100%-ной выборки мы можем не настолько обращать внимание на какие-то выбросы, потому что на 100% выборки они будут сглаживаться, чего мы не можем делать, когда у нас какой-то маленький дата-сет, где большая часть работы — это вычищать данные. Соответственно, мы сделали этот второй шаг, мы добавили данных и мы помогаем теперь принять качественные решения на основе данных. Еще плюс при этом появляются какие-то функциональные возможности, интересные специалистам.

Появляется возможность замерять конверсионный эффект,  например, то есть реально увидеть, что человек смотрел,  видел билборд "Пятерочки" и он зашел потом в "Пятерочку".  Это такие принципиально новые возможности.

Переходим на третий этап. Это уже будущее, но не такое далекое. Мы помним, что третий этап — это когда модели принимают решение за человека. На самом деле, если мы возьмем не обычный билборд, а цифровой билборд, когда это телевизор по сути, экран, то уже несколько компаний, в том числе OneFactor и Яндекс заявили о том, что они будут разрабатывать решения технологические для автоматизированного формирования расписания в наружной рекламе. Мы видим, что здесь начинают работать абсолютно те же принципы, которые работают в диджитал-рекламе, в “яндекс директе”, например, где автоматически определяется, что кому показывать.

Мы видим на примере одной отрасли, как Big Data помогает пройти путь от отсутствия данных, до принятия решений на хороших данных и далее к автоматическому принятию решения.

Мы уже говорили, что большие данные это стык трех областей — Data science, бизнеса и технологий. Компании на рынке также сфокусированы на каком-то одном из этих блоков.

Первая группа — это те, кто, в принципе, вообще всё делают сами, у них достаточно данных и достаточно много ресурсов для того, чтобы делать по сути Big Data in-house. Это, например, Сбербанк, Mail.ru, Яндекс, мобильные операторы. Сбербанк недавно в очередной раз подчеркнул, что Data science они видят как одну из опор своего конкурентного преимущества в будущем. Близкий достаточно вариант — это когда из большой корпорации выделяется отдельный бизнес. Его задача — формировать сервисы на основе Big Data. Например, OneFactor — компания, которая принадлежит “Мегафону”, она умеет формировать очень узкие нишевые профили для интернет-рекламы.

Другие компании в большей степени фокусируются на технологиях, то есть, грубо говоря, на железках, потому что это действительно большие данные, петабайты данных, соответственно, здесь большие требования к тому, как эти данные будут обрабатываться. Например, Teradata или SAP. Есть компании, которые в большей степени сфокусированы на Data science, они могут осуществлять Data science консалтинг. То есть они приходят, работают на first party data — так называемых на данных клиента, используют свои наработки в машинном обучении и делают проекты внедрения. Например, Yandex Data Factory или Glowbyte-консалтинг.

Здесь важно понимать, что Big Data — это кросс-дисциплинарная вещь. Соответственно, если вы хотите здесь работать, то, как минимум, должна быть:

одна из этих трех областей, в которой вы понимаете что-то на экспертном уровне.
вторая, в которой вы понимаете на среднем уровне,
и третьей на самом деле тоже надо что-то понимать.

Это накладывает большие ограничения на барьер входа по компетенциям.

Если у вас превалирует компетенция в Data science, то вам надо идти в Data scientist, как их гордо называют. Это не обычный аналитик, это посерьезней. Здесь высокие требования и к владению математическим аппаратом, и к навыкам программирования.

Data engineer или developer, или architect, по сути — разработчики. Мы сегодня меньше про них поговорим, потому что разработчики — это вообще отдельная тема для вебинара, их навыки.

И это manager, соответственно Big Data manager, product manager или project manager. На самом деле пока что такого сильного разделения нет, потому что очень сильно зависит от компании. Где-то компании нацелены на продукционализацию того, что они делают, где-то компании, которые в большей степени делают проекты. А в большинстве случаев на самом деле Big Data manager делает и то, и то.

Более подробно остановимся на ролях Data scientist и Big Data manager. В каждой роли поговорим, какие главные навыки, как их освоить, как выглядит рабочий процесс.

Data scientist.

Главный навык, который нужен этому человеку — это умение работать с данными и их моделировать. Как это более подробно раскладывается? Во-первых, математика, то есть это требования к пониманию статистики, машинного обучения, задач оптимизации и эти требования на самом деле очень серьезные. Я очень мало видел примеров, когда люди работали с Data science и не понимали, как работают их модели. Потому что когда вы делаете модель, вам надо понимать, как она работает, а все модели по сути построены на высшей математике.

Программирование, в этой области уже сформировалось по сути два основных языка программирования — это R или Python, обычно знают либо тот, либо другой. Никуда не деваются базовые навыки аналитика — Excel, SQL, в принципе, от вас ожидают, что и базовые какие-то навыки аналитика у вас будут, вы сможете что-то в базовом виде посчитать, даже в Excel.

Есть еще два навыка, которые встречаются далеко не всегда и которые надо, наверное, знать в более базовом представлении — это визуализация данных, потому что часто то, что вы делаете, для интерпретации хорошо на самом деле уметь визуализировать данные. На самом деле не обязательно, но визуализация данных очень помогает для интерпретации модели. И business sense. Что это такое? Это на самом деле понимание предметной области того, что делает ваша модель и для какой конкретно предметной области она это делает. Я могу здесь привести такой смешной, утрированный пример, который приводила на какой-то конференции компания Крок.

Они делали систему предсказания автоматизированной закупки для продуктового ритейла и в результате в маленький продуктовый ларек ушла целая фура водки.

Это такой утрированный пример, когда по сути нужно было поставить какое-то ограничение на верхнюю планку на модель, поскольку понятно, что есть какое-то ограничение по спросу. Но это пример того, что нужно понимать на самом деле, в какой области будет применяться ваша модель, потому что так можно очень легко отсеять какие-то очевидные, неправильные решения, которые модель предлагает и это просто будет для вас поводом посмотреть поглубже в модель и посмотреть, может там что-то неправильно считается.

Как освоить.

Тут две новости, хорошая и плохая. Плохая — что осваивать надо много и это действительно навыки достаточно сложные. Хорошая — что Data science — это, наверное, одна из самых развитых областей в онлайн-образовании. Есть очень много ресурсов онлайн, удаленных, начиная с Coursera, заканчивая курсами для обучения языкам программирования, которые я здесь привожу — datacamp, codecademy, Coursera есть. Два примера хрестоматийных специализаций — Data science университета Джона Хопкинса или есть специализация на русском “Анализ данных”, которую сделали в Физтехе и Яндексе. Там разница в том, что одна — там всё на R, другая — всё на Python. На самом деле их очень много, все топовые, понятно, можно просто заходить на Coursera и по топовым специализациям смотреть.

Появляются очные курсы. Например, курсы Высшей школы экономики и Школа анализа данных Яндекс.

Если человек хочет стать Data scientist, ему не надо говорить:  - Идите в ШАД.  Надо говорить:  - Если у вас есть математическая подготовка уровня топ-вуза страны,  то вы можете попробовать поступить в ШАД.

Это действительно так. ШАД был создан преподавателями ведущих топ-кафедр МГУ и Физтеха. Поэтому уровень входа туда соответствующий.

Но сейчас появлется всё больше курсов, где барьер входа совсем не такой. Например, в вышке, этой осенью запустилось несколько таких курсов. Есть замечательная площадка Kaggle, где можно пробовать всё, что вы изучаете, потому что это площадка, на которой проводятся соревнования по Data science. Совсем недавно Сбербанк проводил в похожем формате соревнования на данных Сбербанка.

Из чего состоит рабочий процесс.
На самом деле рабочий процесс можно разбить на 6 этапов.

Первый этап — это сформулировать набор необходимых данных для задачи. Второй — собрать данные. Это абсолютно нетривиальное часто упражнение, потому что мы говорим о больших данных, а они часто не структурированы, “грязные”. Соответственно, их надо обрабатывать, очищать. Это третий этап, та часть работы, о которой не очень много говорят, потому что она не очень романтичная. Но на самом деле она занимает большую часть времени и ее надо уметь делать. В этом большая есть разница — от Data scientist ожидают, что он будет достаточно технически подкован, чтобы сам прийти и собрать данные. Конечно, какие-то базовые дета-сеты по идее для него должны собрать разработчики, но вот дальше из них что-то вынуть — ожидается, что Data scientist сумеет это всё сделать сам.

Дальше, четвертым этапом идет моделирование. Это романтичная часть, потому что это интересно, там какие-то инсайты появляются, но здесь надо применять математический аппарат. И пятый — это презентация результатов в широком смысле этого слова, не в смысле в PowerPoint. Это некая презентация результатов, их интерпретация — это очень важно. То есть в англоязычных ресурсах часто говорят о важности такой вещи как сторителлинг, это действительно важно в Data science, потому что вы сделали огромную работу, всё очистили, смоделировали, а потом надо на самом деле рассказать. Здесь плюс в том, что обычно в Big Data команде вы будете рассказывать человеку, который в этом разбирается, но обычно еще надо всегда быть готовым к тому, что всегда надо рассказать человеку, который вообще не разбирается.

Есть такой шестой этап, который под звездочкой, потому что зависит от того, как в компании выставлена работа. Если вы делаете какую-то проектную задачу, то у вас не будет этого этапа, а если, например, вы делаете модель для скоринговой карты, которая потом поместиться в сервис, который потом в продакшене 24х7 будет отдавать результат этой модели, то есть еще этот этап передачи модели в продакшн.

Итак, что мы можем сказать про эту специальность. Первое — крайне востребованная профессия. Это так. При том, что последнее время всё-таки стало появляться всё больше и больше людей с этими компетенциями, их до сих пор очень активно ищут и очень активно хантят. Второе — активность комьюнити и это большой плюс, потому что очень живое комьюнити, очень много митапов, конференций. На самом деле быть Data scientist сейчас очень интересно. Тема активно развивается, кстати, и в научном направлении. То есть если вы станете специалистом в машинном обучении, то вы можете вполне себе найти достойную работу с достойной зарплатой, причем не обязательно в России, в научном направлении, потому что здесь есть гранты.

Развитие машинного или, например, глубинного обучения — это тема, по которой каждый год выходят всё новые и новые доклады, статьи научные и здесь постоянно случаются прорывы . Есть два “но”, которые я здесь выделил. Надо любить всё это делать, потому что, на самом деле, это тяжелая работа. Её немножко романтизируют, хотя нужно любить делать все вышеперечисленные пункты, потому что там часто бывают рутинные задачи, их часто бывает много, это часто совсем непросто. И второе “но”, как вы видите, это очень высокий барьер входа по компетенциям, всё, что было перечислено, нужно уметь и знать.

Переходим к менеджеру в Big Data, по такой же схеме — какие главные навыки, как освоить, как и из чего состоит процесс.

Главные навыки. На самом деле нужно уметь формулировать use cases применения Big Data и доводить их до реализации. Первым пунктом — business sense и знание use cases. Business sense — это понимание бизнеса, но это значительно более важное, чем в Data science, потому что, как вы видели раньше, Big Data может входить вообще в любую отрасль. Она может войти в телеком, транспортную отрасль, в рекламу, финансы, энергетику, градостроение, сити-менеджмент. Если вы будете внедрять Big Data в этих отраслях, если вы будете внедряться в процесс принятия решений, надо уметь быстро понять эту отрасль, сформулировать какие у нее бизнес-модели есть, понять, какие ключевые бизнес-показатели у компании и, соответственно, придумать потом use cases, как вы будете использовать Big Data, все эти возможности аналитики, машинного обучения, технологических возможностей обработки данных для конкретного бизнеса, для конкретных задач.

Второе — здесь никуда не уходят базовые навыки аналитика, здесь высокие требования к аналитическому и технологическому бэкграунду, то есть от менеджера в Big Data ожидается, что он спокойно сам пойдет напишет какой-то запрос к базе, просто потому что если он к этому начнет каждый раз пинать аналитика, это будет очень неэффективное использование ресурсов, потому что это не аналитика Data science.

Если мы говорим про управление продуктами, то мне кажется, что для Big Data, часть, которая про продукт, про управление роадмапом, релизное планирование — это по сути классические продукты для B2B-сервисов.

Если это project–manager или в функционал входит project-managment, то, соответственно, нужна экспертиза в запуске технологических проектов. И базово нужно знать статистику, не на таком уровне, как в Data science, но вы должны понимать модели, которые строит вам Data scientist. Хорошая конфигурация — когда вы понимаете модель с точки зрения бизнеса, но еще есть Chief Data scientist, который оценивает насколько эффективно построена модель. Но какие-то базовые вещи на уровне того, что такое ошибка первого и второго рода статистики, понимать, что такое мультиколлинеарность в линейной регрессии — это действительно нужно, потому что иначе вы будете тормозить команду, когда вам это всё будут объяснять.

Точно также базово нужно понимать программирование, на уровне R, Python, хотя бы базовые скрипты нужно уметь писать. А по-хорошему надо уметь делать не только такие простые вещи.

Если вы менеджер Big Data-сервисов или Big Data-проектов, то надо понимать юридические ограничения, которые существуют в стране. Вы просто сэкономите всем время, если не будете тратить время на проработку задач, которые заведомо не соотносятся с законодательством персональных данных или законом связи. Это важно, потому что это просто экономит всем время.

Как освоить всё это.
По business sense, у нас есть прекрасный инструмент — это решение бизнес-кейсов. Я в свое время решил где-то 100 бизнес-кейсов с партнерами. Это прекрасный опыт быстро структурировать различные бизнес-задачи, это потом вам пригодится, когда вы будете работать со многими отраслями. Есть много литературы — Виктор Ченг, Кейси Поинг и так далее, большое комьюнити, кстати, людей, которые готовятся к консалтингу. Вы можете легко прийти и порешать на самом деле кейсы. Как минимум, в Москве это точно есть. Всегда помогает опыт в индустрии, это непреложная истина.

Как понимать use cases? Как про них узнать? На самом деле фокус в том, что почти все use cases уже рассказаны на тематических конференциях, их очень много, они сейчас популярны. Практически все большие компании, которые занимаются Big Data, они уже практически про все use cases, которые они применяют, где-нибудь рассказали уже. Это действительно работает. Я, когда готовился сам к интервью, я точно также смотрел материалы конференций или каких-то докладов. Поэтому изучайте, этого очень много в сети. Product managment, как я сказал, надо смотреть вебинар про продукт, потому что здесь не настолько специфичный именно для Big Data продукт.

Из чего состоит составляющая рабочего процесса.
Я выделил здесь несколько пунктов. Первое — это, как мы говорили, формулирование и оценка use cases. Это включает в себя оценку рынка, оценку PNL продукта, какие у вас будут затраты, какая у вас будет потенциальная выручка, на какой рынок вы собираетесь выходить с этими use cases и как это будет работать. Если вы Product, то здесь базовый навык — это управление роадмапом по use cases, участие в планировании, разработке, в релизном планировании — все как в серьезных IT-компаниях. Если вы Project, то это, соответственно, project management — планирование проекта по use cases, scope, времени, ресурсов и потом контроль.

Следующий пункт, который не всегда освещают — если вы как компания занимаетесь Big Data, у вас почти всегда есть некий пайплайн пилотных проектов. Потому что use cases — это какие-то идеи, их надо валидировать, нужно на ком-то построить эту модель, на каких-то данных. Смотреть, действительно ли есть тот эффект, есть ли у нас необходимая точность и так далее. Часто менеджер как раз занимается тем, что он ведет эти пилоты, он договаривается с заказчиками о том, как будет выглядеть этот пилот и принимает эти задачи.

Еще один пункт — presale. Это часто может занимать большую часть вашего времени, зависит, конечно, от того, какого типа ваша компания. Это создание различных презентаций и это встреча с потенциальными клиентами. Это могут быть внутренние заказчики, внешние заказчики — не так важно, но это может занимать большую часть вашего времени. Вот тут как раз очень нужен сторителлинг.

Плюсы и минусы.

Во-первых, плюс — вы действительно можете создавать продукты, которых нет в мире. Это передовая и бизнеса, и науки. Во-вторых, это крайне кросс-функциональная роль и это накладывает на вас требования, что нужно уметь разговаривать на одном языке со всеми — как вы помните, с разработчиками, с Data scientist, с бизнесом, с заказчиками, со всеми нужно уметь разговаривать.

Неоднократно я уже повторял — нужно обязательно иметь технологический или аналитический бэкграунд, без него будет очень сложно. Ну и некоторые неприятные особенности — здесь высокая степень неопределенности, может быть, для кого-то это и плюс, но для большинства людей это не очень комфортно, потому что это RND, это всегда “взлетит — не взлетит”, здесь очень большая степень неопределенности. Big Data, в принципе, меняет рынки. Менять рынки — на самом деле это большая степень неопределенности, они могут поменяется, а могут и не поменяется.

Последнее — это то, что позиций на самом деле мало. Это правда, все говорят: “Big Data, Big Data”, но реальный опыт работы менеджера в Big Data показывает, что вообще-то это всегда очень точечные позиции и их надо прям выискивать. Потому что Data scientist еще меньше, чем аналитиков, а, соответственно, менеджеров еще меньше, потому что на одного менеджера приходится еще много аналитиков. То есть соотношение 1:4, 1:5. Поэтому позиций меньше.

Важный вопрос — это откуда перейти в эту отрасль. Отрасль на самом деле достаточно молодая и очень мало переходов внутри неё, довольно много переходов из другой отрасли.

Соответственно, если выбираете роль Data scientist, то логичнее всего перейти из роли аналитика, просто нужно добавить несколько скилов. Кажется, что просто. В реальности, конечно, не очень, но тем не менее это самый логичный путь. Еще может быть путь из разработчика. Тоже на самом деле вполне реальный путь.

Если мы говорим про роль менеджера, то здесь всё гораздо шире, поскольку, как вы помните, роль очень широкая. Сложно перейти из аналитика, собственно, я сам так переходил. Можно перейти из Data scientist, мне кажется, что в будущем мы будем видеть всё больше таких переходов, потому что, на мой взгляд, они самые логичные.

Можно перейти из product или project, но всё-таки, наверное, это должна быть позиция product, project в IT-компании или в IT-подразделении. Есть такой не очень очевидный путь, но на мой взгляд, достаточно перспективный — можно перейти из менеджера, который является заказчиком Big Data решения, потому что на самом деле вы уже понимаете хоть в одном месте, хорошо понимаете use cases. Например, если это рискторинг, это может быть банковский риски. Если это сегментирование, таргетирование абонентов, то это могут быть отделы управления абонентской базой, например, в телекоме.

Что будет специфично при прохождении интервью.
Вас почти наверняка спросят тестовое задание. И это очень хорошо, потому что, как вы видите, здесь вообще сложно понимать, соответствуете ли вы компетенциям, которые от вас хотят, потому что компетенции очень размытые, очень высокая планка, людей, соответствующих этой планке, обычно очень мало, поэтому планку немного снижают. Тестовое задание — это прекрасная возможность понять для этой конкретной компании, ваши компетенции соответствуют сейчас их ожиданиям или нет?

Соответственно, для Data scientist это будет аналитическое задание, можно для примера взять задачи, которые были в Сбербанке на Data science contest. В тестовом задании вас скорее всего попросят даже код написать на R или на каком-то другом языке. Для product / project-менеджера чаще встречается задание — рассказать про применение Big Data, про use cases эти. Например, про применение в конкретной отрасли или для конкретной компании, придумать применение для конкретной компании Big Data. Часто еще за этим последует: “А рассчитайте бизнес-кейс”. И это также показывает то, какой главный функционал от вас ожидают, какие главные компетенции нужны.

Интервью, как верно коллеги из “Антирабства” рассказывают — это двустороний процесс. То есть вас оценивают и вы должны оценивать компанию, в которую вы идете. Здесь очень важно, чтобы и вы поняли две вещи, на мой взгляд — на какой стадии проект. Потому что опять же многие говорят про “Big Data, Big Data”, но может быть проект на начальной стадии, может быть вообще у компании нет никаких данных, но они хотят уже чтобы им пришли и сделали Big Data. Это так, это повод задуматься.

Может быть, наоборот — для кого-то это плюс будет, тем, что человек может прийти и что-то построить с нуля. Но это, как минимум, точно надо выяснить на этапе интервью. И вторая важная вещь — нужно выяснить, а есть ли на самом деле у команды компетенции и понимание постановки Big Data задач, в особенности внедрения. И что не менее важно — есть ли это понимание у стейкхолдерс? То есть, грубо говоря, у руководителя руководителя вашей команды, чтобы вы не попали в ситуацию, когда вас попросят за 3 месяца сделать какой-то Big Data космолет, а если не сделаете, то всех разгонят. Важно, на мой взгляд, понять — есть ли в команде компетентные люди. Если в команде есть компетентные в Data science и в бизнесе, но нет людей, компетентных в технологиях обработки данных, то это наложит ограничения на то, как вы сможете построить сервис.

Я выделил 4 особенности. Во-первых, это всегда немножко стартап. Это инновационные проекты, это всегда вопросы “Взлетит — не взлетит?”, даже если это внутри большой компании типа Сбербанка или Мегафона. Это всё равно некий стартап, поэтому у стартапа есть плюсы, есть минусы. Минус, но для кого-то это плюс — это большая степень неопределенности. Второе — нужен некий data-driven mindset. Объясню, что это такое на примере. Нужно по сути везде видеть данные, везде видеть возможность получить какие-то данные или оцифровать что-то.

Есть такой пример, некая профессиональная деформация уже — летом Яндекс запустил сервис Яндекс-аудитории. Это сервис, который работает для их рекламных площадок, когда рекламодатель может прийти, загрузить по сути некий датасет айдишников и сказать: “Вот это мои клиенты”, ну может это вообще клиентская база, “Вот это мои клиенты, таргетируйте рекламу на них или на похожих на них”. Обучайтесь и таргетируйте на них. Вроде бы это всё сервис для рекламодателей — прекрасно. Но, знаете, как писали в математических учебниках в МГУ: “Пытливый читатель заметит, а что на самом деле получает отсюда Яндекс?” Яндекс получает бесплатный талон, Яндекс получает размеченный датасет, грубо говоря, ему загружают интернет-магазин корвалола и вот он получает размеченный датасет людей, людей, которые интересуются рыбалкой и он может что-то использовать в поиске, в Яндекс.Маркете, еще где-то. Может быть, в масштабе Яндекса это не так значимо и он делался не для этого, но это пример, как можно видеть данные, эталоны, там, где их не все видят.

Третье — нужно уметь преодолевать некоторую некомфортность и у себя, и у заказчика от black box решений. Что такое black box решения? Это когда вообще непонятно, почему модель так решила. Но практика показывает, что такие решения работают лучше. То есть Яндекс очень давно про это рассказывает, Сбербанк и OneFactor на последних конференциях рассказывали неоднократно, что, например, модели, где используется неинтерпретированные метрики модели, в которых непонятно, что это такое, где какой-то X, Y, Z, они дают лучший параметр, который используется в кредитном скоринге для показателя, насколько хорошая модель. Поэтому, к сожалению, это часто бывает некомфортно, вы не понимаете, почему модель так решила, но здесь надо немного доверять модели.

И четвертое — это такая культура A/B тестирования. Или как я однажды слышал — celebrate failure, то есть культура, когда вы на самом деле понимаете, что это всё — исследовательская деятельность, это всё может взлететь — не взлететь, надо всё время тестить, надо смотреть, кто здесь чемпион, из двух вариантов кто выиграл.

Должна быть культура, в которой люди вообще понимают, что всё нормально.  Нужно уметь извлекать выгоду из провальных тестов, потому что они показали,  что какое решение не работает, а какое-то работает.  На мой взгляд, это очень важно.

Ну и совсем напоследок — почему Big Data это здорово? И почему хорошо, если всё больше людей будут работать в Big Data? Потому что это чудесный пример того, как реальная математика находит применение в реальной жизни прямо сейчас. Немножко завораживает, что вот эти все огромные математические выкладки, это высшая математика, действительно, — они прямо сейчас имеют приложение в реальной жизни. И, на мой взгляд, это очень здорово. И если вам также кажется, что это очень здорово, то это хороший повод рассматривать Big Data как одно из мест работы.

Источник: antirabstvo.ru

Расшифровка вебинара о Big Data

Комментарии: