Data science в консалтинге: математика в боевых условиях

2019-12-02 17:24

Датасаентист Александр Лабуть — о том, как жажда новых знаний помогает развиваться, о важности soft skills, горизонтальных оргструктурах и жизни на несколько стран и проектов одновременно.

О пользе профессионального любопытства

До прихода в McKinsey я шесть лет отработал в IT-консалтинге. Занимался в основном BI — построением систем отчетности, а также GIS-решениями. Классический BI — довольно «устаканившаяся» сфера, и на определенном этапе карьеры любопытные «биайщики» часто начинают осматриваться в поисках чего-то нового. Так поступил и я — и обнаружил data science. Стал активно погружаться в тему, заполнять голову знаниями: читать, слушать курсы, построил первые модели надежности систем. Возникло желание нырнуть поглубже — понять, как устроена экономика в разных индустриях.

Я пришел на собеседование в McKinsey три года назад — знакомый прислал ссылку на вакансию. Так как сам я работал исключительно в IT, о фирме знал в основном по экспертным отраслевым исследованиям. Оказалось, что одно из глобальных направлений в McKinsey — углубленная аналитика данных. Я подумал, что это классная возможность совместить мой интерес к data science с желанием поработать над проектами в разных, непохожих друг на друга индустриях.

Отбирали меня в два этапа — на техническом тестировании и кейс-интервью с партнерами. На техническом этапе выясняют, какие освоил языки программирования, смотрят на экспертизу в digital, анализируют опыт работы. Во время кейс-интервью сначала тоже понятные для айтишника вещи: оценивают, насколько ты хорошо умеешь декомпозировать, структурировать, решать сложные проблемы. А потом переходят к менее привычным категориям — оценивают твои soft skills, в том числе коммуникационные навыки, которые важны для общения с клиентами. Неожиданно эти навыки у меня оказались на уровне.

Так я присоединился к московской команде McKinsey в качестве дата-инженера. Одним из четырех специалистов по работе с данными, которые в те уже далекие годы работали в московском офисе. Погружаться в работу меня отправили на стажировку в Мадрид — один из крупнейших DS-хабов McKinsey. И уже на первом проекте я совмещал функции дата-инженера и датасаентиста. И понял, что data science мне профессионально ближе, поэтому развиваться решил именно в этом направлении.

О трех китах и большой черепахе

Больше всего проектов с data science сейчас делается в трех отраслях — в банковском секторе, в ритейле и в телекоммуникациях. Почему data science стоит в основном на этих трех «китах», понятно: эти сферы лучше других готовы к тому, чтобы полноценно внедрять углубленную аналитику. Плюс есть много успешных кейсов и сценариев использования, по которым доказан экономический эффект. Например, едва ли у кого-то в ритейле еще остались сомнения, что инструменты data science эффективны при оптимизации остатков на складах.

В McKinsey датасаентисты выбирают интересные им проекты по индустриям и контенту. Даже в одной отрасли с точки зрения data science задачи бывают очень разными, поэтому совсем не скучно, постоянно осваиваешь новые навыки. Первое время я работал над проектами в банковском секторе — в области маркетинга, продаж, управления рисками. В частности, строил модели скоринга следующей покупки (next product to buy), занимался моделированием оттока. Но однажды оказался в команде, которая вела крупный проект в тяжелой промышленности.

О тяжелой промышленности и «золотой лихорадке»

Проект шел больше полугода и сильно меня увлек. Настолько, что теперь почти все мои проекты из сегмента GEM — Global Energy & Materials (металлургия, энергетика и прочее).

В тяжелой промышленности сейчас настоящий клондайк. Опробованных сценариев использования data science пока меньше, и они не такие универсальные. Но на новых или модернизированных производствах, где много датчиков и накопилось достаточно данных для аналитики, интерес к тому, как их можно применять с пользой для бизнеса, растет по экспоненте. Соответственно, и задачи большие и сложные, самое оно для амбициозных и любопытствующих.

В GEM есть два крупных класса задач для data science. Первый — Predictive Maintenance: математические модели позволяют предсказать, когда и как нужно обслуживать критически важное для бизнеса оборудование. Второй класс — YET (Yield, Energy and Throughput) — задачи на максимизацию производительности и выхода готовой продукции, минимизацию затрат на сырье и энергию. Оба класса задач тесно связаны между собой, поэтому необходим комплексный взгляд на экономику производства.

Объясняю уровень задачи на примере из нефтехимии. На входе — качество и количество сырья, плюс параметры процесса на установке — телеметрия с датчиков, в том числе показатели температуры, давления и много чего еще. На основе анализа этих данных мы предсказываем результат и то, как параметры установки влияют на конечный продукт и его экономику. А поверх этой предиктивной задачи мы строим оптимизационные алгоритмы по всей цепочке агрегатов, задействованных в процессе производства. При помощи нескольких моделей, объединив их в цепочку и предсказывая промежуточные фракции и процессы, мы в конечном счете запускаем оптимизационный алгоритм для всей системы.

Построить модель хорошего качества на задачах, связанных с тяжелой промышленностью, — отличный вызов, сделать это бывает сложнее, чем где-либо еще, — это всегда временные ряды, сложные алгоритмы. Когда имеешь дело с реальной физикой и химией процессов, многие вещи описываются сложными дифференциальными уравнениями. Не добавляет простоты и тот факт, что производство всегда нестабильно — там постоянные модернизации, изменения в технологиях. Поэтому накопленные данные зачастую нерепрезентативны. Ставя перед собой и решая задачи такого уровня в команде, быстро растешь над собой.

Передний край науки в этой области — physics-enabled artificial intelligence, попытка скрестить алгоритмы машинного обучения с моделями «первых принципов». Это позволяет получать более стабильный, физически обоснованный результат.

Сложность задач в тяжелой промышленности всегда окупается: даже небольшие изменения часто ведут к очень ощутимым финансовым результатам. Если на 1—2% повысить выход продукции на заводе, то в масштабах всего предприятия это огромный эффект. Пока я датасаентист широкого профиля, продолжаю заниматься проектами из разных сфер бизнеса. Но если вдруг встанет вопрос о специализации в какой-либо индустрии, то, скорее всего, я выберу GEM.

О мастерах на все руки и финансовом результате

Финансовый результат клиента для любого консультанта McKinsey всегда на первом месте, и специалист по data science не исключение. Абстрактными задачами мы не занимаемся, любая приземлена. Каждый проект — решение бизнес-задач в конкретных сценариях. Как датасаентист и мастер на все руки, ты отвечаешь за задачу от начала до конца.

Алексей Белкин, партнер McKinsey, руководитель направления Advanced Analytics, рассказывает о работе датасаентистов в стратегическом консалтинге

Постановки задач в формате Kaggle — вот ссылка на датасет, вот размеченная мастер-таблица с понятной таргет-переменной, с тебя лучший предсказательный алгоритм — не бывает никогда. Задача всегда бизнесовая, любой проект — комплексная история. Я и занимаюсь дата-инжиниринговой частью проекта (дата-инженеры привлекаются только на очень крупные проекты, связанные с системами распределенного хранения данных), и разбираюсь в бизнес-процессах, и на основе этого строю модели.

Где лежат данные и что они означают — тоже в чек-листе датасаентиста. Начиная собирать данные и продумывать модель, датасаентист уже должен понимать, как ею будут пользоваться. Модель не может существовать в отрыве от реального бизнес-процесса.

Об Agile и умении разговаривать

Не зря на собеседовании интересовались моими коммуникационными навыками. Как и «классические» бизнес-консультанты McKinsey, датасаентисты постоянно напрямую общаются с клиентами. Правильно объяснить суть своей работы и ее результаты — очень важная задача. Самую великолепную модель можно подать так, что никто ее не поймет. Порой, слишком углубившись в технические детали, можно показаться теоретиком. Поэтому soft skills и коммуникация — умение объяснять сложное понятным языком — нужны в моей работе не меньше, чем знание математики.

Хотя Agile обычно ассоциируется с разработкой программного обеспечения, в McKinsey гибкая методология работы над проектами применяется повсеместно. Это касается не только проектов с data science. Сроки часто минимальны, поэтому подход к реализации всегда итеративный, главное — гибкость и четкие цели. На регулярных встречах команда проекта определяет задачи в рамках цикла — и до следующей встречи. Такой подход очень эффективен.

О роли data science коммьюнити

Москва — DS-хаб региона EEMA (СНГ, Ближний Восток, Турция, Африка) и один из пяти мировых хабов McKinsey (остальные — в Бостоне, Лондоне, Мадриде и Дюссельдорфе). За три года мы сильно выросли. В московской DS-команде 40 датасаентистов. Сейчас мы на третьем месте по количеству людей в data science и на первом по скорости роста. У нас амбициозная цель — стать самым крупным DS-хабом McKinsey.

В фирме практически не важно, где физически ты находишься в данный момент. Живя в одной стране, можно работать в другой, делать проекты в третьей и четвертой, решая задачи в интернациональных командах. А можно переехать в другой город или на другой континент. Я, например, одно время работал в Азербайджане, и делал проекты с коллегами из Хорватии, Германии, Великобритании.

При этом внутри фирмы есть «семья» — сплоченное сообщество датасаентистов. Даже если в той или иной стране на весь офис один датасаентист, он все равно ощущает принадлежность к большой сети коллег. Когда я вышел на работу в McKinsey, я сразу это почувствовал. Ты можешь очень быстро связаться с совершенно незнакомым человеком, который два года назад делал модель, похожую на ту, над которой ты работаешь, и он подробно поделится результатами, ответит на вопросы и поможет. Не было ситуации, чтобы кто-то отказался уделить мне час времени. Уделяют и больше — и с удовольствием, несмотря на занятость и разницу в часовых поясах. Коллеги что в Москве, что в других странах всегда готовы поддержать — это действительно сильно помогает.

Еще одна особенность — горизонтальная оргструктура. Отношения в фирме строятся не по классической иерархии «начальник — подчиненный». Более того, у консультантов вообще нет никаких начальников — только менеджеры проектов, которые меняются с каждым новым стаффингом. В целом внутренняя культура очень напоминает классический tech. Все общаются на равных, обращаются друг к другу на «ты».

О профессиональном росте

McKinsey регулярно проводит хакатоны по data science, на которых решаются реальные бизнес-задачи. Попробовать свои силы может любой желающий. Из консалтинговых компаний в России регулярно проводим хакатоны только мы — в московском офисе их устраивали четыре раза.

У датасаентистов в McKinsey есть доступ ко всем известным курсовым платформам для повышения профессионального уровня. Есть Analytics Bootcamp — недельный тренинг для новых датасаентистов и дата-инженеров, есть целый список международных конференций, на которые можно поехать от фирмы, включая NIPS и ICML. На проектах часто приходится узнавать много нового, при этом решать задачи надо быстро, поэтому кривая обучения у нас достаточно крутая. Но это здорово: быстро набираешься опыта.

*Обсуждение итогов совместного хакатона McKinsey и «Тинькофф» по data science*

И о карьере

Вариантов несколько. Можно быть консультантом общего профиля с экспертизой в data science в рамках так называемого общего трека. Или можно выбрать экспертный трек — и стать датасаентистом, работа которого полностью основана на анализе данных и построении моделей.

Возможности карьерного роста у датасаентистов в фирме такие же, как и у «классических» консультантов. Можно стать руководителем проектов и избираться в партнеры, но при этом, в отличие от стратегического консалтинга, нет жестких сроков для промоушена. Ты переходишь на следующий уровень тогда, когда ты к этому готов.

В целом у тех, кто хочет строить карьеру в data science, сегодня есть выбор: глубоко уйти и «прорасти» в какой-то одной сфере знаний, скажем, в области компьютерного зрения, или попробовать себя в разных индустриях, научиться понимать, как data science может применяться в разных контекстах. Работа в McKinsey, конечно, про второе — глубоко погрузиться в индустрию и специфику бизнеса, развить умение разложить на части и решить самую сложную проблему. И для этого быть просто хорошим математиком зачастую недостаточно.

Источник: vc.ru

Data science в консалтинге: математика в боевых условиях

Комментарии: