Data science в консалтинге: математика в боевых условиях |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2019-12-02 17:24 Датасаентист Александр Лабуть — о том, как жажда новых знаний помогает развиваться, о важности soft skills, горизонтальных оргструктурах и жизни на несколько стран и проектов одновременно. О пользе профессионального любопытства До прихода в McKinsey я шесть лет отработал в IT-консалтинге. Занимался в основном BI — построением систем отчетности, а также GIS-решениями. Классический BI — довольно «устаканившаяся» сфера, и на определенном этапе карьеры любопытные «биайщики» часто начинают осматриваться в поисках чего-то нового. Так поступил и я — и обнаружил data science. Стал активно погружаться в тему, заполнять голову знаниями: читать, слушать курсы, построил первые модели надежности систем. Возникло желание нырнуть поглубже — понять, как устроена экономика в разных индустриях. Я пришел на собеседование в McKinsey три года назад — знакомый прислал ссылку на вакансию. Так как сам я работал исключительно в IT, о фирме знал в основном по экспертным отраслевым исследованиям. Оказалось, что одно из глобальных направлений в McKinsey — углубленная аналитика данных. Я подумал, что это классная возможность совместить мой интерес к data science с желанием поработать над проектами в разных, непохожих друг на друга индустриях. Отбирали меня в два этапа — на техническом тестировании и кейс-интервью с партнерами. На техническом этапе выясняют, какие освоил языки программирования, смотрят на экспертизу в digital, анализируют опыт работы. Во время кейс-интервью сначала тоже понятные для айтишника вещи: оценивают, насколько ты хорошо умеешь декомпозировать, структурировать, решать сложные проблемы. А потом переходят к менее привычным категориям — оценивают твои soft skills, в том числе коммуникационные навыки, которые важны для общения с клиентами. Неожиданно эти навыки у меня оказались на уровне. Так я присоединился к московской команде McKinsey в качестве дата-инженера. Одним из четырех специалистов по работе с данными, которые в те уже далекие годы работали в московском офисе. Погружаться в работу меня отправили на стажировку в Мадрид — один из крупнейших DS-хабов McKinsey. И уже на первом проекте я совмещал функции дата-инженера и датасаентиста. И понял, что data science мне профессионально ближе, поэтому развиваться решил именно в этом направлении. О трех китах и большой черепахе Больше всего проектов с data science сейчас делается в трех отраслях — в банковском секторе, в ритейле и в телекоммуникациях. Почему data science стоит в основном на этих трех «китах», понятно: эти сферы лучше других готовы к тому, чтобы полноценно внедрять углубленную аналитику. Плюс есть много успешных кейсов и сценариев использования, по которым доказан экономический эффект. Например, едва ли у кого-то в ритейле еще остались сомнения, что инструменты data science эффективны при оптимизации остатков на складах. В McKinsey датасаентисты выбирают интересные им проекты по индустриям и контенту. Даже в одной отрасли с точки зрения data science задачи бывают очень разными, поэтому совсем не скучно, постоянно осваиваешь новые навыки. Первое время я работал над проектами в банковском секторе — в области маркетинга, продаж, управления рисками. В частности, строил модели скоринга следующей покупки (next product to buy), занимался моделированием оттока. Но однажды оказался в команде, которая вела крупный проект в тяжелой промышленности. О тяжелой промышленности и «золотой лихорадке» Проект шел больше полугода и сильно меня увлек. Настолько, что теперь почти все мои проекты из сегмента GEM — Global Energy & Materials (металлургия, энергетика и прочее). В тяжелой промышленности сейчас настоящий клондайк. Опробованных сценариев использования data science пока меньше, и они не такие универсальные. Но на новых или модернизированных производствах, где много датчиков и накопилось достаточно данных для аналитики, интерес к тому, как их можно применять с пользой для бизнеса, растет по экспоненте. Соответственно, и задачи большие и сложные, самое оно для амбициозных и любопытствующих. В GEM есть два крупных класса задач для data science. Первый — Predictive Maintenance: математические модели позволяют предсказать, когда и как нужно обслуживать критически важное для бизнеса оборудование. Второй класс — YET (Yield, Energy and Throughput) — задачи на максимизацию производительности и выхода готовой продукции, минимизацию затрат на сырье и энергию. Оба класса задач тесно связаны между собой, поэтому необходим комплексный взгляд на экономику производства. Объясняю уровень задачи на примере из нефтехимии. На входе — качество и количество сырья, плюс параметры процесса на установке — телеметрия с датчиков, в том числе показатели температуры, давления и много чего еще. На основе анализа этих данных мы предсказываем результат и то, как параметры установки влияют на конечный продукт и его экономику. А поверх этой предиктивной задачи мы строим оптимизационные алгоритмы по всей цепочке агрегатов, задействованных в процессе производства. При помощи нескольких моделей, объединив их в цепочку и предсказывая промежуточные фракции и процессы, мы в конечном счете запускаем оптимизационный алгоритм для всей системы. Построить модель хорошего качества на задачах, связанных с тяжелой промышленностью, — отличный вызов, сделать это бывает сложнее, чем где-либо еще, — это всегда временные ряды, сложные алгоритмы. Когда имеешь дело с реальной физикой и химией процессов, многие вещи описываются сложными дифференциальными уравнениями. Не добавляет простоты и тот факт, что производство всегда нестабильно — там постоянные модернизации, изменения в технологиях. Поэтому накопленные данные зачастую нерепрезентативны. Ставя перед собой и решая задачи такого уровня в команде, быстро растешь над собой. Передний край науки в этой области — physics-enabled artificial intelligence, попытка скрестить алгоритмы машинного обучения с моделями «первых принципов». Это позволяет получать более стабильный, физически обоснованный результат. Сложность задач в тяжелой промышленности всегда окупается: даже небольшие изменения часто ведут к очень ощутимым финансовым результатам. Если на 1—2% повысить выход продукции на заводе, то в масштабах всего предприятия это огромный эффект. Пока я датасаентист широкого профиля, продолжаю заниматься проектами из разных сфер бизнеса. Но если вдруг встанет вопрос о специализации в какой-либо индустрии, то, скорее всего, я выберу GEM. О мастерах на все руки и финансовом результате Финансовый результат клиента для любого консультанта McKinsey всегда на первом месте, и специалист по data science не исключение. Абстрактными задачами мы не занимаемся, любая приземлена. Каждый проект — решение бизнес-задач в конкретных сценариях. Как датасаентист и мастер на все руки, ты отвечаешь за задачу от начала до конца. Постановки задач в формате Kaggle — вот ссылка на датасет, вот размеченная мастер-таблица с понятной таргет-переменной, с тебя лучший предсказательный алгоритм — не бывает никогда. Задача всегда бизнесовая, любой проект — комплексная история. Я и занимаюсь дата-инжиниринговой частью проекта (дата-инженеры привлекаются только на очень крупные проекты, связанные с системами распределенного хранения данных), и разбираюсь в бизнес-процессах, и на основе этого строю модели. Где лежат данные и что они означают — тоже в чек-листе датасаентиста. Начиная собирать данные и продумывать модель, датасаентист уже должен понимать, как ею будут пользоваться. Модель не может существовать в отрыве от реального бизнес-процесса. Об Agile и умении разговаривать Не зря на собеседовании интересовались моими коммуникационными навыками. Как и «классические» бизнес-консультанты McKinsey, датасаентисты постоянно напрямую общаются с клиентами. Правильно объяснить суть своей работы и ее результаты — очень важная задача. Самую великолепную модель можно подать так, что никто ее не поймет. Порой, слишком углубившись в технические детали, можно показаться теоретиком. Поэтому soft skills и коммуникация — умение объяснять сложное понятным языком — нужны в моей работе не меньше, чем знание математики. Хотя Agile обычно ассоциируется с разработкой программного обеспечения, в McKinsey гибкая методология работы над проектами применяется повсеместно. Это касается не только проектов с data science. Сроки часто минимальны, поэтому подход к реализации всегда итеративный, главное — гибкость и четкие цели. На регулярных встречах команда проекта определяет задачи в рамках цикла — и до следующей встречи. Такой подход очень эффективен. О роли data science коммьюнити Москва — DS-хаб региона EEMA (СНГ, Ближний Восток, Турция, Африка) и один из пяти мировых хабов McKinsey (остальные — в Бостоне, Лондоне, Мадриде и Дюссельдорфе). За три года мы сильно выросли. В московской DS-команде 40 датасаентистов. Сейчас мы на третьем месте по количеству людей в data science и на первом по скорости роста. У нас амбициозная цель — стать самым крупным DS-хабом McKinsey. В фирме практически не важно, где физически ты находишься в данный момент. Живя в одной стране, можно работать в другой, делать проекты в третьей и четвертой, решая задачи в интернациональных командах. А можно переехать в другой город или на другой континент. Я, например, одно время работал в Азербайджане, и делал проекты с коллегами из Хорватии, Германии, Великобритании. При этом внутри фирмы есть «семья» — сплоченное сообщество датасаентистов. Даже если в той или иной стране на весь офис один датасаентист, он все равно ощущает принадлежность к большой сети коллег. Когда я вышел на работу в McKinsey, я сразу это почувствовал. Ты можешь очень быстро связаться с совершенно незнакомым человеком, который два года назад делал модель, похожую на ту, над которой ты работаешь, и он подробно поделится результатами, ответит на вопросы и поможет. Не было ситуации, чтобы кто-то отказался уделить мне час времени. Уделяют и больше — и с удовольствием, несмотря на занятость и разницу в часовых поясах. Коллеги что в Москве, что в других странах всегда готовы поддержать — это действительно сильно помогает. Еще одна особенность — горизонтальная оргструктура. Отношения в фирме строятся не по классической иерархии «начальник — подчиненный». Более того, у консультантов вообще нет никаких начальников — только менеджеры проектов, которые меняются с каждым новым стаффингом. В целом внутренняя культура очень напоминает классический tech. Все общаются на равных, обращаются друг к другу на «ты». О профессиональном росте McKinsey регулярно проводит хакатоны по data science, на которых решаются реальные бизнес-задачи. Попробовать свои силы может любой желающий. Из консалтинговых компаний в России регулярно проводим хакатоны только мы — в московском офисе их устраивали четыре раза. У датасаентистов в McKinsey есть доступ ко всем известным курсовым платформам для повышения профессионального уровня. Есть Analytics Bootcamp — недельный тренинг для новых датасаентистов и дата-инженеров, есть целый список международных конференций, на которые можно поехать от фирмы, включая NIPS и ICML. На проектах часто приходится узнавать много нового, при этом решать задачи надо быстро, поэтому кривая обучения у нас достаточно крутая. Но это здорово: быстро набираешься опыта. И о карьере Вариантов несколько. Можно быть консультантом общего профиля с экспертизой в data science в рамках так называемого общего трека. Или можно выбрать экспертный трек — и стать датасаентистом, работа которого полностью основана на анализе данных и построении моделей. Возможности карьерного роста у датасаентистов в фирме такие же, как и у «классических» консультантов. Можно стать руководителем проектов и избираться в партнеры, но при этом, в отличие от стратегического консалтинга, нет жестких сроков для промоушена. Ты переходишь на следующий уровень тогда, когда ты к этому готов. В целом у тех, кто хочет строить карьеру в data science, сегодня есть выбор: глубоко уйти и «прорасти» в какой-то одной сфере знаний, скажем, в области компьютерного зрения, или попробовать себя в разных индустриях, научиться понимать, как data science может применяться в разных контекстах. Работа в McKinsey, конечно, про второе — глубоко погрузиться в индустрию и специфику бизнеса, развить умение разложить на части и решить самую сложную проблему. И для этого быть просто хорошим математиком зачастую недостаточно. Источник: vc.ru Комментарии: |
|