Дзен-интервью: Александр Фонарев об ML в стартапе

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Наверняка вы знаете про Дзен-митапы для ML-специалистов, которые мы проводим несколько раз в год, но мы экспериментируем и с разными другими форматами. Один из них — интервью с крутыми специалистами из этой области.

Дзен-интервью — полуторачасовые видео об ML в России и мире. Ведущий — Евгений Соколов, экс-руководитель команды качества рекомендаций в Дзене. Сейчас Женя курирует образовательные проекты Яндекса и Высшей школы экономики, к тому же модерирует все наши митапы по машинному обучению.

Гостем первого интервью стал Александр Фонарев — основатель и Chief Data Scientist компании Rubbles. Женя и Саша поговорили о том, как разработчику прокачаться в ML, поможет ли тут Kaggle и так ли ценно онлайн-образование для дата-саентиста. Еще эксперты обсудили развитие Data Science в России и поделились интересными историями из практики.

Полную версию разговора смотрите в видео. Ответы на некоторые вопросы можно почитать ниже.

— Что ты делаешь в Rubbles?

Шесть лет назад я с партнерами основал эту компанию. Сейчас моя основная зона ответственности — аналитика данных, data science, data engineering и все, что с этим связано. Rubbles — В2В-компания. Наши клиенты — крупные бизнесы, банки, ритейл, телеком, промышленность. Мы разрабатываем решения, которые оптимизируют их бизнес-процессы с использованием анализа данных. Это и рекомендательные системы, и предсказание спроса на товары в том же ритейле, и компьютерное зрение, и подсказчики в горно-обогатительном комбинате оператору фабрики, чтобы он лучше руду смешивал, чтобы процесс был эффективнее.

— Можешь вспомнить неудачный проект, когда все шло не так?

Наверное, проект, где прямо все шло не так, я не вспомню, потому что, если первый шаг идет не так, второй, третий — мы собираемся и берем дело в свои руки. Помню проект, где можно было практически на берегу понять нюансы и не совершить ошибку. Мы этого не сделали, потратили месяцы впустую.

Проект был связан с предсказанием поломок оборудования. Опишу коротко ситуацию. Оборудование ломалось редко, позитивных примеров с поломками было значительно меньше, чем негативных. Чтобы добиться экономического эффекта, чтобы наше решение имело какой-то смысл, нужно было получить AUC порядка 0,99, близкий к единице. На берегу можно было понять, что это недостижимо, нет такого сигнала и такого уровня корреляций, чтобы этого добиться.

Это я уже даю рафинированный результат, в процессе было много нюансов в бизнес-процессах, всяких тонкостей, в которых мы закопались. Очень важный скилл дата-саентиста — уметь всю картинку структурно разложить перед собой, понять, где какие есть риски, что заработает, что не заработает, где нужно применить эвристику вместо какого-то сложного алгоритма. Мы, к сожалению, в этом случае потратили время зря, но теперь, прежде чем начать любой проект, мы первым делом оцениваем экономические эффекты, никогда не забываем про эту точку.

— У тебя случались истории, когда сложную задачу вы решили не машинным обучением, а, например, эвристиками или регулярками?

Да, однажды нам нужно было удачно контактировать с клиентами через разные каналы, в первую очередь через колл-центр. Данных в этом направлении было очень мало. Точнее, всего данных было много, но для полноценного обучения модели нужны были онлайн-эксперименты, чтобы эти данные насобирать под нашу методику. Мы влепили несколько эвристик, они заработали на ура.

— А не было так, что заказчик потом говорил: «Я пришел за искусственным интеллектом, а вы тут мне какие-то костыли напихали»?

В этом случае не было, в целом иногда бывает, что заказчик хочет нейронные сети ради нейронных сетей. Но этого и было мало, и сейчас это практически до нуля сходит, мы таких заказчиков почти не видим.

— Расскажи теперь про удачный проект, какую-нибудь success story.

Один из таких проектов — оптимизация работы горно-обогатительного комбината. Нет никакого rocket science с точки зрения технологий.

Что на этом комбинате делают? Есть горно-обогатительный комбинат, производство, на котором работают тысячи людей. Суть в том, чтобы брать сырую руду, дальше делать с ней много различных преобразований. Эта производственная цепочка состоит больше, чем из сотни узлов, это сложная история. На выходе получают полезный материал — зависит от конкретного комбината, что там производится.

Это огромный бизнес. Оптимизация на один процент — это очень много денег. Нам как раз удалось сократить расходы за счет подсказок оператору фабрики, что здесь нужно сменить одно сырье на другое, нужно использовать разные склады и как-то их менять.

— Ты говорил, что вы используете бустинг — классические методы, которым уже лет 20, если не больше. В твоей области ты какие сейчас видишь челленджи с точки зрения науки и исследований?

Во-первых, у нас есть не только классические ML-проекты, а что-то ближе к deep learning — там все постоянно развивается, будь то связано с NLP, с компьютерным зрением. Появляются новые архитектуры. Это не то чтобы челлендж, но за этим нужно следить тщательнее. Во-вторых, мы все больше сталкиваемся с вопросом интерпретируемости моделей. Заказчикам очень часто нужно понимать, почему случился тот или иной прогноз, почему система порекомендовала ту или иную вещь. Основываясь на этом, нужно понимать, насколько система действительно понимает, что происходит.

— Расскажи, как ты подбираешь себе дата-саентистов? На что обращаешь внимание в резюме?

Первый, базовый фильтр — ключевые слова. Для многих молодых специалистов это неочевидно. Вам нужно как можно больше расширить воронку. HR-менеджеры ищут людей по ключевым словам, поэтому пишите все технологии, с которыми вы так или иначе сталкивались и работали. Это даст вам некоторый плюс.

На что мы смотрим сначала? Первый этап собеседования — блиц-интервью, где мы кандидату точечно задаем короткие вопросы с короткими ответами на самые разные темы: разработческие, математические, программистские. Даем порешать какие-то простейшие задачи. На этом этапе отсеивается процентов 80.

Когда уже остается «концентрат», мы проводим техническое собеседование. Оно может идти от полутора до трех и больше часов — там мы с человеком плотно общаемся, выясняем его бэкграунд, с чем он работал, с чем не работал.

— На образование смотрите?

Скорее, как второстепенный фактор. Есть корреляция между образованием и последующими местами работы. Мы смотрим на последующие места работы. И так складывается, что у ребят, как правило, неплохое образование. Но бывает очень по-разному, бывают люди практически с гуманитарным образованием, которые решили пойти в эту стезю. Например, у нашего технического директора образование историка. И это один из самых крутых специалистов в разработке, которых я знаю.

— Что проще: взять хорошего разработчика и научить машинному обучению или взять ML-специалиста и научить разработке?

Однозначно проще взять разработчика и научить машинному обучению. Есть объем времени, который нужно потратить, чтобы стать хорошим разработчиком, даже не хорошим, а средним. И есть объем времени, который нужно потратить, чтобы стать средним дата-саентистом. Первое значительно больше второго.

— Чем отличается senior от middle?

Senior от middle отличается тем, что middle — это человек, который решает поставленную задачу практически без подсказок и внешней помощи, а senior эту задачу ставит.

— Что ты думаешь про устройство и развитие Data Science в России? В целом по стране, а не в Москве и Питере, где много всяких возможностей.

Если говорить про уровень data science в других городах, помимо Москвы и Питера, то он действительно значительно ниже. Новосибирск и Казань сильные города, потому что там сильные университеты. Есть и другие города. Но все равно большинство сильных специалистов потом переезжает в крупные города. Есть несколько исключений, когда команда по каким-то причинам остается в своей локации, например, просто потому, что люди не хотят ехать в большой город, а хотят быть ближе к родным, к привычному окружению.

Если говорить про то, где Россия находится на международной картинке, то здесь у России очень хорошие позиции. Количество кадров, которых мы готовим, которые требуются на рынке в этом направлении, в процентном соотношении довольно велико. Я не видел точную статистику, это больше интуитивное ощущение. Сравнивая со многими европейскими странами, даже развитыми — там просто человек, который знает SQL, это уже дата-саентист, вероятно, даже middle-уровня. У нас, конечно же, не так.

Еще я бы сказал, что российский рынок data science отличается от зарубежного — в России мы очень любим пилить свои велосипеды. Это и в технологических компаниях — вместо того, чтобы использовать какие-то платформенные решения, чтобы можно было более низкоквалифицированного дата-саентиста посадить и он уже приносил пользу, у нас всем нужны только senior, которые придут, все нуля запилят на С.

— Дай совет нашим зрителям, который поможет им развиваться.

Я бы порекомендовал две вещи. Первая — не переставать развиваться. Не важно, хотите вы работать в data science или в другой области. Сейчас мир так активно меняется, что нам необходимо перманентно учиться, до конца жизни. Не получится сейчас выучить инструмент, потом 30 лет его использовать. Такая эпоха закончилась.

Вторая вещь — прислушиваться к себе, понимать, что вам интересно. Не заниматься программированием, если вас к нему не тянет. Не заниматься еще чем-то, если душа не лежит. Находить баланс между тем, чтобы это приносило пользу с точки зрения карьеры, работы и так далее — и каким-то удовлетворением, потому что во всех индустриях можно найти разные роли для разных людей самого разного склада. Я уверен, что у вас получится его найти, просто нужно искать, а не обнаружить себя в 35 лет занимающимся тем, что на самом деле неинтересно.

Комментарии: