Что ждет работодатель от Data Scientist-а?

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2019-08-17 12:00

ит новости

Пролог

Практически любой современный бизнес испытывает острую потребность в анализе и исследовании данных. Типичная проблема – есть результаты работы/итоги эксперимента/статистические данные – а воспользоваться этим в коммерческих целях предприятие никак не может. И ведь очевидно, что вся эта информация имеет прямое отношение к бизнесу и его эффективности, но для неподготовленного «аналитика» это просто пустой набор данных…

В такие моменты на помощь бизнесу приходит Data Scientist – аналитик, который видит в наборе данных скрытые взаимосвязи и смыслы. Но перед работодателем рано или поздно встанет вопрос: «А каким он должен быть, этот дата сайентист?» И правда, какими качествами должен обладать сотрудник, чтобы на него можно было положиться?

Часть 1: Предыстория

Можно было бы, конечно, начать список со стандартного набора а-ля «ответственность, пунктуальность, высшее образование и т. д. по списку», но в этом нет никакого смысла. Поясним: качества и навыки, которые мы перечислим ниже, и так в себя будут включать все шаблонные «сильные стороны» кандидата, а высшее образование вообще не гарантирует успех в таком сугубо практическом вопросе.

Естественно, компетенции соискателей очень сильно зависят от профиля бизнеса. Если организация специализируется на анализе данных, то ей нужны серьезные ребята, с широким бэкграундом, теоретической подготовкой и практическими навыками. Если организации нужен просто аналитик, то к выбору нового коллеги можно подойти не так строго – человек, который просто «в теме» и владеет основными инструментами, вполне подойдет. Однако, всех «true data scientist» отличают общие качества.

Итак, перейдем к предыстории, которая плавно подведет нас к формулировке черт кандидата.

Представим ситуацию: новоизбранный data scientist приходит на рабочее место и с радостной улыбкой ожидает первое боевое задание. От руководителя приходит письмо с первым кейсом – Ура!

Содержание письма примерно следующее:

Господин Дата Сайентист, Добрый день!
Ниже Ваше первое задание.
Есть база с продажами нашего предприятия за последние 5 лет. В ней содержится подробная информация по товарам, суммам и проводимым акциям. Мы собираемся запустить новый продукт. Чуть-чуть поменяли фасовку, чуть-чуть поменяли и все остальное. Но, в целом, изменилось не сильно. Нужно составить детальный прогноз продаж по новому товару на ближайшие пять лет. Помесячно. С обоснованием. И, естественно, побольше графиков и диаграмм – так проще будет защитить проект перед аукционерами, сами понимаете…
P.S. Кстати, там в базе нет информации за несколько месяцев – была поломка CRM, и не получилось восстановить данные. А еще, почему-то, не вся информация об акциях выводится достоверно. Не успели с этим разобраться еще. Но, думаю, это не повлияет на результат – Вы же Data Scientist!
Успехов!
С уважением, Ваш руководитель

Да, такие письма сплошь и рядом в области анализа данных. И это не модель какого-то курьеза, а вполне себе посредственное предприятие с «небольшими» неполадками в CRM. А обрабатывать эти данные как-то надо…

Часть 2: Компетенции

И вот, все тот же Data Scientist, уже без улыбки, начинает думать, что ему делать. Никакой информации дополнительно не дали, а спросить не у кого – вряд ли менеджер или бухгалтер поможет ему в восстановлении базы. Варианта два – либо увольняться сразу, либо сделать попытку и поработать.

Если кандидат все же пошел по второму пути, то, скорее всего, он обладает качеством, которое естественным образом вытекает из описанной выше ситуации:

Аналитик должен уметь брать на себя ответственность за решение задачи и разбираться с ней наедине со своими мыслями, пока не получит первое, хотя бы грубое решение.

На последующих этапах можно обращаться за помощью к другим экспертам, но сначала данные надо «покрутить» в одиночестве до первого результата. В голове у исследователя должна сложиться примерная модель, которую он будет корректировать в процессе углубления в вопрос.

Из первого требования сразу же вытекает список технических требований к кандидату:

· Знать языки статистической обработки данных, например, Python или R.

· Знать и понимать суть (что важно!) математической статистики и теории вероятностей.

· Уметь добывать информацию. Это зависит от специфики Вашего бизнеса. Кому-то нужен опыт SQL, а кому-то навыки написания интернет-парсеров. Но посыл одинаковый – извлечение данных из разных источников.

· Знание экономики и эконометрики. В базовом варианте. Невозможно работать в бизнесе и не знать ключевые показатели эффективности предприятия.

На этом список технических компетенций заканчивается и начинаются исключительно личностные качества.

Вообще говоря, личностные качества тоже достаточно естественно вытекают из самой сути решаемых задач.

Руководитель дал кандидату неполную и не очень достоверную базу данных. Исследователь не может быть стопроцентно уверен ни в одном своем суждении. Ему вообще может не хватить информации, чтобы сделать хотя бы какое-то предположение. Но что Data Scientist должен уметь, так это понимать, какой информации ему не хватает и где бы ее можно достать. «Докопаться до истины» - хорошее профессиональное качество, тем более в такой профессии. А чтобы это сделать, нужно знать, что и где искать. Исходя из этого, формулируем первый запрос:

Способность обнаруживать причинно-следственную связь, описывать ее и формулировать условия, при которых она реализуется, а также искать недостающую информацию с помощью доступных ресурсов, чтобы получить эффективный для бизнеса результат.

Именно «эффективный для бизнеса». Зачастую полученные решения не имеют никакого практического смысла, хотя даже могут быть верны с точки зрения науки. Из этого сразу же получаем второе требование:

Способность оценивать промежуточный результат на каждом шаге с точки зрения здравого смысла. Способность, вошедшая в привычку.

Однако, проверять свои наработки стоит не только с позиции реальной жизни. Указание на ошибочность суждений может быть заложена непосредственно в данных. Знаете, американский экономист Грегори Мэнкью говорит:

“Разработав ту или иную теорию, мы вновь обращаемся к наблюдениям,
чтобы проверить ее.”

Из этого можно записать третий пункт:

Критичность мышления, в том числе, в отношении своих суждений и своего опыта.

Действительно, предположения (или «гипотезы», выражаясь профессиональными терминами), которые, на первый взгляд, кажутся очевидными, могут быть кардинально неверными. Чтобы отсеять такие ситуации на уровне обработки данных, нужно проверять каждую выдвинутую гипотезу.

К сожалению, набор данных или особенность задачи не всегда позволяет совершить проверку классическими способами. А может под такой кейс проверку еще и не придумали? Тогда в копилке кандидата должно быть еще одно качество:

Навык проверять свои предположения классическими способами, а также придумывать альтернативные методы.

Иногда, чтобы проверить предположение, достаточно задать себе несколько простых вопросов из серии «А что, если…» Бывает, что решение можно найти полуинтуитивно, без сложных вычислений и академических знаний. Зачем все усложнять, правда?

Вернемся к нашему Data Scientist-у. Он все еще решает задачу, уже есть первые результаты и наметился план действий. И тут у него возникает потребность оценить зависимость между двумя бизнес-метриками, например, ценой товара и объемом продаж. Исследователь прибегает к традиционным методам, получает какие-то численные характеристики и незамедлительно делает вывод о взаимосвязи исследуемых величин. Но при работе с данными всегда нужно помнить, что связь между величинами не всегда настолько проста, что ее можно наверняка оценить по численным характеристикам. Даже если методы оценивания очень известны и прочны. Проиллюстрируем на примере: статистически характеристики четырех наборов точек абсолютно одинаковые (т.е. с точки зрения статистики мы имеем 4 одинаковых набора). А вот что на деле:

Этот феномен получил название квартет Энскомбе. Классический пример в таких ситуациях. Не зря говорят, что в руках профессионала статистика помогает делать мир лучше, а анализ данных осознанней, в то время как в руках дилетанта – это страшный инструмент, который может привести к большим неприятностям.

Из этого можем выдвинуть пятое требование в списке:

Умение вычленять значимые показатели, проверять и оценивать их значимость, а также мыслить с оглядкой на уязвимость математических методов.

Нам осталось, пожалуй, сформулировать последнее качество. Предположим, что наш аналитик справился с поставленной задачей – составил подробный план, снабдил свой отчет подробной и наглядной визуализацией.

Прошло время, а реальные показатели оказались отличными от прогноза Data Scientist-a. И что? Предприятие ошиблось в выборе кандидата? Компетенций исследователя оказалось недостаточно? Совсем не обязательно.

Дело в том, что любое измерение в реальной жизни делается с какой-то точностью. Измерили расстояние – оно точно с некоторой погрешностью линейки. Измерили вес - он точен до какой-то погрешности весов. У любого инструмента есть допустимое отклонение. Так и Data Scientist – «инструмент» по анализу данных. Только как описать его погрешность?

Есть статистический метод указать точность полученного результата – построение доверительного интервала. Только об этой процедуре часто забывают. Если реальная картина не совпала с прогнозом аналитика, это не значит, что он не прав. Он выдал результат с некоторой точностью. И итоговый результат вполне может попадать в этот «интервал надежности».

Итак, формулируем последний пункт:

Аккуратность в формулировке прогноза, привычка рассчитывать доверительный интервал, а также проверять необходимые и достаточные условия.

И, действительно, проверка должна быть всегда. Другой вопрос, что методология этой проверки не всегда понятна, но это отдельный разговор. Работа аналитика как раз и заключается в том, чтобы нащупать правильный ход мысли и ухватить его. Во время таких поисков, кстати, очень часто набредаешь на какие-то толковые мысли, которые могут привести к правильному результату.

Эпилог

Для большей наглядности и систематизации (что немаловажно в работе с данными) позвольте составить итоговый список профессиональных качеств эксперта по данным:

• Аналитик должен уметь брать на себя ответственность за решение задачи и разбираться с ней наедине со своими мыслями, пока не получит первое, хотя бы грубое решение.

• Способность обнаруживать причинно-следственную связь, описывать ее и формулировать условия, при которых она реализуется, а также искать недостающую информацию с помощью доступных ресурсов, чтобы получить эффективный для бизнеса результат.

• Способность оценивать промежуточный результат на каждом шаге с точки зрения здравого смысла. Способность, вошедшая в привычку.

• Критичность мышления, в том числе, в отношении своих суждений и своего опыта.

• Навык проверять свои предположения классическими способами, а также придумывать альтернативные методы.

• Умение вычленять значимые показатели, проверять и оценивать их значимость, а также мыслить с оглядкой на уязвимость математических методов.

• Аккуратность в формулировке прогноза, привычка рассчитывать доверительный интервал, а также проверять необходимые и достаточные условия.

Естественно, приведенный выше пример может быть слишком утрированным. Однако, иногда предоставленной информации бывает реально слишком мало, чтобы сделать какие-то более-менее осознанные выводы. В таком случае, это уже вопросы к бизнесу – возможно, владелец или другой ответственный сотрудник может дать чуть больше информации, конкретизировать неясные моменты или хотя бы подтолкнуть в нужном направлении. В конце концов, если бы бизнес сам знал ответы на все свои вопросы, зачем ему нужен был бы Data Scientist?


Источник: m.vk.com

Комментарии: