Закончишь за пару недель? 8 самых раздражающих вопросов к Data Scientist

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Сооснователь компании Gramener, занятой в Data Science, рассказывает о 8 заблуждениях в ML в форме вопросов и утверждений. По его словам, в начале карьеры эти заблуждения подобны гранатам, которые могут бросить в вас. Инструкцией по безопасности делимся к старту флагманского курса по Data Science.


Сегодня наблюдается взрыв интереса к науке о данных. Достаточно вставить теги «Powered-by-AI» — и всё, можно продавать. Но именно здесь начинаются проблемы. Коммерческие предложения в области науки о данных часто обещают Луну с неба. Клиенты поднимают ожидания на ступеньку выше и запускают свои «лунные» проекты. В конечном счёте, именно Data Scientist может доставить людей на Луну или оставить их на мели. Погрузимся в фантастический мир ожиданий от проектов в области науки о данных и выясним, какими бывают заблуждения у бизнеса.

Все модели ошибочны, но некоторые полезны (Джордж Бокс)

1. Мы хотим модель ИИ. Вы постройте её, чтобы решить именно эту проблему?

Большинство отраслевых проблем в аналитике решается разведочным анализом данных. Позвольте даже не начинать о том, почему ИИ бывает излишеством. Зачем стрелять из пушки по воробьям?

Да, продвинутая аналитика — это круто. Бизнес любит говорить, что он первым в своей отрасли внедрил новейшую технологию. А кто из поставщиков не хочет похвастаться проектом ИИ? Но необходимо научить клиентов называть случаи, действительно требующие тяжёлой артиллерии арсенала ML. Что касается остального, убедите клиентов, показывая ценность разведочного анализа данных, статистики, других проверенных методов.

Безусловно, наибольшая опасность искусственного интеллекта заключается в том, что люди слишком рано заключают, что понимают его (Элиезер Шломо Юдковский)

2. Возьмите эти данные — верните нам инсайты

Часто клиенты думают, что их ответственность заканчивается на передаче данных. Некоторые даже останавливаются на определении проблемы, но об этом мы поговорим в пункте 4! Они просят аналитиков взять данные и представить им колоду сокрушительных бизнес-проектов, в одночасье меняющих организацию.

К сожалению, придумать действенные рекомендации для бизнеса в одиночку нельзя. Процесс требует непрерывных итераций и продуктивных диалогов с бизнес-пользователями о том, что актуально и действенно для них. Планируйте время, чтобы общаться с людьми из бизнеса периодически на протяжении всего проекта.

Если вы не знаете, как задать правильный вопрос, то ничего не откроете (В. Эдвардс Деминг)

3. Постройте модель, анализ можно выбросить

Многие специалисты Data Science упускают из виду обработку данных и разведочный анализ. Поэтому они не видят риска, когда клиенты просят вычеркнуть «ненужный анализ» из критически важных операций, чтобы сэкономить драгоценное время.

Исследование и анализ данных являются обязательными предварительными этапами машинного обучения и всех других передовых методов. Не прочувствовав данные, не обнаружив выбросов и не выявив глубинных закономерностей, модели лишь стреляют в темноте. Всегда выделяйте время для анализа и делитесь с клиентами интересными результатами.

Алхимики в поисках золота открыли множество других, более ценных вещей (Артур Шопенгауэр)

4. У нас есть данные последнего месяца. Возможен прогноз на полгода?

Вот это любят все Data Scientist… Клиенты собирают несколько строк данных в электронных таблицах. И ждут, что ИИ сотворит магию «хрустального шара», заглянув в будущее. Иногда это становится странным, когда клиенты признаются, что у них нет данных, а затем искренне интересуются, может ли машинное обучение восполнить пробелы.

Качество и объём данных не подлежат обсуждению. Принцип "мусор на входе — мусор на выходе" хорошо применим к аналитике. Статистические методы помогут извлечь больше, когда у вас меньше. Например, вменение данных недостающие точки, smote (техника избыточной выборки синтетического меньшинства) для генерации данных или использование упрощённых моделей при малых объёмах. Но это требует снизить ожидания клиента в смысле итогов проекта и модели.

Производительность методов аналитики в зависимости от объёма данных. От Эндрю Ына
Производительность методов аналитики в зависимости от объёма данных. От Эндрю Ына

5. Вы можете закончить за пару недель?

В любом важном проекте результат нужен вчера, даже если старт планировали сегодня. В спешке, когда сроки проекта срываются, частая жертва — этап разработки модели. При свободном доступе к API моделей и лёгком доступе к вычислениям на GPU клиенты задаются вопросом, что тормозит работу Data Scientist.

Несмотря на достижения в Auto-ML, в процессе моделирования не обойтись без работы руками. Специалисты Data Science должны изучать статистические результаты, сравнивать модели и проверять интерпретации, часто в ходе мучительных итераций. Автоматизировать это нельзя. По крайней мере пока. Лучше всего рассказать клиентам о жизненном цикле науки о данных, показать, что можно упустить из-за пропуска этапов.

Моделирование — это отчасти искусство, отчасти эксперименты, а значит, определяемые этапами планы могут быть слишком точны.

6. Вы можете просто заменить переменную результата, чтобы модель обновилась?

После решения проблемы моделирования часто появляются новые запросы. Иногда они просят заменить переменную результата и быстро обновить результаты повторным запуском модели. Клиенты не понимают, что такие изменения не просто перемещают ворота: футбол превращается в баскетбол.

Хотя машинное обучение по природе весьма итеративно, основная задача — выбрать правильные факторы влияния для данной переменной результата и определить их взаимосвязь. Клиенты должны заранее знать о том, как это работает, и о своих рычагах влияния. Предупредите о параметрах, требующих тщательного предварительного планирования, а также о том, как всё будет выглядеть, если изменять эти параметры вне определённых этапов.

7. А можно достичь точности в 100 %?

Люди часто зацикливаются на коэффициентах ошибок. Подобно слепой погоне за оценками по тестам, клиенты хотят, чтобы точность была близка к 100 %. Это начинает тревожить, когда точность становится единственной целью, превосходящей все оставшиеся факторы. Насколько это полезно — построить высокоточную модель, которая слишком сложна, чтобы работать в проекте?

Получившая приз в миллион долларов Netflix Prize модель с самой высокой точностью так и не была запущена в эксплуатацию: её огромная сложность означала большие затраты на инженерию, а модель с более низкой точностью была принята в эксплуатацию. В бизнесе всегда балансируйте между точностью и простотой, стабильностью и интерпретируемостью. Это требует решительных компромиссов и суждений, требует впустить клиента в круг доверия.

Проектирование модели: достижение комфортного баланса и компромиссов
Проектирование модели: достижение комфортного баланса и компромиссов

8. А можно сделать вечную модель?

После напряжённой работы создания и тестирования моделей клиенты задаются вопросом, научилась ли машина всему, что ей нужно. Частый вопрос — сможет ли она и дальше принимать разумные решения и адаптироваться ко всем будущим изменениям в динамике бизнеса?

К сожалению, машины не учатся всю жизнь. Модели нужно обучать, постоянно и терпеливо. Они нуждаются в быстрой переподготовке каждые несколько недель или месяцев, подобно ученику, у которого трудности в школе. Тем более, когда меняется контекст. Именно в таком состоянии находится сегодня отрасль аналитики, хотя она быстро развивается. Поэтому пока выделяйте время и силы на терпеливое обновление и обслуживание модели.

Заключение

Почти все вышеперечисленные заблуждения подпитываются недостатком осведомлённости и неверно расставленными приоритетами в рамках проекта. В конце концов, каждый клиент и бизнес-команда работают в условиях жёстких сроков, ограниченных бюджетов и не самых лучших потоков данных. Data Scientist должны уметь сопереживать клиентам и понимать истинную причину этих разногласий. Это позволит им просветить заинтересованные стороны и привести примеры, чтобы донести свою точку зрения. Команды Data Science должны сочетать мягкое побуждение и компромиссы, принимать решения, которые не ставят результаты под угрозу.

Жизненный цикл проекта Data Science
Жизненный цикл проекта Data Science

Data Science — это не только код и данные; прежде всего наука о данных — это тонкая работа с людьми. И если вам интересна эта сфера, то можете обратить внимание на программу флагманского курса или курса по аналитике данных, где научитесь решать проблемы бизнеса; также вы можете посмотреть, как мы готовим специалистов в других направлениях:


Источник: habr.com

Комментарии: