Women’s learning: девушки-датасайентисты рассказывают о машинном обучении, карьерном росте и трендах

2019-06-16 20:35

В Хайтеке поговорили с девушками-датасайентистами и узнали, как работает машинное обучение, насколько востребованы такие специалисты на рынке и как получить работу в этой сфере.

Системы с машинным обучением сегодня получили распространение практически во всех сферах человеческой жизни — медицина, образование, транспорт, банкинги и даже традиционные консервативные направления — промышленность или нефтедобыча. Но до сих пор нам сложно понять и объяснить алгоритмы и решения машинного обучения. Нейронная сеть расставляет внутри себя весовые коэффициенты, чтобы получались правильные ответы, но что сделать, чтобы ответ поменялся, остается неизвестным. Например, исследование Carnegie Mellon показало, что женщины гораздо реже, чем мужчины, видят рекламу высокооплачиваемых должностей, которую показывает Google AdSense, работающий на алгоритмах машинного обучения. При этом женщины сами обрабатывают данные и строят модели ничуть не хуже мужчин.

Data Scientists — эксперты по аналитическим данным, которые обладают техническими навыками для решения сложных задач.

Они любят математику, являются чуть ли не учеными в области компьютерных наук, обожают статистику, и главное — данные и их анализ.

В России, по данным Headhunter, зарплата специалиста в области Data Science и машинного обучения может достигать 300 тыс. руб.

Понятное дело, что такие специалисты являются очень востребованными и высокооплачиваемыми на рынке.

Александра Мурзина, инженер по машинному обучению в группе перспективных технологий, Positive Technologies

Одной из наиболее многообещающих техник в машинном обучении сейчас является обучение с подкреплением (reinforcement learning). Именно на ней, кстати, основана система DeepMind, которая выиграла в StarCraft II. Такой подход к обучению, а потом и к использованию, действительно больше напоминает ИИ. Подобная система погружена в среду, дающую ей отклики на действия. Этот способ очень похож на то, как учимся мы с вами, но у нас на это, порой, уходят годы, а здесь есть возможность существенно ускорить процесс за счет моделирования и компьютерных мощностей.

Например, такая система быстрее научится «хорошо водить» автомобиль. Конечно, останутся вопросы, связанные с исключительными ситуациями и работой системы в их условиях (в силу ограничения решаемых ею задач). Не меньший шум осенью 2017 года вызвали капсульные нейронные сети: тогда говорили ни много ни мало, а практически о перевороте в мире глубокого обучения. Сегодня же в паблике о них почти забыли. На практике до сих пор очень популярны бустинги и архитектуры нейронных сетей, которые уже стали стандартом для решения определенных задач. Таких, к примеру, как детектирование объектов на изображениях или классификация изображений.

Теоретически ИИ как технология быстрее придет в те сферы, где работа человека в большей степени состоит из рутинных действий, либо в те области, где необходимо быстро принимать решения, основываясь на большом количестве данных.

То есть нашумевшая новость о том, как 600 трейдеров заменили на две сотни программистов вполне себе может перейти в разряд рядовых событий в области автоматизации. Если обратиться к отрасли кибербезопасности, то такая автоматизация вероятна, например, в области вирусной аналитики, или выявления атак. К слову сказать наша команда, как раз и работает над технологией, которая позволяет с помощью машинного обучения выявлять атаки на веб-приложения за считанные секунды.

На практике же предсказать отрасли, в которых ИИ будет востребован наиболее масштабно в полную силу и в ближайшее время сложно, так как его использование сопряжено с массой социальных и юридических нюансов. Скажем, автопилотирование: технологически уже вполне возможно перевести стандартные авиарейсы на автопилоты, но как много пассажиров доверят свою жизнь самолету без человека, сидящего за штурвалом? Или, скажем, медицина — разработок, основанных на использовании ИИ применительно к этой отрасли много, но с точки зрения законодательной базы ими нельзя пользоваться в полной мере и сегодня они остаются пока на уровне концептуальных.

Да, вокруг направления много шума: при этом многие эксперты предпочитают сразу говорить о решении конкретных проблем, экономии времени и денег, при условии использования технологии. В реальности эти идеи спотыкаются о кадровый вопрос: если несколько лет назад были актуальны разговоры о дефиците программистов, то и сейчас ничего не изменилось, кроме того, что теперь нужны уже не просто, к примеру, java-программисты, а еще и комплексные инженеры, которые могут задачу понять и решить, в том числе и методами машинного обучения.

Ощущение перенасыщения рынка специалистами по машинному обучению скорее обманчивое, чем реальное. Да, многие считают, что могут быстро изучить эту область пройдя пару-тройку курсов, а в итоге рынок перенасыщен специалистами с нерелевантным бэкграундом. Однако машинное обучение — это в большинстве случаев инструмент для эффективного решения конкретной задачи (ну, только если вы не занимаетесь им ради него самого) и для того, чтобы правильно подобрать инструмент нужно обладать обширной экспертизой в конкретной сфере (в нашем случае в информационной безопасности).

История же с машинным обучением сегодня больше напоминает ситуацию с популярным в разработческой среде антипаттерном «золотой молоток», при котором любую задачу стараются решить с помощью одного единственного (хоть и золотого) молотка. Специалисты по машинному обучению, прошедшие пару-тройку курсов, применяют свой опыт в ста случаях из ста, не будучи в состоянии понять, когда нужен иной инструментарий — дополнительный. Многие из таких свежеиспеченных специалистов не разработчики и не могут выйти за рамки Jupyter Notebook (популярный инструмент в ML), либо не обладают должными знаниями в других областях, что не позволяет им успешно использовать технологию в какой-либо конкретной сфере для решения специфических задач.

Алена Арыкина, Data Scientist ПАО «Сбербанк»

В машинном обучении есть часть творческая, зависящая от данных и знаний об области, от интуиции разработчика и многого другого. И есть вещи автоматические, где нужно найти параметры получше и переписать давно известный код. Вторую часть, как и в любом «механическом» процессе, люди стремятся всё оптимизировать, в том числе и с помощью машинного обучения. Если раньше математики переходили от «ручного обучения» к автоматическому на основе таких библиотек как keras, то сегодня примерами таких оптимизаций могут служить библиотеки управления состоянием датасетов, предобработкой картинок и текстов, даже автоматического выявления особенностей элементов. Алгоритмы могут быть простыми (обрезать окончания у слов) или сложными (построить специальные нейросети — автоэнкодеры, сжимающие данные до любого размера), но набор таких средств подготовки чаще всего определяет качество финальной модели, а значит, и навыки датасайнтиста.

Машинное обучение в итоге придет позже всего в те области, где его будет тормозить законодательство или человеческое недоверие: медицина или машина с автопилотом. Мы уже видим потрясающие достижения в этих областях — их вовсю используют в других странах. Но я уверена: чтобы внедрить их у нас и сделать доступными для простых людей, придется выиграть не одну бюрократическую войну.

Data Science — это правда очень интересно. Каждый второй мой знакомый айтишник уже хотя бы читал про машинное обучение. Волей-неволей начинаешь переживать: не станет ли датасайнтистов слишком много. Кроме того, сейчас машинное обучение пытаются использовать в любом ИТ-проекте и для любых задач, не очень себе представляя, зачем такие алгоритм там нужны, — модно же. Хайп пройдет и количество вакансий снизится. С другой стороны, вопрос: останутся ли в профессии те, кто и правда любит Data Science, а не погнался за модой.

Татьяна Савельева, руководитель группы неструктурированных данных, Яндекс.Такси, автор телеграм-канала tldr_arxiv

Слово «ИИ» я вообще не очень люблю, потому что оно слишком общее и амбициозное, и часто заставляет людей переоценивать уровень технологий. Знаете, есть такая шутка: «Как отличить ML от ИИ? ML делают на Python, а ИИ — в PowerPoint».

Первый тренд Data Science — это увеличивающаяся популярность предметной области: компании все больше понимают, что без обработки большого количества полезной информации в будущем будет тяжеловато. Есть тренд на автоматизацию машинного обучения: если 10 лет назад приходилось писать все методы для работы самому, то сейчас есть много удобных готовых библиотек.

Но с возрастающим удобством использования методов актуальные инструменты все быстрее и все больше меняются — нужно постоянно держать руку на пульсе. Есть тренд на использование нейронных сетей: индустриальные конференции публикуют все больше статей, связанных именно с этим типом алгоритмов.

Так-то машинное обучение в последнюю очередь придет в сферы, где данных достаточно мало или где их вообще нет — например, таким способом вряд ли предскажешь место, где упадет астероид, или время столкновения Луны с Землей. Кажется, что машинное обучение тяжело внедрять в бюрократических институтах — государственных органах, медучреждениях.

В любом случае, в какой-то момент на рынке будут появляться в большом количестве претенденты на стартовые вакансии — младшие специалисты или стажеры, так как знания, необходимые для трудоустройства на такую позицию, становятся все доступнее. Но спрос на опытных специалистов, которые уже реализовывали ML-проекты, будет расти, поскольку на получение этого опыта уходит достаточно много времени и усилий, а количество задач по машинному обучению растет быстрее, чем число людей, которые успели и смогли такой опыт получить.

Эмели Драль, директор по анализу данных Mechanica AI, руководитель курса Data Mining in Action

В сфере машинного обучения одним из наиболее ярких трендов является переход от его использования в качестве вспомогательной технологии к полной автоматизации на его основе. Наиболее ярко это проявляется в автоматизации промышленного производства, сельского хозяйства и агропромышленности, а также развитии концепций умный город и умный дом.

Сейчас сфер применения машинного обучения довольно много и это связано с текущим уровнем развития стека технологий, уровнем нашего понимания области и рядом нерешенных этических вопросов. Мой личный топ применения — медицина, психология и педагогика. Здесь речь в первую очередь не о вспомогательных сервисах (рекомендательные системы по диагностике заболеваний или диалоговые системы), а о полной автоматизации процессов посредством AI и ML.

Я думаю, что сфера ИТ сегодня отличается тем, что технологии развиваются очень динамично и если перестать успевать за этими изменениями, то имеется вполне осязаемый риск стать невостребованным специалистом.

Это одна из немногих сфер, где выпускники вузов без опыта могут конкурировать с опытными специалистами.

Благодаря динамичности рынка работа для тех, кто успевает за трендами, будет всегда. А вот тем, кто не готов учиться всю жизнь, предстоит решить непростой вопрос: как оставаться релевантным. Здесь поможет опыт, профессиональный кругозор и знания смежных (или не очень!) областей деятельности.

Сфера образования в данный момент меняется концептуально и, если так можно выразиться, разворачивается лицом не только к школьникам и студентам, но и ко взрослым специалистам с опытом работы.Имея релевантное образование в прошлом, достаточное количество времени и должный уровень упорства, можно переквалифицироваться самостоятельно без существенных финансовых вложений и пройти собеседование как минимум на начальную позицию в сфере анализа данных. Это одна из целей, которые ставят перед собой онлайн-курсы.

Если говорить о вузах, большинство из них испытывает целый ряд трудностей в преподавании актуальных технических дисциплин: технологии меняются очень быстро, нужно привлекать практикующих специалистов, а они не всегда готовы работать в том формате, который подразумевает вуз. Так на помощь приходят ведущие ИТ-компании, которые создают школы, открывают кафедры на базе вузов, проводят практические курсы и стажировки, а также обучают вчерашних выпускников внутри компании на старте работы. В конченом счете задачу вуза я лично вижу не только и не столько в том, чтобы выпустить готового специалиста на рынок, а в том, что высшее образование должно дать человеку определенный культурный, интеллектуальный и эмоциональный уровень, от которых его профессиональная жизнь зависит в большей степени, нежели от знания конкретных технологий.

Анна Воеводская, эксперт по машинному обучению, «Инфосистемы Джет»

Мне кажется, сейчас всё больше и больше применяют reinforcement learning (обучение с подкреплением). Решение учиться, взаимодействуя со средой, используя вознаграждения, действия и наблюдения. Один из самых известных примеров обучения с подкреплением — AlphaGo. Также такие методы обучения применяются для моделирования движения человека (последние соревнования на NIPS были про RL), машин и другого.

Машинное обучение — это волшебство в самом лучшем смысле. Довольно сложная математика применяется именно к вашим данным, делается глубинный анализ и выдается весьма точный прогноз именно для вас. И все хотят себе этого волшебства: и деньги зарабатывает, и для имиджа полезно — отлично же.

Что касается перенасыщения рынка кадрами, я в это не верю. Хороших специалистов всегда сложно найти. Например, Java появилась не два года назад, а senior в этой области найти всё ещё трудно. А хороший датасайетнист вообще как единорог: и математику знает и любит, и кодит, и бизнес-метрики понимает, и объясняет всё хорошо. Если у нас в какой-то момент в мире случится переизбыток таких людей, то будет неплохо. Но это какая-то утопия.

Телеграм: t.me/ainewsline

Источник: m.vk.com

Women’s learning: девушки-датасайентисты рассказывают о машинном обучении, карьерном росте и трендах

Комментарии: