6 шагов, которые помогут стать специалистом по Data Science

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Давно думали разобраться в науке о данных, но не знали, с чего начать? Мы собрали материалы, которые помогут стать специалистом по Data Science.

Прежде чем перейти к обсуждению необходимых знаний, объясним, зачем вообще становиться специалистом по Data Science.

Мы живем в мире, которым управляют данные. То, что делает компании ценными, ? это объем, уникальность и качество данных, которые они накопили за время существования. Каждый новый байт данных позволяет корпорациям зарабатывать больше. Сейчас количество населения в мире на пике, количество пользователей интернета тоже, а значит объём потребляемых и разглашаемых пользователями данных крайне высок. И это не предел.

Компании в настоящее время нуждаются в квалифицированных сотрудниках, которые смогут эффективно работать с большими наборами данных и помогут усовершенствовать продукты.

По данным Эндрю Чемберлена из Glassdoor Data Science лидирует в списке лучших вакансий. Список основан на удовлетворённости сотрудников, уровне заработной платы и спросе на специалистов. Важно, что исследователи данных нужны во всех сферах бизнеса ? от медицинских сервисов и некоммерческих организаций до розничной торговли.

Вообще-то, мы имели в виду изучение основ программирования в принципе. Но время ? ресурс ограниченный, поэтому если вы ещё не считаете себя программистом, то начать стоит именно с Python. Почему? Он сочетает в себе спрос на специалистов, простоту изучения и многофункциональность. К тому же, у него простой синтаксис. После того, как вы изучите основы Python, вам нужно потратить время на знакомство с главными библиотеками.

Вот список рекомендаций по изучению библиотек:

1. Основные библиотеки: Numpy, Scipy, Pandas.
2. Визуализация: Matplotlib, Seaborn.
3. Машинное обучение и глубокое обучение: SciKit-Learn, TensorFlow, Theano, Keras.
4. Обработка естественного языка: NLTK, TextBlob, Aylien.
5. Веб-скрапинг: Запросы, BeautifulSoup 4, Scrapy.

Вам нужно будет использовать концепции статистики и математики для понимания принципов работы анализа данных в офлайне. Статистика, как правило, рассматривается как один из столпов науки о данных. Но поскольку это обширная область исследований, она может показаться необъятной. Есть специальный подкаст, который объясняет математику, необходимую для анализа данных.

Вообще, для начала стоит разобраться с теорией вероятности, статистическими выводами, моделью регрессии и сутью корреляции.

Специалист по данным ? человек, который лучше любого инженера знает статистику и умеет писать код лучше, чем любой статистик.

Все компании ? от Facebook до New York Times используют базы данных, чаще всего с помощью SQL (языка структурированных запросов). Вам нужно изучить SQL, чтобы быстро добавлять, изменять или извлекать данные из этих баз.

Один из лучших ресурсов для изучения ? SQL Zoo. Другой вариант ? наши статьи. Вы также можете использовать бесплатные шпаргалки по SQL, ведь запомнить все функции сразу будет тяжело.

Алгоритмы для компьютерных программ ? как рецепты для поваров (начинающих). Это ряд инструкций, следуя которым программа правильно выполняет то, чего от неё хотят. Существует множество алгоритмов. Вам нужно изучить их все и понять, какой алгоритм когда использовать (в зависимости от задачи).

Алгоритмы можно разбить на три основных типа: линейные, с ветвлениями, с повторениями.

А это список того, что предстоит изучить:

  • Линейная регрессия
  • Логистическая регрессия
  • Наивный байесовский классификатор
  • Метод k-ближайших соседей
  • Метод опорных векторов
  • Дерево решений
  • Random Forest

Как только вы познакомитесь с этими концепциями, важно реализовать их самостоятельно, чтобы уложить в голове, как они работают. Вам поможет Github-репозиторий с примерами реализации.

Следует понимать, как лучше визуализировать результаты работы. Чтобы профессионально представлять результаты, нужно знать, как использовать разные библиотеки визуализации данных в Python. Кроме того, вы получите преимущество, если научитесь работать с такими технологиями, как Tableau. Людям легче и удобнее получать информацию, используя визуальные эффекты, а не рыться в огромных объемах данных.

Список реддитов для тех, кто хочет стать специалистом по Data Science
Многие одиночки труднее достигают поставленных целей, чем те, кто взаимодействует с единомышленниками. Будучи частью сообщества, вы не только быстрее вольётесь в сферу науки о данных, но и будете первым узнавать о новых веяниях, важных для работы. Было бы странным отставать от коллег-конкурентов, развиваясь такими же методами, как и они. Как минимум, стоит регулярно изучать обновления проектов из сферы на GitHub.

Вот некоторые люди и организации, которые стоит читать в Twitter:

Эта статья не является полным перечнем всех навыков, необходимых для того, чтобы стать хорошим специалистом. Ее цель ? дать широкое представление о тех навыках, которые ожидают от человека, если он решает заниматься наукой о данных.

Источник: Как стать специалистом по Data Science on Medium


Источник: proglib.io

Комментарии: