Словарик для Data Scientist

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Слова расположены не по алфавитному, а по логическому порядку.

Самое первое, что нужно освоить – кто такой ученый по данным и в рамках какой науки он делает свои открытия.

Data Science – наука, изучающая проблемы получения, обработки и анализа данных, для выявления ценной для разных сфер жизни информации. Наука о данных объединяет методы, тесно связанные с такими относительно новыми областями науки, как BIG Data (Большие данные), Machine Learning (Машинное обучение), Artificial Intelligence (Искусственный интеллект); активно использует технологию проектирования баз данных и управления ими, статистические методы и методы интеллектуального анализа данных.

Из этого определения легко сделать вывод, кто такие «ученые по данным».

Data Scientist – это эксперт по анализу данных, который обладает крепкими знаниями математических и статистических методов, способный эти методы реализовать в виде компьютерной программы и интерпретировать результат анализа в рамках конкретной предметной области.

Ученые по данным – не программисты, а скорее математики с хорошими междисциплинарными знаниями, которые должны обладать настойчивостью и упорством. Время решения задачи зависит от ее сложности и важности. Труд Data Scientist заключается в том, что решение обычно не приходит сразу. Сначала нужно перепробовать кучу алгоритмов, определить, какой из них выдает адекватный результат и только потом делать заключение. И так из раза в раз, ведь одинаковых задач не бывает.

Теперь посмотрим, со какими направлениями Data Scientist-у приходится тесно работать.

Big Data - Большие данные. Точного определения этому явлению нет, так как размер – характеристика субъективная. Кто считает, что данные большие, когда их объем превышает один терабайт, другие – когда данные невозможно обработать на одном компьютере. То есть нет четкой границы между большими и небольшими данными.

Изначально, когда понятие Big Data только появилось, было принято его описывать с помощью трех V: Volume (объем), Velocity – скорость роста и обработки данных и Variety (многообразие) – количество типов данных, которые нужно обрабатывать (Числа, тексты, изображения и другие, в том числе неструктурированные).

Потом специалисты предложили увеличить количество факторов и к предыдущим V добавились еще 5: Veracity (достоверность), Variability (изменчивость), Viability (жизнеспособность), Value (ценность для разных сфер жизни), Visualization (возможность визуального представления данных).

Такой принцип оценивания показывает, что Big Data – это не огромные наборы данных, хранящихся на серверах, а скорее методы и инструменты для работы с большими объемами информации и извлечения из них пользы.

Data Mining – (добыча информации или Интеллектуальный анализ данных) – методы поиска новой, значимой информации в наборе данных и ее дальнейшего использования для определения скрытых шаблонов. Это важный шаг в процессе обнаружения знаний. Зачастую Data Mining включает анализ огромного количества исторических данных, которые ранее игнорировались или были неясными. Data Mining – это техника, которой пользуются, в том числе Data Scientists.

Machine Learning (Машинное обучение) – это большой раздел искусственного интеллекта, изучающий построение методов и алгоритмов, способных к обучению. Machine Learning позволяет научить компьютер «думать» и самостоятельно, без помощи человека принимать решение.

На данный момент алгоритмы Машинного обучения подразделяют на два типа: Обучение с учителем (контролируемое) и Обучение без учителя.

Контролируемое обучение имеет большую распространенность на данный момент. Оно аналогично обучению студента с преподавателем: компьютеру (студенту) предоставляется алгоритм и входные данные; после получения результата пользователь (преподаватель) корректирует результат, обучая тем самым компьютер, для того, чтобы алгоритм работал точнее при следующем запуске.

Общая постановка задачи для Машинного обучения выглядит следующим образом: есть некоторое множество событий или объектов (прецедентов) и их описание (некоторые данные). Все имеющиеся описания называют обучающей выборкой. Цель – найти по этим частным сведениям общие закономерности и связи, относящиеся не только к обучаемой выборке, которую мы имеем, но и к другим объектам.

Для описания прецедентов чаще используют следующее представление: фиксируют набор из измеренных характеристик, присущих каждому объекту. Это могут быть числовые векторы, временные ряды, изображения, тексты и другие типы данных.

Решение задачи происходит поэтапно: сначала выбирают модель предполагаемой зависимости; затем вводят функционал качества – значение, которого показывает, насколько хороша фиксированная модель. Дальше алгоритм обучения начинает поиск параметров модели, для которых получается оптимальное значение функционала качества.

Алгоритмы Machine Learning используются везде: в поисковых системах, контекстной рекламе, в распознавании речи и изображений, в беспилотных автомобилях, в рекомендациях контента в социальных сетях, при создании чат-ботов, в диагностике заболеваний и других проектах.

Очень важно понимать различия между понятиями Data Science, Machine Learning и Data Mining. Для более наглядного представления роли каждого из этих понятий, приведем следующую диаграмму. Хорошо видно, что Data Science – как бы всеобъемлющая наука, а Машинное обучение и Data Mining – всего лишь составляющие. Именно поэтому настоящий Data Scientist должен владеть так или иначе всеми инструментами: и способностью к аналитике, и умением работать с базами данных, и опытом построения алгоритмов и моделей искусственного интеллекта и возможностью стильно и доступно строить визуализации для коллег. А Senior Data Scientist отличается от Junior-а только тем, что он не просто ориентируется во всех этих сферах, а свободно в них себя чувствует.

Boosting (Бустинг) – один из наиболее популярных методов машинного обучения. Boosting в переводе с английского языка – улучшение. Это процедура последовательного построения композиций алгоритмов. То есть результат одного алгоритма поступает на вход другого алгоритма и так далее. Этот метод достаточно простой, гибкий и универсальный. Бустинг позволяет скомпенсировать ошибки в результатах на прошлых итерациях. То есть алгоритмы обучаются на ошибках, совершенных предыдущими композициями, из-за чего требуется меньше времени на поиск правильного ответа.

Decision Tree – инструмент поддержки принятия решений. Это один из способов отображения алгоритма, который содержит только условные операторы управления.

Дерево решений представляет собой иерархическую структуру правил, похожую на блок-схему, в которой каждый внутренний узел представляет «тест» для атрибута (условие, которое может выполняться или нет), каждая ветвь представляет результат теста, а каждый конечный узел представляет решение. Под правилом подразумевается отношение «если…, то…»

Древовидные алгоритмы обучения считаются одними из лучших и наиболее часто используемых контролируемых методов обучения. Древовидные методы расширяют возможности прогнозных моделей с высокой точностью, стабильностью и простотой интерпретации. В отличие от линейных моделей, они довольно хорошо отображают нелинейные отношения.

Задачи, в которых чаще всего используется дерево решений:

· Хранение данных – деревья решений позволяют хранить информацию в компактном виде (то есть хранить не сами данные, а их описание в форме Decision Tree)

· Классификация – с помощью деревьев решений можно легко относить объекты к заранее известному классу

· Регрессия - деревья решений позволяют установить зависимость целевой переменной от независимых переменных.

Регрессия – один из самых популярных методов анализа в Data Science. Его используют для моделирования отношений между зависимыми и независимыми переменным, а также для анализа влияния этих переменных на получение какого-то результата.

Существует много видов регрессий. Самой «древней» можно считать линейную регрессию – модель, позволяющая строить взаимосвязь между одной зависимой и многими независимыми переменными с помощью линейных функций, например, с помощью прямой.

Одним из плюсов линейной регрессии является то, что она легко моделируется, достаточно эффективна при построении несложной зависимости и при небольшом количестве данных.
Но линейная регрессия очень чувствительна к выбросам, однако, есть много способов нивелировать потери точности.

Полиномиальная регрессия – модель, которая подойдет для описания взаимосвязи нелинейно разделяемых данных. Данный модель строится с помощью полиномов (функций, некоторые переменные которых входят в уравнение со степенью больше 1).

Полиномиальная регрессия более гибкая, чем линейная и пригодна для моделирования сложных взаимосвязей с большим количеством данных. Так как степень полинома выбирается вручную, то можно регулировать точность аппроксимации. Но это тоже нужно делать осторожно, так как возможно перенасыщение модели.

Метод наименьших квадратов – очень важный метод, используемый в анализе и обработке данных. В методе линейной регрессии пользуются МНК для нахождения коэффициентов. Идея самой линейной регрессии основана на нахождении линии (определении коэффициентов), которая будет максимально близко ко всем точкам обучающей выборки одновременно. Делается это с помощью математических преобразований как раз на основании метода наименьших квадратов. Более того, при соблюдении ряда условий эта оценка является наилучшей в своем классе оценок.

Вот мы дошли до фундаментального термина в лексиконе Data Scientist.

Математическая статистика – раздел математики, посвященный математическим методам систематизации и обработки информации, а также для использования статистических данных для научных и практических выводов.
Во многом математическая статистика опирается на выводы теории вероятности, которые помогаю оценить надежность и точность результатов, сделанных на основе ограниченного количества данных.

Все, что касается статистики можно выписывать в словарь ученого по данным: это и статистические характеристики (среднее, математическое ожидание, дисперсия, мода, квантили, медиана и так далее), распределения, вероятности, формулировка и проверка гипотез, статистические оценки, полезные теоремы и законы.

Подробнее об этом вы можете почитать в другой нашей статье, где мы постарались подробно описать основные инструменты, которыми пользуется Data Scientist.

Вероятностная модель представляет собой математическое описание случайного события. Она определяется пространством элементарных событий и вероятностью событий.

При вероятностном подходе к решению задач, где существует неопределенность в отношении между наблюдаемыми и скрытыми переменными, взаимосвязь моделируется введением совместного распределения всех переменных.

Заключение

У нас получилась скорее mini-энциклопедия, чем словарик, но тем лучше. Если Вы не были знакомы с какими-то понятиями, то надеемся, теперь Вы имеете о них общее представление и это Вас заинтересовало. После такого базового ознакомления можете приступать к изучению серьезной литературы. Если Вы уже опытный ученый по данным, то освежили в памяти основные моменты и можете подтвердить, что без этих знаний не стать хорошим специалистом.

Если такой формат погружения в мир Data Science кажется Вам интересным, то пишите в комментариях, и мы продолжим заполнять нашу энциклопедию.


Источник: m.vk.com

Комментарии: