Словарик для Data Scientist |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2019-11-15 18:23 Слова расположены не по алфавитному, а по логическому порядку. Самое первое, что нужно освоить – кто такой ученый по данным и в рамках какой науки он делает свои открытия. Data Science – наука, изучающая проблемы получения, обработки и анализа данных, для выявления ценной для разных сфер жизни информации. Наука о данных объединяет методы, тесно связанные с такими относительно новыми областями науки, как BIG Data (Большие данные), Machine Learning (Машинное обучение), Artificial Intelligence (Искусственный интеллект); активно использует технологию проектирования баз данных и управления ими, статистические методы и методы интеллектуального анализа данных. Из этого определения легко сделать вывод, кто такие «ученые по данным». Data Scientist – это эксперт по анализу данных, который обладает крепкими знаниями математических и статистических методов, способный эти методы реализовать в виде компьютерной программы и интерпретировать результат анализа в рамках конкретной предметной области. Ученые по данным – не программисты, а скорее математики с хорошими междисциплинарными знаниями, которые должны обладать настойчивостью и упорством. Время решения задачи зависит от ее сложности и важности. Труд Data Scientist заключается в том, что решение обычно не приходит сразу. Сначала нужно перепробовать кучу алгоритмов, определить, какой из них выдает адекватный результат и только потом делать заключение. И так из раза в раз, ведь одинаковых задач не бывает. Теперь посмотрим, со какими направлениями Data Scientist-у приходится тесно работать. Big Data - Большие данные. Точного определения этому явлению нет, так как размер – характеристика субъективная. Кто считает, что данные большие, когда их объем превышает один терабайт, другие – когда данные невозможно обработать на одном компьютере. То есть нет четкой границы между большими и небольшими данными. Изначально, когда понятие Big Data только появилось, было принято его описывать с помощью трех V: Volume (объем), Velocity – скорость роста и обработки данных и Variety (многообразие) – количество типов данных, которые нужно обрабатывать (Числа, тексты, изображения и другие, в том числе неструктурированные). Потом специалисты предложили увеличить количество факторов и к предыдущим V добавились еще 5: Veracity (достоверность), Variability (изменчивость), Viability (жизнеспособность), Value (ценность для разных сфер жизни), Visualization (возможность визуального представления данных). Такой принцип оценивания показывает, что Big Data – это не огромные наборы данных, хранящихся на серверах, а скорее методы и инструменты для работы с большими объемами информации и извлечения из них пользы. Data Mining – (добыча информации или Интеллектуальный анализ данных) – методы поиска новой, значимой информации в наборе данных и ее дальнейшего использования для определения скрытых шаблонов. Это важный шаг в процессе обнаружения знаний. Зачастую Data Mining включает анализ огромного количества исторических данных, которые ранее игнорировались или были неясными. Data Mining – это техника, которой пользуются, в том числе Data Scientists. Machine Learning (Машинное обучение) – это большой раздел искусственного интеллекта, изучающий построение методов и алгоритмов, способных к обучению. Machine Learning позволяет научить компьютер «думать» и самостоятельно, без помощи человека принимать решение. На данный момент алгоритмы Машинного обучения подразделяют на два типа: Обучение с учителем (контролируемое) и Обучение без учителя. Контролируемое обучение имеет большую распространенность на данный момент. Оно аналогично обучению студента с преподавателем: компьютеру (студенту) предоставляется алгоритм и входные данные; после получения результата пользователь (преподаватель) корректирует результат, обучая тем самым компьютер, для того, чтобы алгоритм работал точнее при следующем запуске. Общая постановка задачи для Машинного обучения выглядит следующим образом: есть некоторое множество событий или объектов (прецедентов) и их описание (некоторые данные). Все имеющиеся описания называют обучающей выборкой. Цель – найти по этим частным сведениям общие закономерности и связи, относящиеся не только к обучаемой выборке, которую мы имеем, но и к другим объектам. Для описания прецедентов чаще используют следующее представление: фиксируют набор из измеренных характеристик, присущих каждому объекту. Это могут быть числовые векторы, временные ряды, изображения, тексты и другие типы данных. Решение задачи происходит поэтапно: сначала выбирают модель предполагаемой зависимости; затем вводят функционал качества – значение, которого показывает, насколько хороша фиксированная модель. Дальше алгоритм обучения начинает поиск параметров модели, для которых получается оптимальное значение функционала качества. Алгоритмы Machine Learning используются везде: в поисковых системах, контекстной рекламе, в распознавании речи и изображений, в беспилотных автомобилях, в рекомендациях контента в социальных сетях, при создании чат-ботов, в диагностике заболеваний и других проектах. Очень важно понимать различия между понятиями Data Science, Machine Learning и Data Mining. Для более наглядного представления роли каждого из этих понятий, приведем следующую диаграмму. Хорошо видно, что Data Science – как бы всеобъемлющая наука, а Машинное обучение и Data Mining – всего лишь составляющие. Именно поэтому настоящий Data Scientist должен владеть так или иначе всеми инструментами: и способностью к аналитике, и умением работать с базами данных, и опытом построения алгоритмов и моделей искусственного интеллекта и возможностью стильно и доступно строить визуализации для коллег. А Senior Data Scientist отличается от Junior-а только тем, что он не просто ориентируется во всех этих сферах, а свободно в них себя чувствует. Boosting (Бустинг) – один из наиболее популярных методов машинного обучения. Boosting в переводе с английского языка – улучшение. Это процедура последовательного построения композиций алгоритмов. То есть результат одного алгоритма поступает на вход другого алгоритма и так далее. Этот метод достаточно простой, гибкий и универсальный. Бустинг позволяет скомпенсировать ошибки в результатах на прошлых итерациях. То есть алгоритмы обучаются на ошибках, совершенных предыдущими композициями, из-за чего требуется меньше времени на поиск правильного ответа. Decision Tree – инструмент поддержки принятия решений. Это один из способов отображения алгоритма, который содержит только условные операторы управления. Древовидные алгоритмы обучения считаются одними из лучших и наиболее часто используемых контролируемых методов обучения. Древовидные методы расширяют возможности прогнозных моделей с высокой точностью, стабильностью и простотой интерпретации. В отличие от линейных моделей, они довольно хорошо отображают нелинейные отношения. · Хранение данных – деревья решений позволяют хранить информацию в компактном виде (то есть хранить не сами данные, а их описание в форме Decision Tree) · Классификация – с помощью деревьев решений можно легко относить объекты к заранее известному классу · Регрессия - деревья решений позволяют установить зависимость целевой переменной от независимых переменных. Регрессия – один из самых популярных методов анализа в Data Science. Его используют для моделирования отношений между зависимыми и независимыми переменным, а также для анализа влияния этих переменных на получение какого-то результата. Одним из плюсов линейной регрессии является то, что она легко моделируется, достаточно эффективна при построении несложной зависимости и при небольшом количестве данных. Полиномиальная регрессия более гибкая, чем линейная и пригодна для моделирования сложных взаимосвязей с большим количеством данных. Так как степень полинома выбирается вручную, то можно регулировать точность аппроксимации. Но это тоже нужно делать осторожно, так как возможно перенасыщение модели. Метод наименьших квадратов – очень важный метод, используемый в анализе и обработке данных. В методе линейной регрессии пользуются МНК для нахождения коэффициентов. Идея самой линейной регрессии основана на нахождении линии (определении коэффициентов), которая будет максимально близко ко всем точкам обучающей выборки одновременно. Делается это с помощью математических преобразований как раз на основании метода наименьших квадратов. Более того, при соблюдении ряда условий эта оценка является наилучшей в своем классе оценок. Вот мы дошли до фундаментального термина в лексиконе Data Scientist. Математическая статистика – раздел математики, посвященный математическим методам систематизации и обработки информации, а также для использования статистических данных для научных и практических выводов. Все, что касается статистики можно выписывать в словарь ученого по данным: это и статистические характеристики (среднее, математическое ожидание, дисперсия, мода, квантили, медиана и так далее), распределения, вероятности, формулировка и проверка гипотез, статистические оценки, полезные теоремы и законы. Подробнее об этом вы можете почитать в другой нашей статье, где мы постарались подробно описать основные инструменты, которыми пользуется Data Scientist. Вероятностная модель представляет собой математическое описание случайного события. Она определяется пространством элементарных событий и вероятностью событий. При вероятностном подходе к решению задач, где существует неопределенность в отношении между наблюдаемыми и скрытыми переменными, взаимосвязь моделируется введением совместного распределения всех переменных. Заключение У нас получилась скорее mini-энциклопедия, чем словарик, но тем лучше. Если Вы не были знакомы с какими-то понятиями, то надеемся, теперь Вы имеете о них общее представление и это Вас заинтересовало. После такого базового ознакомления можете приступать к изучению серьезной литературы. Если Вы уже опытный ученый по данным, то освежили в памяти основные моменты и можете подтвердить, что без этих знаний не стать хорошим специалистом. Если такой формат погружения в мир Data Science кажется Вам интересным, то пишите в комментариях, и мы продолжим заполнять нашу энциклопедию. Источник: m.vk.com Комментарии: |
|