Что почитать по статистике, комбинаторике и теории вероятностей, чтобы начать понимать тему?

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


В этот теплый весенний вечер Physics.Math.Code подготовил немного годноты для своих любимых подписчиков. Решили структурировать всю информацию и книги в одном посте.

Читать гайд и полный план изучения: https://t.me/physics_lib/9835

Для кого эта подборка? Для тех, кто хочет повторить школьную математику, начать понимать статистику, начать использовать её в Computer Science, в частности в Data Science и Big Data, для тех, кто хочет приручить данные и начать извлекать из них выгоду.

В инструкции в нашем telegram-канале мы рассмотрели в подробностях все имеющиеся книги, в том порядке, в котором их удобно читать человеку, который начинает с полного нуля. К каждой книге и подборке имеются гиперссылки, с помощью которых вы сможете ознакомиться с материалом подробнее.

Подписывайтесь на наш канал в telegram, чтобы понять откуда копипастят годноту другие каналы ?

https://t.me/physics_lib

Теперь немного FAQ по терминам

Статистика — отрасль знаний, наука, в которой излагаются общие вопросы сбора, измерения, мониторинга, анализа массовых статистических (количественных или качественных) данных и их сравнение; изучение количественной стороны массовых общественных явлений в числовой форме.

Computer Science — это изучение вычислений , автоматизации и информации. Computer Science охватывает теоретические дисциплины (такие как алгоритмы, теория и теория информации ) до практических дисциплин (включая разработку и реализацию программного обеспечения) и программного обеспечения). Computer Science обычно считается областью академических исследований, отличной от компьютерного программирования ( Computer Programming). Это очень обобщенный термин, охватывает самые сложные теоретические данные, обобщенные практические проблемы информатики.

Теория вероятностей – математическая наука, изучающая закономерности, присущие массовым случайным явлениям.

В теории вероятностей первичными понятиями являются испытания и события.

Комбинаторика (иногда называемая комбинаторным анализом) — раздел математики, посвящённый решению задач, связанных с выбором и расположением элементов некоторого (чаще всего конечного) множества в соответствии с заданными правилами. Каждое такое правило определяет некоторую выборку из элементов исходного множества, которая называется комбинаторной конфигурацией. Простейшими примерами комбинаторных конфигураций являются перестановки, сочетания и размещения.

Наука о данных (Data Science ) — раздел информатики, изучающий проблемы анализа, обработки и представления данных в цифровой форме. Объединяет методы по обработке данных в условиях больших объёмов и высокого уровня параллелизма, статистические методы, методы интеллектуального анализа данных и приложения искусственного интеллекта для работы с данными, а также методы проектирования и разработки баз данных.

Большие данные (Big Data) — обозначение структурированных и неструктурированных данных огромных объёмов и значительного многообразия, эффективно обрабатываемых горизонтально масштабируемыми программными инструментами, появившимися в конце 2000-х годов и альтернативных традиционным системам управления базами данных и решениям класса Business Intelligence.

Какой должен быть план изучения, чтобы войти в профессию Data Scientist

1. Изучить основы языков программирования: Python, R, SQL

2. Понять основы визуализации данных. Здесь можно попробовать использовать встроенные библиотеки, с помощью которых вы сможете строить графики, диаграммы, линии тренда и т.д.

3. Линейная алгебра — область математики, которая лежит в основе науке о данных, так как используется в методах обработки данных. Нужно уметь работать с векторами, иметь представление о векторном и скалярном произведениях, уметь работать с матрицами, знать про различные виды метрик (оценки расстояний в различных структурах данных, при различных ограничениях).

4. Статистика — очередной раздел математики, тесно связанный с теорией вероятностей. Помогает делать количественные и качественные оценки данных. Изучает взаимосвязи (корреляции) между несколькими выборками случайных величин. Активно используется в Data Science.

5. Теория вероятностей — для анализа данных эта дисциплина помогает представлять вероятность в качестве количественного способа оценки неопределенности, связанной с событиями из какого-либо вероятностного пространства различных исходов.

6. Гипотезы и выводы из гипотез — для специалиста по обработке данных нужно выполнять проверки вероятности, что определенная гипотеза является правильной. Нужно уметь сравнивать главную (нулевую) гипотезу с конкурирующей (альтернативной) гипотезой. Чтобы понимать отклонения от нулевой гипотезы, нужно изучить байесовский статистический вывод.

7. Градиентный спуск — нередко нужна оптимизация какого-то решения с помощью минимизации ошибок модели. Так производится настройка модели.

8. Сбор данных — специалисту по обработке данных нужен материал для работы. Поэтому данные нужно уметь собирать, очищать, преобразовывать в удобный для анализа вид. Вы должны научиться читать файлы, извлекать данные из веб-сайтов, анализировать html-код, научиться работать с популярными форматами хранения данных (например JSON или XML). Также нужно уметь искать и использовать API веб-сайтов и веб-сервисов ( Applications Programming Interface).

9. Первичная обработка данных — вычисление основных характеристик выборки, таких как количество точек данных, минимальное и максимальное значения, среднее значение, стандартное отклонение.

10. Машинное обучение — дополнение к лучшему анализу, после того как завершились задачи сведения бизнес-проблем к проблемам в области данных, задачи сбора, понимания, очистки информации.

11. Задача о K ближайших соседях — более точное предсказание можно сделать с учетом рассмотрения ближайших соседей и их классификации по основным критериям.

12. Регрессионный анализ и все виды регрессий — набор методов, которые позволяют определить характер влияния нескольких независимых величин на нужную нам зависимую величину.

13. Деревья принятия решений ( Решающие деревья, Decision Tree ) — методы, помогающие сделать прогнозы в моделировании, чтобы сразу отсеять (или принять) нужные данные.

14. Нейронные сети — модели, необходимые для прогнозов. Основаны на организации и функционировании головного мозга. Каждый нейрон просматривает сигналы, выходящие из других нейронов, взвешивает их, затем сравнивает со своим пороговым значением, чтобы решить: пропускать их дальше или же игнорировать. Отсылка к перцептронам.

15. Кластеризация ( Clustering ) — умение работать с немаркированными данными, то есть случай обучения без учителя. Нужно изучить возможность разбития данных на группы по каким либо критериям.

Читать полный план изучения и список книг:

https://t.me/physics_lib/9835


Источник: t.me

Комментарии: