Что почитать по статистике, комбинаторике и теории вероятностей, чтобы начать понимать тему?

2022-03-27 17:36

компьютерные науки, большие данные big data

В этот теплый весенний вечер Physics.Math.Code подготовил немного годноты для своих любимых подписчиков. Решили структурировать всю информацию и книги в одном посте.

Читать гайд и полный план изучения: https://t.me/physics_lib/9835

Для кого эта подборка? Для тех, кто хочет повторить школьную математику, начать понимать статистику, начать использовать её в Computer Science, в частности в Data Science и Big Data, для тех, кто хочет приручить данные и начать извлекать из них выгоду.

В инструкции в нашем telegram-канале мы рассмотрели в подробностях все имеющиеся книги, в том порядке, в котором их удобно читать человеку, который начинает с полного нуля. К каждой книге и подборке имеются гиперссылки, с помощью которых вы сможете ознакомиться с материалом подробнее.

Подписывайтесь на наш канал в telegram, чтобы понять откуда копипастят годноту другие каналы ?

https://t.me/physics_lib

Теперь немного FAQ по терминам

Статистика — отрасль знаний, наука, в которой излагаются общие вопросы сбора, измерения, мониторинга, анализа массовых статистических (количественных или качественных) данных и их сравнение; изучение количественной стороны массовых общественных явлений в числовой форме.

Computer Science — это изучение вычислений , автоматизации и информации. Computer Science охватывает теоретические дисциплины (такие как алгоритмы, теория и теория информации ) до практических дисциплин (включая разработку и реализацию программного обеспечения) и программного обеспечения). Computer Science обычно считается областью академических исследований, отличной от компьютерного программирования ( Computer Programming). Это очень обобщенный термин, охватывает самые сложные теоретические данные, обобщенные практические проблемы информатики.

Теория вероятностей – математическая наука, изучающая закономерности, присущие массовым случайным явлениям.

В теории вероятностей первичными понятиями являются испытания и события.

Комбинаторика (иногда называемая комбинаторным анализом) — раздел математики, посвящённый решению задач, связанных с выбором и расположением элементов некоторого (чаще всего конечного) множества в соответствии с заданными правилами. Каждое такое правило определяет некоторую выборку из элементов исходного множества, которая называется комбинаторной конфигурацией. Простейшими примерами комбинаторных конфигураций являются перестановки, сочетания и размещения.

Наука о данных (Data Science ) — раздел информатики, изучающий проблемы анализа, обработки и представления данных в цифровой форме. Объединяет методы по обработке данных в условиях больших объёмов и высокого уровня параллелизма, статистические методы, методы интеллектуального анализа данных и приложения искусственного интеллекта для работы с данными, а также методы проектирования и разработки баз данных.

Большие данные (Big Data) — обозначение структурированных и неструктурированных данных огромных объёмов и значительного многообразия, эффективно обрабатываемых горизонтально масштабируемыми программными инструментами, появившимися в конце 2000-х годов и альтернативных традиционным системам управления базами данных и решениям класса Business Intelligence.

Какой должен быть план изучения, чтобы войти в профессию Data Scientist

1. Изучить основы языков программирования: Python, R, SQL

2. Понять основы визуализации данных. Здесь можно попробовать использовать встроенные библиотеки, с помощью которых вы сможете строить графики, диаграммы, линии тренда и т.д.

3. Линейная алгебра — область математики, которая лежит в основе науке о данных, так как используется в методах обработки данных. Нужно уметь работать с векторами, иметь представление о векторном и скалярном произведениях, уметь работать с матрицами, знать про различные виды метрик (оценки расстояний в различных структурах данных, при различных ограничениях).

4. Статистика — очередной раздел математики, тесно связанный с теорией вероятностей. Помогает делать количественные и качественные оценки данных. Изучает взаимосвязи (корреляции) между несколькими выборками случайных величин. Активно используется в Data Science.

5. Теория вероятностей — для анализа данных эта дисциплина помогает представлять вероятность в качестве количественного способа оценки неопределенности, связанной с событиями из какого-либо вероятностного пространства различных исходов.

6. Гипотезы и выводы из гипотез — для специалиста по обработке данных нужно выполнять проверки вероятности, что определенная гипотеза является правильной. Нужно уметь сравнивать главную (нулевую) гипотезу с конкурирующей (альтернативной) гипотезой. Чтобы понимать отклонения от нулевой гипотезы, нужно изучить байесовский статистический вывод.

7. Градиентный спуск — нередко нужна оптимизация какого-то решения с помощью минимизации ошибок модели. Так производится настройка модели.

8. Сбор данных — специалисту по обработке данных нужен материал для работы. Поэтому данные нужно уметь собирать, очищать, преобразовывать в удобный для анализа вид. Вы должны научиться читать файлы, извлекать данные из веб-сайтов, анализировать html-код, научиться работать с популярными форматами хранения данных (например JSON или XML). Также нужно уметь искать и использовать API веб-сайтов и веб-сервисов ( Applications Programming Interface).

9. Первичная обработка данных — вычисление основных характеристик выборки, таких как количество точек данных, минимальное и максимальное значения, среднее значение, стандартное отклонение.

10. Машинное обучение — дополнение к лучшему анализу, после того как завершились задачи сведения бизнес-проблем к проблемам в области данных, задачи сбора, понимания, очистки информации.

11. Задача о K ближайших соседях — более точное предсказание можно сделать с учетом рассмотрения ближайших соседей и их классификации по основным критериям.

12. Регрессионный анализ и все виды регрессий — набор методов, которые позволяют определить характер влияния нескольких независимых величин на нужную нам зависимую величину.

13. Деревья принятия решений ( Решающие деревья, Decision Tree ) — методы, помогающие сделать прогнозы в моделировании, чтобы сразу отсеять (или принять) нужные данные.

14. Нейронные сети — модели, необходимые для прогнозов. Основаны на организации и функционировании головного мозга. Каждый нейрон просматривает сигналы, выходящие из других нейронов, взвешивает их, затем сравнивает со своим пороговым значением, чтобы решить: пропускать их дальше или же игнорировать. Отсылка к перцептронам.

15. Кластеризация ( Clustering ) — умение работать с немаркированными данными, то есть случай обучения без учителя. Нужно изучить возможность разбития данных на группы по каким либо критериям.

Читать полный план изучения и список книг:

https://t.me/physics_lib/9835

Источник: t.me



		Что почитать по статистике, комбинаторике и теории вероятностей, чтобы начать понимать тему?
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2022-03-27 17:36 компьютерные науки, большие данные big data В этот теплый весенний вечер Physics.Math.Code подготовил немного годноты для своих любимых подписчиков. Решили структурировать всю информацию и книги в одном посте. Читать гайд и полный план изучения: https://t.me/physics_lib/9835 Для кого эта подборка? Для тех, кто хочет повторить школьную математику, начать понимать статистику, начать использовать её в Computer Science, в частности в Data Science и Big Data, для тех, кто хочет приручить данные и начать извлекать из них выгоду. В инструкции в нашем telegram-канале мы рассмотрели в подробностях все имеющиеся книги, в том порядке, в котором их удобно читать человеку, который начинает с полного нуля. К каждой книге и подборке имеются гиперссылки, с помощью которых вы сможете ознакомиться с материалом подробнее. Подписывайтесь на наш канал в telegram, чтобы понять откуда копипастят годноту другие каналы ? https://t.me/physics_lib Теперь немного FAQ по терминам Статистика — отрасль знаний, наука, в которой излагаются общие вопросы сбора, измерения, мониторинга, анализа массовых статистических (количественных или качественных) данных и их сравнение; изучение количественной стороны массовых общественных явлений в числовой форме. Computer Science — это изучение вычислений , автоматизации и информации. Computer Science охватывает теоретические дисциплины (такие как алгоритмы, теория и теория информации ) до практических дисциплин (включая разработку и реализацию программного обеспечения) и программного обеспечения). Computer Science обычно считается областью академических исследований, отличной от компьютерного программирования ( Computer Programming). Это очень обобщенный термин, охватывает самые сложные теоретические данные, обобщенные практические проблемы информатики. Теория вероятностей – математическая наука, изучающая закономерности, присущие массовым случайным явлениям. В теории вероятностей первичными понятиями являются испытания и события. Комбинаторика (иногда называемая комбинаторным анализом) — раздел математики, посвящённый решению задач, связанных с выбором и расположением элементов некоторого (чаще всего конечного) множества в соответствии с заданными правилами. Каждое такое правило определяет некоторую выборку из элементов исходного множества, которая называется комбинаторной конфигурацией. Простейшими примерами комбинаторных конфигураций являются перестановки, сочетания и размещения. Наука о данных (Data Science ) — раздел информатики, изучающий проблемы анализа, обработки и представления данных в цифровой форме. Объединяет методы по обработке данных в условиях больших объёмов и высокого уровня параллелизма, статистические методы, методы интеллектуального анализа данных и приложения искусственного интеллекта для работы с данными, а также методы проектирования и разработки баз данных. Большие данные (Big Data) — обозначение структурированных и неструктурированных данных огромных объёмов и значительного многообразия, эффективно обрабатываемых горизонтально масштабируемыми программными инструментами, появившимися в конце 2000-х годов и альтернативных традиционным системам управления базами данных и решениям класса Business Intelligence. Какой должен быть план изучения, чтобы войти в профессию Data Scientist 1. Изучить основы языков программирования: Python, R, SQL 2. Понять основы визуализации данных. Здесь можно попробовать использовать встроенные библиотеки, с помощью которых вы сможете строить графики, диаграммы, линии тренда и т.д. 3. Линейная алгебра — область математики, которая лежит в основе науке о данных, так как используется в методах обработки данных. Нужно уметь работать с векторами, иметь представление о векторном и скалярном произведениях, уметь работать с матрицами, знать про различные виды метрик (оценки расстояний в различных структурах данных, при различных ограничениях). 4. Статистика — очередной раздел математики, тесно связанный с теорией вероятностей. Помогает делать количественные и качественные оценки данных. Изучает взаимосвязи (корреляции) между несколькими выборками случайных величин. Активно используется в Data Science. 5. Теория вероятностей — для анализа данных эта дисциплина помогает представлять вероятность в качестве количественного способа оценки неопределенности, связанной с событиями из какого-либо вероятностного пространства различных исходов. 6. Гипотезы и выводы из гипотез — для специалиста по обработке данных нужно выполнять проверки вероятности, что определенная гипотеза является правильной. Нужно уметь сравнивать главную (нулевую) гипотезу с конкурирующей (альтернативной) гипотезой. Чтобы понимать отклонения от нулевой гипотезы, нужно изучить байесовский статистический вывод. 7. Градиентный спуск — нередко нужна оптимизация какого-то решения с помощью минимизации ошибок модели. Так производится настройка модели. 8. Сбор данных — специалисту по обработке данных нужен материал для работы. Поэтому данные нужно уметь собирать, очищать, преобразовывать в удобный для анализа вид. Вы должны научиться читать файлы, извлекать данные из веб-сайтов, анализировать html-код, научиться работать с популярными форматами хранения данных (например JSON или XML). Также нужно уметь искать и использовать API веб-сайтов и веб-сервисов ( Applications Programming Interface). 9. Первичная обработка данных — вычисление основных характеристик выборки, таких как количество точек данных, минимальное и максимальное значения, среднее значение, стандартное отклонение. 10. Машинное обучение — дополнение к лучшему анализу, после того как завершились задачи сведения бизнес-проблем к проблемам в области данных, задачи сбора, понимания, очистки информации. 11. Задача о K ближайших соседях — более точное предсказание можно сделать с учетом рассмотрения ближайших соседей и их классификации по основным критериям. 12. Регрессионный анализ и все виды регрессий — набор методов, которые позволяют определить характер влияния нескольких независимых величин на нужную нам зависимую величину. 13. Деревья принятия решений ( Решающие деревья, Decision Tree ) — методы, помогающие сделать прогнозы в моделировании, чтобы сразу отсеять (или принять) нужные данные. 14. Нейронные сети — модели, необходимые для прогнозов. Основаны на организации и функционировании головного мозга. Каждый нейрон просматривает сигналы, выходящие из других нейронов, взвешивает их, затем сравнивает со своим пороговым значением, чтобы решить: пропускать их дальше или же игнорировать. Отсылка к перцептронам. 15. Кластеризация ( Clustering ) — умение работать с немаркированными данными, то есть случай обучения без учителя. Нужно изучить возможность разбития данных на группы по каким либо критериям. Читать полный план изучения и список книг: https://t.me/physics_lib/9835 Источник: t.me Комментарии:

Что почитать по статистике, комбинаторике и теории вероятностей, чтобы начать понимать тему?

Комментарии: