7 Понятий Статистики, Которые Вы Должны Знать Для Вашего Следующего Интервью По Науке О Данных

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Статистика является неотъемлемой частью науки о данных. Статистические концепции обеспечивают содержательное понимание ваших данных для проведения их количественного анализа. Построение моделей с использованием известных статистических методов, таких как регрессия, Классификация, Анализ временных рядов и проверка гипотез. Исследователи данных проводят множество тестов и интерпретируют результаты с помощью этих статистических методов. Следовательно, для специалистов по обработке данных крайне важно иметь хорошую базу статистических данных.

Существуют тысячи статистических концепций, но интервьюеры задают только несколько из них. Из всего этого, вот семь концепций статистики, которые вы должны знать для вашего интервью по науке о данных:

P-значения и уровень значимости

Для любого статистического исследования, основанного на выводах, вам необходимо определиться с выбором об отклонении / принятии нулевой гипотезы, и этот выбор зависит от замеченных положительных сторон рандомизированного примера. Например, если предположить, что значение p меньше альфа-значения, скажем, 0,05, а затем сказать, что вероятность того, что результат мог произойти по какому-то совпадению, составляет менее 5%. Кроме того, значение p, равное 0,05, эквивалентно высказыванию: “В 5% случаев вы увидите это по какому-то совпадению”.

Доверительные интервалы и проверка гипотез

Доверительные интервалы и проверка гипотез имеют сильную связь. Доверительный интервал предлагает диапазон качеств для неизвестной границы, затем он связан с определенным уровнем, когда истинная граница находится в пределах рекомендуемой области. Доверительные интервалы часто имеют жизненно важное значение в клинических исследованиях, чтобы дать аналитикам более обоснованные основания для своих оценок.

Проверка гипотез является предпосылкой любого исследовательского вопроса и пытается доказать, что что-то произошло не случайно. Например, при перемещении красителя это число обязательно должно было появиться больше, чем остальные.

Z-тесты против T-тесты

Понимание различий между z-тестами и t-тестами, а также того, как и когда вы должны решить использовать каждый из них, важно в статистике. Z-тест - это тест на предположения с типичным тиражом, в котором используется z-статистика. Z-тест используется, когда вы знаете разницу в численности населения или, с другой стороны, если у вас нет ни малейшего представления об изменении численности населения, но есть огромный размер примера. T-тест - это теоретический тест с передачей, в котором используется t-статистика. Вы бы использовали t-тест, если у вас нет ни малейшего представления об изменении численности населения и у вас есть небольшой размер примера.

Линейная регрессия и ее допущения

Чтобы показать связи между зависимой переменной и, по крайней мере, одной или несколькими независимыми переменными, специалисты по обработке данных используют линейную регрессию. Это включает в себя определение "линии наилучшего соответствия", которая учитывает по крайней мере два фактора. Линия наилучшего соответствия определяется путем ограничения квадратов расстояний между фокусами и линией наилучшего соответствия — это известно как ограничение числа квадратов остатков. Остаток в основном эквивалентен ожидаемому значению за вычетом фактического значения.

Существует четыре допущения, связанные с моделью линейной регрессии:

Линейность: Зависимость между X и средним значением Y является линейной.
Гомоскедастичность: Дисперсия остатка одинакова для любого значения X.
Независимость: Наблюдения независимы друг от друга.
Нормальность: Для любого фиксированного значения X, Y нормально распределено.

Центральная предельная теорема

Центральная предельная теорема является одной из самых мощных статистических концепций, она выражает, что циркуляция теста подразумевает приближение к нормальной транспортировке. Например, вы могли бы взять выборку из информационного индекса и вычислить среднее значение этой выборки. При повторном использовании в различных случаях вы бы нанесли каждое из ваших средств и их частоты на диаграмму и увидели, что был сделан изгиб звонка, другими словами, нормальное распределение.

Теорема Байеса и условная вероятность

Теорема Байеса - это утверждение об условной вероятности, также оно позволяет оценить вероятность того, что один случай (B) произойдет, учитывая, что другой случай (A) действительно произошел. Возможно, самый известный алгоритм машинного обучения, Наивный Байес, основан на этих двух идеях. Кроме того, в случае, если вы войдете в область онлайн-машинного обучения, вы, вероятно, будете использовать байесовские методы.

Оценка максимального правдоподобия (MLE)

Оценка максимального правдоподобия включает оценку границы путем расширения возможностей вероятности для обнаружения границ, которые наилучшим образом проясняют наблюдаемую информацию. MLE - это особенно проницательная демонстрационная структура, в которой границы модели определяются с помощью проблемы оптимизации. Здесь вероятностная работа p(y| ? ) отражает вероятность обнаружения информации y на данной границе ?.

В заключение, наряду с этими статистическими концепциями, интервьюер может задавать вопросы, связанные с различием между ковариацией и корреляцией, A / B-тестированием, проверкой гипотез, методами выборки и многим другим. Поэтому для следующего интервью по науке о данных запомните эти статистические концепции и уверенно проведите свое собеседование.


Источник: www.analyticsinsight.net

Комментарии: