6 типов регрессий, знаете ли вы их?

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Регрессия - это раздел статистики, который широко применяется в прогностической аналитике. Регрессионный анализ используется для измерения взаимосвязи между зависимой переменной с одной или несколькими переменными-предикторами. Цель регрессионного анализа состоит в том, чтобы предсказать значение зависимой переменной с учетом значений переменных-предикторов. Регрессия находит математическую модель, которая наилучшим образом соответствует приведенным данным, таким образом, чтобы не было никаких выбросов.

Регрессия является неотъемлемой частью прогностического моделирования и является одним из методов контролируемого машинного обучения. Говоря простым языком, регрессия относится к линии или кривой, которая проходит через все точки данных на графике X-Y таким образом, чтобы вертикальное расстояние между линией и точками данных было минимальным. Расстояние между линией и точкой указывает на то, зафиксировала ли модель сильную взаимосвязь, известную как корреляция. Таким образом, "наиболее подходящая" модель - это та, которая эффективно отражает сильную взаимосвязь, а равномерная дисперсия минимальна, и для этого регрессионный анализ является стандартным подходом.

Регрессионный анализ в основном используется для:

a. Причинно-следственный анализ

b. Прогнозирование последствий изменений

c. Прогнозирование тенденций

Все эти приложения делают его полезным для исследования рынка, прогнозирования продаж и запасов, и это лишь некоторые из них. В зависимости от количества независимых переменных и взаимосвязи между зависимыми и независимыми переменными существуют различные типы методов регрессии. Здесь объясняются некоторые из наиболее широко используемых методов.

1. Простая линейная регрессия

Это самая фундаментальная регрессионная модель, которую необходимо понять, чтобы знать основы регрессионного анализа. Когда у нас есть одна предикторная переменная x для одной зависимой или ответной переменной y, которые линейно связаны друг с другом, модель называется простой моделью линейной регрессии. В случае наличия более одного предиктора модель называется моделью множественной линейной регрессии. Соотношение определяется с помощью уравнения- y=ax+b+e
, где,

a= наклон линии
b= y-перехват
e= срок ошибки

Линия, которая наилучшим образом соответствует модели, определяется значениями параметров a и b. Коэффициент x и перехват оцениваются методом наименьших квадратов, т.е. дают им значения, которые минимизируют сумму квадратов ошибок в выборке данных.

Разница между наблюдаемым результатом Y и прогнозируемым результатом y известна как ошибка прогнозирования. Следовательно, значения a и b должны быть такими, чтобы они минимизировали сумму квадратов ошибки прогнозирования.

Q=?(У-у)2

Оценка максимального правдоподобия также является методом прогнозирования значений параметров линии регрессии в предположении, что ошибка прогнозирования имеет нормальное распределение.

Простая линейная модель плохо работает с большими объемами данных, поскольку она чувствительна к выбросам, мультиколлинеарности и взаимной корреляции. Для множественной регрессии предположения о наиболее подходящих линиях остаются аналогичными; однако прогнозирование ошибок, зависящее от фиксированного значения предиктора, теперь будет зависеть от фиксированного набора значений.

2. Логистическая регрессия

Это частный случай обобщенной линейной регрессии, которая имеет приложения, в которых переменная ответа носит категориальный или дискретный характер – победитель или проигравший, сдача или неудача, 0 или 1 и т.д. Взаимосвязь между зависимой и независимой переменной (переменными) измеряется путем оценки вероятностей с использованием функции логита.

Ошибка может не быть гауссовым белым шумом (нормальное распределение), но будет иметь логистическое распределение. Функция logit предсказывает вероятности результатов, и, таким образом, значения ограничены через (0,1), дающую S-образную кривую (сигмоидальную кривую). Коэффициенты регрессии оцениваются с использованием итеративно взвешенного метода наименьших квадратов (IRLS) или оценки максимального правдоподобия, а не обычного метода наименьших квадратов, и лучше работают с большими размерами выборки.

После преобразования переменной отклика с помощью функции логита модель может быть аппроксимирована линейной регрессией. Логистическая регрессия не всегда будет иметь переменные отклика с двоичными результатами. В случае трех или более категорий это называется номинальной или полиномиальной логистической регрессией, а если категории имеют упорядоченные уровни с неравными интервалами, это называется порядковой логистической регрессией.

3. Регрессия хребта

Это более надежная версия линейной регрессии, которая в меньшей степени подвержена переоснащению. Модель накладывает некоторые ограничения или штрафы на сумму квадратов коэффициентов регрессии. Метод наименьших квадратов оценки параметров дает несмещенные значения этих параметров с наименьшей дисперсией (чтобы быть очень точным). Однако, когда переменные-предикторы сильно коррелированы (когда предикторы A и B изменяются аналогичным образом), для решения проблемы включается небольшое количество фактора смещения.

Матрица смещения добавляется в уравнение наименьших квадратов, а затем выполняется минимизация суммы квадратов для параметров с низкой дисперсией. Следовательно, выполняется штраф по большим параметрам. Эта матрица смещения по сути является скалярно умноженной идентификационной матрицей, оптимальное значение которой необходимо выбрать.

4. Регрессия ЛАССО

ЛАССО (оператор селектора наименьшей абсолютной усадки) является еще одной альтернативой регрессии гребня, но единственная разница заключается в том, что он ограничивает абсолютный размер коэффициентов регрессии. При наказании за абсолютные значения расчетные коэффициенты уменьшаются еще больше до нуля, что невозможно при использовании регрессии гребня. Этот метод делает его полезным для выбора объектов, где набор или переменные и параметры выбираются для построения модели. ЛАССО использует соответствующие функции и обнуляет несущественные значения, чтобы избежать переоснащения, а также ускоряет обучение. Следовательно, ЛАССО является одновременно моделью выбора признаков и моделью регуляризации.

ElasticNet - это гибрид регрессии ЛАССО и гребня, который сочетает в себе линейные штрафы L1 и L2 для этих двух методов и является предпочтительным по сравнению с двумя методами для многих приложений.

5. Полиномиальная регрессия

Полиномиальная регрессия аналогична множественной линейной регрессии. Однако в этом типе регрессии взаимосвязь между переменными X и Y определяется путем взятия полинома k-й степени в X. Полиномиальная регрессия соответствует нелинейной модели данных, но в качестве оценки это линейная модель. Полиномиальные модели также подбираются с использованием метода наименьших квадратов, но их немного сложно интерпретировать, поскольку отдельные одночлены могут быть сильно коррелированы. Оценочное значение зависимой переменной Y моделируется с помощью уравнения (для полинома k-го порядка):

Линия, проходящая через точки, будет не прямой, а изогнутой в зависимости от степени X. Наблюдаются полиномы высокой степени, которые вызывают больше колебаний в наблюдаемой кривой и обладают плохими свойствами интерполятора. В современных подходах полиномиальная регрессия не выполняется непосредственно на данных, а используется в качестве ядра в алгоритмах поддержки векторных машин.

6. Байесовская линейная регрессия

Байесовская регрессия использует теорему Байеса о апостериорной вероятности для определения коэффициентов регрессии. В таких методах, как максимальное правдоподобие и наименьшие квадраты, мы пытаемся найти оптимальное значение для модели, тогда как с помощью этого метода получается апостериорное распределение параметров. Теорема Байеса применяется на основе предварительного предположения о параметрах, т.е. - задних параметрах? вероятность * предварительная оценка

Этот метод также является штрафной оценкой вероятности, как и в регрессии хребта, и более стабильным по сравнению с исходной линейной моделью.

Помимо вышеупомянутого, существуют такие методы, как Квантильная регрессия, которая дает альтернативу методу наименьших квадратов, Пошаговая регрессия, Регрессия ножом, в которой используется метод повторной выборки, Регрессия эластичной сети и Экологическая регрессия, а также некоторые другие, которые не были объяснены в этой статье. Много раз уменьшение размеров или преобразование бокса-Кокса выполняется перед методом регрессии. Размерность данных, характер зависимых переменных (дискретных или непрерывных) - вот некоторые из методов определения того, какие из регрессионных моделей подходят для использования.

Хорошее знание вышесказанного, несомненно, поможет вам начать понимать прогностическую аналитику и моделирование данных. Статистические программы, такие как Minitab, Matlab, STATA или R, могут быть очень полезны для практического понимания этих методов.


Источник: www.analyticsinsight.net

Комментарии: