Визуализация. Часть 2 | PyMagic

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Продолжаем разговор про визуализацию данных, почему это не просто графики и картинки и в каких случаях их применять

1. Boxplot

Boxplot – применяется для анализа медиан, может наглядно показать разброс данных, есть ли выбросы. Также отлично подойдет, если вы хотите сделать предварительный визуальный анализ на разницу между признаками в разных группах.

Например, средний возраст для людей с высшим образованием и без него в разрезе пола.

* Средняя линия – медиана, закрашенный квадрат – Q1-Q3 или IQR - интерквартильный рахмах (квартили 0.25-0.75), концы «усов» - края статистической значимости

* Все, что меньше Q1 - 1.5 IQR, либо больше Q1 + 1.5 IQR - выбросы, обозначены точками.

2. Displot

Очень похож на график Histogram, но здесь мы уже оцениваем распределение с точки зрения вероятностей. Можем проанализировать на вид распределения: нормальное/не нормальное, от этого зависит будем ли мы применять какой-то определенный стат. критерий (а/б тест), либо будем логарифмировать переменную или вообще удалять выбросы из датасета.

3. Pairplot

Pairplot – это график, который помогает понять основную структуру (распределение, например, нормальное оно или нет) признаков и взаимосвязь между ними, а также с целевой переменной в одном визуальном представлении.

По сути, это комбинация histogram/displot и диаграммы рассеяния (Scatter plot) на одном изображении. Это может помочь нам заметить закономерности, которые могут быть неочевидны при точечном анализе. Но здесь нужно быть осторожнее, если признаков много, то считать такой график будет долго и получатся небольшие мини-графики с распределениям, поэтому желательно брать до 10-15 признаков + целевая переменная (если это число)

4. Heatmap

Heatmap – тепловая карта, может применяться в анализе корреляций как положительных, так и отрицательных, анализе значений значимых признаков, которые могут повлиять на целевую переменную. Также помогают обнаружить признаки, которые коррелированы между собой (коллинеарные признаки), это может помочь алгоритму лучше обобщить и получить более интерпретируемые результаты


Источник: vk.com

Комментарии: