Как визуализировать целый датасет

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Здесь есть несколько подходов. Рассмотрим каждый.

1) Наивный подход

Можно использовать методы hist() или pairplot() для всего набора данных, чтобы посмотреть на все фичи одновременно. Однако, когда количество признаков достаточно велико, такой способ визуального анализа становится медленным и неэффективным. К тому же, мы всё равно будем анализировать фичи попарно, а не все сразу.

2) Снижение размерности

Многие реальные датасеты имеют множество признаков, иногда даже тысячи. Каждый из них можно рассматривать как измерение в пространстве точек данных. Следовательно, чаще всего мы имеем дело с наборами данных высокой размерности, где полная визуализация становится довольно сложной.

Чтобы рассмотреть датасет в целом, нам нужно уменьшить количество измерений, используемых в визуализации, не потеряв при этом много информации о данных. Эта задача называется снижением размерности. Чаще всего для этого применяют метод главных компонент (PCA).

3) t-SNE

Это техника нелинейного снижения размерности и визуализации многомерных переменных. Её основная идея такая: нужно найти проекцию для пространства признаков высокой размерности на плоскость таким образом, чтобы те точки, которые были далеко друг от друга в исходном n-мерном пространстве, оказались далеко друг от друга и на плоскости. Те, которые изначально были близки, останутся близкими друг к другу.

Найти t-SNE можно в scikit-learn:

from sklearn.manifold import TSNE

tsne = TSNE(random_state=17)

tsne_repr = tsne.fit_transform(X_scaled)

plt.scatter(tsne_repr[:, 0], tsne_repr[:, 1], alpha=0.5);


Источник: vk.com

Комментарии: