Как визуализировать целый датасет |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2024-03-04 12:20 Здесь есть несколько подходов. Рассмотрим каждый. 1) Наивный подход Можно использовать методы hist() или pairplot() для всего набора данных, чтобы посмотреть на все фичи одновременно. Однако, когда количество признаков достаточно велико, такой способ визуального анализа становится медленным и неэффективным. К тому же, мы всё равно будем анализировать фичи попарно, а не все сразу. 2) Снижение размерности Многие реальные датасеты имеют множество признаков, иногда даже тысячи. Каждый из них можно рассматривать как измерение в пространстве точек данных. Следовательно, чаще всего мы имеем дело с наборами данных высокой размерности, где полная визуализация становится довольно сложной. Чтобы рассмотреть датасет в целом, нам нужно уменьшить количество измерений, используемых в визуализации, не потеряв при этом много информации о данных. Эта задача называется снижением размерности. Чаще всего для этого применяют метод главных компонент (PCA). 3) t-SNE Это техника нелинейного снижения размерности и визуализации многомерных переменных. Её основная идея такая: нужно найти проекцию для пространства признаков высокой размерности на плоскость таким образом, чтобы те точки, которые были далеко друг от друга в исходном n-мерном пространстве, оказались далеко друг от друга и на плоскости. Те, которые изначально были близки, останутся близкими друг к другу. Найти t-SNE можно в scikit-learn: from sklearn.manifold import TSNE tsne = TSNE(random_state=17) tsne_repr = tsne.fit_transform(X_scaled) plt.scatter(tsne_repr[:, 0], tsne_repr[:, 1], alpha=0.5); Источник: vk.com Комментарии: |
|