Детальный анализ данных с помощью всего нескольких строчек кода

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Exploratory Data Analysis (EDA) является одним из наиболее важных шагов в процессе анализа данных. При попытке изучить данные может потребоваться несколько переборов фитч и комбинаций признаков. В этом посте я поделился тремя полезными библиотеками, которые предоставляют полезный функционал по работе с данными.

Детальный анализ данных с помощью всего нескольких строчек кода

Pandas Profiling

При работе с данными с помощью Pandas Profiling, мы действуем по следующей схеме :

- исследование данных

- выделение фитч

- поиск корреляция данных

- заполнение отсутствующих значений

- разбиение датасета

pip install pandas-profiling

import numpy as np
import pandas as pd
from pandas_profiling import ProfileReport

df = pd.read_csv('filename.csv')

profile = ProfileReport(df, title='Pandas Profiling Report')

Sweetviz

Sweetviz — это библиотека Python с открытым исходным кодом, которая создает красивые визуализации для запуска EDA (исследовательского анализа данных) всего двумя строками кода.

Выходные данные представляют собой полностью автономное HTML-приложение.

Система Sweetviz построена вокруг быстрой визуализации целевых значений и сравнения наборов данных. Sweetviz нужен, чтобы помочь в быстром анализе целевых характеристик, анализе данных обучения и тестирования.

pip install sweetviz

import sweetviz as sv
import pandas as pd

train_df = pd.read_csv('filename.csv')

comparison_report = sv.compare([train_df, 'Train'], target_feat='target_name')

D-Tale

D-Tale — это комбинация серверной части Flask и интерфейса React, которая предоставляет простой способ просмотра и анализа структур данных Pandas. Он легко интегрируется с ipython и терминалами python/ipython. В настоящее время этот инструмент поддерживает такие датафреймы как Pandas DataFrame, Series, MultiIndex, DatetimeIndex и RangeIndex.

pip install dtale

import dtale

df = pd.read_csv('filename.csv')
dtale.show(df)

Ссылки на библиотеки:

[1] https://github.com/ydataai/pandas-profiling

[2] https://pypi.org/project/sweetviz/

[3] https://github.com/man-group/dtale

[4] https://t.me/ai_machinelearning_big_data

[5] https://t.me/pythonl


Источник: zen.yandex.ru

Комментарии: