Детальный анализ данных с помощью всего нескольких строчек кода

МЕНЮ

Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ

Новости ИИ

Голосовой помощник
Городские сумасшедшие
ИИ в медицине
ИИ проекты
Искусственные нейросети
Искусственный интеллект
Слежка за людьми
Угроза ИИ

Разработка ИИ

ИИ теория
Компьютерные науки
Машинное обуч. (Ошибки)
Машинное обучение
Машинный перевод
Нейронные сети начинающим
Психология ИИ
Реализация ИИ
Реализация нейросетей
Создание беспилотных авто
Трезво про ИИ
Философия ИИ

Внедрение ИИ

Big data
Генетические алгоритмы
Капсульные нейросети
Основы нейронных сетей
Распознавание лиц
Распознавание образов
Распознавание речи
Творчество ИИ
Техническое зрение
Чат-боты

Работа разума и сознание

Изучение сна
Изучение сознания
Нейроинтерфейс
Психология
Работа мозга
Работа памяти
Работа разума

Модель мозга

Модель мозга

Робототехника, БПЛА

Беспилотные автомобили
БПЛА
Робототехника

Трансгуманизм

Трансгуманизм

Обработка текста

Анализ социальных сетей
Компьютерная лингвистика
Лингвистика
Поисковые алгоритмы

Теория эволюции

Головной мозг
Нейронные сети
Поведение животных
Теория эволюции

Дополненная реальность

Виртулаьная реальность
Дополненная реальность

Железо

Интернет вещей
Квантовый компьютер
Нейронные процессоры
облачные вычисления
Суперкомпьютеры

Киберугрозы

Кибербезопасность

Научный мир

Методы исследования
Наука и образование
Семинары

ИТ индустрия

ИТ-гиганты
Новости ит

Разработка ПО

Разработка ПО
Теория алгоритмов

Теория информации

Кластеризация

Математика

Актуальная математика
Статистика
Теория вероятности
Теория информации
Теория хаоса

Цифровая экономика

Технология блокчейн
Цифровая экономика

Авторизация

RSS

RSS новости

2022-03-21 11:39

анализ больших данных, теория программирования

Exploratory Data Analysis (EDA) является одним из наиболее важных шагов в процессе анализа данных. При попытке изучить данные может потребоваться несколько переборов фитч и комбинаций признаков. В этом посте я поделился тремя полезными библиотеками, которые предоставляют полезный функционал по работе с данными.

Pandas Profiling

При работе с данными с помощью Pandas Profiling, мы действуем по следующей схеме :

- исследование данных

- выделение фитч

- поиск корреляция данных

- заполнение отсутствующих значений

- разбиение датасета

pip install pandas-profiling

import numpy as np
import pandas as pd
from pandas_profiling import ProfileReport

df = pd.read_csv('filename.csv')

profile = ProfileReport(df, title='Pandas Profiling Report')

Sweetviz

Sweetviz — это библиотека Python с открытым исходным кодом, которая создает красивые визуализации для запуска EDA (исследовательского анализа данных) всего двумя строками кода.

Выходные данные представляют собой полностью автономное HTML-приложение.

Система Sweetviz построена вокруг быстрой визуализации целевых значений и сравнения наборов данных. Sweetviz нужен, чтобы помочь в быстром анализе целевых характеристик, анализе данных обучения и тестирования.

pip install sweetviz

import sweetviz as sv
import pandas as pd

train_df = pd.read_csv('filename.csv')

comparison_report = sv.compare([train_df, 'Train'], target_feat='target_name')

D-Tale

D-Tale — это комбинация серверной части Flask и интерфейса React, которая предоставляет простой способ просмотра и анализа структур данных Pandas. Он легко интегрируется с ipython и терминалами python/ipython. В настоящее время этот инструмент поддерживает такие датафреймы как Pandas DataFrame, Series, MultiIndex, DatetimeIndex и RangeIndex.

pip install dtale

import dtale

df = pd.read_csv('filename.csv')
dtale.show(df)

Ссылки на библиотеки:

[1] https://github.com/ydataai/pandas-profiling

[2] https://pypi.org/project/sweetviz/

[3] https://github.com/man-group/dtale

[4] https://t.me/ai_machinelearning_big_data

[5] https://t.me/pythonl

Источник: zen.yandex.ru



		Детальный анализ данных с помощью всего нескольких строчек кода
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2022-03-21 11:39 анализ больших данных, теория программирования Exploratory Data Analysis (EDA) является одним из наиболее важных шагов в процессе анализа данных. При попытке изучить данные может потребоваться несколько переборов фитч и комбинаций признаков. В этом посте я поделился тремя полезными библиотеками, которые предоставляют полезный функционал по работе с данными. Pandas Profiling При работе с данными с помощью Pandas Profiling, мы действуем по следующей схеме : - исследование данных - выделение фитч - поиск корреляция данных - заполнение отсутствующих значений - разбиение датасета pip install pandas-profiling import numpy as np import pandas as pd from pandas_profiling import ProfileReport df = pd.read_csv('filename.csv') profile = ProfileReport(df, title='Pandas Profiling Report') Sweetviz Sweetviz — это библиотека Python с открытым исходным кодом, которая создает красивые визуализации для запуска EDA (исследовательского анализа данных) всего двумя строками кода. Выходные данные представляют собой полностью автономное HTML-приложение. Система Sweetviz построена вокруг быстрой визуализации целевых значений и сравнения наборов данных. Sweetviz нужен, чтобы помочь в быстром анализе целевых характеристик, анализе данных обучения и тестирования. pip install sweetviz import sweetviz as sv import pandas as pd train_df = pd.read_csv('filename.csv') comparison_report = sv.compare([train_df, 'Train'], target_feat='target_name') D-Tale D-Tale — это комбинация серверной части Flask и интерфейса React, которая предоставляет простой способ просмотра и анализа структур данных Pandas. Он легко интегрируется с ipython и терминалами python/ipython. В настоящее время этот инструмент поддерживает такие датафреймы как Pandas DataFrame, Series, MultiIndex, DatetimeIndex и RangeIndex. pip install dtale import dtale df = pd.read_csv('filename.csv') dtale.show(df) Ссылки на библиотеки: [1] https://github.com/ydataai/pandas-profiling [2] https://pypi.org/project/sweetviz/ [3] https://github.com/man-group/dtale [4] https://t.me/ai_machinelearning_big_data [5] https://t.me/pythonl Источник: zen.yandex.ru Комментарии:

Детальный анализ данных с помощью всего нескольких строчек кода

Комментарии: