AutoViz: однострочная библиотека автоматической визуализации данных

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Начиная с версии 0.1.901 важное обновление

  • Мы рады сообщить, что мы внесли значительные обновления в наш скрипт `setup.py`, чтобы использовать последние версии в наших зависимостях, сохраняя при этом поддержку старых версий Python (вы можете проверить более старые версии). Процесс установки прост — просто запустите pip install. в каталоге AutoViz, а сценарий позаботится обо всем остальном, адаптируя установку к вашей среде.

Обратная связь

Ваше мнение имеет решающее значение! Если у вас возникнут какие-либо проблемы или у вас есть предложения, сообщите нам об этом через GitHub Issues.

Спасибо за вашу постоянную поддержку и удачных визуализаций!

Цитирование

Если вы используете AutoViz в своем исследовательском проекте или статье, используйте следующий формат для цитат:

«Сешадри, Рам (2020). GitHub — AutoViML/AutoViz: автоматическая визуализация любого набора данных любого размера с помощью одной строки кода. Исходный код: https://github.com/AutoViML/AutoViz »

Текущие цитаты для AutoViz

Google Scholar

Мотивация

Мотивацией создания AutoViz является обеспечение более эффективного, удобного и автоматизированного подхода к исследовательскому анализу данных (EDA) посредством быстрой и простой визуализации данных и повышения качества данных. Библиотека предназначена для того, чтобы помочь пользователям понять закономерности, тенденции и взаимосвязи в данных путем создания содержательных визуализаций с минимальными усилиями. AutoViz особенно полезен для новичков в анализе данных, поскольку он позволяет абстрагироваться от сложностей различных библиотек и методов построения графиков. Для экспертов это еще один экспертный инструмент, который они могут использовать для получения более подробной информации о данных, которые они, возможно, пропустили.

AutoViz — мощный инструмент для создания содержательных визуализаций с минимальными усилиями. Вот некоторые из его ключевых преимуществ по сравнению с другими автоматизированными инструментами EDA:

  1. Простота использования : AutoViz удобен для пользователя и доступен новичкам в анализе данных, абстрагируясь от сложностей различных библиотек построения графиков.
  2. Скорость : AutoViz оптимизирован по скорости и может создавать несколько информативных графиков с помощью всего лишь одной строки кода.
  3. Масштабируемость : AutoViz предназначен для работы с наборами данных любого размера и может эффективно обрабатывать большие наборы данных.
  4. Автоматизация : AutoViz автоматизирует процесс визуализации, требуя всего одну строку кода для создания нескольких информативных графиков.
  5. Настройка : AutoViz предоставляет несколько вариантов настройки визуализаций, таких как изменение типа диаграммы, цветовой палитры и т. д.
  6. Качество данных : теперь AutoViz по умолчанию обеспечивает оценку качества данных и помогает устранять проблемы DQ с помощью одной строки кода с помощью функции FixDQ().
## Монтаж

Предварительные условия

Создайте новую среду и установите необходимые зависимости для клонирования AutoViz:

Из ПиПи:

cd <AutoViz_Destination> git clone git@github.com:AutoViML/AutoViz.git # or download and unzip https://github.com/AutoViML/AutoViz/archive/master.zip conda create -n <your_env_name> python=3.7 anaconda conda activate <your_env_name> # ON WINDOWS: `source activate <your_env_name>` cd AutoViz

Для версий Python ниже 3.10 установите зависимости следующим образом:

pip install -r requirements.txt 

Для Python 3.10 используйте:

pip install -r requirements-py310.txt 

Для Python 3.11 и выше рекомендуется использовать:

pip install -r requirements-py311.txt 

Эти файлы требований гарантируют бесперебойную работу AutoViz с вашей средой Python путем установки совместимых версий библиотек, таких как HoloViews, Bokeh и hvPlot. Пожалуйста, выберите файл требований, соответствующий вашей версии Python, чтобы использовать AutoViz без проблем.

Применение

Узнайте, как использовать AutoViz, в этой статье на Medium.

В каталоге AutoViz откройте блокнот Jupyter или откройте палитру команд (терминал) и используйте следующий код для создания экземпляра AutoViz_Class. Вы можете просто запустить этот код шаг за шагом:

from autoviz import AutoViz_Class AV = AutoViz_Class() dft = AV.AutoViz(filename)

AutoViz может использовать любые входные данные: имя файла (в формате CSV, txt или JSON) или кадр данных pandas. Если у вас большой набор данных, вы можете установить аргументы max_rows_analyzedи max_cols_analyzedдля ускорения визуализации, попросив autoviz выполнить выборку вашего набора данных.

AutoViz также может создавать диаграммы в нескольких форматах, используя chart_formatнастройку:

  • Если chart_format ='png'или 'svg'или 'jpg': диаграммы Matplotlib строятся встроенными.
    • Можно сохранить локально (с помощью verbose=2настроек) или отобразить ( verbose=1) в Jupyter Notebooks.
    • Это поведение по умолчанию для AutoViz.
  • Если chart_format='bokeh': интерактивные диаграммы боке строятся в Jupyter Notebooks.
  • Если chart_format='server', в вашем браузере будут появляться информационные панели для каждого типа диаграмм.
  • Если chart_format='html', интерактивные диаграммы боке будут созданы и автоматически сохранены в виде HTML-файлов в AutoViz_Plotsкаталоге (в рабочей папке) или в любом другом каталоге, указанном вами с помощью save_plot_dirнастройки (во время ввода).

API

Аргументы в пользу AV.AutoViz()метода:

  • filename: используйте пустую строку (""), если нет связанного имени файла и вы хотите использовать фрейм данных. В этом случае используется dfteаргумент для фрейма данных. В противном случае укажите имя файла и оставьте dfteаргумент пустой строкой. Можно использовать только один из них.
  • sep: разделитель файлов (запятая, точка с запятой, табуляция или любое значение, разделяющее столбцы), если вы используете имя файла, указанное выше.
  • depVar: целевая переменная в вашем наборе данных; установите его как пустую строку, если это неприменимо.
  • dfte: имя фрейма данных pandas для построения диаграмм; оставьте его пустой строкой, если используете имя файла.
  • header: установите номер строки заголовка в вашем файле (0 для первой строки). В противном случае оставьте значение 0.
  • verbose: 0 для минимальной информации и диаграмм, 1 для дополнительной информации и диаграмм или 2 для локального сохранения диаграмм без отображения.
  • lowess: Используйте линии регрессии для каждой пары непрерывных переменных относительно целевой переменной в небольших наборах данных; избегайте использования для больших наборов данных (> 100 000 строк).
  • chart_format: «svg», «png», «jpg», «bokeh», «server» или «html» для отображения или сохранения диаграмм в различных форматах, в зависимости от подробного варианта.
  • max_rows_analyzed: Ограничьте максимальное количество строк, используемых для визуализации при работе с очень большими наборами данных (миллионы строк). Autoviz будет использовать статистически достоверную выборку. По умолчанию — 150 000 строк.
  • max_cols_analyzed: Ограничьте количество непрерывных переменных, подлежащих анализу. По умолчанию — 30 столбцов.
  • save_plot_dir: Каталог для сохранения графиков. По умолчанию установлено значение «Нет», при котором графики сохраняются в текущем каталоге, в подпапке с именем AutoViz_Plots. Если save_plot_dir не существует, он будет создан.

Примеры

Вот несколько примеров, которые помогут вам начать работу с AutoViz. Если вам нужны полные блокноты Jupyter с примерами кода, их можно найти в папке примеров .

Пример 1. Визуализация файла CSV с целевой переменной

from autoviz import AutoViz_Class AV = AutoViz_Class()  filename = "your_file.csv" target_variable = "your_target_variable"  dft = AV.AutoViz(     filename,     sep=",",     depVar=target_variable,     dfte=None,     header=0,     verbose=1,     lowess=False,     chart_format="svg",     max_rows_analyzed=150000,     max_cols_analyzed=30,     save_plot_dir=None )

var_charts

Пример 2. Визуализируйте DataFrame Pandas без целевой переменной:

import pandas as pd from autoviz import AutoViz_Class  AV = AutoViz_Class()  data = {'col1': [1, 2, 3, 4, 5], 'col2': [5, 4, 3, 2, 1]} df = pd.DataFrame(data)  dft = AV.AutoViz(     "",     sep=",",     depVar="",     dfte=df,     header=0,     verbose=1,     lowess=False,     chart_format="server",     max_rows_analyzed=150000,     max_cols_analyzed=30,     save_plot_dir=None )

server_charts

Пример 3. Создайте интерактивные диаграммы боке и сохраните их в виде HTML-файлов в пользовательском каталоге.

from autoviz import AutoViz_Class AV = AutoViz_Class()  filename = "your_file.csv" target_variable = "your_target_variable" custom_plot_dir = "your_custom_plot_directory"  dft = AV.AutoViz(     filename,     sep=",",     depVar=target_variable,     dfte=None,     header=0,     verbose=2,     lowess=False,     chart_format="bokeh",     max_rows_analyzed=150000,     max_cols_analyzed=30,     save_plot_dir=custom_plot_dir )

боке_чарты

Эти примеры должны дать вам представление о том, как использовать AutoViz с различными сценариями и настройками. Адаптируя параметры и настройки, вы можете создавать визуализации, которые лучше всего соответствуют вашим потребностям, независимо от того, работаете ли вы с большими наборами данных, интерактивными диаграммами или просто исследуете взаимосвязи между переменными.

Мейнтейнеры

AutoViz активно поддерживается и совершенствуется командой преданных своему делу разработчиков. Если у вас есть какие-либо вопросы, предложения или проблемы, не стесняйтесь обращаться к сопровождающим:

Содействие

Мы приветствуем вклад сообщества! Если вы хотите внести свой вклад в AutoViz, выполните следующие действия:

  • Форкните репозиторий на GitHub.
  • Клонируйте свою ветку и создайте новую ветку для своей функции или исправления.
  • Внесите изменения в новую ветку, следя за соблюдением стандартов кодирования и написав соответствующие тесты.
  • Отправьте изменения в свою вилку на GitHub.
  • Отправьте запрос на включение в основной репозиторий, подробно описав ваши изменения и указав любые связанные проблемы.

См. прилагаемый файл !

Лицензия

AutoViz выпускается под лицензией Apache версии 2.0. Используя AutoViz, вы соглашаетесь с условиями, указанными в лицензии.

Советы

Вот несколько дополнительных советов и напоминаний, которые помогут вам максимально эффективно использовать библиотеку:

  • Обязательно регулярно обновляйте AutoViz, чтобы пользоваться новейшими функциями, исправлениями ошибок и улучшениями. Вы можете обновить его, используя pip install --upgrade autoviz.
  • AutoViz обладает широкими возможностями настройки, поэтому не стесняйтесь исследовать и экспериментировать с различными настройками , такими какchart_format, verbose и max_rows_analyzed. Это позволит вам создавать визуализации, которые лучше соответствуют вашим конкретным потребностям и предпочтениям.
  • Не забывайте периодически удалять каталог AutoViz_Plots (или любой указанный вами пользовательский каталог), если вы использовали параметр verbose=2, поскольку со временем в нем может накапливаться большое количество сохраненных диаграмм.
  • Для получения дополнительных рекомендаций или вдохновения ознакомьтесь со статьей Medium об AutoViz , а также с другими онлайн-ресурсами и учебными пособиями.
  • AutoViz визуализирует файл любого размера, используя статистически достоверный образец.
  • ЗАПЯТЬЯ — разделитель в файле по умолчанию, но вы можете его изменить.
  • Предполагается, что первая строка является заголовком файла, но это можно изменить.
  • Используя мощные и гибкие функции AutoViz , вы можете оптимизировать процесс визуализации данных и более эффективно получать ценную информацию. Приятной визуализации!


Источник: github.com

Комментарии: