15 Open Source библиотек для повышения качества данных |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2022-04-06 13:10 Автор этого материала — программист и ML-инженер — собрала Open Source библиотеки Python, которые помогут вам сделать данные лучше, чтобы избежать траты времени и упростить анализ данных. Подборкой делимся к старту курса по анализу данных. Профилирование и оценка Разведочный анализ данных 1. Pandas Profiling Pandas Profiling генерирует отчёт о профилировании фреймов данных Pandas. Основные функции:
2. Great Expectations Great Exception основана на ассертах данных из библиотеки Expectation. Это общедоступный, открытый стандарт качества данных, помогающий командам Data Science устранять недоработки конвейера данных, выполняя их тестирование, документирование и профилирование. Основные функции: Декларативные тесты данных на:
Другие функции:
3. SodaSQL SodaSQL — это инструмент командной строки, выполняющий SQL-запросы на основе входных данных. Вот что он делает:
Основные функции:
Прогнозная аналитика 4. Ydata Ydata оценивает качество данных конвейера данных на разных этапах его разработки. Она помогает составить целостное представление о данных, рассматривая их с разных точек зрения на предмет:
Библиотека интегрируется с Great Expectations, в которой запускаются ассерты данных, позволяющие проверять, профилировать данные и автоматически генерировать отчёты: 5. DeepChecks DeepChecks — это пакет Python, позволяющий легко проверять модели ML и связанные с различными задачами данные, например производительность модели; также DeepChecks обнаруживает:
Библиотека сравнивает строки, обнаруживает их несоответствия. Она видит следующие характеристики данных: Целостность данных и обнаружение смещения пригодятся при тестировании данных. Работая с данными для обучения модели, тестовыми данными и текущими фреймами данных, можно воспользоваться набором тестов SingleDatasetIntegrity или специальными тестами из других наборов. В DeepChecks можно писать свои тесты и их наборы, красиво отображая результаты в таблице или на графике Plotly: 6. Evidently AI Evidently AI — это инструмент для анализа и наблюдения за моделями ML. Библиотека видит:
Evidently AI интегрируется с Grafana и Prometheus, можно создать пользовательский дашборд. 7. Alibi Detect Alibi Detect — специализированная библиотека ML для обнаружения отклоняющихся значений (выбросов), состязательности и дрейфа данных. Основные функции:
Очистка и форматирование данных 1. Scrabadub Scrabadub — это инструмент выявляет и удаляет из любого текста личную информацию: имена, номера телефонов, адреса, номера кредитных карт и т. д. Можно реализовать собственные средства обнаружения данных:
2. Arrow В Arrow реализован разумный, удобный подход к созданию, обработке, форматированию и преобразованию дат, времени и временных меток:
3. Beautifier Beautifier — библиотека для очистки шаблонов URL и адресов электронной почты. Она позволяет:
4. Ftfy Ftfy расшифровывается как Fixes text for you («Исправляет текст для вас»). Вот её функции:
5. Dora Dora — это инструментарий разведочного анализа данных для Python. Основные функции:
Для работы многих функций, включая графики, данные должны быть числовыми. 6. DataCleaner Data Cleaner автоматически очищает наборы данных и подготавливает их к анализу. Основные функции:
Предварительный просмотр таблиц 1. Tabulate Вызов одной функции Tabulate выводит небольшие, красивые таблицы. Основные функции: 2. PrettyPandas PrettyPandas — инструмент с простым API, генерирующий достойные табличные отчёты. Они хорошо воспринимаются благодаря: На сегодня всё. Попробовать все эти инструменты в деле вы сможете на наших курсах. А мы поможем вам прокачать навыки или с самого начала освоить профессию в IT, востребованную в любое время: Выбрать другую востребованную профессию. Краткий каталог курсов и профессий Data Science и Machine Learning Python, веб-разработка Мобильная разработка Java и C# От основ — в глубину А также Adblock test (Why?) Allikas Источник: m.vk.com Комментарии: |
|