Предварительная обработка данных с помощью библиотеки Pandas (Задача) |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2023-10-04 15:09 В современном мире большинство бизнес-процессов связаны с обработкой больших объемов данных, получаемых от различных источников. Часто эти данные содержат ошибки, дубликаты и пропуски, что может привести к неверным выводам и решениям. Одним из инструментов, которые позволяют очистить и преобразовать данные, является библиотека pandas для языка программирования Python. Я собираюсь рассмотреть задачу по очистке данных с помощью pandas. Для этого возьмем данные, содержащие дубликаты строк, неправильные типы данных, пропуски и отрицательные значения. Затем я буду использовать функциональные возможности pandas для очистки и преобразования этих данных в форму, пригодную для дальнейшего анализа. Предположим, у вас есть набор данных, содержащий информацию о продажах компании за последние несколько лет. Но данные не очень чистые, и вы заметили, что есть некоторые проблемы с форматированием и некоторые строки содержат ошибки. Задача: Необходимо очистить данные о продажах компании за последние несколько лет с помощью библиотеки Pandas. Исходные данные:
Задачи, которые необходимо выполнить:
Описание столбцов:
Загрузка данных Чтобы загрузить данные в pandas, можно использовать метод Импортируем необходимые библиотеки и загружаем данные. Выводим наш DataFrame. ![]() На первый взгляд в данных видно наличие отрицательных значений и пропусков. Однако, в нашем задании сказано, что после загрузки мы должны удалить строки, в которых есть ошибки. Мы поступим немного по-другому. Сначала мы проверим типы столбцов, и если обнаружится, что какие-то столбцы не соответствуют данным, которые в них находятся, мы изменим тип на соответствующий. При возникновении проблем в ходе выполнения этой задачи, мы будем исправлять то, что будет необходимо. Обработка данных Для начала посмотрим на то, какие типы имеют наши столбцы. Для этого нам поможет команда Мы получаем информацию о нашем DataFrame, которая говорит нам о наличии пропусков в столбце ![]() Попробуем сразу привести столбец date к типу К сожалению, этот код не сработает, так как в столбце с данными присутствуют значения, которые не позволяют сразу привести столбец к нужному нам типу. В результате работы выражения будет выведено сообщение об ошибке. ![]() Существует множество способов решения данной проблемы, один из них представлен ниже. Так как даты в нашем столбце date указаны в формате "YYYY-MM-DD", мы можем использовать регулярное выражение для поиска всех значений столбца, которые не соответствуют данному формату. Для этого мы создадим лямбда-функцию, которая будет применена к столбцу методом Создаем лямбда-функцию. Применяем лямбда-функцию к столбцу Проверим результат. Мы видим, что в 53 строках данные не соответствуют формату.. ![]() Посмотрим на эти строки, чтобы понять, с чем мы имеем дело. ![]() Мы замечаем отсутствие даты, а также латинские буквы вместо чисел в столбце количества ![]() Приведем столбец Видим что столбец ![]() Для того чтобы привести столбец Тоже самое мы делаем с Для продолжения, мы сфокусируемся на отрицательных значениях в указанных столбцах и выведем их на экран. ![]() Эти значения будут преобразованы с помощью функции Таким же образом мы поступим ![]() Заменяем отрицательные значения на положительные. Обработаем столбец Данные содержат некоторое количество дубликатов, которые необходимо удалить в соответствии с заданием. ![]() Удаляем дубликаты. Проверим категориальные переменные. ![]() Все значения категориальных переменных в порядке. Осталось только сохранить данные в csv. В этом нам поможет функция В результате мы получим файл Заключение Такое задание позволяет закрепить навыки работы с pandas, например, загрузка данных из файла, очистка данных от дубликатов и пропусков, изменение типов данных столбцов и обработка пропущенных значений. Задание также поможет новичкам овладеть принципами анализа данных, включая методы pandas для анализа данных. В скором времени я планирую выложить разбор реальной задачи для продуктового аналитика, который поможет вам лучше понять, как применять знания и навыки, полученные в процессе изучения данной темы. Я надеюсь, что этот материал будет интересен и полезен для вас, и вы сможете успешно применить полученные знания на практике. Буду благодарен за ваши комментарии! Спасибо! Источник: habr.com Комментарии: |
|