Stepik "Введение в Data Science и машинное обучение", часть 2

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Stepik 1.4. Pandas, Dataframes

— В этом уроке мы начнем знакомиться с библиотеками анализа данных: Pandas и Numpy
— Для работы с кодом мы будем использовать Jupyter Notebook
— Как установить Jupyter Notebook
— Запускаем на Windows, Mac , Ubuntu

Что такое Jupyter?

Jupyter - это отличный инструмент для data-scientist, поскольку он позволяет в одном документе сочетать текстовое описание, таблицы, ссылки, программный код, графические результаты. То есть работа над проектом, будет максимально продуктивной, поскольку что называется не "отходя от кассы" можно проверить гипотезу и получить результат. Для использования в качестве IDE он конечно не подходит, но как инструмент в сфере анализа данных и машинного обучения - он очень хорош.

Весь код на протяжении курса будет написан в нём.

Код можно запускать сочетанием клавиш Shift + Enter или нажатием кнопки Run.

Данные, которые мы будем использовать в этом и следующих уроках представлены здесь.

Pandas. Работа с двумерными данными

Импорт библиотеки

Прежде, чем начать работу с библиотекой - мы должны её импортировать:

Сокращения pd и np стали стандартами при работе с данными библиотеками. Чтобы легче было привыкать читать чужой код, использующему эти библиотеки, советуют привыкнуть импортировать библиотеки с использованием такой конструкции.

С чем работает pandas?

Pandas работает с объектом dataframe, который хранит в себе таблицу с данными. Но помимо данных, этот объект имеет специальные методы, позволяющие работать с этими данными, получать информацию по этим данным.

Мы можем получить информацию о размере таблицы, о типах данных внутри нее, получить доступ к определенным строкам, агрегировать и фильтровать информацию в ней и т.д.

DataFrame - не просто таблица с данными. Это и данные, и целый комплекс действий, и информации, связанных с этими данными.

Создание dataframe из файла

Давайте создадим объект dataframe для дальнейшей работы с библиотекой из csv файла. Для этого используем метод read_csv().

Открывать мы будем пример csv документа - StudentsPerformance.csv, скачанный в ту же папку, что и наш notebook.

Для просмотра содержимого dataframe нужно просто выполнить инструкцию ниже, и мы увидим таблицу из 1000 строк и 8 столбцов.

Но гораздо полезнее создать переменную, связанную с данным dataframe, чтобы в дальнейшем работать с ней и получать необходимую информацию.

Также можно не скачивать файл, а указать ссылку из курса.

Какие операции с dataframe доступны?

Вывод первых строк

Выведем первые 5 строк:

Выведем первые N строк

Для вывода первых N строк нужно выполнить - students_performance.head(N), где N - любое число:

Вывод последних строк

Выведем последние 5 строк:

Выведем последние N строк.

Для этого по аналогии с получением N первых строк - N передается как аргумент метода tail: students_performance.tail(N):

Автор: Зульфара Шаймухаметова

Главный редактор: Диляра Ахметзакирова


Источник: m.vk.com

Комментарии: