Stepik "Введение в Data Science и машинное обучение", часть 2

2020-04-30 11:00

большие данные big data, алгоритмы машинного обучения

Stepik 1.4. Pandas, Dataframes

— В этом уроке мы начнем знакомиться с библиотеками анализа данных: Pandas и Numpy

— Для работы с кодом мы будем использовать Jupyter Notebook

— Как установить Jupyter Notebook

— Запускаем на Windows, Mac , Ubuntu

Что такое Jupyter?

Jupyter - это отличный инструмент для data-scientist, поскольку он позволяет в одном документе сочетать текстовое описание, таблицы, ссылки, программный код, графические результаты. То есть работа над проектом, будет максимально продуктивной, поскольку что называется не "отходя от кассы" можно проверить гипотезу и получить результат. Для использования в качестве IDE он конечно не подходит, но как инструмент в сфере анализа данных и машинного обучения - он очень хорош.

Весь код на протяжении курса будет написан в нём.

Код можно запускать сочетанием клавиш Shift + Enter или нажатием кнопки Run.

Данные, которые мы будем использовать в этом и следующих уроках представлены здесь.

Pandas. Работа с двумерными данными

Импорт библиотеки

Прежде, чем начать работу с библиотекой - мы должны её импортировать:

Сокращения pd и np стали стандартами при работе с данными библиотеками. Чтобы легче было привыкать читать чужой код, использующему эти библиотеки, советуют привыкнуть импортировать библиотеки с использованием такой конструкции.

С чем работает pandas?

Pandas работает с объектом dataframe, который хранит в себе таблицу с данными. Но помимо данных, этот объект имеет специальные методы, позволяющие работать с этими данными, получать информацию по этим данным.

Мы можем получить информацию о размере таблицы, о типах данных внутри нее, получить доступ к определенным строкам, агрегировать и фильтровать информацию в ней и т.д.

DataFrame - не просто таблица с данными. Это и данные, и целый комплекс действий, и информации, связанных с этими данными.

Создание dataframe из файла

Давайте создадим объект dataframe для дальнейшей работы с библиотекой из csv файла. Для этого используем метод read_csv().

Открывать мы будем пример csv документа - StudentsPerformance.csv, скачанный в ту же папку, что и наш notebook.

Для просмотра содержимого dataframe нужно просто выполнить инструкцию ниже, и мы увидим таблицу из 1000 строк и 8 столбцов.

Но гораздо полезнее создать переменную, связанную с данным dataframe, чтобы в дальнейшем работать с ней и получать необходимую информацию.

Также можно не скачивать файл, а указать ссылку из курса.

Какие операции с dataframe доступны?

Вывод первых строк

Выведем первые 5 строк:

Выведем первые N строк

Для вывода первых N строк нужно выполнить - students_performance.head(N), где N - любое число:

Вывод последних строк

Выведем последние 5 строк:

Выведем последние N строк.

Для этого по аналогии с получением N первых строк - N передается как аргумент метода tail: students_performance.tail(N):

Автор: Зульфара Шаймухаметова

Главный редактор: Диляра Ахметзакирова

Телеграм: t.me/ainewsline

Источник: m.vk.com



		Stepik "Введение в Data Science и машинное обучение", часть 2
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2020-04-30 11:00 большие данные big data, алгоритмы машинного обучения Stepik 1.4. Pandas, Dataframes — В этом уроке мы начнем знакомиться с библиотеками анализа данных: Pandas и Numpy — Для работы с кодом мы будем использовать Jupyter Notebook — Как установить Jupyter Notebook — Запускаем на Windows, Mac , Ubuntu Что такое Jupyter? Jupyter - это отличный инструмент для data-scientist, поскольку он позволяет в одном документе сочетать текстовое описание, таблицы, ссылки, программный код, графические результаты. То есть работа над проектом, будет максимально продуктивной, поскольку что называется не "отходя от кассы" можно проверить гипотезу и получить результат. Для использования в качестве IDE он конечно не подходит, но как инструмент в сфере анализа данных и машинного обучения - он очень хорош. Весь код на протяжении курса будет написан в нём. Код можно запускать сочетанием клавиш Shift + Enter или нажатием кнопки Run. Данные, которые мы будем использовать в этом и следующих уроках представлены здесь. Pandas. Работа с двумерными данными Импорт библиотеки Прежде, чем начать работу с библиотекой - мы должны её импортировать: Сокращения pd и np стали стандартами при работе с данными библиотеками. Чтобы легче было привыкать читать чужой код, использующему эти библиотеки, советуют привыкнуть импортировать библиотеки с использованием такой конструкции. С чем работает pandas? Pandas работает с объектом dataframe, который хранит в себе таблицу с данными. Но помимо данных, этот объект имеет специальные методы, позволяющие работать с этими данными, получать информацию по этим данным. Мы можем получить информацию о размере таблицы, о типах данных внутри нее, получить доступ к определенным строкам, агрегировать и фильтровать информацию в ней и т.д. DataFrame - не просто таблица с данными. Это и данные, и целый комплекс действий, и информации, связанных с этими данными. Создание dataframe из файла Давайте создадим объект dataframe для дальнейшей работы с библиотекой из csv файла. Для этого используем метод read_csv(). Открывать мы будем пример csv документа - StudentsPerformance.csv, скачанный в ту же папку, что и наш notebook. Для просмотра содержимого dataframe нужно просто выполнить инструкцию ниже, и мы увидим таблицу из 1000 строк и 8 столбцов. Но гораздо полезнее создать переменную, связанную с данным dataframe, чтобы в дальнейшем работать с ней и получать необходимую информацию. Также можно не скачивать файл, а указать ссылку из курса. Какие операции с dataframe доступны? Вывод первых строк Выведем первые 5 строк: Выведем первые N строк Для вывода первых N строк нужно выполнить - students_performance.head(N), где N - любое число: Вывод последних строк Выведем последние 5 строк: Выведем последние N строк. Для этого по аналогии с получением N первых строк - N передается как аргумент метода tail: students_performance.tail(N): Автор: Зульфара Шаймухаметова Главный редактор: Диляра Ахметзакирова Телеграм: t.me/ainewsline Источник: m.vk.com Комментарии:

Stepik "Введение в Data Science и машинное обучение", часть 2

Комментарии: