R - прекрасный язык для Data Science |
||||||||||||||||||||||||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2019-04-11 02:50 Обычно, когда я пишу очередной пост в своем блоге, я не вставляю туда код, потому как исхожу из того, что аналитикам и маркетологам важнее новые идеи и возможные инсайты.
Я никогда не писал на классическом R, так как мне он НЕ кажется выразительным, компактным и быстрым. Также я отмечу, что намного удобнее работать с R не в командной строке, а в среде разработки RStudio и я пишу R код только там. Загрузка данных В конце шпаргалки есть ссылки на два файла на которых Леша делал демо. Чтобы прочитать .csv файл нам нужна функция read_csv() из пакета readr. Функция умеет читать файл как с диска вашего компьютера, так и по URL-адресу, чем мы и воспользуемся. Эта функция имеет эвристику, которая сама определяет типы данных и выводит их после парсинга файла. Это и удобно и важно, т.к. если у вас в какой-то из колонок есть микс цифр и текстовых значений, то эта функция подскажет вам, что колонка распарсилась как текстовая и вы сможете исправить парсинг до начала анализа данных.
Если ваш .csv файл содержит другой разделитель, то на ваш выбор есть такие варианты:
Если же у вас какой-то особый случай, вы можете вызвать более низкоуровневую функцию read_delim() и прочитать любой нестандартный текстовый файл с любым разделителем. Ну и конечно, если вам нужно прочитать Excel файл, вы легко можете это сделать используя функцию read_excel(). Просмотр прочитанных данных После того как мы прочитали файл, данные из него сохранились в специальный тип данных tibble (это модернизированный data.frame который используется в классическом R). Просмотреть данные из него можно разными способами:
Есть еще несколько способов, но это наиболее удобные. Выберем тот способ, который наиболее близок по смыслу в команде, которую использовал Леша.
Tibble это современный и умный data.frame.
Если нам потребуется отдельно
Операции в tibble Очевидно возможности работы с данными должны быть самой ценной и критической частью для аналитика. И здесь пакеты dplyr и ggplot2 показывает все элегантность современного R. Если мы хотим доступиться к какой-то колонке tibble (data.frame), то обычно мы пишем так: orders$sales (используем знак `$`). Однако, когда вы работаете в dplyr, вам не обязательно указывать таблицу$колонка. Пакет dplyr сам понимает контекст таблицы, а вы фокусируетесь на самом анализе. Если вы хотите отфильтровать колонки, то просто воспользуйтесь командой select().
Если вы хотите отфильтровать строки, то просто воспользуйтесь командой filter().
Если вы хотите сделать агрегацию таблицы, то просто воспользуйтесь командой summarize() для агрегации данных и group_by() для группировки данных.
Леша давал пример, когда нужно было посчитать Топ10 самых прибыльных дней по продажам:
Хотя, на мой взгляд интереснее было бы посмотреть Топ10 дней по продажам, сохранив сортировку по дате. Так мы могли бы понять, что происходит с нашими топовыми продажами во времени: растут они или падают:
Так как смотреть на динамику во времени намного удобнее на графике, давайте быстро построим такой график (как видите, мы отрисовки график добавив всего 2 строчки кода):
Теперь давайте обогатим нашу таблицу заказов, добавив к каждому заказу информацию о клиенте:
Ну и напоследок решим Лешину задачу - найти Топ5 городов, принесших самую большую выручку в 2016 году:
Хотя возможно более интересно было бы узнать не только Топ5 городов по продажам в 2016 году, но также показать самый большой заказ в каждом таком городе в этот период:
Резюме Надеюсь это краткое интро в мир современного R (tidyverse) позволит вам оценить лаконичность и эффективность анализа данных на R. Источник: ecommerce-in-ukraine.blogspot.com Комментарии: |
|||||||||||||||||||||||