Осваиваем Python и машинное обучение с помощью Kaggle |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2020-10-04 21:22 Перевод публикуется с сокращениями, автор оригинальной статьи Davide Camera. *** Соревнования Kaggle улучшили состояние и культуру техники машинного обучения в нескольких областях. Несмотря на то, что Kaggle является бесплатным сервисом, он помогает решить множество задач:
Соревнования Существует пять категорий конкурса Kaggle:
В большинстве испытаний пользователи Kaggle могут получить доступ к полным наборам данных в начале конкурса, загрузить их, построить модели на основе локальных данных или Kaggle Notebooks, а также создать и загрузить файлы прогнозов. Некоторые соревнования делятся на этапы, а некоторые являются конкурсами кодеров, которые должны быть отправлены в Kaggle Notebooks. Комьюнити и обучение Kaggleрегулярно проводит форумы (feedback, Q&A, datasets) и двухчасовые микрокурсы (Python, ML, визуализация данных, Pandas, featureengineering, deeplearning, SQL и т.д). Участие в сообществе полезно для изучения Data Science и получения доступа к стандартным датасетам, однако это не замена платных облачных сервисов обработки данных или проведения анализа. Датасеты и релевантные данные Kaggle содержит 50 тысяч наборов данных, связанных по большей части с маркетингом, e-commerce и продажами. Аналитики могут получить к ним доступ и проанализировать в своих браузерах. Информация представлена в форматах: CSV, JSON, SQLite, ZIP, 7z, есть даже размещенные на серверах Google многотерабайтные наборы BigQuery-наборы. Существует несколько способов поиска наборов данных Kaggle:
Легче и быть не может:
Теперь разберемся, как найти релевантные маркетинговые анализы.
Notebooks Kaggle поддерживает три типа блокнотов (notebooks):
Скрипты – файлы, которые выполняют весь код последовательно. Блокноты можно писать на языке программирования R или на Python. R-кодеры и представляющие код для соревнований люди часто используют скрипты, а программисты Python и специалисты, занимающиеся исследовательским анализом данных, предпочитают Jupyter. Notebooks могут иметь бесплатные ускорители GPU (Nvidia Tesla P100) или TPU и использовать сервисы Google Cloud Platform, но существуют квоты – 30 часов GPU и TPU в неделю. Если нет потребности ускорить глубокое обучение, GPU/TPU не нужны. Использование сервисов Google Cloud Platform может повлечь начисление платы, если превышен лимит бесплатного уровня. Блокноты работают в ядрах, являющихся контейнерами Docker и можно сохранять версии блокнотов по мере их разработки. Сотрудничайте в блокноте с другими пользователями, в зависимости от того, является ли ноутбук общедоступным или частным. Облачная интеграция: доступ к Google Cloud tech Работа в среде Kaggle познакомит вас с облачными рабочими процессами, предоставит доступ к новым инструментам и возможность приобретения навыков, жизненно необходимых для маркетологов и цифровых аналитиков. Это стало возможным благодаря интеграции Kaggle с BigQuery, BigQuery ML и Google Data Studio. Существует также интеграция с Google Sheets и новейшая – с Google AutoML. Есть шанс, что появится больше интеграций, поскольку Kaggle теперь является частью Google Cloud. Public API Помимо создания и запуска интерактивных блокнотов можно взаимодействовать с Kaggle через командную строку с локального компьютера, который вызывает публичный API Kaggle. Для установки Kaggle CLI потребуется менеджер пакетов pip из Python 3, а также аутентификация машины с помощью загруженного с сайта Kaggle токена. Kaggle CLI и API могут взаимодействовать в соревнованиях, датасетах и блокнотах (ядрах). Код API открыт и размещен на GitHub, если появились вопросы по работе с ним – прочтите содержащий полную документацию файл README. Machine Learning и AI AutoML может снизить барьер для входа в разработку приложений машинного обучения в маркетинге. Это позволяет маркетологам с общим пониманием процесса машинного обучения и без знания программирования безопасно использовать передовые модели ИИ. AutoML, который теперь доступен на Kaggle, может сэкономить огромное количество времени, потраченного на разработку и тестирование модели вручную. Это не будет (пока) полностью автоматическое “ИИ по нажатию кнопки” – маркетолог должен понимать основы процесса. Начните же! Изучите наборы данных и способы их анализа сообществом Kaggle. Попробуйте использовать набор данных Google Analytics и блокноты анализа для прогнозирования доходов или набор данных оптимизации конверсий с анализом ROI для маркетинговых кампаний Facebook. Заключение Kaggle не охватывает все аспекты рабочего процесса обработки данных и аналитики. Это не инструмент для разработки систем производственного уровня или хранения/управления всем кодом и артефактами. Тем не менее, это практический инструмент для совместной работы, с помощью которого маркетологи могут получить доступ к соответствующим наборам данных, изучить их и получить идеи для ускоренного анализа. Дополнительные материалы по теме
Источники Источник: proglib.io Комментарии: |
|