Наш коллега из Санкт-Петербурга Михаил Тигоев рассказал об одном из проектов EPAM, объяснил, почему команда перевела все рабочие процессы с HDInsight на Azure Databricks, и поделился особенностями и

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


«Сейчас мы работаем над проектом, и наш заказчик – крупный ритейлер, чья инфраструктура построена на решениях Microsoft Azure. Раньше работа с данными велась на базе кластеров HDInsight 3.6. Однако из-за скорого окончания срока поддержки данного релиза и по ряду других причин, связанных со стабильностью работы HDInsight, было решено мигрировать все процессы на Azure Databricks.

Ещё одним аргументом для такого перехода стали существенно более новые версии программного обеспечения от Databricks. В октябре этого года вышел Databricks Runtime версии 10: произошёл переход на Apache Spark 3.2.0, добавлена поддержка Java Development Kit (JDK) 11, а также различные оптимизации и улучшения.

Отличительная особенность Spark 3.2.0 – добавление pandas API. Стандартный pandas выполняет вычисления, используя только ресурсы конкретной машины, а это может стать серьёзным ограничением при обработке больших объёмов данных. Несколько лет назад был запущен проект Koalas, который реализовал pandas DataFrame API поверх Apache Spark. Начиная с версии Apache Spark 3.2.0, Koalas был официально портирован в PySpark. При этом pandas API поддерживает задачи, чья реализация на Spark может быть затруднена, и поэтому полезен не только pandas-, но и PySpark-пользователям.

Ещё одно преимущество Azure Databricks – наличие API, который позволяет интегрировать его с существующим CI/CD решением и, например, запускать интеграционные тесты на кластере Databricks. Для LTS версий предоставляется утилита Databricks Connect, которая позволяет подключить любимую IDE (VS Code, Eclipse, IntelliJ и т.п.) или сервер ноутбуков к кластерам соответствующих версий. Также нужно отметить Databricks CLI – простой в использовании интерфейс для платформы. Databricks Connect и CLI доступны на pypi.org в виде пакетов Python.

Важной особенностью Azure Databricks является его ноутбук-ориентированность: у платформы есть интерфейс для работы с ноутбуками, репозиторий для их хранения, управление библиотеками на уровне кластера и использование секретов, в том числе с интеграцией с Azure Key Vault. А наличие общего воркспейса позволяет легко делиться своими наработками с другими членами команды».

Комментарии: