Примите удобное положение, дышите размеренно и легко

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Примите удобное положение, дышите размеренно и легко... Сегодня наш коллега из Нижнего Новгорода, Data-инженер Александр Корягин расскажет про один из проектов EPAM – анализ данных для приложения онлайн-медитаций.

«Наш заказчик – одна из крупнейших компаний, специализирующихся на онлайн-медитациях для повседневной жизни. Можно сказать, что это стартап, достигший зрелости и успехов. Главная команда разработки находится в Кремниевой долине и Англии.

Компания использует Data Driven подход к управлению, который основывается на собираемых данных и метриках. И тут приходит на помощь наша Data Engineering команда. Мы помогаем заказчику увидеть вектор движения: например, понять, насколько успешна та или иная рекламная кампания, сколько новых пользователей мы привлекли, какая рекламная платформа позволяет получить наибольший охват релевантной аудитории. Важно не только знать, как привлечь новых пользователей, но и видеть, что больше всего нравится уже существующим.

Для всего этого нужны данные. Я бы даже сказал Большие Данные, ведь каждый день обрабатывается несколько терабайт информации. Чтобы создать полную картину, мы используем данные – начиная от рекламных метрик и заканчивая информацией о поведении пользователя внутри приложения. В своей работе стараемся опровергнуть известную шутку "Big Data всё про вас знает, только понять ничего не может".

Основные технологии на проекте: Python 3, Databricks, Apache Spark 3, Apache Hive, AWS S3, Prefect (ETL tool), Tableau. "Сырая" информация поступает в Data Lake на базе AWS S3, потом обрабатывается в связке Databricks+Spark, где всем оркестрирует Prefect.

Databricks – это облачная веб-платформа для работы с Spark. Можно получить готовый Spark кластер любых размеров и конфигураций практически за минуту! Apache Spark в представлении не нуждается: он практически стал стандартом для распределённой обработки больших данных. Именно при работе с ним понимаешь, "насколько глубоко уходит кроличья нора". Написать первый код не требует много усилий, но, работая с Apache Spark уже несколько лет, я практически каждый день узнаю что-то новое.

Кто-то говорит, что использование аналитических данных – это всё равно что смотреть только в зеркало заднего вида на движущейся машине. Но у нас активно развиваются и Machine Learning, и Data Science направления – но это уже совсем другая история».

Если вы тоже развиваетесь в Data, с 6 по 17 сентября для DS- и BI-разработчиков Middle+ пройдет EPAM Hiring Weeks. Заполните регистрационную форму, пройдите интервью и получите оффер в течение 48 часов: https://epa.ms/bidshw-6-17sept.


Источник: epa.ms

Комментарии: