SmartData 2020: конференция про data engineering

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2020-09-22 15:18

Семинары

Если ваша должность — data engineer, то вы могли сталкиваться с обидным информационным перекосом. Тему data science освещают активно, по ней много полезных материалов. А вы работаете в смежной области, где тоже возникает много важных вопросов, но об этих вопросах говорят заметно меньше.

Мы решили, что стоит закрыть этот пробел, поэтому 9-12 декабря проведём конференцию SmartData. Она рассчитана на дата-инженеров и не только: разработчики и data scientists, которые сталкиваются с задачами дата-инженерии или хотят перейти в эту сферу, тоже извлекут пользу.

Кто-то вспомнит, что конференция с таким названием уже была, но тогда её формат отличался. Под катом написали и о том, почему она переродилась, и о том, чего именно ждать от новой.

Предыстория

Старожилы Хабра могут помнить, как в 2017-м мы представили «конференцию по большим и умным данным SmartData», а в 2018-м отменили вторую SmartData. И про перспективы возрождения тогда написали: «сейчас не станем ничего обещать, но думаем, как можно сделать лучше». Спустя два года сообщаем: подумали!

Когда мы впервые запускали конференцию, пытались объять всё сразу и сделать мероприятие для всех, кто работает с данными. Но оказалось, что такой универсальный формат плохо работает, разным специалистам нужно слишком разное. И после отмены второй конференции, где мы собирались уделить много внимания data science, получили фидбек вроде такого:

Теперь вместо того, чтобы гнаться за двумя зайцами, решили сосредоточиться на конкретном формате, который недополучает внимания. Как раз таком, какой обозначен в этом комментарии: «про то, как весь зоопарк технологий запускать и тюнить, какие есть проблемы, с чем лучше работать в каких-то определённых задачах…»

Темы

Что всё это значит на практике, о каких вещах можно будет услышать на SmartData 2020? Программа пока что в процессе формирования, но очерчен круг тем, которые мы считаем интересными для конференции. И по этому списку можно понять, чего в принципе стоит ждать:

Streaming

  • Flink
  • Spark
  • Kafka

СУБД и хранилища для больших данных
Использование классических реляционных, колоночных, noSQL, SMP/MPP-хранилищ для построения DWH:

  • Hive, Impala, Presto, Vertica, ClickHouse, Cassandra
  • Teradata, Redshift, GreenPlum, exadata
  • MSSQL, PostgreSQL
  • MongoDB, DynamoDB
  • S3, ADLS, GCS, HDFS

Архитектура DWH

  • Моделирование данных
  • Примеры построения корпоративных хранилищ данных
  • Оперативная аналитика
  • Ad-hoc reporting
  • Hadoop

Data governance

  • Data security
    • Data quality
    • Metadata и catalog management
    • Master data management
    • Миграция данных

Технологии построения ETL

  • Spark
    • Hadoop MapReduce
    • Sqoop
    • Performance analysis and optimization
    • и так далее

Оркестрация и MLOps

  • Airflow, NiFi, Luigi, Azkaban, Oozie etc
    • MLflow
    • и так далее

Другое

  • Коробочные облачные решения
    • Дата-инженерия для тех, кто не data engineer
    • CI/CD для пайплайнов данных
    • Тестирование

Виталий Худобахшов из программного комитета SmartData

Формат

Как и другие наши конференции этого сезона, SmartData пройдёт в онлайне — так что подходить на стойку регистрации за бейджиком в этот раз не придётся. А как всё будет выглядеть?

  • Понятно, что доклады важны, но для нас «онлайн-конференция» не означает «просто видеопоток». Это и чаты для обсуждения конкретных докладов, и видеосозвон после каждого доклада с возможностью задать вопрос спикеру, и активности от партнёров, и общий конференционный чат. Очень рекомендуем всем этим пользоваться: тогда ощущаешь, что ты не просто смотришь видео, а участвуешь в событии.

  • Чтобы зрителям было как можно удобнее, для проведения конференций мы используем не чужое софтовое решение, а разработали своё собственное. О нём уже писали на Хабре подробно.

  • Расписание отличается от того, к которому все привыкли по офлайн-конференциям. В офлайне на пару дней выпадаешь из обычной жизни целиком. В онлайне иначе: конференция растянется на четыре дня, но будет идти по 3-4 часа в день. Это позволяет совмещать конференцию и обычную жизнь.

  • Но советуем донести до работодателя, что если на офлайн-конференцию он отпускал вас с работы, то и в онлайне эти 3-4 часа в день вам действительно нужны: смотреть хардкорные технические доклады всегда требует сосредоточения. Впрочем, если из-за важного созвона не получилось посмотреть интересный доклад «вживую», он сразу же доступен в записи (с офлайн-конференциями так не работает). Если немного опоздал к началу доклада, то с помощью ускоренного воспроизведения записи можно даже успеть «догнать» других зрителей, чтобы задавать вопросы спикеру вместе со всеми!


Call to action

Что в итоге? Есть три главных вещи:

  1. Если конференция вас заинтересовала — стоит перейти на её сайт. Там можно и увидеть наиболее актуальную информацию, и подписаться на новости, и приобрести билет.
  2. Если вы ощущаете, что хотели бы сами выступить с докладом — сейчас самое время подавать заявку, это делается тоже на сайте.
  3. А если для вас важны и другие области IT, обратите внимание: у нас есть билеты «full pass», дающие доступ и к SmartData, и к 7 другим нашим конференциям нового сезона. Подробнее об этом можно узнать на отдельном сайте.

Увидимся на SmartData!


Источник: habr.com

Комментарии: