Если ваша должность — data engineer, то вы могли сталкиваться с обидным информационным перекосом. Тему data science освещают активно, по ней много полезных материалов. А вы работаете в смежной области, где тоже возникает много важных вопросов, но об этих вопросах говорят заметно меньше.
Мы решили, что стоит закрыть этот пробел, поэтому 9-12 декабря проведём конференцию SmartData. Она рассчитана на дата-инженеров и не только: разработчики и data scientists, которые сталкиваются с задачами дата-инженерии или хотят перейти в эту сферу, тоже извлекут пользу.
Кто-то вспомнит, что конференция с таким названием уже была, но тогда её формат отличался. Под катом написали и о том, почему она переродилась, и о том, чего именно ждать от новой.
Предыстория
Старожилы Хабра могут помнить, как в 2017-м мы представили «конференцию по большим и умным данным SmartData», а в 2018-м отменили вторую SmartData. И про перспективы возрождения тогда написали: «сейчас не станем ничего обещать, но думаем, как можно сделать лучше». Спустя два года сообщаем: подумали!
Когда мы впервые запускали конференцию, пытались объять всё сразу и сделать мероприятие для всех, кто работает с данными. Но оказалось, что такой универсальный формат плохо работает, разным специалистам нужно слишком разное. И после отмены второй конференции, где мы собирались уделить много внимания data science, получили фидбек вроде такого:
Теперь вместо того, чтобы гнаться за двумя зайцами, решили сосредоточиться на конкретном формате, который недополучает внимания. Как раз таком, какой обозначен в этом комментарии: «про то, как весь зоопарк технологий запускать и тюнить, какие есть проблемы, с чем лучше работать в каких-то определённых задачах…»
Темы
Что всё это значит на практике, о каких вещах можно будет услышать на SmartData 2020? Программа пока что в процессе формирования, но очерчен круг тем, которые мы считаем интересными для конференции. И по этому списку можно понять, чего в принципе стоит ждать:
Streaming
- Flink
- Spark
- Kafka
СУБД и хранилища для больших данных
Использование классических реляционных, колоночных, noSQL, SMP/MPP-хранилищ для построения DWH:
- Hive, Impala, Presto, Vertica, ClickHouse, Cassandra
- Teradata, Redshift, GreenPlum, exadata
- MSSQL, PostgreSQL
- MongoDB, DynamoDB
- S3, ADLS, GCS, HDFS
Архитектура DWH
- Моделирование данных
- Примеры построения корпоративных хранилищ данных
- Оперативная аналитика
- Ad-hoc reporting
- Hadoop
Data governance
- Data security
- Data quality
- Metadata и catalog management
- Master data management
- Миграция данных
Технологии построения ETL
- Spark
- Hadoop MapReduce
- Sqoop
- Performance analysis and optimization
- и так далее
Оркестрация и MLOps
- Airflow, NiFi, Luigi, Azkaban, Oozie etc
- MLflow
- и так далее
Другое
- Коробочные облачные решения
- Дата-инженерия для тех, кто не data engineer
- CI/CD для пайплайнов данных
- Тестирование
Виталий Худобахшов из программного комитета SmartData
Формат
Как и другие наши конференции этого сезона, SmartData пройдёт в онлайне — так что подходить на стойку регистрации за бейджиком в этот раз не придётся. А как всё будет выглядеть?
-
Понятно, что доклады важны, но для нас «онлайн-конференция» не означает «просто видеопоток». Это и чаты для обсуждения конкретных докладов, и видеосозвон после каждого доклада с возможностью задать вопрос спикеру, и активности от партнёров, и общий конференционный чат. Очень рекомендуем всем этим пользоваться: тогда ощущаешь, что ты не просто смотришь видео, а участвуешь в событии.
-
Чтобы зрителям было как можно удобнее, для проведения конференций мы используем не чужое софтовое решение, а разработали своё собственное. О нём уже писали на Хабре подробно.
-
Расписание отличается от того, к которому все привыкли по офлайн-конференциям. В офлайне на пару дней выпадаешь из обычной жизни целиком. В онлайне иначе: конференция растянется на четыре дня, но будет идти по 3-4 часа в день. Это позволяет совмещать конференцию и обычную жизнь.
-
Но советуем донести до работодателя, что если на офлайн-конференцию он отпускал вас с работы, то и в онлайне эти 3-4 часа в день вам действительно нужны: смотреть хардкорные технические доклады всегда требует сосредоточения. Впрочем, если из-за важного созвона не получилось посмотреть интересный доклад «вживую», он сразу же доступен в записи (с офлайн-конференциями так не работает). Если немного опоздал к началу доклада, то с помощью ускоренного воспроизведения записи можно даже успеть «догнать» других зрителей, чтобы задавать вопросы спикеру вместе со всеми!
Call to action
Что в итоге? Есть три главных вещи:
- Если конференция вас заинтересовала — стоит перейти на её сайт. Там можно и увидеть наиболее актуальную информацию, и подписаться на новости, и приобрести билет.
- Если вы ощущаете, что хотели бы сами выступить с докладом — сейчас самое время подавать заявку, это делается тоже на сайте.
- А если для вас важны и другие области IT, обратите внимание: у нас есть билеты «full pass», дающие доступ и к SmartData, и к 7 другим нашим конференциям нового сезона. Подробнее об этом можно узнать на отдельном сайте.
Увидимся на SmartData!