«Мы на скорости сталкиваем автомобили и по фото разлетающихся обломков изучаем, как устроен двигатель»

2021-02-19 19:17

Никита Казеев

Фото из личного архива

Никита Казеев, кандидат компьютерных наук, PhD in Physics и научный сотрудник лаборатории LAMBDA, работает в ЦЕРН. Для портала Вышки он рассказал, как защитился в двойной аспирантуре (в НИУ ВШЭ и в итальянском Римском университете), на что похожа наука в Женеве и почему нужно непременно общаться с коллегами.

О двойной аспирантуре

С моим вышкинским научным руководителем Андреем Устюжаниным мы познакомились в Яндексе, когда я учился в Школе анализа данных. Меня пригласили на стажировку в его группу, которая занималась машинным обучением для физики высоких энергий в Европейской организации по ядерным исследованиям (ЦЕРН). С моим научным руководителем в Риме я познакомился при достаточно необычных обстоятельствах. Коллайдер работает круглосуточно, и у ученых, приезжающих в ЦЕРН, бывают дежурства. Они проходят восьмичасовыми сменами, на которых ученые следят за тем, как проходят эксперименты. Во время одного такого дежурства мы с Барбарой Шашей и познакомились, а в дальнейшем она пригласила меня в лабораторию INFN Frascati.

В России я работаю в лаборатории LAMBDA. Ее основные направления исследований основываются на том, что за последние десять лет методы машинного обучения совершили качественный рывок. Их можно использовать не только для уже рутинных задач, например, чтобы отличать котов от собак на фотографиях в социальных сетях, но и для более нетривиальных: делать открытия в естественных науках. Флагманским направлением работы лаборатории является сотрудничество с экспериментом LHCb в ЦЕРНе, в рамках которого я и работал над диссертацией. Кроме этого, в лаборатории оптимизировали конструкцию детектора SHiP, строили маневры уклонения космических аппаратов, предложили новую оптимизацию черных ящиков на ведущей конференции NeurIPS, а с 2015-го года проводят регулярную летнюю школу по машинному обучению.

Конечно, процесс обучения на программе двойной аспирантуры не был беспроблемным: например, в Римском университете, в отличие от Вышки, не было возможности защищаться по статьям, и пришлось писать полноценную кандидатскую, дополненную по классическим стандартам методичкой по машинному обучению и устройству эксперимента LHCb. Они считают, что хороший исследователь должен уметь рассказывать о своих результатах максимально далекому от них читателю. Кроме того, во ВШЭ были свои особенности с документооборотом, и в итоге итальянским руководителям пришлось отправлять бумажные отзывы на диссертацию по почте. С другой стороны, в Риме детально ознакомились с моей работой, задавали правильные и интересные вопросы. А еще благодаря этой аспирантуре я увеличил свой запас итальянских слов с 5 до 15.

Пандемия на мою работу особенно не повлияла: в ЦЕРНе традиционно работают удаленно из-за большого количества сотрудников в разных странах. С итальянской группой я общался постоянно, когда работал над совместным с ними проектом, а до пандемии в Риме я пробыл в сумме меньше месяца, так основным местом работы для всех был ЦЕРН в Женеве. Планировалось, что на защиту в Москве соберутся все руководители и члены комиссии, но от этой идеи пришлось отказаться.

О проектах

Если говорить грубо, то наука на Большом адронном коллайдере похожа на следующее: мы на огромной скорости сталкиваем автомобили и по фотографиям разлетающихся обломков изучаем, как устроен двигатель. Прежде чем начинать делать выводы о физике, необходимо определить типы деталей на фотографиях. Моя работа как раз посвящена определению типов частиц в детекторе с помощью машинного обучения. Всего в диссертацию вошли четыре задачи.

Первая – это глобальная идентификация частиц. Разные компоненты детектора собирают разную информацию о пролетающих через них частицах. Если возвращаться к примеру с автомобилями, то мы как будто используем камеры под разными ракурсами с разными светофильтрами для съемки «столкновения». Полученная информация дает нам возможность понять, какого типа была частица. Для решения этой задачи мы разработали алгоритм на основе машинного обучения (CatBoost), который справляется с этой задачей лучше, чем предыдущее решение, основанное на простой нейросети.

Фото из личного архива

Вторая задача – это идентификация мюонов. Среди других заряженных частиц мюоны особенно интересны тем, что обладают большой проникающей способностью – они могут пройти через калориметры и железные листы поглотителей. Мы разработали алгоритм, который может быстро определять, была ли частица мюоном.

Еще один проект – использование машинного обучения на зашумленных данных. Во время работы над задачей мюонной идентификации мы столкнулись с некоторой проблемой. Наши алгоритмы обучались по реальным, не синтетическим, данным, и их разметка была неточной – не все частицы, которые идентифицировались как мюоны, на самом деле были мюонами. Но для каждой их них мы знали вероятность того, что разметка ошибочна. Мы разработали метод, позволяющий обучать алгоритмы машинного обучения на подобных данных. Так как зашумленные данные используются не только в физике, но и в большинстве применений машинного обучения в реальном мире, потому сейчас мы активно ищем, где еще приходится работать с подобной моделью шума – если вы это читаете и у вас есть подходящие данные, то напишите мне.

Кроме того, я занимаюсь задачей быстрой симуляции черенковских детекторов. Для того, чтобы создавать и валидировать алгоритмы, анализирующие данные с детектора, требуются симулированные данные. Для этого с помощью специальной компьютерной программы мы сталкиваем виртуальные частицы на виртуальном детекторе. В результате такого эксперимента мы имеем точную информацию о том, что на самом деле происходило. Проблема симулированных данных состоит в том, что они требуют больших вычислительных ресурсов – около одной секунды на одно событие, а требуется этих событий десятки миллионов. Я построил алгоритм на основе генеративно-состязательных сетей (GAN), который моделирует отклик детектора на пролетающие через него частицы: такой подход на два-три порядка быстрее описанной ранее симуляции.

Почти все эти проекты интересны тем, что они служат для фундаментальных исследований.

Заранее мы не знаем, какую новую физику откроем, как и когда она может пригодиться

Это может звучать немного грустно, но по факту все наоборот: из чистого научного любопытства человечество уже обрело электричество, радиоволны, полупроводники и многие другие достижения, которые нас окружают. Ну и из очевидной пользы, помимо применений в конкретном эксперименте LHCb, разработанные методы могут лечь в основу алгоритмов для других физических экспериментов.

О дистанционной защите

Изначально защита планировалась как большой праздник, на который съедутся иностранные члены комиссии и научные руководители, но из-за пандемии этого не получилось. С другой стороны, онлайн-формат дал возможность поприсутствовать большому количеству моих друзей, далеко не все из которых смогли бы лично приехать. Мы рассматривали вариант, при котором желающие смогут собраться очно, а остальные – подключиться онлайн, но так сделать не получилось. Также была даже идея провести защиту в посольстве Италии, но, опять же, пандемия внесла свои коррективы.

Сама защита прошла предсказуемо и по плану – все члены комиссии заранее прислали отзывы. Я был приятно удивлен качеством обсуждения, вопросов и предложений. Саму защиту отметили фуршетом и камерной ролевой игрой.

В заключение хотелось бы сказать, что главное – не опускать руки, когда планы нарушаются (спасибо пандемии), любить свою работу и не упускать общение с коллегами. Как знать, вдруг рядом с вами сейчас сидит ваш будущий научный руководитель?

Источник: www.hse.ru

«Мы на скорости сталкиваем автомобили и по фото разлетающихся обломков изучаем, как устроен двигатель»

Комментарии: