Культура эксперимента

2019-09-02 12:10

Александр Крайнов девять лет возглавлял в Яндексе службу компьютерного зрения, а теперь руководит нашей лабораторией машинного интеллекта, работая в основном с экспериментальными задачами. Саша будет одним из спикеров большой конференции YaTalks, которая пройдёт 14 сентября в Екатеринбурге. Он расскажет об устройстве поиска по картинке. В преддверии конференции мы поговорили с Сашей о написании музыки нейросетями, генерации голоса не по кусочкам и о том, почему аккумуляторы тормозят развитие фотографии.

— Саша, расскажи, как менялась область твоих интересов.

Как, наверное, и у всех, мои интересы меняются по мере развития технологий. Например, в 2012 году в распознавание изображений пришли нейросети, и скажу — открылась масса новых возможностей. Сейчас стало меньше хайпа в распознавании изображений, но открылись невероятные возможности в их синтезе. И, например, в синтезе музыки.

Но, кстати, распознавание картинок мне по-прежнему интересно.

— Какие из последних достижений ML-исследователей самые впечатляющие для тебя?

Все, что связано с генерацией контента.

В изображениях это и повышение разрешения (например, наш DeepHD), и генерация картин и фотореалистичных изображений, и генерация видео.

Цифровая фотография и то, как алгоритмы помогают улучшить изображения. Если раньше в первую очередь боролись за качество оптики и озадачивались размерами матрицы, то сейчас активно развивается автоматическая обработка фото. Качество съемки в смартфонах во многом определяется именно программной частью.

Или, например, генерация голоса нейронными сетями. Я аплодирую коллегам, которые делают голос для Алисы. В этом году у нас произошел переход с Unit Selection на законченную генерацию голоса, которая выполняется полностью нейронными сетями. Качество голоса уже невероятно хорошее и продолжает расти.

А еще нельзя не обратить внимание на то, как выросло качество машинного перевода. Конечно, оно пока недотягивает до профессионального перевода человеком, но чем дальше, тем меньше разница.

— Поговорим о теме твоего доклада. Можно ли поиск по картинке использовать не только ради развлечения?

Конечно. И это, кстати, тоже огромное достижение последнего времени, просто оно уже стало привычным. Его используют для самых разных целей. Например, для обучения детей — когда родители хотят рассказать ребенку, какой предмет перед ним, но сами не знают. Кто-то использует этот поиск в музее, чтобы получить больше информации об экспонатах. Кто-то — для покупок одежды или для поиска идей интерьера. Всего не перечислить.

Еще это отличный способ распознать фейк и проверить достоверность информации в объявлениях о продаже/аренде квартир, машин и т. д. Или, например, с его помощью можно легко проверить иллюстрацию к новости.

Когда привыкаешь пользоваться запросом-картинкой, все выглядит довольно просто. На самом деле под капотом механизма скрыта сложная архитектурная система: для принятия решений совместно используются нейросети, деревья решений и традиционные методы компьютерного зрения. Во время разработки мы сталкивались с множеством неожиданных сложностей — про это я тоже расскажу в докладе.

— Какими качествами нужно обладать для работы в командах Яндекса, которые делают передовые продукты на базе машинного обучения?

Нужно действительно интересоваться тем, что происходит в этой области: читать статьи (в первую очередь с топовых профильных конференций), любить экспериментировать — ставить гипотезы и проверять их. Важно ориентироваться на результат и не бояться чернового труда: сбор данных, подготовка и очистка датасетов — такая же важная часть работы, как и проведение исследований. Стоит также понимать, что в одних случаях для достижения результата надо пробовать самые state-of-the-art-технологии, а в других достаточно простого инженерного решения. Каждый раз выбор должен быть в пользу эффективности.

Важна культура экспериментальной работы. Необходимо уметь запускать несколько экспериментов одновременно, перебирать разные версии, записывать и анализировать результаты. Пока идет обучение в одной конфигурации данных и архитектуры, запускать следующие.

Плюс ко всему всегда важны позитивность и хорошее чувство юмора — потому что с такими людьми просто приятнее иметь дело.

— Чему тебе бы хотелось научить машину, но пока не получается?

Одно из стремлений — обучать на невыровненных данных. Это, скажем, когда на хороших и плохих картинках в обучающем множестве изображено не одно и то же, когда нет пары «плохо-хорошо» для одного и того же объекта, а есть только хорошие примеры и, отдельно, плохие примеры с совсем другими объектами в кадре.

Еще хочется, чтобы нейросети умели держать существенно более длинный контекст, чем сейчас. Грубо говоря, чтобы в диалоге нейросеть могла учитывать все, что было во всех предыдущих диалогах.

Если говорить о совсем практических вещах, то полноценный переход большинства технологий с серверов на клиенты — в первую очередь в телефоны — видится мне очень перспективной задачей. Узкое место здесь — не столько процессоры, сколько емкость аккумулятора. Нейросетевые технологии очень ресурсоемкие, они сильно сажают батарейку. Уже сейчас нейросетями можно значительно улучшить любую фотографию. Но, вероятно, на одно изображение уйдет полный заряд аккумулятора.

Источник: m.vk.com

Культура эксперимента

Комментарии: