Инженеры Исследовательского Центра Huawei в Москве добились значительного успеха в ускорении генерации с помощью диффузионных моделей

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Диффузионные вероятностные модели для генерации объектов (Denoising Diffusion Probabilistic Models, DDPM) - одна из самых горячих тем последних двух лет в машинном обучении. Первые прорывные результаты в задаче генерации изображений с помощью этих моделей были получены летом 2020; через 3 месяца DDPM были впервые успешно применены в задаче генерации звуковой волны (вокодинг), а в начале 2021 года инженеры Исследовательского центра Huawei в Москве (лаборатория Huawei Noah’s Ark), разработали GRAD-TTS, алгоритм синтеза речи по тексту, превосходящий по качеству аналогичные модели (см. [1]).

Наконец, весной 2021 инженеры из OpenAI объявили, что DDPM превзошли GAN-модели в задаче генерации изображений. В то же время исследователи из Стенфорда предложили более элегантную версию DDPM, где семплирование с помощью марковской цепи с дискретным временем, заменялось численным решением стохастического дифференциального уравнения (СДУ). Все это окончательно утвердило диффузионные модели в роли самого многообещающего и интересного исследовательского направления последних лет.

Главной проблемой DDPM до недавнего времени оставалась скорость семплирования: например, в случае СДУ решение требует итеративного оценивания градиента логарифма вероятности семпла на каждом шаге. На грядущей конференции ICLR 2022 будет представлено сразу несколько интересных подходов к решению данной проблемы. Один из них был также предложен инженерами Huawei, ранее разработавшими модель GRAD-TTS. В статье [2] авторы предлагают улучшенный алгоритм численного решения СДУ, имеющий большую точность при использовании более длинных шагов, и, следовательно, позволяющий снизить их количество без ущерба для качества генерируемых семплов. Использование алгоритма обеспечило пятикратное ускорение семплирования в задаче замены голоса (Voice Conversion) и почти десятикратное ускорение в задаче генерации изображений на CIFAR-10.

Поздравляем наших инженеров с этим замечательным достижением!

Ссылки:

https://openreview.net/pdf?id=8c50f-DoWAu

http://proceedings.mlr.press/v139/popov21a/popov21a.pdf

[1] Vadim Popov, Ivan Vovk et al. "Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech", Proceedings of the 38th International Conference on Machine Learning, PMLR 139:8599-8608, 2021

[2] Vadim Popov, Ivan Vovk et al. "Diffusion-Based Voice Conversion with Fast Maximum Likelihood Sampling Scheme", Accepted to ICLR 2022 ья


Источник: proceedings.mlr.press

Комментарии: