Инженеры Исследовательского Центра Huawei в Москве добились значительного успеха в ускорении генерации с помощью диффузионных моделей

МЕНЮ

Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ

Новости ИИ

Голосовой помощник
Городские сумасшедшие
ИИ в медицине
ИИ проекты
Искусственные нейросети
Искусственный интеллект
Слежка за людьми
Угроза ИИ

Разработка ИИ

ИИ теория
Компьютерные науки
Машинное обуч. (Ошибки)
Машинное обучение
Машинный перевод
Нейронные сети начинающим
Психология ИИ
Реализация ИИ
Реализация нейросетей
Создание беспилотных авто
Трезво про ИИ
Философия ИИ

Внедрение ИИ

Big data
Генетические алгоритмы
Капсульные нейросети
Основы нейронных сетей
Распознавание лиц
Распознавание образов
Распознавание речи
Творчество ИИ
Техническое зрение
Чат-боты

Работа разума и сознание

Изучение сна
Изучение сознания
Нейроинтерфейс
Психология
Работа мозга
Работа памяти
Работа разума

Модель мозга

Модель мозга

Робототехника, БПЛА

Беспилотные автомобили
БПЛА
Робототехника

Трансгуманизм

Трансгуманизм

Обработка текста

Анализ социальных сетей
Компьютерная лингвистика
Лингвистика
Поисковые алгоритмы

Теория эволюции

Головной мозг
Нейронные сети
Поведение животных
Теория эволюции

Дополненная реальность

Виртулаьная реальность
Дополненная реальность

Железо

Интернет вещей
Квантовый компьютер
Нейронные процессоры
облачные вычисления
Суперкомпьютеры

Киберугрозы

Кибербезопасность

Научный мир

Методы исследования
Наука и образование
Семинары

ИТ индустрия

ИТ-гиганты
Новости ит

Разработка ПО

Разработка ПО
Теория алгоритмов

Теория информации

Кластеризация

Математика

Актуальная математика
Статистика
Теория вероятности
Теория информации
Теория хаоса

Цифровая экономика

Технология блокчейн
Цифровая экономика

Авторизация

RSS

RSS новости

2022-02-08 15:37

обучение нейронной сети

Диффузионные вероятностные модели для генерации объектов (Denoising Diffusion Probabilistic Models, DDPM) - одна из самых горячих тем последних двух лет в машинном обучении. Первые прорывные результаты в задаче генерации изображений с помощью этих моделей были получены летом 2020; через 3 месяца DDPM были впервые успешно применены в задаче генерации звуковой волны (вокодинг), а в начале 2021 года инженеры Исследовательского центра Huawei в Москве (лаборатория Huawei Noah’s Ark), разработали GRAD-TTS, алгоритм синтеза речи по тексту, превосходящий по качеству аналогичные модели (см. [1]).

Наконец, весной 2021 инженеры из OpenAI объявили, что DDPM превзошли GAN-модели в задаче генерации изображений. В то же время исследователи из Стенфорда предложили более элегантную версию DDPM, где семплирование с помощью марковской цепи с дискретным временем, заменялось численным решением стохастического дифференциального уравнения (СДУ). Все это окончательно утвердило диффузионные модели в роли самого многообещающего и интересного исследовательского направления последних лет.

Главной проблемой DDPM до недавнего времени оставалась скорость семплирования: например, в случае СДУ решение требует итеративного оценивания градиента логарифма вероятности семпла на каждом шаге. На грядущей конференции ICLR 2022 будет представлено сразу несколько интересных подходов к решению данной проблемы. Один из них был также предложен инженерами Huawei, ранее разработавшими модель GRAD-TTS. В статье [2] авторы предлагают улучшенный алгоритм численного решения СДУ, имеющий большую точность при использовании более длинных шагов, и, следовательно, позволяющий снизить их количество без ущерба для качества генерируемых семплов. Использование алгоритма обеспечило пятикратное ускорение семплирования в задаче замены голоса (Voice Conversion) и почти десятикратное ускорение в задаче генерации изображений на CIFAR-10.

Поздравляем наших инженеров с этим замечательным достижением!

Ссылки:

https://openreview.net/pdf?id=8c50f-DoWAu

http://proceedings.mlr.press/v139/popov21a/popov21a.pdf

[1] Vadim Popov, Ivan Vovk et al. "Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech", Proceedings of the 38th International Conference on Machine Learning, PMLR 139:8599-8608, 2021

[2] Vadim Popov, Ivan Vovk et al. "Diffusion-Based Voice Conversion with Fast Maximum Likelihood Sampling Scheme", Accepted to ICLR 2022 ья

Источник: proceedings.mlr.press



		Инженеры Исследовательского Центра Huawei в Москве добились значительного успеха в ускорении генерации с помощью диффузионных моделей
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2022-02-08 15:37 обучение нейронной сети Диффузионные вероятностные модели для генерации объектов (Denoising Diffusion Probabilistic Models, DDPM) - одна из самых горячих тем последних двух лет в машинном обучении. Первые прорывные результаты в задаче генерации изображений с помощью этих моделей были получены летом 2020; через 3 месяца DDPM были впервые успешно применены в задаче генерации звуковой волны (вокодинг), а в начале 2021 года инженеры Исследовательского центра Huawei в Москве (лаборатория Huawei Noah’s Ark), разработали GRAD-TTS, алгоритм синтеза речи по тексту, превосходящий по качеству аналогичные модели (см. [1]). Наконец, весной 2021 инженеры из OpenAI объявили, что DDPM превзошли GAN-модели в задаче генерации изображений. В то же время исследователи из Стенфорда предложили более элегантную версию DDPM, где семплирование с помощью марковской цепи с дискретным временем, заменялось численным решением стохастического дифференциального уравнения (СДУ). Все это окончательно утвердило диффузионные модели в роли самого многообещающего и интересного исследовательского направления последних лет. Главной проблемой DDPM до недавнего времени оставалась скорость семплирования: например, в случае СДУ решение требует итеративного оценивания градиента логарифма вероятности семпла на каждом шаге. На грядущей конференции ICLR 2022 будет представлено сразу несколько интересных подходов к решению данной проблемы. Один из них был также предложен инженерами Huawei, ранее разработавшими модель GRAD-TTS. В статье [2] авторы предлагают улучшенный алгоритм численного решения СДУ, имеющий большую точность при использовании более длинных шагов, и, следовательно, позволяющий снизить их количество без ущерба для качества генерируемых семплов. Использование алгоритма обеспечило пятикратное ускорение семплирования в задаче замены голоса (Voice Conversion) и почти десятикратное ускорение в задаче генерации изображений на CIFAR-10. Поздравляем наших инженеров с этим замечательным достижением! Ссылки: https://openreview.net/pdf?id=8c50f-DoWAu http://proceedings.mlr.press/v139/popov21a/popov21a.pdf [1] Vadim Popov, Ivan Vovk et al. "Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech", Proceedings of the 38th International Conference on Machine Learning, PMLR 139:8599-8608, 2021 [2] Vadim Popov, Ivan Vovk et al. "Diffusion-Based Voice Conversion with Fast Maximum Likelihood Sampling Scheme", Accepted to ICLR 2022 ья Источник: proceedings.mlr.press Комментарии:

Инженеры Исследовательского Центра Huawei в Москве добились значительного успеха в ускорении генерации с помощью диффузионных моделей

Комментарии: