Модели диффузии – больше, чем просто добавление шума

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Зайдите в свою любимую социальную сеть и воспользуйтесь функцией поиска, чтобы найти DALL-E. Вы можете просмотреть эту ссылку , чтобы увидеть некоторые примеры в Twitter. Прокрутите немного вверх и вниз, и вы увидите изображения, которые на первый взгляд могут быть очень узнаваемы. В зависимости от изображенных сцен, если вы обратите немного больше внимания, вы можете увидеть, что в некоторых случаях с изображениями что-то не так. В лучшем случае может быть небольшое (или большое) искажение, а в некоторых случаях сцена получается совершенно дурацкой. Нет, художник не собирался включать это искажение или дурацкость, и в этом отношении вполне вероятно, что художник даже не человек. Ведь DALL-E — это компьютерная модель, названная так в честь любимого робота Pixar Wall-E и художника-сюрреалиста Сальвадора Дали .

Изображения, которые вы видите, были созданы в цифровом виде путем ввода текста. Другими словами, вы предоставляете описание интересующей вас сцены, а модель машинного обучения создает изображение. В каком будущем мы живем, правда? Модель DALL-E была анонсирована OpenAI в январе 2021 года , а совсем недавно, в конце июля 2022 года, DALL-E 2 вступила в фазу бета-тестирования. В конце августа 2022 года OpenAI представила Outpainting — способ продолжить изображение за пределами его исходных границ. С тех пор были выпущены различные реализации, и вы можете поиграть с ними. Например, взгляните на Cr a yon , чтобы создавать собственные изображения AI из текста.

Ниже приведен пример моего запроса на получение изображений шакалопов — возможно, вы знаете, что я называю их аллегорией специалиста по данным… для получения дополнительной информации ознакомьтесь с Data Science and Analytics с Python. В любом случае, вы можете видеть, что некоторые из полученных изображений довольно хороши, например, третья запись во втором ряду показывает правдоподобный рисунок того, что явно является зайцем с оленьими рогами. В других случаях результат не так хорош, посмотрите, например, на вторые записи строк 1 и 2 — головы явно неподходящего размера для выбранных тел: в одном случае слишком маленькие, а в другом слишком большие. В любом случае, я бы не смог так быстро создать эти многочисленные примеры за то короткое время, которое потребовалось Craiyon (ранее известному как DALL -E mini ).

craiyon_145123_jackalope

Исходная реализация DALL-E, выпущенная OpenAI, использует версию GPT-3, если вам нужно узнать об этом больше, проверьте мой пост на этом сайте под названием «Трансформеры — Самообращение на помощь» . Вместе с предварительной тренировкой контрастного языка и изображения, или сокращенно CLIP , и диффузионным моделированием, DALL-E способен генерировать изображения в различных стилях и аранжировках. В этой статье блога основное внимание уделяется изучению того, что стоит за диффузионными моделями. Давайте начнем.

Что такое диффузионные модели?

Как и во многих великих расширениях концепций, модели диффузии вдохновлены физикой, и в данном случае используемое название не стесняется показать свои корни. Диффузия — это процесс, при котором что-то — атомы, молекулы, энергия, пиксели — перемещается из области с более высокой концентрацией в область с более низкой концентрацией. Вы знакомы с этим, когда растворяете сахар в чашке кофе. Сначала сахарные гранулы концентрируются вверху вашей кружки в определенном месте, и если оставить их одних, они будут хаотично перемещаться и распределяться. Если вы поможете этому процессу, помешивая, градиент концентрации ускорится, и вы сможете наслаждаться подслащенным кофе, который не даст вам заснуть, читая эти строки.

Как мы упоминали выше, модель диффузии в машинном обучении основана на диффузии в неравновесной термодинамике, где этот процесс увеличивает энтропию системы. Это означает, что процесс диффузии является спонтанным и необратимым, другими словами, частицы (атомы, пиксели и т. д.) распространяются в результате процесса, но не будут самопроизвольно переупорядочиваться. С точки зрения теории информации, это эквивалентно потере информации из-за добавления дополнительного шума.

В статье под названием «Глубокое обучение без учителя с использованием неравновесной термодинамики» Сола-Дикштейна и др. мотивация, обеспечиваемая неравновесной статистической физикой, находится в центре их подхода. Идея состоит в том, чтобы использовать эффекты диффузии, медленно нарушая и разрушая структуру распределения имеющихся данных. В отличие от физического процесса, цель состоит в том, чтобы изучить процесс обратной диффузии (назовем ли это концентрацией?) для восстановления и создания структуры данных.

Как и в термодинамическом подходе, мы определяем марковскую цепь диффузионных шагов, чтобы добавить к нашим данным систематический случайный шум. Изучение процесса обратной диффузии позволяет нам создавать образцы данных из шума с желаемыми свойствами, в данном случае, как на изображении ниже, переход от зашумленного изображения к смайлику со смайликом.

шумоподавление

В двух словах мы говорим о двухэтапном процессе:

  1. Шаг прямой диффузии, на котором систематически добавляется гауссов шум до тех пор, пока данные не станут фактически шумом; и
  2. Шаг реконструкции, на котором мы «шумопоглощаем» данные, изучая условные плотности вероятности с помощью нейронных сетей.
Шаги

Рассмотрим приведенную выше диаграмму для двух обозначенных нами шагов. Для точки данных из реального распределения данных (x_0 simeq q(x) ) процесс прямой диффузии добавляет к выборке небольшой гауссов шум за $T$ шагов. Размеры шагов контролируются графиком отклонений, таким образом, что ( {eta_t in (0,1) }^T_{t=1} ), и мы имеем, что ( q(x_t | x_{t- 1} = N (x_t; sqrt{1-eta_t} x_{t-2}, eta_t I) ). На нашей диаграмме шаг 1 начинается со смайлика в позиции ( x_0 ). Добавляя шум на каждом шаге, мы размываем исходное изображение. В момент, когда ( T o infty ), мы имеем изотропное распределение Гаусса.

На втором этапе мы берем зашумленное изображение и хотим реконструировать смайлик со смайликом. Это работает при условии, что если мы сможем обратить процесс на шаге 1, мы сможем воссоздать истинную выборку из входного гауссовского шума. К сожалению, мы не можем легко оценить ( q(x_{t-1} | x_t) ) и, следовательно, необходимо изучить модель ( p_{ heta} ) для обращения вспять процесса диффузии. Именно здесь происходит волшебство создания изображений. Марковская формулировка, на которой основана модель, гарантирует, что данное распределение обратного диффузионного перехода зависит только от предыдущего временного шага, что позволяет нам развивать процесс.

При обучении нашей диффузионной модели мы фактически находим обратные марковские переходы, которые максимизируют вероятность обучающих данных.

Генерация изображений с использованием различных методологий

Если главное — это генерация изображения, могут быть и другие альтернативы моделям диффузии, описанным выше. Давайте рассмотрим некоторые варианты, сравним их с диффузионными моделями.

Одной из возможностей генерации изображений является использование вариационных автоэнкодеров (VAE), которые принимают входные данные, которые кодируются, путем сведения их к скрытому пространству меньшей размерности. Когда мы декодируем результат, модель пытается восстановить входные данные, тем самым генерируя наше изображение. Обратите внимание, что от VAE требуется не только генерировать наши изображения, но и представлять их в более компактном виде (уменьшение размерности). Это означает, что модель эффективно изучает основные особенности распределения вероятностей, которые генерировали обучающие данные. В некоторых случаях это может быть недостатком.

Другая возможность, обычно упоминаемая в этом контексте, — это использование моделей, основанных на потоке. В этом случае мы не используем кодеры и декодеры. Вместо этого мы используем последовательность обратимых преобразований для прямого моделирования распределения вероятностей. Вместо кодирования входных данных мы используем функцию ( f ), параметризованную нейронной сетью для наших данных. При получении результата мы просто используем обратную функцию, т.е. ( f^{-1} ). Мы видим, как это может стать проблемой.

Третья возможность — использование GAN. Генеративно-состязательная сеть (GAN) — это подход к генеративному моделированию с использованием глубокого обучения. По сути, он заключается в изучении закономерностей входных данных, чтобы модель можно было использовать для создания новых примеров, которые можно было бы с большой долей вероятности извлечь из исходных данных. В архитектуре GAN у нас есть пара нейронных сетей, которые конкурируют друг с другом за создание синтезированных экземпляров данных. В предыдущем посте этого блога мы говорили о преимуществах использования GAN. Чтобы генерировать изображения из шума с помощью GAN, нашей отправной точкой является шум полезной кондиционирующей переменной. Изображения генерируются так называемым генератором, а дискриминатор оценивает результаты как хорошие (или нет) достоверные данные, полученные из обучающего набора. Некоторые области, которые требуют нашего внимания при использовании GAN: возможность исчезновения градиентов в случаях, когда дискриминатор слишком хорош; или коллапс модели в тех случаях, когда генератор учится выдавать только определенный результат, заставляя дискриминатор отвергать все и вся. В статье, опубликованной в 2021 году, модели диффузии превосходят GAN в синтезе изображений , Дхаривал и др. показать, как «диффузионные модели могут обеспечить качество образцов изображений, превосходящее современные генеративные модели».

Диффузионные модели, похоже, одерживают верх в создании изображений, однако и они не лишены проблем. В недавней статье, состоящей из двух частей ( Часть 1 и Часть 2 ), исследователи из NVIDIA утверждают, что, хотя диффузионные модели обеспечивают высокое качество и разнообразие выборки, они не очень хороши в скорости выборки, что ограничивает их применение в практических повседневных приложениях. Затем они представляют три метода, разработанные в NVIDA для решения этой проблемы, а именно:

Было показано, что диффузионное моделирование является очень надежным подходом к созданию изображений. Более того, были продемонстрированы достижения в производстве аудио и видео на основе того же подхода. В следующий раз, когда вы будете смотреть на шумное изображение или слушать что-то, что звучит для вас буквально как шум, остановитесь и подумайте, что это может быть начало красивой сцены, трогательного фильма или фантастической симфонии. Кто бы мог подумать!


Источник: domino.ai

Комментарии: