Популярные диффузионные модели, такие как Stable Diffusion и DALL-E, создают детализированные изображения с помощью итерационного процесса. Модель прогнозирует уровень шума на каждом пикселе, удаляет его и повторяет этот цикл до полного устранения помех. Поскольку процесс может включать более 30 шагов и затрагивает все пиксели, он требует много вычислительных ресурсов и времени. Зато многократная коррекция ошибок обеспечивает высокое качество итогового изображения.
Авторегрессионные модели, которые часто используются для создания текстов, также могут генерировать изображения. Они предсказывают части картинки одну за другой. Этот способ быстрее, но модель не может вернуться назад и исправить ошибки. Алгоритм сжимает пиксели в токены, а затем восстанавливает изображения из предсказанных токенов. Это ускоряет процесс, но теряется часть информации. Как итог — качество изображения хуже.
Исследователи разработали гибридный метод HART, сочетающий авторегрессионную модель для предсказания сжатых токенов изображения и диффузионную модель для остаточных токенов. Остаточные токены компенсируют потерю информации модели, фиксируя детали, упущенные дискретными токенами — края объектов, волосы и черты лица. Это сильно улучшает качество восстановления изображения.
Разрабатывая HART, исследователи столкнулись с проблемой интеграции диффузионной модели. Ее использование на ранних этапах приводило к ошибкам. В окончательном варианте диффузионная модель используется только для доработки деталей после авторегрессионной модели. В результате процесс сокращается до восьми шагов вместо стандартных 30 и более.
HUST сочетает авторегрессионную модель-трансформер с 700 млн параметров и облегченную диффузионную модель с 37 млн параметров. Инструмент генерировал изображения, сопоставимые по качеству с теми, что создаются диффузионной моделью с 2 млрд параметров, но при этом примерно в девять раз быстрее. Метод требует примерно на 31% меньше вычислительных ресурсов по сравнению с самыми современными моделями.
Для работы с HART достаточно ввести текстовый запрос — система мгновенно преобразует его в качественное изображение. Такой подход особенно ценен для исследователей робототехники и гейм-дизайнеров, которым требуется оперативная визуализация идей. Архитектура масштабируема и применима не только к изображениям, но и к видео/аудио. Поэтому разработка пригодится для развития мультимодального ИИ.