Что будет, если объединить фоторедактор и нейросеть

2016-09-29 17:10

Пример работы нейронного фоторедактора Neural Photo Editor. По центру - оригинальное изображение. Красными и синими квадратами показаны области скрытого пространства, сгенерированного после обучения нейросети. Ими можно манипулировать и напрямую (как обычно это делается) и косвенно, посредством «контекстной кисти»

Вы думаете, что «Фотошоп» творит чудеса в искажении реальности? Да, он может бесследно удалить человека с фотографии или нарастить волосы на голове, как у Илона Маска, с помощью «контекстной кисти». Но это и рядом не стоит с тем, на что способна нейросеть, если разрешить ей редактирование с контекстным анализом. Это совершенно другая реальность. Нейросеть способна заставить человека на фотографии улыбаться, придать вашей девушке черты Анджелины Джоли и так далее. Возможности безграничны.

Первая ласточка в этой области - нейронный фоторедактор Neural Photo Editor, который разработали сотрудники школы инженерных и физических наук в Университете Хериота-Уатта (Эдинбург, Великобритания) вместе с коллегой из компании Renishaw.

Последние достижения в создании генеративных моделей для изображений привели к появлению нейросетей, которые после обучения генерируют сэмплы и производят интерполяцию высочайшего качества. В данной области применяют два основных метода, изобретённых в 2013-2014 годах: Variational Autoencoder (VAE) и Generative Adversarial Network (GAN). Они показали, что нейросеть способна генерировать сложные, многомерные структуры в натуральных изображениях.

Вариационные автоэнкодеры VAE - это вероятностные графические модели, которые обучаются максимизировать вариационные нижние границы (исходя из вероятности данных), проецируя результат обучения в скрытое пространство (latent space), а затем реконструируя изображение из этого пространства.

Генеративные состязательные сети (GAN) осваивают генеративную модель, тренируя одну сеть («дискриминатор») отличать реальные и сгенерированные данные. Одновременно другая сеть («генератор») обучается генерировать сэмплы, которые дискриминатор не отличит от реальных.

Оба метода подходят для генерации изображений в скрытом пространстве - например, для добавления улыбки на хмурое лицо. У каждого из них свои преимущества и недостатки.

Нейронный фоторедактор Neural Photo Editor - это инновационный интерфейс для работы со скрытым пространством генеративных моделей. Такой метод позволяет осуществлять конкретные семантические правки в изображении с использованием «контекстной кисти», которая опосредованно изменяет собственный вектор.

Ключевая идея в нейронном фоторедакторе - изменять скрытое пространство интуитивно понятным способом, то есть редактированием обычного изображения. Пользователь выбирает цвет и размер кисти - применяет его на результирующем изображении. Нейросеть выполняет обратную свёртку, вычисляя разницу между цветом исходных пикселей и цветом кисти, и изменяет скрытое пространство, чтобы минимизировать эту разницу. В итоге мы получаем семантически осмысленные правки в результирующем изображении - изменения причёски, улыбку, ямочки на щёках и т.д.

Результат изменения фотографии с помощью нейронного фоторедактора

Простой пример. Если мы берём фотографию белого лица с чёрными волосами - и применяем чёрную кисть на лбу, но нейронный фоторедактор автоматически добавит туда волосы. Редактор работает в реальном времени на приличном GPU.

Для улучшения результата редактирования в редакторе есть возможность редактирования реконструкции изображения после трансформации нейросетью (интерполяционная маска). В этом случае результат выходит более качественным (на иллюстрации внизу).

Визуализация интерполяционной маски. Вверху слева направо: реконструкция, дельта (ошибка) реконструкции, оригинальное изображение. Внизу: модицифированная реконструкция, дельта, результирующее изображение

На следующих изображениях показаны примеры работы нейросети в реконструкции и интерполяции фотографий из баз CelebA, ImageNet и SVHN. Слева - исходные изображения, с каждым шагом направо показаны результаты постепенной реконструкции в нейросети.

Свою работу авторы опубликовали 22 сентября 2016 года на arXiv.org.

Код программы Neural Photo Editor опубликован на Github. В том же репозитории опубликован код интроспективной состязательной нейросети, которая представляет собой гибрид вариационных автоэнкодеров (VAE) и генеративных состязательных сетей (GAN).

Для запуска Neural Photo Editor понадобятся:

Theano, библиотека Python для эффективного определения, оптимизации и оценки математических выражений с использованием многомерных массивов.
Lasagne, библиотека для создания и обучения нейросетей на Theano.
Для повышения производительности рекомендуется (но не обязательно) установить cuDNN, библиотеку от Nvidia для аппаратного ускорения стандартных процедур, таких как прямая и обратная свёртка, пулинг, нормализация и активация слоёв. Это часть Nvidia Deep Learning SDK.
numpy, scipy, PIL, Tkinter и tkColorChooser из комплекта установки Python.

Источник: geektimes.ru



		Что будет, если объединить фоторедактор и нейросеть
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Психология Работа головного мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовые компьютеры Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2016-09-29 17:10 нейросети новости Пример работы нейронного фоторедактора Neural Photo Editor. По центру - оригинальное изображение. Красными и синими квадратами показаны области скрытого пространства, сгенерированного после обучения нейросети. Ими можно манипулировать и напрямую (как обычно это делается) и косвенно, посредством «контекстной кисти» Вы думаете, что «Фотошоп» творит чудеса в искажении реальности? Да, он может бесследно удалить человека с фотографии или нарастить волосы на голове, как у Илона Маска, с помощью «контекстной кисти». Но это и рядом не стоит с тем, на что способна нейросеть, если разрешить ей редактирование с контекстным анализом. Это совершенно другая реальность. Нейросеть способна заставить человека на фотографии улыбаться, придать вашей девушке черты Анджелины Джоли и так далее. Возможности безграничны. Первая ласточка в этой области - нейронный фоторедактор Neural Photo Editor, который разработали сотрудники школы инженерных и физических наук в Университете Хериота-Уатта (Эдинбург, Великобритания) вместе с коллегой из компании Renishaw. Последние достижения в создании генеративных моделей для изображений привели к появлению нейросетей, которые после обучения генерируют сэмплы и производят интерполяцию высочайшего качества. В данной области применяют два основных метода, изобретённых в 2013-2014 годах: Variational Autoencoder (VAE) и Generative Adversarial Network (GAN). Они показали, что нейросеть способна генерировать сложные, многомерные структуры в натуральных изображениях. Вариационные автоэнкодеры VAE - это вероятностные графические модели, которые обучаются максимизировать вариационные нижние границы (исходя из вероятности данных), проецируя результат обучения в скрытое пространство (latent space), а затем реконструируя изображение из этого пространства. Генеративные состязательные сети (GAN) осваивают генеративную модель, тренируя одну сеть («дискриминатор») отличать реальные и сгенерированные данные. Одновременно другая сеть («генератор») обучается генерировать сэмплы, которые дискриминатор не отличит от реальных. Оба метода подходят для генерации изображений в скрытом пространстве - например, для добавления улыбки на хмурое лицо. У каждого из них свои преимущества и недостатки. Нейронный фоторедактор Neural Photo Editor - это инновационный интерфейс для работы со скрытым пространством генеративных моделей. Такой метод позволяет осуществлять конкретные семантические правки в изображении с использованием «контекстной кисти», которая опосредованно изменяет собственный вектор. Ключевая идея в нейронном фоторедакторе - изменять скрытое пространство интуитивно понятным способом, то есть редактированием обычного изображения. Пользователь выбирает цвет и размер кисти - применяет его на результирующем изображении. Нейросеть выполняет обратную свёртку, вычисляя разницу между цветом исходных пикселей и цветом кисти, и изменяет скрытое пространство, чтобы минимизировать эту разницу. В итоге мы получаем семантически осмысленные правки в результирующем изображении - изменения причёски, улыбку, ямочки на щёках и т.д. Результат изменения фотографии с помощью нейронного фоторедактора Простой пример. Если мы берём фотографию белого лица с чёрными волосами - и применяем чёрную кисть на лбу, но нейронный фоторедактор автоматически добавит туда волосы. Редактор работает в реальном времени на приличном GPU. Для улучшения результата редактирования в редакторе есть возможность редактирования реконструкции изображения после трансформации нейросетью (интерполяционная маска). В этом случае результат выходит более качественным (на иллюстрации внизу). Визуализация интерполяционной маски. Вверху слева направо: реконструкция, дельта (ошибка) реконструкции, оригинальное изображение. Внизу: модицифированная реконструкция, дельта, результирующее изображение На следующих изображениях показаны примеры работы нейросети в реконструкции и интерполяции фотографий из баз CelebA, ImageNet и SVHN. Слева - исходные изображения, с каждым шагом направо показаны результаты постепенной реконструкции в нейросети. Свою работу авторы опубликовали 22 сентября 2016 года на arXiv.org. Код программы Neural Photo Editor опубликован на Github. В том же репозитории опубликован код интроспективной состязательной нейросети, которая представляет собой гибрид вариационных автоэнкодеров (VAE) и генеративных состязательных сетей (GAN). Для запуска Neural Photo Editor понадобятся: Theano, библиотека Python для эффективного определения, оптимизации и оценки математических выражений с использованием многомерных массивов. Lasagne, библиотека для создания и обучения нейросетей на Theano. Для повышения производительности рекомендуется (но не обязательно) установить cuDNN, библиотеку от Nvidia для аппаратного ускорения стандартных процедур, таких как прямая и обратная свёртка, пулинг, нормализация и активация слоёв. Это часть Nvidia Deep Learning SDK. numpy, scipy, PIL, Tkinter и tkColorChooser из комплекта установки Python. Источник: geektimes.ru Комментарии:

Что будет, если объединить фоторедактор и нейросеть

Комментарии: