Визуализация мира за рамкой

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Исследователи проверяют, как далеко могут зайти модели искусственного интеллекта, придумывая различные позы и цвета объектов и животных на фотографиях.

Компьютеры далеко не так изобретательны.

Их понимание мира окрашено, часто буквально, данными, на которых они тренировались. Если все, что они когда-либо видели, - это фотографии красных пожарных машин, им трудно нарисовать что-либо еще.

Чтобы дать моделям компьютерного зрения более полное, более образное представление о мире, исследователи попытались снабдить их более разнообразными изображениями. Некоторые пытались снимать объекты под странными углами и в необычных положениях, чтобы лучше передать их реальную сложность. Другие просили модели генерировать свои собственные изображения, используя форму искусственного интеллекта, называемую GANs, или генеративные состязательные сети. В обоих случаях цель состоит в том, чтобы заполнить пробелы в наборах данных изображений, чтобы лучше отразить трехмерный мир и сделать модели распознавания лиц и объектов менее предвзятыми.

В новом исследовании, проведенном на международной конференции по обучению Репрезентациям, исследователи Массачусетского технологического института предлагают своего рода тест на креативность, чтобы увидеть, как далеко GANs может зайти в риффинге данного образа. Они “направляют” модель в предмет фотографии и просят ее нарисовать объекты и животных крупным планом, в ярком свете, вращаясь в пространстве или в разных цветах.

Творения модели меняются тонкими, иногда удивительными способами. И эти вариации, оказывается, внимательно отслеживают, насколько креативными были фотографы-люди, обрамляя сцены перед своим объективом. Эти предубеждения запекаются в базовом наборе данных, и метод управления, предложенный в исследовании, призван сделать эти ограничения видимыми.

"Латентное пространство-это место, где лежит ДНК образа",-говорит соавтор исследования Али Джаханян, научный сотрудник Массачусетского технологического института. "Мы показываем, что вы можете управлять этим абстрактным пространством и контролировать, какие свойства вы хотите, чтобы GAN выражал — до определенной точки. Мы находим, что творчество Гана ограничено разнообразием образов, из которых он учится”. Джаханян присоединился к исследованию соавтора Люси чай, аспирантки Массачусетского технологического института , и старшего автора Филиппа Изолы, Бонни и Марти (1964) Тененбаум CD доцент кафедры электротехники и компьютерных наук.

Исследователи применили свой метод к GANs, которые уже были обучены на 14 миллионах фотографий ImageNet. Затем они измерили, как далеко модели могут зайти в преобразовании различных классов животных, объектов и сцен. Уровень художественного риска, как они обнаружили, сильно варьировался в зависимости от типа предмета, которым Ган пытался манипулировать.

Например, поднимающийся воздушный шар создает более эффектные позы, чем, скажем, вращающаяся пицца. То же самое было верно и для увеличения масштаба персидской кошки, а не Малиновки, причем кошка таяла в куче меха, чем дальше она удалялась от зрителя, в то время как птица оставалась практически неизменной. Модель счастливо превратила автомобиль в синий, а Медузу в красный, как они обнаружили, но она отказывалась рисовать щегла или пожарную машину в чем-либо, кроме их стандартных цветов.

Ганы также казались удивительно созвучными некоторым ландшафтам. Когда исследователи увеличили яркость на наборе горных фотографий, модель причудливо добавила огненные извержения вулкану, но не геологически более старому, дремлющему родственнику в Альпах. Похоже, что Ганы уловили изменения освещения, когда день переходит в ночь, но, похоже, поняли, что только вулканы становятся ярче ночью.

Это исследование является напоминанием о том, насколько глубоко результаты моделей глубокого обучения зависят от их входных данных, говорят исследователи. Ганы привлекли внимание исследователей интеллекта своей способностью экстраполировать данные и визуализировать мир новыми и изобретательными способами.

Они могут сделать снимок головы и превратить его в портрет в стиле Ренессанса или любимой знаменитости. Но хотя Ганы способны самостоятельно изучать удивительные детали, например, как разделить ландшафт на облака и деревья, или создавать образы , которые застревают в сознании людей, они все еще в основном рабы данных. Их творения отражают предубеждения тысяч фотографов, как в том, что они выбрали для съемки, так и в том, как они оформили свой объект.

“Что мне нравится в этой работе, так это то, что она тычет в представления, которые изучил GAN, и подталкивает его к раскрытию того, почему он принял эти решения”, - говорит Яакко Лехтинен, профессор финского Университета Ааалто и научный сотрудник NVIDIA, который не участвовал в исследовании. "Ганы невероятны и могут узнать все виды вещей о физическом мире, но они все еще не могут представлять образы физически значимыми способами, как это могут сделать люди.”


Источник: news.mit.edu

Комментарии: