Исследователи заподозрили существование собственного словаря у нейросети DALL-E 2

2022-06-04 15:27

машинное обучение новости, свёрточные нейронные сети

Американские исследователи обнаружили у генеративной нейросети DALL-E 2, создающей изображения по текстовому описанию, необычные особенности. Текст на ее изображениях, который кажется случайным набором символов, вероятно, вовсе не является таковым и зачастую связан с конкретными объектами и понятиями. К примеру, по запросу «Apoploe vesrreaitais» модель обычно генерирует изображения с птицами. Исследователи предположили, что DALL-E 2 в процессе обучения формирует собственное подобие словаря. Статья, пока не прошедшая рецензирование, доступна на сайте авторов. Она вызвала активное обсуждение среди сообщества исследователей машинного обучения, которые опровергли некоторые тезисы авторов и подтвердили другие.

DALL-E 2 — это новая и улучшенная версия генеративной нейросети DALL-E, представленной OpenAI в начале 2021 года. Тогда исследователи рассказали одновременно о двух похожих моделях: DALL-E и CLIP. По сути они выполняют противоположные задачи: DALL-E генерирует реалистичное изображение по его текстовому описанию, данному человеком, а CLIP генерирует текстовое описание для данного ей изображения. В обоих случаях модели обучались на огромном объеме изображений и описаний и сумели выучить качественную связь между визуальным и текстовым представлением объектов и понятий. В представленной этой весной DALL-E 2 разработчики поменяли некоторые детали реализации и сумели повысить реалистичность генерируемых ей изображений. Тем не менее у нее все еще есть заметные проблемы, одна из которых — генерация надписей. Обычно модель генерирует либо набор латинских символов в неправильном порядке, либо использует несуществующие символы или узоры.

OpenAI традиционно не предоставляет код и полную версию своих моделей, и в этот раз запустила демо-версию с доступом по запросу, в которой исследователи могут проверить работу модели, дав ей текстовое описание и получив набор изображений. Яннис Дарас (Giannis Daras) и Александрос Димакис (Alexandros Dimakis) из Техасского университета в Остине, которые получили доступ к демо-версии, обнаружили, что случайный текст на изображениях, похоже, не такой уж и случайный.

Они загружали в модель описания тех или иных сцен с указанием, что ей нужно сгенерировать текст. Например, в ответ на предложение «Два кита, разговаривающих о еде, с субтитрами» (Two whales talking about food, with subtitles.) модель сгенерировала двух китов и неразборчивый набор символов, который латинскими символами лучше всего отражается фразой «Wa ch zod ahaakes rea». Авторы обнаружили, что если загрузить в модель эту, казалось бы, бессмысленную фразу, она сгенерирует изображения с разными морепродуктами.

Результаты генерации по запросам «Два фермера, разговаривающих об овощах, с субтитрами» и двум фразам, полученным на первом изображении

Giannis Daras, Alexandros G. Dimakis

Аналогичным образом они обнаружили некоторые другие фразы и слова, которые устойчиво связанны с конкретными понятиями, например, по запросу «Apoploe vesrreaitais» модель чаще всего генерирует птиц. При этом в данном случае они узнали об этой фразе, попросив сгенерировать двух фермеров, разговаривающих об овощах. Кроме того, они обнаружили, что иногда модель корректно генерирует и изображения с комбинацией этих фраз. Так, они сначала выяснили, что по запросу «Contarra ccetnxniams luryca tanniounons» DALL-E 2 часто генерирует жуков и прочих насекомых, а в ответ на фразу «Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounons» она может сгенерировать изображения птиц, которые едят жуков.

Исследователи предположили, что обнаружили у DALL-E 2 «скрытый язык» и опубликовали статью. Она вызвала бурное обсуждение в сообществе разработчиков и исследователей. Бенджамин Хиттон показал, что часть примеров, приведенных авторами, зачастую не соответствует действительности, и по-видимому, была вызвана либо совпадением, либо выискиванием удачных вариантов генерации. Так, в ответ на фразу «Contarra ccetnxniams luryca tanniounons» он чаще всего получал разных животных, а не конкретно жуков (хотя они нередко были в результатах). Более того, если добавить к этой фразе указание стиля, предполагаемая связь между понятием «жуки» и этой фразой вовсе исчезает: если попросить модель сгенерировать «Contarra ccetnxniams luryca tanniounons» в стиле рисунка, она стабильно рисует пожилых женщин, а если попросить сделать 3D-рендер, получаются рендеры ракушек, динозавров и других объектов.

В то же время и он, и еще один исследователь, подтвердили, что по фразе «Apoploe vesrreaitais» DALL-E 2 действительно стабильно генерирует именно птиц. Вероятное объяснение этому нашел пользователь твиттера BarneyFlames. Он обнаружил, что токенизатор из модели CLIP, которая используется в DALL-E 2 для превращения текста в эмбеддинг, разбивает фразу «Apoploe vesrreaitais» на токены apo, plo, e, ,ve, sr, re, ait и ais. Первые два токена встречаются в начале названий семейств птиц Apodidae и Ploceidae. Он предположил, что модель могла получить большую часть информации о птицах из научных иллюстраций. Таким образом, при генерации изображений птиц DALL-E 2 может формировать текст из токенов, которые она чаще всего встречала в описаниях фотографий птиц при обучении.

После критики других исследователей авторы выложили скорректированную версию статьи, в которой помимо прочего использовали термин «скрытый словарь» вместо «скрытого языка».

В прошлом году разработчики из Сбера создали русскоязычную реализацию первой версии DALL-E. Поскольку при подготовке датасета они использовали в том числе переведенные описания изображений, в итоговой модели тоже встречаются неожиданные «баги» с изображениями птиц, подробнее о которых можно прочитать в нашем блоге «Лучше синица в руках: о трудностях перевода».

Григорий Копиев

Источник: nplus1.ru



		Исследователи заподозрили существование собственного словаря у нейросети DALL-E 2
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2022-06-04 15:27 машинное обучение новости, свёрточные нейронные сети Американские исследователи обнаружили у генеративной нейросети DALL-E 2, создающей изображения по текстовому описанию, необычные особенности. Текст на ее изображениях, который кажется случайным набором символов, вероятно, вовсе не является таковым и зачастую связан с конкретными объектами и понятиями. К примеру, по запросу «Apoploe vesrreaitais» модель обычно генерирует изображения с птицами. Исследователи предположили, что DALL-E 2 в процессе обучения формирует собственное подобие словаря. Статья, пока не прошедшая рецензирование, доступна на сайте авторов. Она вызвала активное обсуждение среди сообщества исследователей машинного обучения, которые опровергли некоторые тезисы авторов и подтвердили другие. DALL-E 2 — это новая и улучшенная версия генеративной нейросети DALL-E, представленной OpenAI в начале 2021 года. Тогда исследователи рассказали одновременно о двух похожих моделях: DALL-E и CLIP. По сути они выполняют противоположные задачи: DALL-E генерирует реалистичное изображение по его текстовому описанию, данному человеком, а CLIP генерирует текстовое описание для данного ей изображения. В обоих случаях модели обучались на огромном объеме изображений и описаний и сумели выучить качественную связь между визуальным и текстовым представлением объектов и понятий. В представленной этой весной DALL-E 2 разработчики поменяли некоторые детали реализации и сумели повысить реалистичность генерируемых ей изображений. Тем не менее у нее все еще есть заметные проблемы, одна из которых — генерация надписей. Обычно модель генерирует либо набор латинских символов в неправильном порядке, либо использует несуществующие символы или узоры. OpenAI традиционно не предоставляет код и полную версию своих моделей, и в этот раз запустила демо-версию с доступом по запросу, в которой исследователи могут проверить работу модели, дав ей текстовое описание и получив набор изображений. Яннис Дарас (Giannis Daras) и Александрос Димакис (Alexandros Dimakis) из Техасского университета в Остине, которые получили доступ к демо-версии, обнаружили, что случайный текст на изображениях, похоже, не такой уж и случайный. Они загружали в модель описания тех или иных сцен с указанием, что ей нужно сгенерировать текст. Например, в ответ на предложение «Два кита, разговаривающих о еде, с субтитрами» (Two whales talking about food, with subtitles.) модель сгенерировала двух китов и неразборчивый набор символов, который латинскими символами лучше всего отражается фразой «Wa ch zod ahaakes rea». Авторы обнаружили, что если загрузить в модель эту, казалось бы, бессмысленную фразу, она сгенерирует изображения с разными морепродуктами. Результаты генерации по запросам «Два фермера, разговаривающих об овощах, с субтитрами» и двум фразам, полученным на первом изображении Giannis Daras, Alexandros G. Dimakis Аналогичным образом они обнаружили некоторые другие фразы и слова, которые устойчиво связанны с конкретными понятиями, например, по запросу «Apoploe vesrreaitais» модель чаще всего генерирует птиц. При этом в данном случае они узнали об этой фразе, попросив сгенерировать двух фермеров, разговаривающих об овощах. Кроме того, они обнаружили, что иногда модель корректно генерирует и изображения с комбинацией этих фраз. Так, они сначала выяснили, что по запросу «Contarra ccetnxniams luryca tanniounons» DALL-E 2 часто генерирует жуков и прочих насекомых, а в ответ на фразу «Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounons» она может сгенерировать изображения птиц, которые едят жуков. Исследователи предположили, что обнаружили у DALL-E 2 «скрытый язык» и опубликовали статью. Она вызвала бурное обсуждение в сообществе разработчиков и исследователей. Бенджамин Хиттон показал, что часть примеров, приведенных авторами, зачастую не соответствует действительности, и по-видимому, была вызвана либо совпадением, либо выискиванием удачных вариантов генерации. Так, в ответ на фразу «Contarra ccetnxniams luryca tanniounons» он чаще всего получал разных животных, а не конкретно жуков (хотя они нередко были в результатах). Более того, если добавить к этой фразе указание стиля, предполагаемая связь между понятием «жуки» и этой фразой вовсе исчезает: если попросить модель сгенерировать «Contarra ccetnxniams luryca tanniounons» в стиле рисунка, она стабильно рисует пожилых женщин, а если попросить сделать 3D-рендер, получаются рендеры ракушек, динозавров и других объектов. В то же время и он, и еще один исследователь, подтвердили, что по фразе «Apoploe vesrreaitais» DALL-E 2 действительно стабильно генерирует именно птиц. Вероятное объяснение этому нашел пользователь твиттера BarneyFlames. Он обнаружил, что токенизатор из модели CLIP, которая используется в DALL-E 2 для превращения текста в эмбеддинг, разбивает фразу «Apoploe vesrreaitais» на токены apo, plo, e, ,ve, sr, re, ait и ais. Первые два токена встречаются в начале названий семейств птиц Apodidae и Ploceidae. Он предположил, что модель могла получить большую часть информации о птицах из научных иллюстраций. Таким образом, при генерации изображений птиц DALL-E 2 может формировать текст из токенов, которые она чаще всего встречала в описаниях фотографий птиц при обучении. После критики других исследователей авторы выложили скорректированную версию статьи, в которой помимо прочего использовали термин «скрытый словарь» вместо «скрытого языка». В прошлом году разработчики из Сбера создали русскоязычную реализацию первой версии DALL-E. Поскольку при подготовке датасета они использовали в том числе переведенные описания изображений, в итоговой модели тоже встречаются неожиданные «баги» с изображениями птиц, подробнее о которых можно прочитать в нашем блоге «Лучше синица в руках: о трудностях перевода». Григорий Копиев Источник: nplus1.ru Комментарии:

Исследователи заподозрили существование собственного словаря у нейросети DALL-E 2

Комментарии: