Речь пойдёт о сделавшей на днях сенсацию статье о нейросети Dall-E-2

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Не знаю, кому это может быть интересно. Речь пойдёт о сделавшей на днях сенсацию статье о нейросети Dall-E-2. https://arxiv.org/pdf/2206.00169.pdf Пишут такое, что мурашки бегут по коже. Мол, Dall-E-2 изобрела собственный язык, появление которого не могут объяснить лингвисты. Не мог я обойти вниманием эту тему и внимательно изучил оригинал статьи. Доступа к Dall-E-2 у меня нет, но я поставил эксперименты, подобные описанным в статье, с нейросетью Ru Dall-E, на колабе. В общем, к методологии авторов исследования появились критические вопросы.

Сначала - о том, что собственно пишут авторы из Техасского Университета. Они утверждают, что тарабарщина, которую выдаёт Dall-E-2 может иметь смысл. Так, словами Apoploe vesrreaitais нейросетью обозначаются птицы, а словами Contarra ccetnxniams luryca tanniounons - насекомые. Указывают они и метод исследования словарного запаса нейросети. Нужно вводить в неё фразы, типа: "2 фермера говорят об овощах с субтитрами". Собственно, смотрите 1-й скрин. Седой дядька говорит мужику в шляпе: Apoploe vesrreaitais, и, выясняется, он говорит о птичках. А vicootes значит "овощи". И авторы делают выводы, что это значит, что у нейросети есть собственный язык. Вскоре, правда, выясняется, что Apoploe vesrreaitais - это не обязательно птицы, но могут быть и насекомые. См. скрин номер 2. Определённо - что-то летающее, замечают авторы и вскоре добавляют, что иногда по этому запросу генерируются другие животные. Поехали дальше. 2 кита беседуют о пище с субтитрами. См. тот же скрин 2. Один кит говорит другому: Wa ch zod ahaakes rea. И выясняется, что он толковал о морепродуктах. Ну да, это, пожалуй, сильно. Однако, авторы замечают, что выявить словарь нейросети непросто. Большинство текстов - действительно тарабарщина (случайные сочетания букв). Нигде не сообщаются данные о повторяемости "потусторонних" слов на картинках: существует ли такая? Нет статистики. "Не всегда работает". В качестве опасности эффекта авторы указывают на возможность обхода цензуры, поскольку цензура направлена на слова английского языка, а не на Apoploe vesrreaitais. ОК.

Первое, что меня настораживает: сходство словосочетаний Apoploe vesrreaitais и Contarra ccetnxniams luryca tanniounons с латинскими названиями животных. Мне это, как биологу, первым делом бросается в глаза. Слово "tanniounons" напоминает слово "таксономия", а "Wa ch zod ahaakes rea" напоминает тарабарщину, связанную с восточноазиатскими сайтами, стран, где процветает марикультура. Действительно, при введении в нейросети Dall-E-mini текста Apoploe vesrreaitais, она выдаёт изображения. Нет, не птиц, но натуралистичного стиля бабочек-медведиц. Определённо - что-то летающее. См. скрин. Следующие генерации примешивают к этой композиции немного моллюсков, но ведь ежу ясно, что речь идёт о том, что похоже на латинское название животных, а не о собственном языке Dall-E-mini. Можно ввести и Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounons. Покажет жуков. У авторов, конечно, круче, там на этот запрос птицы едят жуков.

Однако, я был бы не я, если бы не сделал точно то, чего опасаются авторы статьи в заключении к своей работе. Итак, существует нейросеть Ru Dall-E, которая тоже выдаёт тексты, представляющиеся обычно людям, как утверждают авторы статьи, тарабарщиной. Некий автор колабов, называющий себя Фармапсихотиком, на днях выпустил новый колаб с Ru Dall-E, позволяющий подгружать любую модель. Вот он: https://colab.research.google.com/github/pharmapsychotic/ai-notebooks/blob/main/pharmapsychotic_rudalle.ipynb Кандинского бесплатный колаб не потянет, сразу предупреждаю. В 10 раз тяжелее модель. Малевич, либо Сюрреализм. Увы. Я воспользовался методом, который предлагают авторы статьи и взялся пытать нейросеть запросом: "Подпись под изображением лошади". Наконец, я получил таинственное слово leieioyn. См. следующий скрин (верхнюю строку). Скормим слово нейросети. Что оно означает? Сложно сказать. См. компиляцию из генераций (которые я делал по 4 штуки за раз, и эти последовательности не изменены) в фотошопе. Я их объединяю, потому что ВК не позволяет делать более 10 вложений. Примерно одно фотореалистичное женское лицо на 4 генерации, какие-то стрелки, часто - компьютеры, элементы гостиничной мебели, фрагменты курортов... Я привёл не все генерации. Разумеется, этих девушек вы нигде не загуглите: их вообразила нейросеть. Рыжая девушка, между прочим, похожа на американскую коммунистку Савви, о которой правые распространяли слухи, что, дескать её красота - продукт нейросети, запущенной коварными коммунистами (должно быть, китайскими). Иногда - дома. В общем, набор ограничен. Интересна последняя последовательность скринов: дом, женщина в редакторе, стрелка и синий квадрат. Видите, на генерации справа от слова leieioyn - что-то похожее на компьютер и стрелку? Шучу, пугаю в нетсталкер-стайл. Итак, существует некая leieioyn. Возможно, это - что-то связанное с гавайскими цветочными венками lei (слово гугл-переводчик определяет как написанное на гавайском языке). Но курорты почему-то порой - с камышами, совсем как на Волге... Что-то, похожее на лодки... Официальная модель Ru Dall-E генерирует по этому запросу женские лица (см. пример единичной генерации). А Latent diffusion - портреты пожилых женщин (см. пример из 4-х генераций). При убавлении в слове leieioyn буквы n, Latent Diffusion начинает генерировать пожилых мужиков. При добавлении к слову leieioyn ещё одного слога ei, Latent Diffusion начинает обвинять в попытке создать запрещённый контент, а Ru Dall-E - генерировать разнородные изображения. И вот, нейросеть посылает мне сердечко и таинственную фразу: литьегя пк а иiе бнеоь.s что, как выясняется, означает "литой диск". См. компиляцию. Так же понимает фразу литьегя пк а иiе бнеоь.s официальная модель Ru Dall-E. Однако, следует отметить, что литые диски нейросеть генерирует уже при появлении буквосочетания "лить". Добавление слов только усиливает сходство литых дисков с изображениями на рекламных лотках. При этом словосочетание "литой диск" релевантно словосочетанию литьегя пк а иiе бнеоь.s ЛИ+Т-Т со следующей картинки, однако. Убавление слова в словосочетании уменьшает релевантность, однако если заменить букву s после точки на о, по крайней мере, на малой статистике потеря релевантности незаметна. Что я понимаю под потерей релевантности - см. 3 строку компиляции. Это - всё ещё литые диски, но... Думаю, большую роль играет точка и буква после неё в последнем слове: это похоже на наименования моделей литых дисков в рекламных лотках. Не следует забывать, что нейросеть учится понимать соотношение между текстом и картинкой через интернет.

Так что же делать с таинственной leieioyn? Неужели, для открытия учёных из Техасского Университета нет никакого применения? Практика - критерий истины, - учит марксизм. Если ты можешь применить это на практике, ты можешь, как писал Фридрих Энгельс, превратить вещи в себе в вещи для нас, и это будет иметь значение, ибо объективное по Марксу есть социальное. Мы можем обойти цензуру, которая сформирована человечеством и влияет на работу нейросетей. Именно то, чего опасаются авторы исследования. Эту цензуру создал не Сбербанк и не русские учёные. Русская нейросеть на сегодня - самая демократичная в мире. Ей не известно запрета на политику, как китайским нейросетям, ей не известно запрета на эротику, как свойственно американским. Цензура проистекает из самого человечества. Это называется на языке нейросетевиков "предвзятость". Нейросеть учится на изображениях в интернете и получает о них представление, согласно тому, как цензурируют изображения пользователи многих стран. Статистика выливается в баге. Поэтому она рисует обнажёнку с багами. Не стоит просить у нейросети рисовать обнажённую девушку, или обнажённую женщину. Попросите нарисовать обнажённую leieioyn. Достаточное количество генераций, и вы получите leieioyn практически в фотореалистическом виде. См. генерацию. Это - Малевич, обновлённая версия.

И на прощание - самая таинственная генерация, выдаваемая Ru Dall-E при исключении из слова leieioyn буквы n. Что значит BOG, что значит чёртик, убегающий от НЛО? Кто видел аниме-сериал "Эксперименты Лейн" (строго 18+), философско-фантастический фильм в жанре постмодернизма о проникновении виртуальной реальности в IRL через воплощённую богиню Лейн, самозародившуюся в Сети, тот поймёт картинку. Ладно, я шучу. Нетсталкер стайл. Слушайте "Розу пустыни" Стинга: "Леи-лей, олей-олей!"

Что же касается статьи, авторам следовало бы представить подробную статистику и указать: возникали ли повторяющиеся фразы на тарабарском на картинках при работе нейросети. Иначе я могу написать то, что написал тут, и это будет иметь равный научный вес "сенсационной" статье. На каком основании они предполагают собственный язык нейросети, вместо бага?


Источник: colab.research.google.com

Комментарии: