Поэзия ошибок «Google Переводчика»

2018-12-20 11:00

новости нейронных сетей, Творчество ИИ, проблемы машинного перевода, Теория хаоса

«Сердцебиение всадника — самая дальняя точка лошади»

Уже больше года молодой писатель и SMM-щик Роман Трунин вводит в сервис «Google Переводчика» бессвязные наборы символов, вроде «эээ эээ ааа ээээа», а на выходе получает глубокие поэтические образы вроде «Сердцебиение всадника — самая дальняя точка лошади» или «Звук волн — это тень ветра». Никто точно не знает, как это происходит, Google комментариев не дает — строчки генерируются буквально из ниоткуда. Трунин вместе с энтузиастами стал коллекционировать смешные и интересные артефакты в проекте Neural Machine — часто они пропитаны мистикой и смертью, иногда — извращениями и пророчествами об Израиле. Некоторые строчки объединяют в поэмы или даже визуализируют с помощью других нейросетей. В Twitter на проект уже подписаны 33 тысячи человек, среди которых — Алексей Навальный и певица Елка. The Village выяснил у Трунина, как рождается glitch-poetry искусственного интеллекта и в чем вообще подвох.

Neural Machine

Сейчас автор проекта заявляет, что начал российский тренд не он: кто-то выложил в ленту скриншот, где сервис Google перевел «ааааааааааааааааа» с монгольского на русский как «все в порядке». Роман Трунин же решил развить метод, и следующим экспериментом стало повторение на монгольском буквы «Э»: каждая добавляемая буква кардинально меняла результат, приходя в итоге к пугающему «монстр монстр монстр монстр» — что само по себе выглядело как перформанс.

Трунин стал пробовать вбивать разные бессвязные хаотические наборы символов на других языках — и у многих находилась своя специфика, если баг срабатывал: «Монгольский оказался очень сумеречный, с воинственно-племенной риторикой. Люксембургский застревает на фетишизации львов, орлов, сундуков, скал, местами очень похоже на библейские пророчества про зверя, выходящего из моря. Монгольский лучше всего реагирует на гласные, а таджикский и люксембургский совершенно всеядные».

Запустив проект в соцсетях, Трунин позвал других пользователей точно также перебирать запросы в переводчик и публиковать их в группу. Оказалось, что самыми популярными становятся простые фразы, с которыми люди могут себя ассоциировать: «Они видят, что коллективное бессознательное нейросети так же страдает, так же терзается внутренними демонами. Я проверяю всю выдачу на реальные цитаты (то есть можно ли в интернете найти исходник перевода. — Прим. ред.) и никогда не нахожу стопроцентного совпадения. Я просто ввожу случайные комбинации букв и слежу за результатами. Если вижу какую-то интересную тему, начинаю бережнее модулировать [сочетания символов]».

**«Пенис — очень хороший источник мяса»**

**«Я одинокий человек с убитым яблочным капучино»**

**«Распухшие вегетарианцы могут быть волчьими червями»**

**«Гавайский — часы судного дня dogdogdog»**

**«Если вы не простили себя, вы, возможно, потеряли свою собственную жизнь»**

**«Постельное белье Дамблдора свалилось в спальню»**

**«Проклятая женщина носила вихрь в горле тела»**

Трунин занимается литературой, поэтому он стал извлекать из «Google Переводчика» точно таким же методом не просто мемы, но и целые моностихи: «Они похожи на грегерии (или хокку. — Прим. ред.) по жанровой природе, только еще более неочевидные. Среди моих самых любимых моностихов нейромашины есть, например, такие:

«Утренний снимок
спящего кота,
мягко почесывающего
шарфы заката»

«Нет записей, где орел находится,
когда выпадает снег,
а снег падает
на крылья орла на горизонте»

«Сердцебиение —
одна из самых популярных песен в мире»

«Я проснулся и заплакал,
я засмеялся и проснулся»

«Неостановленные бедра
в темной ткани,
белые,
как груди бесшовного моря»

«Генератор противоположного пола
в качестве блендера
для удаления клубничного остатка
распадающейся матрицы выдумки»

Создавать более сложные и длинные «поэмы» предложил digital-художник Сергей Егоров. Он написал несколько скриптов и автоматизировал процесс перебора сочетаний букв, которые давали осмысленный результат от «Google Переводчика», а затем собирал строчки по тематическим категориям. Уже после вручную из этих строчек собирались «поэмы», которые вновь «прогонялись» через переводчик. Трунин считает, что избежать ручного вмешательства на данный момент баг Google не позволяет. Всего в альбоме Егорова сейчас чуть больше 20 «поэм».

«Я бы не искал в этом какой-то мистики, хотя я не знаю, в каких религиозных книгах есть фразы вроде «я убью тебя» или «я трахаю мальчика десяти лет», очень мрачные вещи возникают порой, — объясняет Роман Трунин. — Темы конца света или что-то сатанинское я уже даже не фиксирую, там этого слишком много. С другой стороны, попадается много и просто разговорных бытовых фраз вроде «пойдем спать», там и признания в любви, иногда порно-описания и даже просто названия интерфейса, кнопок типа «вход регистрация вы здесь главная», ссылки, адреса электронной почты («Google Переводчик» действительно иногда выдает неизвестные контактные данные в ответ на обычные бессвязные словосочетания; особым мемом в сообществе Neural Machine даже стал адрес «Ижевск, ул. Ленина, 18». — Прим. ред.).

Откройте приложение Google Translate на телефоне или зайдите на стандартный сайт https://translate.google.com/

Выберите необычный язык ввода, например монгольский (еще можно таджикский, кхмерский, люксембургский и другие), и язык перевода — русский.

Наберите во вводе несколько раз одну гласную, например «о», или согласную, например «ч», иногда беспорядочно разделяя ее пробелом.

После четвертого или пятого такого сочетания с пробелами в результате перевода появится хаотическая фраза. В нашем случае по «ооо ооо оо ооо ооо ооооо» выдало: «У вас есть кокосовое молоко?», а по «ччч чч чччч чч ч ч чччччч ч ч чч»: «Даже если вы вассист, вы все равно можете быть авангардом».

Продолжайте экспериментировать с разными гласными, сочетаниями символов, пробелов — и наслаждайтесь.

Причина, конечно, в нейросетях, которые внедряют повсюду уже пять лет. С марта 2017 года «Google Переводчик» тоже использует в своей работе сложный механизм «рекуррентных нейронных сетей»: на практике это значит, что переводчик смотрит не только на отдельное слово, но и на фразу, предложение или даже весь абзац, количество символов — то есть учитывает «контекст» и еще множество других, известных только ему, параметров, прежде чем выдать вариант перевода.

Сами разработчики сервиса официально никогда не комментировали артефакты, которые появляются при вводе бессмысленных наборов букв (из российских медиа без ответа остались запросы The Village и TJournal). Но в марте 2017 года глава команды «Google Переводчика» Барак Туровски объяснял «Медузе», что из-за сложности устройства нейросети причину возникновения той или иной ошибки перевода не всегда вообще можно отследить — механизм больше похож на самообучающийся «черный ящик». Тем не менее для «обучения» нужен массив данных для тренировки (об этом свойстве нейросетей мы рассказывали в гиде по распознаванию лиц). У текстовой информации такие массивы называют «корпусами текстов». Для сбора корпусов на «редких» языках вроде казахского Google с 2014 года использует помощь добровольцев — Google Translate Community. Возможно, именно этим объясняется странный и «драматичный» интуитивный перевод с «монгольского» или «таджикского» — просто именно такие тексты добровольцы могли загружать для аналитики.

Издание TJournal отследило, как параллельно слава об этом артефакте переводчика распространялась и на западных имиджбордах: загадочные результаты появлялись при переводе на английский, например, тайских и корейских символов. Лингвист Марк Либерман также связал это с особенностью архитектуры рекуррентных нейронных сетей — в качестве примера он привел перевод символов «??», которые повторил 25 раз, каждый раз добавляя по одной копии знаков в строку. В результате у него получилось стихотворение, похожее на работы американской поэтессы Гертруды Стайн.

Бывший инженер Google по машинному обучению Дмитрий Гензель в 2017 году высказал мнение о баге на портале Quora. Тогда пользователи удивлялись, почему, если вводить в переводчик многократно повторенное «pe pe pe», он «выдает странные вещи про Израиль».

research scientist at Google (2005–2016)

«...Грубо говоря, он [механизм нейросети] берет фразу на одном языке и помещает ее в какое-то „множество понятий“, а затем пытается подобрать близкие к этому множеству понятия на другом языке.

Но что происходит, если вы вставляете в переводчик белиберду? Он все так же пытается ее куда-то поместить, только теперь это множество понятий случайное. И когда переводчик ищет подходящее к этому „случайному“, вы можете получить что угодно. Ведь сервис изначально предполагает, что введенные вами данные должны иметь хоть какой-то смысл, поэтому он и продолжает искать его дальше и перебирает все возможные варианты. Он не хочет отдавать вам обратно белиберду, поэтому стремится выдать хотя бы просто законченное предложение».

Пользователи соцсетей часто тревожно реагируют на проявления бага — он кажется им свидетельством уже существующего искусственного интеллекта. Трунин считает иначе: «По-моему, Google перешагнул и создал искусственное безумие. Ведь это психическое расстройство, когда ты на основе вторичных данных получаешь несуществующие образы, а затем неосознанно достраиваешь информацию, получая искаженный результат. „Google Переводчик“ оказывается также склонным к шизофазии и неологизмам, он также видит в случайных буквах что-то отдаленно напоминающее ему знакомые данные. Это аналог человеческого явления „парейдолии“ — когда видишь рожицы в текстуре обоев на стене или сфинкса на Марсе. Мы увидели, каковы будут галлюцинации роботов».

Трунин уже выпустил повесть «Маяк» и цикл «генеративной поэзии» из комбинированных текстов. В будущем он планирует сделать полноценный сборник стихов в соавторстве с «Google Переводчиком». В какой-то момент он пошел еще дальше в экспериментах с «вторичностью» и решил действительно визуализировать фантазии нейросети с помощью другой нейросети — AttnGAN и сервиса Text-to-Image нью-йоркского программиста Кристобаля Валенсуэлы. База фотографий довольно маленькая, поэтому все изображения вышли в похожей цветовой гамме, но образы, сгенерированные одной нейромашиной («Google Переводчиком») b воссозданые другая нейромашиной (AttnGAN), все равно получаются интуитивно понятны.

О том, что «баг» могут в какой-то момент закрыть, Трунин не переживает: «Скорей бы, я тогда буду свободен! Там ведь много мусора, на 100–200 результатов перебором получается, может, один, который я запощу в твиттере. Иногда уходишь ни с чем спустя час-два лингвистического майнинга, как я это в шутку называю. Я очень разборчив. На самом деле, я убежден, что всегда смогу найти лазейку. Это ведь не какая-то ошибка: Google получил именно то, что и хотел, переводчик с нейросетью стал работать лучше. А когда-то искали лекарство для сердца — и создали виагру».

Телеграм: t.me/ainewsline

Источник: www.the-village.ru

Ян Дененберг, 2018-12-21 23:20:51
Обычно я на Гугл не полагаюсь, особенно после того, как он выдал вот такой перл: «...владел электрическим магазином и французской матерью».

Lex, 2018-12-22 11:24:56
Да, Яндекс лучше переводит

Поэзия ошибок «Google Переводчика» — в проекте Neural Machine

Комментарии: