Machine Learning: State of the art

МЕНЮ


Новости ИИ
Поиск

ТЕМЫ


Внедрение ИИНовости ИИРобототехника, БПЛАТрансгуманизмЛингвистика, обработка текстаБиология, теория эволюцииВиртулаьная и дополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информации

АРХИВ


Сентябрь 2017
Август 2017
Июль 2017
Июнь 2017
Май 2017
Апрель 2017
Март 2017
Февраль 2017
Январь 2017
Декабрь 2016
Ноябрь 2016
Октябрь 2016
Сентябрь 2016
Август 2016
Июль 2016
Июнь 2016
Май 2016
Апрель 2016
Март 2016
Февраль 2016
Январь 2016
0000

RSS


RSS новости
Ураган харви в США

Новостная лента форума ailab.ru

В 2015 году в мир искусства вошло новое слово: «инцепционизм» (inceptionism). Машины научились перерисовывать картины, а уже в 2016 Prisma скачали миллионы людей. Сегодня мы поговорим об искусстве, машинном обучении и искусственном интеллекте с Иваном Ямщиковым, автором нашумевшей «Нейронной Обороны».

Знакомьтесь: Иван Ямщиков. Получил PhD по прикладной математике в Бранденбургском Технологическом университете (Котбус, Германия). На данный момент — научный сотрудник Института Макса Планка (Лейпциг, Германия) и аналитик/консультант Яндекса.

— Neurona, Нейронная оборона и Пианола — как началось столь серьезное увлечение творческим ИИ? В какой момент Вы решили действительно всерьез заниматься этой темой?

Иван Ямщиков:
Я бы не стал называть это серьезным увлечением творческим искусственным интеллектом. Просто однажды Алексей Тихонов поделился своими идеями по нейро-поэту, и летом 2016 мы вместе решили записать альбом «Нейронной обороны». С тех пор стало понятно, что область существенно шире, и сейчас я занимаюсь темой искусственного интеллекта на постоянной основе.

Это невероятно интересная тема и именно сейчас она находится в движении: в истории ИИ было несколько «зим», периодов разочарования от неоправданных и завышенных ожиданий; сейчас уже третий период чрезвычайного интереса к ИИ и, возможно, что мы скоро вновь столкнемся со схожей проблемой. Несмотря на это, есть действительно качественный скачок в работе многих систем: машинный перевод, системы агрегации, автономные системы.

— Идея совместить матмодели и музыку/живопись не нова, но почему подход выстрелил именно сейчас?

Иван Ямщиков: Это, пожалуй, одна из моих любимых тем: когда в 90-е годы вы играли в шутеры, вы неосознанно помогали развитию ИИ.

Видеокарты (GPU) апргейдились для развития графических интерфейсов и игр, но в какой-то момент люди разобрались, что их можно использовать для параллельных вычислений, появилась CUDA. Изначально, в научной сфере в гидрогазодинамике, где ряд моделей можно хорошо обсчитывать на графической карте, подобный расчет на CPU вышел бы в несколько раз дороже. А через несколько лет выяснилось, что нейронные сети тоже отлично параллелизуются и обучаются с использованием графических карт. И этот бум развития научных вычислений позволил создавать нейронные сети таких размеров, которые раньше были недоступны.

Определенную роль также сыграли облачные вычисления: сейчас даже не обязательно покупать GPU, его можно взять в аренду; таким же образом можно арендовать нужное количество CPU. Это снизило порог вхождения, а в технологиях всегда так: когда порог ниже — результаты появляются существенно быстрее.

Что касается живописи, ключевая статья здесь — Neural Artistic Style, написанная исследователями из Тюбингена. В результате экспериментов выяснилось, что на одном из слоев нейронной сети собрались признаки, отвечающие за стиль (как нарисовано), а на другом — за семантику (что находится — содержание). Из этой статьи родилось известное приложение Prisma.

А мы решили заниматься музыкой, потому что любим литературу и поэзию. А Егора Летова выбрали, потому что любим его и нам хотелось попробовать сымитировать его стиль. В общем, это исключительно эстетические предпочтения.

В целом, работа с музыкой куда более прагматичная, чем с текстом: когда ты работаешь со словарем, то в основе его лежит one-hot encoding (все слова нумеруются, и i-ое слово — это вектор, где на i-ой позиции стоит 1, а не всех остальных — 0). После обработки набора документов получается пространство очень большой размерности. Далее размерность искусственно снижается с помощью ряда методов, например, word2vec (https://ru.wikipedia.org/wiki/Word2vec; https://habrahabr.ru/post/249215/).

Так или иначе, мы говорим о пространстве размерности в несколько сотен, а не трех- или четырехмерном. Обычно с пространством такой размерности тяжело работать: одни области имеют высокую плотность данных, а другие, наоборот, слишком разреженные — структура получатся очень сложной. А если мы говорим о музыке и берем ноты, то каждая нота — это комбинация октавы и ноты; 12 нот (с диезами/бемолями) в октаве и 4-5 октав. И с этой точки зрения у этого пространства куда более низкая размерность.

А если подходить к мелодии в целом, можно отмасштабировать данные так, что пространство параметров будет плотным: будет мало лакун. Когда мы экспериментировали с нейросетями для разных типов данных, мы обнаружили, что указанное свойство музыки позволяет лучше и быстрее понимать, работает вообще обучаемая модель или нет, так что это было прагматичным решением.

— С чего лучше всего начать техническому человеку знакомство с творческим ИИ, есть по этой теме хорошие ресурсы, курсы, лекции?

Иван Ямщиков: Будем есть слона по частям. Первое, нейронные сети != искусственный интеллект. С другой стороны, НС — одна из самых популярных тем, и по ней доступно достаточно много материалов. По ИИ и машинному обучению курсы и материалы тоже есть. Перечислим основные, русскоязычные: совместный курс Вышки и Яндекса, курс Воронцова по машинному обучению, курс Ветрова по байесовым методам, курс Лемпицкого по глубокому обучению, англоязычные: курсы на Udacity (в том числе и по TensorFlow), на Coursera.

Курсов по творческому ИИ как таковому еще нет — сама тема лежит на пересечении науки и искусства; и большинство вопросов тут, на стыке, открытые.

Что действительно рекомендую посмотреть и на что потратить время — так это на курсы по машинному обучению (cм. выше), в том числе и глубокому.

— Многие говорят, что современные методы машинного обучения всего лишь копируют куски из уже созданных произведений и комбинируют их согласно найденным канонам, было ли что-то такое, что действительно удивило Вас в произведениях, созданных ИИ?

Иван Ямщиков: В целом это, конечно, разумная и оправданная критика, но у меня на нее есть два контраргумента: технический и философский.

Начнем с технического. Раньше мы не умели и этого — а теперь научились. И то, что мы сейчас можем технически создать такие штуки — уже прорыв. Может быть, не с точки зрения искусствоведения, но с чисто технической — точно.

С философской стороны: постмодернист делает то же самое. И если мы живем в эпоху постмодернизма, то фактически любой автор в некотором смысле копирует, имитирует или вдохновляется опытом. И в целом, если рассмотреть проблему обучения (конечно, не для всего есть полностью формализованный мат. аппарат), то это преобразование потока информации в знания. А знания — это отфильтрованная,  организованная и ранжированная определенным образом информация. И если посмотреть глубже, то в основе любого обучения, в том числе и человеческого, лежит опыт, скомбинированный и преобразованный. И кажется, что получилось что-то новое, но в реальности оно вытекает из комбинации опыта, полученного ранее.

Что касается удививших вещей. У меня есть любимая строчка из Нейроны (Neurona): «The God who’s always welcome to Iraq» (Бог, которому всегда рады в Ираке) — совершенно неожиданная строчка.

Есть в психологии такой термин: апофения — способность находить закономерности там, где их нет. В этом смысле творчество машин сейчас, конечно, апеллирует к апофении: чем сильнее в человеке это свойство, тем интереснее ему машинное творчество.

— Продолжая предыдущий вопрос: в матче AlphaGo vs. Le Sedol AlphaGo сыграла на 5-ой линии — ход, который бы ни один человек не сделал (что вызвало бурю в ГО сообществе) — какие есть примеры в созданных произведениях чего-то явно не присущего человеческому стилю?

Иван Ямщиков: Человеку доступен огромный массив данных: тактильные и вкусовые ощущения, запахи, и многие другие. И это огромный опыт, доступный человеку, в некотором смысле определяет сознание. У машин такого объема нет и, соответственно, их бытие куда менее разнообразное и интересное, чем у человека. Как результат тексты, написанные машиной, радикально отличаются от написанных человеком.

Фундаментальные вопросы здесь: поняли ли мы принцип, по-которому человек создает тексты. И тут в научном сообществе нет однозначного и четкого ответа. Задача о генерации дискретных последовательностей, будь то текст или музыка, — это открытый вопрос, на самой границе научного знания, и над ним бьются сейчас разные люди по всему миру.

— Ряд технических экспертов называет одной из проблем оценки работы творческого ИИ отсутствие объективных критериев качества работы: а как вообще люди оценивают качество сгенерированной музыки и нарисованных с помощью нейросетей картин?

Иван Ямщиков:
Мне очень нравится этот вопрос, и если у вас есть идеи — приходите, вместе напишем статью. Я не шучу.

Сейчас рабочий критерий проверки качества основан на коллективной оценке людьми. Нейронную оборону прослушали 400 тысяч человек в первую неделю, и на основе распределения оценок и комментариев можно оценить, сильно ли это понравилось людям и насколько похожим это получилось.

Если говорить подробнее, то технически можно рассмотреть два случая: обучение с учителем и без. В первом случае у нас есть ответы — размеченные людьми или проверенные ранее, на которые алгоритм пытается ориентироваться, а во втором их нет. Если ответы есть, то для каждой конкретной задачи можно ввести некоторую метрику похожести на ответ и объективно измерить, что же получилось. А если их нет, то совершенно неочевидно, как такую метрику вводить.

— Чрезвычайно интересно, как именно были сгенерированы тексты Нейронной обороны? Можно ли интуитивно рассказать о мат. аппарате генератора?

Иван Ямщиков:
Сотрудник Яндекса Юрий Зеленков разработал ряд поэтических эвристик, оценивающих ритм и рифму в русском языке. Мы использовали комбинацию этих эвристик и LSTM-сеть (Long Short Term Memory: https://habrahabr.ru/company/wunderfund/blog/331310/), которая прочитала массив русской поэзии: ей подавалась пара <стихи, автор>, причем в массиве данных была вся русская поэззия, которую мы могли найти, то есть условно от Пушкина и до наших дней, включая русский рок и эстраду. Однако даже этого количества данных было недостаточно, и мы давали машине читать каждый текст в случайном порядке — так, чтобы каждое стихотворение было прочитано раз 10. Это позволило существенно увеличить объем данных и значительно повысило качество.

Дальше на вход подаем автора и говорим: «Давай как этот автор». И мы подали на вход Егора Летова. Подробнее я расскажу об этом на конференции SmartData 2017, где раскрою много деталей.

Когда мы генерировали английские тексты для Neurona, поэтические эвристики уже не использовали. Леша Тихонов предложил включить в латентное пространство признаков, которое формируется внутри нейросети, фонетику слов, и алгоритм сам «понял», что можно рифмовать и как.

— ИИ уже играет в покер и ГО, перерисовывает картины и видео, пишет музыку и стихи: что же дальше? Какая следующая непокоренная вершина для творческого ИИ?

Иван Ямщиков: Уже есть и короткометражка, снятая по сюжету, созданному RNN. К сожалению, она довольно посредственная. Люди пока еще не умеют «объяснять» нейросети концепцию сюжета.

А вот с точки красивых приложений все ограничивается фантазией автора. Сейчас мне кажется наиболее перспективной возможность интерактива с сетью, то есть создания объектов, взаимодействующих со зрителем/слушателем.

В некотором смысле компьютерные игры — искусство будущего. Находясь в игре, ты проживаешь историю по-разному, т.е. опыт индивидуален. Подобная интерактивность в искусстве — это следующий шаг.

Например, когда ты слушаешь музыку, а она звучит как живой концерт и с певцом/группой/музыкой можно взаимодействовать. Простой пример: Яндекс.Музыка или Spotify могут подстраивать ритм и музыку под настроение или специально подбирать треки для, к примеру, занятия спортом.

Если вспомнить живые фотографии от Apple — это, по сути, несколько вариантов кадра. Соответственно, можно предположить, что когда музыкант будет записывать альбом, он в некоторым смысле запишет несколько версий или вариаций композиции в некоторых границах. И тогда трек сможет подстраиваться под настроение слушателя, ориентируясь на какие-то внешние данные.  Аналогия здесь довольно простая — если сесть с друзьями и исполнить песню под гитару, то в зависимости от настроения одна и та же песня выйдет по-разному, но это будет одна и та же песня. Я уверен, что что-то похожее можно уже сейчас реализовать технологически и в музыке.

— Сейчас одна из самых популярных тем для обсуждения — это работа в паре машина + человек, такие игры проводятся на шахматных и ГО турнирах. Есть ли какие-то интересные примеры работы в паре человек + машина в искусстве?

Иван Ямщиков: В целом, это уже происходит: человек уже создает музыку на компьютере. Периодически обсуждаю эту тему с, так скажем, скептиками, которые обеспокоены тем, что роботы заменят людей, и рисуют апокалиптические сценарии. Я пытаюсь всех успокоить и привожу вот такой аргумент. Обычно мы создаем машину, чтобы делать то, что мы делаем плохо. Когда нужно создать машину, которая хорошо копает землю, мы создаем не огромного человека с лопатой, а экскаватор, который копает землю куда лучше, чем этот огромный человек.

Есть такая когнитивная ловушка: когда мы говорим про искусственный интеллект, мы думаем, что он будет похож на человеческий — то есть как наш, только больше!

К примеру, когда в начале XIX века фантасты пытались придумать будущее, в нем был гигантский дирижабль, а не самолет. В целом, человек легко предугадывает количественные изменения, но с трудом может представить себе качественные. Несложно вообразить, что все будет быстрее, дешевле, больше (меньше)... А вот скачки технологий предугадываются плохо. И мне кажется, что то же самое происходит сейчас с искусственным интеллектом.

Но качественный (а не только количественный) прорыв уже сейчас происходит в приложениях и работах, связанных с понимаем того, что же человек хочет: что ищет, собирается купить. А на базе генерации текстов мы сможем сделать принципиально иные методы коммуникации с человеком. Человек сможет использовать новые инструменты по мере их появления. Например, у программиста появятся умные помощники написания кода, для художника это может быть система по подбору красок, а для композитора — система, дающая вдохновение и помогающая правильно передать эмоции в произведении.


Если темы машинного обучения вам близки так же, как и нам, хотим обратить ваше внимание на ряд ключевых докладов на грядущей конференции SmartData 2017, которая пройдет 21 октября в Санкт-Петербурге:


Источник: habrahabr.ru