Великое пробуждение искусственного интеллекта |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2017-02-06 23:03 искусственный интеллект, ИТ-гиганты, угроза искусственного интеллекта Издание The New York Times Magazine опубликовало статью, в которой рассказывается, как «Google Переводчик» научился переводить почти как человек, что такое искусственный интеллект и при чем тут кошки и «Китайская комната». Редакция vc.ru публикует перевод статьи, выполненный создателем сообщества Newoчём Артёмом Слободчиковым. Пролог: Ты — то, что ты читаешь Однажды поздней пятничной ночью в начале ноября Юн Рекимото, известный профессор в сфере взаимодействия человека с компьютером из Токийского университета, искал в сети материалы для лекции, как вдруг он заметил, что в социальных сетях стали появляться интересные публикации. Судя по всему, «Google Переводчик», популярный сервис машинного перевода, внезапно и практически неизмеримо улучшился. Рекимото сам зашел на сайт переводчика и начал экспериментировать. Он был поражен. Давно пора было идти спать, но «Переводчик» крепко вцепился в его воображение. Свои изыскания Рекимото описал в блоге. Сначала он взял несколько предложений из двух опубликованных версий «Великого Гэтсби», перевода Такаши Нозаки от 1957 года и более позднего варианта Харуки Мураками, и сравнил их с тем, как эти же предложения обработал «Google Переводчик». Как потом объяснил мне в переписке Рекимото, перевод Мураками написан «на очень четком японском языке», но стиль у писателя всё равно достаточно сложный. Вариант Google, напротив, хоть и содержал некоторые «неестественные места», в целом был «более понятным». Во второй половине поста Рекимото описывались способности сервиса в обратном переводе — с японского на английский. Профессор взял собственный перевод первого абзаца из «Снегов Килиманджаро» Хемингуэя, пропустил его через «Google Переводчик» и на выходе получил версию на английском. Рядом с ней он опубликовал оригинал Хемингуэя и предложил своим читателям угадать, какой из вариантов создала машина.
Перевод на русский ( Килиманджаро — покрытый вечными снегами горный массив высотой в 19710 футов, как говорят, высшая точка Африки. Племя масаи называет его западный пик Даже для носителя языка второй вариант выдаст только отсутствующий артикль про леопарда — именно эту версию создала машина. То, насколько эти два абзаца похожи, удивило Рекимото, прекрасно осведомленного о возможностях предыдущей версии сервиса. Всего за сутки до этого Google Translate перевел бы тот же самый фрагмент следующим образом: Kilimanjaro is 19,710 feet of the mountain covered with snow, and it is said that the highest mountain in Africa. Top of the west, «Ngaje Ngai» in the Maasai language, has been referred to as the house of God. The top close to the west, there is a dry, frozen carcass of a leopard. Whether the leopard had what the demand at that altitude, there is no that nobody explained.( здесь очень много ошибок, начиная от в корне неверного словоупотребления и заканчивая ошибочными конструкциями — прим. переводчика). Рекимото поделился своим открытием с сотней тысяч своих подписчиков в Twitter, и в течение нескольких часов люди публиковали собственные эксперименты с сервисом машинного перевода. Одни оказались успешными, другие же, наоборот, смешными. Когда над Токио встало солнце, «Google Переводчик» стал трендом № 1 в японском сегменте Twitter, обойдя культовое аниме и долгожданный сингл от девичьей группы. Чуть ли не каждый задавался вопросом: как «Google Переводчик» стал настолько искусным? Четыре дня спустя несколько сотен журналистов, предпринимателей и рекламщиков со всех концов света собрались в лондонском офисе разработки Google, чтобы прослушать особое заявление. На входе гостей ждало печенье с предсказаниями с символикой «Google Переводчика». На одной стороне бумажки была фраза на иностранном языке — в моем случае, на норвежском, — а на другой предложение скачать приложение «Переводчика». Столы были заставлены пончиками и смузи, при этом на каждом была этикетка с названием вкуса на немецком (zitrone), португальском (baunilha) или испанском (manzana). Спустя некоторое время всех попросили пройти в большой затемненный зал. Сундар Пичаи, генеральный директор Google, рядом с его кабинетом в Мэр Лондона Садик Хан вышел на сцену, чтобы произнести открывающую речь. Он начал вот с чего: друг недавно сравнил Садика с Google. «Это потому что у меня есть ответы на все вопросы?» — спросил мэр. «Нет, потому что ты всегда пытаешься закончить мои предложения», — ответил друг. Толпа вежливо посмеялась. В конце Хан пригласил на сцену генерального директора Google Сундара Пичаи. Пичаи приехал в Лондон по двум причинам: чтобы открыть здесь новое здание Google, краеугольный камень нового строящегося «квартала знаний» на Как несколько раз говорил Пичаи, в будущем Google «на первое место поставит ИИ». Теоретическое значение этих слов было сложно понять, так что пошли толки. На практике же это значило, что, если компании будет сопутствовать удача, скоро продукты Google перестанут быть результатом традиционного программирования — в их основу будет положено «машинное обучение». Google Brain, особый отдел компании, был создан пять лет назад с таким руководящим принципом: искусственные нейросети, которые познают мир методом проб и ошибок как младенцы, в результате могут выработать у себя гибкость, присущую людям. Эта идея не нова — первые ее варианты появились еще в 1940 году, на заре современных вычислительных машин, — но на протяжении большей части истории почти все специалисты по вычислительным машинам считали ее весьма сомнительной, даже мифической. Но с 2011 года Google Brain продемонстрировал, что его подход к изучению искусственного интеллекта может решить многие проблемы, которые не поддаются обычным методам. Распознавание речи работало так себе, пока Brain не занялся им вплотную — благодаря машинному обучению, распознавание речи на Android, мобильной платформе Google, едва не сравнилось с человеческим. То же самое произошло с распознаванием изображений. Менее года назад Brain впервые полностью пересобрал потребительский продукт, и в тот вечер мы праздновали его моментальный успех. «Переводчик» появился в 2006 году и с тех пор стал одним из самых надежных и популярных активов Google; в месяц им пользуются более 500 миллионов человек, которые каждый день ищут перевод для 140 миллиардов слов на разных языках. Он существует не только как отдельное приложение — «Переводчик» интегрирован в Gmail, Chrome и многие другие продукты Google, где мы воспринимаем его как нечто само собой разумеющееся, отлаженную, естественную часть цифрового мира. Как объяснил До сегодняшнего дня. В прошлые выходные «Переводчик» изменился: теперь большей частью его трафика занималась система, основанная на ИИ, причем не только в США, но и в Евразии. Обновление затронуло перевод между английским и испанским, французским, португальским, немецким, китайским, японским, корейским и турецким. Остальные из примерно сотни языков «Переводчика» были на подходе, по плану их должны были добавлять по восемь в месяц до конца года. К приятному удивлению инженеров Google, новую инкарнацию сервиса удалось закончить за девять месяцев. Система с ИИ за вечер достигала улучшений, на которые старой версии понадобилась вся ее жизнь. Пичаи любит странные отсылки к литературе. Месяц назад он в своем офисе в Ухмыляясь, Пинчаи прочитал неуклюжий перевод этой фразы на английский, сделанный старой версией «Переводчика»: «One is not what is for what he writes, but for what he has read» («Одним из них является не то, что за то, что он пишет, но за то, что он прочитал»).
Ремарка была подходящая: новый «Google Переводчик» работал на первых машинах, которые в определенном смысле научились читать. Решение Google о реорганизации вокруг ИИ было первым крупным проявлением одержимости машинным обучением, которая охватила всю индустрию. За последние четыре года крупные компании — Google, Facebook, Apple, Amazon, Microsoft и китайская фирма Baidu, помимо прочих, — вступили в борьбу за талантливых специалистов в сфере ИИ, особенно заметную в университетской среде. Многие из лучших академиков ушли в корпорации за ресурсами и свободой. В Кремниевой долине притчей во языцех стало то, что Марк Цукерберг, генеральный директор Facebook, лично — по телефону и с помощью уговоров по видеочату — участвует в попытках его компании переманить лучших выпускников. Базовые семизначные зарплаты стали реальностью. Посещаемость на самых важных академических конференциях в этой сфере увеличилась чуть ли не в четыре раза. На кону не только частичная инновация в сфере, но контроль над тем, что вполне может стать совершенно новой вычислительной платформой: всепроникающим, живым искусственным интеллектом. Смысл словосочетания «искусственный интеллект» кажется очевидным, однако его всегда воспринимали В Однако едва ли Как только мы автоматизируем Когда у него есть возможность осторожно проводить границы между понятиями, Пичаи разводит в стороны ИИ в его текущем состоянии и финальный «общий искусственный интеллект». Общий искусственный интеллект не будет слепо следовать за инструкциями, вместо этого он будет наделен возможностью распознавать подтекст, интерпретировать. Он станет общим инструментом, созданным для выполнения множества целей в общем контексте. Пичаи верит, что будущее его компании зависит от этой технологии. Представим, что вы сказали Google Maps следующее: «Я еду в аэропорт, но по пути мне надо купить подарок племяннику». Более интеллектуальная версия сервиса — своего рода помощник, вроде операционной системы с голосом Скарлетт Йоханссон из фильма Спайка Джонза «Она», — будет знать то, что знает, скажем, ваш близкий друг или прыткий стажер: возраст племянника, сумму, которую вы обычно тратите на подарки детям, местонахождение открытого магазина. Но истинно интеллектуальные Google Maps также знают то, что неизвестно вашему другу, например, последние модные тенденции в детском саду племянника или, и это более важно, чего хотят пользователи сервиса. Если интеллектуальная машина сможет найти запутанные связи в данных о том, что мы делаем, она может быть вполне в состоянии экстраполировать их и выяснить, чего мы захотим в будущем, даже если мы сами этого не знаем. Новые помощники, улучшенные с помощью ИИ, — Siri от Apple, M от Facebook, Echo от Amazon, — созданы с помощью машинного обучения, причем с похожими целями. Однако корпоративные мечтания о машинном обучении не исчерпываются прозорливыми потребительскими ассистентами. Дочерняя компания Samsung, занимающаяся диагностической визуализацией, ранее в этом году заявила о том, что ее новые аппараты УЗИ могут обнаруживать рак груди. Консультанты по менеджменту из кожи вон лезут, чтобы подготовить руководителей к расширению поля применения самопрограммируемых компьютеров в производстве. AlphaGo от Deepmind, приобретение Google от 2014 года, победил гроссмейстера в древней настольной игре го, несмотря на предсказания о том, что на это понадобится еще десять лет. В своем известном эссе 1950 года Алан Тьюринг предложил тест для общего искусственного интеллекта: за пять минут обмена текстовыми сообщениями компьютер должен успешно выдать себя за человека. Как только компьютер научится быстро переключаться между двумя языками, будет заложен фундамент для машины, которая однажды «поймет» человеческий язык настолько, что сможет вести правдоподобный диалог. Сотрудники Google Brain, которые участвовали в обновлении «Переводчика», верят, что такая машина сможет служить в качестве всеохватывающего личного ассистента, наделенного общим интеллектом. Далее перед вами предстанет история того, как команда исследователей и инженеров Google — сначала В ней не нашлось места для людей, которые считают, что завтрашний мир будет радикально отличаться от сегодняшнего благодаря Здесь будет не одна, а три пересекающиеся истории, которые в итоге приведут нас к успешной метаморфозе «Google Переводчика» — история техническая, институциональная и история об эволюции идей. В технической речь пойдет о команде, ответственной за один продукт в одной компании, и о процессе того, как они улучшали, тестировали и презентовали новейшую версию старого продукта — и все за вчетверо меньший объем времени, чем они рассчитывали. Институциональная история расскажет о сотрудниках небольшой, но важной группы, занимающейся искусственным интеллектом, внутри той же компании, и о том, как их вера в старые, неподтвержденные и весьма неприятные идеи о компьютерах перевернула восприятие этой сферы во всех крупных компаниях. Героями истории об идеях станут Первая история, история о «Google Переводчике», описывает события, происходившие в Сюжет третьей истории, повести о глубоком обучении, описывающей семь десятилетий научного труда, будет прыгать через полмира от одной лаборатории к другой — из Шотландии в Швейцарию, затем в Японию, а потом надолго в Канаду — и, вполне возможно, станет еще одним шажком к переосмыслению того, как мы воспринимаем себя, существ, которые в первую очередь обладают интеллектом. Все три истории рассказывают об искусственном интеллекте. Та, что охватывает 70 лет, демонстрирует, чего мы может ожидать или хотеть от него. Пятилетняя история касается того, что он сможет делать в ближайшем будущем. А девятимесячная покажет, на что он способен прямо сейчас. В совокупности они — лишь доказательная база для общей концепции. Ведь сейчас мы находимся в самом начале пути. Часть I: Машина, которая учится Рождение мозга Джефф Дин, хотя формально он лишь старший научный сотрудник, В старшей школе и колледже Дин писал ПО для Всемирной организации здравоохранения. В Google он работает с 1999 года — Дин стал примерно В корпоративной культуре Google есть занятный артефакт под названием « Факты о Джеффе Дине», написанный в духе мемов о Чаке Норрисе: « Джефф Дин, инженер Google и предводитель Google Brain. Фото: Брайан Финке для The New York Times Однажды в начале 2011 года Дин зашел в одну из «микрокухонь» кампуса Google — это «гугловское» словечко для общих пространств для отдыха, расположенных на большинстве этажей комплекса в Ын рассказал ему о Project Marvin, внутреннем проекте (названном в честь пионера ИИ Марвина Мински), созданном недавно с его помощью, чтобы экспериментировать с «нейросетями», пластичными цифровыми решетками, отчасти основанными на архитектуре мозга. Сам Дин работал над примитивной версией этой технологии в 1990 году, когда работал в Университете Миннесоты — тогда этот метод вычислений ненадолго попал в мейнстрим. А теперь, за последние пять лет, количество академиков, работающих над нейросетями, снова начало расти и достигло нескольких десятков. Ын рассказал Дину о том, что Project Marvin, которым занималась лаборатория X (секретное подразделение Google), достиг многообещающих результатов. Дин был настолько заинтригован, что решил потратить на проект свои «двадцать процентов» — часть рабочих часов, которые каждый сотрудник Google должен тратить на программы, не входящие в его базовую рутину. Вскоре он предложил Ыну привлечь к работе над Project Marvin еще одного коллегу, разбирающегося в нейронауке — Грега Коррадо. (Коррадо немного рассказывали о ней в магистратуре, но только с исторической точки зрения. «Хорошо, что я тогда внимательно слушал», — пошутил он, когда рассказывал мне об этом.) Поздней весной они пригласили одного из лучших выпускников Ына, Куока Ле, в качестве первого интерна в проекте. Именно тогда некоторые инженеры Google начали называть Project Marvin иначе: Google Brain. С тех пор, как летом 1956 года на межинституциональной конвенции о сознании в Дартмуте родился термин «искусственный интеллект», большинство исследователей считали, что проще всего создать ИИ будет с помощью очень большой всеобъемлющей программы, которая включит в себя как законы логики, так и достаточный объем знаний о мире. Например, если бы вы захотели перевести фразу с английского на японский, вам надо было бы запрограммировать всю английскую грамматику, затем все значения слов из «Оксфордского словаря английского языка», а также всю грамматику японского языка, и только потом ввести предложение на исходном языке, чтобы получить перевод на целевой язык в виде таблицы. Как бы сказал Борхес, вы дали бы машине языковую карту целых стран. Такой подход обычно называют «символическим ИИ», — потому что его процесс познания основан на формальной логике, — или «старым добрым ИИ», но с пренебрежением. У старого доброго подхода есть две главные проблемы. Первая заключается в том, что для человека он сопряжен с ужасными временными затратами. А вторая связана с тем, что он работает только в сферах, законы которых крайне четко сформулированы, например, в математике или шахматах. Однако перевод являет собой пример сферы, в которой этот подход терпит унизительный крах, поскольку слова нельзя свести к их словарным значениям, а также потому что в языках исключений бывает не меньше, чем правил. Системы, построенные на формальной логике, склонны переводить «министра сельского хозяйства» как «жреца фермерского дела». Но в математике и шахматах такой подход работал прекрасно, и сторонники символического ИИ считали, что нет лучших сфер для демонстрации «общего интеллекта». Выше — фрагмент документального фильма 1961 года, рассказывающего о предпосылках исследований в области искусственного интеллекта. Если вы сможете запрограммировать компьютер на повторение сложных мыслительных задач вроде математических уравнений и шахмат, в конце концов вы сможете создать нечто похожее на сознание. Видео загружено на YouTube Роберто Пьераччини. Однако у такой системы есть ограничения. В восьмидесятых исследователь в сфере робототехники в Университете Карнеги — Меллон заметил, что компьютеры легко было запрограммировать делать то, на что способен взрослый, однако им были практически недоступны действия, которые легко выполняет любой ребенок, например, подержать мячик или распознать кошку. К началу девяностых, если не учитывать унизительный для человека прогресс в компьютерных шахматах, мы даже близко не подошли к общему искусственному интеллекту. Но всегда было еще одно видение ИИ, противоречащее общепринятому. Согласно ему, компьютерам стоит учиться снизу вверх (на данных), а не сверху вниз (на законах). Эта идея появилась в начале В конце концов, мозг — это лишь множество штучек под названием нейроны, которые либо передают электрический заряд свои соседям, либо нет. Важны не сами нейроны, а многообразие связей между ними. Благодаря такой структуре во всей ее простоте у мозга появились адаптивные преимущества. Мозг может работать, когда информации мало или вовсе нет, он может выдержать серьезный ущерб, не потеряв контроль, очень эффективно хранить огромные массивы знаний, выделять определенные взаимосвязи, но сохранять при этом хаотичность, чтобы справляться с двусмысленными и неопределенными данными. Не было причин не пытаться повторить эту структуру в электронном виде, и в 1943 году продемонстрировали, что цепочки из простых искусственных нейронов могут выполнять базовые логические функции. Также, в теории, они могут учиться так, как учимся мы. На протяжении жизни в зависимости от проб и ошибок определенного человека синаптические соединения между парами нейронов становятся сильнее или ослабевают. Искусственная нейросеть способна на нечто подобное, если постепенно, руководствуясь методом проб и ошибок, и под присмотром повторить цифровые взаимоотношения между искусственными нейронами. В нее не надо будет заранее закладывать жесткие правила. Вместо этого она сама будет меняться, чтобы отражать взаимосвязи в поглощаемых данных. Этот подход к искусственному интеллекту был скорее эволюционным, а не креационистским. Если вам нужен гибкий механизм, то вы выберете тот, который умеет адаптироваться к окружающей среде. Если вы хотите создать то, что умеет адаптироваться, вы не будете изначально обременять его правилами шахмат. Наоборот, стоит начать с самых базовых способностей — чувственного восприятия и управления моторикой, — надеясь, что более сложные навыки разовьются сами собой. Люди ведь не учатся понимать язык, выучивая наизусть словари и учебники по грамматике, так зачем же нам заставлять компьютеры это делать? Google Brain стал первым крупным коммерческим институтом, направленным на изучение возможностей, заложенных в такой подход к работе с ИИ. Поначалу Дин, Коррадо и Ын работали над проектом немного — для них это был скорее совместный эксперимент. Однако процесс пошел незамедлительно. За основу для архитектуры своих моделей они взяли последние теоретические принципы, а также идеи, лежащие на полке с восьмидесятых и девяностых, и использовали для их реализации ни с чем не сравнимые банки данных компании и ее огромную вычислительную инфраструктуру. Они давали сетям колоссальные объемы размеченных данных — записи голоса с корректной расшифровкой, например, — а компьютеры улучшали свои реакции, чтобы они лучше соответствовали реальному положению дел. «Та часть эволюции, когда у животных развились глаза, стала серьезным прорывом», — однажды сказал мне Дин. Он любит все преуменьшать. Мы как обычно сидели в комнате для переговоров с маркерной доской, на которой он начертил изогнутый таймлайн с множеством пометок, отражающий развитие Google Brain и его связь с переломными моментами в современной истории нейросетей. «Теперь у компьютеров есть глаза. Мы можем создать их на основе уже существующих возможностей, чтобы машины могли понимать фотографии. Роботы кардинально изменятся. Они смогут работать в незнакомой среде и над очень разнообразными проблемами». Эти способности могут показаться примитивными, но применений для них невероятно много. Джоффри Хинтон в офисе Google в Торонто. Его идеи помогли заложить основу для нейросетевого подхода к работе «Google Переводчика». Фото: Брайан Финке для The New York Times Неожиданный стажер В первый год существования Brain эксперименты по созданию машины со способностями годовалого ребенка — так выразился Дин, — шли прекрасно. Их команда по распознаванию речи поменяла часть своей старой системы на нейросеть, и в результате качество работы выросло так, как не вырастало за 20 лет. Способность системы распознавать объекты увеличилась соразмерно. Это случилось не потому, что за год люди из Brain сгенерировали кучу революционных идей. Все дело в том, что Google Значительная часть этих как отмерших, так и поныне актуальных воззрений, была либо придумана, либо отточена Хинтон хотел оставить свой пост в Университете Торонто всего на три месяца, так что по странным бюрократическим причинам его пришлось нанимать в качестве стажера. На тренингах для стажеров ориентационный лидер говорил «Во время обеденного перерыва Им надо было не только научить компьютер находить на картинке обезьяну, но и отличать паукообразную обезьяну от ревуна и бесчисленного множества пород кошек. Вскоре Google связалась с Хинтоном и его студентами и сделала им предложение. Они согласились. «Я думал, их интересует наша интеллектуальная собственность. Оказалось, что им были нужны мы», — рассказывает он. Хинтон происходит из одной из этих старых британских династий вроде Дарвинов, причудливо разбросанной по интеллектуальному пространству, член которой вне зависимости от должности обязан внести хотя бы минимальный вклад в решение небольших проблем астрономии или гидрогазодинамики. Его Этот список можно продолжать долго. Хинтон учился в Кэмбридже и Эдинбурге, затем в Университете Карнеги — Меллон, после чего оказался в Торонто, где до сих пор проводит половину своего времени. (Правительство Канады давно и щедро поддерживает его работу.) Я встретился с ним в канадском офисе Google. Его взъерошенные Хинтон работал над нейросетями еще с конца шестидесятых, когда учился в Кэмбридже. В индустрии он считается своего рода ее интеллектуальным прародителем. По большей части, когда раньше Хинтон заводил речь о машинном обучении, остальные смотрели на него так, будто он приводит аргументы в пользу гелиоцентрической системы мира или кровопускания пиявками. Люди воспринимали нейросети как уже опровергнутую глупую идею, во многом Марвин Мински, отец искусственного интеллекта в Америке, работал над нейросетями в 1954 году для диссертации, но затем его утомили раздутые обещания, которыми разбрасывался Розенблат — он в то время работал в Высшей научной школе Бронкса. (Марвин также конкурировал с ним за финансирование от Министерства обороны.) Мински вместе с коллегой из MIT опубликовал книгу, продемонстрировавшую, что есть до боли простые проблемы, которые «Перцептрон» решить не способен. Мински в своей критике «Перцептрона» коснулся только однослойных сетей — такие сети обрабатывают введенную в машину информацию только одним набором искусственных нейронов.Позже Мински стал продвигать идеи, весьма сходные с теми, на которых основывалось современное ему глубокое обучение. Но Хинтон уже тогда знал, что нейросеть сможет справиться со сложными задачами, если будет состоять из множества слоев. Самое простое описание нейросети таково: это машина, которая выдает предсказания или классификации, основываясь на ее способности находить взаимосвязи в данных. Если слой один, то вы можете найти лишь простые взаимосвязи. А когда слоев много, можно искать взаимосвязи между взаимосвязями. Возьмем, к примеру, распознавание изображений, которое основано на хитром изобретении под названием «свёрточная нейронная сеть». (Оно было описано в эпохальном научном труде 1998 года, автор которого, француз по имени Ян Лекун, после защиты докторской работал в Торонто под началом Хинтона, а сейчас возглавляет серьезную инициативу по развитию ИИ в Facebook.) Первый слой сети учится идентифицировать самый базовый визуальный объект — «грань», то есть ничего (погасший пиксель), после которого идет Это более или менее напоминает то, как мозг по кусочкам собирает информацию, поступившую в визуальную кору от фоторецепторов на радужной оболочке глаза. На каждом шаге ненужные детали отбрасываются. Если несколько граней и кругов формируют лицо, вам не особенно важно, где в визуальном поле это лицо находится; для вас важно, что это именно лицо. Видео выше — демонстрация с показа ранней версии свёрточной нейронной сети Яна Лекуна в 1993 году. К концу девяностых она обрабатывала 10–20% всех чеков в США. Большинство современных систем распознавания изображения работают на похожей технологии. Видео загружено на YouTube Яном Лекуном. Проблема с многослойными глубокими нейросетями заключалась в том, что для них метод проб и ошибок значительно усложнялся. Для одного слоя все просто. Представьте, что вы играете с ребенком и говорите ему: «Подними зеленый мячик и положи его в ящик А». После чего ребенок берет зеленый мячик и отправляет его в ящик B. Вы говорите: «Давай еще раз, положи зеленый мячик в ящик А». Ребенок выбирает правильный ящик. Браво. Теперь представьте, что вы говорите ребенку: «Возьми зеленый мячик, открой дверь номер три и положи зеленый мячик в ящик А». А он берет красный мяч, проходит через дверь номер два и кладет его в ящик B. С чего начать объяснения? Нельзя просто повторить изначальные инструкции, ведь ребенок не знает, в какой момент он сделал неверный выбор. В реальности вам пришлось бы сначала взять два мяча и сказать: «Смотри, этот красный, а этот зеленый». Однако весь смысл машинного обучения заключается в том, чтобы избежать таких конкретных объяснений. В семидесятых и восьмидесятых Хинтон и еще Однако их идеи сохранили популярность среди философов и психологов, которые назвали их «коннекционизмом» или «параллельной распределенной обработкой». «Приятно, конечно, думать, что мы были немногочисленной группой, стойко несущей факел знания. В сфере искусственного интеллекта так и было. Но в психологии многие верили в наш подход, просто не могли его проверить», — рассказывает Хинтон. Он тоже не мог, несмотря на всю щедрость канадского правительства. «Нам не хватало вычислительных мощностей или объемов данных. Люди из наших все время говорили: «Ах, если бы у меня всего этого было много, то нейросеть обязательно заработала бы». Не самый убедительный аргумент». Глубокое объяснение глубокого обучения Когда Пичаи заявил, что Google теперь «на первое место поставит ИИ», он не просто объявил о новой Средний мозг состоит из примерно 100 миллиардов нейронов. Каждый нейрон обладает до 10 тысяч соединений с другими нейронами, то есть синапсов всего от 100 до 1000 триллионов. Простейшие искусственные нейросети сороковых годов на такое были в принципе не способны.
Однако чтобы понять, почему масштаб так важен, нужно объяснить некоторые технические детали того, что же машинный интеллект делает с полученными данными. Во многом наша смутная боязнь ИИ связана с тем, что нам он кажется На самом деле все работает совершенно Если вам хватило этого краткого объяснения, можете перейти к следующей части текста, в которой речь пойдет о кошках. В противном случае, читайте далее. (К счастью, эта часть тоже о кошках.) Представьте, что вам надо запрограммировать распознаватель кошек на базе старой символической модели. Вы днями загружаете в машину максимально исчерпывающее и конкретное описание понятия «кошка». Вы объясняете ИИ, что у кошки четыре лапы, острые ушки, усы, хвост и так далее. Вся эта информация хранится на определенном участке памяти машины, маркированном «Кошка». Теперь вы показываете ИИ картинку. Сначала ему нужно разобрать изображение на элементы. Затем он берет эти элементы и применяет к ним правила, сохраненные в его памяти. Если (лапы = 4), если (ушки = острые), если (усы = есть), если (хвост = имеется) и если (поведение = надменное), то (кошка = в наличии). Но что, если показать нашему распознавателю кошек печальную шотландскую вислоухую породу с известным генетическим дефектом, Теперь представьте, что вместо закладывания в машину жестких правил классификации, хранящихся в ячейке памяти, вы решаете опробовать тот же подход на нейросети. Вот только в ней негде хранить понятие «кошка». Есть лишь гигантский пузырь из взаимосвязанных переключателей вроде дорожных развилок. С одной стороны пузыря вы вводите данные (изображения), с другой — получаете ответ (маркировку). Затем вы даете нейросети работать самостоятельно, и она начинает индивидуально настраивать каждый из этих переключателей на пути, который должна проделать информация, чтобы входящие данные соответствовали результату. В ходе подготовки к этому в пузыре создаются сложные лабиринтоподобные тоннели, связывающие любые входящие данные с корректными результатами. Чем больше у вас данных для тренировки, тем более многочисленные и сложные тоннели можно проложить. Как только подготовка будет завершена, в пузыре будет достаточно тоннелей, чтобы выносить надежные суждения о том, что делать с невиданными ранее данными. Это называется «контролируемое обучение». Нейросети нужно много нейронов и данных, потому что механизм ее работы в Вы показываете вашему электорату изображение и спрашиваете: «Это кошка, собака, паукообразная обезьяна, ложка или дефибриллятор?». Все нейроны делятся на группы в зависимости от того, за кого они проголосовали, после чего глава избирательного комитета смотрит, что выбрало большинство, и осторожно вопрошает: «Собака?».
Тогда глава комитета выясняет, кто проголосовал за вариант «кошка», а кто нет. В следующий раз количество голосов тех, кто выбрал правильно, будет подсчитано в двойном размере, — по крайней мере, когда они проголосуют за «кошку». Также каждому из них придется отдельно доказывать, что они умеют идентифицировать собак и дефибрилляторы, но гибкой нейросеть делает то, что каждое ее звено может вносить отдельную лепту в решение каждой отдельной задачи. Важны не индивидуальные голоса, а взаимосвязи из них. Если Джо, Фрэнк и Мэри голосуют вместе, они выбирают собаку, но если Джо голосует с Кейт и Джессикой, то они решают, что на картинке кошка. Если же Кейт, Джессика и Фрэнк соберутся вместе, то решат, что на ней дефибриллятор. Нейросети нужно лишь зарегистрировать достаточное количество регулярно появляющихся сигналов, чтобы решить: «Судя по всему, конкретно это скопление пикселей демонстрирует то, что люди называют "кошка"». Чем больше у вас «избирателей» и чем чаще они голосуют, тем более живо нейросеть регистрирует даже самые слабые сигналы. Если у вас есть только Джо, Фрэнк и Мэри, вы можете использовать их только чтобы выбрать между кошкой, собакой и дефибриллятором. А если у вас есть миллион разных избирателей, которые могут собираться в миллиарды вариантов групп, вы можете научиться классифицировать данные с невероятной точностью. Ваш натренированный электорат будет способен взглянуть на немаркированное изображение и Этим идеям так противились в компьютерных науках отчасти потому, что итоговый результат будет основан на взаимосвязях взаимосвязей, он не будет идеален, а машина никогда не выучит определение кошки. Она просто узнает ее из тысячи. В этом весь смысл. «Нейроизбиратели» отличат радостного котика, спящего на солнышке, от злого, выглядывающего из тьмы грязной мусорки, если показать им миллионы разных ситуаций с кошками. Вам нужно лишь собрать очень много избирателей, чтобы быть уверенными в том, что на каждую из слабых закономерностей вроде шотландской вислоухой с ее печальными ушами будет приходиться хоть Однако важно заметить, что Причем это не единственный нюанс. Контролируемое обучение — это метод проб и ошибок, подкрепленный маркированными данными. Машина, может, и учится, но человек сильно влияет на категоризацию исходных данных. Если среди них была фотография мужчины и женщины в костюмах, которую Следовательно, маркированные данные могут быть ошибочными, если люди неправильно их пометят. Если попросить машину выбрать подходящих кандидатов для выдачи займа, она может обратиться к данным вроде истории судимостей, но если эти данные изначально были неверными — например, основанными на дискриминационном антинаркотическом законодательстве, — рекомендации по займам тоже будут ошибочными. Системы распознавания изображений вроде нашего идентификатора кошек — это лишь один из множества вариантов глубокого обучения, однако их постоянно используют как пример, потому что каждый слой делает то, что человек может хоть Например, Инструмент визуализации показал им, что машина выучила не концепцию «гантель», а концепцию «гантель + рука», потому что все гантели на тренировочных изображениях находились в руках. Разработчики показали машине немного отдельных гантель. Проблема была решена. Но не все так просто. Научная работа о кошках Когда с момента создания Brain прошло о В Brain все еще работало меньше десяти человек, и они лишь в общих чертах понимали, к чему ведет их работа. Но даже тогда они думали на несколько ходов вперед. Сначала человеческий мозг учится узнавать мячик и некоторое время почивает на лаврах, но рано или поздно он захочет попросить дать ему мячик. Тогда появляется язык. Первым шагом в этом направлении стала научная работа о кошках, которая прославила Brain. Научная работа о кошках продемонстрировала нейросеть с более чем миллиардом «синапсов», — она была в сто раз больше любой известной на тот момент нейросети, но все равно даже рядом с человеческим мозгом не стояла, — способную принять сырые немаркированные данные и вычленить из них человеческий концепт высокого порядка. Исследователи из Brain показывали нейросети миллионы кадров из роликов с YouTube, после чего она выделила из этой мешанины то, что любой младенец или мартышка, не колеблясь, идентифицировали бы как кошачью мордочку. В машину не была заранее запрограммирована информация о кошачьих мордочках. Нейросеть вышла в мир и сама нашла для себя данные. (Исследователи выяснили это с помощью нейросетевого эквивалента МРТ, который показал, что за призрачную кошачью мордочку искусственные нейроны «голосовали» с большим энтузиазмом). На тот момент почти все машинное обучение было ограничено параметрами маркированных данных. Научная работа о кошках показала, что машины могут обрабатывать сырые немаркированные данные, возможно, даже те, о которых люди не знали заранее. Это был серьезный прорыв не только в опытах по распознаванию кошек, но и в целом для искусственного интеллекта. Ведущим автором работы о кошках был Куок Ле. Ле — человек небольшого роста, тонкий, словно тростник. Говорит он мягко, при этом на его лице часто мелькает загадочная улыбка. Из обуви Ле предпочитает Он вырос в предместьях вьетнамского города Хюэ, где его родители выращивали рис. Дома у него не было даже электричества. Он с ранних лет обладал способностями к математике, так что его отправили в школу с углубленным изучением естественных наук. В конце девяностых, когда он все еще учился в школе, Ле решил создать чатбота. В конце концов, разве это сложно, думал он.
Он покинул рисовые поля, чтобы стать студентом в австралийском Университете Канберры, где работал над связанными с ИИ задачами вроде компьютерного зрения. Самый распространенный тогда метод, связанный с вводом в машину понятий вроде «грань», показался ему обманом. Тогда Ле не знал — или знал, но лишь смутно, — что в сфере вычислительной техники есть еще пара десятков ученых, которые мечтали о том, что машины смогут учиться с нуля. В 2006 году Ле взяли в Институт биологической кибернетики «Общества Макса Планка» в средневековом немецком городе Тюбингене. Там он прочел две новые работы Джоффри Хинтона. У каждого, кто пришел в эту сферу, изрядно побродив по свету, есть своя история — и когда Ле прочитал эти работы, он почувствовал, как с его глаз спала пелена. «Споры шли нешуточные. Очень даже», — вспоминал он. Мы сидели в небольшой комнате для встреч, прямой, с высокими потолками. В ней был лишь небольшой стол и две маркерные доски. Он взглянул на кривую, которую начертил на доске за собой, затем снова на меня и мягко заключил: «Таких споров я никогда не видел». Ле помнит, как однажды в группе для чтения он встал и заявил: «За этим будущее». По его словам, «в те времена это было непопулярное мнение». Его бывший руководитель из Австралии, с которым Ле сохранил теплые отношения, не мог понять его решения. «Почему ты выбираешь именно это?» — спросил он Ле в электронном письме. «Тогда мне нечего было ответить. Мной руководило любопытство. Уже была успешная парадигма, но, честно говоря, меня просто заинтересовала новая. В 2006 году в этой сфере мало что происходило», — рассказывает Ле. Он присоединился к Ыну в Стэнфорде и начал следовать идеям Хинтона. «К концу 2010 года я уже был уверен в том, что скоро все изменится». Вскоре после этого Ле стал первым стажером Brain, где он написал свою диссертацию, — расширенная версия которой в итоге стала той самой работой о кошках. Простыми словами, Ле хотел выяснить, можно ли научить компьютер самостоятельно идентифицировать информацию, совершенно определенно относящуюся к данному изображению. Он дал нейросети кадр одного видео с YouTube. Затем он приказал ей отбросить некоторую информацию, содержащуюся в изображении, при этом не указывая какую конкретно. Машина выполнила его команду, руководствуясь случайными критериями. А потом он сказал: «Шутка! Теперь воссоздай изначальное изображение, основываясь только на оставшейся информации». Он словно просил машину сделать обобщение изображения, а потом расширить его до оригинала. Если бы обобщение основывалось на несущественных данных, — например, на цвете неба вместо наличия усов, — нейросеть не смогла бы правильно реконструировать изображение. Она напоминала бы пещерного человека, который из своей короткой встречи с саблезубым тигром запомнил только то, что зверь двигается с мягким шелестом. В отличие от пещерного человека, у нейросети Ле было много попыток. Во время каждой из них она математически «давала» высочайший приоритет разным фрагментам информации и, с течением времени, у нее получалось все лучше. Однако логика нейросети была неясна. Она различала взаимосвязи, но для человеческого наблюдателя в них не всегда был смысл. Та же нейросеть, которая научилась так ловко находить наш концепт кошки, с энтузиазмом бралась за мешанину из кусков животных и мебели вроде козы, скрещенной с пуфиком для ног. В те кошачьи времена Ле не считал себя лингвистом, однако он почувствовал стремление соединить свою текущую работу с его ранними трудами над чатботом. После написания работы о кошках он понял, что если можно попросить нейросеть обобщить изображение, то же самое можно сделать с фразой. Этот вопрос занял все внимание Ле и Томаса Миколова, его коллеги по Brain, на следующие два года. Тогда Brain вырос из своих небольших офисов. Команда некоторое время занимала помещения на одном этаже с Затем Brain перевели в строение для исследователей через дорогу, где менеджеры не вклинивались бы в беседы команды на микрокухне. Примерно в то же время подтянулись конкуренты Google. (Когда Ле рассказывал мне о том, как тесно работал с Томасом Миколовым, он постоянно повторял имя Миколова, причем это вроде бы было для него неприятно. Я никогда не видел Ле таким напыщенным. В итоге я не выдержал и, стоило мне произнести начало вопроса «Так он… ?», как Ле кивнул. «В Facebook», — ответил он.) В те времена они работали над архитектурами нейросетей, способными классифицировать не только статичные фотографии, но и сложные структуры, разворачивающиеся с течением времени, вроде языка или музыки. Многие из них были предложены еще в девяностых годах, и Ле с коллегами вернулся к этим проигнорированным идеям. Они понимали, что стоит создать структуру, способную на базовые лингвистические предсказания, на ее фундаменте можно будет построить множество разных вещей — например, инструмент для предсказания подходящего ответа на электронное письмо или разумного течения беседы. Можно было создать машину, которая, пускай только со стороны, но была способна на нечто, очень похожее на мышление. Часть II: Лингвистическая машина Языковой переворот Вскоре количество сотрудников Brain приблизилось к сотне. Мало кто из персонала Google мог сравниться с ними по степени свободы и популярности. Brain зачастую похож не на отдел в огромной корпоративной иерархии, а скорее на клуб, ученое сообщество или межгалактический бар. Сейчас команда занимает двухэтажное здание цвета яичной скорлупы с большими, угрожающе Когда в июне я только начал посещать офис Brain, там были ряды из пустых столов, при этом большинство из них было помечено бумажками с надписями вроде «Джесси, 27.6». Сейчас они все заняты. Когда я впервые к ним приехал, место для парковки найти было легко. Ближайшие к входу места были зарезервированы для мам или владельцев Tesla, остальное же пространство было свободно. Но если в октябре я приезжал позже 9:30, мне приходилось парковаться через улицу. «Если в будущем каждый человек будет говорить с их телефоном на Android по три минуты в день, вот сколько машин нам понадобится», — показал он им. Google пришлось бы усилить ее глобальную инфраструктуру в два или три раза. «И это, — произнес он с театральной паузой и расширенными глазами, — прозвучало пугающе. Нам бы пришлось — он замер, представляя последствия, — строить новые здания». Однако был и другой вариант: разработать, произвести и установить новые, более быстрые процессоры во все Вместо того, чтобы вычислять, сколько будет 12,246 умножить на 54,392, они выдадут поверхностный результат 12, умноженных на 54. На математическом, а не метафорическом уровне, нейросеть — это лишь структурированная серия из сотен тысяч или десятков тысяч матричных умножений, производимых по очереди, и гораздо важнее выполнять эти вычисления быстро, а не точно. «Обычно железо, заточенное под конкретную цель, это плохая идея. Но так как нейросети можно было применять для решения множества задач, то и железо это становилось многофункциональным», — вспоминает Дин. Когда разработка процессора почти завершилась, Ле с двумя коллегами, наконец, показал, что нейросети можно сконфигурировать так, чтобы они могли взаимодействовать со структурой языка. За основу он взял концепцию под названием «встраивание слов», которая на тот момент существовала уже более десяти лет. Когда вы обобщаете изображения, вы можете предугадать, каким будет результат каждого этапа — сначала грань, потом круг и так далее. Когда вы по похожему принципу обобщаете язык, вы создаете многофакторные модели родства между всеми словами, основываясь на их общепринятом употреблении. Машина не «анализирует» данные так, как могли бы мы, вооружившись лингвистическими нормами, чтобы идентифицировать некоторые слова как существительные, а другие как глаголы. Вместо этого она Если измерений всего два, такая модель будет бесполезна. Например, вы хотите, чтобы «кошка» была Оно может быть связано со всеми этими словами одновременно, только если связи проходят в разных измерениях. 160 Ле И все же оказалось, что определенные измерения в модели отражали нормальные человеческие категории вроде пола или размера. Если бы вы взяли тысячу чисел, означающих «король» и буквально вычли бы из них тысячу чисел со значением «королева», то у вас получился бы результат, равный вычитанию чисел-«женщин» из чисел-«мужчин». А если взять полную модель английского языка и полную модель французского, то, по крайней мере в теории, можно научить нейросеть брать предложение из одной модели и предлагать эквивалент в другой. Нужно лишь дать ей миллионы миллионов предложений на английском и их предпочитаемых переводов на французский, и вскоре она стала бы находить нужные взаимосвязи между словами так же, как распознаватель изображений находил взаимосвязи между пикселями. Затем можно ввести в нейросеть предложение на английском и попросить ее предсказать наилучший аналог на франзуском. Однако основное отличие между словами и пикселями заключается в том, что на изображении все пиксели находятся одновременно, а слова в фразе сменяют друг друга с течением времени. Поэтому нужно дать нейросети способность «держать в уме» движение хронологической цепочки — весь путь от первого слова до последнего. В сентябре 2014 года за одну неделю вышло три работы — одну написал Ле, две другие выпустили академики из Канады и Германии, — которые хоть и в теории, но давали все необходимые для этого инструменты. Благодаря этим работам появились бессрочные проекты вроде Magenta от Brain, исследования того, как машины могут генерировать искусство и музыку. Также они проложили путь к инструментальным задачам вроде машинного перевода. По словам Хинтона, тогда он думал, что на последующую доработку понадобится как минимум пять лет. Засада Научная работа Ле показала, что перевод с помощью нейросетей возможен, но он использовал лишь относительно небольшой набор данных, находящихся в публичном доступе. (Небольшой по меркам Google — на самом деле это был крупнейший объем публичных данных в мире. При этом старая версия «Переводчика» за десять лет работы собрала в сто или тысячу раз больше данных.) Стоит отметить, что модель Ле плохо справлялась с предложениями длиннее семи слов. Майк Шустер, который тогда был штатным исследователем в Brain, принял эстафету. Он знал, что если Google не сможет довести теоретические разработки до применения на практике, это сделает Шустер — это подтянутое, собранное существо неизвестного возраста с обветренной кожей и головой в форме поршня. Плечи его прямы, длинные На самом деле, по его словам, он всего лишь проезжает 29 километров на велосипеде. Шустер вырос в Дуйсбурге, в промышленном районе бывшей Западной Германии, и изучал электрическую инженерию, прежде чем переехал в Киото и занялся нейросетями. В девяностых он проводил эксперименты с нейросетями на машинах размером с конференц-зал — приходилось потратить миллионы долларов и недели времени, чтобы научить машину делать то, с чем сейчас любой компьютер справится за час. В 1997 году он опубликовал работу, которую полтора десятка лет почти не цитировали, при этом только за этот год к ней обратились примерно 150 раз. Чувство юмора у него есть, хоть он и ходит все время с суровым выражением лица, которое, на мой взгляд, появилось Шустеру пришлось решать запутанные проблемы. Как сказал мне Шустер, «Некоторые фрагменты просто работали, и никто не знал почему». В этом феврале главы исследовательской организации Google — объемного подразделения с примерно тысячей сотрудников, занимающегося вопросами будущего и неклассифицируемыми проектами — собрались на выездную встречу в Westin St. Francis, на Утро было отведено под «молниеносные разговоры», быстрые сообщения о ходе передовых исследований, а на день были запланированы перекрестные «стимулированные дискуссии» между отделами. Все это делалось, чтобы дать почву для возникновения неожиданных хитрых бесед в духе компании Bell Labs, благодаря которым держится на плаву любая серьезная компания. Во время обеденного перерыва Коррадо с Дином отправились на поиски Макдуфа Хьюза, директора «Google Переводчика». Хьюз обедал в одиночестве, и Коррадо с Дином сели по обеим сторонам от него. Как выразился Коррадо, «Мы его поймали».
Они заявили Хьюзу, что на их взгляд, 2016 год отлично подходил для переработки «Google Переводчика», — код которого сотни инженеров создавали более десятка лет, — под использование нейросети. Старая система работала так же, как и все машинные переводчики за последние тридцать лет: она разделяла предложения на фрагменты, находила слова в основанных на статистике словарных таблицах, затем применяла множество правил постобработки, чтобы подправить окончания и переставляла все в таком порядке, чтобы у предложения был смысл. Такой подход называется «фразовый статистический машинный перевод», потому что когда система доходит до следующей фразы, она забывает, какой была предыдущая. Именно поэтому иногда результаты, которые выдавал «Переводчик» напоминали мешанину из магнитиков на холодильник. Благодаря нововведениям Brain система могла бы за раз читать и обрабатывать целые предложения. Она бы понимала контекст и На первый взгляд, ставки были не особенно высоки: «Переводчик» приносит минимальную прибыль и, скорее всего, так будет всегда. Для большинства англоговорящих пользователей даже радикальное улучшение качества работы сервиса покажется ожидаемым и закономерным скачком. Однако есть мнение, что машинный перевод, по качеству не уступающий человеческому, это не только обязательное краткосрочное достижение, но и революционный прорыв в долгосрочной перспективе. Он необходим для осуществления По оценкам Google, 50% всего интернета написано на английском — языке, на котором говорит около 20% населения мира. Если Google хочет выйти на китайский рынок — где среди поисковых машин доминирует Baidu — или начать работать в Индии, нормальный машинный переводчик — это важнейшая часть инфраструктуры. В 2015 году Baidu сама опубликовала революционную научную работу о машинном переводе с помощью нейросетей. А в более отдаленном, спекулятивном будущем машинный перевод, пожалуй, мог бы стать первым шагом к созданию общего вычислительного устройства, понимающего человеческий язык. Это стало бы важным — может быть, самым важным — достижением, благодаря которому станет возможно создание того, что выглядит как настоящий искусственный интеллект. Большинство людей в Кремниевой долине знали о скором рассвете машинного обучения, так что Хьюза засада не удивила. Он был преисполнен скептицизма. Хьюз, — скромный, крепко сложенный мужчина средних лет с растрепанными Карманы его джинсов обычно пухнут от множества занятных угловатых устройств, будь то рулетки или термопары, и, в отличие от большинства молодых коллег, он не носит одежду с символикой компании, в которой работает. Хьюз знал, что люди в разных отделах Google и других компаний годами пытались создать переводчики, основанные на нейросетях — не в лаборатории, а в производственном масштабе, — при этом особых успехов они не достигли. Хьюз выслушал инженеров Brain и осторожно сказал, что, на его взгляд, за три года они справятся. Дин думал иначе: «Мы закончим работу к концу года, если соберемся вместе и подумаем». Люди любили и уважали Дина отчасти Хьюз был уверен в том, что в ближайшее время они не соберутся, но не хотел становиться этому причиной. «Давайте готовиться к Через месяц у них наконец получилось провести эксперимент по сравнению новой системы Шустера с со старым «Переводчиком» Хьюза. Шустер собирался переводить с английского на французский, но Хьюз посоветовал ему поменять языки. «Эта языковая пара так хорошо отработана, что никто не заметит улучшений», — пояснил он. Шустер не мог не устроить из этого состязание. Метрика для оценки качества машинного перевода называется BLEU, ее смысл заключается в сравнении машинного перевода со средним человеческим переводом из проверенных источников. На тот момент лучшим результатом BLEU для перевода с английского на французский и наоборот было чуть менее 30. Улучшение на один балл считалось весьма примечательным, на два — невероятным.
Как сказал команде Шустера Хьюз, у их системы таких улучшений не было уже четыре года. Чтобы убедиться в том, что это не ошибка метрик, они привлекли к проверке людей. После оценки пользовательского восприятия, в ходе которой человек выставляет переведенным предложениям оценки от нуля до шести, система показала улучшение на 0,4 балла — примерно на столько в сумме улучшилось качество перевода старой системы за все время ее существования. В середине марта Хьюз разослал своей команде электронное письмо. В нем говорилось, что все работы по старой системе должны быть немедленно заморожены. Теория становится продуктом До тех пор команда, занимающаяся переводом с помощью нейросетей, состояла всего из трех человек — Шустера, У и Чена, но с поддержкой Хьюза к ним начали подтягиваться люди. Каждую среду в 14:00 они под руководством Шустера собирались в угловой комнате корпуса Brain под названием «Кварцевое озеро». Обычно на собрания приходили более десяти человек, при этом некоторые лица менялись. Когда там присутствовали Хьюз или Коррадо, они были единственными носителями английского языка в комнате. Инженеры говорили на китайском, вьетнамском, польском, русском, арабском, немецком и японском, хотя в основном они пользовались своим собственным гибридным языком и математическими терминами. В Google обычно сложно понять, кто ведет встречу, но в команде Шустера лидера выделить было легко. Даже тогда им было не до конца понятно, что нужно делать. «Неопределенность — ключевое понятие для всей этой истории. Весь процесс в В большинстве переговорных комнат Google есть мониторы для видеочатов, которые в режиме ожидания демонстрируют чрезмерно яркие картинки из Google+ с девственными лесами или северными сияниями или Рейхстагом. Шустер махнул в сторону одного из мониторов, на котором кристальным светом горело ночное изображение монумента Вашингтона.
Теоретическая работа, которой они занимались до этого, и так была невероятно сложной и долгой, но попытка превратить ее в реальный продукт — то, что академики могут назвать «всего лишь» инженерией — была не легче. Часть из них была публичной: оригинал основного текста для статистического машинного перевода состоял из миллионов страниц двуязычных стенограмм канадского парламента. У команды Шустера было 97 миллионов уникальных английских «слов». Но как только они убрали эмоционально окрашенные, ошибочные и избыточные элементы, получился словарь из примерно 160 тысяч слов. Затем нужно сконцентрироваться на том, что на самом деле переводят пользователи, — а зачастую это имеет мало общего с нормальным человеческим языком. Как выяснили в Google, многие обращаются к сервису, чтобы перевести маленькие осколки языка, а не цельные предложения. Если нужно создать сеть, способную справляться с потоком пользовательских запросов, лучше как можно тщательнее ее под это заточить. Нейросеть очень зависит от данных, на которых ее тренируют. Как однажды выразился Хьюз, «Переводческая нейросеть учится всему. Она как маленький ребенок: «Ой, папа говорит это слово когда злится!» — тут он рассмеялся. — Нужно соблюдать осторожность». Но, что самое важное, им нужно было сделать так, чтобы система работала настолько быстро и надежно, что пользователи этого бы не замечали. В феврале на перевод предложения из десяти слов уходило десять секунд. Такой медленный сервис они выпустить не могли. Команда «Переводчика» начала проводить эксперименты по задержке перевода с участием небольшого количества людей, своего рода проверку того, как долго они готовы ждать. Выяснилось, что люди были не против, если на перевод уходило в два или даже в пять раз больше. А вот восьмикратное увеличение задержки было для них некомфортным. Команде не нужно было проводить такие тесты для каждого языка. В случае часто используемого языка вроде французского или китайского их система могла работать вообще без задержек. Но они знали, что когда дело доходило до более редких языков, пользователи были готовы немного потерпеть, чтобы получить более качественный результат. Нужно было лишь убедиться в том, что люди не будут Шустер признал, что лично он вообще не знал, удастся ли им сделать «Переводчик» достаточно быстрым. Он вспомнил, как во время разговора на микрокухне повернулся к Чену и сказал: «Для увеличения быстродействия нам не хватает Однако он понимал, что для обучения им нужно больше компьютеров — GPU, графических процессоров, реконфигурированных для использования в нейросетях. Хьюз встретился с Шустером, чтобы узнать его мнение по вопросу «Нам запросить тысячу GPU?».
Через десять дней у них было две тысячи дополнительных процессоров. К апрелю команда расширилась до 30 человек — некоторые, вроде Ле, работали в Brain, другие пришли из «Переводчика». В мае Хьюз назначил на каждую языковую пару В любой момент времени как минимум 20 человек вели свои недельные эксперименты и пытались найти решения проблем. Однажды модель без К концу весны кусочки стали собираться воедино. Команда разработала так называемые « Стоило стандартизировать модель, как на смену 150 разным моделям старого «Переводчика», пришла бы единая многоязычная модель, которая со временем бы улучшалась. Но парадокс — инструмент, созданный для того, чтобы еще более обобщить процесс автоматизации с помощью обучающихся машин, требовал столь экстраординарных объемов сфокусированного человеческого труда и таланта, — никуда не делся. Зачастую исследователи принимали решения, основываясь только на собственном чутье. Сколько нейронов должно быть в слое? 1024 или 512? А сколько должно быть слоев? Сколько предложений нужно обрабатывать одновременно? И сколько нужно для этого тренировать систему? «Мы проводили сотни экспериментов — каждый из них длился до тех пор, пока мы не понимали, что можно заканчивать. Ты всегда спрашиваешь себя: «Когда придет пора остановиться?», «Как понять, что можно заканчивать?». А никак. Механизм машинного обучения всегда неидеален. Нужно тренировать его до тех пор, пока тебе не придется остановиться. Такова печальная природа всей этой системы. Некоторым бывает тяжело смириться с этой незавершенностью. В К маю команда Brain осознала, что единственный способ сделать систему достаточно быстрой, чтобы ее можно было представить в виде продукта — использовать TPU, специальные процессоры, которые придумал Дин. Чен рассказывает: «Мы не знали даже, будет ли работать код. Но были уверены в том, что без TPU вся система точно работать не будет». Он вспоминает, как умолял Дина: «Пожалуйста, зарезервируй парочку для нас». Тот согласился. Однако после доставки TPU не работали. У вместе с техниками потратил две недели на попытки понять, почему. Они искали ошибки не в модели, а в самом чипе — проект по переводу с помощью нейросетей мог стать подтверждением правильности вложений в инфраструктуру. Однажды летом в помещении «Кварцевого озера», где Команда Google осознавала, что если бы они первыми опубликовали свои результаты, то наверняка продемонстрировали бы превосходство над конкурентами. Но, как сказал Шустер, «Выпущенный продукт важнее публикаций. Они, конечно, могут сказать «О, а в этом мы были первыми», но, в конце концов, какая разница?» Однако это означало, что они должны первыми выпустить свой сервис, а он должен превосходить сервисы конкурентов. Хьюз фантазировал о том, что они даже не проинформируют пользователей о переработке «Переводчика». Просто сядут и будут ждать, пока по социальным сетям не пройдет слух о том, что система радикально улучшилась. «Мы не хотим пока заявлять о новой системе», — сказал он мне в 17:36, через два дня после Дня труда и за минуту до того, как они выкатили улучшение Праздник В неусыпно трудящейся Кремниевой долине есть лишь два надежных способа для определения того, какое сейчас время года: смена фруктов на микрокухнях — от плуотов (гибрид сливы и абрикоса — прим. переводчика) в середине лета к азиатским грушам и хурме в начале осени — и кривая технологического прогресса. В один чрезвычайно жаркий понедельник команда Brain На стене гавайской микрокухни висит немного зернистая фотография пляжа, рядом — украшенная гирляндами кухонная стойка с чучелом попугая посередине, а потолочные светильники выполнены в виде бумажных фонариков. Вдоль стен выставлены жидкие гистограммы из бамбуковых палок, словно укрепления брошенной тропической крепости. Двери за ними ведут в помещение с одинаковыми серыми столами. Тем утром новые люди в толстовках пришли отпраздновать десятилетие «Переводчика», и многие члены команды явились на вечеринку в одежде с новой символикой сервиса. Отчасти они праздновали то, что после десяти лет совместного труда они начинали двигаться к уходу на покой. В других организациях это могло бы стать причиной скорби, но инженеры и Система перевода с помощью нейросетей Когда за последующие недели разошлась молва о том, что Google переводит с китайского на английский с помощью нейросетей, появились спекуляции, мол, эта языковая пара была выбрана Хьюз прочистил горло и встал перед Но все было решено, по крайней мере в степени, достаточной для того, чтобы можно было отвлечься на вечеринку. Гости притихли. Хьюз проводил собрания эффективно и четко и терпеть не мог пустую болтовню или разговоры на сторонние темы, но все же он выдержал паузу, очарованный важностью момента. Он признал, что, хотя эта метафора и прозвучала несколько натянуто, их проект по переводу с помощью нейросетей стал реальностью «благодаря совместной работе двух групп людей, говорящих на разных языках». Их проект, — продолжил Хьюз, — сдвинул прогресс «на ступенчатую функцию вперед» — это непродолжительное улучшение, вертикальный скачок, а не ровная восходящая кривая. Успешным было не только взаимодействие двух команд, но и переход от теории к практике. Хьюз поднял пластиковый бокал с дорогим на вид шампанским.
Собравшиеся инженеры огляделись и расщедрились на парочку осторожных хлопков и ободрительных выкриков. Джефф Дин стоял в центре микрокухни вместе с Коррадо и Шустером — руки в карманах, плечи немного согнуты внутрь. Дин понял, что и ему надо бы сказать пару заключительных слов и сделал это свойственной ему манере, произнеся короткую быструю фразу. По словам Дина, они продемонстрировали, что способны на две важные вещи: «Проводить исследования и показывать результаты, ну не знаю, половине миллиарда человек». Все засмеялись, ведь это было совсем не преувеличение. Эпилог: Машины без призраков Возможно, самый известный в истории аргумент против искусственного интеллекта или заявлений, связанных с ним, касался вопросов перевода. В 1980 году философ Джон Сёрл из Университета Беркли предложил мысленный эксперимент под названием «Китайская комната». В нем узник, говорящий только на английском, сидит в тюремной камере. Невидимый для него надзиратель передает ему через щель бумажку с вопросом на китайском языке. У человека в комнате есть таблицы и правила на английском языке, с помощью которых он может составить правильный ответ. Вскоре он так хорошо обращается с этими таблицами, что его ответы становятся «неотличимы от ответов носителей китайского языка». Можно ли считать, что узник «понимает» китайский? Сёрл по вполне очевидным причинам посчитал, что нет. Как он написал впоследствии, его метафора компьютера подорвала веру людей в заявления о том, что «правильно запрограммированный цифровой компьютер, корректно реагирующий на вводимые в него данные, будет обладать разумом, сравнимым с человеческим». Но для команды Google Brain, как и для почти всех специалистов по машинному обучению в Кремниевой долине, эта точка зрения неинтересна. Нет, они не игнорируют философский вопрос — просто для них сознание это нечто фундаментально иное. В отличие от Сёрля, они не предполагают, что «сознание» это некий таинственно светящийся ментальный атрибут — то, что философ Гилберт Райл назвал "призраком в машине"». Вместо этого «сознание» для них это сложный набор навыков, случайно появившихся в результате координированной деятельности множества разнообразных механизмов. Соответственно, наше сознание с его высоким уровнем мыслительной деятельности по сути ничем не отличается от того, что мы, поддавшись минутному соблазну, можем поместить на низкий уровень. С этой точки зрения, логическое мышление выглядит скорее удачной адаптацией, как и способность ловить и кидать мяч. Не нужно создавать сознание, чтобы разработать искусственный интеллект, — достаточно улучшать инструменты, придуманные для решения определенных проблем. Как сказал мне Коррадо в мой первый день в Google, «Дело не в том, что машина "знает" или "понимает", для нас важно, что она "делает" и, что более важно, что она пока делать не может». Выбор между «знать» и «делать» ведет к серьезным культурным и социальным последствиям. На вечеринке Шустер подошел ко мне, чтобы выразить недовольство тем, как медиа отреагировали на публикацию их работы. «Видели первые материалы?» — спросил он. После чего пересказал один из заголовков утренней прессы, сопровождая каждое слово движением руки, словно составлял фразу из блоков: «Google заявляет, что перевод с помощью ИИ неотличим от человеческого». Команда очень старательно продумала этот вопрос в последние недели составления работы. Шустер часто повторял, что ее смысл в том, что «Машина переводит лучше, чем раньше, но все еще хуже людей». Он надеялся, что публика поймет: Google хочет помочь людям, а не заменить их. И все же Поэтому вполне понятно, почему большинство придерживается первой концепции. В 2015 году на конференции MIT по основам искусственного интеллекта Ноама Хомского спросили о том, что он думает по поводу машинного обучения. В ответ он разнес всю концепцию в пух и прах, назвав ее лишь статистическими предсказаниями, модной версией прогноза погоды. Даже если перевод с помощью нейросетей и достиг бы идеальной точности, в результате он не продемонстрировал бы никакой особой потаенной сути языка. Такой переводчик никогда не сможет отличить местоимение в дательном падеже от этого же местоимения в винительном. В результате получается хороший инструмент для достижения определенных целей, но человечество ни на йоту не приближается к пониманию того, почему наши мозги работают так, как работают. Машины уже умеют находить раковые опухоли на рентгеновских снимках лучше радиологов, однако машина не может объяснить, что вызвало рак.
Машинное обучение незамедлительно и, пожалуй, даже непредсказуемо угрожает в первую очередь медицинской диагностике. Радиологи долго учатся, им много платят, а их навыки являются для нас проявлением профессионального глубокомыслия — высшего уровня работы сознания. Только в прошлом году исследователи продемонстрировали, что нейросети не только находят на снимках опухоли лучше людей, но и успешно ставят диагнозы на основе текстовых данных или гистологических отчетов. Оказалось, что работа радиологов это скорее прогностическое выявление взаимосвязей, а не логический анализ. Они не могут назвать причину появления рака — им известно только то, что он есть. Как только появляется достаточно надежный механизм для выявления взаимосвязей в одной сфере, его почти сразу же можно изменить для работы в другой. Один инженер из команды «Переводчика» взял нейросеть, которую он создал для оценки предметов искусства, и использовал ее в автономной машине, управляемой на расстоянии. Нейросеть, изначально нацеленную на распознавание кошек, можно научить работать с результатами компьютерной томографии, при этом в ходе обучения через нее пройдет столько материалов, сколько ни один врач не видел за всю свою жизнь. Нейросеть, созданная для перевода, может изучить миллионы страниц юридических документов за мельчайшую часть от того времени, которое понадобилось бы для этого самому высококвалифицированному юристу. Профессии, потерянные для человека с появлением роботов, больше не будут ассоциироваться с рутинной работой, которая, — стоит заметить, совершенно несправедливо, — считается прерогативой глупых необразованных людей. Ведь под угрозой будут инвентарные менеджеры, экономисты, финансовые консультанты, агенты по недвижимости. Ученые из Brain продемонстрировали лишь один пример того, как за девять месяцев небольшая группа людей из большой компании смогла автоматизировать задачу, которую раньше никто не и не думал соотносить с машинами. Из всего, что сейчас происходит в Кремниевой долине, наиболее важны не кардинальные изменения устоявшихся систем. Главное это создание институций — и консолидация власти — в таком масштабе и с такой скоростью, какие, возможно, не встречались за всю человеческую историю. У Brain есть стажеры, резиденты, «ниндзя»-тренинги для сотрудников других отделов. Там повсюду стоят ящики с бесплатными велосипедными шлемами и зелеными зонтиками для тех двух дождливых дней в году. А еще капсулы для сна, массажные стулья, маленькие фруктовые салаты, общие испытательные столы, упаковки Но волна автоматизации затронет даже колоссальные институции вроде Google — как только машины смогут учиться на человеческой речи, даже комфортная профессия программиста будет под угрозой. Когда вечеринка в Хьюз сразу понял, что это; мне же пришлось приглядеться, чтобы увидеть надписи — имена людей и названия файлов. Это была анимированная история десяти лет изменений кода «Переводчика», весь вклад каждого члена команды светился и двигался на экране. Хьюз ненавязчиво переключился с 2006 года на Хьюз подозвал Коррадо и они замерли, словно пригвожденные. Чтобы разогнать меланхолический туман ностальгии, Коррадо поднял глаза и произнес с немного грустным выражением лица: «Ну так когда мы это удалим?» «Не беспокойся. Вырастет новая база кода. Все всегда вырастает», — ответил Хьюз. Присылайте свои колонки о том, как изменится наш мир, на future@vc.ru. Источник: vc.ru Комментарии: |
|