Как Google делает революцию в машинном обучении

2017-01-01 12:02

Карсон Холгейт (Carson Holgate) хочет стать ниндзя и много тренируется, чтобы достичь своей цели. Однако она мечтает преуспеть не в боевых искусствах, ведь у этой 26-летней девушки уже есть черный пояс по тхэквондо.

Холгейт принимает участие в программе по машинному обучению, которая даст ей еще больше преимуществ, чем владение рукопашным боем. Она — одна из 18 программистов, задействованных в программе под названием «Ниндзя машинного обучения». Программа задумана в стиле известной «Игры Эндера», и участвуют в ней лишь самые талантливые сотрудники компании. В рамках программы специалисты должны будут освоить основы внедрения искусственного интеллекта в различные программные продукты. Полученные технологии станут «умнее», но сложнее для понимания.

«Наш слоган звучит так: “Хотите стать ниндзя машинного обучения?” Мы приглашаем всех сотрудников Google присоединиться к команде, занимающейся машинным обучением, на 6 месяцев. Все это время участники будут работать над собственным проектом под руководством наставника, а затем запустят его. Программисты многому научатся в процессе», — рассказывает менеджер внутренних курсов по машинному обучению в Google Кристин Робсон (Christine Robson) (она также она также администрирует программу).

Холгейт пришла в Google 4 года назад. Она — специалист в области информатики и математики, и для нее это отличная возможность овладеть самым «горячим» трендом в мире программного обеспечения: использование обучающих алгоритмов и больших данных для «обучения» компьютерных программ. Многие годы считалось, что машинное обучение — удел «избранных». Эти времена позади, так как результаты последних исследований показали, что машинное обучение и нейронные сети способны имитировать процессы в мозге человека. Это прямая дорога к тому, чтобы наделить компьютер человеческими способностями и даже сделать из него сверхчеловека. Google надеется, что эти знания распространятся среди сотрудников. А для программистов вроде Холгейт — это отличный шанс оказаться на шаг впереди коллег и учиться у лучших. «Эти люди имеют степени докторов наук и при этом создают абсолютно невероятные модели», — заявляет Холгейт, которая уже не пытается сдерживать восхищение. «Сперва мне даже было немного страшно, но потом я привыкла».

Данная программа является лишь небольшим проектом, учитывая тот факт, что в Google работают около 60000 программистов. Однако это символизирует когнитивный сдвиг. Машинное обучение уже давно стало частью технологий, разработанных Google, и огромное количество экспертов заняты в этой сфере внутри компании. Однако, начиная с 2016 года, руководство компании буквально помешалось на МО (машинном обучении). На одной из конференций в прошлом году СЕО корпорации Сандар Пичай (Sundar Pichai) пояснил: «Машинное обучение — основа основ, которая трансформирует наше понимание технологий. Мы уже применяем МО при создании программных продуктов. Например, в поисковой системе, рекламе, YouTube или Play. Мы находимся еще в самом начале пути, но скоро вы увидите, как мы будем систематически применять машинное обучение во всех областях».

Очевидно, что если руководство Google всерьез намерено внедрять машинное обучение, то компании необходимы люди, специализирующиеся именно в этом направлении, отказавшиеся от традиционного стиля программирования. Автор популярного МО манифеста Педро Домингос (Pedro Domingos) пишет: «Машинное обучение — совершенно новое явление: это технология, способная создавать саму себя». Создание таких систем подразумевает сбор правильных данных, выбор правильного алгоритмического подхода и создание правильных условий. Кроме того, что особенно сложно для программиста, необходимо довериться самой системе.

«Чем больше людей будут использовать технологии машинного обучения для решения задач, тем лучше», — заявляет директор направления МО Джефф Дин (Jeff Dean). Сегодня из 25000 программистов, работающих в Google, только несколько тысяч профессионалов машинного обучения. Это примерно 10% от общего числа. Джефф Дин надеется, что этот показатель постепенно достигнет 100%. Он заявляет: «Было бы здорово, если бы каждый программист в компании владел определенными знаниями в области МО». Уверен ли Дин в том, что это действительно произойдет? «Мы будем стараться», — заявил он.

В течение многих лет Джон Джиннандреа (John Giannandrea) продвигает идеи машинного обучения. Недавно он возглавил поисковый отдел, что красноречиво иллюстрирует новый курс компании. Однако, когда Джиннандреа пришел в компанию, у него был лишь незначительный опыт в сфере машинного обучения и нейронных сетей. В 2011 году он посетил конференцию «Neural Information Processing Systems» (NIPS) и был поражен новостями. Казалось, каждый год на конференции NIPS высказывались идеи, на голову опережавшие предыдущие достижения в области перевода, голосового поиска или машинного зрения. Происходило нечто невероятное. «На первый взгляд, казалось, что на этой конференции обсуждаются совершенно непонятные вещи», — говорит Джон Джиннандреа. «Но эта область, на пересечении академических знаний и индустрии, достигла невероятных высот за три года. На последней конференции присутствовало около 6000 человек».

На фото Джефф Дин

Усовершенствованные алгоритмы эмуляции нейронных сетей совместно с увеличивающейся благодаря закону Мура вычислительной мощностью и экспоненциальным ростом количества данных о поведении пользователей, собираемых компаниями вроде Google или Facebook, дали старт новой эпохе господства машинного обучения. Джиннандреа стал одним из тех, кто считает это направление приоритетным. К нему присоединился и Дин, основавший Google Brain — проект по работе с нейронными сетями, начатый в отделе долгосрочных исследований Google X.

Руководство Google увлеклось технологиями машинного обучения не просто ради совершенствования навыков программирования. Это увлечение позволит компьютерам получить невиданные ранее возможности. Технология «глубокого обучения», созданная на основе усовершенствованных нейронных сетей и частично имитирующая структуру мозга человека, на сегодня самая передовая. Проект Google Brain — попытка совершенствования технологий МО. Кроме того, руководство Google приобрело компанию DeepMind за 500 миллионов долларов. Этот бренд также специализируется на искусственном интеллекте и продолжает работу в этой области. Именно DeepMind создала систему AlphaGo, победившую чемпиона по игре в Go. Эта победа внушила страх тем, кто боится умных машин и роботов-убийц.

Джиннандреа и другие специалисты в области искусственного интеллекта не считают, что человечество будет уничтожено искусственным разумом. Но они уверены, что появление «умных» машин изменит все вокруг нас: начиная от постановки медицинских диагнозов и заканчивая вождением автомобилей. Машины не смогут полностью заменить людей, однако благодаря им наша жизнь существенно изменится.

Как пример способностей МО, Джиннандреа приводит проект Google Photos. Основная функция программы — поиск изображения предмета, заданного пользователем. Например, фотографии собак породы «бордер-колли». «Когда человек наблюдает за работой данной программы, ему кажется, что происходит нечто сверхъестественное, ведь система не просто выдает видео или изображения, основываясь на предпочтениях», — утверждает Джиннандреа. «Компьютер понимает, что именно изображено на картинке». Джиннандреа поясняет, что благодаря способности к обучению, компьютер «знает», как выглядит собака породы бордер-колли.

Система узнает собаку на фотографии, где изображен щенок или взрослая особь, с отросшей шерстью или сразу после стрижки. Любой человек тоже легко сделает это. Но никто не просмотрит миллион фотографий и не отберет из них 10000 изображений нужных пород за несколько минут. А компьютер сделает это благодаря технологиям машинного обучения. «В этом и есть инновационный подход», — заявляет Джиннандреа. «Именно на таких примерах видны невероятные, сверхчеловеческие возможности обучающих систем».

Разумеется, технологии машинного обучения давно изучаются специалистами Google, чьи основатели всегда верили в безграничный потенциал искусственного интеллекта. Технологии МО уже встроены во многие продукты компании, хотя некоторые из них не используют нейронные сети (они основаны на более простом статистическом подходе).

Более десяти лет назад внутри Google уже проводились курсы по машинному обучению. В 2005 году Питер Норвиг (Peter Norvig), возглавлявший тогда отдел поиска, предложил исследователю Дэвиду Пабло Кону (David Pablo Cohn) проверить, может ли Google перенести к себе курсы университета Карнеги-Мэллон. Кон выяснил, что только сотрудники Google способны организовать и провести курсы по машинному обучению, так как масштабы этой компании превосходят все остальные. В итоге, Питер Норвиг решил занять большую аудиторию номер 43 и стал проводить там двухчасовые курсы каждую среду. Даже Дин присутствовал на нескольких занятиях. «Это были самые лучшие в мире курсы», — заявлял Кон. «Все студенты были выдающимися программистами, которые во многом превосходили меня!» Курсы стали настолько популярными, что все начало выходить из под контроля.

Люди, работавшие в офисе в Бангалоре, ночевали на работе, чтобы слушать лекции удаленно. Несколько лет спустя некоторые специалисты Google стали делать записи лекций. Кон полагает, что это событие предвосхитило создание «Массовых открытых онлайн-курсов» (MOOC). Потом в компании прошло множество курсов по МО, но они были несравнимы с курсами Норвига по регулярности и масштабу. Кон ушел в 2013 году как раз перед тем, как машинное обучение стало приоритетным направлением.

В 2012 году у Джиннандреа возникла идея собрать всех сотрудников компании, заинтересованных в машинном обучении, в одном здании. Специалисты, трудившиеся над проектом Google Brain, тоже присоединились к ним. «Мы собрали представителей нескольких команд в одном месте и купили им отличную кофемашину», — заявил Джиннандреа. «Теперь люди, работавшие над голосовым управлением, могли пообщаться с тем, кто занимался технологиями машинного перевода».

Постепенно результаты команды, изучавшей МО, стали появляться в программных продуктах Google. Поскольку основные области применения машинного обучения — зрение, синтез, распознавание речи и перевод, то неудивительно, что технологии МО появились в таких продуктах как «Голосовой поиск», «Google переводчик» и «Google фото». Поразительно, что теперь специалисты Google повсеместно внедряют МО. По мере того, как сотрудники все лучше и лучше понимают принципы машинного обучения, они поднимают мировую планку использования данной технологии. «Раньше мы внедряли МО только в некоторых компонентах системы», — утверждает Джефф Дин. «Теперь мы используем МО взамен целых систем». Дин также добавляет, что если бы ему пришлось переписывать внутреннюю структуру программных продуктов Google, то большая часть компонентов была бы создана при помощи машинного обучения, а не программирования.

На фото Грег Коррадо (Greg Corrado)

Машинное обучение наделяет программные продукты свойствами, невообразимыми ранее. Пример тому — умный ответ (Smart Reply) в Gmail. Эта функция была запущена в ноябре 2015 года. Все началось с разговора одного из основателей проекта Google Brain Грега Коррадо и программиста Gmail Балинта Миклоса (Bálint Miklós). Коррадо раньше работал с командой Gmail. Тогда были созданы алгоритмы распознавания спама и классификации писем. Однако Миклос предложил нечто радикальное. Его идея заключалась в том, чтобы система автоматически генерировала ответы на письма. «Я был поражен, ведь его идеи тогда казались мне безумными», — говорит Коррадо. «Но потом я подумал, что с помощью предиктивных технологий наших нейронных сетей это становится возможным. Мы поняли, что если есть хоть один шанс воплотить эту задумку в реальность, то стоит попробовать».

Руководство Google увеличило шансы на реализацию идеи, поддерживая тесный контакт между Коррадо и командой Gmail. Затем такой подход стал применяться все чаще, и специалисты по машинному обучению появились в каждой команде, работающей над программными продуктами. «Машинное обучение — одновременно и наука, и искусство», — утверждает Коррадо. «Это больше похоже на изысканную кулинарию. Разумеется, химия важна в этом деле, но, чтобы приготовить нечто превосходное, вам нужно сочетать доступные ингредиенты».

Традиционные методы распознавания языка при помощи технологий искусственного интеллекта подразумевают включение правил языка в систему. Но в этом проекте в систему было загружено достаточно данных, чтобы она могла обучаться языку самостоятельно точно так же, как это делает ребенок, когда учится говорить. «Я учился разговаривать не у лингвиста, а слушая, как говорят другие люди», — утверждает Коррадо. Но что действительно способствовало успеху Smart Reply, так это то, что были разработаны четкие критерии успеха. Идея заключалась не в том, чтобы создать виртуальную Скарлетт Йохансон, которая вела бы непринужденные беседы с пользователями. Нужно было разработать правдоподобные ответы на реальные письма. «Успешным считался такой ответ, которые пользователи находили полезным», — заявлял Коррадо. В результате, система самостоятельно обучалась, когда пользователи выбирали понравившийся им ответ.

После начала тестирования функции Smart Reply, пользователи отметили странную особенность системы: часто она предлагала романтические ответы, когда это не соответствовало ситуации. «Одной из ошибок системы было то, что когда алгоритм находился в замешательстве, он всегда предлагал ответ «я люблю тебя», — утверждал Коррадо. «Это не было ошибкой самой программы, проблема заключалась в том, что именно мы просили ее сделать». Программа каким-то образом изучила один из тонких аспектов поведения человека: «Если сомневаешься, скажи «я люблю тебя». Это хорошая защитная стратегия». Однако Коррадо помог команде справиться с излишней романтичностью системы.

Функция Smart Reply стала доступной пользователям в ноябре 2015 года и сразу же покорила всех. Теперь у них была возможность выбрать из трех возможных вариантов ответа на письмо и отправить его одним касанием. «Я до сих пор удивляюсь, как это работает», — смеется Коррадо.

Smart Reply стал лишь одним из примеров успешного машинного обучения в программных продуктах Google. Но, вероятно, поворотный момент наступил тогда, когда МО стало неотъемлемой частью поисковой системы. Не секрет, что именно поисковая система — главный продукт Google и основной источник ее доходов. Искусственный интеллект всегда в какой то мере применялся в технологиях поиска. Но много лет «священные» алгоритмы поиска считались чересчур важными, чтобы отдавать их «во власть» машинного обучения. «Поскольку поисковая система так важна, ранжирование сильно эволюционировало. Хотя людям трудно было поверить, что возможно большее», — утверждает Джиннандреа.

К началу 2014 года эксперты по машинному обучению пришли к выводу, что ситуация должна измениться. «Мы вели длительные беседы с командой, занимающейся технологиями ранжирования», — говорит Джефф Дин. «Мы говорили о том, что нужно хотя бы попробовать и посмотреть на результат». Планируемый эксперимент затрагивал самую основу процесса поиска: насколько хорошо файлы выдачи соответствуют поисковому запросу (этот показатель измеряется по количеству кликов пользователя). «Мы предложили вычислить еще одну метрику при помощи нейронных сетей и посмотреть, будет ли она эффективной».

В результате оказалось, что данная метрика чрезвычайно полезна. Теперь она стала частью поисковой системы и носит название RankBrain. Новая функция была запущена в апреле 2015 года. Специалисты Google не отвечают, как функция улучшает алгоритм поиска. Однако Дин говорит, что RankBrain работает с каждым запросом и влияет на результаты ранжирования — если не во всех случаях, то во многих.

«Для компании было важно улучшить поисковую систему технологией машинного обучения», — утверждает Джиннандреа. «Это привлекло внимание множества людей». Профессор Вашингтонского университета Педро Домингос говорит об этом по-другому: «Борьба между сторонниками традиционного поиска и специалистами по машинному обучению шла всегда», — говорит он. «Последние в итоге победили».

Новая задача Google — сместить приоритеты программистов. По мнению руководства, все они должны быть если не специалистами в сфере машинного обучения, то хотя бы имели какие-то представления о нем. Аналогичный цели ставит Facebook, также заинтересованный в глубоком обучении. Конкуренция за выпускников со специализацией «Машинное обучение» очень высока, и Google изо всех сил старается сохранить свое преимущество. Уже несколько лет в академических кругах поговаривают что Google постоянно нанимает студентов, даже если они не нужны компании, просто чтобы те не ушли к конкурентам. Но на самом деле, каждый такой выпускник представляет ценность для корпорации. «Мои студенты всегда получают приглашение от Google», — заявляет Педро Домингос. Страсти продолжают накаляться в связи с тем, что недавно руководство Google объявило об открытии лаборатории МО в Цюрихе. Что создаст множество рабочих мест.

На фото Кристин Робсон (Christine Robson). Она обучает специалистов техникам МО.

Поскольку в университетах не готовят достаточно специалистов по машинному обучению, переподготовка сотрудников — насущная проблема. Однако это не всегда так просто, особенно если речь идет о компании вроде Google, где работает множество выдающихся программистов, которые потратили жизнь на то, чтобы достигнуть успехов в сфере традиционного программирования. Для машинного обучения нужен другой склад ума. Выдающиеся программисты обычно достигают значительных успехов из-за умения контролировать программируемую систему. Помимо этого, МО требует глубокого понимания математики и статистики.

Также экспертам по машинному обучению нужно обладать терпением. «Модель МО — это не статичный кусок кода. Вы постоянно наполняете систему данными», — утверждает Кристин Робсон. «Мы постоянно обновляем существующие модели и обучаем их, добавляя новые данные и способности к предсказаниям. Они похожи на живые существа. Чтобы умело обращаться с ними, необходим иной подход к программированию».

Джиннандреа рассматривает «пропаганду» машинного обучения как часть своей работы и заявляет, что это наука об экспериментах с другими алгоритмами. Необходимо определить, какие из них работают лучше всего. При этом, информатика никуда не девается, но приходится большое внимание уделять математике и статистике и меньше думать о написании кода.

Руководство Google уверено, что преодолеть этот барьер сотрудникам поможет так называемое «умное» переобучение «В конце концов, используемая в моделях машинного обучения математика не так уж сложна», — заявляет Дин. «Ее в состоянии освоить любой программист в компании». Чтобы помочь начинающим экспертам по машинному обучению, в компании Google было создано несколько инструментов, помогающих при работе с моделями МО. Самым мощным из таких инструментов на данный момент является TensorFlow. Он ускоряет работу с нейронными сетями. TensorFlow был разработан Дином совместно с его коллегой Раджатом Монгой. Данный инструмент позволяет стандартизировать «нудные» детали построения системы.

У Google есть множество инструментов для работы с системами машинного обучения. Один из них специалисты компании использовали давно, но объявили об этом лишь недавно. Это инструмент носит название Tensor Processing Unit. Он представляет собой микрочип, оптимизированный для эффективной работы программ МО. Огромное множество чипов (точное их число известно только Богу и Ларри Пэйджу) уже установлено в серверах дата-центров компании. Они ускоряют работу нейронных сетей и дают Google огромное преимущество. «Без них мы бы не создали RankBrain», — утверждает Дин.

Компания Google больше всего нуждается в грамотных специалистах, способных разрабатывать и настраивать системы МО. Для этого в компании постоянно проводятся как крупные, так и мелкие эксперименты. Например, двухдневный «Крэш-курс по МО с TensorFlow». В курсе содержится теоретическая информация и упражнения.

Менее масштабные эксперименты создаются с целью привлечения экспертов по машинному обучению извне. Этой весной Google запустил программу Brain Residency, призванную вовлечь перспективных программистов и обучать их в течение года силами группы Google Brain. Карсон Холгейт (о которой было сказано в начале статьи), участвуя в программе для «ниндзя машинного обучения» узнает то, что имеет огромное значение для планов Google. Эта корпорация намерена занять главную роль в сфере искусственного интеллекта.

«С машинным обучение у нас все серьезно», — заявляет Карсон Холгейт.

Высоких вам конверсий!

По материалам: backchannel.com

Менеджер компании готов ответить на все
ваши вопросы

менеджер компании свяжется с вами
в течение рабочего дня

Источник: lpgenerator.ru

Как Google делает революцию в машинном обучении

Комментарии: