Исследование Google: оглядываясь назад на 2019 год, и вперед к 2020 году и за его пределами

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Опубликовано Джеффом Дином, старшим научным сотрудником и вице-президентом Google Research and Health, от имени всего исследовательского сообщества Google

Цель исследования Google это работа над долгосрочными, амбициозными проблемами, с акцентом на решение тех из них, которые значительно помогут людям на протяжении всей их повседневной жизни. Для достижения этой цели в 2019 году мы продвинулись в широком спектре фундаментальных исследований, применили наши исследования к новым и возникающим областям, таким как здравоохранение и робототехника, открытый исходный код широкого спектра кода и продолжили сотрудничество с продуктовыми командами Google для создания инструментов и сервисов, которые значительно более полезны для наших пользователей. Когда мы начинаем 2020 год, полезно сделать шаг назад и оценить исследовательскую работу, которую мы провели за последний год, а также посмотреть, какие проблемы мы хотим решить в предстоящие годы. В этом духе это сообщение в блоге представляет собой обзор некоторых из исследовательских работ, выполненных исследователями и инженерами Google в 2019 году (в духе аналогичных обзоров за 2018 год и более узконаправленных обзоров некоторых работ в 2017 и 2016 годах ). Для более полного обзора, пожалуйста, смотрите наши исследовательские публикации в 2019 году . Этическое использование ИИ В 2018 году мы опубликовали набор принципов ИИ это обеспечивает основу, с помощью которой мы оцениваем наши собственные исследования и применение технологий, таких как машинное обучение в наших продуктах. В июне 2019 года мы опубликовали годовое обновление о том, как эти принципы реализуются на практике во многих различных аспектах наших исследований и разработок жизненного цикла продукции. Поскольку многие из областей, затронутых принципами, являются активными областями исследований в более широком исследовательском сообществе ИИ и машинного обучения (такие как предвзятость, безопасность, справедливость, подотчетность, прозрачность и конфиденциальность в системах машинного обучения), наши цели заключаются в применении лучших на данный момент известных методов в этих областях к нашей работе, а также в проведении исследований для дальнейшего развития современного состояния в этих важных областях. Например, в прошлом году мы:

https://www.youtube.com/watch?v=XOk2_OXeaCw&feature=emb_title

  • Введена TensorFlow Privacy, библиотека с открытым исходным кодом, позволяющая обучать модели машинного обучения с дифференциальными гарантиями конфиденциальности.
  • Выпущена бета-версия индикаторов справедливости, чтобы помочь практикующим специалистам в области ОД выявить несправедливые или непреднамеренные последствия моделей машинного обучения.
    Щелчок на срезе индикаторов справедливости загрузит все точки данных в этом срезе внутри виджета инструмента что-если. В этом случае отображаются все точки данных с меткой “женский”.
  • Опубликовал документ KDD ' 19 о том, как попарные сравнения и регуляризация включены в крупномасштабную производственную рекомендательную систему для повышения справедливости ML.
  • Опубликовал статью AIES ' 19 о тематическом исследовании по применению справедливости в исследованиях машинного обучения к системе классификации производства и описал нашу метрику справедливости, условное равенство, которая учитывает распределительные различия в реализации равенства возможностей.
  • Опубликовал статью AIES ' 19 О контрфактической справедливости в задачах классификации текста, в которой задается вопрос: "Как изменится прогноз, если чувствительный атрибут, на который ссылается пример, будет отличаться?"и использовали этот подход для улучшения наших производственных систем, которые оценивают токсичность онлайн-контента.
  • Выпущен новый набор данных, чтобы помочь с исследованиями для выявления deepfakes .
    Пример видео из вклада Google в тест FaceForensics. Для этого пары актеров выбирались случайным образом, и глубокие нейронные сети меняли лицо одного актера на голову другого.

ИИ для социального блага Существует огромный потенциал для машинного обучения, который поможет решить многие важные социальные проблемы. Мы работаем в нескольких таких областях, а также работаем над тем, чтобы другие могли применить свои творческие способности и навыки для решения таких проблем. Наводнения являются самой распространенной и самой смертоносной природной катастрофой на планете , от которой ежегодно страдают около 250 миллионов человек. Мы использовали машинное обучение, вычисления и лучшие источники данных, чтобы сделать значительно более точные прогнозы наводнений, а затем доставить действенные оповещения на телефоны миллионов людей в пострадавших регионах. Мы также провели семинар, который объединил исследователей с опытом в области прогнозирования наводнений, гидрологии и машинного обучения от Google и более широкого исследовательского сообщества для обсуждения путей дальнейшего сотрудничества по этой важной проблеме.

В дополнение к нашим усилиям по прогнозированию наводнений, мы разрабатываем методы для лучшего понимания дикой природы в мире, сотрудничая с семью организациями по охране дикой природы, чтобы использовать машинное обучение, чтобы помочь анализировать данные камеры дикой природы и сотрудничать с NOAA США для выявления видов китов и местоположения из звуков в подводных записях. Мы также создали и выпустили набор инструментов для обеспечения новых видов ориентированных на машинное обучение исследований биоразнообразия . В рамках оказания помощи в организации 6-го мелкозернистого семинара по визуальной категоризации, Исследователи Google в нашем офисе в Аккре, Гана сотрудничали с исследователями из Университета Makerere AI & Data Science research group для создания и проведения конкурса Kaggle по классификации болезней растений маниоки . Поскольку маниока является вторым по величине источником углеводов в Африке, здоровье растений является важной проблемой продовольственной безопасности, и было приятно видеть, что в конкурсе участвуют более 100 участников из 87 команд. В 2019 году мы обновили Google Earth Timelapse, что позволяет людям эффективно и интуитивно визуализировать, как изменилась планета за последние 35 лет. Кроме того , мы сотрудничаем с академическими исследователями над новыми способами сохранения конфиденциальности для сбора данных о мобильности человека, чтобы дать городским планировщикам лучшую информацию о том, как проектировать эффективные среды с более низкими уровнями выбросов углерода.

https://www.youtube.com/watch?v=tXNJa86tErQ&feature=emb_title

Мы также применили машинное обучение для поддержки обучения детей. По данным Организации Объединенных Наций , 617 миллионов детей не имеют элементарной грамотности, что является важнейшим фактором, определяющим качество их жизни. Чтобы помочь большему количеству детей научиться читать, наше приложение Bolo использует технологию распознавания речи, которая обучает студентов в режиме реального времени. И чтобы увеличить доступ, приложение работает полностью в автономном режиме на недорогих телефонах. В Индии Боло уже помог 800 000 детей прочитать рассказы и произнести полмиллиарда слов. Первые результаты обнадеживают; трехмесячный экспериментальный проект среди 200 деревень в Индии было отмечено улучшение уровня владения чтением среди 64% участников эксперимента.

Для старших школьников приложение Socratic может помочь старшеклассникам решить сложные задачи по математике, физике и более чем 1000 темам высшего образования. На основе фотографии или словесного вопроса, приложение автоматически определяет основные понятия вопроса и ссылки на наиболее полезные интернет-ресурсы. Как и сократический метод, приложение не отвечает непосредственно на вопросы, а вместо этого приводит студентов, чтобы найти ответ самостоятельно. Мы взволнованы широкими возможностями улучшения образовательных результатов во всем мире с помощью таких вещей, как Боло и Сократ. Чтобы расширить охват нашего ИИ для социальных благих усилий, в мае мы объявили грантополучателей нашего ИИ Impact Challenge с $ 25 миллионов в виде грантов от Google.org ответ был огромен: мы получили более 2600 продуманных предложений из 119 стран. Двадцать впечатляющих организаций выделялись своим потенциалом для решения больших социальных и экологических проблем и были нашим первоначальным набором грантополучателей. Несколько примеров работы этих организаций:

  • Фонд "Врачи без границ" (MSF) создает бесплатное приложение для смартфонов, которое использует инструменты распознавания изображений, чтобы помочь клиническому персоналу в условиях низких ресурсов (в настоящее время пилотируется в Иордании) анализировать антимикробные изображения и консультировать по соответствующим антибиотикам для использования при инфекции конкретного пациента.
  • Более миллиарда человек живут в небольших фермерских хозяйствах. Одна-единственная атака вредителей может уничтожить их урожайность и средства к существованию. Wadhwani AI использует модели классификации изображений, которые могут идентифицировать вредителей и своевременно давать рекомендации о том, какие пестициды следует распылить и когда—в конечном итоге повысить урожайность сельскохозяйственных культур.
  • И глубоко в тропических лесах, где незаконное обезлесение является главным фактором изменения климата, Rainforest Connection использует глубокое обучение для биоакустического мониторинга и старых мобильных телефонов для отслеживания здоровья тропических лесов и обнаружения угроз.
    Наши 20 победителей AI Impact Challenge. Вы можете узнать больше о работе всех грантополучателей здесь .

Применение ИИ в других областях Применение компьютерных наук и машинного обучения в других научных областях-это область , в которой мы особенно заинтересованы и опубликовали ряд статей, часто в сотрудничестве с несколькими организациями. Некоторые основные моменты из этого года включают в себя:

2D снимок нашего пространства встраивания с некоторыми выделенными запахами примера. Слева: каждый запах сгруппирован в своем собственном пространстве. Справа: иерархическая природа дескриптора запаха. Затененные и контурные области вычисляются с оценкой плотности ядра вложений.
  • В интерактивной, автоматизированной 3D реконструкции мозга мухи, мы сообщили о совместных усилиях, которые достигли важной вехи отображения структуры всего мозга мухи, используя модели машинного обучения, которые были в состоянии тщательно отслеживать каждый отдельный нейрон.
  • При изучении более совершенных методов моделирования для уравнений с частными производными (PDE) мы показали, как машинное обучение может быть использовано для ускорения вычислений PDE, которые лежат в основе многих фундаментальных вычислительных проблем в области климатологии, гидродинамики, электромагнетизма, теплопроводности и общей теории относительности.
    Моделирование уравнения Бюргерса, модели ударных волн в жидкостях, решенной либо стандартным методом конечного объема (слева), либо нашим методом на основе нейронной сети (справа). Оранжевые квадраты представляют собой моделирование с каждым методом на сетках низкого разрешения. Эти точки возвращаются в модель на каждом временном шаге, который затем предсказывает, как они должны измениться. Синие линии показывают точное моделирование, используемое для обучения. Нейросетевое решение намного лучше, даже на более грубой сетке в 4 раза, о чем свидетельствуют оранжевые квадраты, плавно прослеживающие синюю линию.
  • Мы дали модели машинного обучения лучшие запахи мира с помощью обучения обонянию: использование глубокого обучения для прогнозирования обонятельных свойств молекул . Мы показали, как использовать графовые нейронные сети (GNNs) для прямого предсказания дескрипторов запаха для отдельных молекул, не используя никаких правил ручной работы.
  • В работе, которая сочетает в себе методы обучения химии и армирования, мы представили основу для оптимизации молекул.
  • Машинное обучение также может помочь нам в наших художественных и творческих начинаниях. Художники нашли способы сотрудничать с AI и AR и создавать интересные новые формы, от танца с машиной до переосмысления хореографии, до создания новых мелодий с помощью инструментов машинного обучения. Мл может быть использован новичками, тоже. Чтобы почтить день рождения J. S. Bach, мы показали ML-powered Doodle: просто создайте свою мелодию, и инструмент ML может создавать сопровождающие гармонии в стиле Баха.

Ассистивная Технология В более личном масштабе мл может помочь нам в нашей повседневной жизни. Легко принять как должное нашу способность увидеть красивый образ, услышать любимую песню или поговорить с любимым человеком. Тем не менее, более одного миллиарда человек не могут получить доступ к миру таким образом. Технология ML может помочь, превратив эти сигналы-зрение, слух, речь—в другие сигналы, которые могут быть хорошо управляемы людьми с потребностями доступности, позволяя улучшить доступ к окружающему миру. Несколько примеров нашей ассистивной технологии:

  • Lookout помогает людям, которые являются слепыми или имеют низкое зрение идентифицировать информацию о своем окружении. Он опирается на аналогичную базовую технологию, такую как Google Lens, которая позволяет вам искать и принимать меры на объектах вокруг вас, просто указав свой телефон.
  • Живая транскрипция имеет потенциал, чтобы дать людям, которые являются глухими или слабослышащими большую независимость в их повседневных взаимодействиях. Вы можете получить в режиме реального времени расшифровки разговоров, которыми занимается пользователь, даже если речь идет на другом языке.
  • Проект Euphonia выполняет персонализированную транскрипцию речи в текст. Для людей с ALS и другими условиями, которые производят нечеткую или нестандартную речь, это исследование улучшает автоматическое распознавание речи (ASR) по сравнению с другими современными моделями ASR.
  • Как и проект Euphonia, Parrotron использует сквозные нейронные сети, чтобы помочь улучшить коммуникацию, но исследование фокусируется на автоматическом преобразовании речи в речь, а не на транскрипции, представляя речевой интерфейс, который может быть проще для некоторых пользователей.
  • Миллионы изображений в Интернете не имеют никакого текстового описания. Получить описания изображений от Google помогает слепым или слабовидящим пользователям понять немаркированные изображения. Когда программа чтения с экрана обнаруживает изображение или графический элемент без описания, Chrome теперь может создать его автоматически.
  • Мы разработали инструменты, которые могут читать визуальный текст в звуковой форме в Lens для Google Go, что очень помогает пользователям, которые не полностью грамотны, ориентироваться в мире слов, богатых вокруг них.

https://www.youtube.com/watch?v=ePwKgKp69GE&feature=emb_title

Что Делает Ваш Телефон Более Интеллектуальным Большая часть нашей работы служит для обеспечения интеллектуальных, персональных устройств, предоставляя мобильным телефонам новые возможности за счет использования машинного обучения на устройстве. Делая мощные модели, которые могут работать на устройстве, мы можем гарантировать, что эти функции телефона очень отзывчивы и всегда доступны даже в режиме полета или иным образом вне сети. Мы добились прогресса в получении высокоточных моделей распознавания речи, моделей зрения и моделей распознавания почерка, работающих на устройстве, прокладывая путь к мощным новым функциям. Некоторые из основных моментов этого года включают в себя:

Федеративное обучение (проверьте онлайн-комикс описание!)- это мощный подход машинного обучения, изобретенный исследователями Google в 2015 году, при котором многие клиенты (например, мобильные устройства или целые организации) совместно обучают модель, сохраняя при этом обучающие данные децентрализованными. Это позволяет использовать подходы, обладающие превосходными свойствами конфиденциальности в крупномасштабных системах обучения. Мы используем федеративное обучение во все большем количестве наших продуктов и функций, а также работаем над продвижением современного состояния во многих исследовательских проблемах в этом пространстве. В 2019 году исследователи Google сотрудничали с авторами из 24 (!) академические учреждения подготовить обзорную статью о федеративном обучении , освещающую достижения за последние несколько лет, а также описывающую ряд открытых исследовательских проблем в этой области. Область вычислительной фотографии привела к большим достижениям в качестве изображения телефонных камер за последние несколько лет, и этот год не стал исключением. В этом году мы упростили съемку отличных селфи, профессиональных изображений с малой глубиной резкости и портретов, а также использование функции ночного видения на пиксельных телефонах для получения потрясающих астрофотографических снимков . Более подробную техническую информацию об этой работе можно найти в работах по многокадровой сверхразрешающей и мобильной фотографии в условиях очень низкой освещенности. Вся эта работа поможет вам сделать отличные фотографии, чтобы помнить волшебные моменты жизни, как они происходят.

Здоровье В конце 2018 года мы объединили команду Google Research health, Deepmind Health и команду из аппаратного подразделения Google, сосредоточенную на приложениях, связанных со здоровьем, чтобы сформировать здоровье Google . В 2019 году мы продолжили исследования, которые мы проводили в этом пространстве, публикуя научные статьи и создавая инструменты в сотрудничестве с различными партнерами в области здравоохранения. Вот несколько основных моментов из 2019 года:

  • Мы показали, что модель глубокого обучения для маммографии может помочь врачам в выявлении рака молочной железы, состояние, которое влияет на 1 из 8 женщин в США в течение их жизни, с большей точностью, чем эксперты, уменьшая как ложные положительные, так и ложные отрицательные результаты. Модель, обученная на основе деидентифицированных данных из британской больницы, имела аналогичные достижения в точности при использовании для оценки пациентов в совершенно другой системе здравоохранения в США.
    Пример трудно обнаруживаемого случая рака, правильно идентифицированного с помощью машинного обучения.
  • Мы показали, что модель глубокого обучения для дифференциальной диагностики кожных заболеваний может дать результаты, которые значительно более точны, чем врачи первичной медико-санитарной помощи и наравне или, возможно, немного лучше, чем дерматологи.
  • Работая вместе со специалистами из Министерства по делам ветеранов США (VA), коллеги DeepMind Health, которые теперь являются частью Google Health, показали, что модель машинного обучения может предсказать наступление острой травмы почек (ОПП), одной из ведущих причин предотвратимого вреда пациентам, до двух дней, прежде чем это произойдет. В будущем это может дать врачам 48-часовой старт в лечении этого серьезного состояния.
  • Мы расширили применение глубокого обучения для электронных медицинских карт с несколькими организациями-партнерами. Вы можете прочитать больше об этой работе в нашем блоге 2018 года .

https://www.youtube.com/watch?v=P3SYqcPXqNk&feature=emb_title

https://www.youtube.com/watch?v=kw_X7x3G6FY&feature=emb_title

Квантовые Вычисления В 2019 году наша команда квантовых вычислений впервые продемонстрировала вычислительную задачу, которая может быть выполнена экспоненциально быстрее на квантовом процессоре, чем на самом быстром классическом компьютере в мире — всего за 200 секунд по сравнению с 10 000 лет.

Слева: авторское исполнение процессора Sycamore, установленного в криостате. (Полная версия Res ; Forest Stearns, Google AI Quantum Artist in Residence) справа: фотография процессора Sycamore. (Полная версия Res; Эрик Люцеро, ученый-исследователь и квантовое оборудование для производства свинца)

Использование квантовых компьютеров может сделать решаемыми важные проблемы в таких областях, как материаловедение, квантовая химия ( ранний пример ) и крупномасштабная оптимизация, но для того, чтобы сделать это реальностью, нам придется продолжать продвигать эту область вперед. Теперь мы сосредоточились на реализации квантовой коррекции ошибок, чтобы иметь возможность выполнять вычисления дольше. Мы также работаем над тем, чтобы квантовые алгоритмы было проще выражать, аппаратное обеспечение легче контролировать, и мы нашли способы использовать классические методы машинного обучения, такие как глубокое подкрепление обучения чтобы построить более надежные квантовые процессоры. Достижения этого года обнадеживают и являются первыми шагами на пути к тому, чтобы сделать практические квантовые вычисления реальностью для более широкого круга проблем. Вы также можете прочитать мысли Сундара о том, что означает наша веха в области квантовых вычислений . Общие алгоритмы и теория В общих областях алгоритмов и теории мы продолжили наши исследования от алгоритмических основ до приложений, а также работали в области графового майнинга и рыночных алгоритмов . Сообщение в блоге, обобщающее некоторые из наших работ в алгоритмах обучения графов, дает более подробную информацию об этой работе. Мы опубликовали статью на VLDB '19 под названием" Cache-aware load balancing of data center applications", хотя альтернативным названием может быть "увеличение пропускной способности вашего центра обработки данных на 40% с помощью этого одного классного трюка!". В статье описывается, как мы использовали сбалансированное разбиение графиков для специализации кэшей в нашей системе внутреннего обслуживания веб-поиска, тем самым увеличивая пропускную способность запросов наших флэш-накопителей на 48% и помогая обеспечить 40% - ное увеличение пропускной способности всего поискового сервера.

Тепловая карта флэш-запросов ввода-вывода (в результате пропусков кэша) через веб-поисковые листы. Три горба представляют собой случайный выбор листьев, балансировку нагрузки и кэш-зависимую балансировку нагрузки (слева направо). В строках указаны 50-й, 90-й, 95-й и 99,9-й процентили. Из документа VLDB '19," Cache-aware load balancing of data center applications ."

В ICLR’2019 документе под названием "новая собака узнает старое: "Свобода" считает, классические алгоритмы оптимизации," мы обнаружили новые связи между алгоритмами машинного обучения, показывая, как обучение с подкреплением может эффективно находить оптимальные (в худшем случае, униформа) алгоритмы для нескольких классических онлайн оптимизационных комбинаторных задач, такие как онлайн-подбора и распределения. Наша работа в области масштабируемых алгоритмов охватывает как параллельные, онлайновые, так и распределенные алгоритмы для больших наборов данных. В недавнем документе Фокс ' 19, мы предоставили почти оптимальный алгоритм массового параллельного вычисления для связанных компонентов. Другой набор наших работ улучшил параллельные алгоритмы для сопоставления (в теории и практике ) и для кластеризации плотности . И третья линия работы касалась адаптивной оптимизации субмодулярных функций в модели черного ящика, которая имеет несколько применений в выборе функций и сжатии словаря . В статье SODA ' 19 мы представили алгоритм субмодулярной максимизации, который почти оптимален в трех аспектах: коэффициент аппроксимации, круглая сложность и сложность запроса. Кроме того, в другом FOCS 2019 paper, мы предоставляем первый онлайн-алгоритм мультипликативной аппроксимации для выбора PCA и подмножества столбцов. В другой работе мы вводим полу-онлайновую модель вычислений, которая постулирует, что неизвестное будущее имеет предсказуемую часть и состязательную часть. Для классических комбинаторных задач, таких как двудольное сопоставление ( ITCS’19 ) и кэширование ( SODA’20), мы получили полуинтернетные алгоритмы, обеспечивающие гарантии плавной интерполяции между наилучшими возможными онлайн-и офлайн-алгоритмами. Наши последние исследования в области рыночных алгоритмов включает в себя новое понимание взаимодействия между обучением и рынками, а также инновации в экспериментальном проектировании . Например, эта устная статья NeurIPS ' 19 показывает удивительное конкурентное преимущество, которое стратегический агент имеет, конкурируя с обучающим агентом в общей повторяемой игре 2 игроков. В последнее время акцент на автоматизации рекламы привел к повышению интереса к автоматизированным торгам и пониманию ответного поведения рекламодателей. В паре вино 2019 года статьи, мы изучаем оптимальную стратегию максимизации конверсий от имени рекламодателей и дополнительно изучаем поведение реакции рекламодателя на любые изменения в аукционе. Наконец, мы изучили экспериментальное проектирование в присутствии интерференции, где лечение одной группы может повлиять на исходы других. В статье KDD '19 и статье NeurIPS' 19 мы показываем, как определить единицы или кластеры единиц для ограничения интерференции при сохранении экспериментальной мощности .

Алгоритм кластеризации из статьи KDD ' 19 "рандомизированное экспериментальное проектирование с помощью географической кластеризации" применяется к пользовательским запросам из Соединенных Штатов. Алгоритм автоматически идентифицирует столичные районы, правильно предсказывая, например, что район залива включает Сан-Франциско, Беркли и Пало-Альто, но не Сакраменто.

Алгоритмы Машинного Обучения В 2019 году мы провели исследования во многих различных областях алгоритмов и подходов машинного обучения. Одним из основных направлений было понимание свойств динамики обучения в нейронных сетях. В блоге измерение пределов параллельного обучения данных для нейронных сетей , освещающих эту статью, исследователи Google представили тщательный набор экспериментальных результатов, показывающих, когда масштабирование объема параллелизма данных (путем создания больших пакетов) эффективно для быстрого сближения модели (с использованием параллелизма данных).

Для всех рабочих нагрузок, которые мы тестировали, мы наблюдали универсальную связь между размером пакета и скоростью обучения с тремя различными режимами: идеальное масштабирование с небольшими размерами пакета (после пунктирной линии), в конечном итоге наблюдая уменьшение отдачи по мере роста размеров пакета (отклонение от пунктирной линии) и максимальный параллелизм данных при больших размерах пакета (где плато тренда). Точки перехода между режимами резко различаются между различными рабочими нагрузками.

Параллелизм моделей, в отличие от параллелизма данных, когда модель распределена между несколькими вычислительными устройствами, может быть эффективным способом масштабирования моделей. GPipe-это библиотека, которая позволяет параллелизму модели быть более эффективным в подходе, аналогичном тому, который используется конвейерными процессорами CPU: когда одна часть всей модели работает с некоторыми данными, другие части могут работать со своей частью вычисления на разных данных. Результаты этого конвейерного подхода могут быть объединены вместе для моделирования большего эффективного размера пакета. Модели машинного обучения эффективны, когда они могут принимать необработанные входные данные и изучать “распутанные” представления более высокого уровня, которые разделяют различные виды примеров по свойствам, которые мы хотим, чтобы модель могла различать (cat vs truck vs wildebeest, cancerous tissue vs normal tissue и т. д.). Большая часть внимания на продвижение алгоритмов машинного обучения заключается в поощрении изучения лучших представлений, которые лучше обобщаются на новые примеры, проблемы или области. В этом году мы рассматривали эту проблему в целом ряде различных контекстов:

  • При оценке бесконтрольного обучения Распутанных представлений мы рассмотрели, какие свойства влияют на представления, которые изучаются из неконтролируемых данных,чтобы лучше понять, что делает хорошие представления и эффективное обучение.
  • При прогнозировании разрыва обобщения в глубоких нейронных сетях мы показали, что можно предсказать разрыв обобщения (разрыв между эффективностью модели по данным из обучающего распределения и данными, полученными из другого распределения), используя статистику распределения маржи, что помогает нам лучше понять, какие модели обобщают наиболее эффективно. Мы также провели некоторые исследования по улучшению обнаружения выхода из распределения в моделях машинного обучения, чтобы лучше понять, когда модель начинает сталкиваться с видами данных, которые она никогда не видела раньше. Мы также посмотрели на Внеполитическая классификация в контексте подкрепляющего обучения, чтобы лучше понять, какие модели, вероятно, будут обобщать лучшие.
  • При обучении обобщению редких и недостаточно специфичных вознаграждений мы также рассмотрели способы определения функций вознаграждения для подкрепляющего обучения, которые позволяют системам обучения более непосредственно учиться на истинных целях и меньше отвлекаться на более длительные, менее желательные последовательности действий, которые случайно достигают желаемых целей.
    В этой инструкции-следующей задаче траектории действия a 1, a 2 и A 3 достигают цели, но последовательности a 2 и A 3 не следуют инструкциям. Это иллюстрирует проблему недоспецифицированных вознаграждений.

AutoML Мы продолжили нашу работу над AutoML в этом году, подход, при котором алгоритмы, которые учатся, как учиться, могут автоматизировать многие аспекты машинного обучения и часто могут достигать существенно лучших результатов, чем лучшие специалисты по обучению человека машинам для некоторых видов мета-решений машинного обучения. Особенно:

  • В EfficientNet: повышение точности и эффективности за счет AutoML и модели масштабирования, мы показали, как с помощью нейронной архитектуры, методов поиска, чтобы достичь существенно лучших результатов на компьютер проблемы со зрением, в том числе новое государство-оф-искусство результате 84.4% топ-1 точность на возможность интеграции, имея в 8 раз меньшее количество параметров, чем предыдущие лучшую модель.
    Размер модели и сравнение точности. EfficientNet-B0 является базовой сетью , разработанной AutoML MNAS, в то время как Efficient-B1 до B7 получаются путем масштабирования базовой сети. В частности, наше EfficientNet-B7 достигает новой современной точности 84,4% top-1 / 97,1% top-5, пока был 8,4 x более малым чем самый лучший существующий CNN.
  • В работе EfficientNet-EdgeTPU: Creating Accelerator-Optimized Neural Networks with AutoML, мы показали, как подход к поиску нейронной архитектуры может находить эффективные модели, адаптированные к конкретным аппаратным ускорителям, что приводит к высокой точности и низким вычислительным моделям для работы на мобильных устройствах.
  • При поиске Видеоархитектуры мы описываем, как мы расширили нашу работу AutoML до области видеомоделей, находя архитектуры, которые достигают современных результатов, а также легкие архитектуры, которые соответствуют производительности моделей ручной работы, используя при этом в 50 раз меньше вычислений.
    Архитектуры TinyVideoNet (TVN) развивались таким образом, чтобы максимизировать производительность распознавания, сохраняя время вычислений в пределах желаемого предела. Например, TVN-1 ( top ) работает на 37 МС на CPU и 10 МС на GPU. TVN-2 (нижняя часть ) работает на 65 мс на CPU и 13 МС на GPU.
  • Мы разработали методы AutoML для табличных данных, открывающие важную область, где многие компании и организации имеют интересные данные в реляционных базах данных, и часто хотят разрабатывать модели машинного обучения на этих данных. Мы сотрудничали, чтобы выпустить эту технологию в качестве нового продукта Google Cloud AutoML Tables, а также обсудили, насколько хорошо эта система сделала в новом конкурсе Kaggle в сквозном решении AutoML для табличных данных в KaggleDays (спойлер: AutoML Tables занял второе место из 74 команд ученых-экспертов по данным).
  • При исследовании весовых Агностических нейронных сетей мы показали, как можно найти интересные архитектуры нейронных сетей без каких-либо обучающих шагов для обновления весов оцениваемых моделей. Это может сделать архитектурный поиск намного более эффективным с вычислительной точки зрения.
    Вес-агностическая нейронная сеть, выполняющая задачу раскачивания Картполя при различных весовых параметрах, а также использующая тонко настроенные весовые параметры.
  • Применение AutoML к трансформаторным архитектурам исследовало поиск архитектур для задач обработки на естественном языке, которые значительно превосходят модели трансформаторов vanilla при существенно сниженных вычислительных затратах.
    Сравнение между Эволюционированным трансформатором и первоначально трансформатором на WMT ' 14 En-De на меняя размерах. Самые большие увеличения в представлении происходят на более малых размерах, пока ET также показывает прочность на более больших размерах, делая самый большой трансформатор лучше с 37.6% меньше параметров (модели, котор нужно сравнить обведены в зеленый цвет). Смотрите таблицу 3 в нашей статье для получения точных цифр.
  • В SpecAugment: новый метод увеличения данных для автоматического распознавания речи, мы показали, что подход автоматического обучения методов увеличения данных может быть распространен на модели распознавания речи, с изученными подходами увеличения достигают значительно более высокой точности с меньшим количеством данных, чем существующие подходы увеличения данных человека ML-expert driven.
  • Мы запустили наше первое речевое приложение для определения ключевых слов и идентификации разговорного языка с помощью AutoML . В наших экспериментах мы нашли лучшие модели (как более эффективные, так и с лучшей производительностью), чем созданные человеком модели, которые были в этой обстановке в течение некоторого времени.

Понимание Естественного Языка За последние несколько лет были достигнуты замечательные успехи в создании моделей для понимания естественного языка, перевода, естественного диалога, распознавания речи и связанных с этим задач. В этом году одной из тем нашей работы было продвижение современного уровня путем объединения модальностей или задач для подготовки более мощных и способных моделей. Несколько примеров:

  • Изучая массово многоязычный, массивный нейронно-машинный перевод, мы показали значительные улучшения в качестве перевода, обучая одну модель для перевода между 100 языками, а не имея 100 отдельных моделей.
    Слева: языковые пары с большим объемом обучающих данных обычно имеют более высокое качество перевода. Правильно: многоязычное обучение, где мы обучаем одну модель для всех языковых пар, а не отдельные модели для каждой языковой пары, приводит к существенному улучшению оценки BLEU (мера качества перевода) для языковых пар без большого количества данных.
  • В крупномасштабном Многоязыковом распознавании речи с помощью потоковой сквозной модели мы показали, как объединение моделей распознавания речи и языка вместе и обучение системы на многих языках может значительно повысить точность распознавания речи.
    Слева: традиционный одноязычный распознаватель речи, состоящий из акустических, Произношительных и языковых моделей для каждого языка. Средний: традиционный многоязычный распознаватель речи, где акустическая и Произносительная модель является многоязычной, в то время как языковая модель является языковой спецификой. Справа: многоязычный распознаватель речи E2E, где акустическая, произношение и языковая модель объединены в единую многоязычную модель.
  • В Translatotron: конец-в-конец речи перевод модель, мы показали, что можно тренировать совместную модель для выполнения (как правило, отдельная) задачи распознавания речи, перевод и текст-в-речь поколения с приятными бонусами, такими как сохранение звука из динамиков голос в созданном перевод аудио, а также проще в целом система обучения.
  • В Multilingual Universal Sentence Encoder for Semantic Retrieval мы показали, как объединить множество различных целей для получения моделей, которые значительно лучше подходят для семантического поиска (по сравнению с более простыми методами подбора слов). Например , в Google Talk to Books запрос “ какой аромат вызывает воспоминания?"дает результат", и для меня, запах жасмина вместе с кастрюлей bagnat, он возвращает все мое беззаботное детство.
  • В рамках Робастного Нейромашинного перевода мы показали, как использовать процедуру состязательного обучения для существенного повышения качества и надежности языковых переводов.
    Слева: модель трансформатора применяется к входному предложению (нижний левый угол ) и в сочетании с целевым выходным предложением ( вверху справа) и целевым входным предложением ( средний правый угол ; начиная с заполнителя “<sos>”) рассчитывается потеря перевода. Затем функция AdvGen принимает исходное предложение, распределение выбора слов, кандидатов слов и потерю перевода в качестве входных данных для построения примера состязательного источника. Правильно: На стадии защиты пример источника состязательности служит входным сигналом для модели трансформатора, и вычисляется потеря перевода. Затем AdvGen использует тот же метод, что и выше, чтобы создать пример состязательной цели из целевого входного сигнала.

Поскольку наши возможности понимания языка улучшились, основываясь на фундаментальных исследованиях , таких как модели seq2seq , Transformer , BERT, Transformer-XL и ALBERT , мы наблюдали более широкое использование этих моделей во многих наших основных продуктах и функциях , таких как Google Translate, Smart Compose Gmail и Google Search . В этом году запуск BERT в наших основных алгоритмах поиска и ранжирования привел к самому большому улучшению качества поиска за последние пять лет (и одному из самых больших когда-либо), благодаря лучшему пониманию тонких значений слов и фраз запроса и документа. Восприятие Машины Модели для лучшего понимания неподвижных изображений добились значительного прогресса в последнее десятилетие. К числу следующих основных рубежей относятся модели и подходы к пониманию динамического мира в мельчайших деталях. Это включает в себя более глубокое и более тонкое понимание изображений и видео, а также живое и расположенное восприятие: понимание аудиовизуального мира на интерактивных скоростях и с общим пространственным обоснованием с пользователем. В этом году мы рассмотрели многие аспекты достижений в этой области, в том числе:

Мы весьма взволнованы перспективами дальнейшего улучшения понимания окружающего нас чувственного мира. Робототехника Применение машинного обучения для роботизированного управления является для нас важной исследовательской областью. Мы считаем, что это жизненно важный инструмент для обеспечения эффективной работы роботов в сложных реальных условиях, таких как повседневные дома и предприятия. Часть работы, проделанной нами в этом году, включает в себя::

Помощь в продвижении более широкого сообщества разработчиков и исследователей Открытый исходный код - это больше, чем код: это сообщество участников. Это был захватывающий год, чтобы быть частью сообщества с открытым исходным кодом. Мы запустили TensorFlow 2.0-самый большой релиз TensorFlow на сегодняшний день—что делает построение систем ML и приложений проще, чем когда-либо. Мы добавили поддержку быстрого вывода мобильного GPU на TensorFlow Lite . Мы также запустили обучаемую машину 2.0, быстрый и простой веб-инструмент, который может обучать модель машинного обучения одним нажатием кнопки, без необходимости кодирования. Мы объявили МЛИР, инфраструктура компилятора машинного обучения с открытым исходным кодом, которая учитывает сложность растущей фрагментации программного и аппаратного обеспечения и упрощает создание приложений искусственного интеллекта. Мы увидели первый год JAX, новой системы для высокопроизводительных исследований машинного обучения. В NeurIPS 2019 гуглеры и более широкое сообщество с открытым исходным кодом представили работу с использованием JAX, начиная от ядер нейронных касательных до байесовского вывода к молекулярной динамике, и мы запустили предварительный просмотр JAX на облаке TPUs . Мы open-sourced MediaPipe, основа для построения перцептивных и мультимодальных прикладных ML-трубопроводов, а также XNNPACK, библиотека эффективных операторов вывода нейронной сети с плавающей запятой. По состоянию на конец 2019 года мы позволили более чем 1500 исследователям по всему миру получить бесплатный доступ к Cloud TPUs через TensorFlow Research Cloud . Наше вступление в TensorFlow на Coursera пересекли 100 000 студентов. И мы взаимодействовали с тысячами пользователей, принимая TensorFlow на дороге в 11 разных странах, провели наш первый в истории TensorFlow World и многое другое. С помощью TensorFlow один студент колледжа открыл две новые планеты и построил метод, чтобы помочь другим найти больше. Ученый, изучающий данные, родом из Нигерии, обучил GAN генерировать изображения, напоминающие африканские маски . Разработчик в Уганде использовал TensorFlow для создания Farmers Companion, приложения, которое местные фермеры могут использовать для борьбы с уничтожающей урожай гусеницей. В снежной Айове исследователи и государственные чиновники использовали TensorFlow для определения безопасных дорожных условий на основе поведения движения, визуальных эффектов и других данных. В солнечной Калифорнии студенты колледжа использовали TensorFlow для выявления выбоин и опасных дорожных трещин в Лос-Анджелесе. А во Франции программист использовал TensorFlow для построения простого алгоритма, который учится добавлять цвет к черно-белым фотографиям . Открыть Наборы Данных Открытые наборы данных с четкими и измеримыми целями часто очень полезны для развития сферы машинного обучения. Чтобы помочь исследовательскому сообществу найти интересные наборы данных, мы продолжаем индексировать широкий спектр открытых наборов данных, полученных из различных организаций с помощью Google Dataset Search . Мы также считаем, что важно создавать новые наборы данных для сообщества, чтобы исследовать и разрабатывать новые методы, а также гарантировать, что мы делитесь открытыми данными ответственно . В этом году мы дополнительно выпустили ряд открытых наборов данных во многих различных областях:

  • Open Images V5: обновление популярного набора данных Open Images, который включает маски сегментации для 2,8 миллиона объектов в 350 категориях (так что теперь он имеет ~9M изображений, аннотированных метками уровня изображения, ограничивающими рамками объектов, масками сегментации объектов и визуальными отношениями).
  • Естественные вопросы: первый набор данных, который использует естественные запросы и находит ответы, читая всю страницу, а не извлекая ответы из короткого абзаца.
  • Данные для обнаружения deepfake: мы внесли большой набор данных визуальных deepfakes в тест FaceForensics (упомянутый выше).
  • Google Research Football: новая обучающая среда подкрепления, в которой агенты стремятся освоить самый популярный в мире вид спорта—футбол (или, если вы американец, футбол). Это важно для подкрепления обучающих агентов, чтобы иметь GOOOAAALLLS!
  • Google-достопримечательности-v2: более 5 миллионов изображений (в 2 раза больше, чем в первом выпуске) из более чем 200 тысяч различных достопримечательностей.
  • Сегменты YouTube-8M: крупномасштабный набор данных классификации и временной локализации, который включает проверенные человеком метки на уровне 5-секундного сегмента видео YouTube-8M.
  • Атомарные визуальные действия (AVA) разговорная деятельность : мультимодальный аудио+визуальный набор данных видео для восприятия разговоров. Кроме того, академические задачи были запущены для AVA action recognition и AVA: разговорная деятельность
  • Лапы и лапы-X: чтобы помочь с идентификацией парафразов, оба набора данных содержат хорошо сформированные пары предложений с высоким лексическим перекрытием, в которых около половины пар являются парафразами, а половина-нет.
  • Наборы диалоговых данных на естественном языке: CCPE и Taskmaster-1 используют платформу Wizard-of-Oz, которая объединяет двух людей, которые участвуют в разговорных разговорах, чтобы имитировать разговор на уровне человека с цифровым помощником.
  • Тест адаптации визуальных задач: VTAB следует аналогичным рекомендациям для ImageNet и GLUE, но основан на одном принципе-лучшее представление-это то, которое дает лучшую производительность для невидимых задач с ограниченными данными в домене.
  • Управляемый схемой набор диалоговых данных: самый большой общедоступный корпус ориентированных на решение задач диалогов, включающий более 18 000 диалогов, охватывающих 17 доменов.

Взаимодействие С Научным Сообществом Наконец, мы были заняты в более широком Академическом и исследовательском сообществе. В 2019 году исследователи Google представили сотни работ, приняли участие в многочисленных конференциях и получили множество наград и других наград. У нас было сильное присутствие в:

  • CVPR: ~250 гуглеры представили 40 + документы, переговоры, плакаты, семинары и многое другое.
  • ICML: ~200 гуглеров представили более 100 докладов, докладов, постеров, семинаров и многое другое.
  • ICLR: ~200 гуглеры представили 60 + документы, переговоры, плакаты, семинары и многое другое.
  • ACL: ~100 гуглеров представили более 40 докладов, семинаров и учебных пособий.
  • Interspeech: более 100 гуглеров представили более 30 работ.
  • ICCV: ~200 гуглеров представили 40 + работ,и несколько гуглеров также выиграли три престижные награды ICCV.
  • NeurIPS: ~500 гуглеров были соавторами более 120 принятых работ и участвовали в различных семинарах и многое другое.

Мы также собрали вместе сотни исследователей Google и профессорско-преподавательский состав со всего мира до 15 отдельных исследовательских семинаров, проводимых в местах расположения Google. Эти семинары были посвящены темам, начиная от улучшения прогнозирования наводнений в глобальном масштабе, как использовать машинное обучение для создания систем, которые могут лучше обслуживать людей с ограниченными возможностями, чтобы ускорить разработку алгоритмов, приложений и инструментов для шумных промежуточных квантовых процессоров (NISQ). Поддерживая академические и исследовательские сообщества за пределами Google, мы поддержали более 50 аспирантов по всему миру через нашу ежегодную программу аспирантской стипендии, мы финансировали 158 проектов в рамках нашей исследовательской премии факультета Google 2018, и мы провели нашу третью когорту программы резидентуры Google AI . Мы также наставляли стартапы, ориентированные на ИИ . Новые Места, Новые Лица Мы добились большого прогресса в 2019 году, но есть еще так много, что мы можем сделать. Чтобы продолжать увеличивать наше влияние по всему миру, мы открыли исследовательский офис в Бангалоре и мы расширяемся в других офисах. Если вы взволнованы работой над такими проблемами ,мы нанимаем! С нетерпением ждем 2020 года и далее За последнее десятилетие были достигнуты замечательные успехи в области машинного обучения и информатики, где мы теперь дали компьютерам возможность видеть, слышать и понимать язык лучше, чем когда-либо прежде (см. Хороший обзор важных достижений за последнее десятилетие). В наших карманах теперь есть сложные вычислительные устройства, которые могут использовать эти возможности, чтобы лучше помочь нам выполнить множество задач в нашей повседневной жизни. Мы существенно переработали наши вычислительные платформы вокруг этих подходов машинного обучения путем разработки специализированного оборудования, что дает нам возможность решать все более крупные проблемы. Это изменило то, как мы думаем о вычислительных устройствах как в центрах обработки данных (таких как ориентированный на вывод TPUv1 и ориентированный на обучение и вывод TPUv2 и TPUv3), так и в маломощных мобильных средах (таких как Edge TPUs ). То революция глубокого обучения будет продолжать изменять то, как мы думаем о вычислительной технике и компьютерах . В то же время существует огромное количество неотвеченных вопросов и нерешенных проблем. Некоторые направления и вопросы, которые мы рады решать в 2020 году и за его пределами являются:

  • Как мы можем построить системы машинного обучения, которые могут обрабатывать миллионы задач и которые могут научиться успешно выполнять новые задачи автоматически? В настоящее время мы в основном обучаем отдельные модели машин для каждой новой задачи, начиная с нуля или в лучшем случае с модели, обученной на одной или нескольких сильно связанных задачах. Таким образом, модели, которых мы обучаем, действительно хороши в одной или нескольких вещах, но не хороши ни в чем другом. Однако то, что мы действительно хотим, - это модели, которые хорошо используют свой опыт в выполнении многих вещей, чтобы они могли научиться делать новые вещи с относительно небольшим количеством обучающих данных и вычислений. Это действительно грандиозная задача, которая потребует экспертных знаний и достижений во многих областях, охватывающих проектирование твердотельных схем, компьютерную архитектуру, ML-ориентированные компиляторы, распределенные системы, алгоритмы машинного обучения и экспертов по предметной области во многих других областях, чтобы построить системы, которые могут обобщать для самостоятельного решения новых задач в полном спектре областей применения.
  • Как мы можем продвигать современное состояние в важных областях исследования искусственного интеллекта, таких как предотвращение предвзятости, повышение интерпретируемости и понятности, улучшение конфиденциальности и обеспечение безопасности? Достижения в этих областях будут иметь решающее значение, поскольку мы используем машинное обучение все больше и больше способов в обществе.
  • Как мы можем применять вычисления и машинное обучение для достижения прогресса в новых важных областях науки? Сотрудничество с экспертами в других областях, таких как климатология, здравоохранение, биоинформатика и многие другие области, требует значительных достижений.
  • Как мы можем гарантировать, что идеи и направления, преследуемые сообществами исследователей машинного обучения и компьютерных наук, выдвигаются и исследуются разнообразной группой исследователей? Работа, которую проводят научные сообщества в области компьютерных наук и машинного обучения, имеет широкие последствия для миллиардов людей, и мы хотим, чтобы группа исследователей, выполняющих эту работу, представляла опыт, перспективы, проблемы и творческий энтузиазм всех народов мира. Как мы можем наилучшим образом поддержать новых исследователей из различных областей, выходящих на поле?

В целом 2019 год был очень захватывающим годом для исследований в Google и в более широком исследовательском сообществе. Мы взволнованы решением исследовательских задач, стоящих перед нами в 2020 году и за его пределами, и мы с нетерпением ждем возможности поделиться нашим прогрессом с вами!


Источник: ai.googleblog.com

Комментарии: