Прогнозирование выбора текста с помощью объединенного обучения

2021-11-24 19:51

Сегодня мы опишем, как мы улучшили производительность интеллектуального выбора текста, используя федеративное обучение для ответственного обучения нейросетевой модели взаимодействию с пользователями при сохранении конфиденциальности пользователей. Эта работа, которая является частью новой защищенной среды частного вычислительного ядра Android, позволила нам повысить точность выбора модели до 20% для некоторых типов объектов.

Прокси-данные на стороне сервера для выбора объектов Интеллектуальный выбор текста, который является той же технологией, что и Smart Linkify, не предсказывает произвольный выбор, а фокусируется на четко определенных объектах, таких как адреса или номера телефонов, и пытается предсказать границы выбора для этих категорий. В отсутствие сущностей, состоящих из нескольких слов, модель обучается выбирать только одно слово, чтобы свести к минимуму частоту ошибочного выбора нескольких слов.

Функция интеллектуального выбора текста изначально была обучена с использованием прокси-данных, полученных с веб-страниц, на которые schema.org были применены аннотации. Затем эти объекты были встроены в выборку случайного текста, и модель была обучена выбирать только объект, не переходя в окружающий его случайный текст.

Хотя этот подход к обучению аннотациям schema.org работал, у него было несколько ограничений. Данные сильно отличались от текста, который, как мы ожидаем, пользователи увидят на устройстве. Например, веб-сайты с schema.org аннотации обычно содержат объекты с более правильным форматированием, чем то, что пользователи могут вводить на своих телефонах. Кроме того, образцы текста, в которые были встроены объекты для обучения, были случайными и не отражали реалистичный контекст на устройстве.

Сигнал обратной связи на устройстве для интегрированного обучения С этим новым запуском модель больше не использует прокси-данные для прогнозирования диапазона, а вместо этого обучается на устройстве реальным взаимодействиям с использованием интегрированного обучения. Это подход к обучению для моделей машинного обучения, при котором центральный сервер координирует обучение модели, которое распределяется между многими устройствами, в то время как используемые необработанные данные остаются на локальном устройстве. Стандартный процесс интегрированного обучения работает следующим образом: Сервер запускается с инициализации модели. Затем начинается итеративный процесс, в котором (а) устройства отбираются, (б) выбранные устройства улучшают модель, используя свои локальные данные, и (в) затем отправляют обратно только улучшенную модель, а не данные, используемые для обучения. Затем сервер усредняет полученные обновления для создания модели, которая отправляется на следующей итерации.

Для интеллектуального выбора текста каждый раз, когда пользователь нажимает, чтобы выбрать текст, и корректирует предложение модели, Android получает точную обратную связь о том, какой диапазон выбора должна была предсказать модель. Чтобы сохранить конфиденциальность пользователей, выбранные параметры временно сохраняются на устройстве, не будучи видимыми на стороне сервера, а затем используются для улучшения модели путем применения методов интегрированного обучения. Преимущество этого метода заключается в том, что модель обучается на тех же данных, которые она видит во время вывода.

Объединенное обучение и конфиденциальность Одним из преимуществ подхода к объединенному обучению является то, что он обеспечивает конфиденциальность пользователей, поскольку необработанные данные не передаются на сервер. Вместо этого сервер получает только обновленные веса моделей. Тем не менее, для защиты от различных угроз мы изучили способы защиты данных на устройстве, безопасного объединения градиентов и снижения риска запоминания модели.

Код на устройстве для обучения интегрированным моделям интеллектуального выбора текста является частью защищенной среды частного вычислительного ядра Android, что делает его особенно удобным для безопасной обработки пользовательских данных. Это связано с тем, что среда обучения в частном вычислительном ядре изолирована от сети, и выход данных разрешен только при применении федеративных и других методов сохранения конфиденциальности. В дополнение к сетевой изоляции данные в частном вычислительном ядре защищены политиками, которые ограничивают их использование, защищая таким образом от вредоносного кода, который мог попасть на устройство.

Для агрегирования обновлений модели, создаваемых обучающим кодом на устройстве, мы используем безопасное агрегирование, криптографический протокол, который позволяет серверам вычислять среднее обновление для обучения модели федеративного обучения без считывания обновлений, предоставляемых отдельными устройствами. В дополнение к индивидуальной защите с помощью безопасной агрегации, обновления также защищены шифрованием транспорта, создавая два уровня защиты от злоумышленников в сети.

Наконец, мы рассмотрели запоминание моделей. В принципе, характеристики обучающих данных могут быть закодированы в обновлениях, отправляемых на сервер, выдерживать процесс агрегирования и в конечном итоге запоминаться глобальной моделью. Это может позволить злоумышленнику попытаться восстановить обучающие данные из модели. Мы использовали методы Secret Sharer, метод анализа, который количественно определяет, в какой степени модель непреднамеренно запоминает свои обучающие данные, чтобы эмпирически проверить, что модель не запоминала конфиденциальную информацию. Кроме того, мы использовали методы маскировки данных, чтобы модель никогда не видела определенные виды конфиденциальных данных

В сочетании эти методы помогают гарантировать, что Объединенный интеллектуальный выбор текста обучен таким образом, чтобы сохранить конфиденциальность пользователей.

Достижение превосходного качества модели Первоначальные попытки обучить модель с использованием федеративного обучения не увенчались успехом. Потери не сходились, и прогнозы были по существу случайными. Отладка процесса обучения была сложной, поскольку данные обучения находились на устройстве, а не собирались централизованно, и поэтому их нельзя было изучить или проверить. Фактически, в таком случае даже невозможно определить, выглядят ли данные так, как ожидалось, что часто является первым шагом в отладке конвейеров машинного обучения.

Чтобы преодолеть эту проблему, мы тщательно разработали показатели высокого уровня, которые дали нам представление о том, как модель вела себя во время обучения. Такие показатели включали количество обучающих примеров, точность выбора, а также показатели отзыва и точности для каждого типа объектов. Эти показатели собираются во время федеративного обучения с помощью федеративной аналитики, аналогичного процессу сбора весов модели. Благодаря этим показателям и многочисленным анализам мы смогли лучше понять, какие аспекты системы работали хорошо и где могли существовать ошибки.

После исправления этих ошибок и внесения дополнительных улучшений, таких как внедрение встроенных фильтров для данных, использование лучших методов федеративной оптимизации и применение более надежных агрегаторов градиентов, модель хорошо обучилась.

Результаты Используя этот новый федеративный подход, мы смогли значительно улучшить интеллектуальные модели выделения текста, степень которых зависит от используемого языка. Типичные улучшения варьировались от 5% до 7% для точности выбора нескольких слов без снижения производительности по одному слову. Точность правильного выбора адресов (наиболее сложный поддерживаемый тип объектов) увеличилась на 8-20%, опять же, в зависимости от используемого языка. Эти улучшения приводят к тому, что миллионы дополнительных вариантов выбора автоматически расширяются для пользователей каждый день.

Интернационализация Дополнительным преимуществом этого интегрированного подхода к обучению для интеллектуального выбора текста является его возможность масштабирования на дополнительные языки. Обучение на стороне сервера требовало ручной настройки прокси-данных для каждого языка, чтобы сделать их более похожими на данные на устройстве. Хотя это работает только в некоторой степени, для каждого дополнительного языка требуется огромное количество усилий.

Однако объединенный конвейер обучения обучает взаимодействию с пользователями без необходимости в таких ручных корректировках. Как только модель достигла хороших результатов для английского языка, мы применили тот же конвейер к японскому языку и увидели еще большие улучшения, без необходимости настраивать систему специально для японского выбора.

Мы надеемся, что этот новый федеративный подход позволит нам масштабировать интеллектуальный выбор текста на многие другие языки. В идеале это также будет работать без ручной настройки системы, что позволит поддерживать даже языки с низким уровнем ресурсов.

Заключение Мы разработали объединенный способ обучения прогнозированию выбора текста на основе взаимодействия с пользователем, что привело к значительно улучшенным моделям интеллектуального выбора текста, развернутым для пользователей Android. Этот подход требовал использования федеративного обучения, поскольку он работает без сбора пользовательских данных на сервере. Кроме того, мы использовали множество современных подходов к обеспечению конфиденциальности, таких как новое частное вычислительное ядро Android, безопасное агрегирование и метод секретного обмена. Результаты показывают, что конфиденциальность не должна быть ограничивающим фактором при обучении моделей. Вместо этого нам удалось получить значительно лучшую модель, гарантируя при этом, что данные пользователей останутся конфиденциальными.

Благодарности Многие люди внесли свой вклад в эту работу. Мы хотели бы поблагодарить Лукаса Зилку, Аселу Гунавардану, Сильвано Боначину, Сета Велну, Тони Мака, Чанга Ли, Абодунринву Токи, Сергея Вольнова, Мэтта Шарифи, Абханшу Шарму, Эухенио Маркиори, Яцека Юревича, Николаса Карлини, Джордана Макклида, Софию Ковалеву, Эвелин Као, Тома Хьюма, Алекса Ингермана, Брендана Макмахана, Фей Чжэна, Захари Чарльза, Шона Аугенштейна, Захари Гарретт, Стефан Дирауф, Дэвид Петроу, Вишват Мохан, Хантер Кинг, Эмили Гланц, Хьюберт Эйхнер, Кшиштоф Островский, Якуб Конечны, Шаньшан Ву, Джанель Тамкул, Элизабет Кемп и все остальные, кто участвовал в проекте.

Источник: ai.googleblog.com

Прогнозирование выбора текста с помощью объединенного обучения

Комментарии: