Алгоритмы подсказки слов в телефонной клавиатуре vs. Защита персональных данных |
||||||||||||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2018-02-13 14:36 искусственный интеллект, реализация нейронной сети, анализ социальных сетей Языковые модели В виртуальных клавиатурах мобильных телефонов повсеместно используются алгоритмы подсказки слов по первым введённым буквам и автоматического исправления опечаток в них. Функция нужная, так как печатать на телефоне неудобно. Однако она часто раздражает пользователей своей «глупостью».
Ещё пример. Мы собрали большой объём текстов с форумов и обсуждений в Интернете на русском языке и обучили на них рекуррентную нейронную сеть. Из полученных предсказаний языковой модели хорошо выделяется портрет типичного пользователя рунета… хотя, скорее, это типичная пользовательница.
Как обучить модель на данных пользователя, если эти данные нельзя собирать? Сформулируем проблему. Тексты, доступные в Интернете — не совсем то, что обычно печатается на клавиатуре мобильного устройства. Чаще всего с телефона пишутся короткие сообщения в духе:
В сообщениях содержится много личной информации, и вряд ли найдутся пользователи, готовые предоставить свою переписку разработчикам языковых моделей «для опытов».
Собирать модели от нескольких пользователей важно из-за того, что каждый человек знает гораздо больше слов, чем успевает напечатать на своём устройстве, например, за месяц. Следовательно, для хорошего моделирования языка нужна информация от многих пользователей. Для заинтересованных читателей Больше подробностей, конкретные формулировки, эксперименты и прочее опубликованы в статье на arXiv, которая будет представлена на ICLR 2018. Кроме того, в ней представлено математическое доказательство того, что усреднённая общая модель хорошо оберегает данные каждого конкретного пользователя. Источник: habrahabr.ru Комментарии: |
|||||||||||