KDD 2020: Recommender Systems

2020-09-15 10:38

машинное обучение python

On Sampled Metrics for Item Recommendation

Best research paper

Google

Reference: http://walid.krichene.net/papers/KDD-sampled-metrics.pdf

Keywords: ranking evaluation, metrics, sampling

Типичныи? протокол оценки качества рекомендательных систем выглядит следующим образом:

Для отобранного множества пользователеи? ранжируем все множество кандидатов, состоящее из n объектов
Для каждого пользователя вычисляем множество позиции? релевантных объектов
После чего для пользователя считаем метрику, например, ROC AUC или Precision@K, Recall@K

Итоговое значение метрики получается усреднением метрик посчитанных по всем пользователям.

В ситуации когда n велико часто прибегают к сэмплированию — вместо того чтобы ранжировать все n кандидатов, ранжируют случаи?ную подвыборку из m объектов (m ? n) вместе с релевантными для пользователя объектами.

Ожидается, что метрики посчитанные с сэмплированием позволяют упорядочить алгоритмы ранжирования по качеству так же как и метрики посчитанные без сэмплирования.

Авторы статьи впервые тестируют это предположение и показывают что для большинства используемых метрик оно не верно, даже при многократном сэмплировании и усреднении результатов.

В статье предложены скорректированные варианты привычных метрик, которые позволяют при использовании сэмплирования сортировать алгоритмы по качеству также как если бы сэмплирования не было.

Temporal-Contextual Recommendation in Real-Time

Best Applied Data Science paper

Amazon

Reference: https://dl.acm.org/doi/pdf/10.1145/3394486.3403278

Keywords: recommender systems, recurrent neural networks, hybrid model

Разработчики современных рекомендательных систем сталкиваются со следующими челенджами: Система должна

Оперативно реагировать на изменение интересов пользователя
Обучаться на историях большого числа пользователей, состоящих из сотен событий, за разумное время
Быть эффективной для новых пользователей и объектов (cold-start problem)
Хорошо масштабироваться на случай ранжирования большого числа объектов

Многие популярные решения не удовлетворяют всем указанным требованиям.

Например, решения, в основе которых лежит факторизация матрицы Users-Items, не позволяют оперативно реагировать на изменение интересов пользователя, и не могут строить рекомендации для новых пользователей/объектов.

В статье авторы предлагают решение, которое удовлетворяет всем перечисленным требованиям. В основе решения — RNN-like архитектура, которая наряду с идентификаторами пользователя и объекта использует доступную мета-информацию (признаки пользователя и объекта).

Для того чтобы модель можно было за разумное время обучить на большом каталоге объектов, авторы предлагают использовать Negative Sampling вместо классической многоклассовой классификации.

Learning to Cluster Documents into Workspaces Using Large Scale Activity Logs

Google

Reference: https://dl.acm.org/doi/abs/10.1145/3394486.3403291

Keywords: user behavior, embeddings, clustering

Авторы решают задачу кластеризации документов в Google Drive в workspace’ы — отдельные папки, содержащие документы похожие не только по смыслу, но и связанные с конкретными задачами пользователя.

В отличии от классических unsupervised подходов для кластеризации, в рамках данной работы, авторы не решают задачу кластеризации напрямую, но обучают document similarity модель, которая для двух документов предсказывает относятся они к одному кластеру или нет.

Используя предсказания модели, авторы используют иерархическую кластеризацию для группировки документов в workspace’ы.

Авторы предлагают способ получить разметку для обучения напрямую из логов активности пользователей — сводят задачу к weakly supervised варианту.

Основное предположение, которое позволяет получить weak разметку — если пользователь выполнял действия с документами с небольшои? разницеи? во времени (co-access), то скорее всего эти документы относятся к одной задаче, над которой работает пользователь.

Авторы в онлайне сравнивают свое решение с классическими unsupervised подходами для кластеризации документов, и показывают, что предлагаемое решение существенно лучше бэйслайнов.

PinnerSage: Multi-Modal User Embedding Framework for Recommendations at Pinterest

Reference: https://arxiv.org/pdf/2007.03634.pdf

Keywords: embeddings, user behavior, diversity

Статья от Pinterest про прокачку системы рекомендаций пинов для пользователя.

Авторы статьи рассматривают проблемы связанные с представлением пользователя в виде единственного вектора.

Для решения проблем, в статье предлагают представить пользователя в виде набора векторов.

Ключевые отличия от предыдущих работ, предлагающих сделать тоже самое:

количество векторов для пользователя не фиксировано
вектора для пользователеи? не обучаются совместно с векторами для пинов

Для того чтобы представить пользователя в виде набора векторов, предлагают делать иерархическую кластеризацию активности пользователя за последнее время (вектора пинов получены black-box моделью).

Каждому кластеру ставят в соответствие его важность.

Для рекомендации релевантных пинов берут 3 наиболее важных кластера и ищут похожие пины с помощью приближенного поиска ближ соседей.

Как и в большинстве последних статей от Pinterest, авторы рассматривают продакшн решение, поэтому достаточно внимания уделяют вопросу о том как все это тащить в прод.

Managing Diversity in Airbnb Search

Reference: https://arxiv.org/pdf/2004.02621.pdf

Keywords: diversity

С продуктовой точки зрения, показ пользователю разнообразных (diverse) рекомендаций ведет к улучшению пользовательского опыта.

Однако, современные модели ранжирования обучаются, оптимизируя relevance, что приводит к однообразным результатам в рекомендациях.

В статье авторы численно проверяют предположение о том, что рекомендации довольно часто бывают однообразными, и предлагают метрику Mean Listing Relevance (MLR), которая позволяет оценить как релевантность объектов в выдаче, так и их разнообразие.

В основе предложенной метрики — вычисление расстояний между объектами.

В работе предложено большое количество способов как можно вычислить расстояние между двумя объектами и то как оптимизировать MLR.

В заключении, авторы приводят результаты оффлайн и онлайн экспериментов где показывают рост как привычных для задачи ранжирования метрик, так и метрик связанных с разнообразием.

Телеграм: t.me/ainewsline

Источник: m.vk.com



		KDD 2020: Recommender Systems
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2020-09-15 10:38 машинное обучение python On Sampled Metrics for Item Recommendation Best research paper Google Reference: http://walid.krichene.net/papers/KDD-sampled-metrics.pdf Keywords: ranking evaluation, metrics, sampling Типичныи? протокол оценки качества рекомендательных систем выглядит следующим образом: Для отобранного множества пользователеи? ранжируем все множество кандидатов, состоящее из n объектов Для каждого пользователя вычисляем множество позиции? релевантных объектов После чего для пользователя считаем метрику, например, ROC AUC или Precision@K, Recall@K Итоговое значение метрики получается усреднением метрик посчитанных по всем пользователям. В ситуации когда n велико часто прибегают к сэмплированию — вместо того чтобы ранжировать все n кандидатов, ранжируют случаи?ную подвыборку из m объектов (m ? n) вместе с релевантными для пользователя объектами. Ожидается, что метрики посчитанные с сэмплированием позволяют упорядочить алгоритмы ранжирования по качеству так же как и метрики посчитанные без сэмплирования. Авторы статьи впервые тестируют это предположение и показывают что для большинства используемых метрик оно не верно, даже при многократном сэмплировании и усреднении результатов. В статье предложены скорректированные варианты привычных метрик, которые позволяют при использовании сэмплирования сортировать алгоритмы по качеству также как если бы сэмплирования не было. Temporal-Contextual Recommendation in Real-Time Best Applied Data Science paper Amazon Reference: https://dl.acm.org/doi/pdf/10.1145/3394486.3403278 Keywords: recommender systems, recurrent neural networks, hybrid model Разработчики современных рекомендательных систем сталкиваются со следующими челенджами: Система должна Оперативно реагировать на изменение интересов пользователя Обучаться на историях большого числа пользователей, состоящих из сотен событий, за разумное время Быть эффективной для новых пользователей и объектов (cold-start problem) Хорошо масштабироваться на случай ранжирования большого числа объектов Многие популярные решения не удовлетворяют всем указанным требованиям. Например, решения, в основе которых лежит факторизация матрицы Users-Items, не позволяют оперативно реагировать на изменение интересов пользователя, и не могут строить рекомендации для новых пользователей/объектов. В статье авторы предлагают решение, которое удовлетворяет всем перечисленным требованиям. В основе решения — RNN-like архитектура, которая наряду с идентификаторами пользователя и объекта использует доступную мета-информацию (признаки пользователя и объекта). Для того чтобы модель можно было за разумное время обучить на большом каталоге объектов, авторы предлагают использовать Negative Sampling вместо классической многоклассовой классификации. Learning to Cluster Documents into Workspaces Using Large Scale Activity Logs Google Reference: https://dl.acm.org/doi/abs/10.1145/3394486.3403291 Keywords: user behavior, embeddings, clustering Авторы решают задачу кластеризации документов в Google Drive в workspace’ы — отдельные папки, содержащие документы похожие не только по смыслу, но и связанные с конкретными задачами пользователя. В отличии от классических unsupervised подходов для кластеризации, в рамках данной работы, авторы не решают задачу кластеризации напрямую, но обучают document similarity модель, которая для двух документов предсказывает относятся они к одному кластеру или нет. Используя предсказания модели, авторы используют иерархическую кластеризацию для группировки документов в workspace’ы. Авторы предлагают способ получить разметку для обучения напрямую из логов активности пользователей — сводят задачу к weakly supervised варианту. Основное предположение, которое позволяет получить weak разметку — если пользователь выполнял действия с документами с небольшои? разницеи? во времени (co-access), то скорее всего эти документы относятся к одной задаче, над которой работает пользователь. Авторы в онлайне сравнивают свое решение с классическими unsupervised подходами для кластеризации документов, и показывают, что предлагаемое решение существенно лучше бэйслайнов. PinnerSage: Multi-Modal User Embedding Framework for Recommendations at Pinterest Pinterest Reference: https://arxiv.org/pdf/2007.03634.pdf Keywords: embeddings, user behavior, diversity Статья от Pinterest про прокачку системы рекомендаций пинов для пользователя. Авторы статьи рассматривают проблемы связанные с представлением пользователя в виде единственного вектора. Для решения проблем, в статье предлагают представить пользователя в виде набора векторов. Ключевые отличия от предыдущих работ, предлагающих сделать тоже самое: количество векторов для пользователя не фиксировано вектора для пользователеи? не обучаются совместно с векторами для пинов Для того чтобы представить пользователя в виде набора векторов, предлагают делать иерархическую кластеризацию активности пользователя за последнее время (вектора пинов получены black-box моделью). Каждому кластеру ставят в соответствие его важность. Для рекомендации релевантных пинов берут 3 наиболее важных кластера и ищут похожие пины с помощью приближенного поиска ближ соседей. Как и в большинстве последних статей от Pinterest, авторы рассматривают продакшн решение, поэтому достаточно внимания уделяют вопросу о том как все это тащить в прод. Managing Diversity in Airbnb Search Reference: https://arxiv.org/pdf/2004.02621.pdf Keywords: diversity С продуктовой точки зрения, показ пользователю разнообразных (diverse) рекомендаций ведет к улучшению пользовательского опыта. Однако, современные модели ранжирования обучаются, оптимизируя relevance, что приводит к однообразным результатам в рекомендациях. В статье авторы численно проверяют предположение о том, что рекомендации довольно часто бывают однообразными, и предлагают метрику Mean Listing Relevance (MLR), которая позволяет оценить как релевантность объектов в выдаче, так и их разнообразие. В основе предложенной метрики — вычисление расстояний между объектами. В работе предложено большое количество способов как можно вычислить расстояние между двумя объектами и то как оптимизировать MLR. В заключении, авторы приводят результаты оффлайн и онлайн экспериментов где показывают рост как привычных для задачи ранжирования метрик, так и метрик связанных с разнообразием. Телеграм: t.me/ainewsline Источник: m.vk.com Комментарии:

KDD 2020: Recommender Systems

Комментарии: