KDD 2020: Recommender Systems |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2020-09-15 10:38 On Sampled Metrics for Item Recommendation Best research paper Reference: http://walid.krichene.net/papers/KDD-sampled-metrics.pdf Keywords: ranking evaluation, metrics, sampling Типичныи? протокол оценки качества рекомендательных систем выглядит следующим образом:
Итоговое значение метрики получается усреднением метрик посчитанных по всем пользователям. В ситуации когда n велико часто прибегают к сэмплированию — вместо того чтобы ранжировать все n кандидатов, ранжируют случаи?ную подвыборку из m объектов (m ? n) вместе с релевантными для пользователя объектами. Ожидается, что метрики посчитанные с сэмплированием позволяют упорядочить алгоритмы ранжирования по качеству так же как и метрики посчитанные без сэмплирования. Авторы статьи впервые тестируют это предположение и показывают что для большинства используемых метрик оно не верно, даже при многократном сэмплировании и усреднении результатов. В статье предложены скорректированные варианты привычных метрик, которые позволяют при использовании сэмплирования сортировать алгоритмы по качеству также как если бы сэмплирования не было. Temporal-Contextual Recommendation in Real-Time Best Applied Data Science paper Amazon Reference: https://dl.acm.org/doi/pdf/10.1145/3394486.3403278 Keywords: recommender systems, recurrent neural networks, hybrid model Разработчики современных рекомендательных систем сталкиваются со следующими челенджами: Система должна
Многие популярные решения не удовлетворяют всем указанным требованиям. Например, решения, в основе которых лежит факторизация матрицы Users-Items, не позволяют оперативно реагировать на изменение интересов пользователя, и не могут строить рекомендации для новых пользователей/объектов. В статье авторы предлагают решение, которое удовлетворяет всем перечисленным требованиям. В основе решения — RNN-like архитектура, которая наряду с идентификаторами пользователя и объекта использует доступную мета-информацию (признаки пользователя и объекта). Для того чтобы модель можно было за разумное время обучить на большом каталоге объектов, авторы предлагают использовать Negative Sampling вместо классической многоклассовой классификации. Learning to Cluster Documents into Workspaces Using Large Scale Activity Logs Reference: https://dl.acm.org/doi/abs/10.1145/3394486.3403291 Keywords: user behavior, embeddings, clustering Авторы решают задачу кластеризации документов в Google Drive в workspace’ы — отдельные папки, содержащие документы похожие не только по смыслу, но и связанные с конкретными задачами пользователя. В отличии от классических unsupervised подходов для кластеризации, в рамках данной работы, авторы не решают задачу кластеризации напрямую, но обучают document similarity модель, которая для двух документов предсказывает относятся они к одному кластеру или нет. Используя предсказания модели, авторы используют иерархическую кластеризацию для группировки документов в workspace’ы. Авторы предлагают способ получить разметку для обучения напрямую из логов активности пользователей — сводят задачу к weakly supervised варианту. Основное предположение, которое позволяет получить weak разметку — если пользователь выполнял действия с документами с небольшои? разницеи? во времени (co-access), то скорее всего эти документы относятся к одной задаче, над которой работает пользователь. Авторы в онлайне сравнивают свое решение с классическими unsupervised подходами для кластеризации документов, и показывают, что предлагаемое решение существенно лучше бэйслайнов. PinnerSage: Multi-Modal User Embedding Framework for Recommendations at Pinterest Reference: https://arxiv.org/pdf/2007.03634.pdf Keywords: embeddings, user behavior, diversity Статья от Pinterest про прокачку системы рекомендаций пинов для пользователя. Авторы статьи рассматривают проблемы связанные с представлением пользователя в виде единственного вектора. Для решения проблем, в статье предлагают представить пользователя в виде набора векторов. Ключевые отличия от предыдущих работ, предлагающих сделать тоже самое:
Для того чтобы представить пользователя в виде набора векторов, предлагают делать иерархическую кластеризацию активности пользователя за последнее время (вектора пинов получены black-box моделью). Каждому кластеру ставят в соответствие его важность. Для рекомендации релевантных пинов берут 3 наиболее важных кластера и ищут похожие пины с помощью приближенного поиска ближ соседей. Как и в большинстве последних статей от Pinterest, авторы рассматривают продакшн решение, поэтому достаточно внимания уделяют вопросу о том как все это тащить в прод. Managing Diversity in Airbnb Search Reference: https://arxiv.org/pdf/2004.02621.pdf Keywords: diversity С продуктовой точки зрения, показ пользователю разнообразных (diverse) рекомендаций ведет к улучшению пользовательского опыта. Однако, современные модели ранжирования обучаются, оптимизируя relevance, что приводит к однообразным результатам в рекомендациях. В статье авторы численно проверяют предположение о том, что рекомендации довольно часто бывают однообразными, и предлагают метрику Mean Listing Relevance (MLR), которая позволяет оценить как релевантность объектов в выдаче, так и их разнообразие. В основе предложенной метрики — вычисление расстояний между объектами. В работе предложено большое количество способов как можно вычислить расстояние между двумя объектами и то как оптимизировать MLR. В заключении, авторы приводят результаты оффлайн и онлайн экспериментов где показывают рост как привычных для задачи ранжирования метрик, так и метрик связанных с разнообразием. Источник: m.vk.com Комментарии: |
|