Обработка естественного языка для анализа отзывов онлайн-покупателей

2019-10-31 20:00

Цель использования обработки естественного языка в описываемом проекте — анализ обзоров на товары, оставленных онлайн-покупателями.

Я начал работу над этим проектом для достижения трех бизнес-целей:

Найти основные компоненты рейтингов, используя неконтролируемое обучение для обработки естественного языка.
Предсказывать рейтинг товара с помощью контролируемого обучения, основываясь на конкретных отзывах.
Рекомендовать с помощью алгоритма схожести товары покупателям, основываясь на истории заказов.

Используем набор данных из Kaggle, предоставленный Datafiniti. Более 70,000 отзывов на 1,000 товаров от 58,000 уникальных покупателей.

Сфокусируемся на 2 колонках этого набора данных:

Рейтинг отзывов по шкале от 1 до 5.
Сам текст отзывов, в котором покупатели свободно описывают, что им понравилось или не понравилось в товаре.

Как распределяются рейтинги? Большинство покупателей остались довольны, 86% из них ставят оценки 4 и 5.

Распределение рейтингов от 1 (крайне недоволен) до 5 (очень доволен).

Какие слова люди используют в своих отзывах? В заголовках слова ‘великолепно’ и ‘здорово’ появляются довольно часто.

Покупатели также много описывают ‘фильмы’ и ‘товар’, которые они купили. Довольно трудно классифицировать эти отзывы по осмысленным группам, используя неконтролируемое обучение.

Далее я сосредоточился на 5% всех отзывов от пользователей, которые действительно купили товар — я оцениваю эти отзывы как более подлинные и весомые. В этом наборе данных более 3,680 таких отзывов, и теперь можно произвести некоторый анализ.

3,680 отзывов пользователей, купивших продукт

Я искал самый популярный товар, который покупали и оценивали чаще всего.

Это контейнеры для еды, заказанные почти 500 раз. Сам товар выглядит так:

Я отфильтровал все рейтинги с оценкой 5 звезд, чтобы найти 3 причины, почему людям нравится этот товар, и произвел латентно-семантический анализ (ЛСА), используя модель Count Vectorizer, в основном подсчитывая частотность слов.

Людям нравится этот товар за функции вакуумной упаковки, которая позволяет сохранять овощи свежими; также товар был доступен к заказу.

ЛСА неконтролируемой классификации в 3 темах с использованием Count Vectorizer

Как насчет плохих рейтингов? Я выполнил неотрицательное матричное разложение (НМР), используя TF-IDF Vectorizer, который придает больший вес редким словам.

Люди очень недовольны тем, что функция вакуумной упаковки работает плохо, ее хватает всего на один день.

НМР неконтролируемой классификации в 2 темах с использованием TF-IDF Vectorizer

Резюме из облака слов дает свежую перспективу — многие из этих покупателей считают, что переплатили за товар. Бизнес может использовать эти данные для анализа.

Облако слов из отзывов недовольных покупателей

Можно ли использовать машинное обучение для предсказания рейтинга товара на основе этих комментариев? Люди могут читать и понимать комментарии и соотносить их с рейтингами. Как насчет машин?

Я обучил и настроил несколько моделей, такие как логистическая регрессия, случайный лес и XGBoost, соотносить слова в описании с соответствующим рейтингом.

Модель логической регрессии предсказывает рейтинг с точностью в 73%

Также можно сделать и рекомендации товаров. Бизнес может рекомендовать товары, основываясь на истории покупок и рейтингах, оставленных покупателем.

Вот 3 похожих покупателя, в результате могут быть рекомендованы товары “пустого пространства”.

Рекомендация товаров “пустого пространства”

Например, “Джесс” купила несколько семейных фильмов. Применяя тот же алгоритм, модель рекомендует “похожие” фильмы — триллеры и анимационные фильмы. Бизнес может использовать эти результаты для стимулирования продаж.

Рекомендации товара от модели машинного обучения

В итоге, обработка естественного языка может использоваться для:

описательной аналитики (неконтролируемое обучение);
предсказательной аналитики (контролируемое обучение);
нормативной аналитики (алгоритм схожести).

Код на Python описанного анализа доступны на моем GitHub.



		Обработка естественного языка для анализа отзывов онлайн-покупателей
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2019-10-31 20:00 компьютерная лингвистика Цель использования обработки естественного языка в описываемом проекте — анализ обзоров на товары, оставленных онлайн-покупателями. Я начал работу над этим проектом для достижения трех бизнес-целей: Найти основные компоненты рейтингов, используя неконтролируемое обучение для обработки естественного языка. Предсказывать рейтинг товара с помощью контролируемого обучения, основываясь на конкретных отзывах. Рекомендовать с помощью алгоритма схожести товары покупателям, основываясь на истории заказов. Используем набор данных из Kaggle, предоставленный Datafiniti. Более 70,000 отзывов на 1,000 товаров от 58,000 уникальных покупателей. Сфокусируемся на 2 колонках этого набора данных: Рейтинг отзывов по шкале от 1 до 5. Сам текст отзывов, в котором покупатели свободно описывают, что им понравилось или не понравилось в товаре. Как распределяются рейтинги? Большинство покупателей остались довольны, 86% из них ставят оценки 4 и 5. Распределение рейтингов от 1 (крайне недоволен) до 5 (очень доволен). Какие слова люди используют в своих отзывах? В заголовках слова ‘великолепно’ и ‘здорово’ появляются довольно часто. Облако слов для заголовков Покупатели также много описывают ‘фильмы’ и ‘товар’, которые они купили. Довольно трудно классифицировать эти отзывы по осмысленным группам, используя неконтролируемое обучение. Облако слов для текста описания Далее я сосредоточился на 5% всех отзывов от пользователей, которые действительно купили товар — я оцениваю эти отзывы как более подлинные и весомые. В этом наборе данных более 3,680 таких отзывов, и теперь можно произвести некоторый анализ. 3,680 отзывов пользователей, купивших продукт Я искал самый популярный товар, который покупали и оценивали чаще всего. Топ-10 проданных продуктов Это контейнеры для еды, заказанные почти 500 раз. Сам товар выглядит так: Я отфильтровал все рейтинги с оценкой 5 звезд, чтобы найти 3 причины, почему людям нравится этот товар, и произвел латентно-семантический анализ (ЛСА), используя модель Count Vectorizer, в основном подсчитывая частотность слов. Людям нравится этот товар за функции вакуумной упаковки, которая позволяет сохранять овощи свежими; также товар был доступен к заказу. ЛСА неконтролируемой классификации в 3 темах с использованием Count Vectorizer Как насчет плохих рейтингов? Я выполнил неотрицательное матричное разложение (НМР), используя TF-IDF Vectorizer, который придает больший вес редким словам. Люди очень недовольны тем, что функция вакуумной упаковки работает плохо, ее хватает всего на один день. НМР неконтролируемой классификации в 2 темах с использованием TF-IDF Vectorizer Резюме из облака слов дает свежую перспективу — многие из этих покупателей считают, что переплатили за товар. Бизнес может использовать эти данные для анализа. Облако слов из отзывов недовольных покупателей Можно ли использовать машинное обучение для предсказания рейтинга товара на основе этих комментариев? Люди могут читать и понимать комментарии и соотносить их с рейтингами. Как насчет машин? Я обучил и настроил несколько моделей, такие как логистическая регрессия, случайный лес и XGBoost, соотносить слова в описании с соответствующим рейтингом. Модель логической регрессии предсказывает рейтинг с точностью в 73% Также можно сделать и рекомендации товаров. Бизнес может рекомендовать товары, основываясь на истории покупок и рейтингах, оставленных покупателем. Вот 3 похожих покупателя, в результате могут быть рекомендованы товары “пустого пространства”. Рекомендация товаров “пустого пространства” Например, “Джесс” купила несколько семейных фильмов. Применяя тот же алгоритм, модель рекомендует “похожие” фильмы — триллеры и анимационные фильмы. Бизнес может использовать эти результаты для стимулирования продаж. Рекомендации товара от модели машинного обучения В итоге, обработка естественного языка может использоваться для: описательной аналитики (неконтролируемое обучение); предсказательной аналитики (контролируемое обучение); нормативной аналитики (алгоритм схожести). Код на Python описанного анализа доступны на моем GitHub. Читайте также: Распознавание лиц с помощью CoreML и ARKit Обратные вызовы Keras за 2 минуты Распознавание лиц с помощью OpenCV Перевод статьи Black Raven: Natural Language Processing (NLP) to analyse product reviews by online shoppers Телеграм: t.me/ainewsline Источник: m.vk.com Комментарии:

Обработка естественного языка для анализа отзывов онлайн-покупателей

Комментарии: