Анализ текстов для определения репутации организации: опыт IDLab

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Чтобы обучать студентов анализу данных, важно самим обладать необходимыми компетенциями в области. И этим текстом мы докажем, что наши преподаватели — действительно профессионалы, ведь они на практике использовали текстовые данные, чтобы определить уровень репутации компании. А это действительно важный показатель для создания стоимости фирмы.

Об инструментах и методах

В 2019 году сотрудники IDLab, о которой мы вам рассказали позавчера, и по совместительству преподаватели нашей магистратуры приняли участие в крупном проекте для компании Coca-Cola Россия. Частью проекта являлось определение настроения и отношения авторов к бренду на основе анализа текстов. Иными словами, нужно было определить эмоциональный окрас текстовой информации, чтобы понять, какой репутацией пользуется компания среди своей целевой аудитории.

В науке у этого процесса есть название — sentiment analysis, или анализ тональности, и он является частью более широкого понятия NLP – natural language processing, методы обработки естественного языка. Расскажем немного про саму процедуру.

Первым делом проводится сбор данных. Поскольку для анализа нужна очень большая база текстов, сбор проводится при помощи web-scrapping, то есть пишется код, которые тексты с HTML переделывает в более удобный для анализа формат. Следующим шагом текст разбивается на слова. Делается это потому, что уже существуют словари оценочных слов и выражений русского языка, которые содержат информацию об эмоциональной окраске каждого конкретного слова.

Так, на основе этого словаря каждому слову в тексте дается одна из трех категорий: положительная, нейтральная и отрицательная. Завершает данную процедуру подсчет количества слов каждой категории.

Дальше на основе результатов анализа тональности сотрудники IDLab построили индекс и определили потенциальное влияние репутации на стоимость компании. Так, если в тексте преобладают слова положительной окраски, значит репутация компании является ее нематериальным ресурсом — репутация хорошая и работает на пользу компании.

В настоящее время лаборатория выполняет еще один проект, основанный на анализе тональности – это оценка репутации университетов, участвующих в программе 5-100.

О практическом применении и студентах

Для компаний это безусловно полезная аналитика, поскольку в современном мире большую часть стоимости составляет бренд, репутация. Примененный метод анализа был основан на анализе большого количества текстовой информации, что дает максимально объективную картину.

Кроме того, анализ тональности и семантический анализ текстов используется для анализа годовых отчетов компании, например, для построения стратегии на фондовых рынках.

Навыки веб-скрепинга, обработки и анализа данных, которые получают наши студенты во время обучения, позволяют проводить такой анализ самостоятельно. Так, в 2020 году наша студентка Маргарита Чепикова защитила магистерскую диссертацию на тему «Влияние раскрываемой в отчетах информации на цены акций компаний США», в которой как раз проводила анализ тональности.

Ее работа очень заинтересовала практиков, которые входили в состав комиссии. В итоге Маргариту пригласили на собеседование в департамент Банка России, который занимается построением математических моделей для анализа финансовых рынков.

Меня заинтересовало, где узнать подробнее про анализ тональности текста?

Преподаватели поделились бесплатными ресурсами, на которых можно прочитать про сентимент-анализ.

  1. Книга с введением в тему анализа текстов «Welcome to Text Mining with R»

Источник: m.vk.com

Комментарии: