Ученый нашел главные слова хеви-метала

МЕНЮ


Новости ИИ
Поиск

ТЕМЫ


Внедрение ИИНовости ИИРобототехника, БПЛАТрансгуманизмЛингвистика, обработка текстаБиология, теория эволюцииВиртулаьная и дополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информации

АРХИВ


Август 2017
Июль 2017
Июнь 2017
Май 2017
Апрель 2017
Март 2017
Февраль 2017
Январь 2017
Декабрь 2016
Ноябрь 2016
Октябрь 2016
Сентябрь 2016
Август 2016
Июль 2016
Июнь 2016
Май 2016
Апрель 2016
Март 2016
Февраль 2016
Январь 2016
0000

RSS


RSS новости
Ураган харви в США

Новостная лента форума ailab.ru

2017-07-18 12:50

Кластеризация


Частота использования различных слов в песнях heavy metal групп в виде облака тегов. Параметр «металичности» не учитывается.

Degenerate State

Специалист по обработке данных, автор блога Degenerate State, опубликовал список слов, наиболее характерных для музыкальных произведений в стиле heavy metal. Ученый проанализировал свыше 200 тысяч текстов песен и выяснил, что самыми «металичными» можно назвать слова burn («сжигать», «ожог»), cries («крики», «вопить»), veins («вены»), eternity («вечность») и breathe («дышать»). Кроме того, автор указал на возможность сгруппировать группы по близости текстов. Исследование было опубликовано в блоге 20 апреля, но СМИ обратили на него внимание только сейчас.

На первом этапе автор блога выяснил частоту, с которой встречаются различные слова в выборке из 222 623 песен 7634 исполнителей. Как отмечает исследователь, исключив стоп-слова (артикли, предлоги, вспомогательные глаголы), среди часто встречающихся слов оказались time («время»), life («жизнь»). Близкими по частоте оказались и более выразительные для heavy metal слова blood («кровь»), pain («боль») и night («ночь»). 

Исследователь попытался выделить наиболее «металичные» слова — характерные для heavy metal и менее характерные для повседневного использования. Для этого необходимо было ввести коэффициент «металичности». Автор сравнил частотное распределение слов в песнях и в Brown Corpus, собрании из 500 текстов (около миллиона слов), датированных 1960 годом. Для каждого слова вычислялась величина того, во сколько раз чаще (реже) оно встречается в лирике heavy metal, а сам коэффициент представлял собой логарифм этой величины.


Самые «металичные» слова

Degenerate State

Наименее «металичными» оказались слова particularly («особенно»), indicated («указали»), secretary («секретарь»), committee («комитет»), university («университет») и relatively («относительно»). Кроме того автор отметил, что больше всего сквернословия в песнях Five Finger Death Punch, а самые сложные для прочтения тексты у Pig Destroyer.

Следующим шагом в исследовании был анализ слов, типичных для конкретных heavy metal групп. Блогер выбрал в качестве примера произведения групп Motorhead, Machinehead и Diamondhead. Типичность слова для группы определялась следующим образом. Исследователь определял частоту использования данного слова в текстах всех трех групп и в текстах каждой из групп по отдельности. Затем к логарифму отношения этих величин добавлялась еще одна переменная, характерная для данной группы (основанная на частоте использования других слов, кроме выбранного). Так автор определил, что в произведениях Motorhead часто встречаются слова ain't, gonna и know, Machinehead — pain, inside и strength, Diamondhead — oh, yeah, baby.


Наиболее характерные слова для группы Motorhead в сравнении с Machinehead и Diamondhead

Degenerate State


Наиболее характерные слова для группы Machinehead в сравнении с Motorhead и Diamondhead

Degenerate State


Наиболее характерные слова для группы Diamondhead в сравнении с Motorhead и Machinehead

Degenerate State

С помощью новой метрики исследователь построил иерархическую кластеризацию групп. Для этого сначала автор предположил, что все группы независимы между собой. Затем, на основе частоты использования различных слов, ученый вычислил «расстояния» между группами. На следующем этапе группы, «расстояния» между которыми невелики, объединялись в кластер. Потом те же расчеты повторялись для кластеров — возник иерархический граф по типу филогенетического дерева.


Фрагмент иерархического дерева близости heavy-metal групп по текстам

Degenerate State

Как отмечает автор, в некотором случае объединение в кластеры оказывается довольно разумным. Так, в одном кластере оказываются Оззи Осборн и Black Sabbath, Rainbow и Dio, ожидаемо группируется power metal. Полный интерактивный граф доступен по ссылке.

Анализ текстов позволяет делать интересные выводы как об авторах произведений, так и о языке. К примеру, коллектив ученых из Германии и Испании проанализировал скорость изменения английского языка и выяснил, что наибольший вклад в изменения вносят малоупотребимые слова. Использование машинного обучения и нейросетей при анализе текстов помогает компьютерам понимать эмоции в них и даже отвечать на вопросы по книгам. Так удалось определить, что в литературе существует шесть основных сюжетов с точки зрения изменения эмоциональной окраски.

Владимир Королёв


Источник: nplus1.ru