О лингвистах и big data

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Современной лингвистике нужны большие данные. Представьте, например, сколько запросов обрабатывают голосовые помощники типа Алисы и Маруси. А сколько данных надо скормить им для того, чтобы они корректно эти запросы распознали? Я работаю на подобном проекте и знаю не понаслышке: очень много. В лучшем случае — столько, сколько позволяют вычислительные мощности.

В таких условиях ручная обработка данных — бессмысленный и рабский труд. Лингвистам нужны инструменты для того, чтобы ее автоматизировать. Чем меньше времени ты готовишь данные, тем больше остается на исследование, ю ноу?

Здесь очень нужен код. И вместо того чтобы обращаться к программистам, лингвисты сами ими становятся. Знакомьтесь: это компьютерные лингвисты.

Я вот пишу диплом про подкасты. Чтобы начать исследование, мне нужно собрать корпус письменных расшифровок. Но для начала мне надо выбрать подкасты, которые я буду расшифровывать. Выбрать как? Очень просто: спарсить сайт с подкастами.

Спарсить — значит извлечь какие-то данные с веб-страницы. Я написала парсер, который вытаскивает название подкаста, описание, ссылку на него и число лайков. Итого — таблица на 366 строк, которой я буду жонглировать дальше. Не биг дейта, конечно, но и руками не соберешь.

А дальше можно много чего придумать. Например, вывести критерий релевантности, с опорой на который я буду отбирать нужные мне подкасты. Здесь можно отобрать самые залайканные подкасты и отсечь выбросы — знания статистики тут очень кстати. Или измерить водность описания — привет, копирайтинг. А потом можно накинуть на эти показатели веса и превратить критерий релевантности в формулу, где каждый показатель играет большую или меньшую роль. Ну круто же?

Автоматизированный сбор данных — только одна из задач, с которой работают компьютерные лингвисты. Негуманитарные знания открывают им разом кучу дверей и позволяют работать там, где было над чем, но нечем.


Источник: vk.com

Комментарии: