О лингвистах и big data |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2021-10-13 05:14 Современной лингвистике нужны большие данные. Представьте, например, сколько запросов обрабатывают голосовые помощники типа Алисы и Маруси. А сколько данных надо скормить им для того, чтобы они корректно эти запросы распознали? Я работаю на подобном проекте и знаю не понаслышке: очень много. В лучшем случае — столько, сколько позволяют вычислительные мощности. В таких условиях ручная обработка данных — бессмысленный и рабский труд. Лингвистам нужны инструменты для того, чтобы ее автоматизировать. Чем меньше времени ты готовишь данные, тем больше остается на исследование, ю ноу? Здесь очень нужен код. И вместо того чтобы обращаться к программистам, лингвисты сами ими становятся. Знакомьтесь: это компьютерные лингвисты. Я вот пишу диплом про подкасты. Чтобы начать исследование, мне нужно собрать корпус письменных расшифровок. Но для начала мне надо выбрать подкасты, которые я буду расшифровывать. Выбрать как? Очень просто: спарсить сайт с подкастами. Спарсить — значит извлечь какие-то данные с веб-страницы. Я написала парсер, который вытаскивает название подкаста, описание, ссылку на него и число лайков. Итого — таблица на 366 строк, которой я буду жонглировать дальше. Не биг дейта, конечно, но и руками не соберешь. А дальше можно много чего придумать. Например, вывести критерий релевантности, с опорой на который я буду отбирать нужные мне подкасты. Здесь можно отобрать самые залайканные подкасты и отсечь выбросы — знания статистики тут очень кстати. Или измерить водность описания — привет, копирайтинг. А потом можно накинуть на эти показатели веса и превратить критерий релевантности в формулу, где каждый показатель играет большую или меньшую роль. Ну круто же? Автоматизированный сбор данных — только одна из задач, с которой работают компьютерные лингвисты. Негуманитарные знания открывают им разом кучу дверей и позволяют работать там, где было над чем, но нечем. Источник: vk.com Комментарии: |
|