Мы учили R, но на практике всё равно Excel: как (не) готовят data-политологов

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



Поступили на политологию. Думали: будем анализировать большие данные, строить модели, проверять гипотезы. В учебном плане — «Количественные методы», «Компьютерные технологии», даже «Анализ социальных сетей». Звучит как вход в world of data science.

Пришли на первую пару. Преподаватель: «Мы будем изучать R — мощнейший язык статистической обработки данных». Студенты приготовились. На второй паре показали, как установить RStudio. На третьей — как создать переменную. На четвёртой — как загрузить табличку из пяти строчек. Дальше — сплошная теория: «Если бы мы хотели провести регрессионный анализ, то следовало бы…» А практики — ноль.

Зачёт: нужно было сдать тест из десяти вопросов про типы данных и циклы. R так и не пригодился.

А на следующий семестр — курс «Вычислительные социальные науки». Там уже лекции про машинное обучение, нейросети, анализ текстов. Студенты пишут конспекты: «Кластеризация бывает иерархической и методом k-средних». Домашнее задание: на листочке описать алгоритм работы градиентного спуска. Ни строчки кода. Практика? Нет, это же теория, а вы гуманитарии.

И это — программа подготовки «аналитиков данных в политике и бизнесе». Выпускник знает: что такое p-value, как выглядит формула логистической регрессии и в чём разница между supervised и unsupervised learning. Спросите его «а как это применить к реальным данным об электоральных исходах?» — он откроет Excel и построит линейный тренд через график. Потому что другому не учили.

Разрыв между «рассказали» и «сделали»

Курсы количественных методов в российских политологических программах почти всегда страдают одним недугом: теория без практики. Или практика на уровне «игрушечных» примеров.

Лектор: «Сегодня мы разбираем регрессионный анализ. Вот формула: Y = ?0 + ?1X + ?. Что означают коэффициенты, понятно?» Все кивают, хотя немного поняли. Дальше — слайд с результатами регрессии из чужой статьи: «Видите, p-value меньше 0,05, значит, эффект статистически значим». Домашнее задание: прочитать статью, где применяли регрессию, и пересказать выводы.

А где код? Где данные? Где запуск модели самому? Где косяки, ошибки, подгонка спецификации? Этого нет. Потому что преподаватель сам не умеет запускать регрессию в R. Или умеет, но не хочет возиться с установкой пакетов на 20 ноутбуках в аудитории.

Итог: студенты выучили «слова», но не «действия». Они могут блеснуть терминами на экзамене. Но когда реальный работодатель даёт CSV-файл с 10 тысячами строк и просит: «Построй прогноз явки», — паника. Потому что никто не учил работать с пропущенными значениями, отбирать переменные, интерпретировать гетероскедастичность.

Две беды: преподаватели и инфраструктура

Первая беда — преподаватели. Кто ведёт количественные методы в регионах? Либо старый профессор, который помнит «статистику» по учебнику 1980-х и считает R «баловством для программистов». Либо молодой кандидат наук, который сам когда-то прослушал курс по SPSS и теперь пересказывает его студентам. Либо приглашённый «айтишник», который знает Python, но не понимает political science.

Редкостный зверь — преподаватель, который владеет и современными методами, и предметной областью. Их единицы, и они обычно работают в топовых вузах (ВШЭ, ЕУСПб) или уехали. Остальным приходится выкручиваться.

Вторая беда — инфраструктура. Чтобы научить работать с данными, нужны: доступ к реальным (или хотя бы реалистичным) базам данных, сервер для вычислений, лицензии на софт (хотя R бесплатен, но его надо уметь преподносить). В большинстве вузов этого нет. Аудитории с компьютерами зачастую имеют старый Excel и никакого R. Студенты пытаются ставить R на свои ноутбуки, но у кого-то Windows 7, у кого-то macOS с непонятными правами. Преподаватель не хочет быть техподдержкой.

В итоге проще провести занятие «по старинке»: рассказать теорию, дать тест.

Что на выходе? Специалист, умеющий говорить о данных, но не умеющий с ними работать

Выпускник политологического бакалавриата с курсом «Количественные методы»:

Может сказать: «нужно провести регрессионный анализ».

Не может: запустить регрессию в любой программе.

Может назвать три вида выборки (случайная, стратифицированная, кластерная).

Не может: посчитать необходимый объём выборки для опроса.

Может упомянуть «большие данные» как магическое заклинание.

Не может: спарсить данные из открытого источника.

Это всё равно что учить водить машину по лекциям про двигатель внутреннего сгорания. Теорию знаешь, а за руль сесть страшно.

Работодатели (аналитические центры, консалтинг, государственные структуры) всё чаще требуют хотя бы базовых навыков работы с данными: SQL, знание одного языка статистической обработки (R, Python), умение строить визуализации. А им приносят дипломы, где в разделе «навыки» написано: «Excel, SPSS (базовый)». И это «базовый» часто означает «открыть файл и построить гистограмму».

Как могло бы быть (идеальная картинка, почти фантастика)

Представьте курс «Введение в количественные методы для политологов». 16 недель, 4 часа в неделю (2 лекции, 2 лабораторных). Никакой теории ради теории.

Неделя 1–2: установка R/RStudio, элементарные операции, чтение данных. Домашнее задание: загрузить датасет и посчитать среднее по колонке.

Неделя 3–4: визуализация (ggplot2). Построить красивые графики по электоральной статистике.

Неделя 5–6: проверка гипотез (t-test, chi-square). Разобрать реальный кейс: отличаются ли явка в регионах с губернаторскими выборами от регионов без них?

Неделя 7–10: линейная регрессия. Простая, множественная. Оценка качества модели. Домашнее задание: на данных Всемирного банка построить модель, объясняющую ВВП на душу населения.

Неделя 11–12: логистическая регрессия. Бинарный исход: проголосовал ли респондент за партию власти.

Неделя 13–14: работа с текстовыми данными (bag of words, тональность). На базе новостей предсказать тон публикации.

Неделя 15–16: итоговый проект. Студенты сами выбирают исследовательский вопрос, собирают данные, проводят анализ, защищают отчёт.

Это требует: преподавателя с навыками, компьютерного класса с R, предустановленных пакетов, готовых датасетов. Это требует, чтобы на курсе было 10–15 человек, а не 50. Это требует времени на проверку домашних заданий с кодом.

В массовом российском вузе это — утопия. Поэтому срезают угол. Дают теорию. Не заставляют кодить. Потому что так проще для всех.

Но есть нюанс: даже маленький шаг в сторону практики даёт результат

Не обязательно сразу учить регрессиям. Можно начать с простого: дать студентам реальный опросный файл в Excel и попросить построить сводную таблицу, посчитать долю, визуализировать. Без всякого R. И уже это будет лучше, чем лекция про p-value.

Второй шаг: научить отличать корреляцию от причинности на конкретных примерах. Разобрать типичную ошибку: «С ростом числа пожарных станций растёт ущерб от пожаров, значит, пожарные вредны?» — нет, потому что больше станций там, где больше пожаров. Студенты должны это щупать руками.

Третий шаг: хотя бы один раз провести «лабораторную» в Excel с пакетом анализа данных (Data Analysis Toolpak). Простая регрессия, интерпретация коэффициентов. Не идеал, но лучше, чем совсем ничего.

Кто-то скажет: «Это не наука, это техника». Но без техники наука превращается в болтовню. А мы и так слишком много болтаем.

Итог: пока учим «о методах», но не методам

Российская политология продолжает учить о количественных методах, а не самим количественным методам. Студент узнаёт, что такое регрессия, но не может её запустить. Слышит слова «большие данные», но никогда не обрабатывал данные размером больше таблички в 100 строк.

Пока это будет продолжаться, наши выпускники будут проигрывать на рынке труда тем, кто просто прошёл бесплатный онлайн-курс на Coursera. Исследования будут оставаться пересказом новостей. А дисциплина — не наукой, а риторикой.

Изменить это можно только одним способом: перестать бояться кода и цифр. Начать с малого. Купить компьютеры? Установить R? Научить преподавателя? Рискнуть дать практическое задание? Да, это трудно. Но иначе мы так и останемся в пещере, где вместо данных — мнение, а вместо анализа — «я так вижу».

А могло бы быть иначе. Но для этого нужно захотеть. И перестать оправдываться фразой «у нас гуманитарный вуз». Данные не имеют гуманитарной прописки.


Телеграм: t.me/ainewsline

Источник: vk.com

Комментарии: