Я очень люблю автоматизацию, компьютеризацию, цифровизацию и прочие аналогичные «зации»

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Я очень люблю автоматизацию, компьютеризацию, цифровизацию и прочие аналогичные «зации». Будучи по образованию экономистом-кибернетиком и статистиком по своей профессиональной деятельности, я не могу быть против. Как-никак, реальная возможность быстрого и удобного применения тех прикладных статистических методов, которые я люблю и постоянно использую, появилась только с распространением достаточно производительной компьютерной техники.

Сейчас же возникла пугающая меня, как профессионала, тенденция. Развитие компьютерных технологии и софта приводит к тому, что статистические методы начинают декларироваться, как «черный ящик». Имеется в виду следующее: вы загружаете данные, они там как-то обрабатываются, и вы получаете результат. Каким методом считали, хорош ли полученный результат? Ответа нет.

Что вынуждает меня писать об этом?

Недавно я присутствовала на предзащите кандидатской диссертации, где очень грамотный, умный, эрудированный соискатель, отлично владеющий модным нынче для обработки данных языком Python, утверждал, что выполнил кластерный анализ, так как при программном сравнении логистической регрессии, дискриминантного анализа, множественной линейной регрессии и кластерного анализа на одних и тех же данных было получено, что лучший результат даст именно кластерный анализ.

Друзья, ну это же ужасно! Пусть даже использованная мера была корректной. Но как можно сравнивать эти методы?! Они же предназначены для решения совершенно разных задач! Логистическая регрессия предполагает бинарную зависимую переменную, влияние факторов на которую мы хотим определить. Дискриминантный анализ тоже можно использовать для этой цели, а по сути – это классификация «с обучением», когда у нас для части наблюдений известно, к какой из двух и более групп они относятся. И мы хотим получить функцию, которая нам позволит отнести наблюдение к конкретной группе – классифицировать. Для линейной регрессии зависимая переменная должна быть непрерывной, то есть количественной. Кластерный же анализ – это разделение совокупности на группы, о которых мы предварительно ничего не знаем. И данные могут быть как количественными, так и качественными.

Даже такое описание позволяет сделать вывод, что не могут сравниваться эти методы! Никак! Их выбор зависит от постановки задачи и исходных данных. Относительно «взаимозаменяемыми» являются логистическая регрессия и дискриминантный анализ. Остальное – нет! Однако же: в библиотеках Python есть такая, которая их сравнивает. И люди используют. И верят.

По большому счету, это похоже на поиск «волшебной кнопки «сделать все хорошо». Как бы нам так загнать данные, и чтобы оно там само как-то посчиталось, а мы бы получили результат. Но что бы ни говорили программисты и представители производителей софта, нельзя, никак нельзя автоматически получить хороший результат.

Недаром выдающиеся статистики говорили, что статистика – не столько ремесло, сколько искусство. Помимо знаний о том, что можно и что нельзя, нужно еще и «чувствовать» данные, понимать, какие, подчас мельчайшие, изменения могут дать нужный результат. Человек, аналитик – ключевое звено статистического анализа! И так будет до тех пор, пока компьютерная техника не овладеет интуицией.

В моей практике было множество ситуаций, когда я проводила какой-то анализ потому, что «нутром чуяла», что это даст результат. Хотя, цитируя братьев Стругацких, я и не могу «пояснить физический смысл понятий «нутро» и «чуять»», итог всегда был положительным. Потому что, согласно новейшим достижениям нейронаук, интуиция – не что иное, как опыт, проявляющийся в эмоциональной форме. Машина так пока не может, увы.

Так почему это пугает? Потому, что практически «из каждого утюга» нас преследует реклама различных курсов по Анализу больших данных, Big Data, Data Science и т.д. И в программе всех этих курсов основное внимание отдается ни методам, а программированию. Предполагается, что главное – правильно запрограммировать, а выбрать метод и понять результат – либо второстепенно, либо вообще не нужно. И это грустно, и даже немного страшно.

С другой стороны, эта тенденция неизбежно приведет к росту ценности специалистов, которые разбираются в методах, могут разработать схему анализа, разработать анкету, выбрать способы и методы анализа. И понять результаты. А уже реализовать метод – гораздо проще.

Именно в этом я вижу свою миссию: передавать свои знания, понимание и интуицию в статистическом анализе, от простого до сложного. Беспроигрышно, бескомпромиссно, обоснованно, творчески и со стопроцентным пониманием результата!


Источник: vk.com

Комментарии: