«Наукообразная чушь. Разоблачение мошенничества, предвзятости, недобросовестности и хайпа в науке»

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Как обнаружить числовые ошибки в научной статье.

В теории научные статьи, содержащие ошибки или сомнительные выводы, не могут появиться в рецензируемых научных журналах. Однако система не идеальна: ученые сталкиваются с невоспроизводимостью результатов, а статьи нередко отзываются после публикации. В книге «Наукообразная чушь. Разоблачение мошенничества, предвзятости, недобросовестности и хайпа в науке» (издательство «Corpus»), переведенной на русский язык Аленой Якименко, популяризатор науки Стюарт Ричи рассказывает об устройстве современного научно-исследовательского процесса и недостатках системы рецензирования. Предлагаем вам ознакомиться с фрагментом, посвященным числовым ошибках в научных работах.

***

Насколько в научных работах распространены числовые ошибки? В 2016 году группа голландских исследователей под руководством психолога Мишель Нёйтен попыталась это выяснить. Они представили алгоритм под названием statcheck, своего рода «спелл-чекер для статистики».

Nuijten M.B. Statcheck — a Spellchecker for Statistics. LSE Impact of Social Sciences. 28 Feb. 2018. Приложение statcheck: http://statcheck.io.

Когда вы вводите в statcheck научную статью, он проходится в ней по всем числам и отмечает ошибки в p-значениях. Алгоритм способен это сделать, поскольку многие числа в статистических тестах зависят друг от друга, поэтому, если известны лишь некоторые из них, всегда можно воспроизвести остальные (как благодаря теореме Пифагора вы всегда можете вычислить гипотенузу треугольника, если известны длины двух других сторон). Если p-значение и другие связанные с ним числа друг с другом не согласуются, что?то, вероятно, не так. Нёйтен и ее коллеги прогнали через statcheck более тридцати тысяч статей — гигантскую выборку исследований, опубликованных в восьми главных журналах по психологии с 1985 по 2013 год. От того, что они обнаружили, становится просто неловко.

Почти в половине работ, содержащих нужные статистические данные, имелось как минимум одно числовое несоответствие. Справедливости ради отметим, что большинство ошибок были незначительными и практически не затрагивали общие результаты. Однако некоторые несоответствия сильно повлияли на выводы исследования: в 13 процентах случаев были допущены серьезные ошибки в стиле Рейнхарт и Рогоффа, которые могли полностью изменить интерпретацию результатов (например, превратить статистически значимое p-значение в незначимое или наоборот). Конечно, эти несоответствия могли возникнуть по разным причинам: от простых опечаток и ошибок копирования вплоть до сознательного мошенничества. Statcheck — это лишь способ подсветить ошибки в научном тексте, а не установить причины их появления.

Nuijten M. B. et al. The Prevalence of Statistical Reporting Errors in Psychology (1985–2013). Behavior Research Methods. 48, no. 4 (2016): 1205–26.

(Стоит заметить, что у алгоритма statcheck есть критики: Schmidt T. Statcheck Does Not Work: All the Numbers. Reply to Nuijten et al. (2017). Preprint, PsyArXiv (22 Nov. 2017).

Один из самых интересных результатов анализа Нёйтен показывает, как недобросовестность сопряжена с предвзятостью. Несоответствия, отмеченные алгоритмом statcheck, были, как правило, в пользу авторов — то есть ошибочные числа делали результаты более, а не менее согласующимися с гипотезой исследования. Будь это просто абсолютно случайные опечатки, нельзя было бы ожидать, что в среднем они сдвинут результаты в какую?то одну сторону. Похоже, однако, как мы могли бы предсказать на основании своих знаний о предвзятости, будто ученые чаще пересматривали результаты, когда те отклонялись от намеченного пути. А вот ошибочные результаты, подтверждавшие их теорию, были попросту слишком хороши, чтобы их проверять.

Другой особенно изящный метод узнать, верны ли приведенные в статье числа, имеет явно неизящное название «тест на несогласованность средних, связанный с гранулярностью», сокращенно он именуется тестом GRIM (Granularity-Related Inconsistency of Means).

Brown N. J. L., Heathers J. A. J. The GRIM Test: A Simple Technique Detects Numerous Anomalies in the Reporting of Results in Psychology. Social Psychological and Personality Science. 8, no. 4 (2017): 363–9.

С помощью этого теста, разработанного расследователями в мире данных Ником Брауном и Джеймсом Хизерсом, проверяется, имеет ли смысл среднее значение (а именно — среднее арифметическое) набора чисел с учетом того, сколько чисел в нем содержится. Представьте, что вы просите людей оценить, насколько они довольны своей работой, по шкале от 0 до 10 (и ответ дозволяется давать только в целых числах: скажем, «4» или «5», но не «3,7»). Допустим, в простейшем случае вы задали этот вопрос только двум людям и сообщаете среднее значение их оценок, то есть складываете два их результата и делите сумму пополам. Если в получившемся числе посмотреть на цифры после запятой, то возможных вариантов для них будет всего ничего: для двух человек среднее значение их ответов может заканчиваться только на «,00» или «,50». Если же у вас получилось, например, 4,40, значит, что?то точно пошло не так: при делении целого числа на два получить такую дробь невозможно.

В тесте GRIM та же логика применяется к выборкам покрупнее. К примеру, если двадцать участников оценили что?либо по шкале целых чисел от 0 до 10, вам никак не получить среднее, равное 3,08. При делении на двадцать значения после запятой могут идти только с шагом 0,05: среднее, равное 3,00, или 3,10, или 3,15, получить возможно, а 3,08 — невозможно.

Можете проверить сами на калькуляторе или использовать приложение: http://nickbrown.fr/GRIM.

Браун и Хизерс использовали тест GRIM, чтобы проверить выборку из семидесяти одной опубликованной статьи по психологии, и обнаружили, что в половине из них приводилось по меньшей мере одно невероятное число, а в 20 процентах содержалось даже несколько. Как и в случае с алгоритмом statcheck, ошибки, выявленные методом GRIM, могут объясняться причинами безобидными, однако же служат красными флагами, сигнализирующими о необходимости дальнейшего анализа.

Значение 3,08 в моем примере неслучайно, я выбрал его, поскольку оно сыграло свою роль в истории теста GRIM и психологических исследований в целом. В 2016 году психолог Матти Хейно применил метод GRIM для анализа одной из самых знаменитых статей по психологии всех времен — работы Леона Фестингера и Джеймса Карлсмита о «когнитивном диссонансе», вышедшей в 1959?м.

Festinger L., Carlsmith J. M. Cognitive Consequences of Forced Compliance. Journal of Abnormal and Social Psychology. 58, no. 2 (1959): 203–10

Сейчас эта идея широко известна: когда человека заставляют говорить или делать то, что противоречит его истинным убеждениям, он чувствует психологический дискомфорт и старается подладить эти свои убеждения под слова и действия, к которым его принудили. Участников исследования 1959 года заставляли выполнять нудные и бессмысленные задания, например без конца проворачивать штырьки в перфорированной панели. После некоторым выплачивали доллар, чтобы они говорили следующим по очереди участникам, будто задания показались им весьма интересными и забавными. Позднее при опросе участники, которым за ложь о задании заплатили, отзывались о нем как о гораздо более интересном, чем те, кому доллар не достался. Иными словами, они уменьшали свой диссонанс, заставляя себя поверить, что им было весело.

Была и третья группа участников, которым платили по двадцать долларов. При опросе они говорили, что нашли задание скучным, равно как и те, кому не платили ничего, — предположительно потому, что уменьшили свой когнитивный диссонанс мыслями о доставшихся им денежках, а не подстройкой своих убеждений.

Увы, примененный Хейно тест GRIM продемонстрировал, что не только впечатления участников были рассогласованы — но и числа у Фестингера и Карлсмита. Для выборки из двадцати человек, дающих оценку по шкале целых чисел от 0 до 10, они заявили о среднем, равном 3,08, что невозможно, как мы обсудили выше, не говоря уже о том, что тест не прошли и еще несколько средних.

Heino M. The Legacy of Social Psychology. Data Punk. 13 Nov. 2016.

Когнитивный диссонанс — исключительно полезная идея, интуитивно нам понятная, и эксперимент был хитрым и запоминающимся. Но стали бы тысячи ученых, на протяжении многих лет ссылавшиеся на статью Фестингера и Карлсмита, делать это, знай они, что она кишит неправдоподобными числами??

С января 2020 года, согласно Google Scholar, на статью сослались больше 4200 раз.

Эта история еще раз напоминает нам, что даже «классические» результаты из научной литературы — те, что, хотелось бы надеяться, проверялись самым строгим образом, — могут быть совершенно ненадежными, когда числа и другие данные, которым следует играть важнейшую роль, выступают в качестве чистых декораций — фона для захватывающей истории.

Еще числовые ошибки настораживающе распространены в научных областях, где ставки куда выше. Вспомните: самый плодовитый научный мошенник в мире (во всяком случае на момент написания этих строк) — анестезиолог Ёситака Фудзии. Его затяжному марафону по подделыванию данных положил конец анестезиолог Джон Карлайл, разработавший статистический метод для проверки, действительно ли рандомизированные клинические испытания рандомизированы.

Carlisle J. B. The Analysis of 168 Randomised Controlled Trials. Также см. о Карлайле: Adam D. How a Data Detective Exposed Suspicious Medical Trials. Nature. 571, no. 7766 (2019): 462–4.

Рандомизация по своей сути — это словно подбрасывание монеты для каждого из участников, чтобы распределить их по группам (скажем, активного препарата либо же плацебо) случайным образом, а не каким?либо заранее спланированным способом, который может быть источником предвзятости. Это процесс первостепенной важности: он призван на момент начала испытаний гарантировать, что между группами нет существенных различий. Если люди в одной группе здоровее, образованнее, старше или заметно отличаются по любому другому показателю, который может повлиять на результаты, исследование не будет честным.

См. Kendall J. M. Designing a Research Project: Randomised Controlled Trials and Their Principles. Emergency Medicine Journal. 20, no. 2 (2003): 164–8.

Поэтому, если на начало рандомизированного контролируемого исследования между группами имеются большие различия, налицо проблема: процесс рандомизации провален. С другой же стороны, если группы подобраны идеально и необъяснимым образом удалось избежать железного правила о зашумленности чисел, это тоже сомнительно: даже после рандомизации между группами все равно должны быть мельчайшие различия, просто по случайности. Вот на чем основан метод Карлайла. Когда он проверил статьи Фудзии, то обнаружил данные совершенно неправдоподобно стройные: так, например, распределения заявленных возраста, роста и веса пациентов Фудзии были почти идеально синхронизированы. Шансы, что такое произойдет в реальности, меньше одного к десяти в тридцать третьей степени (то есть одного к миллиарду триллионов триллионов).

Carlisle J.B. The Analysis of 168 Randomised Controlled Trials.

Само собой, оказалось, что Фудзии — мошенник.

В 2017 году Карлайл применил свой обнаруживающий ошибки метод к пяти тысячам восьмидесяти семи медицинским исследованиям из восьми журналов, опять проверяя рандомизацию, которая была либо негодной, либо подозрительно совершенной. Не исключено, конечно, что некоторые испытания выглядят сомнительно просто по невезению. Но даже принимая это во внимание, Карлайл обнаружил, что 5 процентов исследований содержат подозрительные данные: таким образом, он выявил сотни работ, которые, возможно, полностью искажены — а их результаты бессмысленны — из?за неправильной рандомизации групп. Лишь за малой долей этих проваленных испытаний стояло мошенничество в стиле Фудзии; судя по всему, Карлайл обнаружил в основном «невинные» ошибки.

Carlisle J. B. Data Fabrication and Other Reasons for Non-Random Sampling in 5087 Randomised, Controlled Trials in Anaesthetic and General Medical Journal. Anaesthesia. 72, no. 8 (2017): 944–52. Одной из главных целей Карлайла было проверить, не хуже ли дела с подозрительно выглядящими исследованиями обстоят в анестезиологии, чем в других медицинских областях. Он пришел к выводу, что ошибки в анестезиологии так же скверны, как и везде.

Хотя, учитывая, что стоит на кону в медицинских исследованиях — ведь врачи используют их результаты при подборе лечения для своих пациентов, — эти «невинные» ошибки могут обернуться большой бедой.

Не все впечатлились методом Карлайла. Редакторы журнала Anesthesiology написали резко критическую статью, где указали на некоторые недостатки в статистике Карлайла и укорили его за подозрения, что основной причиной провалов при рандомизации было мошенничество, а не ошибки (Kharasch E. D., Houle T. T. Errors and Integrity in Seeking and Reporting Apparent Research Misconduct. Anesthesiology. 127, no. 5 (2017): 733–7).

Карлайл предоставил ответ, весьма убедительный, на мой взгляд (Carlisle J. B. Seeking and Reporting Apparent Research Misconduct: Errors and Integrity — a Reply. Anaesthesia. 73, no. 1 (2018): 126–8), однако это уже другой интересный пример, который иллюстрирует, что за самими наблюдателями тоже надо наблюдать. Как бы то ни было, в следующей главе мы увидим, что метод Карлайла действительно выявил негодность рандомизации в чрезвычайно важных клинических испытаниях, посвященных питанию, а значит, абсолютно ошибочным он быть не может.

Самое замечательное в алгоритме statcheck, тесте GRIM и методе Карлайла — что их можно применить, используя лишь итоговые данные, которые обычно предоставляются в статьях, вроде p-значений, средних, размеров выборок и стандартных отклонений. Не требуется доступа к таблицам полных исходных данных. Пожалуй, оно и к лучшему, поскольку ученые славятся нежеланием делиться своими данными, даже когда другие добросовестные исследователи любезно их об этом просят. Исследование, проведенное в 2006 году, показало, что жалкие 26 процентов психологов согласны были отправить свои данные другим ученым по запросу через электронную почту; похожие удручающие цифры получены и в других областях. Еще ваша вероятность получить доступ к данным будет становиться тем меньше, чем больше времени проходит с момента исследования. Подобное нежелание делиться данными блокирует жизненно важные процессы самокритики — все те же мертоновские нормы коллективизма и организованного скептицизма, — что лежат в основе науки.

И какими бы хитрыми ни были три перечисленных выше метода, они меркнут в сравнении со всеобъемлющей проверкой, которую можно было бы провести, имея в своем распоряжении полный, подробный набор данных. Впрочем, сейчас стремление сохранить данные в тайне (а еще, возможно, страх, что кто?то найдет в вашей опубликованной работе ошибки) явно перевешивает мертоновские мотивы для обмена ими.

_______________________

Это был отрывок из книги:

Ричи, Стюарт. Наукообразная чушь. Разоблачение мошенничества, предвзятости, недобросовестности и хайпа в науке / Стюарт Ричи; пер. с англ. Алены Якименко. — Москва : Издательство АСТ : CORPUS, 2024. — 432 с.


Источник: nickbrown.fr

Комментарии: