Лженаука
3736
5
К сожалению критика современных психологов порой бывает обоснована.
Показать спойлер
Лженаука. Верить ли научным статьям по психологии
Научно-популярное*, Краудсорсинг


Уровень значимости и p-значение в математической статистике

С каждым годом растёт количество публикаций в научных журналах, в том числе публикаций по гуманитарным наукам. Согласно определению Бахтина, «предмет гуманитарных наук — выразительное и говорящее бытие. Это бытие никогда не совпадает с самим собой и потому неисчерпаемо в своем смысле и значении».

Неисчерпаемость смысла и значения бытия не мешает анализировать результаты научных исследований статистическими методами. В частности, выводы в исследованиях по экспериментальной психологии часто являются результатом тестирования значимости нулевой гипотезы.

Но есть большое подозрение, что авторы некоторых научных работ не очень сильны в математике.

Статистическая гипотеза — утверждение относительно неизвестного параметра генеральной совокупности на основе выборочного исследования. Для обоснования заключения необходимо тестирование результатов, на которых строится гипотеза, на статистическую достоверность. Надёжность определяется тем, насколько вероятно, что обнаруженная в выборке связь подтвердится на другой выборке той же генеральной совокупности. Очевидно, что провести исследование на всей выборке практически невозможно, а провести многократное исследование на разных выборках очень трудно. Поэтому широко используются методы статистики. Они позволяют оценить вероятность случайного получения такого различия при условии, что на самом деле различий в генеральной совокупности нет.

Нулевая гипотеза (null hypothesis) — гипотеза об отсутствии различий (утверждение об отсутствии различий в значениях или об отсутствии связи в генеральной совокупности). Согласно нулевой гипотезе, различие между значениями недостаточно значительно, а независимая переменная не оказывает никакого влияния.

В современных научных работах нулевые гипотезы часто проверяют с использованием p-значения. Эта величина равна вероятности того, что случайная величина с данным распределением примет значение, не меньшее, чем фактическое значение тестовой статистики.

Например, уровень значимости 0,05 означает, что допускается не более чем 5%-ая вероятность ошибки. Другими словами, нулевую гипотезу можно отвергнуть в пользу альтернативной гипотезы, если по результатам статистического теста вероятность случайного возникновения обнаруженного различия не превышает 5%, т.е. p-значение не превышает 0,05. Если же этот уровень значимости не достигается (вероятность ошибки выше 5%), считают, что разница вполне может быть случайной и поэтому нельзя отклонить нулевую гипотезу. Таким образом, p-значение соответствует риску совершения ошибки первого рода (отклонения истинной нулевой гипотезы).

Использование p-значений для проверки нулевых гипотез в работах по медицине подвергается критике со стороны многих специалистов. Более того, в 2015 году один из научных журналов — Basic and Applied Social Psychology (BASP) — вовсе запретил публикацию статей, в которых используются p-значения. Журнал объяснил своё решение тем, что сделать исследование, в котором получено p < 0,05 не очень сложно, и такие значения p слишком часто становятся оправданием для низкопробных исследований. На практике использование p-значений нередко приводит к статистическим ошибкам первого рода — ошибкам обнаружить различия или связи, которые на самом деле не существуют.

В 2015 году немало шуму наделала статья студентки из университета Тилбурга Мишель Нюйтен с коллегами, опубликованная в журнале Behavior Research Methods (doi: 10.3758/s13428-015-0664-2, pdf).

Девушка обнаружила, что примерно половина всех научных статей по клинической психологии (то есть статей, в которых анализируются результаты экспериментов и делаются выводы) содержат как минимум одно противоречивое p-значение. Более того, в каждой седьмой работе есть чрезвычайно противоречивое p-значение, которое приводит к ошибке первого рода. То есть к обнаружению различий или связей, которые на самом деле не существуют.

Мишель Нюйтен констатирует, что часто эти статистические ошибки совпадают с выводами, которые делают авторы научных работ. Это наводит на мысль, что некоторые психологи проводят исследования с прицелом на получение конкретного результата, под который сознательно или неосознанно подгоняют статистику.

В помощь учёным, для проверки корректности статистических вычислений, Мишель с коллегами разработали программу statcheck. Эта программа извлекает статистику из научных статей и заново вычисляет p-значения. Для работы программы нужен ещё инструмент по конвертации документов PDF в формат TXT. Например, Xpdf. Программа написана на языке программирования R, который создан специально для статистических вычислений. Библиотека устанавливается напрямую из репозитория CRAN:

install.packages(“statcheck”)
library(“statcheck”)

С помощью программы statcheck исследователи проверили более 250 000 p-значений в статьях, опубликованных в научных журналах по психологии с 1983 по 2013 годы. Результаты подтвердились: действительно, около половины всех статей содержат ошибки в вычислении p-значения.

В августе 2016 года авторы программы пошли дальше и решили деанонимизировать авторов научных работ, в которых обнаружены ошибки. Набор данных с анализом 688 112 p-значений в 50 945 научных статьях по психологии опубликован на сайте PrePrints.

По мнению специалистов, это один из крупнейших в истории аудитов научных статей после их публикации. Эдакий краудсорсинг аудита научных работ (краудсорсинг — потому что результаты автоматической проверки нужно ещё проверить вручную силами сообщества — эта работа затянется на месяцы или годы).

Такая попытка не всем понравилась. Некоторые авторы статей, в том числе авторитетные учёные, недовольны тем, что их работы выставляют на показ и повергают такому аудиту. Например, своё недовольство выразила известный психолог Дороти Бишоп из Оксфордского университета, две работы которой помечены программой statcheck, хотя в одной работе ошибок не обнаружилось.
Показать спойлер
ильич
Ну а что, простите, не лженаука? Где и что у нас в жизни на 100 % обоснованное, верное?
В психиатрии все, что не поддается пониманию, классификации и лечению называют "шизофренией", ставят этот "диагноз" и успокаиваются на сим.
В медицине (нашей обычной доступной медицине) лечение часто назначают "наугад", по симптомам.
Стоматологи вообще не лечат зубы, оставляя пациенту мертвый зуб, который после их "лечения" уже обречен на разрушение.
Все везде происходит по принципу "на кого бог пошлет"
Что уж говорить о несчастной психологии? :dnknow:
Я понимаю, что я несколько не о том, но неужели Вы сами до вот этих аудитов верили, что психология может быть точной как аптекарские весы?)))
ильич
Сразу лженаукой объявлять из-за нормального развития научной отрасли? :улыб: Это же не застывшее явление - постоянная борьба мнений, шлифовка методологии, смена парадигм и т.д.
Человеку вне какой-то конкретной науки вообще очень сложно распознать - кто там корифей, кто профан, а кто просто демагог.

Ну а если люди серьезно воспринимают околопсихологический шум в популярных журналах, ну кто же виноват?
ильич
Так ли нам важно, наука это или очковтирательство, если предлагаемый комплекс мер нередко позволяет улучшить качество жизни клиента.
Simbirsky
Качество у современных психологов к сожалению, как показывает практика, понятие кратковременное. А вот кардинальное улучшение жизни это уже ближе к профессионализму.
ильич
Общаясь с нашими психологами конечно возникает ощущения что это лженаука. Полугадалки-полу"экстрасенсы"-полуфилософы. В общем зубы заговорить за деньги подобно вышеперечисленным.