Когда-то давно на нашем сайте задавали вопрос по поводу кризиса воспроизводимости результатов в науке. Высказывались самые разные предположения вплоть до того, что поразвелось шарлатанов.
Я недавно прочитал статью на Дзене на этот счёт и выяснил в чём состоит реальная причина. Ссылку на оригинальную статью к сожалению привести не могу. Пытаюсь снова найти эту статью, но не могу. Ни в одном журнале просмотра она не отпечаталась. Поэтому пересказываю своими словами основную мысль
Любой научный метод исследования отличается от лженаучного метода исследования, последовательностью рассмотрения гипотез. При научном методе исследования, в начале всегда рассматривается нулевая гипотеза – принимаемое по умолчанию предположение о том, что не существует связи между двумя наблюдаемыми событиями. Нулевая гипотеза считается верной, пока нельзя доказать обратное. Нулевая гипотеза – полная противоположность тестируемой гипотезы.
Объясняю на простом и понятном примере, ответ на который мы знаем точно. Влияет ли наличие зрения на точность стрельбы из лука?
Как это проверить? Казалось бы ответ прост – истина в науке определяется результатами наблюдений и экспериментов. Если подходить к этому эксперименту строго по научному, то для начала нужно выдвинуть нулевую гипотезу – наличие зрения не влияет на стрельбу из лука. Эту гипотезу следует опровергнуть экспериментально, т.е. поручить стрелку выпускать стрелы с повязкой на глазах.
Но ведь это не более чем общие слова. Сколько раз нужно попасть в мишень, а сколько раз не попасть, чтобы считать ту или другую гипотезу подтверждённой или опровергнутой? В этом то вся и засада. Может ли гипотетически стрелок с повязкой на глазах попасть в мишень? Может, точно может, вопрос только в распределении вероятности.
Специально для таких случаев в математической статистике есть понятие P-значение (англ. P-value),. Эта безразмерная величина считается как отношение удачных событий к общему числу событий. Чем меньше это величина, тем лучше, значит тестируемая гипотеза верна. Если же эта величина приближается к 0.5, то это однозначно указывает что верна нулевая гипотеза.
Допустим в нашем случае, стрелок с повязкой на глазах, выпустил 100 стрел. Из них 5 стрел попали в мишень, 95 пролетели мимо. P-значение в нашем случае равно 0.05. Это много или мало? Дело в том, что общего стандарта на уровень значимости на данный момент не существует. Раньше существовал стандарт в 0.05. Если верить этому стандарту, то получается что 5 стрел из 100 могут попасть в мишень совершенно случайно. Сколько точно стрел попадает в мишень в подобном эксперименте, лично я понятия не имею. Я привожу этот эксперимент исключительно как пример.
Многими исследователями проблемы кризиса воспрозводимости считается, что критерий значимости 0.05 слишком завышенный. Из-за этого многие результаты исследований ложноположительные. Связь находится там, где её нет. Несколько авторов предлагают установить стандарт в 0.001, что является другой крайностью. Результаты окажутся ложноотрицательными. Со стрелком из лука было всё понятно, потому что мы изначально знали правильный ответ.
Но ведь практика со временем расставляет всё по своим местам. Если одной из лабораторий связь определена как положительная, но на самом деле она ложноположительная, то это обязательно всплывёт в последующих исследованиях. Существует не кризис воспроизводимости в науке, а медленное нащупывание верного значения критерия значимости p-value, индивидуально для каждой конкретной гипотезы. Параллельно с этим критерием используют другие статистические методы обработки результатов.