Санкт-Петербургский
Государственный Медицинский Университет им. акад. И. П.
Павлова (Санкт-Петербург)
Единые
требования
Редакции многих отечественных и зарубежных биомедицинских журналов при подготовке к публикации научных статей рекомендуют
авторам руководствоваться «Едиными требованиями к рукописям, представляемым в биомедицинские журналы».
Требования разрабатывает Международный комитет редакторов медицинских журналов". Эти требования регулярно пересматриваются, и последняя их редакция
датирована октябрем 2008 г. [1]. На русский переведена редакция 2005 г. [2].
В этих требованиях обязательным является
раздел «Статистика», в котором сказано: «Описывайте
статистические методы настолько детально, чтобы осведомленный читатель, имеющий
доступ к исходным данным, мог проверить сообщаемые Вами результаты. По
возможности, подвергайте полученные данные количественной оценке и
представляйте их с соответствующими показателями ошибок измерения и
неопределенности или варьирования измерений
(такими как доверительные интервалы). Не следует полагаться
исключительно на проверку статистических гипотез, например, на использование Р-значений,
которые не содержат важную информацию о размере эффекта» [2].
В отечественной литературе,
пожалуй, наиболее подробно «Принципы описания статистики в биомедицинских публикациях» обсудил редактор известного сайта
«Биометрика» В.П. Леонов [3]. Полезные сведения содержатся также в ГОСТР
52379-2005: «Надлежащая клиническая практика» [4] и в недавно переведенной
книге «Как описывать статистику в медицине. Руководство для авторов, редакторов
и рецензентов» [5]. Обновленные требования появились недавно в журнале
«Экология человека», в которых в частности содержится чрезвычайно важное предостережение:
«Всегда следует
помнить, что выявление статистически значимых различий еще не означает наличия
достоверных или клинически важных различий, а также причинно-следственных
связей» [6].
Несмотря на рекомендацию
«не полагаться исключительно на использование P‑значения», до сих пор во многих научных публикациях оно фигурирует
как решающий показатель значимости наблюдаемых авторами эффектов, различий,
корреляций и т.п.
Р-значение
Напомним, как
определяется и вычисляется Р-значение.
P-значение есть условная вероятность, а именно:
Вероятность получить наблюдаемое значение tнабл. статистики некоего критерия T и все остальные еще менее вероятные значения этой
статистики (или значения, еще более отклоняющиеся от ожидаемых) ПРИ УСЛОВИИ,
что верна нулевая гипотеза H0:
Pval = Pr[|T| ≥ |tнабл.| | H0].
Тут следует обратить внимание на то, что «еще менее вероятные данные» не
являются «данными», мы их не наблюдаем. Мы их додумываем из всех возможных в
рамках выбранной нами (нулевой) модели.
Распространенной
является интерпретация P-значения
как меры (силы) доказательства, предоставляемого имеющимися данными, против
нулевой гипотезы. Однако, строго говоря, оно не является мерой в математическом
смысле (не обладает свойством аддитивности) и
не удовлетворяет, как минимум, двум важнейшим принципам теории
статистики – Принципу правдоподобия и Р-постулату.
Принцип
правдоподобия и Р-постулат
В словесной формулировке
Принцип правдоподобия есть положение о том, что статистический анализ данных
должен оперировать теми и только теми
данными, которые реально получены в эксперименте. В математических
терминах Принцип правдоподобия утверждает, что все выводы о неизвестном параметре
µ содержатся в функции правдоподобия для µ, вычисляемой из полученных данных. Однако,
для вычисления Р-значения, как это
следует из его определения, используются не только наблюдаемые в эксперименте
данные, но и все другие, еще менее вероятные, которые в реальности не были
наблюдены. Другими словами, вычисление Р-значения
не основано на функции правдоподобия и,
соответственно, не удовлетворяет Принципу правдоподобия.
Кроме того, чтобы Р-значение
служило реальной и адекватной мерой статистического доказательства, оно должно удовлетворять
простому правилу (постулату) согласно которому одинаковые P-значения должны предоставлять
одинаковые доказательства против нулевой гипотезы. Это правило называют «Р-постулатом» [7]. Однако, это минимальное
требование не выполняется. Так, интуитивно можно понять, что Р = 0,01 для эксперимента с 10 наблюдениями явно не будет иметь той же
доказательной силы, что и Р = 0,01
для эксперимента с 300 наблюдениями. Равным образом, Р = 0,001, полученное в одном опыте, и Р = 0,01 – в другом, не
означает, что эффект, наблюдаемый в первом опыте, в 10 раз более убедителен,
чем эффект во втором опыте. Таким образом, значение не является непосредственной
мерой таких доказательств. Это прекрасно понимал Р.А. Фишер: «Критерий значимости P-значение] не позволяет нам делать какие-либо выводы о проверяемой
гипотезе в терминах математической вероятности»
Распространенное
заблуждение, или чем не является P-значение
Квинтэссенцию традиционных (частотнических) заключений при проверке
статистических гипотез принято интерпретировать так: чем меньше P-значение, тем сильнее
(весомее) доводы (свидетельства, доказательства) против нулевой гипотезы H0, которые предоставляют нам имеющиеся (наблюдаемые) данные; тем больше у нас оснований
сомневаться в H0. Отсюда невольно (и вроде
бы естественно) возникает соблазн интерпретировать P-значение как вероятность нулевой гипотезы. Так, например, в известной книге С.Гланца можно встретить утверждение: «Упрощая, можно
сказать, что Р — это вероятность
справедливости нулевой гипотезы» [9, с. 119]. Это мнение глубоко ошибочно и чревато пагубными
последствиями. К чести автора, в последующих (у нас не переведенных) изданиях этой
его книги оно отсутствует.
P-значение не есть вероятность нулевой гипотезы!
Поскольку Р-значение вычисляется в предположении, что верна нулевая гипотеза,
, то оно никак не может быть одновременно вероятностью того, что нулевая гипотеза неверна:
Здесь D
= |T| ≥ |tнабл.| суть все значения статистики критерия T, которые равны наблюдаемому значению |tнабл.| и превышают его.
Подробнее о том, чем не является
Р-значение, см. энциклопедическую статью [10] и недавнюю работу С. Гудмана, в которой перечислена «грязная дюжина» ошибочных
интерпертаций Р-значения [11].
Кроме
того, чрезвычайно важно осознавать, что P-значение есть наблюдаемое значение соответствующей вероятностной переменной
(случайной величины). Это означает, что всякий раз мы будем наблюдать одно из
ее возможных значений, и в разных опытах оно будет варьировать. Когда H0 верна, то Pval имеет
непрерывное равномерное распределение на отрезке [0; 1]. Это означает, что в
любом одиночном эксперименте при справедливости гипотезы H0 мы можем
получить любое P-значение, как очень малое, близкое к нулю, так и очень большое, близкое
к единице. Это и есть теоретическое обоснование известных утверждений,
присутсвтующих во многих руководствах, о том, что на основании наблюдаемого P-значения
нельзя принять нулевую гипотезу, когда Pval >
α, т.е. когда P‑значение не преодолевает уровень значимости
α, который выбирается заранее в качестве порогового (критического).
Выбор порога для P-значения,
и возможен ли он? Гипноз цифр 0,05 и 95%
Когда наблюдаемое P-значение мало, то у исследователя зарождается сомнение: действительно ли
верна гипотеза H0, и он считает себя вправе пойти на риск и принять
решение отклонить эту гипотезу. Однако важно понимать,
что такое решение является внестатистическим,
ибо нет никаких вероятностно-статистических или
иных теоретических соображений, какое значение Pval следует считать
настолько малым, чтобы смело отклонить H0.
Всякий раз, принимая то или иное решение, мы
осуществляем акт интеллектуальной смелости. На практике решение
отклонить или принять H0 непременно зависит от
обстоятельств. Исследователь в каждой конкретной ситуации обязан
сам делать этот выбор и осознавать возможные последствия.
Наиболее часто в качестве
критического порога используется уровень значимости α = 0,05, и статистический анализ в конечном итоге сводится к
сравнению наблюдаемого значения Pval с этим α, и конечные результаты обычно представляются в виде
неравенств: Pval > 0,05 или Pval < 0,05. К сожалениею, такое представление
результатов анализа до сих пор нередко встречается в публикациях, несмотря на
то, что в учебных руководствах и инструкциях для авторов давно рекомендуется
представлять конкретно наблюдаемые значения Pval. Преодоление
этого порогового уровня (Pval < 0,05) всего лишь в
одной выборке часто считается достаточным для вывода о статистической значимости
наблюдаемого эффекта. В последнем случае часто употребляется даже более сильное
утверждение: «эффект достоверен».
Наряду с пороговым значением 0,05
для уровня значимости, повсеместно (за редчайшими исключениями) используется
уровень (вероятность) доверия 0,95 и
строятся 95%-е интервалы доверия (доверительные интервалы). Более строго их
рекомендуется называть «интервалами накрытия» оцениваемого (неизвестного)
параметра.
На выбор Фишером порогов для уровня
значимости повлияли и психологические причины. М. Кендалл вспоминал, что Фишер
составил таблицы критических значений (для уровней значимости 0,05; 0,02 и
0,01) из соображений компактности и удобства пользования, а также с целью
избежать проблемы авторства с Карлом Пирсоном, с которым у него были
принципиальные разногласия [12]. Кроме того, Фишер ориентировался на свой личный
ограниченный опыт статистического анализа результатов экспериментов,
проводившихся с сельскохозяйственными растениями на Ротамстедской сельскохозяйственной
станции.
Фактически у него почти не было опыта анализа данных
из других областей экспериментальной науки, например, в медицине.
Пророк в
своем отечестве
Тут уместно вспомнить мнение А.Н. Колмогорова, который более полувека
тому назад (в 1951г.) отмечал: «При
практическом употреблении вычисленных значений вероятности мы неизбежно
приходим к вопросу о том, какими (сколь малыми) значениями вероятностей мы
можем пренебречь. На практике этот вопрос решается каждый раз по-разному, в
зависимости от того, насколько велика необходимость быстрого перехода от
накопления надежных данных к их действительному употреблению. В спокойной обстановке научных исследований принято
пренебрегать лишь вероятностью в 0,003 (эта норма связана с так называемым правилом трех сигма), а иногда требовать и еще большего
приближения вероятности отсутствия ошибки к единице. В математической статистике вероятность, которой решено пренебрегать в
данном исследовании, называют уровнем
значимости. Хотя в статистике обычно рекомендуют пользоваться
уровнями значимости от 0,05 при предварительных ориентировочных исследованиях и
до 0,001 при окончательных серьезных выводах, часто достижима значительно
большая достоверность [статистическая значимость – НХ]
вероятностных выводов. Например, основные
выводы статистической физики основаны на пренебрежении лишь вероятности порядка
меньшего 0, 000 000 000 1 (<10-10)» (воспроизведено в [13, c.
97]).
Несколько позднее (в 1956 г.) он повторил: «Вероятности,
которыми принято пренебрегать в различных практических приложениях, различны.
Иногда и в научных исследованиях ограничиваются статистическими приемами,
рассчитанными исходя из пренебрежения вероятностями в 0,05. Но это следует
делать лишь в случаях, когда собирание более обширного материала очень затруднительно.
Если норма в 0,05 для серьезных научных исследований явно не достаточна, то
вероятностью ошибки в 0,001 или 0,003 по большей части принято пренебрегать
даже в столь академических и обстоятельных исследованиях, как обработка
астрономических наблюдений. Впрочем, иногда научные выводы, основанные на
применении вероятностных закономерностей, обладают и значительно большей
достоверностью [статистической значимостью – НХ] (то есть построены на пренебрежении
значительно меньшими вероятностями)» (воспроизведено в [14, c.
874]).
В наши дни Колмогорову вторят зарубежные авторы: «P-значение близкое к 0,05 не является сильным свидетельством (доказательством)
против нулевой гипотезы. Сильными свидетельствами против Н0 следует
признавать значения P < 0,001» [15].
При бурлящей в настоящее
время «золотой лихорадке» вокруг изучения генетических предрасположенностей к
общим болезням, т.е. поиска связей («ассоциаций») между генетическим
полиморфизмом и заболеваниями рекомендуется ориентироваться на еще более низкие
пороговые значения уровня значимости: «Вместо повсеместно используемого порогового
(критического) уровня значимости 0,05 в качестве такового мы должны
использовать значение порядка 5´10-5. При таком уровне
значимости потребуется обследовать две группы здоровых и больных по 5000
человек в каждой» [16].
Гибкие Р-значения
Таким
образом, явно не следует слепо применять инструментарий процедур проверки
значимости нулевой гипотезы и основывать свои выводы исключительно на
получаемых Р‑значениях. Осмысленные выводы должны основываться на разумном
взвешивании Р‑значений и на
использовании дополнительной информации о других не менее важных показателях,
таких как мощность, размер эффекта, количество наблюдений, о результатах
прешествующих работ, предсказаниях действующей теории и т.п. Сам Фишер подчеркивал, что «В действительности ни один исследователь
не пользуется фиксированным уровнем
значимости, с которым из года в год и при любых обстоятельствах он отклоняет нулевые гипотезы. Он больше доверяет своему уму и каждый конкретный случай рассматривает в
свете совокупности имеющихся доказательств и своих идей и представлений» [17].
Такой
подход иногда интепретируют как призыв использовать «гибкие» Р-значения.
Не
«достоверный», но всего лишь «статистически значимый»
Надо стараться избегать слова
«достоверность», ибо в русском языке оно означает подлинный, несомненно верный,
не вызывающий сомнения. В теории вероятностей достоверное событие – событие с
вероятностью, равной 1. На основании статистического анализа одиночного
исследования нельзя говорить о достоверности. Информация становится достоверной только, когда она
подтверждается последующими тщательными перепроверками. Если
вдуматься, нередко встречающееся в биомедицинской литературе словосочетание «статистическая
достоверность» есть оксюморон – сочетание несочетаемого. Всестороннее
обсуждение этого вопроса см. в работе Н.А. Зорина [18].
Доверяя,
повторяй
Авторитетные профессиональные
ученые, как правило, считают повторение исследования решающим (ключевым)
аспектом научного метода. Один эксперимент, как бы хорошо он ни был
спланирован, не может обеспечить неопровержимое доказательство правильности
теории или эффективности вмешательства (воздействия). Получение совокупного
знания подразумевает длинные серии испытаний для каждого конкретного
исследовательского поиска. Чтобы установить совокупное научное знание,
необходимо многократно повторять исследования.
Нет более фундаментального
принципа прикладной статистики, чем следующий. Поскольку различных возможностей
всегда очень много, то большинство наборов данных будут необычными в некотором
неожиданном отношении (аспекте). Поэтому,
чтобы проверить, являются ли наблюдаемые результаты (эффекты) реальными, а не
артефактами, необходимо получить дополнительные повторные и независимые наборы
данных.
Возможно, кого-то это удивит, но руководства по статистическим методам
сосредоточиваются зачастую на том, как анализировать одиночный набор
данных, пытаясь, во что бы то ни стало ответить на сакраментальный вопрос: «Является
ли результат значимым?», а не на том, как интерпретировать много наборов данных, как их обобщить и ответить на вопрос
«Является ли результат фактом?».
В статистических руководствах и
статьях преобладает «культ изолированного исследования». Часто считается, что
если получен «статистически значимый» результат, то это исключает необходимость
повторить исследование. Повторность часто рассматривается как нечто суетное и бесполезное.
На самом же деле, «Проверка нулевой
гипотезы есть метод обнаружения маловероятных событий, которые заслуживают
дальнейшего изучения» (Fisher).
Воспроизводимость P-значений
В настоящее время доступна
программа, которая наглядно демонстририрует необходимость многократных
повторений опыта. С ее помощью можно смоделировать воспроизводимость P-значений и
доверительных интервалов при различных объемах выборок для ситуации сравнения
двух независимых выборок [19]. Один такой пример представлен на Рис. 1. В
данном примере имитируется извлечение случайных пар независимых выборок из двух
нормальных распределений, разность средних значений между которыми составляет μdiff = μ1 – μ2 = 10
единиц. Проверяется нулевая гипотеза об отсутвии различий между средними обоих
распределений Н0: μdiff = 0 против альтернативной гипотезы
Н1: μdiff = 10. Можно видеть, что из 100 значений Рval только 55
не превышают самое что ни на есть снисходительное пороговое значение уровня
значимости α = 0,05; они отмечены звездочками согласно шкале Мишлена.
На рис. 1 указаны также 95%‑ые
доверительные интервалы (ДИ) для разности средних μdiff. Как известно, ДИ для разности
средних являются средством визуализировать процедуру проверки подобных нулевых
гипотез: если (1 – α)*100%-й ДИ
накрывает проверяемое значение μdiff = 0, то
тогда у нас нет оснований сомневаться в гипотезе Н0: μdiff = 0 и отклонять ее; когда ДИ не накрывает значение μdiff = 0, тогда у нас появляется основание сомневаться в
нулевой гипотезе Н0: μdiff = 0 и мы можем взять на себя
смелость отклонить ее. Таких интервалов в данной имитации 55 из 100 и они,
естественно, соотвествуют тем парам выборок, для которых Рval < 0,05. Однако, в отличие от «безликих» Р-значений, ДИ гораздо более информативны - они отражают размер
эффекта. Чем дальше ДИ отстоит от
проверяемого значения μdiff = 0, тем больше размер эффекта,
каковым в данном случае является наблюдаемая разность между средними значениями
(μdiff)набл..
Рисунок 1. Иллюстрация воспроизводимости Р-значений и
доверительных интервалов для разности средних μdiff = μ1 – μ2 при 100 повторных извлечениях пар
независимых выборок объемом n = 32 из двух независимых
нормальных распределений с μdiff = 10. По оси абсцисс
отложены значения μdiff. Использована программа “ESCI PPS p intervals” (http://www.latrobe.edu.au/psy/esci/) [19].
Калибровка
p-значений
Как
уже было сказано, Р-значение не может
быть вероятностью нулевой гипотезы P(H0). Но
именно вероятность нулевой гипотезы, очевидно, должна интересовать
исследователя более всего. К сожалению традиционная частотническая статистика
не способно вычислять эту веротяность. Это может делать бейзовская статистика.
Уже относительно давно статистики-бейзовцы предложили калибровать Р-значения относистельно вероятности P(H0). В простейшем варианте
удается оценить не P(H0), а лишь
ее нижнюю границу (минимально достижимое значение) P(H0) [20,21].
Результат представлен в Табл. 1. Тонкость заключается в том, что a priori нулевая и альтернативная
гипотезы (в силу действия принципа недостаточного основания Лапласа)
предполагаются равновероятными: P(H0) = P(H1) = 1/2. Можно видеть, что при Pval = 0,05 нижняя граница
для вероятности нулевой гипотезы P(H0) = 0,30, т.е. в этом
случае P(H0) не
может быть больше 30%. Очевидно, что такая высокая вероятность не может служить
стимулом для сомнения в гипотезе H0. Соответственно, прав Колмогоров
и его последователи, говоря, что Pval = 0,05 вряд ли можно считать сколько-нибудь убедительным
доводом против гипотезы H0. Практически столь же
мало убедительным доводом против гипотезы H0
является и Pval = 0,01. При нем
минимальное значение для вероятности нулевой гипотезы может достигать 10%: P(H0) = 0,10
Таблица 1. «Цена»
Р-значения [21]
Р-значение,
Pval
|
Нижняя граница
для вероятности
нулевой гипотезы
P(H0)
|
Верхняя граница
для вероятности
воспроизведения
Рвоспр.
|
0,05
|
>30%
|
<50%
|
0,01
|
>10%
|
<75%
|
0,001
|
>2%
|
<90%
|
Примечание: Для наглядности значения в таблице округлены
до первой значащей цифры. Более точно значения для P(H0) (сверху вниз) равны 29%, 11% и 1,8%.
Наконец,
при Pval = 0,05 вероятность P(H0) может достигать 2%.
Такую вероятность уже наверное можно признать малой настолько, чтобы зародилось сомнение в H0. При этом не надо
только забывать, что P(H0) есть всего лишь минимально достижимое значение,
и в реальных ситуациях значения P(H0) могут
быть неопределенно больше указанных втаблице нижних границ.
Доступна также
интерактивная номограмма, позволяющая наглядно демонстрировать калибровку
Р-значений при разных априорных вероятностях нулевой гипотезы [22].
В последнем столбце
Табл. 1 приведены ориентировочные значения для верхней границы вероятности
воспроизведения наблюдаемого результата в последующей повторности эксперимента.
Можно видеть, что опять-таки только при Рval = 0,001 вероятность
того, что этот результат воспроизведется, может достигать приемлемо высокого
значения 90%.
Заключение
Надо
перестать судорожно цепляться за уровень значимости α = 0,05 (а, скоре всего, и за α
= 0,01) и некритично объявлять случаи его преодоления (Pval
< 0,05) статистически значимыми (или даже «достоверными») событиями. Если мы
сконцентрируемся на преодолении уровня α = 0,001, т.е. будем считать
статистичекси значимыми Pval
< 0,001, то в итоге сможем съэкономить массу времени и средств.
Единственный
способ излечиться от синдрома статистической снисходительности – это
многократно повторять эксперименты и изучать воспроизводимость наблюдаемых
эффектов, которые при Pval < 0,05 слишком часто могут оказаться ложными.
Литература
1. International committee of medical journal editors:
Uniform Requirements for Manuscripts Submitted to Biomedical Journals: Writing
and Editing for Biomedical Publication. (Updated October 2008) (http://www.icmje.org/index.html).
2. Международный комитет редакторов медицинских журналов:
Единые требования к рукописям, представляемым в биомедицинские журналы: правила
написания и редактирования материалов // Межд.
журн. мед. практики, 2005. - № 5. - С. 10–23.
(http://www.mediasphera.ru/mjmp/2005/5/10.pdf).
3. Леонов В.П. Принципы описания статистики в биомедицинских публикациях. (http://www.biometrica.tomsk.ru/stat_princip.pdf)
ГОСТР 52379-2005. Надлежащая клиническая практика». Good Clinical Practice (GCP).
5.
Ланг Т.А., Сесик М. Как описывать
статистику в медицине. – М.: Практическая медицина, 2011. – 480 с.
6.
Новые единые требования к рукописям, представляемым
в научно-практический журнал «Экология Человека» // Экология человека, 2008. - № 7. - С. 57-64.
7. Wagenmakers E.-J. A
practical solution to the pervasive problems of p values // Psychonomic Bulletin & Review, 2007. - Vol. 14.- № 5. - P. 779-804.
8. Fisher
R.A. The design of
experiments. Edinburgh:
Oliver & Boyd 1935.
9. Гланц
С. Медико-биологическая статистика. — М.: Практика, 1998. — 459 с.
10. P-value. Wikipedia. http://en.wikipedia.org/wiki/P-value
11. Goodman S. A dirty dozen: Twelve P-value misconceptions
// Semin.
Hematol., 2008. - Vol. 45. – P. 135-140.
12. Dallal G.E. The Little Handbook
of Statistical Practice. Why P=0.05? http://www.jerrydallal.com/LHSP/p05.htm
13. Колмогоров А. Н. Вероятность / Вероятность и математическая
статистика. Энциклопедия / Гл. ред. Ю. В. Прохоров. — М.: Изд-во
«Большая Российская Энциклопедия», 1999. – 910 с.
14. Колмогоров А.Н. Теория вероятностей / Вероятность и математическая
статистика. Энциклопедия / Гл. ред. Ю. В. Прохоров. — М.: Изд-во
«Большая Российская Энциклопедия», 1999. – 910 с.
15. Sterne J.A.C., Davey Smith G. Sifting the evidence – what’s wrong with significance tests? // BMJ, 2001. - Vol. 322. - P. 227-231.
16. Colhoun H. M., McKeigue P. M. , Davey Smith G. Problems of reporting genetic associations with complex outcomes. Lancet, 2003. - Vol. 361. -
№ 9360. – P. 865-872.
17. Fisher R. A.
Statistical Methods and Scientific Inference. Edinburgh: Oliver & Boyd. 1956.
18. Зорин
Н.А. О неправильном употреблении
термина «достоверность» в российских научных психиатрических и общемедицинских статьях. 2000. http://www.biometrica.tomsk.ru/let1.htm
19.
Cumming G. Replication and p intervals: p values predict the future only
vaguely, but confidence intervals do much better // Persp. Psychol. Sci., 2008. - Vol. 3. – P. 286-300. Программа ESCI PPS p intervals http://www.latrobe.edu.au/psy/esci/
20. Vovk V. G. A logic of probability, with application
to the foundations of statistics // J. Roy. Stat. l Socy. Ser. B, 1993.
- Vol. B55. - No. 2. - P. 317-351.
21.
Sellke T., Bayarri M.J., Berger J.O. Calibration of p values for testing
precise null hypotheses // Am.
Statist., 2001. - Vol. 55. - No. 1. – P. pp. 62-71.
22.
Held L. A nomogram for P values // BMC
Medical Research Methodology, 2010. – Vol. 10. – P. 21.
http://www.biostat.uzh.ch/static/pnomogram/
|
Комментарии
2011-02-2321:18:01 Глубокоуважаемый Никита Николаевич!
Полностью поддерживаю основную идею и выводы Вашей публикации.
Если не повторять некоторые истины постоянно, мы так и будем топтаться на одном месте.
Однако меня несколько смущает соседство Вашей статьи с публикацией г. Биличенко.
Кроме того, хотел бы отметить наличие в Вашей статье большого количества неточностей.
Чтобы не вызывать сомнений у читателей, отмечу только основные. Тем более, что аккуратное изложение только усилило бы Ваши аргументы.
1. Значения вероятностей вычисляются всегда только для конкретных распределений, моделей, а в большинстве "общепринятых" статистических процедур принимается нормальное распределение.
2. Ссылки на первоисточники даны выборочно. Например, откуда взялась формулировка "в математических терминах" принципа правдоподобия?
3. Не следует мешать математические термины и их обыденный смысл ("мера").
4. Не ясно, зачем сталкиваются "частотнический"(!) и "бейзовский" подходы.
5. Я не стал бы сейчас "исправлять" А.Н. Колмогорова: у него термин "достоверность" относится к выводам в целом, а не к частным гипотезам.
6. Большое сомнение вызывает пример, полученный с помощью программы ESCI, на третьем графике рисунка 1 видна очень странная синусоида.
Программа использует датчик из Excel, качество которого доказано только в отношении равномерности. Для серийных испытаний необходимо его тестирование более сильными тестами.
7. Очень серьезной проблемой российских медицинских публикаций является наличие десятков и доже сотен параллельных проверок без учета принципа множественных сравнений.
В зарубежных этот принцип учитывается иногда даже слишком буквально (см., например, "Журнал клинической огкологии").
8. Перед "бумажной" публикацией нужно исправить большое количество опечаток.
С уважением, В. Солнцев
2011-02-2417:32:20 Уважаемый Владислав Николаевич!
Спасибо за полезные вопросы и обсуждение. Отвечаю.
Ответ на вопрос 1: Это замечание я, честно говоря, не понял. По-моему это не замечание, а утверждение, со второй частью которого можно поспорить. Генетики, например, широко используют не только нормальное распределение, но биномиальное и пуассоново распределения.
Ответ на вопрос 2: В Википедии на английском сказано:
In statistics, the likelihood principle is a controversial principle of statistical inference which asserts that all of the information in a sample is contained in the likelihood function.
Там же даны ссылки на источники и в частности на статью Anthony W.F. Edwards "Likelihood".
Если «функция правдоподобия» и (или) отношение правдоподобий не являются математичексими терминами, ну значит я ошибся, и данная мной формулировка не математическая.
Ответ на вопрос 3: Мне кажется, что это как раз тот довольно редкий случай, когда математический и обыденый смысл слова («мера») мало различаются.
Ответ на вопрос 4: Но в научной среде эти подходы действительно протвопоставляются («сталкиваются»). Вопросительный знак в вопросе, очевидно, отражает недоумение. Но я настаиваю, что первый подход надо называть именно «частотническим», поскольку его апологетами являются «частотники». По-английски он именно “frequentist inference (statistics, approach)”.
Ответ на вопрос 5: А мне как раз думается, что отсюда пошли заполонившие научные публикации неприемлемые словосочетания типа «статистическая достоверность». Объявляя наблюдаемые эффекты (различия, связи) «достоверными», авторы прежде вводят в заблуждение (гипнотизируют) самих себя. Вскорости они напрочь забывают, что имела место лишь «статистическая значимость», и, например, на основе таких выводов рекомендуют обнаруженное к практическому применению.
Ответ на вопрос 6: Программа свободно доступна, и пользователь может повторить эти имитации. «Странная синусоида» лишь демонстрация того, какие своеобразные (кажущиеся «неожиданными») результаты можно получить. По-видимому, стоит спросить автора, какой датчик случайных чисел он использует.
Ответ на вопрос 7: Полностью согласен. Слишком многие исследователи (и не только у нас, но и за рубежом) вообще не знакомы с Проблемой множественных сравнений. В этом есть и наш грех. В наших учебниках и руководствах об этом почти ничего не говорится.
Вторую часть этого замечания я не понял.
Ответ на вопрос 8: Приношу свои извинения за опечатки.
С уважением, Никита Николаевич Хромов-Борисов