Ronald L.Wasserstein,Nicole A.Lazar
(方積乾譯)
·ASA聲明·
編輯按:最近幾年,除統(tǒng)計學以外的學術界對統(tǒng)計學檢驗和p值提出了質疑,有的甚至很激烈。例如,ScienceNews(Siegfried,2010)寫道:“這是科學最骯臟的秘密:統(tǒng)計分析的‘科學方法’建立在一個脆弱的基礎上”。2013年11月Phys.org Science News W ire的一篇文章引用了零假設意義的檢驗中“眾多深度缺陷”。ScienceNews 2014年2月7日的文章(Siegfried,2014)稱“假設檢驗的統(tǒng)計學技術比Facebook的隱私政策有更多的缺陷”。這些觀點片面性極大,嚴重誤導了學術界和社會輿論。鑒于此,美國統(tǒng)計學會(ASA)理事會于2016年2月5日發(fā)表了一個聲明,并另發(fā)一篇文章說明此聲明的背景和目的,以正視聽。這個聲明指出,目前存在關于統(tǒng)計學意義和P-值的錯誤應用和錯誤解釋,全面闡述了統(tǒng)計界對這個問題早就形成的6點共識。這是統(tǒng)計界的一件大事,我國統(tǒng)計學、醫(yī)學統(tǒng)計學教學和科研人員,以及與統(tǒng)計學的應用密切有關的所有人都應該準確了解這件事,而不應當?shù)缆犕菊f,人云亦云。為此,中山大學公共衛(wèi)生學院醫(yī)學統(tǒng)計學教授方積乾將美國統(tǒng)計學會聲明的原文翻譯成中文,供同行學習參考。
ASA關于p-值的聲明:背景、過程和目的
Ronald L.Wasserstein,Nicole A.Lazar
(方積乾譯)
2014年2月,MountHolyoke College的榮譽退休教授George Cobb在ASA的一個論壇上提出了以下問題:
問:為何這么多學校和研究生院教p=0.05?
答:因為那是科學界和雜志編輯們還在使用的。
問:為何這么多人還在使用p=0.05?
答:因為那是學校和研究生院教他們的。
Cobb考慮的是社會科學界關于p<0.05一刀切這個長期傷腦筋的循環(huán):“我們教它因為這是我們所做的;我們這樣做因為這是我們所教的?!?/p>
這個考慮引起了ASA理事會的注意。ASA理事會也受刺激于過去幾年高度醒目的討論。例如,ScienceNews(Siegfried,2010)寫道:“這是科學最骯臟的秘密:統(tǒng)計分析的‘科學方法’建立在一個脆弱的基礎上”。2013年11月Phys.org Science News W ire的一篇文章引用了零假設意義的檢驗中“眾多深度缺陷”。
ScienceNews2014年2月7日的文章(Siegfried,2014)稱“假設檢驗的統(tǒng)計學技術比Facebook的隱私政策有更多的缺陷?!币恢芎?,統(tǒng)計學家、“Simply Statistics”博主Jeff Leek回應“問題不是人們糟糕地使用p-值,而是絕大部分數(shù)據(jù)分析并非由正規(guī)訓練過數(shù)據(jù)分析的人來實現(xiàn)的”(Leek,2014)。同一周,統(tǒng)計學家和科學作家Regina Nuzzo在Nature上發(fā)表一篇文章,題為“科學方法:統(tǒng)計學錯誤”(Nuzzo,2014),這是目前最 高 度 重 視 的 Nature文 章 之 一 (http://www.altmetric.com/details/2115792#score)。當然,這不是單純地回應某一篇公開發(fā)表的文章。統(tǒng)計學界已經(jīng)深度關注科學結論的可重現(xiàn)性和可重復性問題。
我們觀察到,不深入這些術語的定義和區(qū)別,許多混淆甚至懷疑科學的真實性正在發(fā)生。這樣的懷疑會導致激進的選擇,諸如Basic and Applied Social Psychology的編輯們竟決定廢棄p-值(零假設意義檢驗)(Trafimow and Marks,2015)。錯誤理解或錯誤使用統(tǒng)計推斷只是“可重現(xiàn)性危機”的原因之一(Peng,2015),但對于我們統(tǒng)計學界而言,這是個重要原因。當ASA理事會決定接受挑戰(zhàn),發(fā)表一份關于p-值和統(tǒng)計學意義的聲明時,確實意識到這不是輕松的一步。ASA以前沒有對統(tǒng)計實踐的特定事情表過態(tài)。與此最接近的是一個關于教育評估中使用的增值模型(value-added models,VAM)的聲明(Morganstein and Wasserstein,2014)和一個關于風險限制的選舉后審計的聲明(American Statistical Association,2010)。然而,這些是純系政策相關的聲明。VAM聲明側重于一個關鍵的教育政策,承認事情的復雜性,說明VAM作為有效模型的局限性,催促要有統(tǒng)計學家參與模型的建立和解釋。關于選舉審計的聲明也是對一個大的卻特定的政策問題(2008年結束選舉)的反應,表示基于統(tǒng)計學的選舉審計必須成為選舉過程的一個常規(guī)部分。相比較,理事會預想到,這個關于p-值和統(tǒng)計學意義的聲明將闡明我們領域中經(jīng)常被廣大學術界錯誤理解和錯誤使用的一個方面,并且在此過程中,為學術界提供服務。計劃中的讀者是原非統(tǒng)計學家的研究人員、實際工作者和科學作家。因此,這個聲明將和以前嘗試過的聲明很不相同。
理事會分派Wasserstein匯集一組代表不同觀點的專家。他代表理事會接觸超過24位這樣的對象,他們都說愿意參加。有幾位懷疑能否達成共識,但是他們確實表示,如果有討論,他們愿意參與。經(jīng)過好幾個月,小組成員討論了聲明采取什么形式,試著較具體地設想該聲明的讀者,并且開始發(fā)現(xiàn)共識點。逐漸變得相對容易做了,但只是容易找到強烈的分歧點。待到這個小組能坐下來一起消除這些分歧點,2015年10月20位成員終于在Virginia州Alexandria的ASA辦公室聚會。Regina Nuzzo促進了這個兩天的會議,會議結尾時,圍繞著這個聲明形成了一組很好的觀點。接下來的3個月,見到了聲明的多份草稿,小組成員、理事會成員(2015年ASA理事會會議上漫長的討論)和目標讀者審閱。最后,2016年1月29日,ASA的執(zhí)行委員會批準了這份聲明。這份聲明進展的過程比預計的更漫長、有更多爭議。例如,關于如何最好地講清多重潛在比較的問題(Gelman and Loken,2014),我們就“一個接近0.05的p-值本身只是反對零假設的微弱證據(jù)。”(Johnson,2013)這段話的潛臺詞爭論了很久。關于如何敘述p-值的多種替代以及多么詳細為宜,有很多不同見解。為了使這份聲明適度簡練,我們并沒有寫對立假設、兩類錯誤或功效等其他內(nèi)容,并不是每一位都同意這樣做。
在聲明發(fā)展過程接近尾聲時,Wasserstein聯(lián)系了Lazar,問及這份政策聲明可否在The American Statistician(TAS)發(fā)表。經(jīng)考慮,Lazar決定TAS愿意提供一個良好平臺,以廣泛傳遞給一般的統(tǒng)計讀者群。同時,我們決定增加一個在線討論,提供機會來反映前述爭議,提高TAS讀者的興趣水平。最后,我們聯(lián)系了一組討論者,請他們就這份聲明發(fā)表評論。人們可以從在線增刊讀到他們的觀點。我們感謝以下各位和我們分享他們深刻的見解:
Naomi Altman,Douglas Altman,Daniel J.Benjamin,YoavBenjamini,Jim Berger,Don Berry,John Carlin,George Cobb,Andrew Gelman,Steve Goodman,Sander Greenland,John Ioannidis,Joseph Horow itz,ValenJohnson,M ichael Lavine,M ichael Lew,Rod Little,Deborah Mayo,M ichele M illar,CharlesPoole,Ken Rothman,Stephen Senn,DaleneStangl,Philip Stark and Steve Ziliak。
雖然對這份聲明應當講些什么存在著分歧,但是,關于ASA必須就這些事情發(fā)聲是高度一致的。必須明確,這份ASA聲明并沒有新內(nèi)容。統(tǒng)計學家和許多其他人已經(jīng)就這些事情敲了幾十年的警鐘,效果甚微。我們希望世界上最大的統(tǒng)計專業(yè)學會發(fā)出的這份聲明將開啟新的討論,引起新的和嚴密的注意,使得利用統(tǒng)計推斷進行的科學實踐有所改觀。
1.American Statistical Association(2010),“ASA Statement on Risk-Limiting Post Election Audits,”available at http://www.amstat.org/policy/pdfs/Risk-LimitingEndorsement.pdf
2.Siegfried,T.(2010),“Odds Are,It′s Wrong:Science fails to face the shortcomings of statistics,”Science News,177,26,available at https://www.sciencenews.org/article/odds-are-its-wrong
3.Johnson,V.E.(2013),“Uniform lymost powerful Bayesian tests,”Annals of Statistics,41,1716-1741.
4.Phys.org Science News Wire(2013),“The problem with p values:how significant are they,really?”available at http://phys.org/wire-news/145707973/theproblemwithpvalueshowsignificantaretheyreally.html
5.Gelman,A.,and Loken,E.(2014),“The Statistical Crisis in Science[online],”AmericanScientist,102.Available at http://www.americanscientist.org/issues/feature/2014/6/thestatisticalcrisis-in-science
6.Leek,J.(2014),“On the scalability of statistical procedures:why the p-value bashers just don′tget it,”Simply Statistics blog,available athttp://simplystatistics.org/2014/02/14/on-thescalability-of-statistical-procedures-why-the-p-value-bashers-just-dont-get-it/
7.Nuzzo,R.(2014),“Scientific Method:statistical errors”,Nature,506,150-152,available athttp://www.nature.com/news/scientific-method-statistical-errors-1.14700
8.Morganstein,D.,and Wasserstein,R.(2014),“ASA Statement on Value Added Models,”Statistics and Public Policy,1,108-110,available at http://amstat.tandfonline.com/doi/full/10.1080/2330443X.2014.956906
9.Siegfried,T.(2014),“To make science better,watch out for statistical flaws,”Science News,available at https://www.sciencenews.org/blog/context/make-science-better-watch-out-statisticalflaws
10.Peng,R.(2015),“The reproducibility crisis in science:A statistical counterattack,”Significance,12(3),30-32
11.Trafimow D,MarksM.(2015),editorial in Basic and Applied Social Psychology,37:1-2.