魏立力 劉國軍
(寧夏大學 數學統計學院,寧夏 銀川 750021)
假設檢驗是統計推斷的重要形式之一,是依據樣本提供的信息對總體某個假設做出判斷的過程,在醫(yī)療衛(wèi)生、工程、經濟、農業(yè)等諸多領域都有廣泛應用。一般統計學教材中采用兩種方式呈現檢驗過程,一為臨界值法,二為p值法。臨界值法是通過比較檢驗統計量觀測值與臨界值的大小,判斷觀測值是否落入拒絕域,從而做推斷。而p值法是根據給定的樣本觀測值,計算輸出一個p值,p值越小,拒絕原假設的理由越充分??梢妏值反映了拒絕原假設的程度,可以比較精細地反映決策風險,使用p值法有利于走出傳統的二值邏輯,樹立程度化思想,也更契合人腦智能特征。
由于統計軟件都可以輸出p值,在應用領域多用p值做判斷。但在具體應用中,還是存在濫用、誤用及誤解p值的現象。近年來,一方面,應用研究工作者在展示研究成果時不遺余力地追求(甚至操縱)更小的p值,以說明自己成果的“顯著性”;另一方面,統計學術界針對p值進行科學推斷的弊端展開了激烈的學術爭論[1-3],這些現象引起了國際統計學界的高度重視。比如2016年美國統計學會(ASA)發(fā)表了一個關于統計顯著性和p值的六項官方聲明[4-5],國內一些學者也對該聲明做出了不同角度的解讀[6-9]。
在多年教學實踐過程中發(fā)現,很多學生將假設檢驗理解為二值決策,能夠理解用臨界值確定的拒絕域和接受域,但基于p值往往難以理解和解釋檢驗過程,究其根源是缺乏程度化思想。這就出現了在應用層面廣泛而頻繁地使用著的p值,在教學層面卻是概念模糊、邏輯不清的尷尬局面。
本文從假設檢驗教學的視角,針對許多統計學教材中關于p值的敘述不夠詳盡的現象,基于程度化的思想,對p值進行研究。闡述p值的定義,舉例說明計算方法,指出如何用p值進行決策等。運用本文觀點,容易理解ASA關于統計顯著性和p值的六條聲明。
p值是一個基于特定假設和樣本觀測值進行統計推斷的工具。從工具使用者的角度看,p值反映了原假設成立時研究者得到現有樣本觀測的不可能程度。p值越小,說明原假設為真時獲得現有觀測結果的概率越小,小到一定程度,就應該拒絕原假設。從應用的角度說,p值越小,表明結果越顯著。p值和顯著性水平關聯后可以得到如下定義:
定義1,在一個給定的假設檢驗問題中,利用現有樣本值能夠拒絕原假設的最小的顯著性水平稱為檢驗的p值。
這個定義告訴我們,p值有兩個要素:樣本觀測值和假設分布。先用樣本觀測值計算檢驗統計量的值,再由假設分布計算和確定相應的p值。對于不同的樣本觀測值,相應的p值也不同,可見p值是一個隨機變量[10],其值與當下樣本觀測值有關,它的大小反映了利用現有的樣本值能夠拒絕原假設的程度。
ASA的聲明中給出的p值非正式定義是:p值就是基于某個特定統計模型之下,對于樣本的某個統計匯總(Statistical Summary,如,兩個對照組的樣本平均值之差)與實際觀測值“相等或更極端”的概率。
理解這個描述的關鍵是把握“相等或更極端”的含義。這有賴于具體的檢驗統計量,該統計量取值的方向性(大或小)決定了其“更極端”的含義。如果該統計量的取值越大,對對立假設越有利,則“相等或更極端”就是指該統計量“大于等于”現有的觀測值;反之,如果該統計量的取值越小,對對立假設越有利,則“相等或更極端”就是指該統計量“小于等于”現有觀測值。
p值的具體計算依賴于原假設中的概率分布,因而除非原假設是簡單假設,否則p值一般不是一個值,而是原假設中參數的函數,實用中取其上確界。具體而言,考慮參數假設檢驗問題H0:θ∈Θ0? H1:θ∈Θ1,此時確定p值的方法由下面定義給出。
定義 2,設 T(X)是一個檢驗統計量,如T(X)的值越大表示H1為真的依據越充分,則對于樣本觀測值x,定義該檢驗的p值為
如T(X)的值越小表示H1為真的依據越充分,則對于樣本觀測值x,定義該檢驗的p值為
上述定義給出了p值的具體計算公式,但計算上確界時可能會有困難。下面我們舉例說明一般情況下的計算問題。
例1 設X1,X2,…,Xn是來自N(μ,σ2)(σ2未知)的簡單隨機樣本,考慮檢驗問題
這可通過t分布的分布函數得到。上面倒數第二個等式成立是因為上確界在μ=μ0處取得,去掉下標是因為這個概率不依賴于參數。
例2 某種治療方法對某種疾病的治愈率僅為25%。現有一種新的治療方法,我們想測定是否對同樣的疾病有更好的效果。以θ記這種新方法的治愈率,而提出假設檢驗問題:
H0:θ≤ 0.25 ?H1:θ>0.25。
這里,原假設表示新方法治愈率不比舊的好,而備擇假設則表示新的優(yōu)于舊的。
我們選擇20名合格患者,都用這種新方法治療,以X表示其中治愈者的人數,則X取值越大對原假設H0越不利,對備擇假設越有利,因而p值的計算還套用定義3中公式(1)。此時參數為θ∈Θ=[0,1],原假設對應的Θ0=[0,0.25],檢驗統計量X~B(20,θ),X的所有可能取值及其p值見下表1。
表1 X的所有可能取值及對應的p值
上面的例子中,確定上確界都不太困難,在比較復雜的情形中(比如在例1、例2中的原假設改為一個有限區(qū)間),求上確界也許就沒有這么簡單了。在研究性教學過程中,我們建議學生使用微積分或優(yōu)化工具。
p值就是在零假設條件下對數據特征的總結分析,p值提供的是實際數據與零假設不相容的證據,p值越小,說明在零假設成立的條件下,得到現有數據的概率越小,越有把握拒絕原假設,可見p值反映了程度化思想。在實際操作中,如果必須做出二值決策,則事先指定顯著性水平,如果p值小于這個水平值,則拒絕原假設。“顯著”和“不顯著”的二分法有時候令人費解。比如p值分別等于0.048和0.052,二者區(qū)別并不明顯,但前者被認為是顯著的,后者卻被認為是不顯著的。需要特別注意的是,當單次實驗中得到“剛好顯著”的結果,比如p=0.049,以此宣稱有所發(fā)現時,犯錯的概率仍然可能很高。
關于p值本身,經常存在如下三個誤解:
第一個誤解是將p值看作“在得到現有樣本觀測值條件下原假設成立的概率”。在經典統計學的觀點下,假設是一個關于總體未知部分的陳述,這個陳述要么正確,要么不正確,兩者必居其一,不存在隨機性,不能說假設成立的概率。這種誤解將兩個條件概率P(A|B)和P(B|A)混淆。對這兩種不同概率的混淆,是導致p值被誤解的核心所在。這被稱為條件概率倒置錯誤。事實上,對假設給出概率描述只可能在貝葉斯統計中完成。
第二個誤解是“如果決定拒絕原假設,則p值就是作出錯誤決定的概率”。這有點相似于拒真概率,但事實上,如果拒絕原假設,則錯誤就是指原假設為真,因此其概率就是原假設為真的概率,這種誤解和第一種誤解本質上相同。
第三個誤解是“如果將試驗重復很多次,則試驗獲得顯著性結果的頻率大約為1-p”。這里的獲得顯著性結果,就是拒絕原假設,將1-p誤解為試驗獲得顯著性結果的頻率,也就是顯著性結果可以被重復的概率。事實上p值依賴于試驗結果,不同的觀察值一般對應不同的p值,p值不能被重復。p值從來沒有被證明可以用來接受某個假設,即使是拒絕假設,也是基于某個樣本得出的結論,當樣本變動時,結論很可能也會變動。
如前所述,影響p值的兩個要素是當下的樣本觀測值和原假設對應的分布模型。前者包括了樣本容量,從前面例1我們可以看出:當n增大時,統計量的觀測值也趨于增大,因而導致p值減小,只要n足夠大,p值就可以足夠小,由p值檢驗幾乎總是拒絕原假設。這種現象具有一般性,因此,在假設檢驗問題中,報告p值的同時,應特別注意樣本容量的大小,同樣的p值在不同的問題中,或者問題相同但樣本容量不同,可能具有完全不相同的信息。
假設檢驗的類型很多,有參數檢驗與非參數檢驗,這些檢驗的拒絕域各不相同,背景也相差很大,如果用拒絕域法,則情況比較繁雜,但只要能算出p值 (一般統計軟件中都輸出p值,有的用“p-value”表示,有的用“Sig.”表示),都可用 p 值對原假設作出判斷,而不管它們的背景有多大的差異,這正是p值的通用性。
筆者利用本科生和研究生統計學教學實踐和研究結果,總結了p值的兩個定義,舉例說明了p值的計算和可能的困難,闡述了p值的本質和可能的三種誤解。采用本文觀點理解ASA的聲明中包含的六條準則是水到渠成的事情。
在實際使用假設檢驗時,使用者首先應該給出p值,同時給出試驗的規(guī)模,并將其理解為現有樣本數據(包括數據規(guī)模)與原假設不一致性的程度;其次盡量避免使用“顯著”或“不顯著”(或拒絕與接受)的二值邏輯進行判斷;最后,置信區(qū)間和功效可以給讀者提供研究結果可靠程度的更多的判據。另外也可以使用貝葉斯檢驗方法,對同一個數據使用多種方法進行分析。結果越是不同,就越有可能出現重大的發(fā)現。