, , , , ,
假設(shè)檢驗是醫(yī)學(xué)科研中重要的推斷方法,用于判斷醫(yī)學(xué)研究中通過樣本觀察到的“差別”是由抽樣誤差引起的還是因總體本身不同造成的。如為比較某新藥與常規(guī)用藥治療嬰幼兒貧血的療效,將20名貧血患兒隨機等分兩組,分別接受兩種藥物治療,結(jié)果測得兩組血紅蛋白增加量(g/l)的平均值分別為23.6和20.9。研究人員需借助假設(shè)檢驗判斷觀察到的“差別”是由抽樣誤差(即患兒個體的差異)引起的還是因總體本身不同(即兩藥物療效不同)造成的。
假設(shè)檢驗是指對總體提出某種假設(shè) ,然后利用從總體中抽樣所得的樣本信息檢驗所提假設(shè)是否正確的一種統(tǒng)計推斷方法,在科學(xué)研究中應(yīng)用非常廣泛。但由于人們對假設(shè)檢驗的相關(guān)概念和方法理解不夠深入和透徹,常會做出不準確甚至是錯誤的推斷[1-2]。本文就參數(shù)假設(shè)檢驗選擇單側(cè)檢驗還是雙側(cè)檢驗、如何建立原假設(shè)和備擇假設(shè)、檢驗結(jié)果的誤判率有多大、如何提高檢驗效能等問題展開討論、辨析,能夠消除人們的疑惑,使假設(shè)檢驗發(fā)揮更好的作用。
對于任何一次假設(shè)檢驗,不論其結(jié)論是拒絕H0,還是接受H0,都有判斷錯誤的可能,即可能犯兩類錯誤。如在前面提到的比較兩種藥物治療嬰幼兒貧血的療效的問題中,H0設(shè)為兩種藥物療效無顯著性差別,并取檢驗水準α=0.05,則當(dāng)統(tǒng)計分析結(jié)果認為兩藥物療效有顯著性差別時會犯第一類錯誤,但犯第一類錯誤的概率很小,小于規(guī)定的檢驗水準0.05,即犯錯的概率小于5%;當(dāng)統(tǒng)計分析結(jié)果認為兩藥物療效無顯著性差別時會犯第二類錯誤,但犯第二類錯誤的概率未知。
第一類錯誤(也稱Ⅰ型錯誤)是指拒絕了實際上成立的H0,其概率大小用α表示;第二類錯誤(也稱Ⅱ型錯誤)是指接受了實際不成立的H0,其概率大小用β來表示。通常把1-β稱為檢驗效能(也稱把握度),其意義是當(dāng)兩個總體確有差別時,按規(guī)定的檢驗水準α能夠發(fā)現(xiàn)該差別的能力[3]。如1-β=0.90,則意味著當(dāng)H0不成立時,理論上在每100次抽樣檢驗中,按照α的檢驗水準平均有90次能夠得出差別有統(tǒng)計學(xué)意義的結(jié)論。
當(dāng)樣本含量一定時,不可能同時降低兩類錯誤,減小α?xí)?dǎo)致β增大,而減小β又會導(dǎo)致α增大。要使α與β同時減小,則只有加大樣本含量。
在給定樣本含量的情況下,我們總是控制第一類錯誤的概率,使它不大于α,α通常取0.05、0.01等。這種只控制第一類錯誤的概率,而不考慮第二類錯誤的概率的檢驗稱為顯著性檢驗[4]。拒絕H0時認為差別顯著,有統(tǒng)計學(xué)意義,誤判率P<α;不拒絕H0時認為差別不顯著,沒有統(tǒng)計學(xué)意義,誤判率未知。
圖1 t檢驗拒絕域示意圖
因為假設(shè)檢驗只能控制第一類錯誤的概率α(拒絕H0可能犯的錯誤),即只規(guī)定了拒絕H0時的誤判率要小于檢驗水準α(α通常取0.05或0.01),未控制第二類錯誤的概率β(接受H0可能犯的錯誤)。因此在實際應(yīng)用時,為了通過假設(shè)檢驗對某一結(jié)論(如試驗中發(fā)生的結(jié)果)取得科學(xué)的、強有力的支持,通常把這種結(jié)論本身作為備擇假設(shè)H1,而將這一結(jié)論的逆命題作為原假設(shè)H0。這樣,當(dāng)假設(shè)檢驗的結(jié)果為拒絕H0而接受H1時,犯錯誤的概率很小(小于顯著性水準α,即P<α)。因此有充分的理由接受H1,即對H1的結(jié)論給出了科學(xué)的、強有力的支持[5-6]。如生產(chǎn)線運行異常時需停產(chǎn),會造成嚴重后果,需要有科學(xué)的、強有力的支持時才能停產(chǎn),因此一般把生產(chǎn)線異常作為備擇假設(shè)。下面通過實際例子進一步說明。
上面的例子說明,由于假設(shè)檢驗只能控制第一類錯誤的概率α,所以只有當(dāng)檢驗結(jié)果拒絕H0而接受H1時,誤判率才是已知的(為P<α),結(jié)論才具有科學(xué)性。因此應(yīng)當(dāng)把想要證實的結(jié)論作為備擇假設(shè)H1,而將這一結(jié)論的逆命題作為原假設(shè)H0。
當(dāng)假設(shè)檢驗結(jié)果為“不拒絕”原假設(shè)H0時,僅僅意味著樣本數(shù)據(jù)與原假設(shè)不存在矛盾,并不意味著原假設(shè)應(yīng)該被接受。這種情況很可能是由于樣本太小等原因使得檢驗效能1-β不足,發(fā)現(xiàn)不了真實存在的差別,研究者切忌因此而放棄原有的觀點,得出組間“無差別”的結(jié)論?!安痪芙^”不等于“接受”,當(dāng)相關(guān)專業(yè)知識或經(jīng)驗支持“有差別”的猜測時,可通過加大樣本含量降低二類錯誤的概率β,提高檢驗效能1-β。當(dāng)然,也可以適當(dāng)增大一類錯誤的概率α,以減少二類錯誤的概率β,從而達到提高檢驗效能1-β的目的。
在“風(fēng)險”決策中, 對“風(fēng)險”的處理依賴于決策者的價值判斷。若要嚴格控制一類錯誤的概率α,就只能通過加大樣本含量來提高檢驗效能。實際上,如果總體確有差別,那么對于小樣本試驗,總體差別大假設(shè)檢驗結(jié)果也不一定有統(tǒng)計學(xué)意義;而對于大樣本試驗,總體差別小假設(shè)檢驗結(jié)果也可以有統(tǒng)計學(xué)意義。需要說明的是,差別有統(tǒng)計學(xué)意義不一定有實際意義。如某新藥比常規(guī)用藥的有效率僅提高了1%,沒有臨床意義,但只要樣本量足夠大,假設(shè)檢驗就一定能得出差別有統(tǒng)計學(xué)意義的結(jié)論[3]。
不少利用假設(shè)檢驗進行數(shù)據(jù)分析的科研論文中都未說明所用的假設(shè)檢驗方法的名稱,只簡單地給出了P值。例如文獻[7]和[8],讀者無法考察作者所選假設(shè)檢驗方法是否正確、統(tǒng)計計算結(jié)果是否正確等,因此也無法判斷作者給出的結(jié)論的科學(xué)性。一般而言,科研論文中若用到了假設(shè)檢驗方法就應(yīng)該說明具體的方法的名稱,例如2檢驗,t檢驗,F(xiàn)檢驗等[9]。當(dāng)一篇論文中用到一個以上的統(tǒng)計分析方法時,還應(yīng)對每個統(tǒng)計結(jié)果所用的統(tǒng)計方法加以說明[10]。
樣本量太小是導(dǎo)致假設(shè)檢驗效能較低、假設(shè)檢驗結(jié)論科學(xué)性差的重要因素之一,但這種情況在科研論文中并不少見。如文獻[7]抽取了科研教育組用戶67人、企業(yè)組用戶23人,并對兩組人員的生物醫(yī)藥信息來源及信息交流方式進行了統(tǒng)計分析,結(jié)果均為差異無統(tǒng)計學(xué)意義(P>0.05)。
由于是計數(shù)資料,比較的是相對數(shù)指標百分比,樣本太小時(尤其是企業(yè)組用戶僅抽取了23人)計算出的百分比不能正確地反應(yīng)對應(yīng)總體的真實情況,假設(shè)檢驗效能較低,假設(shè)檢驗結(jié)果的可信度較差,即差異無統(tǒng)計學(xué)意義(P>0.05)的結(jié)論的科學(xué)性較差。
進行假設(shè)檢驗前,應(yīng)該先分析樣本數(shù)據(jù)所提示的總體間的差異在專業(yè)上或?qū)嶋H中是否有意義。如果有意義,再進行檢驗;如果沒有意義,就不必再作檢驗了,因為不論檢驗結(jié)果如何,都是無價值的。
運用假設(shè)檢驗要正確設(shè)置原假設(shè)和備擇假設(shè),應(yīng)該把想要證實的結(jié)論作為備擇假設(shè),因為假設(shè)檢驗?zāi)軌驒z驗備擇假設(shè)的真實性而不能驗證原假設(shè)的真實性。假設(shè)檢驗結(jié)果的正確性是以概率為保證的,不論拒絕或不拒絕檢驗假設(shè)都可能發(fā)生錯誤,應(yīng)結(jié)合專業(yè)知識下結(jié)論。當(dāng)假設(shè)檢驗結(jié)果為差異無統(tǒng)計學(xué)意義時要慎重下組間無差異的結(jié)論,因為此時有可能是因為樣本太小,假設(shè)檢驗效能較低,無法測出存在的差別。必要時可通過加大樣本量降低兩類錯誤的概率,提高假設(shè)檢驗結(jié)果的科學(xué)性。