濱州醫(yī)學(xué)院(264003) 孫紅衛(wèi) 王 玖 韓春蕾
在實(shí)際工作中,經(jīng)常要用Kruskal-Wallis檢驗(yàn)對多于2組的數(shù)據(jù)進(jìn)行比較,如果有統(tǒng)計學(xué)意義,需要采用非參數(shù)的多重比較方法(multiple comparison procedures,MCP)來鑒別到底哪兩組有差異。相比參數(shù)檢驗(yàn)的MCP,非參數(shù)MCP研究較少,提供的方法不多,且統(tǒng)計軟件沒有直接調(diào)用的過程可供實(shí)現(xiàn)。本文收集了在實(shí)際中常常采用的5種非參數(shù)MCP,用Monte-Carlo模擬來考察這些方法的第一、二類錯誤和判對率,并對實(shí)際中應(yīng)用MCP提出建議。
這是Dunn〔1〕在1964年提出的一種用于非參數(shù)多重比較的方法。第i組和第j組進(jìn)行比較的統(tǒng)計量為:
z服從正態(tài)分布。要對檢驗(yàn)水準(zhǔn)進(jìn)行調(diào)整,α'=2α/k(k-1),z與za'比較。為兩對比組中第i組、第 j組的平均秩和;ni、nj為 i組、j組的樣本含量;N為總例數(shù)。
擴(kuò)展的t檢驗(yàn)法是衛(wèi)生統(tǒng)計學(xué)第6版教材〔2〕中介紹的方法。第i組和第j組進(jìn)行比較的統(tǒng)計量為:
t服從自由度為N-k的t分布。其中,Ri、Rj、ni、nj、N的意義同上,k為組數(shù),H為Kruskal-Wallis檢驗(yàn)所得的統(tǒng)計量。這種方法也需要編程實(shí)現(xiàn)。
Conover和 Iman〔3〕認(rèn)為,對于非參數(shù)多重比較的問題,可以對數(shù)據(jù)取秩次之后,再對秩次用參數(shù)多重比較的方法來解決。這也是實(shí)際工作中經(jīng)常采用的方法。本文考察了R_LSD,R_SNK和R_BON三種方法的性能。
在以上五種方法中,經(jīng)過證明,R_LSD與擴(kuò)展的t檢驗(yàn)法是等價的。所以,本文主要考察了四種非參數(shù)多重比較方法,即Dunn_z,R_LSD,R_SNK和R_BON。
理想的多重比較方法不但控制第一類錯誤在一定的檢驗(yàn)水準(zhǔn)下,而且能夠盡量減少第二類錯誤,提高檢驗(yàn)效能。
(1)CER(comparisonwise error rate),指在單個的假設(shè)檢驗(yàn)中犯第一類錯誤的概率大小
(2)FWE(familywise error rate),為實(shí)驗(yàn)的第一類錯誤。在檢驗(yàn)集合的所有假設(shè)檢驗(yàn)中出現(xiàn)第一類錯誤的概率,即檢驗(yàn)集合中至少發(fā)生了一個CER錯誤的概率。這是多重比較方法需要控制的指標(biāo)。
(1)CP(complete power),即完全效能,指在檢驗(yàn)集合的比較中發(fā)現(xiàn)所有的差異的能力。
(2)PP(proportional power),即比例效能,指在一次兩兩比較中發(fā)現(xiàn)差異的能力。
判對率指對于檢驗(yàn)集合的統(tǒng)計推斷完全正確的概率,其同時考察了犯第一、二類錯誤的概率。
由于非參數(shù)多重比較主要用于不滿足參數(shù)檢驗(yàn)的條件時,比如不符從正態(tài)分布,或者雖然正態(tài)分布但是方差不齊時,所以考慮了兩種分布,一是對數(shù)正態(tài)分布,二是正態(tài)分布但是方差不齊。
考慮到多重比較方法的性能受到多個因素的影響,比如樣本含量、組數(shù)等,還有就是均數(shù)間的差異、方差大小等。為了盡量模擬實(shí)際應(yīng)用情況,實(shí)驗(yàn)設(shè)計見表1、表2。
表1 正態(tài)分布方差不齊時的實(shí)驗(yàn)參數(shù)設(shè)定
表2 對數(shù)正態(tài)分布時的實(shí)驗(yàn)參數(shù)設(shè)定
在不同組合下根據(jù)對應(yīng)的分布產(chǎn)生隨機(jī)數(shù),并用4種多重比較方法進(jìn)行檢驗(yàn),考察4種方法的一類錯誤,二類錯誤以及判對率。隨機(jī)數(shù)的產(chǎn)生在SAS8.2上實(shí)現(xiàn),4種多重比較方法及各種指標(biāo)的計算均利用SAS的宏功能。每種組合下均模擬1000次。結(jié)果的分析使用SAS8.2和SPSS13.0實(shí)現(xiàn)。
本文兩種分布皆考慮了總體均數(shù)全部相等,總體均數(shù)部分相等和總體均數(shù)全部不等三種情況。經(jīng)過分析發(fā)現(xiàn),正態(tài)分布方差不齊和對數(shù)正態(tài)分布的結(jié)果相似,所以兩種分布的結(jié)果合在一起分析。
由于所有總體均數(shù)全部相等,不可能犯第二類錯誤。這里要考察的指標(biāo)只有FWE。
從表3可以看出,Dunn_z和R_BON對FWE的控制在0.1以下,而R_SNK的FWE超過了0.1的部分占17.4%,且當(dāng)樣本量小于20時,其檢驗(yàn)水準(zhǔn)都控制在0.1以內(nèi)。而R_LSD的FWE失去了控制。
表3 總體均數(shù)全部相等時FWE的模擬結(jié)果
由于總體均數(shù)部分相等,這里要考察的指標(biāo)有FWE,CP,PP及 TM(結(jié)果見表4~6,圖1~4)。
表4 總體均數(shù)部分相等時FWE的模擬結(jié)果
表4和表3的結(jié)果相近,但是在部分相等時,四種方法的FWE都減小了。其中Dunn_z控制在FWE在0.1以下,而R_BON超過0.1的部分只有2.8%,R_SNK超過0.1的部分有23.5%,但當(dāng)樣本量小于20時,其FWE超過0.1的部分只有7.4%,而這時R_LSD的FWE超過0.1的部分有19.8%。
從圖1可以看出,Dunn_z法FWE中位數(shù)隨樣本量的增長變化不大,R_BON次之,而R_SNK和R_LSD增長較大。
圖1 總體均數(shù)部分相等時FWE的中位數(shù)隨樣本量的變化情況
圖2 總體均數(shù)部分相等時FWE的中位數(shù)隨組數(shù)的變化情況
從圖2可以看出,Dunn_z和R_BON的FWE在組數(shù)增大時變化不大,這由于兩種方法都根據(jù)組數(shù)來調(diào)整了檢驗(yàn)水準(zhǔn)。R_SNK的FWE變化不大,而R_LSD的FWE隨組數(shù)的增長而增大。
表5 總體均數(shù)部分相等時CP和PP的模擬結(jié)果
從表5可以看出,R_LSD和R_SNK的完全效能和比例效能接近,都較高,R_BON次之,Dunn_z的檢驗(yàn)效能最低。
從圖3可以看出,四種方法的檢驗(yàn)效能都隨著樣本量的增長而增大,且之間的差距越來越小。當(dāng)樣本量大于40時,四種方法的檢驗(yàn)效能相近。
圖4顯示四種方法的完全效能都隨著組數(shù)的增長而減小,但是減小的程度不一樣,Dunn_z的完全效能下降幅度最大 ,R_BON的下降幅度也較大,而R_SNK和R_LSD的完全效能下降幅度較小。
圖3 總體均數(shù)部分相等時CP的中位數(shù)隨樣本量的變化情況
圖4 總體均數(shù)部分相等時CP的中位數(shù)隨組數(shù)的變化情況
表6 總體均數(shù)部分相等時TM的模擬結(jié)果
判對率綜合了第一類錯誤和第二類錯誤,從判對率的角度看,其中最高的是R_BON和R_SNK。
由于所有總體均數(shù)全部不等,不可能犯第一類錯誤。這里要考察的指標(biāo)只有CP和PP。
表7 總體均數(shù)全部不等時CP和PP的模擬結(jié)果
R_LSD和R_SNK的完全效能和比例效能接近,都較高,R_BON次之,Dunn_z最低。
選擇合適的檢驗(yàn)方法的原則是能將FWE控制在一定的水準(zhǔn)下,選擇檢驗(yàn)效能最高的方法。
從上面的結(jié)果中可以看出,R_LSD、R_SNK、R_BON以及Dunn_z犯第一類錯誤的概率依次減小,但檢驗(yàn)效能也依次減小。
R_LSD以控制CER為目的,所以它的FWE不受控制,會遠(yuǎn)大于檢驗(yàn)水準(zhǔn),而R_SNK在樣本量比較小時,基本控制在0.1內(nèi)。而兩者的檢驗(yàn)效能相差不大。所以綜合來看,R_SNK要優(yōu)于R_LSD。
R_BON與Dunn_z都將FWE控制在0.1內(nèi),但是R_BON的檢驗(yàn)效能要比Dunn_z高出很多,所以,在兩者中R_BON較優(yōu)。
R_BON與R_SNK比較,R_BON控制FWE的能力較高,但是檢驗(yàn)效能較低。從前面的結(jié)果可以看到,R_BON的FWE隨組數(shù)和樣本量變化比較平穩(wěn),但是檢驗(yàn)效能卻隨著組數(shù)的增大和樣本量的減小而減小,在組數(shù)較小或樣本量很大時,其檢驗(yàn)效能與R_SNK接近。所以當(dāng)組數(shù)較小時,可以選用R_BON,而在組數(shù)較大時,如果樣本量也較大,可以考慮用R_BON,而如果組數(shù)較大但樣本量不大時用R_BON,檢驗(yàn)效能會較低。這時可以考慮用R_SNK,其檢驗(yàn)效能較高,而在樣本量較小時,其FWE基本控制在0.1以內(nèi)。
綜上,五種方法的性能如下:擴(kuò)展的t檢驗(yàn)法與R_LSD 等價,R_LSD、R_SNK、R_BON 以及 Dunn_z犯第一類錯誤的概率依次減小,但檢驗(yàn)效能也依次減小。四種方法受樣本量和組數(shù)的影響不同。R_BON和R_SNK是兩種較優(yōu)的方法。在實(shí)際中,當(dāng)組數(shù)較小時,或組數(shù)較大,且樣本量也較大時,可以選用R_BON;而如果組數(shù)較大,樣本量較小時,可以選用用R_SNK。
1.Dunn O.Multiple comparisons using rank sums.Technometrics,1964,6:241-252.
2.方積乾主編.衛(wèi)生統(tǒng)計學(xué).第6版.北京:人民衛(wèi)生出版社,2008:183-187.
3.Conover W,Ronald L.Rank Transformations as a Bridge Between Parametric and Nonparametric Statistics.The American Statistician,1981,35(3):124-129.
4.Westfall P.Multiple comparisons and multiple tests:using the SAS system.Cary,NC:SAS Institute,Inc,1999:16-21.
5.Seaman M.New developments in pairwise multiple comparisons:Some powerful and practicable procedures.Psychological Bulletin,1991,110(3):577-586.
6.Cribbie R.Pairwise multiple comparisons:A model comparison approach versus stepwise procedures.British Journal of Mathematical and Statistical Psychology,2003,55:27-39.