王枝寧
(韓山師范學(xué)院 數(shù)學(xué)與統(tǒng)計學(xué)院,廣東 潮州 521041)
隨著經(jīng)濟社會的發(fā)展,新的生物制藥不斷推陳出新.一般來說,新藥品必須具有一些目前廣為使用的藥品(或稱為“標準藥品”)所不具有的新的優(yōu)點.本文聚焦生物醫(yī)學(xué)統(tǒng)計研究中關(guān)于兩種藥物試劑的非劣效性的評估.對于配對試驗而言,它常常包含新舊兩種藥物的有效率的比較,這主要來源于醫(yī)學(xué)上的前瞻性研究和回顧性研究中.如果新藥具有較大優(yōu)勢,如無副作用、易于生產(chǎn)或者價格低廉,那么我們常常關(guān)心這些新藥是否與目前廣為使用的標準藥品具有一樣的效果,或者不差于現(xiàn)有的標準藥品.對于前瞻性研究和回顧性研究,人們常常用優(yōu)勢比來評估兩種新舊藥品在統(tǒng)計學(xué)上的差異.在已有的統(tǒng)計學(xué)文獻中,這一問題受到了許多統(tǒng)計學(xué)者的重視[1-4].
為方便起見,本文僅考慮前瞻性研究的情形.一個醫(yī)學(xué)背景就是對N個病人采用標準藥物來治療某種疾病,與其配對的另外N個病人(這N個病人與標準藥物對應(yīng)的病人有相同的病情、年齡、身高、職業(yè)等)采用新藥來治療.基于上述的背景,可構(gòu)建統(tǒng)計模型如下:假設(shè)有N對配對的隨機試驗,記為(Y1j,Y2j),j=1,2,…,N,其中對于第j對而言,Y1j和Y2j分別為二項分布隨機變量,用1 表示“有效”,2代表“無效”.表1給出了配對試驗后的四種結(jié)果以及相應(yīng)的概率,其中a,b,c和d分別表示觀測結(jié)果為(1,1),(1,2),(2,1)和(2,2)所對應(yīng)的配對數(shù),p11,p12,p21和p22為上述四種觀測結(jié)果所對應(yīng)的概率.易知四元隨機變量(a,b,c,d)服從于p11+p12+p21+p22=1的三項分布.
表1 配對試驗中觀測值和概率的2×2 列聯(lián)表
為了檢驗新藥是否不差于標準藥物,需要作如下非劣性假設(shè)檢驗:
其中δ=p12/p21,δ0(0<δ0<1)是事先給定的、臨床上有意義的非劣邊界值.
Liu et al.[5]提出了作假設(shè)檢驗(1)的兩種檢驗方法.一種是Delta檢驗,其檢驗統(tǒng)計量為:
另一種是Score檢驗,其檢驗統(tǒng)計量為:
在原假設(shè)δ=δ0前提下,上述兩個檢驗統(tǒng)計量都是服從漸進標準正態(tài)分布.由于其漸進性,其檢驗的決策準則可能是不精確的,并未像他們所聲稱的都能夠控制住第一類錯誤率,尤其在小樣本的情形下.為克服上述檢驗方法的缺點,Jin[6]構(gòu)建了一種基于推斷模型(Inferential Model)的檢驗方法(以下簡稱IM檢驗).所謂推斷模型,是由Martin和Liu[7]提出的一種合適的無先驗概率推斷方法,其在醫(yī)學(xué)統(tǒng)計中具有重要的應(yīng)用.模擬研究顯示IM檢驗對于給定顯著性水平,都能夠控制住第一類錯誤率,但是這種方法顯得過于保守,以致跟Delta檢驗和Score檢驗相比,其統(tǒng)計功效不高.
本文重新考察了IM檢驗,并基于推斷模型構(gòu)造了一種新的合適且有效的檢驗方法稱為隨機化推斷模型檢驗,即RIM(Randomized Inferential Model)檢驗.這種方法不僅對于給定的顯著性水平都能夠控制住第一類錯誤率,并且其統(tǒng)計功效也不比Delta檢驗、Score檢驗和IM檢驗差.
Jin[6]所提出的IM檢驗包括如下三個步驟:
A-步(Association)對于上述分布模型而言,其聯(lián)結(jié)模型為
其中Fn,θ(?)表示二項分布B(n,θ)的累積分布函數(shù),v為服從(0,1)均勻分布的輔助變量.
P-步(Prediction)對于給定的斷言A={θ:θ≤θ0},關(guān)于v的最優(yōu)隨機預(yù)測集是
C-步(Combination)將Θb(v)和S組合起來就得到
因此關(guān)于斷言A的合理性函數(shù)(Plausibility function)為
基于上述合理性函數(shù),對于斷言A來說,其檢驗準則為:若plb(A)≤α,則拒絕H0.
根據(jù)Martin 和Liu[7]的理論,易知上述檢驗準則對于給定顯著性水平都能夠控制住第一類錯誤率,模擬研究也證實了這一點[6].然而,這種方法太過于保守,導(dǎo)致其檢驗功效比頻率學(xué)派的方法低.因此,本文將IM檢驗拓展為基于隨機化合理性函數(shù)的RIM檢驗.
注意到(6)式中聯(lián)結(jié)模型Θb(v)是關(guān)于θ的不等式(其本質(zhì)上是由抽樣模型的離散性決定的),盡管(7)式是關(guān)于v的最優(yōu)隨機預(yù)測集,但是組合后的Θb(S)卻不是最優(yōu)的.由此導(dǎo)致關(guān)于參數(shù)θ的推斷可能不是有效的.基于此,將上述關(guān)于θ的不等式聯(lián)結(jié)模型修正為一個精確的等式聯(lián)結(jié)模型,以此提高組合步中Θb(S)關(guān)于參數(shù)θ的有效推斷.事實上,觀察(6)式可知,由于輔助變量v落在區(qū)間[Fn,θ(b-1),Fn,θ(b)),因此存在一個權(quán)數(shù)w∈(0,1),使得v=wFn,θ(b-1)+(1-w)Fn,θ(b).
進一步,通過研究發(fā)現(xiàn),當權(quán)數(shù)w 在均勻分布(0,1) 中隨機取值時,隨機變量wFn,θ(b-1)+(1-w)Fn,θ(b)確實是服從(0,1)上的均勻分布.
定理1 給定b+c=n,假設(shè)b服從二項分布B(n,θ).令w服從(0,1)上的均勻分布.b與w之間是相互獨立的,則有
證明對于任意給定的α∈(0,1),存在一個k=0,1,2,…,n,使得Fn,θ(k-1)≤α 由此可知wFn,θ(b-1)+(1-w)Fn,θ(b)~Unif(0,1).證畢. 以下均假設(shè)w服從(0,1)上的均勻分布,利用定理1將上述IM模型構(gòu)造的三步法重新改寫如下: A'-步(Association)記H(θ)≡wFn,θ(b-1)+(1-w)Fn,θ(b).易見對于給定b,c 和w,F(xiàn)n,θ(b-1),Fn,θ(b)和H(θ)都是關(guān)于θ的嚴格單調(diào)遞減函數(shù).令H-1(?)為H(?)的反函數(shù),則新的隨機聯(lián)結(jié)模型表示如下: P-步(Prediction)根據(jù)Martin和Liu[7]定理4,仍然使用上述(7)式的最優(yōu)隨機預(yù)測集來預(yù)測輔助變量v. 則相應(yīng)地關(guān)于斷言A的合理性函數(shù)為 由于w 是取自(0,1)上的均勻分布的一個隨機數(shù),故式(13)是一個“隨機化”(randomized)的合理性函數(shù),簡稱為“隨機化合理性函數(shù)(randomized plausibility function)”.基于式(13),可以定義如下的準則. 定義1 (RIM檢驗)基于表1的配對試驗統(tǒng)計模型,對于給定數(shù)據(jù)b和c,先在區(qū)間[0,1]中隨機選擇一個權(quán)數(shù)w.對于給定顯著性水平α,若 則拒絕H0.稱基于此隨機化合理性函數(shù)的統(tǒng)計模型為隨機化推斷模型(Randomized Inferential Model,以下簡記為RIM),基于該模型的檢驗準則稱為RIM檢驗. 定理2 RIM檢驗不僅是合適(Valid)的,并且是有效(efficient)的.即對任意給定α∈(0,1), 證明事實上,只需證明,對于給定的α∈(0,1), 這等價于證明當θ=θ0, 或者 成立.這實際上已由定理1保證了.證畢. 本文采用4個蒙特卡洛模擬試驗來評估RIM檢驗在控制第一類錯誤率和提高統(tǒng)計功效上是否優(yōu)于Jin[6]提出的IM檢驗和Liu[5]提出的Delta檢驗、Score檢驗. 為考察樣本量、標準處理方法有效率的大小、基于原假設(shè)和備擇假設(shè)下優(yōu)勢比的差異對隨機試驗的影響,本文在設(shè)置試驗參數(shù)時,對于大樣本試驗而言選取N=100 500,對于小樣本而言選取N=20,30;p21按步長0.05從0.20增加到0.30;非劣邊界值δ0=0.8,0.9;在研究統(tǒng)計功效時其對應(yīng)的非劣邊界值為δ1=1.25,1.11. 首先,為評估4種檢驗方法控制第一類錯誤率的表現(xiàn),利用計算機R語言隨機模擬實驗100 000次.由中心極限定理,在給定顯著性水平5%下,第一類錯誤率的95%的置信區(qū)間為(0.048 6,0.051 4).表2和表3給出了對于大樣本和小樣本兩種情形下4種檢驗方法在控制第一類錯誤率的比較結(jié)果.正如表2 和表3 中結(jié)果所示,由于Delta 檢驗和Score 檢驗的檢驗統(tǒng)計量都是漸進服從正態(tài)分布的,因此,在一些情形下其第一類錯誤率超出95%的置信上限0.051 4,即使是大樣本的情形也是如此.另一方面,對于IM 檢驗而言,在模擬研究的所有情形下,其第一類錯誤率均低于95%的置信下限0.048 6,表明它顯得過于保守.與上述3種方法對比,RIM檢驗在所有模擬情形下既不保守也不過于自由,因為其第一類錯誤率均非常接近給定的顯著性水平0.05.這與定理2中RIM檢驗的有效性證明是一致的.從這個意義上講,RIM檢驗在這4種方法中是最優(yōu)的. 表2 大樣本下100 000次模擬試驗4種檢驗第一類錯誤率的比較 表3 小樣本下100 000次模擬試驗4種檢驗第一類錯誤率的比較 其次,考察4種檢驗方法的統(tǒng)計功效.類似地用計算機R語言進行100,000次模擬試驗,表格4和表格5分別給出了大樣本和小樣本情形下4種檢驗方法的功效比較情況.從表格中可以看出,4種方法中,由于IM檢驗的保守性,其統(tǒng)計功效是最差的;從表4中易知,大樣本試驗中,在一些情形下RIM檢驗的功效比Delta 檢驗和Score 檢驗高,而在其余的情形中,RIM 檢驗的功效非常接近Delta 檢驗和Score檢驗.總的來說,RIM檢驗在4種方法的表現(xiàn)中也是最優(yōu)的. 表4 大樣本下100 000次模擬試驗四種檢驗統(tǒng)計功效的比較 本部分將運用RIM檢驗分析一個實際數(shù)據(jù)的例子,并與其它3種檢驗方法作比較.該數(shù)據(jù)來源于Lachin[8]的一個回顧性配對試驗研究.該研究想評估女性服用結(jié)合雌激素與子宮內(nèi)膜癌的發(fā)生是否有關(guān)系.該實驗的數(shù)據(jù)結(jié)構(gòu)如表6所示. 表6 女性服用結(jié)合雌激素與子宮內(nèi)膜癌的觀測數(shù)據(jù)的2×2 列聯(lián)表 假設(shè)想要證實女性服用結(jié)合雌激素,其發(fā)生子宮內(nèi)膜癌的可能性至少是未服用者的2倍,則意味著假設(shè)檢驗(1)式中的δ0=2.容易計算Delta 檢驗統(tǒng)計量zD=2.279,Score 檢驗統(tǒng)計量zS=2.378,它們的檢驗p值分別為0.011和0.009.對于IM檢驗而言,其合理性函數(shù)的值為0.010.上述3種檢驗方法的p值均小于0.05. 為了運用RIM檢驗,首先需要先選擇一個隨機數(shù)w~Unif(0,1),然后基于(13)式計算隨機化合理性函數(shù).基于R語言程序,例如,取w=0.829,則隨機合理性函數(shù)的值為0.009.讀者可能注意到,在δ0=2 這種情形下,無論隨機權(quán)重w如何取,其隨機化合理性函數(shù)的值均小于0.010.綜上所述,在5%的顯著性水平下,上述4種方法均得出同樣的結(jié)論,即女性服用結(jié)合雌激素,其發(fā)生子宮內(nèi)膜癌的可能性至少是未服用者的2倍. 但是,假設(shè)想證實女性服用結(jié)合雌激素,其發(fā)生子宮內(nèi)膜癌的可能性是否至少是未服用者的2.8倍,則意味著假設(shè)檢驗(1)式中的δ0需改為2.8,此時有趣的現(xiàn)象發(fā)生了.對于Delta檢驗和Score檢驗,它們的檢驗p值分別為0.064和0.061.對于IM檢驗,其合理性函數(shù)的值為0.081.因此,在5%的顯著性水平下,這3 種方法均不能得出拒絕原假設(shè)的結(jié)論.換句話說,為了得到女性服用結(jié)合雌激素,其發(fā)生子宮內(nèi)膜癌的可能性是否至少是未服用者的2.8 倍的結(jié)論,需要更多的試驗數(shù)據(jù)來支撐.然而事實上,對于RIM檢驗方法來說,卻有32.9%的可能性得出拒絕原假設(shè)的結(jié)論.因為當隨機權(quán)重w<0.329 時,隨機化合理性函數(shù)的值將不超出0.05.因此,在本例中雖然并未獲得更多的試驗數(shù)據(jù),但是通過RIM檢驗可以得出女性服用結(jié)合雌激素,其發(fā)生子宮內(nèi)膜癌的可能性至少是未服用者的2倍提升至2.8倍.從這個角度而言,RIM檢驗告訴人們更多有用的信息.這個有用的信息對進一步揭示女性服用結(jié)合雌激素與其發(fā)生子宮內(nèi)膜癌的真正聯(lián)系具有重要價值. 推斷模型(IM)旨在發(fā)展一種新的統(tǒng)計推斷框架.它是一種合適的無先驗的概率統(tǒng)計推斷模型.感興趣的讀者可以進一步參考關(guān)于IM體系的文章[9-12].事實上,構(gòu)造合適且有效的假設(shè)檢驗準則僅僅是IM體系的一個“副產(chǎn)品”.然而,Liu和Martin[7]所建議的關(guān)于“默認”的聯(lián)結(jié)模型的構(gòu)造可能無法得到離散情形的有效檢驗.本文利用隨機聯(lián)結(jié)模型[13-14]將試驗數(shù)據(jù)和未知參數(shù)聯(lián)結(jié)起來,并利用基于隨機合理化函數(shù)的RIM檢驗進行決策.RIM檢驗已經(jīng)被證實不僅是合適的而且是有效的.本文中還展示了RIM檢驗在配對試驗中基于優(yōu)勢比的非劣檢驗中的運用,結(jié)果顯示RIM檢驗比起頻率學(xué)派和貝葉斯學(xué)派的方法更優(yōu).因此,實際上,推斷模型在檢驗的有效性方面比起傳統(tǒng)的方法更有優(yōu)勢. 關(guān)于運用隨機檢驗(randomized tests)來解決離散模型中參數(shù)檢驗問題的歷史已有很長時間了.對于二項分布和其他的離散分布中,事實上存在所謂一致最優(yōu)勢(uniformly most powerful,UMP)檢驗,包括UMP單側(cè)檢驗和無偏UMP雙側(cè)檢驗(Lehmann[15]).上述檢驗都是最優(yōu)檢驗步驟.然而,這些隨機化檢驗在實際生活中幾乎沒有運用,主要是因為實踐者反對在同一個具體問題中,對于相同的數(shù)據(jù),由于隨機化的原因卻給出了不同的決策準則. 本文中,雖然基于推斷模型得到的RIM檢驗也是一種隨機化的方法,但它卻是以一種簡單直觀的方法呈現(xiàn)出來.因此,是時候以另一種方式重新考慮隨機化檢驗了:對于離散模型,由于離散分布的本質(zhì)特點,所觀測到的數(shù)據(jù)可能不是“完整”(full)的或“完全”(complete)的數(shù)據(jù),在某種程度上只能把這些數(shù)據(jù)視為不完全數(shù)據(jù)(incomplete data).為了運用UMP檢驗,實踐中需要從(0,1)上找到一個隨機數(shù)來“完善”(complete)這些不完全數(shù)據(jù).可能有些讀者會有爭議:因為兩個統(tǒng)計學(xué)家分析同樣的試驗數(shù)據(jù)、運用同樣的檢驗過程卻得到不同的決策結(jié)果.為了澄清這樣的疑惑,對于離散的模型,本文以另一個視角來解釋隨機化檢驗:或者隨機化的檢驗過程并不是“完全一樣”的,或者離散模型的數(shù)據(jù)是丟失部分信息的不完全數(shù)據(jù). 事實上,隨機化方法經(jīng)常被運用在統(tǒng)計決策理論(theory of statistical decision)和博弈論(game theory)中,以提高決策的質(zhì)量.而假設(shè)檢驗問題實際上也可視為普通決策理論的一種特殊情形,并且本文所提出的基于RIM 檢驗的決策準則也可視為一種隨機決策函數(shù)(randomized decision func?tion).因此,我們認為隨機決策函數(shù)應(yīng)該在統(tǒng)計決策中發(fā)揮出應(yīng)有的應(yīng)用價值,而不是束之高閣,并且隨機化決策思想的數(shù)學(xué)理論基礎(chǔ)應(yīng)該是后續(xù)統(tǒng)計理論研究的一個方向.2 模擬研究
2.1 第一類錯誤率比較
2.2 統(tǒng)計功效比較
3 實證研究
4 結(jié)論