邱世芳,郭黎萱
(重慶理工大學 理學院, 重慶 400054)
在眼科(耳科)研究中,組內相關的雙邊數(shù)據(jù)通常是觀察到的成對器官(眼睛或耳朵)或成對身體部分的治療數(shù)據(jù)。當患者接受成對器官或身體部位的治療或手術時,雙邊數(shù)據(jù)尤其常見。例如,Mandel等[1]和Le[2]考慮了比較兩種抗生素(cefaclor和amoxicillin)治療效果的雙盲隨機臨床試驗,即將214個(293只耳朵)患滲液性中耳炎(OME)的小孩隨機分配到這兩種藥物的其中一個治療組中,每個治療組的小孩都接受為期14天的治療。治療結束時治療的結果可分為3類:全部治愈(治療后兩只耳朵都沒有分泌物);部分治愈(只有一只耳朵無分泌物);治愈失敗(治療后兩只耳朵都還有分泌物),試驗數(shù)據(jù)見表1所示的3×2列聯(lián)表的數(shù)據(jù)。
表1 14天治療后孩子的OME數(shù)據(jù)
這項試驗研究了兩種抗生素Cefaclor和Amoxicillin的治愈率是否相同,通過此方法獲得的數(shù)據(jù)被稱為組內相關雙邊數(shù)據(jù)。近年來,對組內相關雙邊數(shù)據(jù)基于比例差的等價性檢驗的研究備受關注,如Rosner[3]在樣本量很大的情況下基于大樣本理論討論了上述問題的假設檢驗,提出了檢驗假設的兩個檢驗統(tǒng)計量(基于非獨立模型和獨立模型)。Tang等[4]從小樣本的角度研究了視網(wǎng)膜的分泌物與視網(wǎng)膜粘合手術成功的關聯(lián)性,考慮到這類數(shù)據(jù)的稀疏性以及高度相關性,提出了精確非條件和近似非條件的檢驗過程。Tang等[5]進一步提出了獨立性假設下的兩個Wald型檢驗統(tǒng)計量,非獨立性假設下的兩個Wald型檢驗統(tǒng)計量,似然比檢驗統(tǒng)計量以及score檢驗統(tǒng)計量,結合Rosner的兩個統(tǒng)計量,提出了基于這些統(tǒng)計量的漸近檢驗過程和近似非條件的檢驗過程。 Pei等[6]考慮了對于單邊試驗數(shù)據(jù)和雙邊試驗數(shù)據(jù)基于比例差的等價性假設檢驗問題;Tang等[7]提出了對于組內雙邊數(shù)據(jù)基于比例差的區(qū)間估計方法。試驗樣本量的確定問題是實際工作中最為關心的問題之一,因此,國內外學者對此問題進行了相關研究:如韓棟[8]對生存分析中非劣效臨床試驗樣本量估計方法進行了研究,邱世芳等[9]對部分核實數(shù)據(jù)下對疾病流行率的研究中從區(qū)間估計的角度研究了樣本量的確定;Qiu等[10]在雙邊試驗設計的等價性研究中從檢驗功效的角度研究了樣本量的確定。然而,對雙邊試驗設計下基于比例差的區(qū)間估計所需要的樣本量還未有文獻研究,本文將對此問題進行研究并提出幾種有效的樣本量的確定公式或算法。
假設mhi表示第i組中有h只耳朵治愈的小孩個數(shù)且phi表示相應的概率,其中m+i=m0i+m1i+m2i,h=0,1,2,i=0,1。根據(jù)Rosner[3],假設在治療結束時,第i組中第j個小孩的第k只耳朵已治愈記為zijk=1,否則zijk=0,i=0,1,j=1,2,…,m+i,k=1,2設Pr[zijk=1]=λi且Pr[zijk=1|zij,3-k=1]=Rλi(i=0,1,j=1,…,m+i,k=1,2),其中,R是一個正的常數(shù)。由Rosner[3]可得,zij1和zij2的相關系數(shù)為
ρi=λi(R-1)/(1-λi),i=0,1
表2 雙邊試驗設計下的觀測頻數(shù)和概率
感興趣問題是如下的假設檢驗:
令m=(m00,m10,m20,m01,m11,m21),則在此概率模型下m=(m00,m10,m20,m01,m11,m21)的對數(shù)似然函數(shù)為:
(m10+2m20)logλ0+m10log(1-Rλ0)+(m20+m21)logR+
(m11+2m21)log(λ0+Δ)+m11log(1-R(λ0+Δ))+C
(1)
其中C是與參數(shù)Δ、λ0和R無關的常數(shù)。在本文中,Δ是我們感興趣的參數(shù),λ0和R是當前問題中的討厭參數(shù)。本文主要基于Δ的不同區(qū)間估計方法研究區(qū)間寬度控制下給定范圍的樣本量的確定方法。
令κ=m+0/m+1,通過以下幾種方法考慮實驗樣本量的確定問題。
(2)
其中,
或
則基于Wald方法的 100(1-α)%的置信區(qū)間寬度的一半長度不大于ω的樣本量NW為:
(3)
A1Δ2-2B1Δ+C1≤0
(4)
且
在獨立性模型下,關于Δ的置信水平為100(1-α)%的Haldane置信區(qū)間為[Δ2l,Δ2u],其中上下限Δ2l,Δ2u通過如下不等式得到:
A2Δ2-2B2Δ+C2≤0
(5)
則100(1-α)%的Haldane置信區(qū)間寬度的一半長度不大于ω的樣本量NH為:
(6)
2.3.1 基于似然比檢驗的置信區(qū)間
在獨立模型 (R=1)下,對于檢驗H0:Δ=Δ0?H1:Δ≠Δ0的似然比檢驗的接收域為
其中:
(7)
以上方程沒有顯示解,可通過迭代方法(如二分法、擬牛頓迭代等)獲得。
同樣地,在非獨立性(R≠1)模型下,對于檢驗H0:Δ=Δ0?H1:Δ≠Δ0,基于似然比檢驗的接收域為
因此,基于似然比統(tǒng)計量的置信區(qū)間為[Δl,Δu],其中-1<Δl<Δu<1,下限Δl和上限Δu可通過迭代方法解以下關于Δ的方程得到:
(8)
2.3.2 基于Score檢驗的置信區(qū)間
在獨立模型(R=1)下,檢驗H0:Δ=Δ0的Score統(tǒng)計量(見Tang等[7]附錄D)為:
原假設H0下漸近服從標準正態(tài)分布。因此,Δ的置信水平為的Score置信區(qū)間的上下限可迭代方法通過解以下關于Δ的方程得到:
TSC(Δ)=±zα/2
(9)
其中“+”和“-”分別對應置信下限和上限。同樣地,在非獨立模型(R≠1)下,檢驗H0:Δ=Δ0的Score統(tǒng)計量為:
同理,Δ的置信水平為100(1-α)%的Score置信區(qū)間的上下限可通過解以下方程求得:
TSC(Δ)=±zα/2
(10)
2.3.3 樣本量的數(shù)值算法
由于基于似然比檢驗統(tǒng)計量和Score統(tǒng)計量的置信區(qū)間都沒有顯表達式,因此采用以下的近似算法來計算區(qū)間寬度控制在給定長度內的樣本量:
第1步:給定m+1和κ的值,產(chǎn)生K組隨機樣本{(m00,m10,m01,m11)}。
第2步:基于第一步產(chǎn)生的每一組隨機樣本{(m00,m10,m01,m11)},分別用式(7)~(10)計算相應的區(qū)間估計,然后通過隨機模擬近似估計區(qū)間寬度,記為c*(m+1)。
第3步:重復第1步和第2步,若c*(m+1)大于(小于)2ω,則增大(減小)m+1的值。
第4步:重復第3步,直到近似的區(qū)間估計的寬度c*(m+1)非常接近于給定的區(qū)間寬度2ω,即m+1=min{m+1:|c*(m+1)-2ω|≤0.001}為所求的樣本量。通過似然比和Score置信區(qū)間求得的樣本量分別記為NL和NS。
為了驗證所提出的控制置信區(qū)間寬度的樣本量的計算公式的準確性,對于非獨立性模型考慮如下的參數(shù)設置:Δ=-0.05,0.0,0.05,λ0=0.25,0.5,R=0.5,1.0,1.5,κ=2/3,1.0,以及區(qū)間寬度的一半長為ω=0.05,0.1;對于獨立性模型,當真實模型是獨立的時候,考慮參數(shù)設置為:Δ=-0.05,0.0,0.05,λ0=0.25,0.5,κ=2/3,1.0,以及區(qū)間寬度的一半長為ω=0.05,0.1,當真實模型為非獨立模型時,考慮參數(shù)設置為:Δ=-0.05,0.0,0.05,λ0=0.25,0.5,R=1.5,κ=1.0,以及區(qū)間寬度的一半長為ω=0.05,0.1。
分別對以上參數(shù)設置的每一個組合,根據(jù)本文所提出的樣本量的計算公式和算法計算給定置信水平1-α=0.95下的區(qū)間寬度不大于2ω的近似樣本量,在估計的樣本量下,產(chǎn)生5 000個隨機樣本,計算經(jīng)驗覆蓋概率(ECP)和經(jīng)驗覆蓋寬度(ECW)?;诜仟毩⑿阅P拖碌哪M結果見表3、4。基于真實獨立性模型下的模擬結果見表5、表6?;讵毩⑿阅P图僭O下,而真實模型是非獨立模型的模擬結果見表7。
表3 基于非獨立模型的95%置信區(qū)間寬度的一半長度不大于ω的近似樣本量、經(jīng)驗覆蓋概率(%)和期望區(qū)間寬度(κ=1.0)
ωΔλ0RNS(ECP,ECW)NL(ECP,ECW)0.05-0.050.250.50233(92.24,0.1005)237(94.10,0.1008)1.00272(92.50,0.1008)280(94.60,0.1009)1.50312(93.12,0.1001)314(94.20,0.1012)0.500.50205(94.92,0.0995)187(93.90,0.0994)1.00432(94.38,0.1002)391(93.64,0.1008)1.50494(95.32,0.0896)353(93.88,0.0992)0.000.250.50257(96.40,0.1007)240(96.66,0.1000)1.00312(96.36,0.1000)288(96.44,0.1010)1.50353(96.34,0.1003)336(95.56,0.0995)0.500.50173(96.86,0.0991)152(96.02,0.0991)1.00416(96.36,0.1001)377(96.64,0.0991)1.50385(96.58,0.0900)293(96.28,0.0990)0.050.250.50282(96.22,0.1003)254(93.66,0.1009)1.00349(95.70,0.1002)319(94.46,0.1009)1.50394(95.32,0.1005)364(94.44,0.1009)0.500.50169(94.50,0.0981)123(94.68,0.0995)1.00415(94.32,0.1011)393(93.82,0.1007)1.50286(90.58,0.0980)359(92.96,0.0990)0.10-0.050.250.5058(94.88,0.1998)61(96.62,0.2007)1.0069(94.13,0.2004)72(96.72,0.2008)1.5079(94.25,0.1999)82(96.28,0.1999)0.500.5049(94.67,0.2000)49(96.58,0.1986)1.0099(94.79,0.1990)103(96.70,0.2004)1.5089(95.16,0.1994)94(96.64,0.1996)0.000.250.5061(95.26,0.2002)64(95.08,0.2005)1.0075(95.24,0.1993)78(94.92,0.2005)1.5085(94.94,0.2001)89(94.64,0.1997)0.500.5045(94.83,0.1996)42(95.24,0.2007)1.0099(94.77,0.1990)103(94.44,0.2009)1.5081(95.03,0.2000)84(94.42,0.2003)0.050.250.5063(95.50,0.1993)65(95.92,0.2007)1.0079(95.50,0.1999)82(96.04,0.2004)1.5092(95.21,0.1986)94(95.28,0.2000)0.500.5051(92.86,0.2101)34(96.86,0.2005)1.0098(94.81,0.1992)102(96.44,0.2016)1.5074(94.28,0.2007)75(96.80,0.1998)
表4 基于非獨立模型的95%置信區(qū)間寬度的一半長度不大于ω的近似樣本量、經(jīng)驗覆蓋概率(%)和期望區(qū)間寬度(κ=2/3)
ωΔλ0RNS(ECP,ECW)NL(ECP,ECW)0.05-0.050.250.50300(91.11,0.0994)298(94.42,0.1011)1.00352(91.41,0.1008)356(93.92,0.1007)1.50403(90.81,0.1004)401(94.24,0.1009)0.500.50262(93.81,0.0990)229(93.72,0.0991)1.00490(94.87,0.1078)485(93.92,0.1011)1.50526(95.81,0.0984)434(93.20,0.0992)0.000.250.50313(93.81,0.1011)300(96.00,0.0996)1.00373(94.34,0.1027)360(96.12,0.1002)1.50433(94.05,0.1013)420(95.78,0.0993)0.500.50219(94.07,0.0995)188(95.62,0.0993)1.00493(94.82,0.1053)469(96.44,0.0989)1.50414(92.78,0.0988)363(96.72,0.0989)0.050.250.50319(96.51,0.1054)316(94.22,0.1010)1.00390(96.56,0.1064)393(94.44,0.1010)1.50460(95.63,0.1045)448(94.06,0.1010)0.500.50214(86.45,0.0947)163(94.24,0.0993)1.00490(94.75,0.1070)489(93.14,0.1000)1.50376(88.89,0.0981)358(94.16,0.0993)0.10-0.050.250.5075(94.25,0.2004)77(96.90,0.2012)1.0091(94.05,0.1990)92(96.70,0.2004)1.50103(94.23,0.2003)104(96.28,0.2002)0.500.5064(95.33,0.1988)60(96.38,0.1995)1.00130(95.46,0.1989)129(96.66,0.2002)1.50112(95.38,0.2004)116(96.36,0.1999)0.000.250.5078(95.31,0.1993)81(95.30,0.1992)1.0096(95.23,0.1998)98(94.68,0.1996)1.50111(95.56,0.1994)110(94.70,0.2008)0.500.5057(95.55,0.2002)53(94.88,0.1998)1.00127(95.57,0.2004)129(94.68,0.2008)1.50103(94.93,0.2001)106(94.92,0.1989)0.050.250.5079(96.07,0.1998)81(95.72,0.1999)1.00100(95.87,0.2002)101(96.14,0.2004)1.50117(95.24,0.1995)114(95.84,0.2017)0.500.5067(93.31,0.2003)43(96.34,0.2014)1.00127(95.18,0.2001)129(96.74,0.2003)1.5099(93.81,0.1982)95(96.90,0.1996)
表5 基于獨立模型的95%置信區(qū)間寬度的一半長度不大于ω的近似樣本量、經(jīng)驗覆蓋概率(%)和期望區(qū)間寬度(κ=1.0)
ωΔλ0RNS(ECP,ECW)NL(ECP,ECW)0.05-0.050.25266(94.58,0.1002)266(94.96,0.1003)0.50382(94.92,0.0999)382(95.28,0.0999)0.000.25288(94.36,0.1000)288(94.82,0.1001)0.50384(95.22,0.0998)384(94.96,0.0998)0.050.25305(95.12,0.0999)305(94.96,0.0999)0.50382(95.36,0.0999)382(95.56,0.0999)0.10-0.050.2567(95.52,0.1998)66(94.98,0.2004)0.5095(95.10,0.1991)95(95.20,0.1996)0.000.2572(94.78,0.1996)72(94.88,0.1991)0.5095(95.84,0.1996)96(95.02,0.1991)0.050.2576(95.10,0.1998)76(95.06,0.1992)0.5095(95.10,0.1991)95(95.36,0.1996)
表6 基于獨立模型的95%置信區(qū)間寬度的一半長度不大于ω的近似樣本量、經(jīng)驗覆蓋概率(%)和期望區(qū)間寬度(κ=2/3)
ωΔλ0RNS(ECP,ECW)NL(ECP,ECW)0.05-0.050.25339(94.96,0.0999)339(94.90,0.0999)0.50478(95.04,0.0999)478(94.78,0.0999)0.000.25360(94.76,0.0999)360(94.62,0.1000)0.50480(95.12,0.0998)480(95.30,0.0998)0.050.25377(95.38,0.1000)377(95.26,0.1000)0.50478(94.70,0.0999)478(94.80,0.0999)0.10-0.050.2584(95.02,0.2006)84(94.52,0.2001)0.50119(95.22,0.1991)119(94.92,0.1996)0.000.2590(94.32,0.1994)90(95.00,0.1992)0.50119(94.88,0.1995)120(94.56,0.1989)0.050.2594(94.98,0.2002)94(94.84,0.1998)0.50119(95.16,0.1991)119(95.32,0.1996)
表7 真實模型為非獨立模型(R=1.5)下基于獨立假設的95%置信區(qū)間寬度的一半長度不大于ω的近似樣本量、經(jīng)驗覆蓋概率(%)和期望區(qū)間寬度(κ=1.0)
ωΔλ0RNS(ECP,ECW)NL(ECP,ECW)0.05-0.050.25272(93.28,0.0990)271(93.60,0.0992)0.50388(90.26,0.0991)389(89.98,0.0990)0.000.25293(92.72,0.0991)293(93.44,0.0992)0.50390(89.06,0.0990)390(89.08,0.0992)0.050.25310(92.78,0.0991)312(92.66,0.0989)0.50388(88.24,0.0990)388(88.00,0.0991)0.10-0.050.2566(92.96,0.2009)66(93.84,0.2006)0.5094(90.26,0.1999)95(89.04,0.1993)0.000.2564(93.38,0.2116)64(92.76,0.2111)0.5095(89.28,0.1993)95(90.22,0.1999)0.050.2570(93.02,0.2078)70(92.38,0.2077)0.5094(89.18,0.1999)95(88.52,0.1992)
由以上的模擬研究的結果表明:
1) 非獨立性模型(R≠1)下基于Wald置信區(qū)間、Haldane置信區(qū)間、似然比置信區(qū)間確定的樣本量下,置信區(qū)間的經(jīng)驗覆蓋概率接近于事先給定的置信水平,且樣本量計算的置信區(qū)間的期望寬度也接近于事先給定的寬度,它們在本文所考慮的所有參數(shù)設置下的表現(xiàn)都是令人滿意的,因此在實際應用中這3種方法可以被高度推薦使用。
2) 在非獨立假設(R≠1)下基于score確定的樣本量,它的表現(xiàn)并不總是令人滿意的,當R較大(如R=1.5)且ω較小(如ω=0.05)時,模擬結果表明其樣本量公式的統(tǒng)計性質不太滿意(經(jīng)驗覆蓋概率偏低)。
3) 在非獨立模型下的各種方法,即便真實的模型是獨立的,即R=1時,各種方法得到的估計樣本量都具有很好的統(tǒng)計性質;由表5~7的模擬結果表明:基于獨立性假設(R=1)下的本文所提出的方法確定的樣本量,只有在真實模型是獨立情況下的表現(xiàn)才令人滿意;而當真實模型是非獨立時,所有方法估計的樣本量都不準確。因此,在不清楚真實模型是否獨立的情況下,不推薦使用獨立性假設下的方法,但是非獨立模型下的方法是有效的。
本文在雙邊試驗設計下基于比例差研究了基于Wald置信區(qū)間、Haldene置信區(qū)間、score置信區(qū)間和似然比置信區(qū)間的寬度控制在給定長度內的樣本量計算公式或近似樣本量的數(shù)值算法。通過研究發(fā)現(xiàn),在獨立性假設下,對于區(qū)間估計方法除了在真實模型滿足獨立性假設的情況外,其他基于獨立性假設下的確定的樣本量的表現(xiàn)都不令人滿意。在非獨立性假設下,基于Wald置信區(qū)間、Haldane置信區(qū)間和似然比置信區(qū)間確定的樣本量的經(jīng)驗覆蓋概率非常接近于事先給定的置信水平,且樣本量計算的置信區(qū)間的期望寬度也接近于事先給定的寬度,其在本文所考慮的所有參數(shù)設置下的表現(xiàn)都是令人滿意的。因此在實際應用中,基于非獨立性假設下這3種方法被實際應用所推薦。
參考文獻:
[1] MANDEL E M,BLUESTONE C D,ROCKETTE H E,et al.Duration of effusion after antibiotic treatment for acute otitis media:comparison of cefaclor and amoxicillin[J].Pediatric Infectious Disease,1982(1):310-6.
[2] LE C T.Testing for linear trends in proportions using correlated otolaryngology or ophthalmology data[J].Biometrics,1988,44:299-303.
[3] ROSNER B.Statistical methods in ophthalmology:an adjustment for the intraclass correlation between eyes[J].Biometrics,1982,38:105-114.
[4] TANG M L,TANG N S,ROSNER B.Statistical inference for correlated data in ophthalmologic studies[J].Statistics in Medicine,2006,25:2771-83.
[5] TANG N S,TANG M L,QIU S F.Testing the equality of proportions for correlated otolaryngologic data[J].Computational Statistics & Data Analysis,2008,52:3719-29.
[6] PEI Y B,TANG M L,GUO J H.Testing the equality of two proportions for combined unilateral and bilateral data[J].Communications in Statistics - Simulation and Computation,2008,37:1-15.
[7] TANG N S,QIU S F,TANG M L,et al.Asymptotic confidence interval construction for proportion difference in medical studies with bilateral data[J].Statistical Methods in Medical Research,2011,20:233-259.
[8] 韓棟.生存分析中非劣效臨床試驗樣本量估計方法研究[D].廣州:南方醫(yī)科大學,2013.
[9] 邱世芳,曾小松.不完全無誤判金標準下二重抽樣設計中樣本量的確定[J].重慶理工大學學報(自然科學),2018(1):195-204.
[10] QIU S F,TANG N S,TANG M L,et al.Sample size for testing difference between two proportions for the bilateral-sample design[J].Journal of Biopharmaceutical Statistics,2009,19:857-871.
附錄
獨立模型下score統(tǒng)計量:
其中:
且