邱世芳,何 杰
(重慶理工大學(xué) 理學(xué)院, 重慶 400054)
在流行病學(xué)研究中,為了估計(jì)某種疾病的流行率,常使用價(jià)格便宜的篩檢方法對(duì)個(gè)體進(jìn)行第一次診斷。由于篩檢方法常存在誤判,從而導(dǎo)致基于有誤判數(shù)據(jù)的估計(jì)常常是有偏的[1]。在實(shí)際中,完全的金標(biāo)準(zhǔn)是不存在的,同時(shí)其花費(fèi)很高且非常耗時(shí)。為此,Tenenbein[2]提出了二重抽樣方法,即從感興趣的總體中隨機(jī)抽取N個(gè)個(gè)體接受易犯錯(cuò)的分類器分類,再從中隨機(jī)抽取n個(gè)個(gè)體接受金標(biāo)準(zhǔn)檢驗(yàn)。這種方法叫作二重抽樣方法,得到的數(shù)據(jù)稱為部分核實(shí)數(shù)據(jù)[3]。
基于Tenenbein[2]提出的二重抽樣方法得到的部分核實(shí)數(shù)據(jù),Tang等[3]研究了單個(gè)總體下的疾病流行率的假設(shè)問題,考慮了基于Score檢驗(yàn)、似然比檢驗(yàn)以及2種Wald型檢驗(yàn)的大樣本漸近的檢驗(yàn)過程以及小樣本近似非條件檢驗(yàn)過程;Tang等[4]基于上述檢驗(yàn)統(tǒng)計(jì)量提出了關(guān)于疾病流行率的12種區(qū)間估計(jì)方法;并從顯著性檢驗(yàn)的角度和區(qū)間估計(jì)的角度考慮了樣本量的確定方法[5];對(duì)于2組樣本情形,Tang等[6]基于比例差考慮了2組疾病流行率的顯著性差異的假設(shè)檢驗(yàn)過程,以及從檢驗(yàn)功效的角度研究了樣本量的確定問題;同時(shí),Qiu等[7]考慮了2組樣本下關(guān)于疾病流行率差的區(qū)間估計(jì)方法,從置信區(qū)間的角度研究了2組樣本的疾病流行率的顯著性差異問題。
以上研究中有一個(gè)重要的假定是存在一種完全無誤判的金標(biāo)準(zhǔn)。但在實(shí)際應(yīng)用中,完全準(zhǔn)確的金標(biāo)準(zhǔn)檢驗(yàn)也許根本不存在。為此,安金兵等[8]考慮了在無金標(biāo)準(zhǔn)條件下的診斷試驗(yàn);Qiu等[9]在2種分類器都有誤判的情況下,基于單組樣本下的部分核實(shí)數(shù)據(jù)考慮了基于疾病流行率的假設(shè)檢驗(yàn)過程以及樣本量的確定,以及邱世芳等[10]從區(qū)間估計(jì)的角度研究了在給定置信水平下區(qū)間寬度控制下的樣本量的估計(jì)問題。但Qiu等[9-10]只考慮單組樣本下的部分核實(shí)數(shù)據(jù)對(duì)疾病流行率的顯著性檢驗(yàn)過程。而實(shí)際生活中,疾病流行率可能會(huì)受到年齡、生活習(xí)慣等的影響。為此,本文在此基礎(chǔ)上進(jìn)一步考慮2組獨(dú)立的無金標(biāo)準(zhǔn)部分核實(shí)數(shù)據(jù)下基于風(fēng)險(xiǎn)差的顯著性檢驗(yàn)問題。
在2種分類器都有誤判的情況下,假設(shè)從第j組感興趣總體中隨機(jī)抽取了Nj個(gè)個(gè)體進(jìn)行初級(jí)分類器(J)分類,再從Nj個(gè)個(gè)體中隨機(jī)抽取nj個(gè)個(gè)體進(jìn)行高級(jí)分類器(S)分類,得到頻數(shù)為nikj(i,k=0,1,j=1,2)。其中,Nj-nj個(gè)個(gè)體只接受了初級(jí)分類器的分類;xj表示檢驗(yàn)為陽性的個(gè)體數(shù);yj表示檢驗(yàn)為陰性的個(gè)體數(shù),數(shù)據(jù)結(jié)構(gòu)由表1所示。
表1 第j組的數(shù)據(jù)結(jié)構(gòu)
令Dj=1表示患病,Dj=0表示不患病,Jj=1表示初級(jí)分類器診斷個(gè)體呈陽性,反之Jj=0;Sj=1表示高級(jí)分類器診斷個(gè)體呈陽性,反之Sj=0。令πj=P(Dj=1)為第j組感興趣總體真實(shí)的患病率,ηj=P(Jj=1|Dj=1)和θj=P(Sj=1|Dj=1)分別表示第j組樣本下初級(jí)分類器和高級(jí)分類器的敏感度。本文假定兩種分類器都不存在假陽性。
本文感興趣的問題是如下的假設(shè)檢驗(yàn):
H0:π1=π2?H1:π1≠π2
令δ=π2-π1,上述的假設(shè)檢驗(yàn)就可變?yōu)椋?/p>
H0:δ=0?H1:δ≠0
假定初級(jí)分類器和高級(jí)分類器的分類結(jié)果是條件獨(dú)立的,即滿足P(Jj,Sj|Dj)=P(Jj|Dj)P(Sj|Dj),j=1,2。在此假定下,可得如下的概率模型(Nedelman[11]),其概率分布如表2所示。
表2 第j組的概率分布
令m={(n11j,n10j,n01j,n00j,xj,yj):j=1,2}為觀測數(shù)據(jù),則觀測數(shù)據(jù)m的對(duì)數(shù)似然函數(shù)為:
l1(m;π1,δ,η1,θ1,η2,θ2)=
n01j+xj)logηj+n10jlog(1-ηj)+
(n11j+n10j)logθj+n01jlog(1-θj)+
n00jlog[1-πj(ηj+θj-ηjθj)]+
yjlog(1-πjηj)}
(1)
其中,π2=π1+δ;C1是一個(gè)與參數(shù)無關(guān)的常數(shù)。
簡單計(jì)算可得π1、δ、ηj、θj(j=1,2)的非限制性極大似然估計(jì),分別為:
(2)
(3)
在H0:δ=0下,π1的限制性極大似然估計(jì)為:
(4)
(5)
此方程組的解沒有顯表達(dá)式,可用迭代方法如牛頓迭代法求解。
2.1.1Wald型檢驗(yàn)統(tǒng)計(jì)量
在原假設(shè)H0:δ=0下,當(dāng)N1和N2趨近無窮大時(shí),Tw1和Tw2的漸近分布為標(biāo)準(zhǔn)正態(tài)分布。
2.1.2似然比檢驗(yàn)統(tǒng)計(jì)量
根據(jù)式(1)給出的對(duì)數(shù)似然函數(shù),對(duì)于假設(shè)檢驗(yàn)H0:δ=0?H1:δ≠0有如下的似然比檢驗(yàn)統(tǒng)計(jì)量:
在原假設(shè)H0:δ=0下,當(dāng)N1和N2趨近無窮大時(shí),Tl的漸近分布為自由度為1的卡方分布。
2.1.3Score檢驗(yàn)統(tǒng)計(jì)量
根據(jù)Rao[12]提出的score理論,對(duì)于假設(shè)檢驗(yàn)H0:δ=0?H1:δ≠0,經(jīng)過推導(dǎo)得到如下的score檢驗(yàn)統(tǒng)計(jì)量:
2.1.4基于反雙曲正切變換的檢驗(yàn)統(tǒng)計(jì)量
和
在原假設(shè)H0:δ=0下,當(dāng)N1和N2趨近無窮大時(shí),Ttan1和Ttan2的漸近分布為標(biāo)準(zhǔn)正態(tài)分布。
假定初級(jí)分類器和高級(jí)分類器存在假陽性且條件不獨(dú)立時(shí),根據(jù)Lie[13]提出的模型,其概率分布如表3所示。
表3 第j組的概率分布
注:j=1,2
觀測樣本m的對(duì)數(shù)似然函數(shù)為:
l2(m;π1,δ,η1,θ1,η2,θ2)=
C2+(nj-n00j+xj)log(πj)+
n00jlog(1-πj)+xjlogηj+
n10jlog(1-ηj)+n01jlog(1-θj)+
yjlog(1-πjηj)+n11jlog(ηj+θj-1)
(6)
其中:π2=π1+δ;C2是一個(gè)與參數(shù)無關(guān)的常數(shù)。
經(jīng)過簡單計(jì)算,可得π1,δ,ηj,θj(j=1,2)的非限制性極大似然估計(jì),分別為:
(7)
(8)
在H0:δ=0下,π1的限制性極大似然估計(jì)為:
(9)
由此,得到如下的估計(jì):
(10)
2.2.1Wald型檢驗(yàn)統(tǒng)計(jì)量
2.2.2似然比檢驗(yàn)統(tǒng)計(jì)量
由式(6)可得到如下的似然比檢驗(yàn)統(tǒng)計(jì)量:
在原假設(shè)H0:δ=0下,當(dāng)N1和N2趨近無窮大時(shí),Tl的漸近分布為自由度為1的卡方分布。
2.2.3Score檢驗(yàn)統(tǒng)計(jì)量
在原假設(shè)H0:δ=0成立下,可以得到Score檢驗(yàn)統(tǒng)計(jì)量:
2.2.4基于反雙曲正切變換的檢驗(yàn)統(tǒng)計(jì)量
同模型1,可以得到2種反雙曲正切逆變換的檢驗(yàn)統(tǒng)計(jì)量:
和
在原假設(shè)H0:δ=0下,當(dāng)N1和N2趨近無窮大時(shí),Ttan1和Ttan2的漸近分布為標(biāo)準(zhǔn)正態(tài)分布。
為評(píng)估Tw1、Tw2、Tsc、Tl、Ttan1和Ttan2檢驗(yàn)方法的有效性,考慮了如下樣本量的模擬研究:① 小樣本:(n1,n2,N1,N2)=(20,20,30,30),(30,30,50,50);② 中等樣本(n1,n2,N1,N2)=(50,50,100,100);③ 大樣本:(n1,n2,N1,N2)=(200,200,500,500)。
在不同的樣本量設(shè)置下,考察犯第一類錯(cuò)誤的概率時(shí)考慮了如下參數(shù)設(shè)置:π1=0.1(0.2)0.5,η1=0.5(0.1)0.7,θ1=0.7(0.1)0.9,η2=η1+0.05,θ2=θ1+0.05,即考慮了3(π1的值)×3(η1(η2)的值)×3(θ1(θ2)的值)=27種參數(shù)組合。對(duì)于檢驗(yàn)功效考慮了:δ=0.1(0.01)0.3,π1=0.1(0.2)0.5,(η1,θ1)=(0.5,0.7),(0.6,0.8),(0.7,0.9),η2,θ2同以上設(shè)置,即考慮了3(δ的值)×3(π1的值)×3((η1,θ1)的值)=27種參數(shù)組合。這里的a(b)c表示取值是從a以步長b變化到c。在每個(gè)樣本量設(shè)置和每種參數(shù)設(shè)置下,隨機(jī)產(chǎn)生5 000組數(shù)據(jù)m={(n11j,n10j,n01j,n00j,xj,yj):j=1,2},在顯著性水平α=0.05下,對(duì)于每個(gè)檢驗(yàn)統(tǒng)計(jì)量Ti(i=w1,w2,sc,l,tan1,tan2),其犯第一類錯(cuò)誤的概率可通過以下公式計(jì)算:基于統(tǒng)計(jì)量Ti拒絕原假設(shè)的次數(shù)/5 000(δ=0),經(jīng)驗(yàn)功效通過以下公式計(jì)算基于統(tǒng)計(jì)量Ti拒絕原假設(shè)的次數(shù)/5 000(δ≠0)。犯第一類錯(cuò)誤概率的模擬結(jié)果見表4~7。由于篇幅的限制,只列出了小樣本和中等樣本下的部分功效的模擬結(jié)果,見表8~9。
表4 小樣本(n1,n2,N1,N2)=(20,20,30,30)下犯第一類錯(cuò)誤的概率(顯著性水平α=0.05)
表5 小樣本(n1,n2,N1,N2)=(30,30,50,50)下犯第一類錯(cuò)誤的概率(顯著性水平α=0.05)
續(xù)表(表5)
表6 中等樣本(n1,n2,N1,N2)=(50,50,100,100)下犯第一類錯(cuò)誤的概率(顯著性水平α=0.05)
續(xù)表(表6)
表7 大樣本(n1,n2,N1,N2)=(200,200,500,500)下犯第一類錯(cuò)誤的概率(α=0.05)
表8 小樣本(n1,n2,N1,N2)=(20,20,30,30)下的經(jīng)驗(yàn)功效(顯著性水平α=0.05)
表9 中等樣本(n1,n2,N1,N2)=(50,50,100,100)下的經(jīng)驗(yàn)功效(顯著性水平α=0.05)
續(xù)表(表9)
通過模擬結(jié)果可以得到以下結(jié)論:① 對(duì)于2個(gè)模型,即使在極小樣本(如(n1,n2,N1,N2)=(20,20,30,30))下,Score檢驗(yàn)統(tǒng)計(jì)量(Tsc)犯第一類錯(cuò)誤概率接近給定的顯著性水平(α=0.05),相應(yīng)的功效也比較大,隨著樣本量的增大,犯第一類錯(cuò)誤的概率越來越接近顯著性水平0.05且功效越來越大;② 對(duì)于模型1,除了小樣本情形,考慮原假設(shè)下方差的Wald檢驗(yàn)統(tǒng)計(jì)量(Tw2)、Score檢驗(yàn)(Tsc)以及反雙曲正切變換統(tǒng)計(jì)量(Ttan2)都表現(xiàn)良好,它們犯第一類錯(cuò)誤的概率都比較接近于給定的顯著性水平0.05,且有較大的功效;③ 對(duì)于模型2,在中等樣本和大樣本且犯病率不是極小時(shí),所有檢驗(yàn)統(tǒng)計(jì)量犯第一類錯(cuò)誤的概率都基本接近名義水平且具有較高的功效。綜上所述,在模型1下,推薦使用Tw2、Tsc和Ttan1;在模型2下,當(dāng)樣本量極小時(shí)(如(n1,n2,N1,N2)=(20,20,30,30)),推薦使用Score統(tǒng)計(jì)量,在樣本量不是極小時(shí),所有統(tǒng)計(jì)量都可以推薦使用。
為了驗(yàn)證本文提出方法的有效性,利用Nedelman[11]研究中的瘧疾數(shù)據(jù)進(jìn)行分析??紤]了未成年組(即9~18歲)的2個(gè)不同組的瘧疾數(shù)據(jù),數(shù)據(jù)結(jié)構(gòu)見表10。
表10 實(shí)例數(shù)據(jù)
對(duì)于假設(shè)檢驗(yàn):H0:δ=0?H1:δ≠0,在模型1下,基于本文考慮的檢驗(yàn)統(tǒng)計(jì)量Tw1、Tw2、Tl、Tsc、Ttan1、Ttan2的檢驗(yàn)p值分別為:0.113、0.130、0.129、0.184、0.115、0.132。由此,沒有充分理由拒絕原假設(shè),認(rèn)為瘧疾的患病率與不同的調(diào)查組無關(guān)。在模型2下,本文所提出的檢驗(yàn)統(tǒng)計(jì)量的檢驗(yàn)p值分別為:0.127、0.141、0.143、0.145、0.128、0.142,同樣認(rèn)為沒有充分理由拒絕原假設(shè),即認(rèn)為瘧疾的患病率與不同的調(diào)查組無關(guān)。
本文基于2個(gè)有誤判分類器下的二重抽樣數(shù)據(jù)對(duì)2組患病率進(jìn)行了比較研究,分別考慮2個(gè)二重抽樣模型的6種檢驗(yàn)統(tǒng)計(jì)量,并通過不同樣本量和不同參數(shù)設(shè)置考察了它們犯第一類錯(cuò)誤的概率和檢驗(yàn)功效。對(duì)于模型1,即使在極小樣本下,Score檢驗(yàn)以及反雙曲正切統(tǒng)計(jì)量都表現(xiàn)良好,在樣本量不太小時(shí),似然比統(tǒng)計(jì)量也能很好地控制犯第一類錯(cuò)誤的概率;對(duì)于模型2,本文所考慮的所有檢驗(yàn)統(tǒng)計(jì)量(在中等樣本和大樣本下且犯病率不是極小時(shí))都表現(xiàn)很好。在2個(gè)模型中,考慮初級(jí)分類器和高級(jí)分類器不存在假陽性,在實(shí)際的模型中該條件可能不存在,但如果2種分類器都存在假陽性分類時(shí),本文考慮的模型是不可識(shí)別的。此時(shí),可以考慮采用貝葉斯統(tǒng)計(jì)方法進(jìn)行研究,這是一個(gè)將來值得研究的問題。