耿瑞瑞 李慧君 白 璐 丁伯春 湯在祥
蘇州大學(xué)蘇州醫(yī)學(xué)院公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計(jì)學(xué)系(215123)
【提 要】 McNemar檢驗(yàn)是配對計(jì)數(shù)資料中檢驗(yàn)兩種處理是否有差異的常用方法,但該檢驗(yàn)的結(jié)果只依據(jù)不一致的部分,并未充分利用樣本所提供的全部信息,而且樣本量過大,可能會出現(xiàn)結(jié)果與真實(shí)情況不符,即陽性率有統(tǒng)計(jì)學(xué)差異,而實(shí)際并無差異的情況。由于該檢驗(yàn)應(yīng)用范圍廣,且在多數(shù)統(tǒng)計(jì)教材中未明確指出該局限性,為了使初學(xué)者或者臨床研究者更加全面了解McNemar檢驗(yàn),文章通過具體簡便的案例,闡述McNemar檢驗(yàn)在應(yīng)用中存在的問題,以及目前的改良方法和應(yīng)用該檢驗(yàn)比較靈敏度和特異度差異的前提條件。旨在幫助使用者可以正確合理地選擇該檢驗(yàn)處理配對設(shè)計(jì)資料,避免產(chǎn)生錯(cuò)誤的推論。
在醫(yī)學(xué)研究中,經(jīng)常會遇到四格表的配對設(shè)計(jì)資料,常見的形式有[1]:同一對子內(nèi)兩個(gè)個(gè)體接受不同的處理;同一批樣品用兩種不同的方法檢測;以及同一個(gè)個(gè)體,接受處理的時(shí)間(前后)或位置(左右臂)不同等。針對上述資料,若比較兩種結(jié)果的陽性頻數(shù)分布是否相同(即兩樣本率或構(gòu)成比的比較),采用的統(tǒng)計(jì)方法是配對卡方檢驗(yàn),也即McNemar檢驗(yàn)。
關(guān)于McNemar檢驗(yàn),在目前通用的醫(yī)學(xué)統(tǒng)計(jì)學(xué)書籍上,一般是針對兩種檢測方法的檢查結(jié)果或者陽性率有無差別做假設(shè)檢驗(yàn)。如文獻(xiàn)[2-3]中,假設(shè)檢驗(yàn)是兩種檢測方法的“陽性率或者陽性概率”是否有差異;而文獻(xiàn)[4-5]中,其假設(shè)檢驗(yàn)是“檢查結(jié)果”是否有差異。從McNemar檢驗(yàn)公式可看出,針對“檢查結(jié)果”是否有差異做假設(shè)檢驗(yàn)時(shí),錯(cuò)誤地將檢驗(yàn)范圍擴(kuò)大了,因檢查結(jié)果既包含陽性結(jié)果也包含陰性結(jié)果,而McNemar檢驗(yàn)僅僅是在陽性結(jié)果基礎(chǔ)上的檢驗(yàn),因此針對“檢查結(jié)果”做假設(shè)檢驗(yàn)是不合理的。但若不考慮總樣本量,直接對“陽性率或者陽性概率”做假設(shè)檢驗(yàn),在應(yīng)用中也可能得到錯(cuò)誤的結(jié)論。在配對設(shè)計(jì)研究中,可能會出現(xiàn)經(jīng)McNemar檢驗(yàn)后陽性率相同,但實(shí)際是檢查結(jié)果完全相反的情況[6],同時(shí)也可能遇到陽性率有統(tǒng)計(jì)學(xué)差異,實(shí)際并無差異的研究[7]。所以,對陽性率或檢查結(jié)果下結(jié)論時(shí),還需考慮應(yīng)用條件及實(shí)際意義。本文主要通過案例清晰地解釋該檢驗(yàn)的缺陷,并列舉出目前的改良方法和推薦應(yīng)用場景。從而使臨床研究者對于配對研究可以更準(zhǔn)確地進(jìn)行評價(jià)。
McNemar檢驗(yàn)是在1947年提出的用于四格表配對設(shè)計(jì)資料的檢驗(yàn)[8]。在應(yīng)用McNemar檢驗(yàn)前,需先根據(jù)資料,整理成四格表,形式如表1。
表1 配對設(shè)計(jì)的四格表
當(dāng)b+c≥40時(shí),
(1)
當(dāng)b+c<40時(shí),校正公式為:
(2)
從表1及公式(1)、(2)可看出,該檢驗(yàn)只反映在b和c提供的信息上,與a和d無關(guān),與總樣本數(shù)n也無關(guān)。即該檢驗(yàn)僅僅只考慮了檢測結(jié)果不一致的對子數(shù),并未充分利用全部信息,因此有些情況就不能如實(shí)反映。在應(yīng)用中,可能就會遇到以下問題:
表2 兩種檢測方法檢測結(jié)果情況(n=100)
表3 兩種檢測方法檢測結(jié)果情況(n=10000)
表4 兩種檢測方法檢測結(jié)果情況(檢測結(jié)果相似)
表5 兩種檢測方法檢測結(jié)果情況(檢測結(jié)果相反)
上述問題也已經(jīng)引起了國內(nèi)外諸多學(xué)者的關(guān)注,并且提出了一些相應(yīng)的解決方法。比如早在1995年,國內(nèi)學(xué)者Lu[10]提出的McNemar檢驗(yàn)的合理修正公式:
(1)陸修正公式
(3)
或者
(4)
該公式是在原公式的分母上增加了修正項(xiàng),把總樣本量以及一致部分(a和d)的數(shù)據(jù)信息納入進(jìn)去。通過計(jì)算可發(fā)現(xiàn)其結(jié)果比原檢驗(yàn)的結(jié)果小,且隨著樣本量的增加,結(jié)果越來越小。陸運(yùn)清[12]在文中也抽取幾篇研究,將他們的數(shù)據(jù)用修正公式重新檢驗(yàn),所得χ2值與原文相比均有不同程度的減小,也即說明修正后的檢驗(yàn)糾正了因僅考慮不一致部分而放大差異性的問題。
(2)W檢驗(yàn)
王敏于2016年根據(jù)新方法證明McNemar檢驗(yàn),得到新的改進(jìn)公式[13],即W檢驗(yàn),公式如下:
(5)
運(yùn)用修正公式對本文表2、表3中不同樣本量及b和c所占比重不同的案例進(jìn)行檢驗(yàn),所得結(jié)果見表6。
表6 不同修正公式的檢驗(yàn)結(jié)果
由以上結(jié)果可知,當(dāng)b和c不變,樣本量n增大時(shí),運(yùn)用陸公式得到的結(jié)果雖然會減少,但是b和c對結(jié)果依然有較大的影響。在b和c一定的情況下,W檢驗(yàn)的卡方值隨著a和d的增大而減小,對于表3案例,運(yùn)用W檢驗(yàn),所得P=0.841>0.05,即兩種檢驗(yàn)方法之間沒有差異,這個(gè)結(jié)果更具有合理性。所以,對于b和c比重較低,且有較大樣本量的研究時(shí),可選擇采用W檢驗(yàn)判斷兩種方法是否有差異。但對于樣本量不大的研究,需謹(jǐn)慎選擇修正公式。如研究評價(jià)兩種方法對副溶血性弧菌的識別能力[14],根據(jù)三個(gè)公式可得卡方值結(jié)果見表7。
表7 文獻(xiàn)中三種修正公式的檢驗(yàn)結(jié)果
除上述改良方法之外,羅明奎[15]提出的改進(jìn)方法,在四格表中a、b、c、d數(shù)據(jù)相差不大時(shí),與McNemar檢驗(yàn)的結(jié)論一致,但當(dāng)b、c相對于a、d較大時(shí),選用改進(jìn)方法更符合實(shí)際情況。在2004年,Agresti[16]比較了McNemar檢驗(yàn)和研究者們推導(dǎo)出的其他用于檢驗(yàn)四格表統(tǒng)計(jì)方法的差異。wu[17]在2019年發(fā)表的文章中也對McNemar做了穩(wěn)健性調(diào)整,提出的修正McNemar檢驗(yàn)可以適用于樣本量較小的研究。
(1)靈敏度和特異度比較
在實(shí)際應(yīng)用中,McNemar檢驗(yàn)除可比較陽性率差異外,通常也可用于比較兩種檢測方法的靈敏度和特異度的差異。如梁暢等[18]在探討兩種方法對乳腺“結(jié)構(gòu)扭曲”樣病變的診斷效能時(shí),采用的即為McNemar 檢驗(yàn)比較兩種方法的靈敏度和特異度。但在做差異性比較之前,需先將樣本根據(jù)金標(biāo)準(zhǔn),分出患病組和非患病組,在患病組中檢驗(yàn)靈敏度是否一致,在非患病組中檢驗(yàn)特異度是否一致[6,19]。具體原理為:如表8數(shù)據(jù)顯示的是應(yīng)用金標(biāo)準(zhǔn)檢測出的患病人群中和未患病人群中的結(jié)果。其中a為有病患者中兩種檢測方法均為陽性的患者數(shù),d為有病患者中兩種檢測方法均為陰性的患者數(shù),c為有病患者中檢測方法1陽性,檢測方法2陰性的患者數(shù),d則為有病患者中檢測方法1陰性,檢測方法2陽性的患者數(shù);未患病人群中單元格為a0、b0、c0、d0,邊際總數(shù)為m0i、n0i(i=1,2),總數(shù)為n01。
表8 患病和未患病情況下兩種檢測方法的結(jié)果
(2)樣本量估計(jì)
由表3可看出,當(dāng)n很大且b和c相對較小時(shí),即使檢驗(yàn)有統(tǒng)計(jì)學(xué)意義,其實(shí)際意義往往也不大[23],因此應(yīng)用該檢驗(yàn)時(shí)需要有合適的樣本量。在做配對的醫(yī)學(xué)研究時(shí),常需根據(jù)以下指標(biāo)估算樣本量[2,24]:確定檢驗(yàn)水準(zhǔn)α以及單雙側(cè)檢驗(yàn);期望的檢驗(yàn)效能;由樣本推斷總體的信息以及預(yù)估的脫落率等。此外對于試驗(yàn)采用什么比較類型(如優(yōu)效性試驗(yàn)、等效性試驗(yàn)或非劣效性試驗(yàn)),也是估計(jì)樣本量的重要條件[25]。如比較兩個(gè)方法的靈敏度是否相同時(shí),可以使用公式(6)和(7)來確定所需的樣本量[26],其公式如下:
(6)
(7)
其中η=(1-Se1)×Se2+(1-Se2)×Se1,δ=(1-Se1)×Se2-(1-Se2)×Se1,n1表示在n個(gè)總體中有n1個(gè)患病總體,p是樣本中推測的疾病患病率,Se1、Se2是兩個(gè)檢驗(yàn)的靈敏度,Zα為正態(tài)分布累積概率等于α?xí)r的Z值,Zβ為正態(tài)分布累積概率等于β時(shí)的Z值。給出檢驗(yàn)水準(zhǔn)α,以及檢驗(yàn)功效1-β,根據(jù)文獻(xiàn)或者預(yù)實(shí)驗(yàn)確定Se1,Se2和p值,即可計(jì)算研究所需的樣本量。比如,某傳統(tǒng)的診斷試劑靈敏度為70%,現(xiàn)有一種新的有望提高靈敏度的方法,設(shè)計(jì)一項(xiàng)配對研究比較兩種方法的靈敏度差異。已知該疾病在目標(biāo)人群中的患病率為30%,期望新方法的靈敏度為90%,α為0.05,1-β為80%,帶入公式計(jì)算出n約為160,假設(shè)預(yù)估的脫落率為10%,則得出此研究的樣本量為178人。也可利用其他方法計(jì)算樣本量,如黃[27]在評價(jià)SARS-CoV-2抗體檢測試劑盒時(shí),即根據(jù)靈敏度計(jì)算病例組所需的樣本量、根據(jù)特異度計(jì)算對照組的樣本量。
McNemar檢驗(yàn)不僅可用于配對設(shè)計(jì)資料的比較,也有研究顯示,McNemar檢驗(yàn)在行為生態(tài)學(xué)研究和其他領(lǐng)域也是可行的[28]。另外對于配對計(jì)數(shù)資料,McNemar檢驗(yàn)并不是唯一的選擇,還可用Pearson卡方檢驗(yàn)做關(guān)聯(lián)性分析[3]。也可采用Kappa一致性檢驗(yàn)評價(jià)某種檢測方法與金標(biāo)準(zhǔn)的一致性或評價(jià)兩種方法結(jié)果是否一致[29],該檢驗(yàn)與McNemar檢驗(yàn)的主要區(qū)別是前者重點(diǎn)在于檢驗(yàn)兩種方法之間的一致性,而后者重在檢驗(yàn)兩者間的差異性。對于同一個(gè)樣本數(shù)據(jù),這兩種檢驗(yàn)可能得到相互矛盾的結(jié)論。比如一項(xiàng)基于體重識別有低血糖風(fēng)險(xiǎn)的嬰兒與使用生長百分位曲線識別是否一致的研究顯示[30],兩種方法做一致性檢驗(yàn),顯示中等一致,但做McNemar檢驗(yàn)評估其差異性時(shí),又顯示差異有統(tǒng)計(jì)學(xué)意義。因此,在應(yīng)用中需根據(jù)研究目的選擇合適的評價(jià)方法。如對診斷試驗(yàn)資料進(jìn)行分析時(shí)可以分為三個(gè)層面:(1)計(jì)算多個(gè)診斷性指標(biāo)(如敏感性、特異度等)進(jìn)行描述性統(tǒng)計(jì);(2)采用Kappa檢驗(yàn)考察試驗(yàn)方法檢測結(jié)果與金標(biāo)準(zhǔn)的一致性;(3)采用McNemar檢驗(yàn)考察試驗(yàn)方法測定的結(jié)果與金標(biāo)準(zhǔn)測定的結(jié)果不一致部分之間的差別是否具有統(tǒng)計(jì)學(xué)意義[31]。
綜上,在應(yīng)用該檢驗(yàn)之前,需考慮樣本的適用性,McNemar檢驗(yàn)未考慮總樣本量的大小,樣本量過大,可能出現(xiàn)檢驗(yàn)結(jié)果與實(shí)際結(jié)果不符的情況,所以該檢驗(yàn)適用于樣本量不太的資料。對于樣本量大的研究,可以選擇W檢驗(yàn)的修正公式。也需考慮統(tǒng)計(jì)推論的合理性,公式中只考慮兩種方法不一致的信息,未利用全部信息,因此,為防止出現(xiàn)陽性概率相同但檢查結(jié)果相反的情況,可僅僅只對陽性率做統(tǒng)計(jì)推論。也可根據(jù)該檢驗(yàn)是檢驗(yàn)邊際概率是否相等的特征,在患病人群、非患病人群中分別比較靈敏度和特異度的差異。