區(qū)倩華 阮光峰 丁長(zhǎng)海,3
1 中山市人民醫(yī)院重癥醫(yī)學(xué)科(中山 528403) 2 廣州市第一人民醫(yī)院臨床研究中心(廣州 510180) 3 南方醫(yī)科大學(xué)珠江醫(yī)院臨床研究中心(廣州 510280)
臨床研究中若具有多個(gè)研究終點(diǎn)、需要比較不同治療組間的差異、不同亞組間的差異分析以及對(duì)同一結(jié)果在不同時(shí)間的多次分析等,都需要進(jìn)行多重檢驗(yàn),然而多次的假設(shè)檢驗(yàn)會(huì)增加犯Ⅰ類錯(cuò)誤的風(fēng)險(xiǎn),從而導(dǎo)致試驗(yàn)結(jié)果的不準(zhǔn)確性[1]。只有部分文章在多重檢驗(yàn)中進(jìn)行校正以減少Ⅰ類錯(cuò)誤發(fā)生的概率,且很少說明進(jìn)行校正的理由[2]。一項(xiàng)研究評(píng)估了2012年1月—2012年12月之間發(fā)表在4種主要醫(yī)學(xué)期刊(BritishMedicalJournal、Lancet、NewEnglandJournalofMedicine和PLoSMedicine)上的多臂試驗(yàn),發(fā)現(xiàn)只有一半(49%)的多臂驗(yàn)證性試驗(yàn)進(jìn)行了多重性校正[3]。多重檢驗(yàn)是較復(fù)雜的統(tǒng)計(jì)學(xué)問題,本文嘗試簡(jiǎn)單地解釋多重性校正的原理、條件及方法,幫助研究者更好地理解此問題。
單個(gè)假設(shè)檢驗(yàn)是多重檢驗(yàn)的出發(fā)點(diǎn),因此先對(duì)單個(gè)假設(shè)檢驗(yàn)進(jìn)行回顧。在進(jìn)行檢驗(yàn)時(shí),我們會(huì)先確定好顯著性水平α(通常取0.05),這是在此次檢驗(yàn)中會(huì)得到假陽(yáng)性結(jié)果的風(fēng)險(xiǎn),即Ⅰ類錯(cuò)誤的發(fā)生概率。換句話來說,研究者會(huì)控制單次檢驗(yàn)中可能出現(xiàn)假陽(yáng)性結(jié)果的概率在5%。
與單個(gè)假設(shè)檢驗(yàn)類似,若同時(shí)檢驗(yàn)多個(gè)假設(shè)時(shí),控制好Ⅰ類錯(cuò)誤的概率也是主要任務(wù)。舉個(gè)例子,研究中有k個(gè)假設(shè),每個(gè)假設(shè)都是相互獨(dú)立的,顯著性水平都是α,那就意味著如果進(jìn)行k次假設(shè)檢驗(yàn),那么不犯Ⅰ類錯(cuò)誤的概率是(1-α)k,則至少犯一次Ⅰ類錯(cuò)誤的概率是1-(1-α)k。而且當(dāng)k不斷增加時(shí),(1-α)k趨向于0,1-(1-α)k趨向于1,見圖1,多重檢驗(yàn)大大增加了Ⅰ類錯(cuò)誤的發(fā)生概率[4]。
圖1 多重檢驗(yàn)中Ⅰ類錯(cuò)誤增加趨勢(shì)
圖1:當(dāng)α=0.05時(shí),y=(1-0.05)k,z=1-(1-0.05)k。隨著k的增加,y和z發(fā)生變化。
在多重性檢驗(yàn)的問題上,我們可以將多個(gè)單一的假設(shè)檢驗(yàn)看成一個(gè)整體,然后對(duì)這個(gè)整體的每個(gè)假設(shè)同時(shí)檢驗(yàn)的結(jié)果進(jìn)行分類總結(jié),就可以定義度量整體錯(cuò)誤標(biāo)準(zhǔn),從而提出多重校正來控制Ⅰ類錯(cuò)誤的發(fā)生概率。如果同時(shí)檢驗(yàn)m個(gè)假設(shè)Hi,i=1,2……,m,得到的檢驗(yàn)結(jié)果見表1。
表1 多重檢驗(yàn)整體錯(cuò)誤數(shù)
其中V、S、U、T都是隨機(jī)變量,V和T分別表示犯第Ⅰ類錯(cuò)誤和第Ⅱ類錯(cuò)誤的個(gè)數(shù);R是m個(gè)檢驗(yàn)中拒絕原假設(shè)的總個(gè)數(shù),m0和m1分別是實(shí)際上原假設(shè)為真和原假設(shè)為假的個(gè)數(shù)。
定義多重檢驗(yàn)中錯(cuò)誤率有以下四種:
(1)PFER(per-family error rate):亦稱平均總體錯(cuò)誤率,定義為E(V),表示的是多重檢驗(yàn)中錯(cuò)誤拒絕(犯Ⅰ類錯(cuò)誤)的個(gè)數(shù)的期望值,但是忽略了檢驗(yàn)的總個(gè)數(shù)m的存在,反應(yīng)不出兩個(gè)不同檢驗(yàn)整體的差異。
(2)PCER(per-comparison error rate):亦稱平均比較錯(cuò)誤率,定義為E(V)/m,這是在PFER的基礎(chǔ)上得出的,表示的是多重檢驗(yàn)中錯(cuò)誤拒絕(犯Ⅰ類錯(cuò)誤)的個(gè)數(shù)在m各檢驗(yàn)中所占的比例。
(3)FWER(family-wise error rate):亦稱總體錯(cuò)誤率,定義為Pr(V≥1),這是一個(gè)概率值,表示多重檢驗(yàn)中至少犯一次Ⅰ類錯(cuò)誤的概率,也可用上文提到的1-(1-α)k表示。
(4)FDR(false discovery rate):亦稱錯(cuò)誤發(fā)現(xiàn)率,定義為E{V/(V+S)}=E(V/R),表示的是多重檢驗(yàn)中錯(cuò)誤拒絕原假設(shè)(拒絕真的原假設(shè),即犯Ⅰ類錯(cuò)誤)的個(gè)數(shù)占所有被拒絕的原假設(shè)個(gè)數(shù)的比例的期望值,我們用Q表示V/(V+S),那么FDR亦可表示為E(Q)。此外,應(yīng)當(dāng)注意以下兩種情況:①當(dāng)所有的原假設(shè)為真時(shí),即m=m0和S=0,根據(jù)Q=V/R的公式可得,當(dāng)V=R=0時(shí),Q=0;當(dāng)V≥1時(shí),Q=1,則此時(shí)Pr(V≥1)=E(Q),即FWER=FDR,此時(shí)FWER與FDR在衡量多重檢驗(yàn)中錯(cuò)誤率是等價(jià)的;②m0
目前PFER和PCER在多重檢驗(yàn)中并不多用,而常用基于FWER和FDR的控制方法進(jìn)行多重校正。
隨機(jī)對(duì)照試驗(yàn)中通常會(huì)設(shè)置多個(gè)試驗(yàn)組與對(duì)照組進(jìn)行比較,意味著要在多組試驗(yàn)組之間要進(jìn)行多次比較,同時(shí)也要考慮不同干預(yù)之間的交互作用。最簡(jiǎn)單的例子便是進(jìn)行多個(gè)總體均數(shù)間的比較,使用完全隨機(jī)設(shè)計(jì)資料的方差分析(one-way ANOVA),在進(jìn)一步兩兩比較的時(shí)候?yàn)榱吮苊釯類錯(cuò)誤的增加,應(yīng)考慮多重校正。
臨床試驗(yàn)中除了對(duì)不同干預(yù)手段進(jìn)行分組外,還可以根據(jù)性別、年齡、是否存在合并癥或疾病嚴(yán)重程度進(jìn)行分組,以確定總體試驗(yàn)結(jié)果是否適用于所有符合條件的患者,或者不同亞組間的干預(yù)效果是否存在差異。如2009年發(fā)表在NewEnglandJournalofMedicine上的一篇關(guān)于替卡格雷和氯吡格雷在急性冠脈綜合征(acute coronary syndrome, ACS)患者中療效的Ⅲ期臨床試驗(yàn),結(jié)果表明使用替卡格雷的人群中主要終點(diǎn)事件發(fā)生率降低了16%,而亞組分析表明服用高劑量的阿司匹林(≥300 mg)的ACS患者使用替卡格雷療效不佳[6]。亞組分析會(huì)進(jìn)行多次的假設(shè)檢驗(yàn),因此需要考慮多重校正。
在不同時(shí)間重復(fù)檢驗(yàn)相同結(jié)果也會(huì)增加犯Ⅰ類錯(cuò)誤的風(fēng)險(xiǎn)。臨床研究中,通常在不同治療組中對(duì)受試人群按照一定的時(shí)間間隔進(jìn)行重復(fù)測(cè)量,目的是觀察不同治療方式隨時(shí)間變化的趨勢(shì)[7]。對(duì)于不同治療組,研究者反復(fù)測(cè)量血壓、藥物清除率、抑郁或疼痛評(píng)分等結(jié)局時(shí),注意多重檢驗(yàn)造成Ⅰ類錯(cuò)誤的增加。一項(xiàng)在意大利進(jìn)行2年時(shí)間的隨機(jī)臨床試驗(yàn)中涉及了多個(gè)時(shí)間點(diǎn)的測(cè)量,該研究是比較高位或低位結(jié)扎腸系膜下動(dòng)脈對(duì)于直腸癌患者術(shù)后肛門功能和性功能的影響,比較的時(shí)間點(diǎn)分別是術(shù)前、術(shù)后1個(gè)月和術(shù)后9個(gè)月。研究涉及多個(gè)時(shí)間點(diǎn)的重復(fù)測(cè)量,但是作者并未對(duì)該結(jié)果進(jìn)行多重檢驗(yàn)。
臨床試驗(yàn)通常是通過評(píng)估多種結(jié)果(或“研究終點(diǎn)”)來判斷試驗(yàn)的效果。心血管研究中,感興趣的結(jié)果可能包括住院、中風(fēng)、心力衰竭、心肌梗塞、心臟驟停、殘疾和死亡。如果我們以5%的顯著性水平分別檢驗(yàn)每個(gè)結(jié)果,那么FWER會(huì)高于5%,此時(shí)應(yīng)調(diào)整分析方案。同樣,在比較不同結(jié)扎方式對(duì)于直腸癌患者術(shù)后肛門功能和性功能影響的研究中,需要進(jìn)行多重檢驗(yàn)的情況也包括多個(gè)研究終點(diǎn)(尿流量的測(cè)量、排尿后的膀胱殘余尿量、男性前列腺功能評(píng)價(jià)等),作者也未對(duì)該結(jié)果進(jìn)行多重檢驗(yàn)。
在臨床研究中通常需要進(jìn)行長(zhǎng)期監(jiān)測(cè),即在不同的時(shí)間對(duì)同一結(jié)果進(jìn)行多次分析,目的是為了確定是否提前終止試驗(yàn),出現(xiàn)的原因可能是新的治療方法與對(duì)照組之間存在顯著差異或造成嚴(yán)重的不良事件。進(jìn)行多次分析需要對(duì)各階段積累的數(shù)據(jù)進(jìn)行反復(fù)比較,從而增加了犯Ⅰ類錯(cuò)誤的風(fēng)險(xiǎn)。這種情況類似與相同結(jié)果的重復(fù)測(cè)量。
驗(yàn)證性試驗(yàn)(如隨機(jī)對(duì)照試驗(yàn))是檢驗(yàn)預(yù)先確定的關(guān)鍵假設(shè),需要確定合適的樣本量進(jìn)行數(shù)據(jù)收集和分析,必要時(shí)需進(jìn)行多重校正,為研究提供有效可信的證據(jù)。而探索性試驗(yàn)(如觀察性研究、Ⅰ期或Ⅱ期臨床試驗(yàn)早期)是進(jìn)行新干預(yù)措施之前的早期試驗(yàn),可以說是發(fā)現(xiàn)假設(shè)的一個(gè)過程,探索性試驗(yàn)的結(jié)果后期需要進(jìn)行驗(yàn)證性試驗(yàn)進(jìn)一步檢驗(yàn),因此可不要求進(jìn)行多重性校正。
下面講述的例子是一項(xiàng)北美的3期隨機(jī)臨對(duì)照床試驗(yàn)(2016年1月11日—2017年3月22日),該項(xiàng)試驗(yàn)主要研究加那珠單抗(Galcanezumab)相比于安慰劑在治療偏頭痛上是否更有效。該研究設(shè)計(jì)了兩個(gè)劑量的加那珠單抗(120 mg和240 mg)和安慰劑組作比較,多個(gè)研究終點(diǎn)包括每月偏頭痛的天數(shù)、每月需要使用解熱鎮(zhèn)痛劑來緩解偏頭痛的天數(shù)、偏頭痛特異性生活質(zhì)量問卷評(píng)分、偏頭痛殘疾評(píng)估評(píng)分。多個(gè)治療組和多個(gè)研究終點(diǎn)的分析均需要進(jìn)行多重性校正。多重性校正后,與安慰劑相比,兩種劑量的加那珠單抗均能顯著減少每月偏頭痛的天數(shù)和改善患者的生活質(zhì)量,而兩種劑量間的療效并沒有顯著差異。
多重校正有很多種方法,較基本的方法是用于控制FWER和FDR的Bonferroni和Benjamini-Hochberg(BH)校正。
Bonferroni法是最簡(jiǎn)單、最經(jīng)典的。為了使FWER達(dá)到0.05,那么每次多重檢驗(yàn)中顯著性水平都必須低于0.05,即1-(1-α)k中的α低于0.05。而Bonferroni校正就是通過調(diào)整顯著性水平來控制多重檢驗(yàn)中犯I類錯(cuò)誤的概率,公式為α′=α/k。在此方法中,每次檢驗(yàn)的顯著性水平都是α/k,其中k是檢驗(yàn)次數(shù),α指的是原先的顯著性水平,這樣可以保證這一組假設(shè)總體犯Ⅰ類錯(cuò)誤的風(fēng)險(xiǎn)在α之內(nèi)。然而,Bonferroni校正總是以犧牲檢驗(yàn)效能(1-β)來保證FWER,此時(shí)若要維持Ⅱ類錯(cuò)誤在合理的水平,就需要增加樣本量[8]。
BH法過程較復(fù)雜,步驟如下:(1)將原始m個(gè)P值升序排序,排序后表示為P1、P2……Pm;(2)(i / m)×q計(jì)算每個(gè)P值的BH臨界值,其中i是P值等級(jí),m是檢驗(yàn)次數(shù),q是FDR(自由取值,通?!?.05);(3)排序后的P值與BH值進(jìn)行比較,找到小于或等于臨界值的最大原始P值,此時(shí)對(duì)應(yīng)排序等級(jí)為J,記為PJ,則PJ≤(J/m)×q。(4)拒絕所有等級(jí)在PJ之前及PJ(即1≤i≤J)對(duì)應(yīng)的原假設(shè),接受這些原假設(shè)對(duì)應(yīng)的備擇假設(shè),即認(rèn)為差異具有統(tǒng)計(jì)學(xué)意義[5, 9]。
2016年在NewEnglandJournalofMedicine上發(fā)表的一項(xiàng)關(guān)于比較新型抗凝劑貝曲沙班和目前使用廣泛的依諾肝素在預(yù)防靜脈血栓發(fā)生風(fēng)險(xiǎn)的隨機(jī)對(duì)照臨床試驗(yàn)上運(yùn)用了BH法進(jìn)行多重校正。該研究中,研究者根據(jù)患者年齡和體內(nèi)D-二聚體的水平分成了2個(gè)亞組,即在3個(gè)組別中分別比較了兩種抗凝劑的療效,分別是D-二聚體水平升高的患者(組別1)、D-二聚體水平升高且年齡大于75歲的患者(組別2)、所有入組的患者(組別3)。在3個(gè)組別中對(duì)比貝曲沙班和依諾肝素的作用效果,得出的P值分別是0.054、0.03、0.006,按照P≤0.05來看,兩種抗凝劑的使用在組別2和組別3是有區(qū)別的。通過BH法進(jìn)行多重校正后,BH臨界值分別是0.05、0.03、0.017,則只有在組別3中兩種抗凝劑是有差異的。因此,在患有內(nèi)科急癥的住院患者中,貝曲沙班在降低靜脈血栓的發(fā)生率優(yōu)于使用依諾肝素的患者。為了確定該結(jié)果是否適用于所有患內(nèi)科急癥的住院患者,經(jīng)過多重校正的亞組分析表明,在D-二聚體水平升高或者合并年齡大于75歲的患者中,貝曲沙班的使用并沒有顯示出優(yōu)勢(shì)。
以下是關(guān)于BH法和Bonferroni法在多重校正中的區(qū)別。
表2 BH法、Bonferroni法校正后及未校正前的多重檢驗(yàn)(m=10,F(xiàn)DR=q=0.05,α=0.05)
實(shí)際上,BH法是對(duì)排序后的假設(shè)重新確定了新的顯著性水平(相當(dāng)于臨界值),隨著等級(jí)i的不斷增加,重新確定的顯著性水平(臨界值)也不斷增加。相對(duì)于Bonferroni法中顯著性水平一直是α/k來說,BH法拒接原假設(shè)的標(biāo)準(zhǔn)顯得不過于保守。這樣就能從統(tǒng)計(jì)學(xué)上保證FDR不超過α,從而保證多重檢驗(yàn)整體犯I類錯(cuò)誤的概率低于預(yù)先設(shè)定的顯著性水平α。
雖然兩種方法都是用于多重檢驗(yàn)中控制Ⅰ類錯(cuò)誤的發(fā)生,但兩者之間仍有區(qū)別。Bonferroni校正方法雖簡(jiǎn)單,但過于嚴(yán)格,靈敏度不高,難以比較出不同組別之間的差異;用于控制FDR的BH方法會(huì)基于每個(gè)P值進(jìn)行校正,顯得更加靈活,且提高了檢驗(yàn)效能。實(shí)際上,多重性問題會(huì)存在不同的復(fù)雜情況,如研究方案中多個(gè)治療組、多重性結(jié)果和多次中期分析并存等,那么多重性校正就更具有挑戰(zhàn)性,簡(jiǎn)單的Bonferroni和BH方法并不能解決問題,需要更復(fù)雜的統(tǒng)計(jì)方法[10]。
為了保持統(tǒng)計(jì)結(jié)果與結(jié)論的嚴(yán)謹(jǐn)性和一致性以避免誤導(dǎo)讀者,研究者應(yīng)該清楚地認(rèn)識(shí)多重性校正的重要性,并根據(jù)問題及時(shí)調(diào)整研究方案或分析策略,且應(yīng)在發(fā)表文章中給出明確的解釋。