齊齊哈爾醫(yī)學(xué)院公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計(jì)學(xué)教研室(161006)
葛 杰 賈月輝 韓云峰 謝志平 王 琪 鄭 毅 李繼媛 楊曉蕾△
【提 要】 目的 探討貝葉斯錯(cuò)誤發(fā)現(xiàn)率(bayesian false-discovery probability,BFDP)在分子流行病學(xué)研究中的應(yīng)用。方法 從理論和實(shí)際應(yīng)用的角度說明BFDP的優(yōu)勢(shì)及不足,采用R闡述BFDP的計(jì)算方法。結(jié)果 BFDP同時(shí)考慮了單核苷酸多態(tài)性的最小等位基因頻率及其與疾病的關(guān)聯(lián)強(qiáng)度,其相對(duì)于假陽(yáng)性報(bào)告率(false positive report probability,F(xiàn)PRP)而言具有計(jì)算簡(jiǎn)單、應(yīng)用信息全面、方法學(xué)合理等優(yōu)勢(shì)。結(jié)論 BFDP可以應(yīng)用于SNP的篩選,但結(jié)果與真實(shí)情況可能存在一定的偏差,尚需進(jìn)一步進(jìn)行功能驗(yàn)證以揭示SNP與疾病關(guān)聯(lián)的真實(shí)性。
隨著高通量測(cè)序技術(shù)的發(fā)展,分子流行病學(xué)研究中涌現(xiàn)了大量的基因組數(shù)據(jù),因此一些復(fù)雜疾病的關(guān)聯(lián)性分析中需要進(jìn)行假設(shè)檢驗(yàn)的次數(shù)隨之增加。顯然這樣的多重比較會(huì)從統(tǒng)計(jì)學(xué)角度增大假陽(yáng)性錯(cuò)誤的發(fā)生概率。為了盡量控制這種假陽(yáng)性錯(cuò)誤又不至于損失數(shù)據(jù)信息而漏掉一些有意義的結(jié)果,目前常用錯(cuò)誤發(fā)現(xiàn)率(false discovery rate,F(xiàn)DR)、假陽(yáng)性報(bào)告率(false positive report probability,F(xiàn)PRP),或采用Bonferroni校正以減少假陽(yáng)性錯(cuò)誤的發(fā)生[1-3]。但有學(xué)者提出這些方法在對(duì)全基因組關(guān)聯(lián)(GWAS)數(shù)據(jù)進(jìn)行分析時(shí)存在一定的弊端,而貝葉斯錯(cuò)誤發(fā)現(xiàn)率(bayesian false-discovery probability,BFDP)則考慮了數(shù)據(jù)間的關(guān)聯(lián)性,且相對(duì)于FPRP而言具有計(jì)算簡(jiǎn)單、應(yīng)用信息全面、方法學(xué)合理等優(yōu)勢(shì),在分子流行病學(xué)研究中日益得到學(xué)者的重視和應(yīng)用[4-5]。
在研究遺傳變異與疾病的關(guān)聯(lián)研究中,頻率論者一般認(rèn)為無效假設(shè)H0是非隨機(jī)的,因此在計(jì)算H0的概率時(shí)需采用貝葉斯理論及方法。BFDP是一種基于貝葉斯模型的方法,其概率值的大小與先驗(yàn)概率π0的選擇密切相關(guān)[6]。同時(shí)BFDP也反映了這樣一個(gè)事實(shí):如果我們報(bào)告研究的關(guān)聯(lián)有意義,那么BFDP代表的是無效的概率,也就是說代表的是假陽(yáng)性的概率。BFDP的計(jì)算式為:
現(xiàn)以logistic 回歸模型為例說明R軟件中計(jì)算BFDP的步驟:
(1)預(yù)先設(shè)定有真陽(yáng)性關(guān)聯(lián)的SNP的BFDP臨界值,記為BFDPt,小于該值的SNP確定為非假陽(yáng)性。BFDPt=R/(1+R),其中,R表示發(fā)生假陰性錯(cuò)誤與發(fā)生假陽(yáng)性錯(cuò)誤的比值。例如R=4,則BFDPt=T=0.8,即以0.8作為截?cái)嘀蹬卸逞芯拷Y(jié)果是否為假陽(yáng)性結(jié)果,< 0.8為真陽(yáng)性。
(2)設(shè)定有關(guān)聯(lián)的先驗(yàn)概率值π0,注意不能選擇與其他混雜因素共同作用的先驗(yàn)值,如0.7,0.6,0.5,0.01,0.001,0.00001等。值得注意的是,Wakefield等人給出的BFDP定義中的π0為無效假設(shè)成立時(shí)的先驗(yàn)概率值,而在R中使用的是備擇假設(shè)成立的情況下的先驗(yàn)概率值,因此其P0=(1-π0)/π0,與原有的公式互為倒數(shù)。
(3)給定OR值,一般為先驗(yàn)概率第97.5%的OR值。例如,如果OR取1.5,那么我們認(rèn)為OR值比1.5大的先驗(yàn)概率為2.5%。
(4)首先根據(jù)每個(gè)SNP的ORi值及其95%可信區(qū)間計(jì)算斜率θi=log(ORi),標(biāo)準(zhǔn)誤se(logORi)=(log(ORi_U)-log(ORi))/1.96;令ORhi=1.5,則W=[log(ORhi)/1.96]2;r=W/[W+se(logORi)2];Zi=logORi/se(logORi);再由前述公式分別求出ABF,P0和BFDP。
(5)軟件選擇:BFDP的計(jì)算除了可以應(yīng)用R或Rstudio中的gap包[7],還可以采用SAS編寫程序或Excel公式進(jìn)行計(jì)算。
以一項(xiàng)乳腺癌的meta分析數(shù)據(jù)為例,該數(shù)據(jù)來源于DRIVE(Discovery,Biology,and Risk of Inherited Variants in Breast Cancer)(phs001265.v1.p1)[8],共納入28758乳腺癌患者和24349例對(duì)照的14項(xiàng)病例對(duì)照研究,這項(xiàng)基于通路的關(guān)聯(lián)研究中共分析了197個(gè)SNP與乳腺癌的關(guān)聯(lián)性,我們認(rèn)為會(huì)有2~3個(gè)SNPs與癌癥發(fā)病有關(guān)。假定W=[log(1.5)/1.96]2,π0=0.9。
表1 依據(jù)BFDP標(biāo)準(zhǔn)納入的前8個(gè)與疾病相關(guān)的SNP
BFDP是目前值得關(guān)注的一種判斷結(jié)果是否具有關(guān)聯(lián)性的新方法,它既保持了FPRP的優(yōu)勢(shì),也細(xì)化了FPRP的標(biāo)準(zhǔn)。具體地說,我們推薦使用BFDP是因?yàn)樗梢詼p少那些在隨后的研究中難以驗(yàn)證的“陽(yáng)性發(fā)現(xiàn)”的數(shù)量,而且可以選擇一個(gè)明確考慮假陽(yáng)性錯(cuò)誤和假陰性錯(cuò)誤成本的BFDP閾值。
BFDP具有計(jì)算簡(jiǎn)單的優(yōu)點(diǎn),可以應(yīng)用參數(shù)估計(jì)值及其標(biāo)準(zhǔn)誤,也可應(yīng)用95%可信區(qū)間計(jì)算。R或Rstudio軟件中的gap包可以實(shí)現(xiàn)BFDP值的計(jì)算,也可應(yīng)用更為簡(jiǎn)單應(yīng)用的Excel表單進(jìn)行計(jì)算。此外,BFDP除了可以用于SNP的關(guān)聯(lián)分析,還可以用于堿基的插入/刪失或拷貝數(shù)改變的篩選。
目前多階段的全基因組關(guān)聯(lián)分析研究越來越普遍,常用的方法是按照P值進(jìn)行排序,然后選擇一組P值最小的SNP進(jìn)行下一階段的研究。而我們更推薦使用BFDP排序進(jìn)行這樣的選擇,它將提供不同的排列順序,因?yàn)镾NP之間的效能是不同的,它同時(shí)依賴于SNP的最小等位基因頻率和關(guān)聯(lián)強(qiáng)度,而P值不能解釋這一點(diǎn)[6,9]。因此,當(dāng)考慮成本比率以確定BFDP的截?cái)嘀禃r(shí),這些比值在不同階段可以有不同的選擇。一般而言,在第一階段,我們的目標(biāo)是盡量不漏掉可能有關(guān)聯(lián)的SNP,而在第二階段及以后的階段上,將會(huì)應(yīng)用更加嚴(yán)格的截?cái)嘀怠?/p>
值得注意的是,BFDP的實(shí)際應(yīng)用中要求數(shù)據(jù)中的SNP是相互獨(dú)立的,忽視這種獨(dú)立性將降低估計(jì)的效率。一種解決的辦法是建立特定的層次模型,但這樣會(huì)減弱BFDP計(jì)算簡(jiǎn)單這一優(yōu)勢(shì)[10]。此外,BFDP的實(shí)施與π0和R的取值密切相關(guān),一般地,π0的大小會(huì)對(duì)有意義關(guān)聯(lián)的SNP數(shù)量產(chǎn)生較大的影響,而R值影響假陽(yáng)性數(shù)和假陰性數(shù)的預(yù)期數(shù)量。R的取值在候選基因關(guān)聯(lián)研究中可以比全基因組關(guān)聯(lián)研究低,原因在于:全基因組關(guān)聯(lián)研究中研究者往往期望得到更多的候選基因以進(jìn)一步研究,而候選基因關(guān)聯(lián)研究中對(duì)這些候選基因的深入研究所需費(fèi)用較高。
與目前應(yīng)用較多的FPRP相比較,BFDP在對(duì)SNP進(jìn)行排序的結(jié)果上基本與FPRP一致,但因?yàn)镕PRP調(diào)整了尾部面積而得到較小的后驗(yàn)無效估計(jì)值,而BFDP依靠點(diǎn)估計(jì)計(jì)算,故通常BFDP得到的陽(yáng)性結(jié)果比FPRP更有意義[11]。Wakefield運(yùn)用模擬實(shí)驗(yàn)也證實(shí)了這一點(diǎn)[6]。此外,BFDP與全基因組關(guān)聯(lián)分析中常用的P值相比,其排序也不盡相同,正如本文結(jié)果部分表1所示,較小的P值未必得到較小的BFDP,原因在于BFDP的計(jì)算同時(shí)考慮了SNP的等位基因頻率和其與疾病關(guān)聯(lián)的大小。
盡管目前BFDP已被一些學(xué)者應(yīng)用于SNP的篩選,但由于其方法學(xué)的限制,研究結(jié)果與真實(shí)情況可能存在一定的偏差[9]。因此對(duì)應(yīng)用BFDP篩選得到的有意義的SNP尚需進(jìn)一步進(jìn)行功能驗(yàn)證以揭示其與疾病關(guān)聯(lián)的真實(shí)性。
中國(guó)衛(wèi)生統(tǒng)計(jì)2021年1期