鄧舒方,王昱泉,胡躍清
(復(fù)旦大學(xué) 生命科學(xué)學(xué)院 生物統(tǒng)計(jì)學(xué)與計(jì)算生物學(xué)系,上海 200433)
得益于高通量測(cè)序技術(shù)的快速發(fā)展,我們獲得了大量全基因組范圍內(nèi)的遺傳變異數(shù)據(jù),而如何有效地利用它們進(jìn)行基因與疾病的關(guān)聯(lián)分析是生物統(tǒng)計(jì)學(xué)的重要任務(wù).在早期的全基因組關(guān)聯(lián)分析(Genome-Wide Association Study, GWAS)研究中,人們一般以單個(gè)單核苷酸多態(tài)性(Single Nucleotide Polymorphism, SNP)為單位進(jìn)行疾病的關(guān)聯(lián)分析[1-2],而隨著研究的深入,人們發(fā)現(xiàn)復(fù)雜疾病的發(fā)生往往涉及多個(gè)位點(diǎn),其中一些位點(diǎn)的效應(yīng)可能較弱,此時(shí),單SNP分析可能會(huì)漏篩一些致病位點(diǎn)[3-7].為了提高檢驗(yàn)功效,需要對(duì)多個(gè)SNP進(jìn)行整合分析: 如果存在一個(gè)致病位點(diǎn),由于相鄰位點(diǎn)間存在連鎖不平衡,故相鄰位點(diǎn)也會(huì)與疾病關(guān)聯(lián),將這一段區(qū)域內(nèi)的位點(diǎn)進(jìn)行聯(lián)合分析能最大程度地提高檢驗(yàn)功效.基于這一思想,Wang等[8]提出了一種針對(duì)病例對(duì)照數(shù)據(jù)的多位點(diǎn)聯(lián)合關(guān)聯(lián)分析方法SLIDE(the test Statistic incorporating Linkage Disequilibrium),該方法能夠有效利用位點(diǎn)間的連鎖不平衡(Linkage Disequilibrium, LD)信息對(duì)統(tǒng)計(jì)量的方差協(xié)方差矩陣進(jìn)行計(jì)算,從而提高檢驗(yàn)功效.
然而,遺傳學(xué)研究數(shù)據(jù)中常常包含一些協(xié)變量信息,如年齡[9]、種族[10-11]等,這些協(xié)變量信息在進(jìn)行遺傳位點(diǎn)與性狀的關(guān)聯(lián)性檢測(cè)中有著重要作用,如果不對(duì)這些協(xié)變量信息進(jìn)行適當(dāng)處理,可能會(huì)帶來分析結(jié)果的偏差或是檢驗(yàn)功效的降低[12].當(dāng)協(xié)變量既與預(yù)測(cè)變量相關(guān)也與響應(yīng)變量相關(guān)時(shí),若在探究預(yù)測(cè)變量和響應(yīng)變量的關(guān)聯(lián)性過程中不考慮因此帶來的混淆影響,會(huì)增加分析結(jié)果的假陽性率[13].此外,調(diào)整協(xié)變量在某種程度上能夠通過降低統(tǒng)計(jì)量方差來增加預(yù)測(cè)模型的準(zhǔn)確度[14-15].因此,在遺傳關(guān)聯(lián)分析中,對(duì)協(xié)變量進(jìn)行調(diào)整是有意義的.
在多位點(diǎn)關(guān)聯(lián)分析中,傳統(tǒng)的調(diào)整協(xié)變量的方法主要有兩類: 第一類是將響應(yīng)變量對(duì)預(yù)測(cè)變量及協(xié)變量同時(shí)回歸[16],如SKAT[17]及SKAT-O[18]對(duì)應(yīng)的調(diào)整協(xié)變量方法;第二類是將響應(yīng)變量對(duì)協(xié)變量進(jìn)行回歸得到殘差,將殘差再與預(yù)測(cè)變量進(jìn)行關(guān)聯(lián)分析[19],如傳統(tǒng)的殘差回歸[20-21]以及SSU/aSPU[22]對(duì)應(yīng)的調(diào)整協(xié)變量方法.這兩類方法都依賴于假設(shè)的疾病產(chǎn)生模型,普適性不高.故我們基于SLIDE這一不依賴于模型的多位點(diǎn)非參關(guān)聯(lián)檢測(cè)方法,提出一種對(duì)基因型用傾向得分進(jìn)行逆概率加權(quán)[23-24]的調(diào)整協(xié)變量關(guān)聯(lián)分析方法SLIDEa.
為了檢驗(yàn)SLIDEa方法的表現(xiàn),我們計(jì)算了不同隨機(jī)模擬場(chǎng)景下該方法與文獻(xiàn)中現(xiàn)有方法的第一類錯(cuò)誤率以及檢驗(yàn)功效.模擬結(jié)果表明,它在基因與協(xié)變量交互作用存在或基因間效應(yīng)方向相反時(shí)均具有較好表現(xiàn).隨后我們將SLIDEa應(yīng)用至酗酒相關(guān)遺傳學(xué)合作研究數(shù)據(jù)集COGA中,找到了線粒體外膜脂代謝酶基因OPA3、催產(chǎn)素受體基因OXTR等數(shù)個(gè)與酒精成癮性相關(guān)的基因[25-27],這表明了SLIDEa方法的有效性并能為后續(xù)的生物學(xué)研究提供理論指引.
SKAT方法是Wu等[17]于2011年提出的一種關(guān)聯(lián)分析方法,它基于病例對(duì)照數(shù)據(jù)的如下模型
其中:G是預(yù)測(cè)變量;D是二分類響應(yīng)變量;Z是協(xié)變量.原假設(shè)下所有預(yù)測(cè)變量與響應(yīng)變量無關(guān)聯(lián),其統(tǒng)計(jì)量為
SKAT-O方法是Lee等[18]于2012年提出的,它其實(shí)是SKAT的統(tǒng)計(jì)量與Burden檢驗(yàn)統(tǒng)計(jì)量的加權(quán)和.
Qρ=(1-ρ)QSKAT+ρQBurden,
其中:ρ為合并方法Burden所占權(quán)重,0≤ρ≤1;Pρ為統(tǒng)計(jì)量Qρ的P值.在原假設(shè)下,Qoptimal服從混合卡方分布.考慮到協(xié)變量Z容易納入到回歸模型中,我們用adj_SKAT/adj_SKAT-O分別表示調(diào)整了協(xié)變量Z的方法.
aSPU是Pan等[22]于2009年提出的一種關(guān)聯(lián)分析方法.對(duì)于病例對(duì)照研究,aSPU從模型
得到得分統(tǒng)計(jì)量向量
其中:ξj為每個(gè)位點(diǎn)得分統(tǒng)計(jì)量的權(quán)重,1≤j≤m.而aSPU統(tǒng)計(jì)量為
其中:γ為權(quán)重;PSPU(γ)為檢驗(yàn)統(tǒng)計(jì)量TSPU(γ)的P值;Γ是γ的一個(gè)取值范圍,如在本文的隨機(jī)模擬中,Γ={1,2,4,∞}.特別地,當(dāng)Γ={2}時(shí),aSPU就是SSU.
在協(xié)變量存在的情況下,adj_aSPU與adj_SSU首先將響應(yīng)變量對(duì)協(xié)變量做回歸,得到殘差項(xiàng),隨后將殘差項(xiàng)當(dāng)成新的響應(yīng)變量得到調(diào)整協(xié)變量后的得分統(tǒng)計(jì)量向量,后續(xù)與aSPU/SSU計(jì)算方式相同.adj_resi與adj_aSPU類似,先將響應(yīng)變量對(duì)協(xié)變量做回歸,得到殘差項(xiàng),隨后將殘差項(xiàng)當(dāng)成新的響應(yīng)變量對(duì)預(yù)測(cè)變量做回歸.
對(duì)病例對(duì)照組數(shù)據(jù),Wang等[8]在回溯性框架下提出了一個(gè)能同時(shí)對(duì)m個(gè)遺傳變異位點(diǎn)進(jìn)行關(guān)聯(lián)分析的統(tǒng)計(jì)量TSLIDE,其U向量及其方差協(xié)方差矩陣表達(dá)式如下:
其中:nA表示患病個(gè)體數(shù);nU為健康個(gè)體數(shù);第i個(gè)個(gè)體的患病狀態(tài)記為Di,其中Di=1表示患病,Di=0表示健康;Gi=(Gi1,Gi2,…,Gim)T為第i個(gè)個(gè)體的m個(gè)位點(diǎn)基因型,其中Gij表示第i個(gè)個(gè)體在第j個(gè)位點(diǎn)的基因型,Gij={0,1,2},它表示較小等位基因在該位點(diǎn)上的個(gè)數(shù).U統(tǒng)計(jì)量反映了多位點(diǎn)基因型在病例組和對(duì)照組之間的差異.在原假設(shè)H0: 這m個(gè)位點(diǎn)均與疾病無關(guān)聯(lián)成立的條件下,患病人群與健康人群的多位點(diǎn)基因型均值無差異,從而E(U)=0,對(duì)應(yīng)的方差協(xié)方差矩陣為
Cov(G)=(σjk)m×m,σjj=2pj(1-pj),σjk=2δjk, 1≤j≠k≤m,
其中:G表示研究所在的總體中某個(gè)體在m個(gè)位點(diǎn)的基因型;pj為第j個(gè)位點(diǎn)的較小等位基因頻率,1≤j≤m;δjk為第j、k個(gè)位點(diǎn)間的LD值,δjk=pjk-pjpk,pjk為在一條染色單體上第j、k位點(diǎn)基因均為較小頻率等位基因的概率,檢驗(yàn)統(tǒng)計(jì)量為
在原假設(shè)下,TSLIDE漸近服從自由度為m的卡方分布,從而方便得到它的P值.
非對(duì)角元(j,k)(j≠k)為
我們先通過模型產(chǎn)生10萬個(gè)個(gè)體的協(xié)變量、基因型信息和性狀值,再依據(jù)0/1型性狀從相應(yīng)人群中各隨機(jī)抽500個(gè)個(gè)體作為病例和對(duì)照用于下一步的多位點(diǎn)關(guān)聯(lián)分析.數(shù)據(jù)產(chǎn)生模型具體分為3步:
(i) 產(chǎn)生p維協(xié)變量信息Z.對(duì)于第i個(gè)個(gè)體,1≤i≤n=100 000,Zi=(Zi1,Zi2,…,Zip)T,其中Zi1,Zi2,…,Zip相互獨(dú)立,均服從Bernoulli(0.5)分布.
(ii) 由Zi通過有序logistic回歸產(chǎn)生第i個(gè)個(gè)體基因型Gi=(Gi1,Gi2,…,Gim)T,其中位點(diǎn)j的基因型Gij生成模型是
其中: 1≤j≤m,m取值為5或50;(ε1,ε2,…,εm)T來自于均值為0的m維正態(tài)分布;εj、εk間的協(xié)方差Cov(εj,εk)=ρ|j-k|,1≤j≠k≤m;ρ的大小反映了位點(diǎn)間的相關(guān)程度;模型中的μgj根據(jù)對(duì)應(yīng)位點(diǎn)的最小等位基因頻率(Minor Allele Frequency, MAF)及樣本協(xié)變量信息計(jì)算得到,即μgj需要滿足等式E(Gij)=2×MAFj,MAFj表示第j個(gè)位點(diǎn)較小等位基因在人群中的頻率;αj=(αj1,αj2,…,αjp)T表示p維協(xié)變量對(duì)第j個(gè)基因位點(diǎn)的影響.
(iii) 由Zi、Gi通過logistic回歸產(chǎn)生性狀Di:
其中:β0反映人群發(fā)病率;βg為位點(diǎn)對(duì)性狀的m×1效應(yīng)向量;βz為協(xié)變量對(duì)性狀的p×1效應(yīng)向量;βgz為位點(diǎn)與協(xié)變量的交互項(xiàng)對(duì)性狀的m×p效應(yīng)矩陣.
對(duì)于第一類錯(cuò)誤率,我們共考慮SNP個(gè)數(shù)(5或50)、協(xié)變量維數(shù)p(1或2)和位點(diǎn)類型(全為常見變異(Common Variant, CV)或CV與罕見變異(Rare Variant, RV)交替出現(xiàn))的6種不同組合情形.CV的MAF從0.1至0.4中隨機(jī)產(chǎn)生;RV的MAF從0.005至0.01中隨機(jī)產(chǎn)生;每種情形中又根據(jù)協(xié)變量對(duì)性狀是否有效應(yīng)、ρ=0或ρ=0.5分為4種子情形;每個(gè)情形下重復(fù)模擬次數(shù)為1 000,顯著性水平為0.05;為了計(jì)算第一類錯(cuò)誤率,設(shè)β0=ln0.1、位點(diǎn)對(duì)性狀無效應(yīng)、位點(diǎn)與協(xié)變量交互項(xiàng)對(duì)性狀也無效性,詳細(xì)參數(shù)設(shè)置見表1,其中:α=(α1,α2,…,αm)為p×m參數(shù)矩陣.
表1 原假設(shè)下的參數(shù)設(shè)置Tab.1 Parameter setting under H0
隨后,我們根據(jù)SNP個(gè)數(shù)、協(xié)變量維數(shù)、位點(diǎn)MAF、位點(diǎn)與協(xié)變量交互作用方向的不同設(shè)置了8種情形來比較各種方法的功效: 當(dāng)SNP個(gè)數(shù)為5時(shí),假設(shè)前兩個(gè)位點(diǎn)為致病位點(diǎn);當(dāng)SNP個(gè)數(shù)為50時(shí),假設(shè)第1、2、6、7個(gè)位點(diǎn)為致病位點(diǎn),其中常見致病位點(diǎn)對(duì)性狀效應(yīng)值的取值范圍為0.05~0.3、罕見變異位點(diǎn)效應(yīng)值范圍為0.09~1.09;情形1~情形4中設(shè)置了5個(gè)SNP及一維協(xié)變量,考慮了是否僅含常見變異、位點(diǎn)與協(xié)變量交互作用方向相同/相反下不同組合的情形,用以探究不同位點(diǎn)類型、不同基因與協(xié)變量相互作用效應(yīng)方向下各種方法的表現(xiàn);情形5~情形6將協(xié)變量擴(kuò)展為二維,用以探究在二維協(xié)變量情況下各方法功效差異;情形7~情形8將SNP個(gè)數(shù)擴(kuò)大為50,用以探究各方法在多SNP個(gè)數(shù)下的表現(xiàn);在情形1~情形8中,又考慮了致病位點(diǎn)對(duì)性狀效應(yīng)方向相同/相反兩種子情形,如在5個(gè)SNP中,βg=(ln1.05,ln1.05,0,0,0)T是當(dāng)位點(diǎn)效應(yīng)方向相同的情況,那么與之對(duì)應(yīng)βg=(ln1.05,ln(1/1.05),0,0,0)T則為位點(diǎn)效應(yīng)方向相反情況;具體參數(shù)設(shè)置見表2,模擬研究重復(fù)次數(shù)為1 000,顯著性水平為0.05.
表2 計(jì)算功效的參數(shù)設(shè)置Tab.2 Parameter setting for power evaluation
表3展示了各方法及其對(duì)應(yīng)的調(diào)整協(xié)變量方法在原假設(shè)情形1~情形6下的第一類錯(cuò)誤率.從中不難發(fā)現(xiàn)當(dāng)βz不為零時(shí),未進(jìn)行協(xié)變量調(diào)整的方法的第一類錯(cuò)誤率明顯大于0.05,這說明當(dāng)協(xié)變量既與基因型又與性狀相關(guān)時(shí),不考慮協(xié)變量直接進(jìn)行基因與性狀的關(guān)聯(lián)性分析會(huì)控制不住第一類錯(cuò)誤率,故在這種情形下,對(duì)協(xié)變量進(jìn)行調(diào)整是減小假陽性率的有效手段.且當(dāng)SNP個(gè)數(shù)增加至50個(gè)時(shí),SLIDEa方法仍能控制住第一類錯(cuò)誤率.
表3 原假設(shè)中各情形下各方法的第一類錯(cuò)誤率Tab.3 Type I error rate for each scenario under H0
接著在α、βz均不為零,即協(xié)變量既與基因型有關(guān)也與性狀有關(guān)的情形下對(duì)各調(diào)整協(xié)變量方法進(jìn)行功效比較.圖1(見第774頁)和圖2(見第775頁)為對(duì)立假設(shè)下8種情形各方法的功效比較.當(dāng)SNP個(gè)數(shù)為5、協(xié)變量為一維時(shí),如情形1~情形4中結(jié)果所示,無論不同位點(diǎn)對(duì)性狀效應(yīng)方向一致還是相反,在位點(diǎn)與協(xié)變量存在交互作用的情況下,本文提出的SLIDEa方法均相較于其它多位點(diǎn)調(diào)整協(xié)變量關(guān)聯(lián)分析方法具有優(yōu)越性,并在不同位點(diǎn)與協(xié)變量交互項(xiàng)效應(yīng)方向相反時(shí)它仍能保持明顯優(yōu)勢(shì);當(dāng)關(guān)聯(lián)分析位點(diǎn)包含罕見變異位點(diǎn)時(shí),SLIDEa方法雖然仍能保持優(yōu)勢(shì),但這種優(yōu)勢(shì)在關(guān)聯(lián)分析位點(diǎn)全為常見變異位點(diǎn)時(shí)表現(xiàn)得更為明顯;當(dāng)增加協(xié)變量維數(shù)至二維、保持SNP個(gè)數(shù)不變時(shí),如情形5~情形6中結(jié)果所示,當(dāng)位點(diǎn)與協(xié)變量存在交互作用的情況下,SLIDEa的表現(xiàn)均優(yōu)于其他方法;當(dāng)SNP個(gè)數(shù)增加至50個(gè)、位點(diǎn)全為常見變異時(shí),無論協(xié)變量維數(shù)是一維還是二維,SLIDEa同樣具有較好表現(xiàn).
圖1 不同致病位點(diǎn)對(duì)性狀效應(yīng)方向相同時(shí)對(duì)立假設(shè)情形1~情形8下各方法功效比較Fig.1 Power comparison for scenarios 1 to 8 under Ha while the effect directions of these loci are identical注: 該表展示了對(duì)立假設(shè)情形下當(dāng)不同致病位點(diǎn)對(duì)性狀效應(yīng)方向相同時(shí),情形1~情形8下各個(gè)方法的功效;其中βg為第一個(gè)位點(diǎn)對(duì)性狀的回歸系數(shù).
圖2 不同致病位點(diǎn)對(duì)性狀效應(yīng)方向相反時(shí)對(duì)立假設(shè)情形1~情形8下各方法功效比較Fig.2 Power comparison for scenarios 1 to 8 under Ha while the effect directions of these loci are opposite注: 該表展示了對(duì)立假設(shè)情形下當(dāng)不同致病位點(diǎn)對(duì)性狀效應(yīng)方向相反時(shí),情形1~情形8下各個(gè)方法的功效;其中βg為第一個(gè)位點(diǎn)對(duì)性狀的回歸系數(shù).
綜上可得,SLIDEa適用于基因和環(huán)境存在交互作用時(shí)的基因與性狀間關(guān)聯(lián)分析,無論位點(diǎn)對(duì)性狀的效應(yīng)方向相同或相反、不同位點(diǎn)與協(xié)變量交互項(xiàng)效應(yīng)方向相同或相反,它均能保持其優(yōu)勢(shì).TSLIDEa統(tǒng)計(jì)量在構(gòu)建過程中未依賴任何疾病發(fā)生模型,而其他方法,如adj_resi、adj_ aSPU等雖然也是基于無模型假設(shè),但在調(diào)整協(xié)變量時(shí),需要將性狀對(duì)協(xié)變量進(jìn)行回歸,從而得到性狀的殘差,再用殘差與基因進(jìn)行關(guān)聯(lián)分析.因此,在用其它方法調(diào)整協(xié)變量時(shí),若是模型假定與真實(shí)模型不一致,會(huì)導(dǎo)致統(tǒng)計(jì)量功效降低.SLIDEa在調(diào)整協(xié)變量和關(guān)聯(lián)分析中都不依賴于實(shí)際疾病發(fā)生模型,因此該方法是較為穩(wěn)健的,受疾病真實(shí)發(fā)病模型的影響較小.
酗酒相關(guān)遺傳學(xué)合作研究數(shù)據(jù)(The Collaborative Study on the Genetics of Alcoholism, COGA)的參與者來自于美國(guó)7個(gè)不同地區(qū),它收集了詳細(xì)的酒精依賴診斷所需信息.我們分析的是COGA中一部分依據(jù)《精神障礙診斷與統(tǒng)計(jì)手冊(cè)第4版》(DSM-Ⅳ)標(biāo)準(zhǔn)對(duì)進(jìn)行酒精成癮性評(píng)估劃分為病例組及對(duì)照組后篩選出來的病例對(duì)照研究數(shù)據(jù),包含共1 945人的全基因組測(cè)序數(shù)據(jù)和年齡、性別、每日吸煙量等30個(gè)潛在酗酒相關(guān)協(xié)變量因子.除去測(cè)序缺失的數(shù)據(jù),我們最終得到1 913個(gè)個(gè)體共包含107萬個(gè)遺傳位點(diǎn)、18 946個(gè)基因的測(cè)序數(shù)據(jù).接下來,我們?cè)贜CBI(National Center for Biotechnology Information)上篩選出304個(gè)已報(bào)導(dǎo)的與酒精成癮性相關(guān)的基因,用SLIDEa、aSPU、SKAT和SKAT-O對(duì)應(yīng)的協(xié)變量調(diào)整方法對(duì)其中在COGA測(cè)序數(shù)據(jù)中出現(xiàn)的267個(gè)基因逐一進(jìn)行關(guān)聯(lián)分析.我們將年齡和家庭酗酒史作為協(xié)變量進(jìn)行調(diào)整,來探究在給定年齡及家族史的情況下與酗酒相關(guān)的關(guān)聯(lián)性位點(diǎn).
表4展示了用SLIDEa得到的前10位顯著基因和對(duì)應(yīng)P值及其他方法得到的P值.從該表中可以看出,各個(gè)方法均能發(fā)現(xiàn)這些基因,其P值也在相近水平,但是SLIDEa的P值會(huì)稍低一些.通過文獻(xiàn)檢索,我們可以得出這些基因與酗酒成癮性具有一定關(guān)聯(lián).例如,其中的CHRNB2為神經(jīng)元煙堿類受體,能夠與乙酰膽堿或尼古丁結(jié)合控制鈉、鉀離子通過細(xì)胞膜,這一基因與尼古丁依賴高度相關(guān)[28],后續(xù)全基因組關(guān)聯(lián)分析中也發(fā)現(xiàn)它還與酒精成癮性相關(guān)聯(lián)[29-30];OPA3基因編碼蛋白參與線粒體內(nèi)膜凈化[31],而線粒體內(nèi)膜參與酒精代謝[32],已發(fā)表的GWAS研究也有發(fā)現(xiàn)OPA3與酒精成癮性相關(guān)[25];而OXTR作為G蛋白偶聯(lián)受體,也在多個(gè)基因與酒精成癮性GWAS研究中被檢測(cè)到[26-27].這些基因與酒精成癮性的關(guān)系也進(jìn)一步說明了SLIDEa的可靠性.
表4 COGA數(shù)據(jù)利用SLIDEa得到的前10位顯著基因及所有方法的P值Tab.4 P-values for top 10 significant genes obtained from SLIDEa on COGA data
這10個(gè)基因由Metascape工具(網(wǎng)址: http:∥metascape.org/)得到的注釋結(jié)果詳見表5.將這10個(gè)基因輸入PANTHER網(wǎng)站(網(wǎng)址: http:∥www.pantherdb.org/)做基因富集分析,可以得到4個(gè)GO通路,分別是GO: 0042220(P=1.24×10-2),GO: 0051952(P=4.54×10-4),GO: 0043269(P=4.61×10-2),GO: 0003008(P=2.61×10-2).這4個(gè)基因通路分別與可卡因、胺轉(zhuǎn)運(yùn)、離子轉(zhuǎn)運(yùn)和系統(tǒng)過程相關(guān),和酒精成癮性的關(guān)系尚不明確,有待進(jìn)一步研究.
表5 COGA數(shù)據(jù)利用SLIDEa得到的前10位顯著基因注釋結(jié)果Tab.5 Annotation result of top 10 significant genes obtained from SLIDEa on COGA data
已有的研究結(jié)果表明了在協(xié)變量既與基因有關(guān)也與性狀有關(guān)時(shí)調(diào)整協(xié)變量的必要性.為了消除關(guān)聯(lián)分析時(shí)協(xié)變量帶來的混淆影響、降低關(guān)聯(lián)分析方法的假陽性率,本文在多位點(diǎn)聯(lián)合關(guān)聯(lián)分析方法SLIDE的基礎(chǔ)上,提出了一種對(duì)基因型用傾向得分進(jìn)行逆概率加權(quán)的調(diào)整協(xié)變量關(guān)聯(lián)分析方法SLIDEa,其中的協(xié)變量可以是多維的.模擬結(jié)果顯示,當(dāng)致病位點(diǎn)為常見變異時(shí),與aSPU、SKAT等調(diào)整協(xié)變量方法相比,在基因?qū)π誀钚?yīng)相反或存在基因與協(xié)變量的交互作用時(shí),SLIDEa具有一定優(yōu)勢(shì);而當(dāng)致病位點(diǎn)有較多罕見變異時(shí),它的效果不是很理想,這是因?yàn)樵诘任换蝾l率幾乎為0時(shí),用樣本數(shù)據(jù)估計(jì)U的方差會(huì)出現(xiàn)問題,從而使SLIDEa的功效降低.SLIDEa的另一優(yōu)勢(shì)在于它的構(gòu)建過程不依賴于疾病產(chǎn)生模型,這使得它的適用范圍較廣.隨后,我們將提出的方法應(yīng)用于酗酒遺傳學(xué)實(shí)際數(shù)據(jù)COGA的分析中,找到的顯著性基因可以用來做進(jìn)一步的生物學(xué)基礎(chǔ)研究.
本方法仍有幾個(gè)方面值得改進(jìn): 1) 需要提升它在存在較多罕見變異位點(diǎn)時(shí)的效果,與SLIDE相比,它無法利用外部大樣本數(shù)據(jù)來估算統(tǒng)計(jì)量的方差,所以在致病位點(diǎn)全為罕見變異的情況下,它的表現(xiàn)不是很理想.2) 當(dāng)關(guān)聯(lián)分析SNP位點(diǎn)數(shù)目m大、樣本量不大時(shí),存在數(shù)據(jù)稀疏性,此時(shí)統(tǒng)計(jì)量可能會(huì)不服從卡方分布.此外,統(tǒng)計(jì)量方差中涉及到與m2同階多的條件期望的計(jì)算;故當(dāng)關(guān)聯(lián)分析位點(diǎn)數(shù)目過多時(shí),可以根據(jù)位點(diǎn)間的位置將多位點(diǎn)劃分成數(shù)目較小的一些片段,得到這些片段的P值后整合得到整個(gè)基因的P值.