修良昌 覃繼恒 趙小蕾 饒紹奇 丁元林
摘 要:在遺傳流行病學(xué)研究中,常采用病例對(duì)照設(shè)計(jì)分析某個(gè)或某些遺傳標(biāo)記與疾病的關(guān)聯(lián),所用方法有Pearson卡方檢驗(yàn)、Cochran-Armitage趨勢(shì)檢驗(yàn)、哈代-溫伯格不平衡檢驗(yàn)和對(duì)遺傳模型穩(wěn)健的檢驗(yàn)方法等,這些方法各自有其優(yōu)勢(shì)和劣勢(shì),該文對(duì)它們的原理進(jìn)行簡(jiǎn)明扼要地介紹,并比較它們的異同及各自的適用條件。
關(guān)鍵詞:病例對(duì)照研究 遺傳標(biāo)記 關(guān)聯(lián)分析
中圖分類號(hào):R954 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2016)03(b)-0110-03
基于病例對(duì)照數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,Pearson卡方檢驗(yàn)和Cochran-Armitage趨勢(shì)卡方檢驗(yàn)是兩種較為常用的檢驗(yàn)方法(分別簡(jiǎn)稱為卡方檢驗(yàn)和趨勢(shì)卡方檢驗(yàn)),2006年Song和Elston[1]又提出哈代-溫伯格不平衡檢驗(yàn)(Hardy-Weinberg disequilibrium test,簡(jiǎn)記為HWDT),它們都是基于基因型的傳統(tǒng)檢驗(yàn)方法。在實(shí)際研究中,由于基因的遺傳模型通常是未知的,研究者們又發(fā)展出對(duì)遺傳模型穩(wěn)健的檢驗(yàn)方法。
1 Pearson卡方檢驗(yàn)
Pearson卡方檢驗(yàn)是Karl Pearson提出的一種應(yīng)用范圍很廣的統(tǒng)計(jì)方法。對(duì)于R×C表資料,卡方檢驗(yàn)公式為
其中,Oi,是第i個(gè)格子的實(shí)際頻數(shù),Ei是理論頻數(shù)。
表1為單位點(diǎn)病例對(duì)照基因型數(shù)據(jù),A和a為某位點(diǎn)上的兩個(gè)等位基因,并假設(shè)A為風(fēng)險(xiǎn)等位基因,對(duì)應(yīng)的3種基因型分別為aa、Aa和AA,也可記為G0、G1和G2(下標(biāo)代表基因型中風(fēng)險(xiǎn)等位基因的個(gè)數(shù))。R和S分別為病例組和對(duì)照組的樣本數(shù),r0、r1、r2為病例組中每種基因型對(duì)應(yīng)的人數(shù),s0、s1、s2為對(duì)照組中每種基因型對(duì)應(yīng)的人數(shù),,。ni為病例組和對(duì)照組的基因型Gi的合計(jì)數(shù),ni=ri+si ,i =0,1,2,N為兩組樣本數(shù)之和。(r0,r1,r2)和(s0,s1,s2)分別服從M(R,p0,p1,p2)和M(S,q0,q1,q2)的多項(xiàng)分布,和為病例組和對(duì)照組的基因型概率分布。
對(duì)于表1的數(shù)據(jù), Pearson檢驗(yàn)可以表示為
在H0成立條件下,即pi=qi,ZCHI服從自由度為2的卡方分布。對(duì)備擇假設(shè)無其他具體信息的情況下,卡方檢驗(yàn)是最有效的穩(wěn)健性檢驗(yàn)。
2 趨勢(shì)卡方檢驗(yàn)
趨勢(shì)卡方檢驗(yàn)是Cochran和Armitage在20世紀(jì)中葉提出的用于等級(jí)數(shù)據(jù)相關(guān)性的檢驗(yàn)。對(duì)于表1中的數(shù)據(jù),若疾病發(fā)生的概率隨著基因型中風(fēng)險(xiǎn)等位基因的個(gè)數(shù)增加而升高,那么這個(gè)數(shù)據(jù)就是等級(jí)數(shù)據(jù)。趨勢(shì)檢驗(yàn)考慮了等級(jí)信息并試圖利用這個(gè)信息提高檢驗(yàn)效能。假設(shè)基因型Gi的分值為xi,i=0,1,2。趨勢(shì)卡方檢驗(yàn)比較病例組和對(duì)照組基因型概率的加權(quán)和(權(quán)為每個(gè)基因型的計(jì)分),即與0相比差異是否有統(tǒng)計(jì)學(xué)意義。令:
在H0成立條件下將作為對(duì)pi和qi的估計(jì),V 代入方差公式即得,進(jìn)而得出H0成立時(shí),檢驗(yàn)統(tǒng)計(jì)量ZCAT近似服從自由度為1的卡方分布。
雖然趨勢(shì)卡方檢驗(yàn)依賴于分值(x0,x1,x2)的選取,但是對(duì)于分值的線性變換趨勢(shì)檢驗(yàn)的結(jié)果是恒定的,因此可令,≤≤1,即將基因型aa和AA的分值分別固定為0和1,雜合子基因型Aa的分值為x,分值的變化主要體現(xiàn)在x的變化上。為體現(xiàn)趨勢(shì)卡方檢驗(yàn)對(duì)x的依賴性,分值為(0,x,1)時(shí)檢驗(yàn)為:
分值的選取很重要但也相當(dāng)困難,對(duì)于多態(tài)位點(diǎn)基因型分值的選取則是難上加難。對(duì)于二態(tài)位點(diǎn)3個(gè)基因型分值的選取,當(dāng)和時(shí)分別為隱性模型和顯性模型下的最優(yōu)計(jì)分,是加性模型下趨勢(shì)檢驗(yàn)的局部最優(yōu)計(jì)分?;蛐偷挠?jì)分為時(shí),趨勢(shì)卡方檢驗(yàn)等價(jià)于卡方檢驗(yàn)。
3 哈代-溫伯格不平衡檢驗(yàn)
哈代-溫伯格平衡是在滿足隨機(jī)交配、群體同質(zhì)且群體足夠大等一系列假定下成立的遺傳定律,然而在實(shí)際研究中特定的研究群體通常偏離哈代-溫伯格平衡。這種偏離在遺傳學(xué)上通常用哈代-溫伯格不平衡系數(shù)來體現(xiàn)。常用的哈代-溫伯格不平衡系數(shù)有兩種,即用基因型頻率的比值定義的哈代-溫伯格不平衡系數(shù)和用基因型頻率的差來定義的哈代-溫伯格不平衡系數(shù)。對(duì)于二態(tài)的位點(diǎn),這兩種不平衡系數(shù)分別為
這兩種定義都是合理且常用的定義方式,但是它們各有其應(yīng)用條件和優(yōu)勢(shì)。
當(dāng)哈代-溫伯格平衡在某個(gè)群體中成立時(shí),式(5)的δ應(yīng)為0。定義病例組和對(duì)照組的哈代-溫伯格不平衡系數(shù)分別為δ1和δ0,當(dāng)H0成立時(shí)δ1=δ0=δ0,因此當(dāng)δ=0時(shí),δ1和δ0之間的差異可以用來判斷基因型是否與疾病關(guān)聯(lián),由此引出哈代-溫伯格不平衡檢驗(yàn),其檢驗(yàn)統(tǒng)計(jì)量如下:
在H0成立的條件下,Zhwd近似服從標(biāo)準(zhǔn)正態(tài)分布。在實(shí)踐中,用Zhwd來檢驗(yàn)基因型是否與疾病關(guān)聯(lián)檢驗(yàn)效能通常比較低,特別是當(dāng)真正的遺傳模型為乘積模型時(shí),該檢驗(yàn)的效能幾乎為零。但是研究發(fā)現(xiàn),雖然Zhwd不是一個(gè)理想的檢驗(yàn)關(guān)聯(lián)性的統(tǒng)計(jì)量,但是它可以被用于基因型數(shù)據(jù)的質(zhì)量控制,判斷基因型檢測(cè)數(shù)據(jù)是否存在較大的誤差;另外一方面,該檢驗(yàn)可以用來判斷較為可能的遺傳模型。
4 對(duì)遺傳模型穩(wěn)健的檢驗(yàn)方法
上文已指出趨勢(shì)檢驗(yàn)依賴于預(yù)先指定的分值。在基因型關(guān)聯(lián)分析中,不同的遺傳模型對(duì)應(yīng)于不同的計(jì)分。4種常見的遺傳模型即隱性模型、加性模型、乘積模型和顯性模型,它們的最優(yōu)計(jì)分分別為0、1/2、1/2和l。當(dāng)假定的遺傳模型是真正的遺傳模型時(shí),對(duì)應(yīng)的趨勢(shì)卡方檢驗(yàn)其檢驗(yàn)效能最高,但在實(shí)際應(yīng)用中,真正的遺傳模型通常是未知的,用錯(cuò)誤的遺傳模型做關(guān)聯(lián)分析就會(huì)降低檢驗(yàn)效能,尤其將顯性模型誤認(rèn)為是隱性模型或者將隱性模型誤認(rèn)為是顯性模型時(shí),檢驗(yàn)效能顯著降低?;谶@些原因,統(tǒng)計(jì)學(xué)家們?cè)噲D建立對(duì)遺傳模型穩(wěn)健的檢驗(yàn)并盡可能提高檢驗(yàn)效能。
MAX檢驗(yàn)(包括MAX2和MAX3)和MERT檢驗(yàn)是Freidlin等2002年提出的有效穩(wěn)健檢驗(yàn)[2]。MAX2取Z0和Z1的最大值,而MAX3取Z0 、Z1/2和Z1三者中的最大值。對(duì)模擬數(shù)據(jù)和實(shí)際數(shù)據(jù)的分析均顯示MAX檢驗(yàn)具有優(yōu)良品質(zhì),并且Zang等在2010年給出了在H0成立條件下漸進(jìn)分布的簡(jiǎn)單算法[3],使得該方法能夠比較容易實(shí)現(xiàn)。
MERT(the maximin efficiency robust test)是標(biāo)準(zhǔn)化最優(yōu)檢驗(yàn)的線性合并。假設(shè)只考慮顯性模型、加性模型和隱性模型的情況,將顯性模型、加性模型和隱性模型的最優(yōu)檢驗(yàn)統(tǒng)計(jì)量表示為ZDOM、ZADD和ZREC,則
其中corH為H0成立條件下,ZDOM與ZREC的相關(guān)系數(shù)。當(dāng)樣本量較大時(shí),ZMERT服從標(biāo)準(zhǔn)正態(tài)分布。
另外一類穩(wěn)健方法是基于選擇遺傳模型的趨勢(shì)檢驗(yàn)[4]?;谶x擇遺傳模型的趨勢(shì)檢驗(yàn)分為兩個(gè)步驟:第一步根據(jù)數(shù)據(jù)確定可能的遺傳模型,第二步用所估計(jì)的遺傳模型對(duì)應(yīng)的趨勢(shì)檢驗(yàn)進(jìn)行關(guān)聯(lián)分析。對(duì)于病例對(duì)照數(shù)據(jù)(如表1),f0、f1和f2分別為3種基因型aa、Aa和AA的外顯率,K為群體的患病率,為基因型相對(duì)風(fēng)險(xiǎn)。Song和Elston[1]構(gòu)造的哈代-溫伯格不平衡檢驗(yàn)為
假設(shè)在群體中哈代-溫伯格平衡成立,。按照外顯率、相對(duì)風(fēng)險(xiǎn)及基因型的概率分布之間的關(guān)系,δ1和δ0為
在H0成立條件下,即時(shí),;當(dāng)潛在的遺傳模型是隱性模型,即時(shí),,;當(dāng)潛在模型為顯性模型,即時(shí),,;當(dāng)潛在的模型為加性模型或者乘積模型時(shí)δ1和δ0都接近于0。進(jìn)一步可知,在隱性模型下,而在顯性模型下。由此可以利用的符號(hào)來判斷潛在的遺傳模型究竟為何種模型。在實(shí)際應(yīng)用中,如果觀察到大于某個(gè)閾值c0,則將遺傳模型估計(jì)為隱性模型,若觀察到小于c0,則認(rèn)為潛在的遺傳模型為顯性模型,其他情況則認(rèn)為是加性或者乘積模型,這就是Zheng等[4]2008年在書中所提出的遺傳模型選擇方法。Zheng等[4]通過模擬發(fā)現(xiàn),當(dāng)群體中風(fēng)險(xiǎn)等位基因的頻率大于0.3時(shí),對(duì)模型有較高的正確判定率。即使在風(fēng)險(xiǎn)等位基因的頻率較小時(shí),將顯性模型判定為隱性模型或者將隱性模型判定為顯性模型的概率也是很低的,只是在這樣的風(fēng)險(xiǎn)等位基因頻率下會(huì)有較多的顯性或者隱性模型被判為加性模型。
綜上所述,在對(duì)備則假設(shè)無詳盡信息的情況下,卡方檢驗(yàn)是最有效的穩(wěn)健性檢驗(yàn)。當(dāng)個(gè)體的患病風(fēng)險(xiǎn)隨著風(fēng)險(xiǎn)等位基因個(gè)數(shù)的增加而升高時(shí),根據(jù)具體的遺傳模型給每一個(gè)基因型計(jì)分并用相應(yīng)的趨勢(shì)檢驗(yàn)來進(jìn)行關(guān)聯(lián)分析。但在實(shí)際應(yīng)用中,特別是一些復(fù)雜疾病研究中,遺傳模型不可能預(yù)先知道,如果用錯(cuò)誤的遺傳模型對(duì)應(yīng)的趨勢(shì)檢驗(yàn)分析就會(huì)大大降低檢驗(yàn)效能。因此,趨勢(shì)檢驗(yàn)對(duì)于潛在的遺傳模型不是穩(wěn)健的檢驗(yàn)。哈代-溫伯格不平衡檢驗(yàn)并不是一個(gè)理想的用于檢驗(yàn)相關(guān)性的方法,但是它可以用來進(jìn)行基因型數(shù)據(jù)的質(zhì)量控制,判斷存在較大誤差的基因型測(cè)量值;另外一方面,該檢驗(yàn)可以用來判斷遺傳模型。對(duì)于遺傳模型穩(wěn)健的檢驗(yàn)方法具有優(yōu)良的品質(zhì),但其難點(diǎn)在對(duì)遺傳模型的選擇,且與風(fēng)險(xiǎn)等位基因頻率大小有關(guān)。從廣義的角度來說,卡方檢驗(yàn)、趨勢(shì)檢驗(yàn)和MAX檢驗(yàn)都屬于趨勢(shì)檢驗(yàn),只是計(jì)分方法不同罷了[5]。
參考文獻(xiàn)
[1] Song, K. and R.C. Elston, A powerful method of combining measures of association and Hardy-Weinberg disequilibrium for fine-mapping in case-control studies[J].Stat Med,2006,25(1):26-105.
[2] Freidlin, B., G. Zheng, Z. Li, et al.,Trend tests for case-control studies of genetic markers: power, sample size and robustness[J].Hum Hered,2002,53(3):52-146.
[3] Zang, Y., W.K. Fung,G. Zheng, Simple Algorithms to Calculate Asymptotic Null Distributions of Robust Tests in Case-Control Genetic Association Studies in R[J].Journal Of Statistical Software,2010,33(8):1-24.
[4] Zheng,G.,H.K.Ng,Genetic model selection in two-phase analysis for case-control association studies[J].Biostatistics,2008,9(3):9-391.
[5] Zheng,G.,J.Joo,Y.Yang.Pearson's test, trend test, and MAX are all trend tests with different types of scores[J].Ann Hum Genet,2009,73(2):40-133.