李彩霞 黎培興△ 方縮靖 方積乾
患病-未患病同胞的關(guān)聯(lián)回歸分析與應(yīng)用*
李彩霞1黎培興1△方縮靖2方積乾3
目的 當(dāng)核心家系中無父母信息時,經(jīng)典的傳遞不平衡檢驗(TDT)已不再適用,本文針對患病-未患病同胞家系數(shù)據(jù),提出相應(yīng)的關(guān)聯(lián)分析方法,并校正協(xié)變量的影響。方法 我們把家系中的受累同胞作為病例,未受累同胞作為匹配的對照,建立非均衡的條件logistic回歸模型或分層Cox回歸模型。我們把模型應(yīng)用到96個華人原發(fā)性高血壓核心家系的基因定位數(shù)據(jù),分析校正協(xié)變量后ACE的I/D多態(tài)性、鈉鹽攝入水平與高血壓的關(guān)系。結(jié)果 ACE與高血壓的關(guān)聯(lián)性受到鈉鹽攝入量高低的影響,ACE與鈉鹽攝入程度存在交互作用,較高的鈉鹽攝入患者其ACE的I/D多態(tài)性與高血壓的關(guān)聯(lián)性更強(qiáng)。結(jié)論 條件logistic回歸模型或分層Cox回歸模型能校正協(xié)變量的影響,有效分析基因的主效應(yīng)和基因與協(xié)變量的交互作用。
遺傳關(guān)聯(lián)分析 條件logistic回歸模型 分層cox回歸模型 交互作用
傳統(tǒng)的基于核心家系數(shù)據(jù)的遺傳關(guān)聯(lián)分析往往需要雙親的基因型,如傳遞不平衡檢驗(transmission disequilibrium test,TDT)[1-3],較適用于發(fā)病年齡早的疾病。對于發(fā)病年齡晚的疾病,雙親生物標(biāo)本往往難以獲得。因此有人提出以未患病的同胞作為對照的關(guān)聯(lián)分析研究思路。
Curtis(1997)[4]在 Sham 等(1995)[3]的似然比TDT方法的基礎(chǔ)上提出了同胞-傳遞不平衡方法,但只利用家系中一對同胞對(患?。椿疾。?。Spielman(1996)[2]利用家系中所有的患病與未患病的同胞,通過對某個特定等位基因在病例中出現(xiàn)的實際次數(shù)與期望次數(shù)的差異比較,進(jìn)行關(guān)聯(lián)分析。而 Boehnke(1998)[5]通過對患病同胞與未患病同胞的等位基因頻數(shù)的差異比較,進(jìn)行關(guān)聯(lián)分析。
以上方法都沒有涉及協(xié)變量的影響。下面,針對患病-未患病同胞家系數(shù)據(jù),以未患病同胞作為患病同胞的對照,建立匹配設(shè)計的回歸模型,考慮校正環(huán)境因素等協(xié)變量的影響,考察標(biāo)記位點與疾病是否關(guān)聯(lián),以及環(huán)境與基因的交互作用。
設(shè)家系r有n1r個患病同胞,n2r個非患病同胞,共nr=n1r+n2r個同胞,其基因型分別記為g1,g2,…,gnr。若校正環(huán)境因素等協(xié)變量的影響后,疾病位點與標(biāo)記位點之間不關(guān)聯(lián),則
這里Ai為家系中的第i個同胞的患病狀態(tài)(1,患?。?,未患?。琗i=(Xi1,Xi2,…,Xip)′為家系中第 i個同胞的p維協(xié)變量向量。假設(shè)具有基因型g,協(xié)變量X的個體的患病概率滿足logistic模型
這里,β=(β1,…,βp)′,Z為基因型向量,若基因型有m種,可設(shè)Z=(Z1,Z2,…,Zm-1)為m種基因型引入的m-1個啞變量,
Zk=
此時參數(shù) α=(α1,…,αm-1)′。在某些特定的遺傳模式下,Z的維度可相應(yīng)減少。遺傳模式可通過AIC準(zhǔn)則進(jìn)行選擇。由(1)與(2)得N個家系的條件似然函數(shù)
分母中的下標(biāo){j1,j2,…,jn1r}為{1,2,…,nr}中任取n1r個元素所形成的集合。此式即為匹配設(shè)計的條件logistic回歸模型的似然函數(shù)。(1)式要成立,應(yīng)有α向量為0。
條件似然函數(shù)(3)等價于如下的分層Cox比例風(fēng)險模型的偏似然函數(shù):每一個配對組(同一個家系的同胞)作為一個層,在每層內(nèi),所有患病病例的發(fā)病時間全部相同,即“生存”時間相同(可全設(shè)為1),未患病同胞作為右刪失數(shù)據(jù)(刪失時間可全設(shè)為2),層r中個體i的對應(yīng)風(fēng)險函數(shù)為
這里h0r(t)為層r的基底風(fēng)險函數(shù),是與時間有關(guān)的未知函數(shù),各層的基底風(fēng)險函數(shù)可以不同,反映層間的差異。模型(4)所對應(yīng)的偏似然函數(shù)即為模型(3)。
可通過SAS中Cox模型相應(yīng)模塊PHREG(proportional hazards regression)過程實現(xiàn)參數(shù)估計與假設(shè)檢驗[6]。
上面匹配設(shè)計的患病-未患病同胞的條件logistic模型等同于一個特殊的Cox模型:患病個體的發(fā)病時間全視為相同。因此,這里忽略了真實的發(fā)病時間,若已知患病個體的發(fā)病時間信息,則可把發(fā)病時間引入模型,可進(jìn)一步建立分層Cox回歸模型。
遺傳因素是原發(fā)性高血壓公認(rèn)的重要發(fā)病因素之一。在已研究過的所有原發(fā)性高血壓候選基因中,血管緊張素轉(zhuǎn)化酶(ACE,angiotensin-converting enzyme)的研究比較深入[7-9]。ACE基因位于17號染色體,存在插入型(insertion,I)或缺失型(deletion,D)多態(tài)性,其主要功能是調(diào)節(jié)血管緊張性。目前有關(guān)ACE的I/D多態(tài)性與高血壓發(fā)病的關(guān)系結(jié)論不一。近年來有研究發(fā)現(xiàn)ACE與高血壓的關(guān)聯(lián)性受到鈉鹽攝入量高低的影響,ACE與鈉鹽攝入程度存在交互作用[10]。
把上述的患病-未患病同胞的條件logistic模型應(yīng)用到96個華人原發(fā)性高血壓家系中所測得的基因定位數(shù)據(jù)中[11],探討ACE與高血壓的關(guān)聯(lián)性,以及與鈉鹽攝入程度的交互作用。此96個家系數(shù)據(jù)集中,共315個個體,每個家系由2~9個同胞組成,其中2、3、4、5個同胞組成的家系數(shù)分別為39、22、14、15個,6個或6個以上同胞的家系數(shù)共6個。
ACE基因有三種基因型(II,ID,DD),除 6人基因型信息缺失外,其余309人中,血壓正常者146人,高血壓患者163人,協(xié)變量包括:年齡(age,23~61歲),性別(gender),肥胖指標(biāo) BMI(body mass index,17.34~38.09 kg/m2),以24小時尿鈉濃度來衡量的鈉鹽攝入量(usodium,32~482 mmol/day)。這些變量的統(tǒng)計描述見表1。
表1 96個原發(fā)性高血壓家系數(shù)據(jù)描述
根據(jù) ROC(receiver operating characteristics)曲線選擇最佳分割點195 mmol/day,把24小時尿鈉濃度分為兩個水平:低鈉鹽組(salt=0:usodium<195 mmol/day)與高鈉鹽組(salt=1:usodium(195 mmol/day),表2給出了不同血壓水平與鈉鹽攝入水平的ACE基因型頻數(shù)分布。
下面考慮ACE基因的顯性、隱性、加性這3種遺傳模式,分別引入變量
表2 不同血壓水平與鈉鹽攝入水平下的ACE基因型(II/ID/DD)的頻數(shù)分布
用SAS的PHREG過程實現(xiàn)匹配設(shè)計的條件logistic模型,納入變量 age,gender,BMI,salt,ACE_dom(或ACE_rec,或ACE_add)以及交互作用ACE與salt的交互作用項 ACE_dom×salt(或 ACE_rec×salt,或ACE_add×salt),得到3種遺傳模式的模型AIC值分別為126.36,117.26,126.11。根據(jù) AIC最小原則,選擇隱性遺傳模式,其參數(shù)估計與檢驗的SAS輸出如表3。
表3 隱性遺傳模式參數(shù)估計與檢驗結(jié)果
由表3可知,age(年齡),BMI對原發(fā)性高血壓有影響。年齡或BMI越大,相對風(fēng)險越高,年齡的OR值為1.169(95%CI為1.074~1.274),BMI的 OR值為1.453(95%CI:1.263~1.671)。在控制 age,gender,BMI的影響后,ACE與原發(fā)性高血壓的關(guān)聯(lián)性受到鈉鹽攝入量高低的影響,ACE與鈉鹽攝入程度存在交互作用(P=0.0266)。在低鈉鹽攝入水平(salt=0)下,ACE的基因型II在高血壓組與正常組中的頻率差異無統(tǒng)計學(xué)意義(P=0.0910)。記ACE_rec與ACE_rec×salt的回歸系數(shù)分別記為β、γ,我們可進(jìn)一步采用Wald卡方檢驗β+γ是否為0,得Wald卡方值為11.251,P=0.0008。可知在高鈉鹽攝入水平(salt=1)下,ACE的基因型II在高血壓組與正常組中的頻率差異有統(tǒng)計學(xué)意義(P=0.0008),II相對于DD+ID的 OR值為 exp(β+γ)=24.539(95%CI:3.782~159.216)。此結(jié)果與Yamagishi等人的研究結(jié)果一致[10]。
針對無父母信息,只有同胞信息情形,我們建立匹配設(shè)計的條件logistic回歸模型,分析標(biāo)記位點與疾病的關(guān)聯(lián)性。在這個模型中,每個家系可有多個患病同胞與多個未患病同胞,且每個家系的患病同胞或未患病同胞數(shù)可以不同。進(jìn)一步,對有發(fā)病時間信息的資料,我們可以利用發(fā)病時間信息,建立分層Cox模型,在考慮發(fā)病早晚的影響下,分析標(biāo)記位點基因型與是否發(fā)病的關(guān)系,同時校正協(xié)變量的影響,并把模型應(yīng)用到96個華人原發(fā)性高血壓核心家系的基因定位數(shù)據(jù)。高血壓和鈉的關(guān)系很密切,高鈉鹽飲食是高血壓的一個重要危險因素[12],因此,在分析ACE的ID多態(tài)性與高血壓的關(guān)聯(lián)性時,有必要考慮鈉鹽攝入程度的影響。我們在校正年齡、性別、BMI后,分析ACE的ID多態(tài)性、鈉鹽攝入水平與高血壓的關(guān)系,結(jié)果表明:ACE與高血壓的關(guān)聯(lián)性受到鈉鹽攝入量高低的影響,ACE與鈉鹽攝入程度存在交互作用,較高的鈉鹽攝入的患者其ACE的ID多態(tài)性與高血壓的關(guān)聯(lián)性更強(qiáng)。
[1]Spielman RS,McGinnis RE,Ewens WJ.Transmission test for linkage disequilibrium:the insulin gene region and insulin-dependent diabetes mellitus(IDDM).Am JHum Genet,1993,52(3):506-516.
[2]Spielman RS,Ewens WJ.The TDT and other family-based tests for linkage disequilibrium and association.Am J Hum Genet,1996,59(4):983-989.
[3]Sham PC,Curtis D.An extended transmission/disequilibrium test(TDT)for multi-allele marker loci.Ann Hum Genet,1995,59(2):323336.
[4]Curtis D.Use of siblings as controls in case-control association studies.Ann Hum Genet,1997,61:319-333.
[5]Boehnke M,Langefeld CD.Genetic association mapping based on discordant sib pairs:the discordant-alleles test.Am J Hum Genet,1998,62(4):950-961.
[6]高惠旋.SAS系統(tǒng) SAS/STAT軟件使用手冊.北京:中國統(tǒng)計出版社,1997.
[7]Li Y.Angiotensin-converting enzyme gene insertion/deletion polymorphism and essential hypertension in the Chinese population:a meta analysis including 21058 participants.Internal Medicine Journal,2012,42(4):439-444.
[8]胡芳,肖君華.原發(fā)性高血壓分子生物學(xué)的研究進(jìn)展.國外醫(yī)學(xué)遺傳學(xué)分冊,1999,22(2):82-85.
[9]朱鼎良.高血壓基因研究現(xiàn)狀與展望.現(xiàn)代康復(fù),1999,3(9):1078-1079.
[10]Yamagishi K,Tanigawa T,Cui R,et al.High sodium intake strengthens the association of ACE I/D polymorphism with blood pressure in a community.The American Journal of Hypertension,2007,20(7):751-757.
[11]Fang Yujing,Li Caixia,F(xiàn)ang Jiqian,et al.Pulse pressure and interactions between polymorphisms in the angiotensin II type 1 receptor and uncoupling protein 1 genes in hypertensive Hong Kong Chinese.Journal of the American College of Cardiology,2004,43(5):522A-522A.
[12]辛青,張成秋,譚小燕,等.高校教職工高血壓患病情況及影響因素.中國衛(wèi)生統(tǒng)計,2013,30(6):874-876.
Regression Models and Application for Association Study Between Affected and Unaffected Siblings
Li Caixia,Li Peixing,F(xiàn)ang Yujing,et al
(School of Mathematics and Computational Science,Sun Yat-Sen University(510275),Guangzhou)
Objective When the information of parents is not available in the nuclear family,classical transmission disequilibrium test(TDT)is no longer suitable.In this paper,association analysis methods,in which the covariates were adjusted,were developed for affected and unaffected siblings.Methods Using affected siblings as cases,and unaffected siblings as matched controls,an unbalanced conditional regression model and stratified Cox model were proposed.We used an example of gene mapping for essential hypertension(ESH)to illustrate our method,and showed the association between the I/D polymorphism of the ACE gene,sodium intake level and ESH,after adjusting covariates.Results The results show that sodium intake modifies the association of ACE with ESH.There is interaction effect between sodium intake and ACE.The association between I/D polymorphism and ESH was stronger among persons with a higher sodium intake than in those with a lower sodium intake.Conclusion The gene's main effect and gene-covariate interaction were derived efficiently after covariates adjusted by using conditional regression model or stratified Cox model.
Genetic association analysis;Conditional regression model;Stratified Cox regression model;Interaction effect
*本項目受第44批教育部留學(xué)回國人員科研啟動基金資助
1.中山大學(xué)數(shù)學(xué)與計算科學(xué)學(xué)院(510275)
2.中山大學(xué)腫瘤防治中心
3.中山大學(xué)公共衛(wèi)生學(xué)院
△通信作者:黎培興
鄧 妍)