王子賢,賴偉華,鐘詩龍
1華南理工大學(xué)生物科學(xué)與工程學(xué)院,廣東 廣州510006;2廣東省人民醫(yī)院//廣東省醫(yī)學(xué)科學(xué)院藥學(xué)部,廣東廣州510080
冠狀動(dòng)脈粥樣硬化性心臟病,簡稱冠心病,是世界范圍內(nèi)最常見的心血管疾病,也是導(dǎo)致患者死亡的主要原因之一[1]。雖然藥物和手術(shù)治療在近年來取得了巨大的進(jìn)步,但是冠心病患者的死亡率仍然很高[2-4]。因此,了解冠心病的發(fā)病機(jī)制和識(shí)別新的預(yù)防靶點(diǎn)對冠心病的防治具有重要意義。
血液中的代謝物作為一種環(huán)境暴露下的功能中間體,其往往可以反應(yīng)個(gè)體的遺傳組成并能預(yù)測或影響疾病的發(fā)生發(fā)展[5]。近年來,血液代謝組學(xué)的研究已為預(yù)測心血管疾病的發(fā)生提供了眾多的生物標(biāo)志物并建立了可靠的預(yù)測模型[6-8]。但是,許多代謝物往往只能提供與疾病發(fā)生的關(guān)聯(lián)性,其因果關(guān)系尚不明確。孟德爾隨機(jī)化(MR)作為一種流行的遺傳流行病學(xué)研究設(shè)計(jì)方法,它通過使用遺傳變異作為工具變量,可以探究暴露和結(jié)局之間的因果關(guān)系[9]。然而到目前為止,在探究與冠心病發(fā)生風(fēng)險(xiǎn)相關(guān)的MR分析中,其關(guān)注的暴露因素大多是廣泛表型,如身高[10]、腰圍[11]、臀圍[12]等,鮮有關(guān)注血液代謝物這樣的暴露因素集合?;诖x組學(xué)的全基因組關(guān)聯(lián)研究(mGWAS)是一種識(shí)別代謝物數(shù)量性狀位點(diǎn)[13]以了解疾病相關(guān)遺傳變異的代謝背景的有效途徑。Shin等于2014年發(fā)表了迄今為止最大規(guī)模的mGWAS,繪制了人類血液代謝物的遺傳圖譜[14],為血液代謝組學(xué)的遺傳基礎(chǔ)提供重要參考價(jià)值。Yang等[15]已經(jīng)利用兩樣本MR的分析方法評估了這些血液中的代謝物與5種主要的精神疾病之間的因果關(guān)系,并成功地發(fā)現(xiàn)了兩個(gè)代謝物與精神分裂癥和注意缺陷或多動(dòng)障礙之間存在穩(wěn)健的因果關(guān)系,為該類疾病的預(yù)測和治療提供了重要的參考?;诖朔椒▉硖骄窟@些血液代謝物與冠心病發(fā)生風(fēng)險(xiǎn)之間的因果關(guān)系。有助于更深入地了解冠心病的發(fā)病機(jī)制,并可能為冠心病患者的臨床診療提供新的見解,但目前尚未有相關(guān)的報(bào)道。
因此,本研究從分子機(jī)制角度出發(fā),采用兩樣本MR分析方法,使用上述大規(guī)模的mGWAS數(shù)據(jù)為暴露文件,以及另一項(xiàng)超大規(guī)模的冠心病GWAS數(shù)據(jù)為結(jié)局文件,以探究這些血液中的代謝物與發(fā)生冠心病之間的因果關(guān)系。本研究具有一定的理論依據(jù)和臨床轉(zhuǎn)化價(jià)值,研究結(jié)果可以為指導(dǎo)冠心病的風(fēng)險(xiǎn)預(yù)測和治療工具的開發(fā)提供參考。
本研究采用2014年Shin等[14]發(fā)表于Nature Genetics上的迄今為止最大規(guī)模的mGWAS數(shù)據(jù)作為暴露文件。該數(shù)據(jù)是一項(xiàng)包含7824例歐洲人的薈萃分析數(shù)據(jù),經(jīng)過嚴(yán)格的質(zhì)量控制,共210萬個(gè)SNP位點(diǎn)和486種血液代謝物(其中包含309種已知代謝物和177種未知代謝物)用于全基因組關(guān)聯(lián)分析。這些代謝物可分為8種代謝物大類:碳水化合物、氨基酸、核苷酸、輔因子和維生素、脂類、肽類、能量產(chǎn)物和異源性生物代謝產(chǎn)物。所有關(guān)聯(lián)分析的匯總數(shù)據(jù)可在數(shù)據(jù)庫網(wǎng)站公開獲?。篽ttp://metabo1omics.he1mho1tz-muenchen.de/gwas/.
冠心病的GWAS 數(shù)據(jù)來源于2011 年Schunkert等[16]發(fā)表于Nature Genetics 的一項(xiàng)包含22個(gè)獨(dú)立研究的超大規(guī)模的冠心病薈萃分析數(shù)據(jù),樣本來自歐洲人群的22 233例冠心病患者和64 762例健康人,共有約240萬個(gè)SNP 位點(diǎn)用于關(guān)聯(lián)分析。數(shù)據(jù)收錄在CARDIoGRAMp1usC4D,可在數(shù)據(jù)庫網(wǎng)站公開獲?。篽ttp://www.cardiogramp1usc4d.org/.
我們對486種代謝物的遺傳變異采用了統(tǒng)一的入選標(biāo)準(zhǔn)。選擇MR分析中常用的較為寬松的閾值,即P<1×10-5為顯著的關(guān)聯(lián)分析結(jié)果入選條件;在提取出每個(gè)代謝物對應(yīng)的顯著的SNP后,以千人基因組中歐洲人(EUR)基因型為參考模板,進(jìn)行連鎖不平衡分析,同時(shí)滿足以下三個(gè)條件認(rèn)為連鎖不平衡并保留P值最小的SNP作為獨(dú)立的遺傳變異:(1)位于同個(gè)染色體;(2)相互距離在500 kb以內(nèi);(3)連鎖不平衡參數(shù)r2>0.1。
因?yàn)樘幱谕瑐€(gè)代謝通路的代謝物可能會(huì)受到相似的遺傳變異調(diào)控,即可能存在多個(gè)代謝物與同一個(gè)SNP顯著相關(guān),這將違反MR假設(shè)標(biāo)準(zhǔn)。因此,本研究采用限制性選取工具變量的方法[17],排除與兩個(gè)以上代謝物均顯著相關(guān)的SNP。同時(shí)排除已知的冠心病風(fēng)險(xiǎn)因素相關(guān)的SNP(包括身體質(zhì)量指數(shù)[18]、身高[10]、腰圍[11]、臀圍[12]、腰臀比[19]、血脂[20]相關(guān)的SNP)。
本研究涉及的暴露因素為血液中的代謝物,數(shù)量眾多,與既往的單一暴露因素的MR研究相比,有更為巨大的工作量。因此,本研究中通過編寫Per1代碼、R代碼和She11代碼進(jìn)行批量處理,即依次探究每個(gè)代謝物與冠心病的因果關(guān)系。其中,連鎖不平衡分析采用PLINK(version 1.9)軟件[21];MR分析、基因多效性檢驗(yàn)以及敏感性分析采用R 中的TwoSamp1eMR 軟件包(version 0.4.22)[22]于Linux系統(tǒng)上進(jìn)行分析。
1.3.1 MR分析 本研究采用逆方差加權(quán)法(IVW)[23]作為首要的因果效應(yīng)估計(jì)。IVW法是一種較為理想狀態(tài)下的估計(jì),是假設(shè)在所有遺傳變異都是有效工具變量的基本前提下進(jìn)行的有效分析,具有較強(qiáng)的因果關(guān)系檢測能力。但是IVW法特別要求遺傳變異僅通過研究中的暴露影響目標(biāo)結(jié)局。盡管此研究已盡可能排除了已知的混雜的SNP,然而仍然有許多未知混雜因素會(huì)導(dǎo)致基因多效性并對效應(yīng)值的估計(jì)產(chǎn)生偏倚。因此,我們采用了另外4種方法來檢驗(yàn)結(jié)果的可靠性和穩(wěn)定性,即MREgger 回歸[24]、加權(quán)中位數(shù)法(WME)[25]、基于眾數(shù)的簡單估計(jì)[26]、基于眾數(shù)的加權(quán)估計(jì)[26]。依次對每個(gè)代謝物進(jìn)行MR分析,如果以上五種不同的MR模型對因果效應(yīng)產(chǎn)生了相似的估計(jì)值,我們則認(rèn)為該代謝物與冠心病的因果關(guān)系是穩(wěn)定且可靠的。
IVW法分析的結(jié)果中,我們采用嚴(yán)格的多重假設(shè)檢驗(yàn)的閾值P<1.03×10-4(P<0.05/486)來檢驗(yàn)顯著的因果關(guān)系。并且同時(shí)關(guān)注P值大于等于1.03×10-4但小于0.05值的代謝物來作為冠心病潛在風(fēng)險(xiǎn)預(yù)測因子。P值小于0.05的因果關(guān)系將進(jìn)行如下的異質(zhì)性檢驗(yàn)和基因多效性檢驗(yàn)。
1.3.2 異質(zhì)性檢驗(yàn) 由于不同分析平臺(tái)、實(shí)驗(yàn)條件、入選人群的以及SNP的差異,兩樣本MR分析法可能存在異質(zhì)性,從而對因果效應(yīng)的估計(jì)產(chǎn)生偏倚。因此,本研究中對主要的IVW分析法和MR-Egger回歸采取異質(zhì)性檢驗(yàn),檢驗(yàn)的結(jié)果中P值大于0.05則認(rèn)為納入的工具變量不存在異質(zhì)性,可以忽略異質(zhì)性對因果效應(yīng)估計(jì)產(chǎn)生的影響。
1.3.3 基因多效性檢驗(yàn) MR分析的假設(shè)之一是工具變量只能通過暴露影響結(jié)局,若工具變量不通過影響暴露而直接影響結(jié)局則違背了MR思想,所以需要檢驗(yàn)暴露與結(jié)局之間的因果推斷是否存在基因多效性。采用
MR-Egger回歸分析可以來評價(jià)基因多效性產(chǎn)生的偏倚,其回歸截距可以評估多效性的大小,截距越接近于0,則基因多效性的可能性越小。本研究中通過判斷基因多效性檢驗(yàn)的P值來衡量分析中是否存在基因多效性,若P>0.05,則認(rèn)為因果分析中基因多效性的可能性較弱,可以忽略其產(chǎn)生的影響。
1.3.4 敏感性分析 除了采用上述4種方法(MR-Egger回歸法、加權(quán)中位數(shù)法、基于眾數(shù)的簡單估計(jì)法、基于眾數(shù)的加權(quán)估計(jì)法)來檢驗(yàn)結(jié)果的可靠性和穩(wěn)定性。本研究還采用1eave-one-out 法來進(jìn)行敏感性分析。即對IVW法中P值小于0.05,并且通過了異質(zhì)性檢驗(yàn)和基因多效性檢驗(yàn)的代謝物,逐一去除各個(gè)相關(guān)的SNP并計(jì)算剩余的SNP的合并效應(yīng),以評估各個(gè)SNP對于代謝物的影響。
在486個(gè)代謝物中,與之關(guān)聯(lián)的P<1×10-5的共有39 142個(gè)SNP,連鎖不平衡分析后,得到10 905個(gè)獨(dú)立的SNP,其中,有447個(gè)SNP至少與兩個(gè)代謝物顯著相關(guān)。另外,與冠心病風(fēng)險(xiǎn)因素相關(guān)的SNP共有319個(gè),這些SNP均不包含在本研究中。排除混雜的SNP后,共10 458個(gè)SNP納入后續(xù)分析,這些SNP在冠心病的GWAS數(shù)據(jù)中存在9108個(gè),位點(diǎn)覆蓋率為87%。工具變量的質(zhì)控流程圖如圖1所示。每個(gè)代謝物對應(yīng)的工具變量的數(shù)量的中位數(shù)為13,后續(xù)分析中排除擁有工具變量的數(shù)量小于等于3的5個(gè)代謝物和大于等于100的5個(gè)代謝物。
本研究采用IVW法作為首要的評估代謝物與冠心病之間因果關(guān)系的方法。共有32個(gè)代謝物與冠心病的因果關(guān)系效應(yīng)值達(dá)到名義上顯著(P<0.05),其中,包含已知代謝物11個(gè),未知代謝物21個(gè);未發(fā)現(xiàn)多重假設(shè)檢驗(yàn)(P<1.03×10-4)后仍然顯著的代謝物(表1)。
在11個(gè)已知的代謝物中,包括4種可能與增加冠心病發(fā)生風(fēng)險(xiǎn)相關(guān)的代謝物,即犬尿氨酸,γ-谷氨酰異亮氨酸,丁二?;鈮A,血紅素;7種可能與降低冠心病發(fā)生風(fēng)險(xiǎn)相關(guān)的代謝物,即1-甲基黃嘌呤,溶血磷脂酰膽堿,(Des-Arg9)-緩激肽,N-乙酰鳥氨酸,肉豆蔻酸酯,甘氨酸,甘露醇。
圖1 用于MR分析的工具變量質(zhì)控流程圖Fig.1 Flow chart for quality control of the instrumental variables for MR analyses.
對以上11個(gè)已知的代謝物所對應(yīng)的工具變量進(jìn)行異質(zhì)性檢驗(yàn)和基因多效性檢驗(yàn),排除2個(gè)存在異質(zhì)性或基因多效性的代謝物(犬尿氨酸和1-甲基黃嘌呤)。五種MR模型、異質(zhì)性檢驗(yàn)和基因多效性檢驗(yàn)結(jié)果見表2。剩余的9個(gè)代謝物中,有3個(gè)代謝物對應(yīng)的5種MR模型中有至少3種模型的P值小于0.05[N-乙酰鳥氨酸,(Des-Arg9)-緩激肽,丁二?;鈮A]。盡管五種MR模型都未能全部達(dá)到統(tǒng)計(jì)學(xué)意義上顯著,但是它們均具有相似的效應(yīng)值,其原因可能是因?yàn)镮VW法比其他四種MR模型擁有更高的檢驗(yàn)效能。3個(gè)代謝物的MR分析結(jié)果散點(diǎn)圖見圖2。
用1eave-one-out法對以上3個(gè)代謝物[N-乙酰鳥氨酸,(Des-Arg9)-緩激肽,丁二?;鈮A]的因果效應(yīng)進(jìn)行敏感性分析。3個(gè)代謝物中都存在至少1個(gè)SNP對結(jié)果的效應(yīng)值產(chǎn)生顯著影響,因此,對這些SNP進(jìn)行剔除后,我們重新對這3個(gè)代謝物進(jìn)行了MR分析。N-乙酰鳥氨酸,(Des-Arg9)-緩激肽和二?;鈮A的IVW法對應(yīng)的效應(yīng)值均不再顯著(表3)。
本研究運(yùn)用了公共數(shù)據(jù)庫中大規(guī)模的mGWAS和GWAS數(shù)據(jù),采用無偏倚的兩樣本孟德爾隨機(jī)化分析方法探究了486種血液代謝物與冠心病發(fā)生風(fēng)險(xiǎn)之間的因果關(guān)系。然而經(jīng)過嚴(yán)格的質(zhì)量控制,尚未找到非常有力的證據(jù)表明這些血液代謝物與冠心病的發(fā)生之間存在直接的因果關(guān)聯(lián)。
此研究中涉及的486種血液中的代謝物,盡管均未能通過多重假設(shè)檢驗(yàn)的閾值,但仍然為我們提供了11種潛在的冠心病風(fēng)險(xiǎn)預(yù)測因子。包括4種可能與增加冠心病發(fā)生風(fēng)險(xiǎn)相關(guān)的代謝物(犬尿氨酸,γ-谷氨酰異亮氨酸,丁二?;鈮A,血紅素)。其中包含的3個(gè)代謝物[即,N-乙酰鳥氨酸,(Des-Arg9)-緩激肽,丁二?;鈮A]在至少3種孟德爾隨機(jī)化模型中都達(dá)到了統(tǒng)計(jì)學(xué)顯著。本研究發(fā)現(xiàn)N-乙酰鳥氨酸和(Des-Arg9)-緩激肽可能作為潛在的保護(hù)性物質(zhì)從而降低冠心病的發(fā)生風(fēng)險(xiǎn)。N-乙酰鳥氨酸是人血去蛋白血漿中的次要成分,暫未發(fā)現(xiàn)其關(guān)于心血管研究的報(bào)道。緩激肽作為一種血管活性激肽,具有改善心功能并可以降低遠(yuǎn)期心臟事件的作用[27]。實(shí)驗(yàn)研究表明,缺乏緩激肽B2受體基因的小鼠更容易出現(xiàn)高血壓,心臟肥大和心肌損傷[28]。由此可見,(Des-Arg9)-緩激肽在保護(hù)心血管疾病和降低冠心病發(fā)生風(fēng)險(xiǎn)之間可能具有重要作用。丁二?;鈮A是來自血液和肝臟中能量代謝的中間體,已有文獻(xiàn)報(bào)道其是心血管疾病的危險(xiǎn)因素之一[29],然而其與冠心病發(fā)生之間的因果關(guān)系仍然需要后續(xù)的進(jìn)一步研究來證實(shí)。
表1 IVW方法達(dá)名義上顯著的代謝物對應(yīng)的效應(yīng)值結(jié)果Tab.1 Nominally significant results of IVW method
本研究具有如下創(chuàng)新性:(1)本研究從分子機(jī)制角度出發(fā),以血液中的代謝物為暴露因素,探究其與冠心病發(fā)生風(fēng)險(xiǎn)之間的因果關(guān)系,具有較強(qiáng)理論依據(jù)和重要臨床研究價(jià)值;(2)本研究采用嚴(yán)格的質(zhì)控條件和分析方法,運(yùn)用多種模型來評估因果效應(yīng),研究結(jié)果具有可靠性和穩(wěn)定性;(3)與既往的單一暴露因素的孟德爾隨機(jī)化研究相比,本研究中涉及的暴露因素為血液中的代謝物,數(shù)量眾多,具有十分巨大的工作量和分析挑戰(zhàn)性。本研究中也存在一定的局限性:(1)mGWAS數(shù)據(jù)和冠心病的GWAS數(shù)據(jù)均來源于歐洲人群,后續(xù)更為全面的研究仍需在不同人種之間展開;(2)初步分析得到的冠心病風(fēng)險(xiǎn)預(yù)測因子大多為未知代謝物,其功能結(jié)構(gòu)存在不確定性;(3)盡管我們采用迄今為止最大規(guī)模的mGWAS數(shù)據(jù),后續(xù)研究仍然需要進(jìn)一步擴(kuò)大的樣本量來為代謝物的遺傳影響提供更準(zhǔn)確的評估。
表2 已知代謝物的5種MR分析以及異質(zhì)性檢驗(yàn)和基因多效性檢驗(yàn)結(jié)果Tab.2 Results of 5 MR models of known metabolites and the heterogeneity and pleiotropy tests
圖2 三個(gè)具有潛在因果關(guān)系的代謝物的5種MR模型散點(diǎn)圖Fig.2 Scatter plots of the 5 MR models for 3 metabolites with potential causal relationship with CAD.A:Nacetylornithine;B:Bradykinin,des-arg(9);C:Succinylcarnitine.
表3 Leave-one-out法檢驗(yàn)剔除混雜SNP后的3種代謝物MR分析結(jié)果Tab.3 MR analysis results of the 3 metabolites after removing mixed SNP by leave-one-out method
綜上,我們采用了兩樣本孟德爾隨機(jī)化的方法探究了486種血液代謝物與冠心病的因果關(guān)系。盡管沒有發(fā)現(xiàn)這些血液代謝物與冠心病發(fā)生風(fēng)險(xiǎn)之間存在穩(wěn)健的因果關(guān)系,但本研究中發(fā)現(xiàn)的潛在的冠心病風(fēng)險(xiǎn)預(yù)測因子仍為揭示遺傳-暴露相互作用在冠心病發(fā)病機(jī)制中的作用提供了新的見解。