郭子寧,梁志生,周 儀,張 娜,黃 捷
(北京大學(xué)公共衛(wèi)生學(xué)院全球衛(wèi)生學(xué)系,北京 100191)
心血管疾病(cardiovascular disease,CVD)是一組心臟和血管疾病的統(tǒng)稱[1]。CVD是全球第一大死亡原因,2017年全球有將近兩千萬人死于CVD,這個數(shù)字遠高于肆虐全球的新冠肺炎[2]。全球范圍內(nèi),大約80%的CVD死亡發(fā)生在中低收入國家,因此CVD研究對我國的全球衛(wèi)生與健康戰(zhàn)略具有十分重要的意義[3]。
最近十余年,基因芯片的大量應(yīng)用和基因數(shù)據(jù)的大量采集催生了全基因組關(guān)聯(lián)研究(genome-wide association study,GWAS)[4],將傳統(tǒng)流行病學(xué)帶入了系統(tǒng)流行病學(xué)時代。GWAS方法不需要事先假設(shè)某個基因跟某個疾病有相關(guān)性,而是通過綜合分析基于人群大隊列的表型數(shù)據(jù)和基于高密度生物芯片檢測出來的基因型數(shù)據(jù)來快速篩選潛在致病性的單核苷酸變異位點(single nucleotide variation,SNV)。早期的芯片主要檢測次要等位基因頻率(minor allele frequency,MAF)高于1%的SNV,這樣的SNV也稱為單核苷酸多態(tài)(single nucleotide polymorphism,SNP)。
由于CVD是全球第一大死亡原因,最近十多年來GWAS的研究很多,也發(fā)現(xiàn)了很多CVD相關(guān)的易感基因位點,并且對疾病的預(yù)測和預(yù)防產(chǎn)生了積極的影響[5]。但是傳統(tǒng)的方法主要聚焦于臨床的定義,一些聽起來似乎比較簡單的某種CVD(如冠心病或心肌梗死),可能有著非常復(fù)雜的臨床和病生理標準。而本研究從公共衛(wèi)生的角度出發(fā),完全基于世界衛(wèi)生組織(World Health Organization,WHO)頒布的國際疾病分類標準(International Classification of Diseases,ICD)對心血管疾病進行分類。目前常用的是第10次修訂版本(ICD-10),該版本于1990年修訂完成[6]。雖然從臨床和衛(wèi)生經(jīng)濟學(xué)的角度來說很有必要把疾病分門別類,但是ICD的分類標準是否有足夠的分子生物學(xué)依據(jù),這一點尚不很清楚。因此,本研究從分子生物學(xué)的角度特別是從基因組學(xué)的層面來探索同一疾病大類(如CVD)之下的疾病亞型之間的異同,通過甄別不同疾病亞型的基因?qū)W特點來更好地詮釋基于臨床的ICD分類。
本研究以英國生物樣本庫(UK Biobank,UKB)人群為研究對象[7]。UKB于2006—2010年招募了50多萬名當時年齡在40~69歲的志愿者。在基因數(shù)據(jù)方面,UKB所采用的基因芯片包含約80萬個SNV,直接測定的這些數(shù)據(jù)通過基因數(shù)據(jù)“填補”(imputation)的方法得到大約9 600萬個SNV[7]。英國生物庫項目獲得了英國國家研究倫理委員會North West-Haydock的批準(REC reference:11/NW/0382),獲得了全部參與者的電子簽名知情同意書。本研究所使用的UKB數(shù)據(jù)經(jīng)過嚴格的申請和審批程序獲得,不涉及任何生物樣本的存儲、轉(zhuǎn)運和實驗操作。
本研究排除了非白色人種族的樣本,以及具有三代之內(nèi)血緣關(guān)系的樣本,研究的對照組是不具有任何CVD-10亞型的樣本(不具有ICD-10代碼或者ICD-10代碼不以“I”字母開頭),UKB的CVD患者根據(jù)ICD-10分類共分為10個亞型。本研究排除了樣本量非常少的兩個亞型和沒有明確歸類的兩個亞型。為了提高CVD亞型患者的“純凈度”,本研究排除了那些被同時診斷為多個亞型的患者。鑒于CVD患者中具有高血壓疾病亞型ICD-10代碼的人數(shù)高達62.5%,本研究在定義CVD亞型的時候不排除高血壓疾病,也就是說,當一個患者同時具有而且只有亞型X和高血壓疾病的時候,該患者仍然被分類到亞型X,而不是被排除掉。按照這種分類方法,本研究分析的亞型有5個,不單獨研究高血壓亞型。這5個CVD亞型分別為(1)缺血性心臟病(ischaemic heart diseases,IHD),(2)肺源性心臟病和肺循環(huán)疾病(pulmonary heart disease and diseases of pulmonary circulation,PHD),(3)腦血管疾病(cerebrovascular diseases,CRB),(4)動脈、小動脈和毛細血管疾病(diseases of arteries,arterioles and capil-laries,AAC),(5)靜脈、淋巴管和淋巴結(jié)疾病,不可歸類在他處者(diseases of veins,lymphatic vessels and lymph nodes,not elsewhere classified,VLL)。
本研究使用R軟件從UKB數(shù)據(jù)庫中提取出所有樣本的ICD-10代碼,以及樣本的年齡、性別、吸煙情況(1=既往或當前吸煙,0=從不吸煙)、飲酒情況(1=既往或當前飲酒,0=從不飲酒)等基本特征表型指標。分類變量通過R軟件做卡方檢驗計算。連續(xù)變量進行數(shù)據(jù)分布的正態(tài)性檢驗,如果符合正態(tài)分布,則進行t檢驗;如果不符合,則進行秩和檢驗。
根據(jù)UKB官方發(fā)布的流程下載經(jīng)過填充后的基因數(shù)據(jù),并根據(jù)以下3個標準排除符合其中任何一個標準的SNV:(1)基因填充的準確率<0.4;(2)哈迪-溫伯格平衡(Hardy-Weinberg equilibrium,HWE)P<1×10-10;(3)最小等位基因頻率 <1×10-4。經(jīng)過上述篩選后得到大約2 100萬個SNV,供本研究分析使用。
GWAS分析使用PLINK軟件中的glm功能進行Logistic回歸[8]。每一個疾病的亞型(0或1或NA)是因變量,每一個基因變異的值(0到2)是自變量,而年齡、性別、基因主成分(principal components,PC)作為混淆因素加以控制。使用國際上通用的P≤5×10-8作為標準衡量基因型是否與疾病亞型有統(tǒng)計顯著性關(guān)聯(lián),并使用Locuszoom軟件對每個GWAS得出的顯著性位點進行描述[9]。
通過GWAS分析得到的與表型相關(guān)的SNV位點并不一定真實客觀地描述遺傳因素對表型的效應(yīng)。除了真正的基因效應(yīng),還有群落分層和樣本間隱藏的親緣關(guān)系等混淆因素。盡管GWAS分析可以通過控制協(xié)變量來校正群落分層等因素,但仍然無法消除其他混淆因素。本研究采用了國際上通用的連鎖不平衡得分回歸(linkage disequilibrium score regression,LDSC)方法來計算混淆因素的占比。對于多個表型,LDSC可以根據(jù)對應(yīng)的卡方統(tǒng)計量來計算表型間的遺傳相似度[10]。無論是表型相關(guān)性還是基因相關(guān)性,都不代表因果關(guān)聯(lián)。本研究采用基于匯總數(shù)據(jù)的廣義孟德爾隨機化法(generalized summary data-based Mendelian randomization,GSMR)來研究表型之間的因果關(guān)聯(lián)。與傳統(tǒng)的孟德爾隨機化(Mendelian randomization,MR)方法相比,GSMR提供工具變量異質(zhì)性檢驗的方法(heterogeneity in dependent instrument,HEIDI)來識別基因多效性,并將存在多效性的工具變量篩選出來后剔除[11]。
本研究的總樣本量為380 083人,對照組為246 437人。跟對照組相比,五大亞型組的年齡顯著偏高,P均<0.05,五大亞型組的性別比例與對照組有明顯差距,P值<0.05(表1)。除了VLL組中女性比例高于對照組外,其他四大亞型組均為男性比例顯著偏高。五大亞型組與對照組的體重指數(shù)(body mass index,BMI)也有顯著差異,亞型組的BMI均高于對照組。所有亞型組和對照組相比,吸煙人數(shù)都顯著偏高,而只有兩個亞型組的飲酒量(PHD亞型、AAC亞型)與對照組相比差異有統(tǒng)計學(xué)意義。
表1 CVD五大亞型組和對照組的基本特征Table 1 Characteristics of participants in five cardiovascular diseases (CVD) subtypes and in control group
五個GWAS的曼哈頓圖(圖1)縱坐標表示每個SNP的-lgP值,橫坐標表示SNP在染色體上的位置,紅色的斷續(xù)橫線表示GWAS通用的顯著性閾值P=5×10-8。與五大CVD亞型相關(guān)聯(lián)的顯著性基因位點見表2。
IHD,ischaemic heart diseases;PHD,pulmonary heart disease and diseases of pulmonary circulation;CRB,cerebrovascular diseases;AAC,diseases of arteries,arterioles and capillaries;VLL,diseases of veins,lymphatic vessels and lymph nodes,not elsewhere classified.圖1 五大亞型GWAS的曼哈頓圖Figure 1 Manhattan plots of five CVD subtypes
通過PLINK的聚集功能識別GWAS中相互獨立的基因座。顯著基因座(或統(tǒng)稱“區(qū)域”)的定義是基因組上100萬個堿基對區(qū)間(1Mb)其中有至少一個SNP的P≤5×10-8。表2的第1列為所有統(tǒng)計顯著性的基因位點數(shù)量,第2列為相互獨立的基因座數(shù)量。通過文獻檢索,本研究報道了28個新的基因座(表2第3列和表3),其中8個是罕見變異(MAF≤1%)。新發(fā)現(xiàn)的定義是本研究中發(fā)現(xiàn)的顯著性SNP的1Mb范圍內(nèi)未見已經(jīng)公開發(fā)表過的相關(guān)信號。
表2 與五大CVD亞型相關(guān)聯(lián)的顯著性基因位點Table 2 Significant loci associated with CVD subtypes
既往的GWAS經(jīng)常忽略對X染色體的分析,因此本研究所發(fā)現(xiàn)的一個與CRB顯著相關(guān)的X染色體基因區(qū)域值得關(guān)注。如圖2所示,該區(qū)域最顯著的SNV的位置為ChrX:63179140(基于GRCh37版本),沒有rsID,表明此前對該SNV鮮有研究。雖然該SNV的P值僅為2.79×10-8,但由于MAF很低,在CRB病例組和對照組的頻率相差很大(分別為0.2%和0.04%)。離該SNV最近的上下游基因分別為ARHGEF9和AMER1,其中AMER1基因的缺陷是導(dǎo)致頭顱硬化的紋狀體骨病變的原因[12]。此前文獻報道過的該區(qū)域相關(guān)表型包括Wilms腫瘤和胃癌[13],但是未見與CVD相關(guān)聯(lián)的報道。
根據(jù)LDSC方法計算得到五大亞型的基因相關(guān)性(表4),五個亞型之間共進行了10次的兩兩比較,因此統(tǒng)計顯著性P值設(shè)定為小于5.00×10-3,即0.05/10。根據(jù)這一閾值,表4前3個組合,IHD和VLL(P=2.52×10-7)、IHD和PHD(P=3.77×10-3)、IHD和AAC(P=4.90×10-3)之間具有顯著的基因相關(guān)性,其中IHD和VLL之間的基因相關(guān)性的統(tǒng)計顯著性最強,而IHD和AAC之間的基因相關(guān)性的相關(guān)系數(shù)最高(Rg=0.74)。
LD ref var,linkage disequilibrium reference variant.圖2 與CRB相關(guān)的X染色體區(qū)域LocusZoom圖Figure 2 LocusZoom plot of the chromosome X locus associated with CRB
表4 CVD五個亞型相互之間的基因相關(guān)性Table 4 Genetic correlations among five CVD subtypes
根據(jù)GSMR方法計算得到的五大亞型之間的因果關(guān)聯(lián)性結(jié)果(表5),上述的LDSC方法對每一對亞型的組合只需要分析一次,而GSMR需要對每一對亞型的組合分析兩次,即正向因果關(guān)系和反向因果關(guān)系,因此,一共有20次計算,相應(yīng)的將統(tǒng)計顯著性閾值設(shè)定為P=2.50×10-3(即0.05/20)。根據(jù)該標準,表5前面4組亞型具有正向因果相關(guān)。有因果性的四對中,反向因果關(guān)系皆不成立,與上述的LDSC分析結(jié)果相吻合的是統(tǒng)計顯著性最強的亞型組合是IHD和VLL。
表5 五個亞型相互之間的孟德爾隨機化因果關(guān)系Table 5 Mendelian randomization based causal effects among CVD subtypes
我國CVD患病率持續(xù)上升,目前患病人數(shù)超過3億,位居城鄉(xiāng)居民總死亡原因首位,成為我國的重要疾病負擔(dān),因此防治CVD刻不容緩。國際權(quán)威的心血管隊列研究——弗雷明翰研究(Framingham heart study,F(xiàn)HS) 表明,當雙親有一方有早發(fā)心血管疾病史,子女比無家族史個體患CVD的風(fēng)險顯著增加[14]。因此,深入系統(tǒng)地研究CVD的基因易感性非常必要。
本研究使用英國樣本庫50萬人大型隊列數(shù)據(jù),根據(jù)ICD-10對CVD疾病亞型的分型,對IHD、PHD、CRB、AAC、VLL 5種常見CVD亞型進行了系統(tǒng)的研究。從表型的定義,到5個GWAS的分析,到采用國際上通用的統(tǒng)計學(xué)方法和軟件(LDSC、GSMR),本研究具有一定的廣度和深度。本研究圍繞的關(guān)鍵問題是為世界衛(wèi)生組織發(fā)布的ICD標準提供系統(tǒng)分子生物學(xué)依據(jù)。本研究新發(fā)現(xiàn)了多個基因位點,并做了進一步的基因相關(guān)性和因果性分析。
本研究采用了完全基于ICD代碼的CVD亞型分類方法,目的是從分子生物學(xué)的角度為完全基于臨床特征的ICD分類方法提供分子生物學(xué)依據(jù)。本研究的數(shù)據(jù)來自國際權(quán)威的大隊列UKB,表型和基因型數(shù)據(jù)經(jīng)過國際專業(yè)團隊的提煉和質(zhì)控,所采用的軟件也是國際通用的,因此本研究所得出的結(jié)果可以被完全重復(fù)。
但是本研究仍存在一定局限性:(1)由于數(shù)據(jù)來源的限制,目前只研究了白種人的數(shù)據(jù);(2)同樣由于數(shù)據(jù)的限制,GWAS的結(jié)果沒有進行驗證;(3)雖然UKB隊列的總體樣本數(shù)很大,但是本研究包括的五大亞型的病例組樣本數(shù)量相對很有限,因此GWAS得到的位點也很少,這在一定程度上會影響到后續(xù)的基因關(guān)聯(lián)度和因果分析的準確性。
綜上所述,本研究針對全球健康領(lǐng)域一個重要的問題,通過具有深度(GWAS、LDSC、GSMR)和廣度(大隊列的基因組數(shù)據(jù)和ICD-10 的臨床數(shù)據(jù))的系統(tǒng)分析,得到了一些新的發(fā)現(xiàn),并為后續(xù)的類似研究提供了參考。期待將來有更多的研究來驗證本研究新發(fā)現(xiàn)的基因位點,有更深層次的蛋白質(zhì)組學(xué)和代謝組學(xué)研究來豐富ICD-10的研究,從而為國際通用的ICD-10以及即將到來的ICD-11提供更多的分子生物學(xué)依據(jù)。