逯靜茹 綜述 劉志紅 審校
隨著基因組學(xué)等各種“組學(xué)”技術(shù)的發(fā)展以及高通量測(cè)序技術(shù)等生物技術(shù)的進(jìn)步,生物醫(yī)學(xué)數(shù)據(jù)的積累呈指數(shù)級(jí)增長,開創(chuàng)了數(shù)據(jù)驅(qū)動(dòng)醫(yī)學(xué)研究的新時(shí)代。如何從海量生物學(xué)數(shù)據(jù)中挖掘出最有用的信息,是對(duì)生命科學(xué)以及醫(yī)學(xué)研究的一個(gè)巨大挑戰(zhàn)。大數(shù)據(jù)和人工智能算法的融合使人類從前所未有的視角來了解危險(xiǎn)因素與疾病風(fēng)險(xiǎn)間的因果關(guān)聯(lián),為系統(tǒng)解讀疾病的病因及發(fā)生發(fā)展機(jī)制提供新思路。
孟德爾隨機(jī)化方法(Mendelian randomization,MR)是將人類復(fù)雜性狀和疾病風(fēng)險(xiǎn)相關(guān)的基因組數(shù)據(jù)整合到傳統(tǒng)的流行病學(xué)研究設(shè)計(jì)中,借助個(gè)體的遺傳信息來推斷危險(xiǎn)因素(暴露)與疾病風(fēng)險(xiǎn)(結(jié)局)的因果關(guān)聯(lián)[1-2],從而反映兩者之間的真實(shí)聯(lián)系。而且,MR彌補(bǔ)了傳統(tǒng)流行病學(xué)研究的不足,尤其在隨機(jī)對(duì)照試驗(yàn)難以實(shí)施、觀察性研究由于混雜因素或反向因果關(guān)聯(lián)而使結(jié)果偏倚時(shí)具有重要應(yīng)用價(jià)值[2]。
以基因組為代表的多組學(xué)大數(shù)據(jù)仍將不斷涌現(xiàn),亟需加速向醫(yī)學(xué)應(yīng)用領(lǐng)域滲透,才能進(jìn)一步服務(wù)于醫(yī)療決策和疾病的防診治管理。基于基因組數(shù)據(jù)推斷相關(guān)危險(xiǎn)因素與疾病風(fēng)險(xiǎn)間的因果關(guān)聯(lián),有效促進(jìn)了大數(shù)據(jù)向臨床應(yīng)用的轉(zhuǎn)化。目前,MR已廣泛應(yīng)用于醫(yī)學(xué)研究。本文綜述了MR的設(shè)計(jì)、分析步驟、研究類型、局限性及其在慢性腎臟病(CKD)、糖尿病腎病(DN)方面的應(yīng)用,為更深層面認(rèn)識(shí)疾病以及科學(xué)防治開拓思路。
研究設(shè)計(jì)隨著人類基因組計(jì)劃、人類基因組單體型圖計(jì)劃(HapMap)、千人基因組計(jì)劃的順利完成,研究人員已獲得人類基因組中常見變異位點(diǎn)的詳細(xì)圖譜。在此基礎(chǔ)上,全基因組關(guān)聯(lián)研究(GWAS)得以迅猛發(fā)展,復(fù)雜疾病或性狀相關(guān)的基因組數(shù)據(jù)激增[3],催生了MR的出現(xiàn)及應(yīng)用。
MR設(shè)計(jì)的核心是工具變量的使用。工具變量的概念起源于計(jì)量經(jīng)濟(jì)學(xué),后來廣泛被醫(yī)學(xué)研究所采用[4]。工具變量是指與目標(biāo)危險(xiǎn)因素相關(guān),但與其他因素或混雜因素?zé)o關(guān)的可測(cè)量的變量。在MR研究設(shè)計(jì)中,將遵循孟德爾遺傳定律的遺傳變異作為工具變量,指代無法測(cè)量的待研究危險(xiǎn)因素。通過分析遺傳變異與危險(xiǎn)因素、遺傳變異與疾病風(fēng)險(xiǎn)的關(guān)聯(lián),進(jìn)而推斷危險(xiǎn)因素與疾病風(fēng)險(xiǎn)之間的因果關(guān)聯(lián)[5]。Katan[6]于1986年首次提出這一概念。由于研究基于孟德爾第二遺傳定律,即在人類配子形成過程中,親代等位基因隨機(jī)分配給子代,所以稱之為孟德爾隨機(jī)化研究。
MR的分析模型為“遺傳變異-危險(xiǎn)因素-疾病風(fēng)險(xiǎn)”。已知遺傳變異與危險(xiǎn)因素強(qiáng)相關(guān),如果該危險(xiǎn)因素與疾病風(fēng)險(xiǎn)有因果關(guān)聯(lián),那么攜帶這些遺傳變異也會(huì)改變疾病風(fēng)險(xiǎn)。MR使用相反的思路進(jìn)行推斷:已知遺傳變異與危險(xiǎn)因素強(qiáng)相關(guān),通過分析遺傳變異是否與疾病風(fēng)險(xiǎn)有關(guān),從而推導(dǎo)危險(xiǎn)因素與疾病風(fēng)險(xiǎn)的因果關(guān)系。
傳統(tǒng)的醫(yī)學(xué)統(tǒng)計(jì)學(xué)及流行病學(xué)研究存在一定局限性。傳統(tǒng)的相關(guān)性分析包括相關(guān)分析和回歸分析兩種統(tǒng)計(jì)學(xué)手段。其基于既定參數(shù)模型進(jìn)行統(tǒng)計(jì)分析所得到的關(guān)聯(lián)性結(jié)果,僅能說明變量間存在伴隨協(xié)變的趨勢(shì),無法直接推論變量間的因果關(guān)聯(lián)[7]。另外,由于常受到潛在混雜因素及反向因果關(guān)聯(lián)的影響,傳統(tǒng)觀察性研究的結(jié)果也無法直接反映因果關(guān)系[8]。隨機(jī)對(duì)照試驗(yàn)(RCTs)是檢驗(yàn)醫(yī)學(xué)相關(guān)暴露與結(jié)局之間因果關(guān)系的金標(biāo)準(zhǔn)。然而,RCTs實(shí)施難度較大,常受到醫(yī)學(xué)倫理的限制,且有較高的失敗率[9]。
MR可以彌補(bǔ)上述傳統(tǒng)方法的不足。MR依賴于減數(shù)分裂過程中遺傳變異的自然、隨機(jī)分配,使得遺傳變異在人群中隨機(jī)分布[10]。個(gè)體在出生時(shí)自然、隨機(jī)地?cái)y帶了影響危險(xiǎn)因素的遺傳變異,如導(dǎo)致低密度脂蛋白膽固醇(LDL-C)水平升高的遺傳變異或不遺傳該變異。在給定人群中,根據(jù)是否攜帶該遺傳變異將人群進(jìn)行分組,進(jìn)而比較兩組間結(jié)局的發(fā)生情況。這種基于個(gè)體與生俱來的遺傳變異進(jìn)行分組的方式是完全隨機(jī)的,不受人群其他特征、環(huán)境、社會(huì)經(jīng)濟(jì)地位等混雜因素的干擾,且因果時(shí)序合理,類似于隨機(jī)對(duì)照試驗(yàn)中的隨機(jī)分組過程。兩個(gè)攜帶不同等位基因亞組間的疾病風(fēng)險(xiǎn)差異將表明該風(fēng)險(xiǎn)因素(如LDL-C)對(duì)疾病的因果效應(yīng)。
在臨床應(yīng)用中,MR不僅有助于了解疾病病因,還能為疾病治療提供新策略。例如,幾項(xiàng)大型的觀察性研究均表明血漿LDL-C水平降低與冠心病發(fā)生率降低相關(guān),但這些研究難以避免LDL-C相關(guān)因素的混雜作用。研究表明前蛋白轉(zhuǎn)化酶枯草桿菌蛋白酶Kexin 9型(PCSK9)基因的變異與LDL-C水平的降低有關(guān)。PCSK9是一種糖蛋白,主要在肝臟中合成,可與肝臟表面的LDL受體結(jié)合,減弱肝臟代謝血漿LDL-C的能力,從而導(dǎo)致LDL-C水平升高。MR使用PCSK9基因變異分析LDL-C與冠心病的關(guān)系。證據(jù)表明遺傳變異與LDL-C水平相關(guān),同時(shí)也與冠心病風(fēng)險(xiǎn)相關(guān)。該研究為LDL-C對(duì)冠心病的因果關(guān)聯(lián)提供支持證據(jù),而且提示PCSK9可能是降低LDL-C的新靶標(biāo)[11]。目前,已證實(shí)PCSK9單克隆抗體作為新型降脂藥可將LDL-C降至前所未有的水平,并且對(duì)心血管疾病具有保護(hù)作用。
研究步驟MR設(shè)計(jì)主要包括三個(gè)步驟:(1)確定待研究的危險(xiǎn)因素(暴露)和疾病風(fēng)險(xiǎn)(結(jié)局),可在觀察性研究設(shè)計(jì)中檢測(cè)兩者的相關(guān)性。(2)選擇合適的遺傳變異[由GWAS獲得與危險(xiǎn)因素顯著相關(guān)的單核苷酸多態(tài)性(SNP)]作為工具變量。(3)MR統(tǒng)計(jì)學(xué)分析,檢測(cè)與危險(xiǎn)因素相關(guān)的遺傳變異是否也與疾病風(fēng)險(xiǎn)相關(guān),以評(píng)估危險(xiǎn)因素對(duì)疾病風(fēng)險(xiǎn)的因果效應(yīng)。
上述工具變量(遺傳變異)的選擇是研究的關(guān)鍵步驟。MR研究的工具變量(遺傳變異)必須滿足三個(gè)核心假設(shè):①工具變量(遺傳變異)必須與危險(xiǎn)因素密切相關(guān);②工具變量(遺傳變異)不得與影響“危險(xiǎn)因素-疾病風(fēng)險(xiǎn)”關(guān)系的混雜因素相關(guān);③工具變量(遺傳變異)只能通過危險(xiǎn)因素與疾病風(fēng)險(xiǎn)相關(guān)聯(lián),而不能通過其他途徑影響疾病風(fēng)險(xiǎn)(圖1)[5]。當(dāng)任一假設(shè)不成立時(shí),將難以準(zhǔn)確推斷因果關(guān)聯(lián)。弱工具變量、遺傳變異的多效性、人群分層、連鎖不平衡等因素均可能導(dǎo)致假設(shè)的不成立,因此在進(jìn)行MR統(tǒng)計(jì)學(xué)分析前需對(duì)三個(gè)核心假設(shè)進(jìn)行評(píng)估以保證結(jié)果的可靠性[1]。
圖1 孟德爾隨機(jī)化方法中工具變量的三個(gè)核心假設(shè)[5]
研究類型目前常用的MR研究類型包括單樣本、兩樣本、雙向和兩階段MR等[1-2]。經(jīng)典研究設(shè)計(jì)是單樣本MR,指研究人群來自同一研究樣本。可以使用個(gè)體水平數(shù)據(jù),在同一樣本中測(cè)量危險(xiǎn)因素(暴露)、疾病風(fēng)險(xiǎn)(結(jié)局)和遺傳變異(工具變量)。兩樣本MR指遺傳變異和危險(xiǎn)因素之間以及遺傳變異和疾病風(fēng)險(xiǎn)之間的關(guān)聯(lián)數(shù)據(jù)來自相同人群的兩個(gè)獨(dú)立樣本。通常使用既往GWAS研究的匯總數(shù)據(jù),也可使用個(gè)體水平的數(shù)據(jù)。兩樣本MR要求兩個(gè)樣本具有相似的年齡、性別和種族分布。該方法無需評(píng)估危險(xiǎn)因素和疾病風(fēng)險(xiǎn)的關(guān)聯(lián)信息就可以進(jìn)行因果推斷[1]。雙向MR主要用于危險(xiǎn)因素和疾病風(fēng)險(xiǎn)的因果方向不確定時(shí),從兩個(gè)方向分別進(jìn)行了MR分析,以確定兩者因果關(guān)聯(lián)的方向。兩階段MR可以檢測(cè)危險(xiǎn)因素和疾病風(fēng)險(xiǎn)之間的因果關(guān)系被感興趣的中間變量介導(dǎo)的程度。兩階段MR方法的發(fā)展源于表觀遺傳流行病學(xué),用于研究甲基化介導(dǎo)暴露與醫(yī)學(xué)相關(guān)結(jié)局之間因果關(guān)聯(lián)的程度[12]。目前也常使用其他變量如生物標(biāo)志物等作為中間變量進(jìn)行評(píng)估。
局限性雖然MR優(yōu)于傳統(tǒng)的觀察性流行病學(xué)研究,但其也存在一定的局限性:(1)難以獲取合適的遺傳變異。盡管已發(fā)現(xiàn)了大量與復(fù)雜性狀相關(guān)的遺傳位點(diǎn),但仍有一些感興趣的危險(xiǎn)因素由于缺少GWAS研究或公開數(shù)據(jù)資源等原因而難以獲得相關(guān)的遺傳變異。即使獲取了遺傳變異,也可能由于不滿足3個(gè)核心假設(shè)而無法有效推斷因果關(guān)聯(lián)。(2)統(tǒng)計(jì)能力不足。統(tǒng)計(jì)能力不足會(huì)減低結(jié)果的準(zhǔn)確性。MR研究中統(tǒng)計(jì)能力的決定因素包括遺傳變異的頻率、遺傳變異對(duì)危險(xiǎn)因素的效應(yīng)量以及研究樣本量。將多個(gè)變異整合為多基因風(fēng)險(xiǎn)評(píng)分或增加樣本量有助于提高統(tǒng)計(jì)能力。(3)結(jié)果不易解讀。大多數(shù)遺傳變異的生物學(xué)機(jī)制尚不清楚,這使得難以解釋因果關(guān)聯(lián)中潛在的作用機(jī)制。結(jié)合生物學(xué)知識(shí)、生物信息學(xué)分析和后續(xù)的基礎(chǔ)實(shí)驗(yàn)將有助于研究結(jié)果的解讀。(4)Beavis效應(yīng):復(fù)雜疾病或性狀通常與大量基因位點(diǎn)相關(guān),而GWAS研究僅報(bào)道最顯著的小部分遺傳變異,這可能高估了遺傳變異與危險(xiǎn)因素的關(guān)聯(lián),從而影響MR研究中的因果推斷。
全球CKD發(fā)病率高達(dá)10%,其可能導(dǎo)致終末期腎病(ESRD),并與預(yù)期壽命縮短有關(guān)[13]。CKD的治療選擇有限,主要集中在控制血壓、減少蛋白尿和并發(fā)癥。大量MR研究顯示,多種生物標(biāo)志物、伴發(fā)疾病以及生活方式與CKD間存在因果關(guān)聯(lián),為CKD患者的科學(xué)管理提供新的理論依據(jù)。
生物標(biāo)志物與CKD 尿酸、血脂等多個(gè)生化指標(biāo)的異常與CKD的因果關(guān)系尚不明確,借助MR方法使用生物標(biāo)志物相關(guān)的遺傳變異作為工具變量探討其與CKD的因果關(guān)聯(lián)具有重要意義,相應(yīng)研究已取得了一定進(jìn)展。既往觀察性研究一致表明血尿酸水平與CKD風(fēng)險(xiǎn)之間有很強(qiáng)的正相關(guān)性[14],但兩者之間是否存在因果關(guān)系仍然未知。Jordan等[15]使用多個(gè)歐洲隊(duì)列進(jìn)行了大樣本MR分析(n>400 000),從GWAS薈萃分析(n=110 347)中選取26個(gè)與尿酸相關(guān)的SNP作為工具變量,推斷其與CKD的因果關(guān)聯(lián)。MR分析未發(fā)現(xiàn)尿酸水平與CKD風(fēng)險(xiǎn)有因果關(guān)聯(lián)的證據(jù)(所有P>0.05),表明單純降低尿酸水平可能并不會(huì)降低CKD發(fā)生風(fēng)險(xiǎn)。這一結(jié)論否定了既往觀察性研究得到的關(guān)聯(lián)結(jié)果,主要?dú)w因于MR在很大程度上避免了潛在混雜因素對(duì)結(jié)果的干擾。
既往流行病學(xué)研究顯示血脂水平與CKD風(fēng)險(xiǎn)的相關(guān)性仍存在諸多爭(zhēng)議,并且難以證明因果關(guān)聯(lián)。為探究血脂水平與CKD的因果關(guān)聯(lián),Lanktree等[16]使用了全球血脂遺傳合作組的188 577例歐洲個(gè)體的GWAS數(shù)據(jù)和CKD遺傳學(xué)合作組的133 814例歐洲個(gè)體的GWAS數(shù)據(jù)進(jìn)行了兩樣本MR研究,發(fā)現(xiàn)高密度脂蛋白膽固醇(HDL-C)水平每升高17 mg/dl導(dǎo)致估算的腎小球?yàn)V過率(eGFR)升高0.8%(95%CI 0.4%~1.3%)、CKD風(fēng)險(xiǎn)降低15%(OR=0.85; 95%CI 0.77~0.93)。這表明較高的HDL-C水平可能與腎功能改善及CKD風(fēng)險(xiǎn)降低有因果關(guān)聯(lián)[16-17]。
CKD存在明顯的性別差異,男性的腎功能下降速度快于女性,并且在CKD透析前的各個(gè)階段,男性的死亡率更高。然而,尚不清楚CKD性別差異的原因。為此,Zhao等[18-20]借助英國生物銀行隊(duì)列(UK Biobank)的GWAS數(shù)據(jù)進(jìn)行了一系列的MR研究,分別選擇與睪酮[18]、性激素結(jié)合球蛋白(SHBG)[19]、胰島素抵抗[20]強(qiáng)相關(guān)的SNP作為工具變量,探討其在179 916例男性以及212 079例女性中與CKD的性別特異性關(guān)聯(lián)。結(jié)果表明睪酮、SHBG、胰島素抵抗可能是男性CKD的潛在病因,而與女性無關(guān)。作者借助MR方法證實(shí)了多個(gè)導(dǎo)致CKD性別差異的原因,為CKD病因?qū)W提供了新線索。
其他疾病與CKD MR除了探討CKD與其生物標(biāo)志物的病因聯(lián)系,也探討了與其他疾病的因果關(guān)聯(lián)。傳統(tǒng)觀察性研究表明甲狀腺功能減退與CKD風(fēng)險(xiǎn)增加有關(guān),而腎臟疾病也可能引起甲狀腺功能減退[21-22]。然而,甲狀腺功能減退與CKD之間的因果關(guān)系及方向尚無定論。Ellervik等[23]使用女性基因組健康研究和CKD遺傳學(xué)合作組的基因組數(shù)據(jù)進(jìn)行雙向MR研究以推斷因果方向。遺傳證據(jù)表明甲狀腺功能減退使甲狀腺刺激素(TSH)和甲狀腺過氧化物酶抗體(TPOAb)增加,從而導(dǎo)致eGFR減少和CKD風(fēng)險(xiǎn)增加。反之,則因果關(guān)聯(lián)不成立。這為CKD的發(fā)生發(fā)展機(jī)制及防治管理提供了重要參考。
生活行為習(xí)慣與CKD 生活習(xí)慣的改變可能會(huì)對(duì)公眾健康產(chǎn)生重大影響,因此探索各種生活行為習(xí)慣與疾病的因果關(guān)聯(lián)具有重大意義[24-25]。在全球范圍內(nèi),每天消費(fèi)超過20億杯咖啡。流行病學(xué)研究顯示經(jīng)常喝咖啡的人CKD發(fā)生風(fēng)險(xiǎn)較低[26],但是這些研究可能存在高血壓、肥胖、吸煙等混雜因素的干擾。Kennedy等[24]基于UK Biobank和CKD遺傳學(xué)合作組的GWAS數(shù)據(jù),選擇與咖啡消費(fèi)相關(guān)的25個(gè)獨(dú)立SNP作為工具變量,評(píng)估飲用咖啡與CKD的因果關(guān)聯(lián)。MR研究結(jié)果表明每天多喝一杯咖啡,CKD 3~5期的風(fēng)險(xiǎn)降低16%(OR=0.84; 95%CI 0.72~0.98),并且與更高的eGFR水平相關(guān)(β=0.022;P=1.6×10-6)。該研究提供了咖啡對(duì)腎功能有益的依據(jù)。
DN是糖尿病常見的并發(fā)癥,其發(fā)病機(jī)制較為復(fù)雜,現(xiàn)有的治療干預(yù)措施只能部分延緩DN的發(fā)生和發(fā)展,約有50%的DN患者可進(jìn)展至ESRD。借助MR研究進(jìn)行因果推斷可幫助揭示DN的發(fā)病機(jī)制,并為新的治療策略提供參考依據(jù)。
肥胖被認(rèn)為是DN的獨(dú)立危險(xiǎn)因素,但尚不明確兩者之間是否存在因果關(guān)系。為此,Todd等[27]從歐洲最大的GWAS研究[28]中選取32個(gè)與體質(zhì)量指數(shù)(BMI)相關(guān)的SNP位點(diǎn),針對(duì)上述位點(diǎn)對(duì)6 049例1型糖尿病患者進(jìn)行基因分型,進(jìn)一步計(jì)算加權(quán)遺傳風(fēng)險(xiǎn)評(píng)分并將其作為BMI的工具變量,從而進(jìn)行MR分析以推斷BMI與DN的因果關(guān)聯(lián)。遺傳證據(jù)顯示BMI每升高1 kg/m2會(huì)導(dǎo)致ESKD風(fēng)險(xiǎn)增加43%(OR=1.43, 95%CI 1.20~1.72)、DN風(fēng)險(xiǎn)增加33%(OR=1.33, 95%CI 1.17~1.51),表明肥胖與DN具有因果關(guān)聯(lián)。
DN篩查主要基于反映腎小球損害的白蛋白排泄率(AER)或eGFR。然而,腎小管損傷也可能在DN進(jìn)展中起重要作用。研究證實(shí),急性腎損傷分子1(KIM-1)是急性腎損傷或CKD的生物標(biāo)志物[29],但尚未在1型糖尿病患者中研究KIM-1與腎功能的潛在因果關(guān)系。Panduru等[30]基于1 573例1型糖尿病患者的GWAS數(shù)據(jù)進(jìn)行了MR研究,選擇與尿液KIM-1水平強(qiáng)相關(guān)的rs2036402作為工具變量,推斷其與腎功能的因果關(guān)聯(lián)。遺傳證據(jù)表明KIM-1水平升高可導(dǎo)致eGFR降低,且獨(dú)立于糖尿病病程和AER(β=25.044;P=0.040),提示KIM-1與1型糖尿病患者的腎功能間存在因果關(guān)聯(lián)。
其他MR研究的遺傳學(xué)證據(jù)表明補(bǔ)體C3[31]、循環(huán)同型半胱氨酸[32]水平升高與DN風(fēng)險(xiǎn)增加有因果關(guān)聯(lián),而且尿觸珠蛋白[33]水平升高可促進(jìn)DN進(jìn)展。然而,可溶性晚期糖基化終產(chǎn)物受體[34]、血清尿酸濃度[35]與DN進(jìn)展無直接因果關(guān)聯(lián)。值得注意的是,目前DN相關(guān)的MR研究主要集中在1型糖尿病中[27,30,34-35],而2型糖尿病患者的相應(yīng)研究較少[32-33],主要由于受到了GWAS及相應(yīng)基因組數(shù)據(jù)的限制。期待在2型糖尿病患者中開展更多相關(guān)研究,為其病因解讀及防治策略提供新見解。
小結(jié):MR是從遺傳學(xué)依據(jù)中進(jìn)行因果推斷,借助個(gè)體的遺傳標(biāo)志來反映相關(guān)危險(xiǎn)因素和疾病風(fēng)險(xiǎn)間可能的因果聯(lián)系。通常由GWAS獲得與危險(xiǎn)因素強(qiáng)相關(guān)的遺傳變異作為工具變量,進(jìn)而推斷其與疾病風(fēng)險(xiǎn)的因果關(guān)聯(lián)。該方法彌補(bǔ)了傳統(tǒng)研究的不足,在很大程度上減少了混雜因素對(duì)結(jié)果的影響,避免了反向因果關(guān)系和回歸稀釋偏倚。隨著后GWAS的展開,MR在醫(yī)學(xué)研究領(lǐng)域具有廣闊的應(yīng)用前景。