吳 娜,宋花玲
上海中醫(yī)藥大學(xué)公共健康學(xué)院(上海 201203)
分子流行病學(xué)作為醫(yī)學(xué)院校公共衛(wèi)生與預(yù)防醫(yī)學(xué)專(zhuān)業(yè)研究生的公共基礎(chǔ)課,不僅可以幫助醫(yī)學(xué)研究生探索疾病傳播和控制的科學(xué)意義及環(huán)境對(duì)人類(lèi)健康的影響,還能從分子標(biāo)記的角度了解飲食和營(yíng)養(yǎng)影響人類(lèi)健康的內(nèi)在生物學(xué)機(jī)制。目前,大數(shù)據(jù)在識(shí)別和干預(yù)人口健康決定因素方面具有革命性意義,被認(rèn)為是未來(lái)科學(xué)的革命性發(fā)展。為積極應(yīng)對(duì)大數(shù)據(jù)時(shí)代的挑戰(zhàn),公共衛(wèi)生尤其流行病學(xué)相關(guān)專(zhuān)業(yè)的研究生不僅需要掌握傳統(tǒng)流行病學(xué)的方法,還應(yīng)該熟知分子流行病學(xué)相關(guān)知識(shí),尤其是通過(guò)R 語(yǔ)言編程處理大數(shù)據(jù),通過(guò)大數(shù)據(jù)確定人口健康的干預(yù)目標(biāo)。為培養(yǎng)相關(guān)大數(shù)據(jù)人才適應(yīng)社會(huì)發(fā)展需求,醫(yī)學(xué)院校教師有必要在傳統(tǒng)流行病學(xué)的基礎(chǔ)上,指導(dǎo)研究生掌握新興技術(shù)和大數(shù)據(jù)分析方法,將R 語(yǔ)言應(yīng)用于分子流行病學(xué)研究,推動(dòng)分子流行病學(xué)領(lǐng)域的發(fā)展。
分子流行病學(xué)是一種將先進(jìn)的生物學(xué)實(shí)驗(yàn)方法納入傳統(tǒng)流行病學(xué),以確定疾病病因并提出相應(yīng)預(yù)防和干預(yù)措施的科學(xué)[1-2]。它越來(lái)越多地被作為一種了解外部環(huán)境暴露與遺傳及其他易感因素間相互作用的工具,從而確定易感人群,被廣泛應(yīng)用于遺傳及代謝性疾病。
1973 年,Kilbourne 在“流感的分子流行病學(xué)”一文中首次引入了分子流行病學(xué)的概念[3]。隨著第一本關(guān)于分子流行病學(xué)的書(shū)籍《分子流行病學(xué):原理與實(shí)踐》的出版,這個(gè)術(shù)語(yǔ)變得更加正式[1]。分子流行病學(xué)主要研究遺傳和環(huán)境因素在分子或細(xì)胞階段的作用及其相互作用。2003 年人類(lèi)基因組計(jì)劃完成DNA 全測(cè)序工作是該領(lǐng)域的一個(gè)突破。隨著基因分型和高通量測(cè)序技術(shù)的發(fā)展,研究人員可以全方位評(píng)估人類(lèi)的DNA、RNA、蛋白質(zhì)或代謝組分,為更全面地檢測(cè)與疾病風(fēng)險(xiǎn)因素和途徑相關(guān)的潛在生物學(xué)變異奠定了基礎(chǔ)。另外,高通量技術(shù)豐富了研究人員對(duì)疾病表型-基因型關(guān)聯(lián)的理解,有助于尋找疾病的生物標(biāo)志物,并利用其識(shí)別易感人群,從而幫助臨床醫(yī)生為患者制定個(gè)性化的治療方案。分子流行病學(xué)通過(guò)各種工具研究疾病的生物標(biāo)志物,如DNA 甲基化譜、蛋白質(zhì)譜、代謝物或新基因,有助于發(fā)現(xiàn)疾病的病因和決定因素,進(jìn)而預(yù)防疾病以達(dá)到改善公眾健康的目的。
傳統(tǒng)流行病學(xué)是研究人群中疾病與健康狀況的分布及其影響因素,以及防治疾病及促進(jìn)健康的策略和措施的科學(xué)[4]。分子流行病學(xué)作為傳統(tǒng)流行病學(xué)與分子生物學(xué)的交叉學(xué)科,強(qiáng)調(diào)通過(guò)先進(jìn)的技術(shù)檢測(cè)生物學(xué)標(biāo)志的分布情況,借助傳統(tǒng)流行病學(xué)的研究方法,從更深層次即分子或基因水平闡明疾病的病因及其致病過(guò)程[5]。分子流行病學(xué)是由傳統(tǒng)流行病學(xué)學(xué)科發(fā)展的需求,以及分子生物學(xué)理論和技術(shù)的巨大成就相結(jié)合的產(chǎn)物,是近十幾年迅速發(fā)展的一門(mén)流行病學(xué)新分支[6]。
分子流行病學(xué)課程在醫(yī)學(xué)院校研究生教育中起著至關(guān)重要的作用[7]:①疾病診斷和預(yù)防。研究生能夠了解不同疾病的分子機(jī)制,如遺傳變異、突變和表達(dá)模式,這些知識(shí)對(duì)于疾病診斷、預(yù)后評(píng)估和預(yù)防是必不可少的。通過(guò)學(xué)習(xí)如何利用分子工具和技術(shù)識(shí)別病原體,研究疾病病因,有助于制定個(gè)性化醫(yī)療和預(yù)防策略。②藥物開(kāi)發(fā)和治療研究。分子流行病學(xué)是藥物開(kāi)發(fā)和治療研究的工具。通過(guò)掌握分子技術(shù)評(píng)估藥物的有效性和安全性,可以獲得有關(guān)藥物代謝、藥物靶標(biāo)相互作用和藥物作用機(jī)制的知識(shí),這些知識(shí)對(duì)于研究和開(kāi)發(fā)新的治療方法和個(gè)性化藥物至關(guān)重要。③流行病學(xué)研究的設(shè)計(jì)和分析。通過(guò)學(xué)習(xí)設(shè)計(jì)和開(kāi)展分子流行病學(xué)研究,掌握分析大規(guī)模分子數(shù)據(jù)的統(tǒng)計(jì)和生物信息學(xué)方法,對(duì)于研究疾病的遺傳和環(huán)境風(fēng)險(xiǎn)因素、建立疾病預(yù)測(cè)模型和評(píng)估干預(yù)措施的有效性具有指導(dǎo)意義。④研究技能和科學(xué)素養(yǎng)的培養(yǎng)。分子流行病學(xué)教育不僅注重傳授理論知識(shí),而且注重培養(yǎng)研究技能和科學(xué)素養(yǎng),包括學(xué)習(xí)文獻(xiàn)綜述,制定研究假設(shè),設(shè)計(jì)實(shí)驗(yàn)方案,收集和分析數(shù)據(jù)等。
R 是一種用于統(tǒng)計(jì)計(jì)算和圖形繪制的編程語(yǔ)言,由統(tǒng)計(jì)學(xué)家Ross Ihaka 和Robert Gentleman創(chuàng)建,核心R 語(yǔ)言由大量包含可重復(fù)使用的代碼和文檔的擴(kuò)展包組成[8-9]。在過(guò)去的三十年里,R 語(yǔ)言在統(tǒng)計(jì)學(xué)和生物信息學(xué)領(lǐng)域發(fā)揮了重要作用,目前已產(chǎn)生了數(shù)以萬(wàn)計(jì)的擴(kuò)展包,涉及范圍從機(jī)器學(xué)習(xí)(如支持向量機(jī)、隨機(jī)森林、人工神經(jīng)網(wǎng)絡(luò)等)到單核苷酸多態(tài)性(single nucleotide polymorphisms, SNPs)數(shù)據(jù)、轉(zhuǎn)錄組數(shù)據(jù)和DNA甲基化數(shù)據(jù)分析等[10-12]。
R 語(yǔ)言具有以下特點(diǎn)[13]:①開(kāi)源性,可以免費(fèi)下載,并提供復(fù)雜的數(shù)據(jù)分析功能,同時(shí)還有一個(gè)活躍的在線用戶社區(qū),使用者們可以在其中尋求幫助。②跨平臺(tái)的編程語(yǔ)言,其代碼可以在多個(gè)操作系統(tǒng)上運(yùn)行,程序員只需編寫(xiě)一次程序。③可以進(jìn)行各種機(jī)器學(xué)習(xí)操作,如分類(lèi)、回歸以及開(kāi)發(fā)人工神經(jīng)網(wǎng)絡(luò)的各種擴(kuò)展包。④可以繪制高質(zhì)量圖片,通過(guò)ggplot2 和plotly 等R 包制作精美圖片。⑤在CRAN 存儲(chǔ)庫(kù)中存有超過(guò)10 000 個(gè)擴(kuò)展包,可以執(zhí)行各種數(shù)據(jù)分析功能。⑥既能使數(shù)據(jù)可視化,又能連接外部數(shù)據(jù)庫(kù)如基因表達(dá)綜合數(shù)據(jù)庫(kù)(Gene Expression Omnibus,GEO)、京都基因與基因組百科全書(shū)數(shù)據(jù)庫(kù)(Kyoto Encyclopedia of Genes and Genomes, KEGG)等以執(zhí)行高級(jí)生物統(tǒng)計(jì)功能。⑦作為一種不斷發(fā)展的編程語(yǔ)言,每當(dāng)添加任何新功能時(shí),R 都會(huì)提供更新服務(wù),便于廣大用戶使用。
SPSS(statistical product and service solutions)是一種數(shù)據(jù)統(tǒng)計(jì)分析軟件,由SPSS 有限公司于1968 年推出,2009 年被國(guó)際商業(yè)機(jī)器公司(International Business Machines Corporation, IBM)收購(gòu)。由于SPSS 簡(jiǎn)單易操作,常被用于數(shù)據(jù)處理、市場(chǎng)調(diào)查等。
SPSS 具有以下特點(diǎn):①不需要編程,簡(jiǎn)單易上手;②不適用于大數(shù)據(jù)分析,如分子流行病學(xué)中有關(guān)SNPs、轉(zhuǎn)錄組學(xué)及DNA 甲基化等大數(shù)據(jù);③作為一款商業(yè)軟件包,正版軟件需要付費(fèi)才可以使用。
分子流行病學(xué)是一門(mén)探究疾病病因相關(guān)分子生物標(biāo)記的學(xué)科,SNPs 數(shù)據(jù)、轉(zhuǎn)錄組學(xué)數(shù)據(jù)及DNA 甲基化數(shù)據(jù)等分子生物標(biāo)記均屬于大數(shù)據(jù)集,越來(lái)越多的研究人員選擇使用R 語(yǔ)言中的各種擴(kuò)展包進(jìn)行分析,而SPSS 更適合分析樣本量較少的人類(lèi)測(cè)量學(xué)數(shù)據(jù)及血液學(xué)指標(biāo),見(jiàn)表1。分子流行病學(xué)的教學(xué)目的之一是培養(yǎng)研究生掌握大數(shù)據(jù)處理與分析的能力以適應(yīng)和滿足社會(huì)需求。研究者可根據(jù)自身需要選擇合適的統(tǒng)計(jì)軟件,考慮到R 語(yǔ)言在大數(shù)據(jù)處理上的優(yōu)勢(shì),在分子流行病學(xué)研究中更推薦使用R 語(yǔ)言。
表1 R語(yǔ)言與SPSS軟件的比較Table 1. Comparison between R language and SPSS software
分子流行病學(xué)側(cè)重研究生物標(biāo)記物在疾病病因、風(fēng)險(xiǎn)評(píng)估和預(yù)防研究中的應(yīng)用。通過(guò)選擇和驗(yàn)證不同種類(lèi)的生物標(biāo)記物,采用不同的研究設(shè)計(jì)和R 語(yǔ)言數(shù)據(jù)分析方法[14]。本研究通過(guò)案例介紹R 語(yǔ)言在分子流行病學(xué)生物標(biāo)記物SNPs 和DNA 甲基化修飾數(shù)據(jù)分析中的應(yīng)用。
易感基因的SNPs 位點(diǎn)是分子流行病學(xué)重點(diǎn)關(guān)注的一類(lèi)生物標(biāo)記物,也是分子流行病學(xué)課程教學(xué)的重要內(nèi)容。利用R 語(yǔ)言中的SNPassoc 包的association 函數(shù)分析非酒精性脂肪肝(non-alcoholic fatty liver disease, NAFLD)的易感基因SNPs 在五種遺傳模型下的基因型頻率,操作簡(jiǎn)單,結(jié)果展示清晰明了。具體代碼如下:
> setwd
> library(openxlsx)
> File<- read.xlsx("NAFLD.xlsx",5)
> File[File=="0 0"]<-NA
> File[File=="NA"]<-NA
> File[File==""]<-NA
> File<-as.data.frame(File)
> write.csv(File, file = "NAFLD_1.csv")
> library(SNPassoc)
> names(File)
> File.1<- setupSNP(File,colSNPs=2,sep="")
> zlassoc<- WGassociation(NAFLD~1,data=File.1)
> zlassoc
> dev.new()
> plot(zlassoc,ylim = c(-0,-2))
> write.csv(zlassoc,"NAFLD_5model.csv")
> asso<- association(NAFLD~rs1260326,data=File.1)
> asso
> write.csv(asso,"rs1260326_result.csv")
表2 展示了rs1260326 在五種遺傳模型下基因型的頻率,NAFLD 的葡萄糖調(diào)節(jié)蛋白基因(glucokinase regulator, GCKR)的rs1260326 位點(diǎn)在顯性模型(P=0.038)和超顯性模型(P=0.040)下具有統(tǒng)計(jì)學(xué)意義。
表2 SNPs位點(diǎn)在五種遺傳模型下的基因型頻率分布Table 2. Genotype frequency distribution of SNPs loci under five genetic models
在后基因組時(shí)代,隨著高通量技術(shù)成本的降低,海量組學(xué)數(shù)據(jù)與研究結(jié)果展現(xiàn)了生命現(xiàn)象的復(fù)雜性。目前,分子流行病學(xué)研究越來(lái)越傾向于從多組學(xué)的角度出發(fā),從遺傳和表觀遺傳到轉(zhuǎn)錄和代謝,從機(jī)制到表型,進(jìn)行整合研究以得到全局結(jié)果。DNA 甲基化是表觀遺傳學(xué)中研究最多的一種修飾,是將甲基基團(tuán)(CH3)轉(zhuǎn)移至DNA,從而使基因活性發(fā)生改變的修飾方式。
在當(dāng)前的科研需求下,Illumina 的甲基化芯片Infinium Methylation EPIC BeadChip(簡(jiǎn)稱(chēng)850k 芯片)可以檢測(cè)超過(guò)853 000 個(gè)CpG 位點(diǎn),全面覆蓋CpG 島、啟動(dòng)子、編碼區(qū)、開(kāi)放染色質(zhì)和增強(qiáng)子,提供了性能優(yōu)越且經(jīng)濟(jì)可靠的解決方案。R 語(yǔ)言中CHAMP 包的CpG.GUI 函數(shù)可以分析CpG 位點(diǎn)在染色體、CpG 島、轉(zhuǎn)錄起始區(qū)域(transcription star site, TSS)的分布情況,見(jiàn)圖1。
圖1 NAFLD患者與健康人群DNA甲基化的分布情況Figure 1. Distribution of DNA methylation between NAFLD patients and healthy people
差異甲基化位點(diǎn)的篩選是數(shù)據(jù)分析過(guò)程的主要環(huán)節(jié),R 語(yǔ)言中CHAMP 包的champ.DMP()函數(shù)可以計(jì)算差異甲基化,使用ggplot2 包可以繪制火山圖,以展示NAFLD 患者相比于健康人群的差異甲基化位點(diǎn),見(jiàn)圖2。
圖2 NAFLD的差異DNA甲基化位點(diǎn)Figure 2. Differential DNA methylation sites in NAFLD
本文通過(guò)比較R 語(yǔ)言和SPSS 軟件的特點(diǎn),重點(diǎn)探討了R 語(yǔ)言在分子流行病學(xué)中的應(yīng)用,R語(yǔ)言具有強(qiáng)大的繪圖及數(shù)據(jù)分析能力,在大數(shù)據(jù)處理與分析上更具優(yōu)勢(shì)。醫(yī)學(xué)類(lèi)高等院校教師應(yīng)根據(jù)時(shí)代要求和現(xiàn)實(shí)需要,培養(yǎng)研究生掌握應(yīng)用R 語(yǔ)言處理和分析大數(shù)據(jù)的能力,進(jìn)一步滿足分子流行病學(xué)領(lǐng)域的研究需求。