黃麗麗,楊 昆
(杭州電子科技大學計算機學院,浙江 杭州 310018)
年齡有關的差異甲基化且差異表達基因的特點
黃麗麗,楊 昆
(杭州電子科技大學計算機學院,浙江 杭州 310018)
當前DNA甲基化和基因表達之間的復雜關系還沒有一個明確結論,年齡上差異甲基化基因的特點有待進一步研究.在年齡間距大的匹配的DNA甲基化和表達的數(shù)據(jù)上,基于區(qū)域分析方法識別年齡上差異甲基化區(qū)域,提取差異甲基化且差異表達基因,并集成多種數(shù)據(jù)鑒別它們的特點.分析結果表明,差異甲基化區(qū)域的變化模式在基因坐標區(qū)域內(nèi)具有很高的一致性;Gene Body是DNA甲基化的重要調(diào)控區(qū)域,大部分差異甲基化區(qū)域分布于此區(qū)域,高甲基化區(qū)域和低甲基化區(qū)域分別更易于出現(xiàn)在CGI promoter基因和nonCGI promoter基因;在差異甲基化區(qū)域與基因表達水平的關系上,非差異表達/上調(diào)/下調(diào)的差異甲基化區(qū)域都同時存在正關聯(lián)、負關聯(lián)和無關聯(lián),在上述的復雜關系中,非差異表達的DMR偏向正相關,反之差異表達的DMR偏向負相關;對正關聯(lián)和負關聯(lián)的差異甲基化且差異表達基因利用蛋白質(zhì)互作網(wǎng)絡信息進行分類,同時對這兩類基因進行GO富集性分析,結果顯示,正關聯(lián)和負關聯(lián)的差異甲基化且差異表達基因與蛋白質(zhì)互作的不同功能模塊有關聯(lián)性,提示兩類基因很可能關聯(lián)于不同的表達調(diào)控模式.
差異甲基化區(qū)域;差異表達;年齡;分類
DNA甲基化是一種重要的表觀遺傳修飾,具有重要的生物學功能,涉及眾多的復雜生物過程,包括細胞分化和發(fā)育、X染色體失活、基因印記等[1].文獻[2]對乳腺癌細胞的基因表達、CpG島甲基化等數(shù)據(jù)進行了綜合分析,發(fā)現(xiàn)甲基化的改變對基因表達的改變有直接的關聯(lián)關系.文獻[3]在T細胞介導的免疫應答和分化的關聯(lián)基因上,確定了甲基化和表達水平之間的強負相關性.文獻[4]發(fā)現(xiàn)CpG-rich區(qū)域的甲基化負關聯(lián)于轉錄,CpG-poor區(qū)域的甲基化與基因表達既有正關聯(lián)又有負關聯(lián).然而也有研究認為DNA甲基化對基因表達的影響作用很小.對轉錄開始位點200 bp區(qū)域和第一外顯子的甲基化的分析,文獻[5]發(fā)現(xiàn)大多數(shù)與年齡相關的DNA甲基化的變化只對順式基因表達僅有一個很小的影響,主要表現(xiàn)在維持已有的基本表達水平.綜上所述,DNA甲基化的變化和基因表達之間的復雜關系還沒有一個明確結論,差異甲基化基因的特征還需要進一步研究.
本文利用DNA甲基化和基因表達的同源匹配數(shù)據(jù)來識別年齡有關的差異甲基化區(qū)域(Differentially Methylated Region,DMR),并提取差異甲基化且差異表達基因,集成多種數(shù)據(jù)鑒別其特點.隨著個體年齡的增長,個體免疫功能也會隨之下降.與年齡有關的差異甲基化基因特點以及DNA甲基化改變對基因表達變化的影響的研究,對探索DNA甲基化功能以及人類與年齡相關的疾病研究具有重要意義.
1.1 實驗數(shù)據(jù)的收集
本文實驗數(shù)據(jù)來自文獻[6],包含140個志愿者外周血單核細胞的DNA甲基化數(shù)據(jù)和匹配的基因表達mRNA數(shù)據(jù),分成2個樣本集:1)年輕組21個樣本,年齡范圍19~30歲;2)老年組119個樣本,年齡為90歲.具體實驗數(shù)據(jù)通過基因表達綜合數(shù)據(jù)庫(GEO)下載,甲基化數(shù)據(jù)為Infinium 450 K芯片數(shù)據(jù),芯片注釋數(shù)據(jù)來自GEO,其他注釋數(shù)據(jù)來自美國圣克魯茲分校(The University of California Santa Cruz,UCSC)創(chuàng)建并維護的UCSC Genome Browser數(shù)據(jù)庫.使用Official Symbol作為基因標識,本文提取并集成HPRD和BIOGRID這2個數(shù)據(jù)庫中的Homo sapiens的相互作用數(shù)據(jù),最終得到一個集成的蛋白質(zhì)互作網(wǎng)絡(PPIN).
1.2 差異表達基因的識別
由于同一基因有多個探針位點,因此計算多個探針位點的平均表達值作為該基因的表達值.以老年組為目標組,使用limma包計算相應參數(shù),以錯誤發(fā)現(xiàn)率FDR<0.05為閾值識別差異表達基因(Differentially Expressed Gene,DEG)和非差異表達基因(Non-Differentially Expressed Gene,NoDEG).根據(jù)差異倍數(shù)(logFC)的正負,將差異表達基因細分為2個子類差異上調(diào)(Up)和差異下調(diào)(Down).
1.3 差異甲基化基因的識別
基于區(qū)域方法[7],本文識別差異甲基化區(qū)域DMR,以基因為標識合并區(qū)域得到差異甲基化基因(Differentially Methylated Gene,DMG).具體處理流程:1)去除非唯一性的雜交探針;2)基于區(qū)域方法計算獲得錯誤發(fā)現(xiàn)率FDR,β值等,其中,β值為甲基化程度的變化方向.以閾值FDR<0.05篩選得到差異甲基化區(qū)域,將β>0的區(qū)域記為高甲基化區(qū)域(Hyper),β<0的區(qū)域記為低甲基化區(qū)域(Hypo);3)刪除沖突DMR(即屬于一個基因的多個DMR其甲基化的變化方向不一致),合并相同基因下的DMRs得到差異甲基化基因DMG,并細分為高甲基化基因(Hyper)和低甲基化基因(Hypo).
1.4 基因類別的劃分
本文從多個視角把基因劃分成不同的類別:1)根據(jù)基因表達角度分成非差異表達基因(NoDEG)、差異上調(diào)(Up)和差異下調(diào)(Down);2)根據(jù)甲基化角度分成非差異甲基化基因(NoDMG)、高甲基化基因(Hyper)和低甲基化基因(Hypo);3)根據(jù)啟動子是否包含CpG島(CGI)分成CGI promoter基因和nonCGI promoter基因;4)根據(jù)甲基化和基因表達水平之間的相關系數(shù)指標分成正關聯(lián)(R+)和負關聯(lián)(R-)基因.
1.5 網(wǎng)絡拓撲指標的構建和分類
在集成的蛋白質(zhì)互作網(wǎng)絡中,本文計算節(jié)點的11種拓撲指標[8]:1)度中心性(DC);2)聚類系數(shù)中心(CLUSC);3)K-core;4)介數(shù)中心性(BETWC);5)緊密度中心性(CLOSEC);6)特征向量中心性(EC);7)節(jié)點“重要性”PageRank;8)關于4個基因子類(Hyper_Down類、Hyper_Up類、Hypo_Down類和Hypo_Up類)的1N index[9],并以它們構造分類特征,對正關聯(lián)和負關聯(lián)的差異甲基化且差異表達基因進行分類,鑒別它們的特點.在具體的分類中,采用支持向量機(Support Vector Machine,SVM)分類算法為訓練分類器,在實際的分類計算中使用Matlab環(huán)境下的nSVMs[10]工具箱.
1.6 基因本體的分析
基因本體(Gene Ontology,GO)分為細胞組成、生物過程和分子功能3部分.為了對目標基因進行功能分析,本文以Infinium 450K芯片中所有的基因作為背景基因,使用GOrilla對所鑒別出的年齡相關的差異甲基化和差異表達基因(正關聯(lián)和負關聯(lián))進行GO富集分析,其中以參數(shù)0.000 1為顯著性過濾閾值.
2.1 差異甲基化和差異表達基因
本文的DNA甲基化和基因表達數(shù)據(jù)是匹配數(shù)據(jù),以年輕組為對照組并以老年組為目標組,共識別出5 017個差異表達基因DEG,上調(diào)和下調(diào)分別標記為Up和Down,非差異表達基因標記為NoDEG類;識別出476個差異甲基化區(qū)域DMR,根據(jù)甲基化變化方向分別標記為Hyper(高甲基化)和Hypo(低甲基化),排除其中的2個沖突DMR(即屬于一個基因的多個DMR其甲基化變化方向不一致),合并474個一致DMR得到450個差異甲基化基因DMG.分析發(fā)現(xiàn)20個基因包含多個DMR,并且僅有5%(1/20)的基因涉及沖突DMR.此結果顯示單個基因的多個DMR同時高甲基化Hyper或同時低甲基化Hypo,表明DNA甲基化的變化模式在基因的坐標區(qū)域內(nèi)一致性.
2.2 基因組注釋特征的分析
近期對小鼠背根神經(jīng)節(jié)的感覺神經(jīng)元細胞的研究指出,基因啟動子是否包含CpG島(CGI),可分為CGI promoter基因和nonCGI promoter基因,其甲基化對基因表達有不同的影響[11].根據(jù)UCSC的knownCanonical注釋數(shù)據(jù),計算得到444個差異甲基化基因(含468個DMR)TSS上游的1 kb啟動子信息,結合注釋數(shù)據(jù)cpgIslandExt計算CGI promoter基因和nonCGI promoter基因,結果如表1所示.費舍爾精確檢驗(Fisher’s exact test)結果顯示高/低甲基化和基因啟動子類別之間無關聯(lián)的概率P值為9.2E-13,表明高甲基化Hyper和低甲基化Hypo分別更易于出現(xiàn)在CGI promoter基因和nonCGI promoter基因上.
表1 差異甲基化類型和基因啟動子類型的列聯(lián)表
為了鑒別的年齡相關的差異甲基化區(qū)域在基因不同區(qū)域上的分布規(guī)律,根據(jù)Infinium 450 k芯片的注釋數(shù)據(jù)計算6類基因區(qū)域上的頻率,區(qū)域的定義和詳細信息參見文獻[12].高/低甲基化區(qū)域的分布情況如圖1所示.圖1中,每個DMR區(qū)域可以涉及多個基因區(qū)域類別,結果顯示差異表達基因/非差異表達基因的差異甲基化區(qū)域大多數(shù)分布于Gene Body區(qū)域.表明Gene Body區(qū)域的甲基化模式中容易出現(xiàn)包含多個相近CpG位點的區(qū)段性甲基化狀態(tài)的改變,并且部分基因呈現(xiàn)功能變化,基因有差異表達.
圖1 差異甲基化區(qū)域在基因功能區(qū)域上的分布
2.3 結合表達的分析
圖2 三類差異甲基化區(qū)域的相關系數(shù)
由于缺少部分基因的表達數(shù)據(jù),所識別的DMG中共有426個基因(涉及450個DMR)同時包含啟動子信息和表達數(shù)據(jù)的,本文以此集合為研究對象分析DNA甲基化和基因表達的關系,并基于差異甲基化區(qū)域的CpG平均甲基化水平和對應基因表達水平之間的相關系數(shù)為指標來研究甲基化和基因表達間的關聯(lián)關系.差異甲基化區(qū)域的相關系數(shù)按照3個類Up/Down/NoDEG分別統(tǒng)計,結果如圖2所示.所有類別都同時存在3種關聯(lián)性:正關聯(lián)、負關聯(lián)和無關聯(lián),表明DNA甲基化和基因表達水平的復雜關系,有別于已有的研究結果.
將DEG和NoDEG類按照差異甲基化區(qū)域的正負相關系數(shù)做統(tǒng)計,結果如表2所示.
表2 差異甲基化區(qū)域的正負相關系數(shù)和是否差異表達的列聯(lián)表
在表2中,NoDEG類中相關系數(shù)為正和負的DMR分別是為193和142,而DEG類中分別為54和61,表明在上述復雜關系下非差異表達的DMR偏向正相關(193/335×100%=57.61%);相反,差異表達的DMR偏向負相關(61/115×100%=53.04%),通過計算得到卡方獨立性檢驗的概率P值為0.047 6.
2.4 差異甲基化且差異表達基因的分類
圖2表明正相關和負相關于基因表達的差異甲基化且差異表達基因同時存在.為了鑒別2類基因的特點,本文集成HPRD和BIOGRID,計算11種拓撲指標對正關聯(lián)和負關聯(lián)的差異表達且差異甲基化基因進行分類,結合10-fold交叉驗證,以簡單猜測結果Guess(即分類準確率為簡單投票給樣本個數(shù)最多的類別所占的比例)為參考結果(baseline)進行比較.基于單個特征的分類和基于特征子集(排序后前X個特征)的分類準確率如圖3所示.基于單個特征分類時共有5種指標的分類結果優(yōu)于參考結果,指標K-core,EC,Hypo_up’1N index最好;特征集合分類時前2個特征(CLUSC和K-core)即可達到最好的分類效果.結果表明,正關聯(lián)和負關聯(lián)的差異甲基化且差異表達基因與蛋白質(zhì)的不同功能模塊的有一定關聯(lián).
圖3 正關聯(lián)和負關聯(lián)的差異甲基化且差異表達基因的分類準確率
2.5 GO富集分析
GO富集分析的分子功能和細胞成分以及生物過程的富集項個數(shù)和重復項個數(shù)如表3所示.分子功能、細胞成分和生物過程上,2個類別只有非常少的重復項.細胞成分上負相關類的6個term全部與突觸膜和突觸后膜等神經(jīng)系統(tǒng)相關;生物過程上正相關類基因的富集term偏向負調(diào)控,涉及的負調(diào)控term數(shù)是正調(diào)控的2倍.以上結果表明,2個類別基因的富集GO term間存在極大差異,兩類基因很可能關聯(lián)于不同的表達調(diào)控模式,涉及不同的調(diào)控機制.
表3 正相關和負相關的差異甲基化且差異表達基因的GO富集項個數(shù)
本文針對目前DNA甲基化和基因表達之間的復雜關系以及年齡上差異甲基化基因的特點不明確等情況,根據(jù)DNA甲基化以及與之相配的基因表達數(shù)據(jù)來識別年齡有關的差異甲基化區(qū)域和差異表達基因,進而提取出差異甲基化且差異表達基因,利用多種注釋數(shù)據(jù)挖掘其特點.為理解DNA甲基化的生物學功能提供了進一步參考,同時也為理解人類與年齡相關的疾病提供相關線索.今后將使用更多/更大的匹配的數(shù)據(jù)(包括相同的血液組織和其他組織的數(shù)據(jù))來驗證本文結果,進一步探索和挖掘正負關聯(lián)的差異甲基化基因的特點.
[1]凡時財,張學工.DNA甲基化的生物信息學研究進展[J].生物化學與生物物理進展,2009,36(2):143-150.
[2]SUN Z, ASMANN Y W, KALARI K R, et al. Integrated analysis of gene expression, CpG island methylation, and gene copy number in breast cancer cells by deep sequencing[J]. PloS one, 2011,6(2):e17490.
[3]TSEREL L, KOLDE R, LIMBACH M, et al. Age-related profiling of DNA methylation in CD8+ T cells reveals changes in immune response and transcriptional regulator genes[J]. Scientific reports, 2015,5:13107.
[4]NG C W, YILDIRIM F, YAP Y S, et al. Extensive changes in DNA methylation are associated with expression of mutant huntingtin[J]. Proceedings of the National Academy of Sciences, 2013,110(6):2354-2359.
[5]YUAN T, JIAO Y, DE J S, et al. An Integrative Multi-scale Analysis of the Dynamic DNA Methylation Landscape in Aging[J]. Plos Genetics, 2015,11(2):e1004996.
[6]MARTTILA S, KANANEN L, HYRYNEN S, et al. Ageing-associated changes in the human DNA methylome: genomic locations and effects on gene expression[J]. BMC Genomics, 2015,16(1):1-17.
[7]MEILYN ONG J D H. Novel region discovery method for Infinium 450K DNA methylation data reveals changes associated with aging in muscle and neuronal pathways[J]. Aging Cell, 2014,13(1):142-155.
[8]FAISAL FE, MILENKOVIC T. Dynamic networks reveal key players in aging[J]. Bioinformatics, 2014,30(12):1721-1729.
[9]XU J, LI Y. Discovering disease-genes by topological features in human protein-protein interaction network[J]. Bioinformatics, 2006,22(22):2800-2805.
[10]FUNG G, MANGASARIAN O L. Finite Newton method for Lagrangian support vector machine classification[J]. Neurocomputing, 2003,55(1/2):39-55.
[11]HU Y. Simultaneous profiling of transcriptome and DNA methylome from a single cell[J]. Genome Biology, 2016,17(1):1-11.
[12]BIBIKOVA M, BARNES B, TSAN C, et al. High density DNA methylation array with single CpG site resolution[J]. Genomics, 2011,98(4):288-295.
The Characteristics of Age-related Differentially Methylated and Differentially Expressed Genes
HUANG Lili, YANG Kun
(SchoolofComputer,HangzhouDianziUniversity,HangzhouZhejiang310018,China)
Recently the complex relationship between DNA methylation and gene expression is not yet clear, and the characteristic of age-related differentially methylated genes is still vague. Further studies are required to investigate these questions. On the matched methylomic and transcriptomic data with the big age-gap of sample, based on the region analysis we identified age-related differentially methylated regions(DMR), differentially expressed and simultaneously differentially methylated genes, and then utilized multiple data to explore their characteristics. The results showed that the variation patterns of various DMRs of gene are highly consistent in its genomic location, gene body which contains the majority of differentially methylated regions is an important regulatory region of DNA methylation, and the hyper- and hypo-methylation regions tends to CGI promoter gene and nonCGI promoter gene, respectively. For the relationship between the DMR and its corresponding gene expression, the result showed three types of relevance (i.e. positive, negative and no correlation) exist at the same time. Furthermore, there still has a tendency: the majority of DMR of non-differential expression has a positive correlation while that of differential expression has negative correlation. The results of classification using the information of protein interaction networks and GO enrichment analysis indicated that the two kinds of differential methylation and differential expression genes (i.e. positive and negative correlation) could possibly relate to different function modules of protein interaction and be associated with different transcription regulation patterns.
differentially methylated region; differential expression; aging; classification
10.13954/j.cnki.hdu.2017.03.010
2016-11-18
國家自然科學基金資助項目(60903086)
黃麗麗(1991-)女,福建南平人,碩士研究生,生物信息學.通信作者:楊昆副教授,E-mail:yangkun@hdu.edu.cn.
Q811.4
A
1001-9146(2017)03-0045-06