付利娟,夏映曦,何俊琳,劉學(xué)慶,陳雪梅,王應(yīng)雄,丁裕斌△
(重慶醫(yī)科大學(xué):1.公共衛(wèi)生學(xué)院;2.中醫(yī)藥學(xué)院 400016;3.重慶江陵醫(yī)院 400021)
DNA甲基化作為一種重要的表觀修飾方式,它可在不改變基因序列的情況,調(diào)控基因的轉(zhuǎn)錄,近年來已成為生命研究的熱點之一[1]。DNA甲基化一旦發(fā)生紊亂,可導(dǎo)致包括腫瘤、胚胎發(fā)育、老年化進(jìn)程以及自身免疫性在內(nèi)的多種疾病狀態(tài)[2]。由于CpG島甲基化所致的抑癌基因轉(zhuǎn)錄失活是一個可逆轉(zhuǎn)的基因修飾過程,且該逆轉(zhuǎn)過程(CpG島去甲基化)可直接恢復(fù)抑癌基因功能,因此,DNA去甲基化調(diào)控抑癌基因功能的研究已成為腫瘤基因治療的新型手段之一[3]。DNA甲基化的研究手段多樣,其中,DNA甲基化芯片屬高通量、高效率的研究手段之一[4],在DNA甲基化研究中應(yīng)用非常廣泛,對研究者的要求亦較高。從DNA甲基化基因芯片設(shè)計、芯片數(shù)據(jù)的質(zhì)量控制、后期的數(shù)據(jù)分析、數(shù)據(jù)的DNA甲基化特異性PCR、COBRA、BSP測序等驗證方法到數(shù)據(jù)的可視化顯示,需要研究者熟悉諸多軟件的使用。本研究將DNA甲基化研究中的質(zhì)量控制、數(shù)據(jù)分析過程以及常用的軟件使用予以介紹,并探討這些數(shù)據(jù)分析過程中應(yīng)注意的地方。
1.1 材料 DNA甲基化原始芯片數(shù)據(jù),甲基化測序PCR(bisulfite sequence PCR,BSP)數(shù)據(jù),分析所需各種在線、本地安裝軟件,如 Signal Map、UCSC Genome Browser、Methyprimer、Methyl Primer Express等。
1.2 方法 采用文獻(xiàn)學(xué)習(xí)及軟件學(xué)習(xí)法,分析實驗過程中質(zhì)量控制的必要方法,統(tǒng)計分析各種實驗數(shù)據(jù),進(jìn)行引物設(shè)計以及研究數(shù)據(jù)的可視化處理等。
2.1 芯片的設(shè)計與質(zhì)量控制 目前常用的商業(yè)DNA甲基化芯片主要由Roche-nimblegen和Agilent兩個公司生產(chǎn)。芯片包括Chip-on-Chip和 MeDIP-Chip芯片,根據(jù)實驗設(shè)計的需要,可選擇不同的類型。這兩種較常用的甲基化芯片類型包括多種不同分辨率的芯片,芯片雜交的探針既可囊括基因組CpG區(qū)和啟動子區(qū),亦可專門針對啟動子區(qū)的DNA甲基化。以MeDIP-Chip芯片為例,整個DNA甲基化芯片實驗應(yīng)包括如下質(zhì)控步驟:(1)超聲打斷基因組產(chǎn)生的片段應(yīng)在200~1 000bp范圍內(nèi);(2)甲基免疫共沉淀過程質(zhì)控應(yīng)選擇明確的甲基化區(qū)域,如印記基因Xist做陽性對照,同時選擇如Actb,Aprt等基因作為非甲基化區(qū)域的對照;(3)通過對基因芯片掃描的原始數(shù)據(jù)進(jìn)行分析,校正異常雜交信號,去除噪音信號,并通過對信號點(MA-plot)的分布明確信號值的均一性,進(jìn)一步采用相關(guān)分析判斷重復(fù)實驗的再現(xiàn)性和配對樣本間的相關(guān)性;(4)數(shù)據(jù)分析過程質(zhì)量控制,首先要進(jìn)行數(shù)據(jù)的均一化處理以判斷出不同芯片間的DNA甲基化差異,其次是對明確的區(qū)域和整個基因組的差異甲基化區(qū)域進(jìn)行判別,這一過程在Roche-Nimblegen中主要由 NimbleScan v2.5軟件完成[5]。
表1 MethyPrimer設(shè)計的ALKBH3甲基化PCR引物
表2 Methyl Primer Express設(shè)計的ALKBH3甲基化PCR引物
2.2 甲基化數(shù)據(jù)分析 DNA甲基化芯片數(shù)據(jù)結(jié)果,除了可進(jìn)一步進(jìn)行統(tǒng)計學(xué)分析外,差異甲基化基因啟動子或CpG島的可視化,如Roche-Nimblegen公司的數(shù)據(jù)可采用Signal Map進(jìn)行閱讀,即導(dǎo)入注釋數(shù)據(jù)和GFF格式的Peak數(shù)據(jù)和log2IP/input數(shù)據(jù)后,可根據(jù)NimbleScan輸出的統(tǒng)計結(jié)果,查找差異DNA甲基化基因的位置、大小、轉(zhuǎn)錄起始與終止區(qū)域、TSS點以及 Log2IP/input值(圖1)[6]。
圖1 甲基化數(shù)據(jù)分析圖
圖2 Methyprimer預(yù)測出ALKBH3基因的兩個CpG島圖
2.3 MSP引物設(shè)計
2.3.1 基因的外顯子區(qū)查找 可在University of California,
Santa Cruz分校的 UCSC Genome Browser數(shù)據(jù)庫(http://ge-nome.ucsc.edu/cgi-bin/hgGateway)搜索[7]。除了搜索啟動子區(qū),研究者還可以根據(jù)目的基因甲基化所在位置,選擇5′-UTR和外顯子區(qū)。具體搜索的方法及限制,可使用搜索引擎搜索如下關(guān)鍵詞“UCSC啟動子查找”。應(yīng)注意的是,UCSC Genome Browser注釋數(shù)據(jù)庫有hg16、17、18和19版,在搜索時,應(yīng)注意選擇搜索的數(shù)據(jù)庫版本與DNA甲基化芯片數(shù)據(jù)的注釋數(shù)據(jù)庫版本相對應(yīng)。除了UCSC數(shù)據(jù)庫外,NCBI的Mapview(http://www.ncbi.nlm.nih.gov/mapview/index.html)亦可以搜索啟動子區(qū)。搜索引擎的選擇,通常是根據(jù)芯片結(jié)果注釋時所采用的數(shù)據(jù)庫來決定的。更多的情況下,芯片注釋使用的數(shù)據(jù)庫是UCSC Genome Browser。
2.3.2 引物設(shè)計軟件 甲基化芯片結(jié)果驗證最常用的方法是甲基化PCR(methylation specific PCR,MSP)和硫化測序PCR(bisfulfite sequencing PCR,BSP)。甲基化引物設(shè)計是MSP和BSP中的關(guān)鍵。研究者最常用的甲基化引物設(shè)計軟件是在線Methyprimer(http://www.urogene.org/methprimer/index1.html)[8]。研究者可將已知的啟動子區(qū)拷貝到該軟件的窗口后,選擇CpG島的大小、限制GC含量等限制條件后,即可自行設(shè)計MSP或BSP引物。通常情況下Methyprimer會在CpG島區(qū)域設(shè)計引物,但有些基因的引物設(shè)計結(jié)果卻并不在軟件預(yù)測的CpG島區(qū)(圖2),如Alkylation Repair Homolog 3(ALKBH3)基因。將該基因啟動子區(qū)、5′UTR區(qū)和CDs區(qū)序列后拷貝到Methyprimer后,軟件預(yù)測出了兩個CpG島,分別位于672~996區(qū)域和1 001~1 131區(qū)域,設(shè)計出的5對MSP引物均全部位于325~542區(qū)域內(nèi),而非CpG島區(qū)域。因此,這類基因引物的設(shè)計就需要研究者先根據(jù)自己的知識經(jīng)驗來限定CpG島區(qū),再依據(jù)甲基化引物設(shè)計的要求自行設(shè)計。DNA甲基化引物設(shè)計的原則主要有:(1)引物擴(kuò)增區(qū)域最好位于轉(zhuǎn)錄起始位點(transcription start site,TSS)250bp以內(nèi);(2)引物至少應(yīng)包括3個以上(多數(shù)情況下4個或更多)CpG;(3)預(yù)測的退火溫度大于55℃[9]。根據(jù)上述要求,設(shè)計的ALKBH3基因引物見表1。令一款由Applied Biosystems公司開發(fā)的免費軟件 Methyl Primer Express(https://products.appliedbiosystems.com/ab/en/US/adirect/ab?cmd=catNavigate2&catID=602121&tab=Overview)[10],可本地安裝后使用。該軟件進(jìn)行CpG島預(yù)測后,能夠準(zhǔn)確地設(shè)計出位于CpG島區(qū)域內(nèi)的引物及其擴(kuò)增區(qū)(圖3)。引物設(shè)計時,軟件還會提醒使用者選擇哪個CpG島來設(shè)計引物,設(shè)計出的引物與Methprimer人工設(shè)定的區(qū)域很接近。這個軟件比較簡單易用,推薦初學(xué)者使用這一軟件。熟練者,可將二者結(jié)合使用。利用Methyl Primer Express設(shè)計ALKBH3MSP引物(表1、2)。設(shè) 計 好 的 甲 基 化 引 物 可 通 過 Blast (http://medgen.ugent.be/methBLAST/)進(jìn)一步驗證,確保其目標(biāo)擴(kuò)增序列的特異性。此外,Ugent網(wǎng)站http://medgen.ugent.be/methprimerdb/search_primers.php為研究者提供了部分基因甲基化啟動子序列,這些序列均是被研究者實驗過程所驗證的引物。
圖3 Methyl Primer Express預(yù)測CpG島和設(shè)計的甲基化引物起始位點圖
2.4 BSP結(jié)果的可視化 目前,多款軟件被用于BSP結(jié)果的可視化和CpG甲基化位點的統(tǒng)計分析,包括BiQ analyzer,BISMA(Bisulfite Sequencing DNA Methylation Analysis)和QUMA Quantification Tool for Methylation Analysis。BiQ analyzer可視化分析CpG位點功能較強(qiáng),但是在CpG甲基化與非甲基化的模式作圖和甲基化數(shù)據(jù)分析上有明顯不足[11]。BISMA和QUMA在CpG差異甲基化作圖與數(shù)據(jù)分析上各具優(yōu)勢。
2.4.1 QUMA (http://quma.cdb.riken.jp/) QUMA 是 一款使用方便、集成多個分析功能、基于網(wǎng)絡(luò)的CpG甲基化測序結(jié)果分析軟件,它可以整齊地排列測序的原始結(jié)果,分析甲基化圖譜,并進(jìn)行統(tǒng)計學(xué)比較,檢驗測序質(zhì)量以及現(xiàn)實可視化的甲基化模式[6]。利用該網(wǎng)站提供樣本數(shù)據(jù),分析結(jié)果見圖4。
圖4 QUMA圖示分析甲基化測序結(jié)果
2.4.2 BISMA(http://biochem.jacobs-university.de/BDPC/BISMA/) BISMA是一款目前功能更為全面,可視化效果和統(tǒng)計學(xué)數(shù)據(jù)分析,最優(yōu)秀的DNA甲基化測序數(shù)據(jù)可視化分析軟件。它可快速抽取上傳的txt或ABI測序格式的原始數(shù)據(jù)文件,輔助分析序列方向,高度自動化的進(jìn)行復(fù)雜計算,去除載體序列,結(jié)果分析快速準(zhǔn)確。同時還可判別測序結(jié)果的質(zhì)量、亞硫酸鹽轉(zhuǎn)化效率、檢測堿基缺失或丟失和過濾N位的甲基化。在質(zhì)量控制和數(shù)據(jù)處理能力較高的情況下,分析并展示CpG甲基化模式,并首次在同類軟件中支持重復(fù)序列的分析[7],見圖5。
圖5 BISMA分析甲基化測序數(shù)據(jù)統(tǒng)計結(jié)果
DNA甲基化是生命活動過程中常見的表觀遺傳修飾方式之一[12-14]。DNA甲基化異常分兩種類型,一種是CpG島超甲基化(hypermethylation),另一種是低甲基化(hypomethylation)[15]。DNA甲基化異常與許多種類型的疾病發(fā)生相關(guān),營養(yǎng)、環(huán)境因素同樣可影響DNA甲基化狀態(tài)[2]。此外,由于DNA甲基化的異常狀態(tài)是一種可逆轉(zhuǎn)的生物學(xué)行為,因此,DNA甲基化研究成為目前各中疾病發(fā)生研究領(lǐng)域的熱點之一[16]。DNA甲基化研究,無論是針對某個生理過程還是疾病發(fā)生的機(jī)制探索,均是系統(tǒng)工作,需從甲基化芯片設(shè)計開始,到MSP、BSP等驗證,甚至還包括功能實驗驗證等方面,進(jìn)行周詳?shù)脑O(shè)計與計劃。尤其是在芯片實驗過程中,多個涉及的質(zhì)量控制過程的步驟尤為重要,事關(guān)整個實驗的成敗,因此,應(yīng)在芯片實驗的整個過程執(zhí)行嚴(yán)格的質(zhì)量控制工作[5]。DNA甲基化芯片的驗證過程主要包括MSP和BSP,引物的設(shè)計亦是實驗中的關(guān)鍵,選擇更好的軟件進(jìn)行引物的設(shè)計,并優(yōu)化設(shè)計好的引物和PCR反應(yīng)條件是實驗成功的前提。BSP結(jié)果的可視化,有助于讀者更直觀地了解甲基化測序驗證結(jié)果。因此,DNA甲基化研究,應(yīng)從多角度控制實驗的設(shè)計和數(shù)據(jù)的產(chǎn)生及結(jié)果的分析。
[1] Feng S,Jacobsen SE,Reik W.Epigenetic reprogramming in plant and animal development[J].Science,2010,330(6004):622-627.
[2] Morgan HD,Santos F,Green K,et al.Epigenetic reprogramming in mammals[J].Human Molecular Genetics,2005,14(1):R47-58.
[3] Rodenhiser D,Mann M.Epigenetics and human disease:translating basic biology into clinical applications[J].Canadian Medical Association journal,2006,174(3):341-348.
[4] Dunwell T,Hesson L,Rauch TA,et al.A Genome-wide screen identifies frequently methylated genes in haematological and epithelial cancers[J].Molecular Cancer,2010,9:44.
[5] P?lmke N,Santacruz D,Walter J.Comprehensive analysis of DNA-methylation in mammalian tissues using MeDIP-chip[J].Methods,2010,53(2):175-184.
[6] S?rensen AL,Jacobsen BM,Reiner AH,et al.Promoter DNA Methylation Patterns of Differentiated Cells Are Largely Programmed at the Progenitor Stage[J].Molecular Biology of the Cell,2010,21:2066-2077.
[7] Zhu JC,Sanborn JZ,Benz S,et al.The UCSC Cancer Genomics Browser[J].Nature Methods,2009,6:239-240.
[8] Li J,Gao F,Li N,et al.An improved method for genome wide DNA methylation profiling correlated to transcription and genomic instability in two breast cancer cell lines[J].BMC Genomics,2009,10:223.
[9] Shames DS,Girard L,Gao B,et al.A Genome-Wide Screen for Promoter Methylation in Lung Cancer Identifies Novel Methylation Markers for Multiple Malignancies[J].PLoS Med,2006,3(12):2244-2263.
[10]Okamoto J,Hirata T,Chen Z,et al.EMX2is epigenetically silenced and suppresses growth in human lung cancer[J].Oncogene,2010,29(44):5969-5975.
[11]Bock C,Reither S,Mikeska T,et al.BiQ Analyzer:visual-ization and quality control for DNA methylation data from bisulfite sequencing[J].Bioinformatics,2005,21(21):4067-4068.
[12]Kumaki Y,Oda M,Okano M.QUMA:quantification tool for methylation analysis[J].Nucleic Acids Research,2008,36:W170-175.
[13]Rohde C,Zhang YY,Reinhardt R,et al.BISMA-Fast and accurate bisulfite sequencing data analysis of individual clones from unique and repetitive sequences[J].BMC Bioinformatics,2010,11:230.
[14]Pulukuri SM,Patibandla S,Patel J,et al.Epigenetic inactivation of the tissue inhibitor of metalloproteinase-2(TIMP-2)gene in human prostate tumors[J].Oncogene,2007,26:5229-5237.
[15]Cindy D,Davis,Eric O,et al.DNA Methylation,Cancer Susceptibility,and Nutrient Interactions[J].Exp Biol Med,2004,229:988-995.
[16]Ramchandani S,Bhattacharya SK,Cervoni N,et al.DNA methylation is a reversible biological signal[J].Proc Natl Acad Sci USA,1999,96(11):6107-6112.