楊 怡, 楊佳怡, 高運華, 董蓮華, 楊靖亞
(1.上海海洋大學(xué)食品學(xué)院,上海201306;2.中國計量科學(xué)研究院前沿計量科學(xué)中心,北京100029)
表觀遺傳學(xué)是在DNA序列不發(fā)生改變的情況下,基因表達可遺傳性改變的一門遺傳分支學(xué)科,主要表現(xiàn)在DNA甲基化、組蛋白修飾和非編碼RNA[1]。其中DNA甲基化是人們深入研究的最重要的表觀遺傳機制,在許多關(guān)鍵的生物學(xué)過程中發(fā)揮著重要作用[2,3]?;跍y序的DNA甲基化分析為描繪比較完整的DNA CpG圖譜奠定了基礎(chǔ)。在過去的幾十年里,大量DNA甲基化測量技術(shù)的涌現(xiàn)使基因組甲基化分析研究得到了極大的發(fā)展。但是由于缺乏評估基因組甲基化準(zhǔn)確性的相關(guān)研究,目前尚不明確基因組甲基化特異性是否如通常識別序列所暗示的那樣精確。因此,本文對DNA甲基化測量技術(shù)的進展以及甲基化測量的準(zhǔn)確評估所存在的問題展開討論,以期為基因組甲基化測量的準(zhǔn)確可比性提供可能的解決方案。
DNA甲基化是DNA的一種天然修飾方式,具有多態(tài)性、隨年齡變化[4]、組織特異性[5]、親源特異性[6]等特點。其主要是指通過甲基轉(zhuǎn)移酶(DNA methyltransferases,DNMTs)將S-腺苷甲硫氨酸(S-Adenosylmethionine,SAM)提供的甲基轉(zhuǎn)移到DNA的胞嘧啶(C)或腺嘌呤(A)上,對DNA進行修飾而發(fā)生的一系列表觀遺傳現(xiàn)象[7]。研究發(fā)現(xiàn)有不同的DNA甲基化修飾,如5-甲基胞嘧啶(5-mC)、5-羥甲基胞嘧啶(5-hmC)和N6-甲基腺嘌呤(6mA)等,其中最為常見且研究最充分的堿基甲基化是5-mC[8~10]。DNA的甲基化可以調(diào)節(jié)基因活性并影響許多關(guān)鍵過程,如染色質(zhì)結(jié)構(gòu)、細胞分化、DNA構(gòu)象和轉(zhuǎn)錄調(diào)控[11]。因此,DNA的甲基化也是實現(xiàn)基因沉默和基因印記的重要途徑。
DNA甲基化的測量就是用于區(qū)分DNA序列中的C和5-mC的能力。檢測基因組DNA甲基化水平的方法有很多種,根據(jù)目的的不同可分為全基因組和特定位點的DNA甲基化水平測量[12]。但大多數(shù)DNA甲基化測量技術(shù)均是基于PCR方法,即模板是經(jīng)亞硫酸氫鹽處理過的DNA,根據(jù)需求選擇引物進行測量。在這里,根據(jù)采用其技術(shù)類型的不同分為3大類[13]:基于甲基化敏感限制性內(nèi)切酶(methylation sensitive restriction enzymes,MRE)的測量、基于亞硫酸氫鹽的測量和基于親和富集方法的測量。表1中,對本文所列舉的方法進行了歸納對比,后文將對重點關(guān)注的測量技術(shù)原理以及優(yōu)缺點進行簡要介紹。
表1基于測序的DNA甲基化分析方法對比表Tab.1 Comparison table of DNA methylation analysis methods based on sequencing
MRE是一組只針對非甲基化DNA片段的酶(如BstU l、Hpa ll、Not l)[13]。根據(jù)這一特性將其應(yīng)用于DNA甲基化的測量,主要原理是利用MRE識別且切割未甲基化C位點,假設(shè)未甲基化DNA完全裂解,不能被擴增;甲基化DNA不會被消化從而保持完整,通過DNA擴增來確定基因組甲基化[14]。該方法測定條件溫和、操作簡單快速。不足之處在于:一是引入了識別位點偏差,分辨率相對較差,并且存在消化不完全而造成的假陽性;二是酶只能識別特定的位點,即識別CpG位點(CCGG)之前的C,不能完全并且準(zhǔn)確地反應(yīng)甲基化全貌。Sun[14]等使用了一種新型的GlaI,其能結(jié)合等溫指數(shù)擴增反應(yīng)(isothermal exponential amplification reaction,EXPAR)測量出特異性DNA甲基化。GlaI以極好的選擇性切割甲基化的靶位點,而保留未甲基化DNA,這與MRE特性完全相反,而暴露出來的甲基化DNA末端片段觸發(fā)EXPAR,放大了其高效信號。因此,GlaI-EXPAR對測量DNA甲基化具有高度特異性和靈敏性的特點,彌補了傳統(tǒng)基于MRE的測量造成假陽性結(jié)果的缺陷。然而,GlaI也是一種酶,也只能識別特定的DNA甲基化靶點,不能準(zhǔn)確的反映出的全基因組范圍的甲基化狀態(tài)。
3.2.1 亞硫酸氫鹽測序(BSP)
亞硫酸氫鹽測序(bisulfite sequencing PCR,BSP)是目前公認的主流DNA甲基化測量技術(shù)之一,是評估DNA甲基化的“金標(biāo)準(zhǔn)”技術(shù)。該方法首先是由亞硫酸氫鹽處理DNA,使未甲基化的C化學(xué)轉(zhuǎn)化為胸腺嘧啶(T),而甲基化的C保持不變;進而PCR擴增,對PCR產(chǎn)物測序,比較測序結(jié)果與未處理序列。因為C只來源于5-mC,由此可確定DNA序列中甲基化位點[15,16]。此法可對目的基因的每一個CpG甲基化位點精準(zhǔn)定位,但樣本的準(zhǔn)備過程過于繁瑣,并且需要純度較高的DNA以避免殘余的蛋白質(zhì)對亞硫酸氫鹽的轉(zhuǎn)化造成干擾。
BSP是對特定位點DNA甲基化的測量,不能測量出全基因組DNA的甲基化。因此,基于二代測序的全基因組甲基化測序(whole genome bisulfite sequencing,WGBS)隨之問世, 它結(jié)合了亞硫酸氫鹽轉(zhuǎn)化和高通量測序,提供了單堿基分辨率的全覆蓋,以隨機的方式覆蓋人類基因組中超過90%的CpGs[17],但需達到一定的測序深度才能保證覆蓋范圍和水平。簡化代表性亞硫酸氫鹽測序(reduced representation bisulfite sequencing,RRBS)是另一種在單堿基分辨率下分析DNA甲基化的技術(shù),它結(jié)合了MRE(如MspI)對基因組DNA進行消化、制備文庫和亞硫酸氫鹽處理的測序,以豐富CpG含量較高的區(qū)域[17]。RRBS的優(yōu)勢在于增加了基因組特定區(qū)域的測序深度,降低了成本以及基因組數(shù)據(jù)量;缺點是不能測量全基因組范圍內(nèi)DNA甲基化[17,18]。
為了解決WGBS和RRBS的局限性,Bonora等[18]開發(fā)了一種新的方法,即甲基化敏感性限制酶亞硫酸氫鹽測序(methylation-sensitive restriction enzyme bisulfite sequencing,MREBS),降低了RRBS的測序要求,且顯著擴大了基因組中CpG位點的覆蓋范圍。其基本原理是:利用3種MRE(如HpaII(CCGG),HinP1I(GCGC)和AciI(CCGC))并行消化DNA非甲基化區(qū)域,基于MRE-seq讀圖覆蓋率與切割位點附近的DNA甲基化水平之間的反比關(guān)系,直接測量其側(cè)翼區(qū)域的DNA甲基化水平。
3.2.2 甲基化特異性PCR(MSP)
甲基化特異性PCR(methylation-Specific PCR,MSP)是由Herman于1996年首次提出的一種針對特定位點DNA甲基化的測量技術(shù)[19]。其主要原理是DNA片段由亞硫酸氫鹽處理后,根據(jù)目的基因修飾前后的改變分別設(shè)計出非甲基化特異性引物和甲基化特異性引物,隨后目的基因經(jīng)PCR擴增,根據(jù)自身甲基化情況將結(jié)果通過瓊脂糖凝膠電泳圖像顯現(xiàn)出來。若甲基化引物擴增出條帶,則該位點發(fā)生甲基化;若無甲基化引物擴增條帶,則該位點沒有發(fā)生甲基化。因此,該方法操作簡便快捷且特異性高。由于需要設(shè)計引物,所以只能對已知序列和部分甲基化DNA進行測量[16,20]。
Fackler等[21]創(chuàng)建了一種定量多重甲基化特異性PCR(quantitative multiplex methylation-specific PCR,QM-MSP)的技術(shù),具有靈敏性強且能定量多重分析DNA甲基化水平的特點。該方法的特殊之處在于運用了兩步PCR方法:第一步反應(yīng)是基因特異性引物在其PCR反應(yīng)中能同時多重擴增同一基因的甲基化和非甲基化拷貝,不依賴于甲基化擴增步驟中產(chǎn)生的擴增產(chǎn)物;第二步反應(yīng)是可以使用實時PCR和兩個獨立的熒光團通過標(biāo)準(zhǔn)曲線對第一步反應(yīng)的擴增片段進行定量,以測量同一孔中每個基因的甲基化/未甲基化DNA。
數(shù)字PCR(digital PCR,dPCR)是可以對單個DNA分子進行計數(shù)且對核酸進行絕對定量的第三代PCR技術(shù)。Cui等[22]開發(fā)了一種基于微孔芯片dPCR的甲基熒光分析法(MethyLight)測量DNA甲基化。與14種傳統(tǒng)定量PCR相比,dPCR達到了93.3%的最高檢出率。因此,dPCR是一種很有潛質(zhì)的測量DNA甲基化的工具。其主要原理是:通過微液滴化,將其隨機分配至微反應(yīng)單元中,PCR循環(huán)擴增和讀取后,根據(jù)泊松分布來進行絕對定量[22]。該方法靈敏度強、精準(zhǔn)度高且重復(fù)性好,但液滴的控制和讀出需要專門的設(shè)備,這增加了程序的成本,并限制了其廣泛應(yīng)用。
3.2.3 變性高效液相色譜(DHPLC)
變性高效液相色譜(denaturing high-performance liquid chromatography,DHPLC)是一種常用于檢測基因突變位點的新型檢測技術(shù)。Deng[23]等將發(fā)生甲基化的多個CpG位點作為多位點突變,首次利用DHPLC測量DNA甲基化。其主要原理是:DNA甲基化的差異是通過監(jiān)測部分變性條件下亞硫酸氫鹽處理的DNA擴增產(chǎn)物的保留時間來揭示的。也就是說,序列中所有CpG位點完全甲基化導(dǎo)致PCR產(chǎn)物的G/C含量增加,進而需要更高的熔融溫度,從而增加了在DHPLC分析中保留的時間。但單個異常甲基化的CpG位點不能被精準(zhǔn)定位。如果發(fā)生不完全CpG島甲基化,MSP和MRE-seq測定的非甲基化的結(jié)果可能就沒有意義了,而DHPLC則將目標(biāo)基因的所有CpG位點甲基化狀態(tài)顯現(xiàn)了出來。因此,此方法只適用于CpG島甲基化模式的篩選[24,25]。
3.2.4 質(zhì)譜檢測(mass spectrometry,MS)
質(zhì)譜檢測(mass spectrometry,MS)是由亞硫酸氫鹽處理的DNA,經(jīng)PCR擴增并且轉(zhuǎn)錄成單鏈RNA分子后被特異性地裂解成堿基,利用基質(zhì)輔助激光解吸電離飛行時間質(zhì)譜法(matrix assisted laser desorption ionization-time of flightmass spectrometry,MALDI-TOF-MS)進行質(zhì)譜分析,檢測出原DNA甲基化的胞嘧啶位點的方法[16,25,26]。因為在亞硫酸氫鹽處理過程中,未甲基化的C轉(zhuǎn)化為U將產(chǎn)生堿基特異性切割產(chǎn)物,而這些產(chǎn)物能反映潛在的甲基化模式,所以可以很容易地用MALDI-TOF-MS進行分析,進而測量出甲基化位點。Suchiman等[27]開發(fā)了一種基于質(zhì)譜的亞硫酸氫鹽測序技術(shù)平臺,即EpiTYPER?。它能對100~600個堿基對的基因組區(qū)域進行甲基化檢測,在很大程度上以單核苷酸分辨率對甲基化水平進行定量測量,實現(xiàn)了定量和高通量的區(qū)域特異性DNA甲基化分析。因此,該方法特別適合大規(guī)模或者全基因組DNA甲基化的研究驗證。
3.2.5 甲基化敏感熔解曲線分析(MS-HRM)
甲基化敏感熔解曲線分析(methylation-sensitive high-resolution melting,MS-HRM)是一種檢測單核苷酸變異的新型技術(shù),具有靈敏性高、特異性強且更為有效的特點[28]。它為臨床研究中篩選基因甲基化案例提供了敏感性和快速性,主要原理是基因組DNA經(jīng)亞硫酸氫鹽處理后,保留了甲基化DNA中CG堿基對,未甲基化DNA中CG堿基對則轉(zhuǎn)變成了AT堿基對,通過熔解曲線分析,CG含量越高的雙鏈DNA螺旋的熔融溫度(Tm)越高,進而檢測出特定位點的DNA甲基化水平[29]。通過對熔解溫度及峰型的分析,可以區(qū)分基因組甲基化的程度,包括完全甲基化、部分甲基化和未甲基化。因此,該方法可以區(qū)分甲基化中極其微小的差距,缺點是不能測量出基因組甲基化的堿基序列。MS-HRM靈敏性高的原因:一是特別設(shè)計的引物可以與甲基化等位基因互補,因此可在未甲基化背景下檢測出低至(0.1~1)%的甲基化等位基因;二是特定的退火溫度可以使這些引物能夠同時對甲基化和未甲基化等位基因進行退火,所以提高了測量的靈敏度[30]。MS-HRM的高靈敏度已經(jīng)被證實可用于無創(chuàng)檢測膀胱癌患者尿液、結(jié)直腸癌患者糞便以及乳腺癌患者頰粘膜中的癌癥生物標(biāo)記物[30]。
3.2.6 焦磷酸測序(PSQ)
焦磷酸測序(pyrosequencing,PSQ)是一種邊合成邊測序的實時DNA序列分析技術(shù)[31]。其被用來分析DNA甲基化模式,首先是將基因組DNA經(jīng)亞硫酸氫鹽處理,使其未甲基化C轉(zhuǎn)化,保持甲基化C不變,PCR擴增后,DNA甲基化水平就是CT單堿基多態(tài)性位點中等位基因C的頻率[32]。此方法反應(yīng)過程直接,且絕對定量甲基化水平,操作簡便、特異性高;不足之處在于檢測CpG數(shù)量有限[32]。Reed等[33]于2010年首次對BSP和PSQ進行評估,通過實驗檢測和量化各種藥物敏感性和耐藥性基因組啟動子的甲基化狀態(tài),結(jié)果表明BSP和PSQ均能檢測到DNA的低甲基化和混合甲基化,但BSP檢測強甲基化DNA更為敏感。
3.2.7 甲基化芯片測序( Methy-chip-seq)
甲基化芯片測序(methylation chip sequencing, Methy-chip-seq)是一種基于亞硫酸氫鹽或酶處理DNA序列雜交的信號探測技術(shù)[16]。其主要原理是:基因組DNA經(jīng)過亞硫酸氫鹽處理,將未甲基化C變成U,保持甲基化C不變,然后再將U轉(zhuǎn)化成A,最后進行芯片雜交,根據(jù)熒光信號來確定某一位點的甲基化水平[16]。該方法可以進行跨物種甲基化片段測量,且不需要基因組序列信息,可歸屬于全基因組甲基化測量技術(shù);但芯片雜交要求設(shè)備昂貴,數(shù)據(jù)處理依賴生物信息學(xué)知識。Wu等[34]設(shè)計了一個基于微流控芯片的新型的dPCR裝置,將甲基化測量的dPCR過程集成在一個芯片上,能在低至1%甲基化基因的樣品中成功測量到甲基化,檢測限為0.52%。該方法不僅靈敏度高、特異性強且重復(fù)性好,芯片還降低了dPCR的成本,簡化了dPCR的過程,不需要專門的dPCR設(shè)備,屬于甲基化的全芯片測量。
3.3.1 甲基化DNA免疫共沉淀測序(MeDIP-seq)
甲基化DNA免疫共沉淀測序(methylated DNA immunoprecipitation sequencing, MeDIP-seq)是一種經(jīng)濟高效的用于基因組特異性和全基因組分析的方法[35]。最先是由Weber等[36]提出,設(shè)計原理是:首先將雙鏈DNA超聲波處理并變性后得到片段單鏈DNA,然后使用抗5-mC的單克隆抗體來富集選擇大小(通常為150~300 bp)的甲基化DNA片段,并對富集片段進行建庫、測序和分析,以測量CpG和非CpG甲基化。隨后,有研究者在此基礎(chǔ)上進行方案優(yōu)化,提出了能在輸入DNA量為50~5,000 ng范圍內(nèi)顯示出可比的特異性(>97%)和富集(>100倍)以及在5 GB測序時達到飽和的方案[37,38]。該方法的優(yōu)點是:不經(jīng)過亞硫酸氫鹽處理,所獲得的數(shù)據(jù)量較小,降低了數(shù)據(jù)處理難度的同時也提高了該方法的性價比;缺點是不能確定富集片段中每個位點的胞嘧啶甲基化狀況和無法實現(xiàn)單堿基分辨率,同時測量不出絕對的甲基化水平,只適合樣本間的相對比較,該抗體只能在單鏈DNA中捕獲5-mC[39]。當(dāng)然,研究的步伐永不停歇。Jia等[40]開發(fā)了一種名為MB-seq的新型DNA甲基化基因組分析技術(shù),這是一種結(jié)合MeDIP-seq和亞硫酸氫鹽轉(zhuǎn)化的新穎DNA甲基化組分析技術(shù),可以精確檢測5-mC位點并以單堿基分辨率確定其DNA甲基化水平,并且成本較低。它只需要7~8 Gbp的數(shù)據(jù)來測量具有足夠覆蓋范圍和測序深度的人類甲基化組,加速了人類疾病中DNA甲基化機制的解碼過程。
3.3.2 甲基結(jié)合結(jié)構(gòu)域捕獲測序(MBD-seq)
甲基結(jié)合結(jié)構(gòu)域捕獲測序(methyl-binding protein sequencing,MBD-seq)的原理與MeDIP-seq極其相似,區(qū)別在于將抗5-mC的單克隆抗體富集甲基化DNA片段替換成特異性結(jié)合甲基化DNA的MBD蛋白富集[41,42]。MBD之所以能用于DNA甲基化分析是其能特異性結(jié)合甲基化DNA。因此,基因組DNA的MBD沉淀與大規(guī)模平行測序相結(jié)合,可以實現(xiàn)對多個樣本的高通量分析,且不會引起序列偏倚[43]。MBD分離的基因組測序(MBD-isolated genome sequencing,MiGS)特異性高,靈敏性強且高通量,適合于研究全基因組DNA甲基化模式,既能有效地測量已知的DNA甲基化水平又可鑒定許多新型DNA甲基化位點。它結(jié)合了MBD2蛋白的重組甲基CpG結(jié)合域?qū)谆疍NA的沉淀,并通過大規(guī)模平行測序儀對分離的DNA進行測序,以鑒定基因組規(guī)模上的差異甲基化區(qū)域[41]。
3.4.1 基于單分子納米孔技術(shù)的甲基化測量
納米孔測序(nanopore sequencing,Na-seq)是一種可以直接測量DNA甲基化修飾的新興的第三代測序技術(shù)。其主要原理是:基因組DNA經(jīng)過外切酶消化成單鏈DNA分子,在電泳作用下,不同堿基(A、T、C、G、5-mC等)的化學(xué)性質(zhì)差異在穿越納米通道時,會引起不同變化的電流信號,最后可以通過測序儀快速讀出堿基類型[44]。簡而言之,納米孔測量基因組甲基化就是根據(jù)穿過蛋白孔的離子電流變化來確定DNA甲基化位點[45,46]。該方法從成本和時間上看,具有無法比擬的優(yōu)越性,同時還具有靈敏度高、特異性強且重復(fù)性好的特點。因此,納米孔測序技術(shù)可能會成為未來發(fā)展的主流方向。
3.4.2 基于單分子實時測序的甲基化測量
單分子實時合成測序(single molecule real time sequencing,SMRT)是由FJusberg等[47]提出利用DNA聚合酶進行邊合成邊收集熒光信號的方法進而測序的第三代測序技術(shù)。它是最新開發(fā)的方法,通過對模板鏈復(fù)制來獲得序列信息[48]?;驹砣缦拢簩⒋郎yDNA片段化,使其兩端連接發(fā)夾接頭形成閉合的環(huán)狀單鏈模板(稱其為SMRTbell),DNA聚合酶捕獲文庫DNA序列[49],錨定在零模波導(dǎo)孔底部(zero-mode waveguides,ZMWs),4色熒光標(biāo)記的dNTP與DNA模板堿基配對,形成聚合酶-引物-SMRTbell復(fù)合物,通過其熒光信號的顏色和脈沖間隔時間獲得酶動力學(xué)信息,從而直接檢測DNA模板上的核苷酸修飾,包括甲基化[50]。該方法的優(yōu)勢在于單分子測序,不需要PCR擴增,覆蓋高CpGs區(qū)域,延長了測序讀長,最大限度地保持了聚合酶的活性;劣勢在于:錯誤率較高(可達15%),且出錯隨機。目前已經(jīng)通過提高酶的活性、增加測序的深度等手段極大地降低了隨機錯誤率。
DNA甲基化是腫瘤診斷的理想標(biāo)志物[51~53],但是如果DNA甲基化測量結(jié)果不可靠,將會嚴重影響其在臨床中的應(yīng)用,因此DNA甲基化測量結(jié)果的準(zhǔn)確性評估非常關(guān)鍵。由于不同實驗室的設(shè)備、人員、操作等方面存在很大差異,導(dǎo)致測量結(jié)果在不同實驗室、不同平臺間測定結(jié)果的比較性不高,為此國際計量局物質(zhì)量咨詢委員會于2005年、2009年和2014年分別組織了3次關(guān)于DNA甲基化的測量比對。由主導(dǎo)實驗室韓國標(biāo)準(zhǔn)科學(xué)研究院(Korea Research Institute of Standards and Science,KRISS)協(xié)同不同國家計量機構(gòu)之間進行國際比較研究。在對人工合成的DNA樣品中總甲基胞嘧啶含量定量測量和CCQM P94.2的細胞周期蛋白依賴性激酶抑制劑2A(cyclin-dependent kinase inhibitor 2A,CDKN2A)基因DNA甲基化定量測量的國際比對研究中,各機構(gòu)實驗平臺分別采用不同的方法(如毛細管電泳法、MALDI-TOF-MS、序列測定技術(shù)、熔點法、液相色譜同位素稀釋質(zhì)譜法和MRE-seq等)進行測量,然而,不同實驗室之間的測量結(jié)果與KRISS所設(shè)定的參考值存在差異[54,55]。差異的來源可能是實驗室之間的設(shè)備、人員操作存在問題,也可能是采用的測量方法原理的不同導(dǎo)致對甲基化測量的特異性和靈敏度存在差異。期間,仍有研究學(xué)者為了研究DNA甲基化檢測方法的準(zhǔn)確度和靈敏性,分別采用BSP和PSQ兩種檢測方法來檢測和量化各種藥物敏感性和耐藥性基因組啟動子的甲基化狀態(tài),結(jié)果表明BSP和PSQ均能檢測到DNA的低甲基化和混合甲基化,但BSP檢測強甲基化DNA更為敏感[33]。由于缺乏與DNA甲基化有關(guān)的參考分析系統(tǒng)來進行準(zhǔn)確性評估,DNA甲級化測量結(jié)果的可信度需要進一步驗證。因此,急需建立一套規(guī)范的目標(biāo)基因甲基化測量分析流程或研制出甲基化測量標(biāo)準(zhǔn)物質(zhì),以減少甲基化測量中的假陽性或假陰性結(jié)果的產(chǎn)生,提高目標(biāo)基因甲基化相關(guān)疾病診斷的準(zhǔn)確性。
隨著研究的深入,大量基因組檢測技術(shù)浮出于世,應(yīng)用于一定范圍的同時也取得相應(yīng)的成就。但基因組甲基化測序技術(shù)非常復(fù)雜,包括樣本的制備、建庫和測序,以及生物信息學(xué)分析算法和軟件等。每個步驟都會引入不確定性,導(dǎo)致最后獲得結(jié)果可靠性降低。因此,急需建立評估基因組甲基化分析流程或模型。
Simpson等[45]在納米孔檢測胞嘧啶甲基化的實驗中設(shè)計了由PCR擴增的基因組DNA作為完全未甲基化的陰性對照和由CpG甲基轉(zhuǎn)移酶(CpG methyltransferase,M.Sssl)處理的基因組DNA作為完全甲基化的陽性對照,但該酶是否可以完全將其進行甲基化尚不清楚;隨后,利用大腸桿菌數(shù)據(jù)訓(xùn)練的隱馬爾可夫模型(hidden markov model,HMM)和對數(shù)似然比對陰陽性對照樣本的每個位點進行甲基化調(diào)用,評估甲基化調(diào)用的準(zhǔn)確性,發(fā)現(xiàn)使用納米孔R7.3數(shù)據(jù)的甲基化位點的準(zhǔn)確率為83%,使用R9數(shù)據(jù)的準(zhǔn)確率為87%。由此可見,不同的芯片產(chǎn)生的結(jié)果存在差異,這也表明了基因組甲基化準(zhǔn)確性評估的重要性。然而,由于訓(xùn)練數(shù)據(jù)集的限制,HMM無法識別非CpG甲基化或甲基化和未甲基化的混合物。隨后Rand等[46]建立了一個更完整的檢測甲基化位點調(diào)用準(zhǔn)確性的模型,稱其為HMM-HDP。它是由HMM和層次狄利克雷過程(hierarchical dirichlet processes,HDP)組成,除了訓(xùn)練并記憶1 784個典型堿基的6-聚體離子流分布,還要訓(xùn)練2 868個新的具有甲基化堿基的6-聚體離子流分布,通過單鏈上正確甲基化調(diào)用的比例來衡量每次讀取的準(zhǔn)確性。結(jié)果表明,HMM-HDP對pUC19質(zhì)粒和大腸桿菌的納米孔R9數(shù)據(jù)在基因組水平上的準(zhǔn)確率為86%~95%。McIntyre等[56]提出一種新的核酸修飾呼叫器(稱其MCaller),并結(jié)合國際空間站(international space station,ISS)所生成的樣本DNA甲基化的正交PacBio數(shù)據(jù),用其測量信號和預(yù)期信號的偏差作為特征模型訓(xùn)練且測試二元分類器,利用訓(xùn)練后的4種分類器(神經(jīng)網(wǎng)絡(luò)、隨機森林、樸素貝葉斯和邏輯回歸)檢測小鼠、大腸桿菌MG1655K12和λ噬菌體三種基因組DNA的等摩爾混合物數(shù)據(jù)中的6 mA,在15倍或更高的覆蓋率下,它們在基因組水平上達到了94%的準(zhǔn)確率。Ni等[44]開發(fā)了一種深度學(xué)習(xí)方法,稱為深度信號(DeepSignal),他們利用pUC19質(zhì)粒的5-mC和6 mA數(shù)據(jù)集對DeepSignal進行檢驗,均獲得比HMM更高的讀數(shù)水平和基因組水平的準(zhǔn)確率。為了進一步評估DeepSignal的性能,還使用大腸桿菌和人類的CpG甲基化(5-mC)數(shù)據(jù)集進行測試,在5倍覆蓋率下,它們在基因組水平上的準(zhǔn)確率超過90%。以上基于模型的方法中,經(jīng)過對模型的優(yōu)化改進,其結(jié)果均能提高基因組甲基化測量的可行性和準(zhǔn)確性。但它們需要進行大量的先前訓(xùn)練數(shù)據(jù)集,因此不能測量不同類型的基因組甲基化修飾,特別是人為引入的修飾。
Stoiber等[57]使用一種可實現(xiàn)基因組序列可視化的軟件包(Nanoraw)來解析帶有基因組甲基化位置的原始納米孔信號。其原理主要是使用改良DNA測序(modified DNA sequencing, MoD-seq)對天然的和匹配的擴增DNA樣本進行納米孔測序(其中利用擴增來產(chǎn)生未甲基化修飾的DNA)。Nanoraw通過堿基檢出、錯誤校正等處理這些數(shù)據(jù),并在全基因組范圍內(nèi)比較重新處理的原始信號,從而識別出甲基化修飾的堿基。為了評估Nanoraw的準(zhǔn)確性及可行性,Mann等[58]通過MoD-seq的曼-惠特尼U檢驗(Mann-Whitney U-test)對大腸桿菌中由7個不同純化甲基酶構(gòu)建的已知目標(biāo)位點的基因組甲基化進行測量,結(jié)果表明它們在基因組水平上的準(zhǔn)確率為(84~90)%。Liu等[59]開發(fā)了一種名為NanoMod的新型計算工具,其使用從納米孔長讀長測序技術(shù)產(chǎn)生的原始電信號來測量基因組甲基化。主要原理是:用含甲基化堿基和不含甲基化堿基的兩組讀數(shù)作為NanoMod的輸入,然后進行堿基檢出,錯誤校正和檢驗已知位置的信號,從而測量出甲基化修飾的堿基。他們根據(jù)已公布的大腸桿菌甲基化數(shù)據(jù)集對結(jié)合了柯爾莫哥洛夫-斯米爾諾夫檢驗(Kolmogorov-Smirnov test,K-S test)[60]的NanoMod進行準(zhǔn)確性評估,其結(jié)果表明在基因組水平上的準(zhǔn)確率為70%。這兩種基于統(tǒng)計的方法都能在沒有進行先前訓(xùn)練數(shù)據(jù)集的情況測量甲基化水平。與基于模型的方法相比,基于統(tǒng)計的方法測量的準(zhǔn)確率較低。
科學(xué)合理的分析流程或模型的建立,依賴于準(zhǔn)確可靠的基因組甲基化標(biāo)準(zhǔn)物質(zhì)或標(biāo)準(zhǔn)數(shù)據(jù)集,通過使用標(biāo)準(zhǔn)物質(zhì)或標(biāo)準(zhǔn)數(shù)據(jù)集進行質(zhì)控和參數(shù)的訓(xùn)練優(yōu)化,得到的流程或模型才能可靠。然而在基因組甲基化標(biāo)準(zhǔn)物質(zhì)方面的研究除上述團隊外,目前還沒有更多的報道。對于全基因組甲基化標(biāo)準(zhǔn)物質(zhì)的準(zhǔn)確定值是其中的難點和關(guān)鍵所在,這也是我們在未來的研究中需要攻克的難題。
分析基因組中DNA的甲基化對理解其在正常的生物學(xué)功能和腫瘤疾病中的影響至關(guān)重要。DNA的甲基化改變可以為腫瘤疾病的診斷和治療提供一條重要的途徑,而且準(zhǔn)確可靠的甲基化檢測結(jié)果對疾病早期診斷、發(fā)病風(fēng)險評估、療效評價以及復(fù)發(fā)預(yù)測具有重要的意義。現(xiàn)今DNA甲基化的檢測方法有全基因組分析的方法,如第三代測序技術(shù),已經(jīng)被用來評估大部分的甲基化基因組;以及以亞硫酸氫鹽為基礎(chǔ)的方法,如典型的BSP、PSQ等,已經(jīng)建立了許多不同的定量方法來繪制DNA表觀基因的單堿基分辨率圖譜。DNA甲基化的檢測方法眾多,各有優(yōu)劣,應(yīng)多方比較,結(jié)合實際情況后選取。
隨著生物技術(shù)的發(fā)展,DNA甲基化測量技術(shù)勢必會不斷更新,未來可能會開發(fā)出具有更高準(zhǔn)確性和更高靈敏度的甲基化測量技術(shù)。然而,對現(xiàn)有甲基化測量技術(shù)和未來新技術(shù)的可靠性和準(zhǔn)確性評估,是使其能否得到更廣泛的臨床應(yīng)用的關(guān)鍵。這就需要攻克基因組甲基化標(biāo)準(zhǔn)物質(zhì)的定值關(guān)鍵技術(shù),開發(fā)準(zhǔn)確可靠的基因組甲基化標(biāo)準(zhǔn)物質(zhì),用來評價不同檢測方法的準(zhǔn)確性,保證檢測結(jié)果的可靠性。