羅志梅 張永彪 鄢純 韓圓圓 呼銳 劉繼強
(1. 北京康普森生物技術有限公司,北京 102206 2. 北京大數(shù)據(jù)精準醫(yī)療高精尖創(chuàng)新中心 北京航空航天大學,北京 100191)
高通量測序技術的快速發(fā)展促進現(xiàn)代基因組學研究的蓬勃發(fā)展,然而全基因組測序因成本昂貴,分析過程復雜,使科研人員倍感壓力[1],目標序列捕獲技術的出現(xiàn),在很大程度上緩解了上述的問題。目標序列捕獲技術是通過特異探針與基因組目標區(qū)域雜交,有選擇性的富集基因組中的特定片段。近年發(fā)展起來的捕獲技術,如雜交捕獲技術,其樣本在雜交前被隨機打斷成500 bp左右的片段,寡核苷酸探針可能與一些含有部分目標區(qū)段的非靶標序列雜交,導致捕獲的特異性較差。多重PCR捕獲技術是在一個反應體系中同時擴增多個目的片段,擴增子越多,不均一性也越高,PCR擴增的效率使其應用受到一定的限制。分子倒置探針(Molecular Inversion Probe,MIP)技術是最新發(fā)展起來的一種分子捕獲技術,因其特異性強、重復性好、操作簡單、費用低廉且對DNA完整度要求不高等特點,使其一經(jīng)出現(xiàn)便備受青睞,被廣泛應用于分子生物學檢測的各個領域。本文主要對MIP技術的原理、實驗流程、發(fā)展過程、技術特點及其應用進行了綜述,旨在使相關領域?qū)W者對MIP技術進行全面的了解,為研究者進行目標序列捕獲研究時提供更多的參考和選擇。
MIP技術是指線性的單鏈DNA序列探針與靶序列基因組雜交形成環(huán)狀結(jié)構(gòu),用來捕獲目標序列的分子生物學技術。
MIP技術的探針設計頗為新穎,是一段較長的單鏈DNA序列,兩端含有大約20-40 nt長度的特異序列,該序列能與靶標序列互補形成含有一個核苷酸至幾百個核苷酸缺口的環(huán)狀結(jié)構(gòu)。以4種游離的核苷酸(dATP、dTTP、dGTP和dCTP)為原料,在DNA聚合酶作用下以靶標序列為模板填補缺口;DNA連接酶催化探針兩端的3′,5′-磷酸二酯鍵,形成完整的環(huán)化探針;核酸外切酶降解反應體系中未參與反應的探針和基因組DNA序列,只保留環(huán)形探針;以滾環(huán)或者線性方式擴增的PCR產(chǎn)物可用于芯片雜交或者高通量測序,獲取的實驗數(shù)據(jù)可用于多種生物信息學分析。MIP技術的具體實驗流程,見圖1。
圖1 MIP技術實驗流程圖
MIP技術是基于鎖式探針技術發(fā)展而來的一項新型分子捕獲技術。鎖式探針是一條兩端含特異性檢測序列的DNA單鏈,探針的5′端和3′端與靶標序列毗鄰互補,DNA連接酶可將線性的鎖式探針連接成環(huán),如果探針兩端之間有一個堿基不能與模板互補配對,或者有一個堿基的空隙,則無法形成環(huán)狀結(jié)構(gòu)(圖2左),因此鎖式探針技術只能檢測已知的DNA序列,用于相似DNA序列的分析[2]。Hardenbol等[3]于2003年首次報道根據(jù)鎖式探針原理開發(fā)出MIP技術,用于單核苷酸多態(tài)性(Single nucleotide polymorphism,SNP)分型分析:當線性單鏈DNA探針與基因組靶標雜交時,在靶標序列的SNP位置有一個堿基的空隙,空隙填充的核苷酸與靶標序列SNP位點的核苷酸互補配對(圖2右)。這種改進的探針較鎖式探針具有更多優(yōu)點,如對于同一SNP位點而言,MIP技術僅需設計一條探針即可,而鎖式探針則需設計多條探針。
最初,MIP技術僅用于SNP分型,此時的探針共由7個結(jié)構(gòu)元件組成:探針的5′和3′端各有一段與目的基因組序列互補的特異序列(Genomic homology region 1/2)、兩段通用引物識別序列(PCR primer Site 1/2)、與芯片特異性結(jié)合的標簽序列(Array tag sequence)及兩段酶切序列(Probe/Tag-release cleavage site),總長度約 120 nt[4]。探針與基因組DNA混合雜交形成環(huán)狀結(jié)構(gòu),在一系列酶促反應下形成倒置的探針(圖3),線性擴增的產(chǎn)物與芯片雜交,通過雜交信號強度進行SNP分型。Wang等[5]利用此技術檢測細胞中完整基因組DNA及FFPE樣本DNA的拷貝數(shù)變異(Copy number variation,CNV),發(fā)現(xiàn)MIP技術也適用于FFPE樣本的檢測。
圖2 鎖式探針與分子倒置探針的比較
圖3 與芯片雜交結(jié)合的MIP技術原理
MIP技術與高通量測序技術的結(jié)合實現(xiàn)了更長基因組區(qū)域的捕獲。2007年,Akhras等[6]對探針進行改進,改進后的探針由5個結(jié)構(gòu)元件組成,包括兩端與靶標序列結(jié)合的片段,兩段通用引物配對序列及一段限制性酶切位點,探針3′端延伸到5′端,能形成大約100 nt的空隙填充長度,他們將此探針稱為“連接倒置探針(Connector inversion probe,CIPer)”。
運用MIP技術捕獲外顯子測序主要存在兩個困難,即捕獲效率低和雜合等位基因捕獲不均一。為了克服這些困難,2009年,Turner等[7]對MIP技術進行改進以適用于外顯子大規(guī)模的捕獲。他們延長了探針與靶標序列結(jié)合配對長度及空隙填充的時間,增加了探針及連接酶的濃度,同時將線性PCR擴增產(chǎn)物混合后用于構(gòu)建標準鳥槍法測序文庫[8]。該探針長度為70 nt,包括兩端特異的雜交序列及骨架序列[9]。改進后的MIP技術能同時擴增并測序50 000個外顯子。
2013年,Hiatt等[10]將分子倒置探針技術與單分子標記技術相結(jié)合,使MIP技術能借助高通量測序檢測低頻率變異;改進后的方法被稱為單分子分子倒置探針技術(Single molecule Molecular Inversion Probes,smMIP)。單分子標記能去除偏差和PCR擴增帶來的冗余序列,保留原始樣本中真實的信息,能檢測到MAF≤1%的低頻率變異。該探針主要由3部分構(gòu)成(圖4):5′-3′端與靶標序列互補的片段(Targeting arm)、骨架序列(Backbone)和單分子標記序列(Molecular tag)。此時使用的PCR擴增正向引物序列包括:測序引物序列和Illumina接頭序列1,反向引物包括:測序引物序列、條形碼序列和Illumina接頭序列2。因此運用此技術擴增的產(chǎn)物無需再構(gòu)建高通量測序文庫,可直接進行上機測序,簡化步驟節(jié)約時間。
圖4 與測序技術結(jié)合的smMIP流程圖
為了降低MIP技術檢測的費用,2012年,O’Roak等[11]采用新的MIP設計算法改進工作流程、優(yōu)化捕獲步驟及條件使其適用于高通量檢測,開發(fā)出了在大樣本中實現(xiàn)超低花費的多重靶向候選基因重測序新探針,使得每個樣本的單個基因檢測費用少于1美元。除此之外,所需 DNA樣品量少,靈敏度和陽性預測值分別可達到99%和98%,顯著提高了捕獲的效率。
2014年中國研究者將MIP技術與操作簡單、費用更低的瓊脂糖凝膠電泳結(jié)合,用于區(qū)分乙型肝炎病毒菌株單一位點的SNP分型,MIP探針與目的序列雜交后,探針的3′端獲得一個與靶標序列SNP位點互補的堿基空隙,反應產(chǎn)物分為4等份,每一等份加入一種游離的核苷酸填充空隙,隨后PCR擴增產(chǎn)物進行瓊脂糖凝膠電泳,通過泳道條帶對應加入的核苷酸種類即可判斷SNP分型[12](圖5)。
圖5 MIP技術與瓊脂糖凝膠電泳結(jié)合檢測SNP分型模式圖
2014年,Carrascosa等[13]將MIP技術與等離子體共振技術(Surface plasmon resonance technology,SPR)結(jié)合,用于檢測DNA甲基化區(qū)域。具體改進的地方包括:探針與經(jīng)過亞硫酸氫鹽處理過的基因組DNA和未處理的基因組DNA雜交形成環(huán)形探針后,通過不對稱PCR進行擴增產(chǎn)生單鏈寡核苷酸DNA序列,與固定在SPR上的生物傳感芯片雜交,Reading Oligo只與含有甲基化序列的片段結(jié)合而使SPR信號強度增強,從而將含有甲基化的片段與非甲基化片段區(qū)分開。具體流程如圖6。
圖6 MIP技術檢測甲基化流程[13]
分子倒置探針與線性探針相比,能夠指數(shù)級減少由于線性引物所引起的交叉反應及二聚體。此外,MIP技術還具有如下主要特點。
通過探針與基因組序列雜交互補來捕獲靶標序列,減少了非特異性序列的影響。DNA聚合酶、連接酶和核酸外切酶等一系列酶促反應處理后,降解反應體系中的線性探針及基因組DNA序列,有效減少其對PCR擴增的影響,降低背景對結(jié)果的干擾[5]。此外,DNA聚合酶校正3′端的錯配能力較5′端高,MIP探針3′端的單堿基延伸及后續(xù)的連接反應確保能更好的區(qū)分出單個堿基突變。這些巧妙的設計顯著增強了MIP技術的特異性。而其他傳統(tǒng)捕獲技術如雜交捕獲因探針可與非靶標序列結(jié)合,而造成特異性較差。
探針兩端與靶標序列結(jié)合的長度僅需40 bp左右,因此適用于部分降解的DNA樣本。而高通量測序需要靶向富集和深度覆蓋,才能獲得福爾馬林石蠟包埋樣本(Formalin-fixed paraffin-embedded,F(xiàn)FPE)的拷貝數(shù)信息。正因如此,Affymetrix公司基于MIP技術針對900個癌基因優(yōu)化設計探針,研發(fā)出適用于FFPE樣本的OncoScanTMFFPE Assay kit和OncoScanTMCNV FFPE Assay Kit,該試劑盒在一次試驗中可同時檢測出拷貝數(shù)變異、雜合性丟失等信息。
MIP技術檢測中用到的試劑、儀器都非常常見,許多實驗室均能滿足其操作要求。同時,在PCR擴增過程中,除使用線性擴增外,還可以采用滾環(huán)擴增,且PCR擴增產(chǎn)物無需專門構(gòu)建文庫便可以直接上機測序,這不僅簡化操作步驟還大大縮短操作時間。例如,羅氏NimbleGen基于此技術最新推出的針對腫瘤和遺傳病研究的HEAT-Seq目標片段富集系列產(chǎn)品如HEAT-SEQ oncology panel,具有操作流程簡單省時的特點,且不乏高效可信的變異檢測能力。從樣本DNA提取到完成測序文庫構(gòu)建耗時不足8 h,其中手工操作時間不到2 h。
基于MIP技術捕獲的目標序列經(jīng)PCR擴增后可以直接上機測序,因此只需少量的DNA樣品即可完成操作(≥200 ng)。而PCR捕獲技術、雜交捕獲技術需要的樣品量要達到μg級。此外,盡管MIP技術總體費用較高,但與其他捕獲技術相比,背景對目的片段的富集影響小,使得其通量更高,進而將每個樣本的單個基因檢測花費降低到不足1美元[10]。
使用MIP捕獲技術結(jié)合芯片雜交對同一個體SNP進行分型時,重復性可以達到99.9%[3]。
MIP技術在捕獲目的序列的過程中,捕獲的目的序列不能過長,否則空間效應可能會影響探針與靶標序列的成功雜交,對實驗結(jié)果產(chǎn)生影響。因此適用于小規(guī)模DNA片段的研究(≤5 Mb)。此外,對于一些位點如高GC含量區(qū)目前還無法設計探針,因此捕獲效率較差。
人類基因組計劃和國際人類基因組單倍型圖計劃(HapMap)的完成以及生物芯片研發(fā)和高通量測序技術的發(fā)展,極大地促進了人們對疾病的認識與理解,為疾病的預防、診斷及治療提供了新的思路。值得注意的是,研究人員利用MIP技術參與HapMap項目的實施,用于7號染色體上成千上萬個SNP的分型,其中大于11 000個非同義SNP被歸為HapMap項目的一部分[14]。MIP技術作為一種新型的分子捕獲技術,因其操作簡單、費用低等優(yōu)勢在研究人類疾病方面具有其獨特的價值。
孤獨癥譜系障礙(Autism spectrum disorder,ASD)近年呈現(xiàn)逐漸攀升的趨勢,嚴重影響人類正常生活。2012年,O′Roak等[11]利用MIP技術對2000多位受到不同類型ASD影響的患者進行了多基因分析發(fā)現(xiàn),6種頻發(fā)突變可能是造成1%偶發(fā)性ASD的病因。2016年,中南大學夏昆教授課題組利用MIP技術在1 543例中國人群ASD患者中完成了針對189個前期研究所提示的孤獨癥風險基因的靶向捕獲測序,并在29個孤獨癥相關的風險基因中發(fā)現(xiàn)大約4%的患者都攜帶與孤獨癥相關的de novo(DN)突變,從而揭示了我國孤獨癥患者潛在的病因[15],這項研究不僅填補了我國孤獨癥研究領域的空白,同時在國際上也屬于領先水平。
脊髓性肌萎縮(Spinal muscular atophy,SMA)是常染色體隱性遺傳病,也是最常見的致死性神經(jīng)肌肉疾病之一。臺灣研究者設計不同長度的MIP探針用于識別相同的核苷酸變異,采用不連續(xù)滾環(huán)進行擴增,利用短柱毛細管電泳檢測不同長度PCR產(chǎn)物的基因型,通過檢測SMN1基因和SMN2基因的劑量來進行SMA的診斷[16]。
在癌癥研究領域,MIP技術最先應用于結(jié)腸直腸癌的研究。Ji等[17]分別對200多個癌基因及染色體臂18q設計MIP探針,分析結(jié)腸直腸癌細胞系和原發(fā)性結(jié)腸直腸癌基因拷貝數(shù)變異及外顯子突變,結(jié)果發(fā)現(xiàn)原發(fā)性腫瘤有幾類不同的結(jié)腸直腸癌,并且每類都有特定基因及18q缺失,這一發(fā)現(xiàn)具有重要的臨床意義,18q丟失可以作為II期結(jié)直腸癌輔助治療的潛在指標。Zhang等[18]利用MIP技術檢測140例≤35歲患家族或非家族結(jié)腸直腸癌患者的7個易感基因,結(jié)果表明16例患者中6個基因發(fā)生變異,5例患者APC基因發(fā)生致病突變,3例患者MLH1基因發(fā)生致病突變,以及2例患者MSH2基因發(fā)生致病突變,此外3例患者檢測到新的突變。以上數(shù)據(jù)說明利用MIP技術診斷孟德爾式結(jié)腸直腸癌綜合癥是可靠的。
基質(zhì)金屬蛋白酶-7(MMP-7)是一類具有廣泛底物的分泌蛋白水解酶,能夠降解所有的細胞外基質(zhì)蛋白,許多研究已經(jīng)表明其表達與各種腫瘤的侵襲、轉(zhuǎn)移及存活有關[19-21]。Beeghly-Todiel等[22]利用MIP技術結(jié)合芯片雜交對MMP-7基因中11個SNP進行基因分型,評估MMP-7中SNP與乳腺癌存活之間的關系,結(jié)果發(fā)現(xiàn)MMP-7基因多態(tài)性是中國女性乳腺癌患者生存的重要決定因素。拷貝數(shù)變異一直是了解乳腺癌潛在分子機制的有效工具,Thompson等[23]使用高密度的MIP探針檢測971例乳腺癌Ⅰ期/Ⅱ期患者染色體拷貝數(shù)增加或缺失情況,鑒定出了12個新的拷貝數(shù)變異作為預后標記。隨后,研究者繼續(xù)利用MIP技術對乳腺癌患者的不同染色體的拷貝數(shù)進行檢測,為乳腺癌的診斷、治療及預后策略提供了非常重要的參考價值[24-27]。乳腺癌易感基因主要有BRCA1和BRCA2這兩種,這兩種基因發(fā)生突變患乳腺癌的風險高達75%和65%。因此,對BRCA1/2基因的檢測顯得尤為重要。Neveling等[28]利用smMIP技術分析BRCA1和BRCA2基因編碼區(qū)拷貝數(shù)變異,并開發(fā)出一種基于smMIP技術的自動化操作流程。
卵巢癌是女性最常見的惡性腫瘤之一,死亡率居婦科惡性腫瘤之首,MIP技術有助于提高對卵巢癌腫瘤發(fā)生過程和疾病進展階段的了解。2008年,Brown等[29]采用MIP技術對33例卵巢高級別漿液性癌患者中11q13區(qū)的擴增子進行研究發(fā)現(xiàn),擴增子的核心區(qū)域位于4個致癌基因的6 Mb區(qū)域內(nèi),在卵巢癌早期4個癌基因擴增與漿液性腫瘤密切相關。研究者利用同樣的技術對抑制受體酪氨酸激酶信號傳導的Sprouty蛋白基因座進行拷貝數(shù)分析發(fā)現(xiàn),在卵巢高級別漿液性癌患中Sprouty 2的拷貝數(shù)缺失失,過表達Sprouty將增加表皮生長因子(EGF)誘導的E-鈣黏連蛋白的表達,抑制EGF誘導的細胞侵襲[30]。Weren等[31]利用smMIP技術對BRCA1和BRCA2基因進行捕獲測序,獲得的結(jié)果為卵巢癌的治療策略提供重要的參考價值。
腎細胞癌簡稱腎癌,男性發(fā)病率高于女性。為了確定與透明細胞乳頭狀腎細胞癌有潛在關系的遺傳變異并評估MIP技術在檢測腎癌FFPE樣本的可行性,Alexiev等[32]利用MIP技術對兩種透明細胞乳頭狀腎細胞癌進行SNP分型分析,結(jié)果表明基于MIP技術的SNP芯片可以很好的檢測雜合性缺失及中性拷貝雜合性缺失,并且MIP技術對FFPE樣本的檢測效果良好,商業(yè)化OncoScan FFPE Assay kit(Affymetrix,Santa Clara,CA)能夠快速、經(jīng)濟地利用腫瘤樣本中的少量DNA檢測出全基因組拷貝數(shù)變異、雜合性丟失及體細胞突變。透明細胞腎細胞癌也被認為是一種代謝性癌癥,大約80%患癌都是由VHL基因失活突變或者表觀遺傳沉默導致的代謝異常引起的[33-34]。Bitter等[35]采用新型 smMIP技術檢測編碼代謝酶的基因活性及其突變情況,研究結(jié)果顯示smMIP技術可以提供有關代謝途徑的相關信息,檢測出調(diào)節(jié)代謝的靶基因活性,并且費用較低操作流程簡單。
研究表明許多腫瘤發(fā)生的早期階段抑癌基因甲基化增加,因此可通過DNA甲基化譜進行癌癥的診斷及預后分析。肝癌是臨床上常見的消化系統(tǒng)惡性腫瘤之一,早期階段治療比晚期階段治療具有更好的預后效果。2017年,Xu等[36]利用MIP技術捕獲亞硫酸氫鹽處理過的肝癌組織DNA及正常血液ctDNA,通過深度測序檢測DNA甲基化水平,發(fā)現(xiàn)肝癌組織的DNA甲基化與血漿中的ctDNA甲基化具有強相關性,之后通過多種統(tǒng)計方法開發(fā)出了可用甲基化標記進行診斷和預后預測的模型。
此外,MIP技術還用于其他腫瘤的研究,如黑素瘤、Burkitt淋巴瘤、尤因肉瘤、白血病、濾泡樹突狀細胞肉瘤[37]、膽管癌[38]和胃癌[39]等,為這些腫瘤的發(fā)生、發(fā)展、診斷、治療及預后研究作出了重要的貢獻。
乙型肝炎病毒(Hepatitis B virus,HBV)是一類嚴重危害人類身體健康的病原微生物,其耐藥基因突變檢測對指導臨床抗病毒藥物治療具有重要意義。唱凱等[12]利用MIP技術對病毒HBV耐藥基因突變位點進行檢測,結(jié)果發(fā)現(xiàn)結(jié)合瓊脂糖凝膠電泳的MIP技術檢測結(jié)果與測序結(jié)果一致,并成功建立了檢測HBV耐藥基因單堿基突變的MIP技術,為以后檢測HBV耐藥基因單堿基突變提供重要的參考價值。近年來,糖尿病的患者越來越多,并且患病的人群中青少年呈大幅度增加,因此對于糖尿病的研究引起很多學者的關注。Smyth等[40]利用MIP技術結(jié)合芯片雜交分析1型糖尿?。═1D)易感區(qū)域,結(jié)果在染色體2q24.3上發(fā)現(xiàn)了一個新的T1D易感區(qū)域,此區(qū)域的一個基因KCNH7可能參與胰島素的分泌過程。此外,研究發(fā)現(xiàn)人類的許多疾病是由RNA錯剪接造成的,MIP技術同樣可用來檢測可變剪接位點,Bachmann-Gagescu等[41]通過該技術捕獲了Joubert綜合征相關的28個基因及編碼纖毛發(fā)生所需的中心體蛋白KIAA0586基因的全外顯子,并通過Illumina HiSeq測序,發(fā)現(xiàn)KIAA0586基因第23號外顯子最后一對堿基發(fā)生同義突變,此突變使得該處出現(xiàn)隱蔽剪接位點,導致移碼突變使蛋白翻譯提前終止。
目標序列捕獲是目前基因組學研究的一個熱點,與全基因組測序相比,不僅降低了高通量測序的費用而且結(jié)果分析更加容易。MIP技術作為一種新的目標序列捕獲技術,自2003年首次報道至今,已被各領域的學者或?qū)<也粩嗟母倪M和優(yōu)化,捕獲的片段長度從一個核苷酸增加到幾百個核苷酸,檢測范圍也從SNP分型擴大到拷貝數(shù)變異、雜合性丟失、DNA甲基化及可變剪接等。MIP技術不僅在疾病研究方面應用廣泛,在其他方面例如植物病原菌檢測等領域也發(fā)揮重要的作用。盡管MIP技術的探針制備費用較昂貴,但核酸外切酶消化未反應的線性探針,減少了背景對實驗結(jié)果的影響,其通量往往很高,同時能捕獲成千上萬個基因,對于大樣本檢測而言,費用較低。與其他目標序列捕獲技術相比,MIP技術不僅所需要的DNA含量少、對樣本的完整度要求不高,而且實驗操作簡單、時間也短。
縱然MIP技術經(jīng)歷了不斷的發(fā)展和改進,但其仍然存在一些不足。研究發(fā)現(xiàn),探針的捕獲效率不超過90%,捕獲的目的片段較短,甚至一些位點無法設計出探針及MIP技術結(jié)果分析存在欠缺。因此,具有較高捕獲效率的探針和相應的分析軟件還需要進一步設計和開發(fā)。另外,由于每個探針的工作效率不同,MIP文庫的構(gòu)建仍需優(yōu)化。考慮到該技術在分子生物學的廣泛應用,若在今后的研究中能夠很好地克服以上的不足,該方法將為疾病診斷、分子病理學研究及疾病治療等方面提供強有力的手段。