楊 影,謝水蓮,萬紹貴,冷小敏
(1. 贛南醫(yī)學(xué)院2021級(jí)碩士研究生;2. 贛南醫(yī)學(xué)院2020級(jí)碩士研究生;3. 贛南醫(yī)學(xué)院基礎(chǔ)醫(yī)學(xué)院;4. 贛南醫(yī)學(xué)院基礎(chǔ)醫(yī)學(xué)院分子病理中心,江西 贛州 341000)
高通量測(cè)序技術(shù)已廣泛應(yīng)用于遺傳性疾病和癌癥的研究,但因成本相對(duì)較高阻礙了其在基因組水平上大規(guī)?;蜃儺悪z測(cè)的應(yīng)用[1]。為提高基因檢測(cè)效率,需提高測(cè)序深度和全面變異檢測(cè)的方法,通過針對(duì)感興趣的區(qū)域(Region of interest,ROI)或基因進(jìn)行靶向富集然后再高通量測(cè)序的方法應(yīng)運(yùn)而生[2]。當(dāng)前高通量測(cè)序的靶向富集方法主要有兩種方式:第一是雜交捕獲法,主要利用探針雜交富集目標(biāo)片段,適用于基因組目標(biāo)區(qū)域的全面檢測(cè),但依賴于成百上千個(gè)寡核苷酸探針的設(shè)計(jì)、復(fù)雜的微陣列芯片制造和較長(zhǎng)的雜交時(shí)間[3];第二是多重PCR 擴(kuò)增法,其核心是引物設(shè)計(jì),先通過PCR擴(kuò)展富集目標(biāo)片段,再進(jìn)行文庫構(gòu)建,適用于研究的目標(biāo)區(qū)域相對(duì)較小,對(duì)于拷貝數(shù)較低的模板DNA,可產(chǎn)生足夠數(shù)量用于測(cè)序的擴(kuò)增子,這種方法能明顯提高效率,節(jié)約時(shí)間,降低經(jīng)濟(jì)成本,不足之處在于存在引物互相干擾和非特異性擴(kuò)增等問題[4]。這兩種方法不僅過程繁瑣、成本昂貴,還受PCR 擴(kuò)增效率影響導(dǎo)致基因組的復(fù)雜區(qū)域和高GC區(qū)域會(huì)難以覆蓋。近年來,CRISPR/Cas9 靶向富集的出現(xiàn)擴(kuò)大了高通量測(cè)序技術(shù)在臨床方面的應(yīng)用范圍,通過對(duì)ROI 進(jìn)行Cas9 特異性靶向切割富集,提高了ROI 的覆蓋深度,顯著減少背景基因的測(cè)序數(shù)據(jù),從而達(dá)到了便于分析后續(xù)數(shù)據(jù)的目的[5]。該方法具有無PCR 擴(kuò)增、保留了堿基修飾的信息、實(shí)現(xiàn)了高測(cè)序深度、低錯(cuò)誤率和低成本的長(zhǎng)讀長(zhǎng)測(cè)序等優(yōu)點(diǎn)?;贑as9 靶向富集納米孔基因測(cè)序技術(shù)通過對(duì)樣本目標(biāo)區(qū)域的研究,已被應(yīng)用于獲得高覆蓋度和高質(zhì)量特定基因組區(qū)域的序列信息,利于發(fā)現(xiàn)和證明與疾病相關(guān)的候選基因和位點(diǎn),在遺傳變異和全基因組測(cè)序等方面已得到廣泛應(yīng)用。本文對(duì)Cas9 靶向富集納米孔測(cè)序技術(shù)的原理和應(yīng)用進(jìn)行了回顧,并重點(diǎn)闡述該技術(shù)在融合基因檢測(cè)中的最新進(jìn)展。
CRISPR/Cas(Clustered Regularly Interspaced Short Palindromic Repeats/CRISPR-associated)是 細(xì)菌中一種應(yīng)對(duì)噬菌體和質(zhì)粒等外來DNA 的防御系統(tǒng)[6]。在某些細(xì)菌基因組中存在“規(guī)律間隔成簇短回文重復(fù)序列”(Clustered Regularly Interspaced Short Palindromic Repeats,CRISPR),這些序列被轉(zhuǎn)錄成為RNA,也被稱為導(dǎo)向RNA(guide RNA,gRNA)。gRNA 能和細(xì)菌體內(nèi)Cas 蛋白質(zhì)形成復(fù)合體,并對(duì)Cas 蛋白有導(dǎo)向作用。當(dāng)復(fù)合體檢測(cè)到入侵的DNA 和gRNA 序列一致時(shí),Cas 蛋白就能切割降解入侵的DNA,達(dá)到防御的目的[7]。CRISPR/Cas9是基于CRISPR/Cas 構(gòu)建的一種基因編輯技術(shù),在基因編輯方面具有高效、快速、簡(jiǎn)單等特點(diǎn)。該系統(tǒng)是一個(gè)Cas9 核糖核蛋白(ribonucleoprotein,RNP),包含Cas9 蛋白和sgRNA(crRNA-tracrRNA 的 嵌合體)[8]。其中tracrRNA 具有莖環(huán)結(jié)構(gòu),與Cas9 蛋白結(jié)合;crRNA 引導(dǎo)Cas9定位到要編輯的DNA 序列附近。在進(jìn)行基因編輯時(shí),crRNA 先與基因組上的靶序列結(jié)合,然后RNP 識(shí)別并切割靶序列[8]。RNP 識(shí)別和剪切位點(diǎn)附近具有前間隔序列鄰近基序(Protospacer Adjacent Motif, PAM),它是三個(gè)緊挨著的堿基序列,最常用的是NGG(N 是任意一種核苷酸序列,G是鳥嘌呤)。RNP識(shí)別出與crRNA 互補(bǔ)的原間隔序列(PAM序列),然后解開DNA雙鏈,形成R-loop環(huán),使crRNA與互補(bǔ)鏈堿基配對(duì),另外一條單鏈仍然保持游離的狀態(tài);接著Cas9中的HNH(His-Asn-His)活性位點(diǎn)剪切與crRNA互補(bǔ)配對(duì)的DNA單鏈,RuvC活性位點(diǎn)剪切非互補(bǔ)鏈;最終使DNA 雙鏈斷裂,形成磷酸化的切割端口[6-7,9]。
納米孔測(cè)序技術(shù)采用“邊解鏈邊測(cè)序”的方法,基于電信號(hào)的變化識(shí)別相應(yīng)的堿基序列。納米孔是該技術(shù)的核心,它是一個(gè)外表面由脂質(zhì)雙分子層且兩端分別各有一對(duì)電極的跨膜蛋白構(gòu)成的納米孔通道。雙鏈DNA 分子在馬達(dá)蛋白的作用下解螺旋并在其牽引作用下通過納米孔,不同的堿基會(huì)產(chǎn)生不同的偏轉(zhuǎn)電流,最后通過電流的變化特征實(shí)現(xiàn)對(duì)不同堿基的判定[10-11]。Cas9靶向富集納米孔基因測(cè)序技術(shù)是Cas9 和納米孔基因測(cè)序技術(shù)的新結(jié)合,該技術(shù)利用Cas9靶向切割ROI上游(5')和下游(3')的側(cè)翼序列進(jìn)行納米孔測(cè)序[12]。CRISPR/Cas9 系統(tǒng)的特異性靶向切割和富集ROI 片段的主要步驟分為:⑴對(duì)樣本DNA 進(jìn)行去磷酸化處理以避免后續(xù)的非目標(biāo)區(qū)域連接;⑵使用Cas9 復(fù)合物對(duì)選定ROI 進(jìn)行切割,露出可連接目標(biāo)端;⑶對(duì)所有的3'端均進(jìn)行加A尾,與此同時(shí)將測(cè)序接頭只連接在切割端上;⑷將整個(gè)文庫添加到測(cè)序芯片上進(jìn)行納米孔測(cè)序(圖1)[13-15]。這樣,對(duì)應(yīng)ROI 將會(huì)得到富集,降低測(cè)序成本,加之納米孔測(cè)序技術(shù)測(cè)序片段長(zhǎng)和快的特點(diǎn),使得Cas9 靶向富集納米孔基因測(cè)序技術(shù)在基礎(chǔ)和應(yīng)用研究中發(fā)揮了巨大作用。
圖1 Cas9靶向切割富集示意圖
Cas9 靶向富集納米孔基因測(cè)序能捕獲并檢測(cè)到多個(gè)區(qū)域中未經(jīng)擴(kuò)增的DNA 片段,在融合基因、結(jié)構(gòu)性變異和癌癥驅(qū)動(dòng)基因的甲基化檢測(cè)等方面發(fā)揮了非常重要的作用(表1)。為了評(píng)估TP53、KRAS 和BRAF 的單核苷酸位點(diǎn)變異(Single-nucleotide variants,SNVs),GILPATRICK T 等[16]使用納米孔Cas9靶向測(cè)序(nanopore Cas9-targeted sequencing,nCATS)不需擴(kuò)增的策略,檢測(cè)了淋巴母細(xì)胞系和乳腺細(xì)胞系,結(jié)果表明,nCATS 不僅可對(duì)目的基因DNA 片段進(jìn)行富集和長(zhǎng)讀長(zhǎng)測(cè)序,且可用于SNVs的檢測(cè)。在檢測(cè)基因的甲基化方面,nCATS 也展現(xiàn)了非常明顯的優(yōu)勢(shì),該團(tuán)隊(duì)通過該方法評(píng)估三種乳腺細(xì)胞系中一系列靶基因發(fā)生甲基化的能力,角蛋白家族成員基因KRT19 作為乳腺癌向淋巴結(jié)微轉(zhuǎn)移的標(biāo)記物,常用于循環(huán)腫瘤的檢測(cè),KRT19的甲基化表達(dá)具有顯著差異,在非致瘤性MCF-10A 細(xì)胞系中保持高甲基化;在致瘤性MCF-7 和MDA-MB-231乳腺細(xì)胞系中為低甲基化[16]。WONGSURAWAT T等[17]利用nCATS 同時(shí)檢測(cè)4種人類膠質(zhì)母細(xì)胞瘤(GBM)細(xì)胞系和8份新鮮的人類腦瘤樣本中的脫氫酶(IDH)基因突變狀態(tài)和O6-甲基鳥嘌呤-DNA 甲基轉(zhuǎn)移酶(MGMT)啟動(dòng)子的甲基化水平,nCATS 在36 小時(shí)內(nèi)準(zhǔn)確檢測(cè)IDH1 和IDH2 突變,結(jié)果與Sanger 和Illumina 測(cè)序數(shù)據(jù)一致。檢測(cè)到的MCMT甲基化百分比與Illumina 的結(jié)果存在顯著的一致性,并與質(zhì)譜分析檢測(cè)的CpG 位點(diǎn)相同[17]。另外,GABRIELI T 等[18]使用Cas9 靶向染色體片段(Cas9-Assisted Targeting of Chromosome,CATCH)的方法捕獲一個(gè)200 kb 的側(cè)翼區(qū)域和調(diào)控區(qū)域大的DNA 片段進(jìn)行測(cè)序,檢測(cè)出NGS 未檢測(cè)到的乳腺癌和卵巢癌基因BRCA1中存在的單核苷酸多態(tài)性(Single-nucleotide polymorphisms,SNPs)。由此可見,這些先前描述的研究表明,將nCATS 作為癌癥精準(zhǔn)醫(yī)療的臨床工具有很大的潛力,該方法只需約3μg 的基因組DNA,可在一次實(shí)驗(yàn)中靶向富集大量的位點(diǎn),實(shí)現(xiàn)細(xì)胞和組織的低成本、低基因組起始量檢測(cè)目標(biāo)區(qū)域的堿基修飾和基因組結(jié)構(gòu)的改變。由于融合基因的檢測(cè)在臨床診療方面具有重要的指導(dǎo)意義,我們將重點(diǎn)介紹Cas9 靶向富集納米孔基因測(cè)序?qū)θ诤匣虻臋z測(cè)應(yīng)用。
表1 基于Cas9靶向富集納米孔基因測(cè)序技術(shù)的應(yīng)用
染色體倒置、串聯(lián)重復(fù)、間質(zhì)缺失或易位將不同的、獨(dú)立的基因或基因片段串聯(lián)在一起形成融合基因。作為癌癥的常見驅(qū)動(dòng)因素,約20%癌癥導(dǎo)致的死亡與融合基因有關(guān)。因此,融合基因可作為多種癌癥診療的標(biāo)志物[22-23]。例如,CCDC6/RET 融合基因的過度表達(dá)會(huì)促進(jìn)乳頭狀甲狀腺癌的發(fā)生[24];編碼酪氨酸激酶受體的基因(ALK[25]、ROS1[26]等)與其他基因的融合(EML4/ALK、CD47/ROS1 等)會(huì)激活下游細(xì)胞信號(hào)通路,引發(fā)細(xì)胞無限增殖,最終導(dǎo)致細(xì)胞癌變[27-28]。臨床上已將一些與癌癥發(fā)生發(fā)展有關(guān)的融合基因用于臨床診療參考,其中最著名的是慢性粒細(xì)胞白血?。╟hronic myelocytic leukemia,CML)中的BCR/ABL1 融合基因的發(fā)現(xiàn),臨床開發(fā)出了靶向該融合基因的小分子抑制劑甲磺酸伊馬替尼,該抑制劑在CML 患者中有顯著療效,有效延緩了CML 患者病情發(fā)展[29-30]。此外,靶向?qū)嶓w瘤中致癌基因融合治療也取得了成功,例如抑制非小細(xì)胞肺癌中的ALK和ROS1融合基因,NTRK抑制劑拉羅替尼已被FDA 批準(zhǔn)用于NTRK1/2/3 所有類型的融合陽性實(shí)體瘤[31]。目前臨床上經(jīng)典的融合基因檢測(cè)手段包括:免疫組化(Immunohistochemistry,IHC)[32]、熒光原位雜交(Fluorescence in situ hybridization,F(xiàn)ISH)[33]、反轉(zhuǎn)錄-聚合酶鏈反應(yīng)(Reverse transcription-polymerase chain reaction,RT-PCR)[34]、第二代基因測(cè)序技術(shù)(Next-generation sequencing,NGS)等[35]。
對(duì)于融合位點(diǎn)和融合伴侶高度可變的融合基因、長(zhǎng)片段的串聯(lián)重復(fù)序列等,經(jīng)典的檢測(cè)手段不能準(zhǔn)確識(shí)別。其中IHC染色是在蛋白質(zhì)水平上對(duì)融合蛋白進(jìn)行檢測(cè),但對(duì)于小間隙缺失或倒置檢測(cè)不敏感,無法直接檢測(cè)融合基因;FISH、RT-PCR、NGS則是在核酸水平上對(duì)融合基因進(jìn)行檢測(cè),F(xiàn)ISH 雖然敏感性較好,但操作復(fù)雜、技術(shù)要求高、只針對(duì)陽性融合基因檢測(cè),這種檢測(cè)比較浪費(fèi)時(shí)間[36];RT-PCR的不足之處是只能研究一個(gè)融合基因,且只能檢測(cè)已知的融合基因[35,37]。盡管NGS常用于新的融合基
因檢測(cè),但其測(cè)序讀長(zhǎng)短、依賴于PCR 擴(kuò)增、受GC堿基含量影響大,在復(fù)雜的融合基因檢測(cè)中仍存在很大的困難[4]。Cas9靶向富集納米孔基因測(cè)序技術(shù)通過提高測(cè)序覆蓋度和深度可發(fā)現(xiàn)腫瘤中新的融合基因,且能用于復(fù)雜結(jié)構(gòu)變異的解析和識(shí)別發(fā)現(xiàn)新的變異[16,38]。STANGL C 等[19]開發(fā)的基因富集融合 檢 測(cè)(Fusion Detection from Gene Enrichment,F(xiàn)UDGE)技術(shù)通過基因靶向富集與納米孔測(cè)序相結(jié)合,能在48 小時(shí)內(nèi)快速定位融合伴侶和斷點(diǎn)位置,完成融合基因的檢測(cè)。該技術(shù)不僅可檢測(cè)已知的融合基因及其斷裂點(diǎn),基于其中一個(gè)伴侶基因的信息,還能檢測(cè)出尚未發(fā)現(xiàn)的融合伴侶和斷點(diǎn)。并且基于共有的融合片段去設(shè)計(jì)切割靶點(diǎn)的引物,該技術(shù)實(shí)現(xiàn)了同時(shí)檢測(cè)多個(gè)伴侶的融合基因[16]。該方法已成功應(yīng)用于AML、Ewing 肉瘤、結(jié)腸癌等癌癥中融合基因的快速識(shí)別[16]。為了鑒定新的融合基因,研究人員將該技術(shù)應(yīng)用于檢測(cè)已知融合基因的腫瘤細(xì)胞系,檢測(cè)的細(xì)胞與對(duì)應(yīng)的融合基因分別為尤文氏肉瘤(Ewing's sarcoma,ES)細(xì)胞株A4573 和CHP-100 中的EWSR1-FLI1 融合基因、滑膜肉瘤HS-SYII 細(xì)胞系中的SS18-SSX1 融合基因[39]。在對(duì)A4573、CHP-100 和HS-SYII 的檢測(cè)中,靶向切割融合基因所在的目標(biāo)區(qū)域后覆蓋率分別增加到了81x(A4573)、66x(CHP-100)和11x(HS-SYII)[18]。同時(shí),EWSR1-FIL1融合基因的不同斷點(diǎn)位置得到了新的鑒定。通過設(shè)計(jì)序列crRNA來跨越PAX3和PAX7的斷點(diǎn)區(qū)域進(jìn)行測(cè)序,檢測(cè)出了新的融合基因和斷點(diǎn):FOXO1-PAX3 和DRICH1-BCR[18]。FISH 可 診 斷 出KMT2A 存在融合,但無法檢測(cè)出融合伴侶。NGS 可識(shí)別包括啟動(dòng)子融合在內(nèi)的所有融合基因和斷點(diǎn)位置,但受限于測(cè)序讀長(zhǎng)短、樣本使用量大和周轉(zhuǎn)時(shí)間長(zhǎng)。而FUDGE能在48小時(shí)內(nèi)檢測(cè)出MTTL6基因?yàn)槿诤习閭H。且可使用低通量的細(xì)胞和單個(gè)樣品進(jìn)行檢測(cè),無需PCR 擴(kuò)增,從而減少了工作的流程,顯著降低了檢測(cè)成本[18]。
隨著高通量測(cè)序技術(shù)的不斷發(fā)展,納米孔測(cè)序技術(shù)發(fā)展迅速且具有讀長(zhǎng)長(zhǎng)、實(shí)時(shí)數(shù)據(jù)監(jiān)測(cè)、簡(jiǎn)單便捷等特點(diǎn),在基因修飾識(shí)別、表觀遺傳學(xué)研究、微生物檢測(cè)、癌癥診斷及相關(guān)醫(yī)學(xué)檢測(cè)方面,發(fā)揮著越來越重要的作用。CRISPR/Cas9 靶向富集測(cè)序技術(shù)的出現(xiàn),使單次快速讀取更長(zhǎng)分子的堿基序列和大規(guī)模樣本的基因組目標(biāo)區(qū)域測(cè)序成為現(xiàn)實(shí)。該技術(shù)有針對(duì)性地測(cè)序使研究人員能富集ROI,顯著降低測(cè)序成本和勞動(dòng)力。在通過對(duì)感興趣的基因組區(qū)域獲得高覆蓋度數(shù)據(jù),該技術(shù)使研究人員可快速識(shí)別異質(zhì)樣本中的突變頻率和甲基化模式。尤其是在只知道其中一個(gè)融合伴侶的保守序列情況下,該技術(shù)可同時(shí)檢測(cè)多個(gè)融合伴侶的斷裂位點(diǎn),并對(duì)相應(yīng)位點(diǎn)進(jìn)行其結(jié)構(gòu)分析。然而,Cas9 靶向納米孔測(cè)序在檢測(cè)方法和后續(xù)的生物信息學(xué)方面仍需完善,例如:對(duì)于重復(fù)序列的測(cè)序,如何得到較短的等位基因片段且不會(huì)產(chǎn)生偏差;如何利用更少的細(xì)胞樣本進(jìn)行DNA 水平的分析;對(duì)于ROI,怎樣使Cas9 切割的脫靶效率降低;如何使生物信息學(xué)工具更易于使用。隨著三代測(cè)序技術(shù)的應(yīng)用推廣和檢測(cè)方法的推陳出新,Cas9 靶向富集納米孔基因測(cè)序?qū)⒃谂R床檢測(cè)應(yīng)用方面擁有更廣闊的前景。