王會(huì),戴俊彪,羅周卿
(1深圳大學(xué)生命與海洋科學(xué)學(xué)院,廣東深圳518055;2中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院,深圳合成生物學(xué)創(chuàng)新研究院,合成基因組學(xué)研究中心,廣東省合成基因組學(xué)重點(diǎn)實(shí)驗(yàn)室,深圳合成基因組學(xué)重點(diǎn)實(shí)驗(yàn)室,廣東深圳518055)
基因組指的是生命體所攜帶的遺傳物質(zhì)的總和,如人類基因組包括細(xì)胞核和線粒體所含有的全部遺傳物質(zhì)[1]。遺傳物質(zhì)主要可分為DNA和RNA兩種。自然界中絕大部分生物的遺傳物質(zhì)為DNA,只有少部分生物如RNA病毒,它們的遺傳物質(zhì)為RNA?;蚪M可分為編碼區(qū)和非編碼區(qū)。編碼區(qū)能夠能通過(guò)轉(zhuǎn)錄和翻譯過(guò)程制造蛋白質(zhì),執(zhí)行相應(yīng)的功能;非編碼區(qū)雖然不會(huì)被翻譯,但是對(duì)于基因組遺傳信息的表達(dá)也是必需的。在生命的進(jìn)化過(guò)程中,基因組的組成與結(jié)構(gòu)也在不斷演化。不同種類生物的基因組在遺傳信息的存儲(chǔ)量、編碼區(qū)和非編碼區(qū)在基因組中所占的比例等方面都存在著較大差異(表1)[2]。
對(duì)于基因組序列及其功能的解析一直是基因組研究的核心問(wèn)題。1953年,DNA雙螺旋結(jié)構(gòu)模型的提出使DNA的研究進(jìn)入了分子水平[3]。20世紀(jì)70年代以后,分子生物學(xué)飛速發(fā)展,Sanger測(cè)序[4]、重組DNA[5]、轉(zhuǎn)基因[6]等技術(shù)方法逐步涌現(xiàn)。2001年,人類基因組測(cè)序計(jì)劃的完成開啟了基因組大規(guī)模測(cè)序的新時(shí)代[7-8]。2002年,脊髓灰質(zhì)炎病毒基因組的合成首次證實(shí)了可以利用化學(xué)的方法從頭再造具有生命活性的基因組[9]。2012年,CRISPR/Cas技術(shù)的出現(xiàn)使得在不同的物種里面進(jìn)行高效率的基因編輯成為可能[10-11]。相關(guān)技術(shù)的進(jìn)步一直在不斷拓展基因組研究的深度和廣度。
表1 不同生物基因組中含有的編碼序列與非編碼序列的比較Tab.1 Comparison of the the coding sequence and non-coding sequence contents of several genomes
通過(guò)測(cè)序讀取基因組序列,通過(guò)基因組編輯研究基因組對(duì)應(yīng)序列的功能以及通過(guò)化學(xué)合成從頭再造基因組序列,基因組的“讀”“改”和“寫”技術(shù)正從不同的側(cè)面逐步描繪生命這一復(fù)雜系統(tǒng)的序列和功能關(guān)系的藍(lán)圖(圖1)。
圖1 基因組“讀-改-寫”技術(shù)發(fā)展中的關(guān)鍵事件Fig.1 The milestones in the development of the read,edit,and write techniques for genome research
DNA測(cè)序技術(shù)在過(guò)去幾十年間得到了快速的發(fā)展,從最初的Sanger測(cè)序發(fā)展到二代測(cè)序以及三代測(cè)序,人類讀取基因組序列的能力得到了飛躍式的提升。不同的測(cè)序技術(shù)各自的優(yōu)勢(shì)使得它們?cè)谀壳暗臏y(cè)序領(lǐng)域都占有一席之地,其各自的不足之處也成為推動(dòng)測(cè)序技術(shù)不斷發(fā)展完善的動(dòng)力源泉(表2)。
表2 不同測(cè)序技術(shù)比較Tab.2 Comparison of different sequencing technologies
1977年,Sanger測(cè)序法問(wèn)世,該方法后來(lái)又被稱為一代測(cè)序技術(shù)[4]。Sanger測(cè)序法通過(guò)在4個(gè)獨(dú)立的DNA合成反應(yīng)體系中分別加入一定比例的ddNTP(ddATP,ddCTP,ddGTP,ddTTP),利用ddNTP的3'位不含羥基從而無(wú)法形成磷酸二酯鍵的特性,終止DNA合成反應(yīng)。通過(guò)聚丙烯酰胺凝膠電泳和放射自顯影,根據(jù)4個(gè)反應(yīng)體系中泳帶的條帶大小判定堿基序列?;赟anger測(cè)序原理發(fā)明了最早的測(cè)序儀,在人類基因組計(jì)劃開展中起到了重要作用。
隨著人類基因組計(jì)劃的開展,人們對(duì)基因組測(cè)序的需求日益增加,渴求開發(fā)成本更低、更快速方便的測(cè)序技術(shù)。21世紀(jì)初,以Roche公司的454技術(shù)[12]、Illumina公司的HiSeq技術(shù)[13]和ABI公司的SOLiD技術(shù)[14]等為標(biāo)志的二代測(cè)序技術(shù)誕生。二代測(cè)序又被稱為高通量測(cè)序技術(shù),主要特征是可以開展平行測(cè)序,一次對(duì)幾百萬(wàn)條序列同時(shí)進(jìn)行測(cè)定,極大地節(jié)約了測(cè)序時(shí)間。不同的二代測(cè)序儀的原理有所不同,以HiSeq測(cè)序技術(shù)為例,它首先將待測(cè)序列變成單鏈DNA,通過(guò)DNA合成過(guò)程中的堿基互補(bǔ)配對(duì)原則,將帶有不同熒光標(biāo)記的四種dNTP添加到互補(bǔ)鏈上。每添加一個(gè)dNTP就會(huì)標(biāo)記上特定的熒光并將上一步反應(yīng)的熒光進(jìn)行擦除,從而可以通過(guò)每一步反應(yīng)后該位點(diǎn)上熒光信號(hào)的顏色解析待測(cè)DNA的序列信息。
二代測(cè)序技術(shù)雖然顯著降低了測(cè)序的價(jià)格,但較短的讀長(zhǎng)限制了其對(duì)基因組復(fù)雜序列和基因組結(jié)構(gòu)變異的解析能力[15]。為此,科研人員開發(fā)出了兼具單分子實(shí)時(shí)測(cè)序和長(zhǎng)讀長(zhǎng)特征的三代測(cè)序技術(shù)。三代測(cè)序技術(shù)根據(jù)其原理目前主要可分為單分子實(shí)時(shí)測(cè)序(single-molecule real time sequencing,SMRT sequencing)[16]和納米孔測(cè)序(nanopore sequencing)[17]兩大類,兩者各有優(yōu)勢(shì)。
1.3.1 單分子實(shí)時(shí)測(cè)序技術(shù)
單分子實(shí)時(shí)測(cè)序技術(shù)采用的也是邊合成邊測(cè)序的思路[16],在每個(gè)納米級(jí)的零模波導(dǎo)孔(zero-mode waveguide,ZMW)的底部固定有單個(gè)DNA聚合酶,通過(guò)實(shí)時(shí)檢測(cè)插入堿基的熒光信號(hào)解析孔內(nèi)的單個(gè)環(huán)狀DNA模板(SMRTbell)的序列。由于ZMW的直徑小于激發(fā)光的波長(zhǎng),激發(fā)光在ZMW中的傳播呈指數(shù)衰減模式,只能激發(fā)孔底的熒光分子,提高了檢測(cè)的信噪比。模板中的修飾堿基(如6mA)影響了聚合酶插入堿基的速率,因此SMRT技術(shù)可以通過(guò)監(jiān)測(cè)DNA聚合反應(yīng)的動(dòng)力學(xué)變化,實(shí)現(xiàn)對(duì)堿基修飾的直接檢測(cè)[18]。在DNA聚合酶的活性周期內(nèi),環(huán)狀DNA模板的使用使得同一個(gè)位置的堿基可以被多次測(cè)序,結(jié)合SMRT技術(shù)的隨機(jī)錯(cuò)誤模型,采用多重比對(duì)可以獲得高達(dá)99.999%的測(cè)序準(zhǔn)確率[19]。因此,在實(shí)際測(cè)序過(guò)程中需要平衡分子讀長(zhǎng)和測(cè)序精度,目前Pacbio的讀長(zhǎng)大部分在10~100kb[20]。
1.3.2 納米孔測(cè)序技術(shù)
納米孔測(cè)序是根據(jù)不同的DNA序列穿過(guò)納米孔時(shí)產(chǎn)生的電信號(hào)的差異區(qū)分不同的堿基[21]。具體來(lái)說(shuō),將含有蛋白納米孔的電阻膜浸在離子溶液中,在膜的兩側(cè)施加恒定的電勢(shì),進(jìn)而在納米孔中產(chǎn)生離子電流;DNA鏈在馬達(dá)蛋白的牽引下,解螺旋通過(guò)納米孔,通過(guò)高度靈敏的電流傳感器檢測(cè)不同的堿基所形成的特征性離子電流變化信號(hào),進(jìn)而解析DNA的序列組成。與SMRT測(cè)序技術(shù)相比,納米孔測(cè)序的讀長(zhǎng)不受技術(shù)本身的限制,而是受文庫(kù)DNA分子自身長(zhǎng)度的限制。近期,通過(guò)改進(jìn)相關(guān)方法,研究者們獲得了N50>100 kb(最長(zhǎng)讀長(zhǎng)可達(dá)882 kb)的人類基因組測(cè)序數(shù)據(jù)[22],成功組裝了人類Y染色體著絲粒的高重復(fù)性DNA序列[23]。納米孔測(cè)序技術(shù)的數(shù)據(jù)產(chǎn)出非??捎^,現(xiàn)在商用的PromethION平臺(tái)單次運(yùn)行可產(chǎn)出Tb級(jí)別的數(shù)據(jù)[20]。但是,納米孔測(cè)序技術(shù)的一大缺陷是其錯(cuò)誤率非常高(約15%)[24],現(xiàn)在改進(jìn)版的“1D2”技術(shù)的錯(cuò)誤率也還在3%左右[20]。
測(cè)序技術(shù)的不斷革新使得大量生物的基因組序列得到讀取。然而讀取基因組序列只是我們理解生命奧秘的第一步,對(duì)野生型基因組序列進(jìn)行改動(dòng),進(jìn)而研究突變體與野生型的功能差異則是解析基因組功能與調(diào)控機(jī)制的必要手段。
基因組序列在生物繁衍過(guò)程中發(fā)生的隨機(jī)變化為生命體的進(jìn)化提供了最初的原材料,也是解析基因組序列與功能關(guān)系的最早的研究對(duì)象。物理誘變劑、化學(xué)誘變劑和DNA分子的自發(fā)突變會(huì)引起多種形式的DNA損傷,對(duì)這些損傷的修復(fù)有可能導(dǎo)致基因組序列的變化[25]。誘變和自發(fā)突變所導(dǎo)致的基因組序列的改變是隨機(jī)的,對(duì)這些修復(fù)機(jī)制的理解極大地促進(jìn)了后續(xù)基因組定點(diǎn)編輯技術(shù)的開發(fā)。到目前為止,已經(jīng)有多種各具特色的基因定點(diǎn)編輯技術(shù)得到開發(fā)。
20世紀(jì)80年代,包括Cre重組酶[26]和FLP倒位酶[27]在內(nèi)的一系列位點(diǎn)特異性重組酶相繼被發(fā)現(xiàn)。Cre重組酶能夠特異性識(shí)別來(lái)源于噬菌體的一段反向重復(fù)序列l(wèi)oxP,通過(guò)控制兩個(gè)loxP的位置和方向可以實(shí)現(xiàn)loxP位點(diǎn)間基因序列的敲除、易位和反轉(zhuǎn)。FLP/FRT系統(tǒng)的工作原理同上。
近年來(lái),包括鋅指核酸酶(zinc finger nuclease,ZFN)、轉(zhuǎn)錄激活樣效應(yīng)因子核酸酶(transcription activator-like effector nuclease,TALEN)和Cas蛋白等在內(nèi)的序列特異性識(shí)別蛋白相繼被發(fā)現(xiàn),基于這些蛋白發(fā)展而來(lái)的基因編輯技術(shù)得到了廣泛的應(yīng)用[28]。這些技術(shù)的工作原理具有類似之處,都需要通過(guò)這些蛋白對(duì)基因組特定序列的結(jié)合,進(jìn)而實(shí)現(xiàn)對(duì)基因組特定位點(diǎn)的切割,激活細(xì)胞內(nèi)的非同源末端連接或同源重組機(jī)制進(jìn)行DNA的損傷修復(fù)。其中非同源末端連接修復(fù)方式直接將斷裂的兩個(gè)末端連接起來(lái),這種修復(fù)方式易引起插入或缺失突變,是一種不精確的基因編輯方式。而同源重組修復(fù)時(shí),如果細(xì)胞中有同源序列存在,同源序列能夠與基因組序列進(jìn)行重組,從而實(shí)現(xiàn)精確的基因編輯。
ZFN由鋅指蛋白和FokⅠ內(nèi)切酶組成,前者特異性識(shí)別目標(biāo)序列,后者對(duì)DNA序列進(jìn)行切割,產(chǎn)生DNA雙鏈斷裂[29-30]。作為第一代基因編輯技術(shù),ZFN技術(shù)實(shí)現(xiàn)了基因組的定點(diǎn)編輯,但一個(gè)鋅指單元識(shí)別三個(gè)堿基的識(shí)別模式仍具有較大的不靈活性,需要64個(gè)具有高度特異性的鋅指單元才有可能實(shí)現(xiàn)對(duì)所有序列的識(shí)別。TALEN技術(shù)的作用機(jī)制與ZFN類似,由特異性識(shí)別目標(biāo)序列的TALE蛋白和介導(dǎo)切割的FokⅠ內(nèi)切酶組成[25]。相較于ZFN技術(shù),TALEN技術(shù)的編輯蛋白設(shè)計(jì)相對(duì)簡(jiǎn)單,每個(gè)TALE單元識(shí)別單個(gè)堿基,且天然的TALE單元之間就以串聯(lián)的形式存在,不需要對(duì)連接序列進(jìn)行優(yōu)化選擇[31-32],也被稱為第二代基因編輯技術(shù)。
2.2.1 CRISPR/Cas系統(tǒng)的多樣性及應(yīng)用場(chǎng)景
CRISPR-Cas系統(tǒng)來(lái)源于古細(xì)菌/細(xì)菌的免疫系統(tǒng),是其切割外來(lái)核酸保護(hù)自身細(xì)胞免受侵害的一種保護(hù)性機(jī)制[10,33]。來(lái)源于化膿性鏈球菌的Cas9蛋白能夠在單個(gè)gRNA介導(dǎo)下實(shí)現(xiàn)高效的基因組定點(diǎn)編輯[10-11]。后續(xù)又從許多不同的物種里面找到了具有不同PAM識(shí)別序列、活性和特異性的Cas9蛋白,這些蛋白及其變體顯著擴(kuò)充了基因組的可編輯范圍[34-38](表3)。除了Cas9,目前已發(fā)現(xiàn)了多種CRISPR/Cas編輯系統(tǒng),主要包括Cas12[39-41]、Cas13[42-43]、Cas14[44]等,它們?cè)诠ぷ髟砩细饔袃?yōu)劣,應(yīng)用場(chǎng)景也各不相同,將可編輯的對(duì)象從雙鏈DNA(dsDNA)擴(kuò)展到RNA以及單鏈DNA(ssDNA)(表4)。以CRISPR/Cas9為代表的第三代基因編輯技術(shù)具有構(gòu)建簡(jiǎn)單、適用對(duì)象廣泛和效率高等諸多優(yōu)點(diǎn),現(xiàn)已成為各實(shí)驗(yàn)室最常用的基因組編輯技術(shù)。
2.2.2 CRISPR/Cas系統(tǒng)的衍生應(yīng)用
鑒于CRISPR/Cas系統(tǒng)的簡(jiǎn)易性,基于該系統(tǒng)衍生而來(lái)的基因組編輯工具得到快速的開發(fā)。通過(guò)突變Cas9蛋白的兩個(gè)活性位點(diǎn)(D10A和H840A)得到了不具有切割能力的dCas9(dead Cas9)[45]。2016年,Komor等[46]首次將胞嘧啶核苷脫氨酶與dCas9融合,發(fā)展出了第一代堿基編輯器,實(shí)現(xiàn)了堿基C到堿基T的轉(zhuǎn)換。目前已開發(fā)出胞嘧啶堿基編輯器(cytosine base editor,CBE)[46]和腺嘌呤堿基編輯器(adenine base editor,ABE)[47],可分別實(shí)現(xiàn)堿基C到T以及A到G的轉(zhuǎn)換。堿基編輯器的編輯過(guò)程不需要產(chǎn)生雙鏈斷裂,為其在治療人類遺傳疾病的應(yīng)用方面提供了安全保障。然而,近期有系列的研究表明,這兩種堿基編輯器在RNA或DNA水平上仍存在較嚴(yán)重的脫靶現(xiàn)象[48-51],對(duì)其作用機(jī)制和應(yīng)用仍需要更加深入的研究。2019年,另一種新型基因組編輯系統(tǒng)Prime editing也得到開發(fā)[52],該系統(tǒng)包括Cas9-逆轉(zhuǎn)錄酶融合蛋白和pegRNA(prime editing guide RNA)。pegRNA有兩點(diǎn)作用:①引導(dǎo)Cas9-逆轉(zhuǎn)錄酶融合蛋白到達(dá)靶序列位點(diǎn);②自身含有目標(biāo)序列的RNA序列,作為逆轉(zhuǎn)錄模板。Cas9蛋白在靶位點(diǎn)產(chǎn)生單鏈斷裂,而逆轉(zhuǎn)錄酶以pegRNA為模板合成目的DNA序列,然后以目的DNA序列為材料對(duì)切口進(jìn)行修復(fù),實(shí)現(xiàn)基因組編輯。Prime editing作用過(guò)程中不會(huì)產(chǎn)生雙鏈斷裂,也不需要供體DNA模板,不僅能實(shí)現(xiàn)嘌呤-嘌呤之間的轉(zhuǎn)換,也能實(shí)現(xiàn)嘌呤-嘧啶間的顛換。Prime editing提供了一種單堿基替換和小片段刪除、插入的新工具,在基因治療領(lǐng)域具有巨大潛力。2020年,來(lái)白哈佛大學(xué)的Walton等在Science雜志上發(fā)表了基于spCas9蛋白的最新研究成果,成功移除了對(duì)NGG這一PAM系列的依賴性[53]。通過(guò)基于三維結(jié)構(gòu)的定向突變,研究者們創(chuàng)建了PAM序列為NGN的SpG蛋白和PAM序列為NRN及NYN的SpRY蛋白,顯著擴(kuò)大了可編輯的基因組序列范圍。
表4 不同CRISPR/Cas系統(tǒng)的比較Tab.4 Comparison of different CRISPR/Cas systems
在基因組序列讀取和編輯的基礎(chǔ)上,隨著DNA合成成本的下降、組裝和移植技術(shù)的不斷改進(jìn),人們開始逐步具備對(duì)全基因組進(jìn)行從頭設(shè)計(jì)與合成的能力。合成基因組學(xué)為人們提供了一種嶄新的理解生命、改造生命的新方法。
寡核苷酸(oligonucleotide)的合成是合成基因組學(xué)的基本技術(shù)。目前Oligo的合成主要使用固相亞磷酰胺化學(xué)合成法,通過(guò)去保護(hù)、偶聯(lián)、加帽和氧化4個(gè)反應(yīng)的循環(huán)往復(fù)進(jìn)行寡核苷酸的合成,每個(gè)循環(huán)添加一個(gè)堿基[54-55]。20世紀(jì)90年代初,基于此原理的DNA合成儀得以開發(fā),寡核苷酸的合成實(shí)現(xiàn)了自動(dòng)化和產(chǎn)業(yè)化。然而,核苷酸的添加過(guò)程難免會(huì)發(fā)生錯(cuò)誤,從而導(dǎo)致合成的準(zhǔn)確率隨著合成序列的增長(zhǎng)而逐漸降低,目前寡核苷酸的合成長(zhǎng)度一般不超過(guò)200個(gè)核苷酸[56]。此外,柱法合成技術(shù)的通量較低,微陣列介導(dǎo)的DNA合成技術(shù)的出現(xiàn)在一定程度上解決了這一問(wèn)題,并降低了寡核苷酸合成成本[57]。然而微陣列合成法在合成的長(zhǎng)度、精確度以及所得寡核苷酸的產(chǎn)量上都不及前者,還需進(jìn)一步完善。
早在20世紀(jì)60年代,就有人提出通過(guò)酶促法合成寡核苷酸[58-59]。酶促法具有多種優(yōu)勢(shì),合成過(guò)程不會(huì)用到有毒化合物,理論上能夠合成出長(zhǎng)達(dá)數(shù)千個(gè)堿基的核苷酸鏈等。目前可用于酶促法合成的最具前景的DNA聚合酶是末端脫氧核苷酰轉(zhuǎn)移酶(terminal deoxynucleotidyl transferase,TdT)。與大多數(shù)DNA聚合酶不同,TdT可以在沒(méi)有模板的情況下在DNA分子的末端隨機(jī)添加新的堿基。如何精確地合成目的序列一直是尚待解決的問(wèn)題。在酶促合成法提出約50年后,研究者們才通過(guò)TdT酶與dNTP的共價(jià)結(jié)合技術(shù)為這一關(guān)鍵問(wèn)題的解決提供了一個(gè)可行的方案[60]。目前,酶促法合成寡核苷酸仍處于實(shí)驗(yàn)室技術(shù)研發(fā)階段,離應(yīng)用尚有一段距離。
通過(guò)DNA體外拼接技術(shù),將較短的寡核苷酸拼接成較長(zhǎng)的基因片段,是基因組合成過(guò)程的第二步,較為常用的有以下幾種方法。①PCA法(polymerase cycling assembly)是基于PCR的一種拼接方法,寡核苷酸之間需要有15~25 bp的重疊區(qū)域,重疊區(qū)域可互為引物在DNA聚合酶的作用下延伸形成較長(zhǎng)的DNA片段。Smith等[61]用PCA法成功拼接了長(zhǎng)達(dá)5386 bp的噬箘體φX174基因組。②Golden Gate拼接法依賴于Ⅱ型限制性內(nèi)切酶[62]。這種酶的切割位點(diǎn)位于識(shí)別位點(diǎn)以外,因此可以通過(guò)對(duì)序列的設(shè)計(jì),使得識(shí)別位點(diǎn)在酶切后從目標(biāo)序列被去除,形成一個(gè)人為設(shè)計(jì)的黏性末端,從而可以利用DNA連接酶實(shí)現(xiàn)片段間的無(wú)縫連接。③Gibson assembly體外組裝技術(shù)只需要將具有同源序列的片段與包括DNA聚合酶、核酸外切酶和DNA連接酶在內(nèi)的酶體系進(jìn)行反應(yīng)即可[63]。核酸外切酶降解DNA產(chǎn)生可以互補(bǔ)配對(duì)的3'突出同源末端,通過(guò)DNA聚合酶和連接酶的作用實(shí)現(xiàn)多個(gè)片段的組裝。
隨著DNA合成成本的降低和體外組裝技術(shù)的成熟,人們開始逐步嘗試全基因組的合成,從簡(jiǎn)單的病毒基因組到支原體和大腸桿菌等原核基因組,再到首個(gè)真核基因組(釀酒酵母基因組)即將完工,人工合成的基因組越來(lái)越大,也越來(lái)越復(fù)雜(表5)。
2002年Wimmer小組耗時(shí)3年合成了全長(zhǎng)約7.7 kb的脊髓灰質(zhì)炎病毒基因組,在世界上首次證明人工化學(xué)再造的基因組可以產(chǎn)生有生命活力的病毒顆粒,開創(chuàng)了合成基因組學(xué)的時(shí)代[9]。對(duì)于脊髓灰質(zhì)炎病毒基因組和相關(guān)生物學(xué)特性的研究為這項(xiàng)工作的開展奠定了理論基礎(chǔ),而21世紀(jì)初DNA合成和組裝技術(shù)(尤其是PCA法介導(dǎo)的DNA組裝技術(shù)和限制性內(nèi)切酶介導(dǎo)的酶聯(lián)技術(shù))的發(fā)展,為這項(xiàng)工作的實(shí)現(xiàn)提供了技術(shù)基礎(chǔ)。
表5 基因組合成對(duì)象復(fù)雜程度對(duì)比Tab.5 Comparison of the complexity of synthetic genomes
J.Craig Venter作為合成生物學(xué)領(lǐng)域的先驅(qū),多年來(lái)一直致力于合成基因組學(xué)的研究。他所帶領(lǐng)的研究組從2003年到2010年先后合成了長(zhǎng)5386 bp的φX174噬菌體基因組[61]、583 kb的生殖支原體基因組[64]和1.08 Mb的蕈狀支原體基因組(JCVIsyn1.0)[65],并于2016年合成了蕈狀支原體的最小基因組(JCVI-syn3.0)[66]。從支原體基因組的測(cè)序[67],到利用轉(zhuǎn)座子測(cè)定其必需基因[68],再到Gibson assembly體外組裝技術(shù)[63]、轉(zhuǎn)化輔助的酵母體內(nèi)組裝技術(shù)(transformation-associated recombination,TAR)[69]以及原生質(zhì)體融合介導(dǎo)的基因組移植技術(shù)[70]的開發(fā),Venter研究組花費(fèi)了將近20年的時(shí)間一步一個(gè)腳印地解決了細(xì)菌基因組“設(shè)計(jì)-構(gòu)建-移植-復(fù)活”過(guò)程中的一系列技術(shù)和理論問(wèn)題,構(gòu)建了人類歷史上第一個(gè)由全化學(xué)合成基因組支持存活的細(xì)菌[65]和第一個(gè)最小原核基因組[66]。在上述技術(shù)和CRISPR基因編輯技術(shù)的支持下,2019年,Jason W.Chin課題組報(bào)道了全合成的只有61個(gè)密碼子的大腸桿菌基因組,首次實(shí)現(xiàn)了有義密碼子的壓縮[71]。
由Jef Boeke領(lǐng)銜,中、美、英、法、奧、新加坡等國(guó)家通力合作的首個(gè)真核生物基因組合成計(jì)劃——釀酒酵母基因組合成計(jì)劃(Sc 2.0)目前也已經(jīng)完成了六條半染色體的合成工作[72-79],剩余的染色體合成工作也將于近期完成。相較于原核基因組,研究者們?cè)诤铣傻慕湍富蚪M中引入了更多的人為設(shè)計(jì)[75],比如全面去除轉(zhuǎn)座子、重復(fù)序列以及內(nèi)含子,用以研究相關(guān)序列的生物學(xué)功能。在這個(gè)過(guò)程中,研究者們開發(fā)了BioStudio設(shè)計(jì)軟件以及SwAP-in(switching auxotrophies progressively for integration)、Endoreduplication Backcross及MRA(meiotic recombination-mediated assembly)等DNA組裝技術(shù),實(shí)現(xiàn)了真核基因組的模塊化設(shè)計(jì)和高效組裝。到目前為止,可以說(shuō)人們已經(jīng)具備了合成真核細(xì)胞基因組的能力[80],而國(guó)際基因組合成計(jì)劃(Genome Project-Write,GP-Write)的目標(biāo)已經(jīng)瞄準(zhǔn)了更加復(fù)雜的高等生物基因組合成[81]。
建物致知與建物致用是合成基因組學(xué)的兩大愿景。在建物致知方面,最小原核基因組中仍然還有大量的未知功能的基因,對(duì)這些基因的研究將揭示細(xì)胞最核心的功能組成[66];合成酵母基因組中引入了一系列的設(shè)計(jì)原則,以便為轉(zhuǎn)座子及內(nèi)含子的功能和存在的生物學(xué)意義提供直接的證據(jù)[75];通過(guò)對(duì)核糖體編碼序列的合成再造,我們揭示了這一基因組內(nèi)拷貝數(shù)最高的序列對(duì)基因組高級(jí)結(jié)構(gòu)的影響[82]。在建物致用方面,通過(guò)全基因組重編所釋放的密碼子可用于引入非天然氨基酸等,助力蛋白質(zhì)相關(guān)的機(jī)制和應(yīng)用研究[80]。通過(guò)在合成酵母基因組的每個(gè)非必需基因的終止密碼子后第三個(gè)堿基處引入loxPsym位點(diǎn),我們實(shí)現(xiàn)了Cre重組酶依賴的合成基因組序列的刪除、倒換、重復(fù)和移位,產(chǎn)生了多樣的基因型和表型,為合成菌株的進(jìn)化和代謝工程應(yīng)用鋪平了道路[83-92](表6)。
“讀-改-寫”的研究技術(shù)是解析基因組奧秘的有效手段,三者相互支撐?;蚪M序列的讀取是后續(xù)修改和再造的基礎(chǔ);基因組序列的編輯是注釋序列功能的有效手段,可為基因組的從頭設(shè)計(jì)提供理論支撐;基因組的合成再造可對(duì)野生型序列進(jìn)行全局設(shè)計(jì),是對(duì)基因組相關(guān)功能和調(diào)控機(jī)制的再驗(yàn)證和再利用。在未來(lái)的基因組研究中,以基因組的“讀”和“改”為基因組的“寫”提供更多的理論和技術(shù)支撐,以基因組的“寫”驗(yàn)證基因組的“讀”和“改”過(guò)程中發(fā)現(xiàn)的相關(guān)規(guī)律以及探索新的規(guī)律,實(shí)現(xiàn)“讀-改-寫”三位一體,將是推動(dòng)基因組研究由淺到深、由點(diǎn)到面、由理論到應(yīng)用的有效手段?;蚪M學(xué)的發(fā)展對(duì)長(zhǎng)讀長(zhǎng)的測(cè)序技術(shù)在成本和準(zhǔn)確度等方面都提出了新的要求。對(duì)于SMRT測(cè)序技術(shù)而言,通過(guò)工程化改造DNA聚合酶以提高其持續(xù)聚合能力(processivity)和延長(zhǎng)活性周期有望在保證準(zhǔn)確率的前提下繼續(xù)提升其讀長(zhǎng),而優(yōu)化相關(guān)試劑和儀器則有望提升其通量并降低測(cè)序成本。對(duì)于納米孔測(cè)序技術(shù)而言,其錯(cuò)誤率較高且這些錯(cuò)誤更為系統(tǒng)化,通過(guò)增加測(cè)序的深度對(duì)降低錯(cuò)誤率所起的作用有限。通過(guò)尋找新的納米孔材料(如石墨烯納米孔[93]和固態(tài)納米孔[94])、控制DNA通過(guò)納米孔的時(shí)間以及改進(jìn)電信號(hào)檢測(cè)儀器的靈敏度,有望提高單堿基分辨率和降低其錯(cuò)誤率。值得一提的是,由于肽段通過(guò)納米孔也會(huì)產(chǎn)生電流的變化,利用納米孔技術(shù)實(shí)現(xiàn)單分子蛋白質(zhì)測(cè)序?qū)⑹侵档醚芯康姆较颍?5]。結(jié)合兩者優(yōu)勢(shì)以及其他輔助組裝技術(shù),如Hi-C技術(shù)[96]和BioNano Genomics公司的納米通道技術(shù)(nanochannel genome mapping)[97],將為精準(zhǔn)的基因組完成圖的獲取提供利器。
表6 合成酵母SCRaMbLE系統(tǒng)的相關(guān)研究Tab.6 Studies on the synthetic yeast SCRaMbLE system
復(fù)雜的生命現(xiàn)象的解析需要更加精準(zhǔn)、范圍更廣、通量更高的基因組編輯技術(shù)。除了能夠?qū)蝹€(gè)位點(diǎn)進(jìn)行編輯以外,CRISPR/Cas系統(tǒng)已經(jīng)可以對(duì)基因組多個(gè)位點(diǎn)進(jìn)行同時(shí)編輯。2019年,來(lái)自瑞士的科學(xué)家通過(guò)構(gòu)建單質(zhì)粒承載系統(tǒng),成功利用Cas12a和CRISPR array實(shí)現(xiàn)了多達(dá)25個(gè)內(nèi)源性靶點(diǎn)的編輯[98]。2011年,George Church利用MAGE(multiplex automated genome engineering)和CAGE(conjugative assembly genome engineering)成功將大腸桿菌基因組中的全部314個(gè)TAG終止密碼子替換為TAA終止密碼子[99-100]。這也是目前最具有代表性的在全基因組范圍內(nèi)實(shí)現(xiàn)大規(guī)模編輯的一項(xiàng)工作。目前利用基因編輯技術(shù)實(shí)現(xiàn)基因組范圍的大規(guī)模編輯仍然具有較大的困難,如何利用CRISPR/Cas技術(shù)實(shí)現(xiàn)高等生物中基因組范圍的多位點(diǎn)編輯,比如替換人類基因組中的TAG終止密碼子,將是未來(lái)的發(fā)展方向。
當(dāng)代合成基因組學(xué)仍然處于發(fā)展的早期階段,如何降低合成成本以及操作大型基因組片段(組裝、移植和復(fù)活等),以滿足高等生物復(fù)雜基因組的合成改造,還需要大量的研究。通過(guò)對(duì)酶和核苷酸底物的優(yōu)化,DNA的酶法合成有望突破化學(xué)合成法在合成長(zhǎng)度和準(zhǔn)確度方面的限制,但還需要大量的突破性工作[101];借助酵母自身的拼接系統(tǒng),研究人員目前已經(jīng)可以高效地進(jìn)行105bp級(jí)別的DNA組裝,進(jìn)一步提高多片段共轉(zhuǎn)化效率以及酵母細(xì)胞內(nèi)的同源重組效率有望實(shí)現(xiàn)Mb級(jí)別的DNA體內(nèi)組裝,而其他高效的外源DNA宿主(如枯草芽孢桿菌[102])或者高效的同源重組宿主(如耐輻射球菌[103])的開發(fā)則有望從另一個(gè)方向?qū)NA組裝技術(shù)進(jìn)行突破;在體內(nèi)組裝的大型DNA片段如何移植到目標(biāo)宿主中進(jìn)行功能測(cè)試是下一階段基因組編寫計(jì)劃需要解決的重大技術(shù)問(wèn)題,原生質(zhì)體融合是目前所采用的方法之一[104],但是成功率較低,需要進(jìn)一步優(yōu)化。除了在構(gòu)建技術(shù)層面的發(fā)展,合成基因組的設(shè)計(jì)理論也必須跟上。如何深度設(shè)計(jì)基因組序列以探索特定的生物學(xué)問(wèn)題或者實(shí)現(xiàn)應(yīng)用價(jià)值的最大化是需要大力發(fā)展的方向。天然基因組的優(yōu)化改造(比如合成最小的酵母基因組以探索真核生物的核心組成)以及非天然基因組的設(shè)計(jì)合成(如合成具有不同宿主特性的嵌合基因組以用作優(yōu)良的代謝工程底盤)將是近期有可能突破的方向。