唐瑞 鄭浩然
目前合成生物領(lǐng)域已有許多可以獲得具有各種改進(jìn)酶特性的蛋白質(zhì)的方法。相較于傳統(tǒng)方法對(duì)蛋白質(zhì)進(jìn)行理性設(shè)計(jì),定向進(jìn)化[1]因?yàn)椴恍枰哂嘘P(guān)于酶的結(jié)構(gòu)和機(jī)制等先驗(yàn)知識(shí)而被更廣泛地使用。該方法通過(guò)誘變或基因重組來(lái)隨機(jī)生成大型基因變體庫(kù)(library of variants),然后通過(guò)高通量篩選得到具有改進(jìn)特性的變體基因[2-3]。目前已經(jīng)有許多策略用于構(gòu)建基因變體庫(kù),例如易錯(cuò)聚合酶鏈?zhǔn)椒磻?yīng)(error prone polymerase chain reaction,epPCR)介導(dǎo)的隨機(jī)誘變[4-5]、DNA改組[6](DNA shuffling)以及目標(biāo)位置的飽和誘變[2]等。
其中DNA改組是一種強(qiáng)大的技術(shù),可以開(kāi)發(fā)用于蛋白質(zhì)定向進(jìn)化的基因變體庫(kù)[6]。在該方法中,通過(guò)基于同源或非同源的重組技術(shù)從單個(gè)基因或基因家族中得到隨機(jī)片段產(chǎn)生多種變體[7]。但是傳統(tǒng)的DNA改組有許多缺點(diǎn)。一是在彼此差異較大的變體序列之間改組的可能性很低[8]。即使彼此非常接近的突變體改組也可能效率低下[9]。二是從更多不同的序列中創(chuàng)建的變體庫(kù)大多傾向于產(chǎn)生親本同源雙鏈體,嵌合體中的交叉互換事件發(fā)生的數(shù)量非常低[2]。為了克服上述缺陷,目前已經(jīng)開(kāi)發(fā)了許多改進(jìn)的方法。其中一種簡(jiǎn)單的并且可以減少具有高度同源序列區(qū)域偏差的方法就是從頭寡核苷酸合成策略[9]。
從頭寡核苷酸合成策略包含多種具體實(shí)現(xiàn)方法。例如合成改組(synthetic shuffling)通過(guò)重疊延伸聚合酶鏈?zhǔn)椒磻?yīng)組裝簡(jiǎn)并寡核苷酸以構(gòu)建包含不同序列的變體庫(kù)[10]?;蚪M裝誘變(gene assembly mutagenesis)使用簡(jiǎn)并寡核苷酸來(lái)保證目標(biāo)位置的飽和誘變并通過(guò)基因組裝獲得變體庫(kù)[9,11]。當(dāng)模板序列難以隨機(jī)化時(shí),基于設(shè)計(jì)的寡核苷酸組裝(assembly of the designed oligos,ADO)重組可以構(gòu)建更高質(zhì)量的基因變體庫(kù)[9]。此外,使用這些基于寡核苷酸合成的方法有幾個(gè)特殊的優(yōu)勢(shì)。一是不需要基因的DNA。其次,在設(shè)計(jì)和合成階段,親本基因的自雜交被最小化或消除[12]。
盡管涉及從頭寡核苷酸合成的這些方法比經(jīng)典改組方法具有許多優(yōu)勢(shì),但由于簡(jiǎn)并合成寡核苷酸及其數(shù)量等原因,這些方法的好處并未完全體現(xiàn)。究其深層次原因之一是合成寡核苷酸的高成本。但是隨著技術(shù)的發(fā)展,使用基因芯片合成技術(shù)可以降低寡核苷酸的合成成本[13]。此外,利用基因芯片合成寡核苷酸進(jìn)行基因組裝的發(fā)展[13-16]也使得ADO方法能夠用于構(gòu)建高多樣性的基因變體庫(kù)[9]。
在過(guò)去十年中,基于基因芯片的從頭寡核苷酸合成取得了重大進(jìn)展[13-16]。因此,ADO與大規(guī)模合成寡核苷酸的結(jié)合成為可能。但同時(shí),對(duì)這些大量的將被合成并用于變體庫(kù)構(gòu)建的寡核苷酸的設(shè)計(jì)算法就變得尤為重要。
目前已經(jīng)研究開(kāi)發(fā)出了許多用于從頭合成的寡核苷酸設(shè)計(jì)工具。其中包括 DNAWorks[17]和TmPrime[18]。然而,由于這些軟件工具設(shè)計(jì)之初的應(yīng)用對(duì)象是傳統(tǒng)的DNA序列合成實(shí)驗(yàn),因此考慮到序列間的同源區(qū)域,這些軟件程序不支持嵌合寡核苷酸的生成。相反,當(dāng)輸入多條同源序列時(shí),大多數(shù)軟件會(huì)努力避免寡核苷酸之間的相似性。因此,在基于基因芯片合成技術(shù)的從頭寡核苷酸合成上,需要一個(gè)新的寡核苷酸設(shè)計(jì)方法和工具。為此課題組設(shè)計(jì)了一款HomoLib(homologous library)的工具,該工具能夠?yàn)榱说玫蕉ㄏ蜻M(jìn)化所需的高多樣性基因變體庫(kù)而進(jìn)行寡核苷酸設(shè)計(jì)。
HomoLib包括3個(gè)功能模塊,分別是基因設(shè)計(jì)模塊、基因切片模塊和寡核苷酸設(shè)計(jì)模塊,通過(guò)協(xié)同工作設(shè)計(jì)滿(mǎn)足定向進(jìn)化要求的高多樣性的基因變體庫(kù)所需的寡核苷酸,同時(shí)這3個(gè)模塊也可以獨(dú)立工作,用作其他領(lǐng)域。
基因設(shè)計(jì)模塊的目的是獲得親本氨基酸序列對(duì)應(yīng)的DNA序列。HomoLib從比對(duì)的蛋白質(zhì)序列中設(shè)計(jì)DNA序列,旨在以最大限度提高不同DNA序列之間的一致性。該模塊包括多序列比對(duì)(multiple sequence alignment,MSA)程序、逆翻譯程序、密碼子優(yōu)化程序和引物添加程序(圖1)。
在輸入親本氨基酸模板序列后,所有3個(gè)獨(dú)立模塊的第一步都是進(jìn)行輸入序列的比對(duì)(圖1)。MSA采用漸進(jìn)式技術(shù)的啟發(fā)式搜索,該技術(shù)于1984年開(kāi)發(fā)[19],也被稱(chēng)為分層或樹(shù)方法。漸進(jìn)比對(duì)通過(guò)將兩兩比對(duì)迭代應(yīng)用于最相似的序列對(duì)來(lái)構(gòu)建最終的MSA(圖2)。然后比對(duì)的氨基酸序列被逆翻譯成DNA序列。逆翻譯程序通過(guò)最大化不同序列間的一致性來(lái)設(shè)計(jì)DNA序列。
圖2 多序列比對(duì)算法示意圖Figure 2 Diagram of multiple sequence alignment algorithm
基因設(shè)計(jì)模塊的目的是為了使DNA序列盡可能同源,即通過(guò)選擇密碼子來(lái)提高DNA序列的相似性。為了實(shí)現(xiàn)這一點(diǎn),HomoLib使用候選密碼子的組合來(lái)創(chuàng)建給定位置的候選密碼子庫(kù),對(duì)于每個(gè)密碼子組合,計(jì)算平均相似度分?jǐn)?shù)并選擇具有最高相似度分?jǐn)?shù)的最佳密碼子組合。該程序的流程在圖3中進(jìn)行了說(shuō)明。
圖3 逆翻譯算法示例Figure 3 Example of reverse translation algorithm
為了避免依次刪除限制位點(diǎn)可能會(huì)重新引入限制位點(diǎn)的情況,HomoLib采取全局策略來(lái)同時(shí)刪除所有限制位點(diǎn)。首先定義了一個(gè)新名詞叫位點(diǎn)簇子序列(site-cluster subsequence),其中限制位點(diǎn)的任何密碼子替換都不會(huì)將新的限制性位點(diǎn)引入相應(yīng)序列的其余部分,因此對(duì)位點(diǎn)簇的密碼子替換不會(huì)在其他位置引入限制位點(diǎn)。首先,密碼子優(yōu)化程序會(huì)找到每個(gè)DNA序列的所有位點(diǎn)簇子序列。其次,對(duì)于每個(gè)位點(diǎn)簇子序列,將嘗試用所有候選密碼子替換原始密碼子,用以消除限制位點(diǎn)。最后,對(duì)于使位點(diǎn)簇子序列無(wú)限制位點(diǎn)的密碼子(通常有多個(gè)),選擇與原始密碼子相比核苷酸變化最少的作為最佳密碼子,目的是為了保持較高的相似性。
從基因設(shè)計(jì)模塊獲得DNA序列后,可以視序列長(zhǎng)度來(lái)決定是否進(jìn)行基因切片,目的是將過(guò)長(zhǎng)且難以組裝的DNA序列分成幾個(gè)較短的片段(圖1)。經(jīng)過(guò)基因切片后,后續(xù)在全長(zhǎng)DNA組裝期間將會(huì)提供在片段之間改組的機(jī)會(huì),從而提高最終變體庫(kù)的多樣性。為了提高改組的重組率,應(yīng)在DNA序列的高度同源區(qū)域切割片段。不同片段之間的受控重疊區(qū)域可用作同源重組中的連接段(linker)。該模塊的算法實(shí)現(xiàn)包括兩個(gè)步驟:根據(jù)片段長(zhǎng)度范圍和全長(zhǎng)比對(duì)的DNA序列來(lái)初始化切割位點(diǎn),然后微調(diào)初始化的切割位點(diǎn)以生成具有高度同源區(qū)域的最佳切割位點(diǎn)。
在寡核苷酸設(shè)計(jì)模塊中,將對(duì)短DNA序列切割成用于DNA合成需要的寡核苷酸。為了提高寡核苷酸合成的效率,需要限制寡核苷酸的長(zhǎng)度。該模塊確保相鄰的寡核苷酸之間沒(méi)有間隙,從而降低了DNA組裝過(guò)程中的難度和錯(cuò)誤率。該模塊的主要步驟如下。
(1) 在寡核苷酸長(zhǎng)度范圍的約束下,從5’(five prime)端開(kāi)始到3’(three prime)端結(jié)束,一一識(shí)別具有高同源區(qū)域的正向切割位點(diǎn)。這樣設(shè)計(jì)的寡核苷酸將在對(duì)應(yīng)的DNA序列區(qū)域具有相似的5’端和(或)3’末端。
(2) 在寡核苷酸長(zhǎng)度范圍的約束下,從5’端開(kāi)始到3’端結(jié)束,一一識(shí)別具有高同源區(qū)域的反向切割位點(diǎn),并且每個(gè)反向切割點(diǎn)應(yīng)位于兩個(gè)相鄰的正向切割點(diǎn)之間。
由于寡核苷酸的長(zhǎng)度比較短小,因此不可能每個(gè)寡核苷酸的兩端都具有較高的同源性,于是HomoLib提供了2個(gè)選項(xiàng)供用戶(hù)選擇。高同源序列可以選擇5’端和3’端都具有較高的同源性,默認(rèn)只要求3’端具有較高同源性。因此,對(duì)于高同源DNA序列的頂部鏈(top strand),該算法在MSA之后尋找高度同源區(qū)域中間的切割點(diǎn)。相應(yīng)反向寡核苷酸的末端移動(dòng)到底部鏈(bottom strand)的相鄰?fù)磪^(qū)域的中間。
21個(gè)紅色熒光蛋白(red fluorescent protein,RFP)的氨基酸序列被輸入到基因設(shè)計(jì)模塊中用以得到基因序列,使用的宿主細(xì)胞是大腸桿菌。
基因設(shè)計(jì)模塊可以將氨基酸序列逆向翻譯成相似度更高的DNA序列。圖4提供了HomoLib、DNAWorks和TmPrime之間逆翻譯DNA序列的一致性比較,其中一致性的計(jì)算是使用的Clustal Omega軟件。本文方法優(yōu)化了逆翻譯過(guò)程中密碼子的選擇。然而,DNAWorks和TmPrime為了規(guī)避交叉匹配的情況不會(huì)考慮提高基因序列的一致性。因此,與使用DNAWorks和TmPrime逆翻譯的DNA序列相比,使用HomoLib逆翻譯的DNA序列一致性是最高的。通過(guò)我們的方法,逆翻譯得到的DNA序列的平均一致性為84.41%。該值高于親本氨基酸序列(平均一致性69.82%),而DNAWorks和TmPrime的平均一致性分別僅為69.58%和67.56%。由于一致性70%以上時(shí)重組更為有效[20],從結(jié)果中可以看出HomoLib得到的逆翻譯DNA序列將使得重組效率更高。
圖4 序列間的平均一致性Figure 4 Average identity between sequences
基因切片模塊可以將全長(zhǎng)序列切分成具有相似末端的片段。因此,在將片段組裝成全長(zhǎng) DNA 的過(guò)程中,發(fā)生重組的可能性將得以增加。如圖5所示,DNA序列在高同源區(qū)被切割成片段,在末端有長(zhǎng)達(dá)28 bp(base pair)的重疊,該重疊長(zhǎng)度可由用戶(hù)自定義設(shè)置。切割位點(diǎn)在高同源區(qū)域,確保不同基因序列的所有末端都盡可能相似。
圖5 DNA切割片段末端的重疊區(qū)域Figure 5 Overlapping region at the ends of DNA fragments
由于長(zhǎng)度是影響寡核苷酸Tm(melting temperature)值的重要參數(shù),因此在寡核苷酸設(shè)計(jì)中,考慮到序列的相似性,通過(guò)限制相似區(qū)域的長(zhǎng)度,將同源區(qū)域的Tm值限制在濕實(shí)驗(yàn)的要求范圍內(nèi)。在將21個(gè)RFP的DNA序列切割成具有重疊末端的短片段后,使用寡核苷酸設(shè)計(jì)模塊將片段進(jìn)一步切割成寡核苷酸。課題組比較了HomoLib以及DNAWorks和TmPrime的這些關(guān)于將DNA序列切割成寡核苷酸的數(shù)據(jù)結(jié)果,本文方法根據(jù)序列的同源區(qū)域確定了切割位點(diǎn),切割后每條鏈的末端顯示出明顯的相似性,提高了重組效率。但是DNAWorks和TmPrime沒(méi)有考慮序列同源性,切割后末端高度相似不明顯。
蛋白質(zhì)定向進(jìn)化流程中,許多合成生物技術(shù)都可以生成基因變體庫(kù),為了克服傳統(tǒng)基因變體庫(kù)生成方式的諸多缺點(diǎn),研究人員采用了基于基因芯片技術(shù)的從頭寡核苷酸合成方法來(lái)生成基因變體庫(kù),并提高其多樣性。由于目前廣泛使用的寡核苷酸設(shè)計(jì)工具是基于傳統(tǒng)的DNA合成技術(shù)而設(shè)計(jì)的,有避免寡核苷酸或基因間相似的特性,而這阻礙了基于基因芯片技術(shù)的從頭寡核苷酸合成基因變體庫(kù)的多樣性。因此,本文提出了HomoLib工具,其可以對(duì)蛋白質(zhì)合成實(shí)驗(yàn)進(jìn)行寡核苷酸設(shè)計(jì),并以此提高合成后基因變體庫(kù)的多樣性。
本文提出的方法主要適用于采用從頭寡核苷酸合成策略的基因芯片技術(shù)的定向進(jìn)化。在后續(xù)的研究中還需要對(duì)其他生物合成方法進(jìn)行改進(jìn)以及針對(duì)低同源序列進(jìn)行優(yōu)化。
本文提出的HomoLib工具,可以針對(duì)輸入氨基酸序列進(jìn)行密碼子優(yōu)化、基因切片等處理,從而提高序列間的一致性,進(jìn)而增加基因變體庫(kù)合成過(guò)程中的重組率,最后提高變體庫(kù)的多樣性。逆翻譯后的基因序列一致性的提升、高同源區(qū)域的切割以及后續(xù)基因變體庫(kù)的成功合成及篩選證實(shí)了該工具的有效性。