韓娜, 黃蕾, 強(qiáng)??? 彭賢慧, 張婷婷, 李秀文, 張?chǎng)?/p>
(1. 中國疾病預(yù)防控制中心傳染病預(yù)防控制所, 傳染病溯源預(yù)警與智能決策全國重點(diǎn)實(shí)驗(yàn)室, 北京 102206; 2. 成都齊碳科技有限公司, 四川 成都 610000)
脫氧核糖核酸(DNA)存儲(chǔ)是一種以人工合成的生物大分子DNA作為信息載體的新型存儲(chǔ)技術(shù)。有別于傳統(tǒng)的以固體介質(zhì)(如硬盤、光盤、可移動(dòng)磁盤等)為媒介的存儲(chǔ)方式,利用DNA的核苷酸序列(A、T、C、G組合)編碼進(jìn)而進(jìn)行信息的存儲(chǔ)和解讀,具有并行性、高存儲(chǔ)密度及低能耗等優(yōu)點(diǎn),近年來引起越來越多科學(xué)家的關(guān)注[1]。1996年,Davis[2]成功地將一段編碼35 bit的黑白圖像的DNA序列存儲(chǔ)在細(xì)胞載體中,首次從實(shí)驗(yàn)上證實(shí)了信息可以在DNA中進(jìn)行存儲(chǔ)[2]。此后科學(xué)家們不斷嘗試將越來越多的信息存儲(chǔ)在DNA中。2012年,美國哈佛大學(xué)Church等[3]將5.27 Mb的一本書的信息(包含53 426個(gè)單詞、11個(gè)HPG圖像文件和1個(gè)JavaScript程序)完整存儲(chǔ)在DNA中。除圖片[4]和書籍外,也有科學(xué)家成功地將其他類型的信息,如數(shù)字[5]、詩歌[6]、歌曲[7]等寫入DNA并進(jìn)行數(shù)據(jù)讀取。隨著DNA合成技術(shù)(數(shù)據(jù)寫入)和DNA測(cè)序技術(shù)(數(shù)據(jù)讀取)的突破性發(fā)展,DNA存儲(chǔ)已成為下一代存儲(chǔ)技術(shù)的熱點(diǎn)。
相較于DNA數(shù)據(jù)存儲(chǔ)技術(shù)的飛速發(fā)展,目前數(shù)據(jù)讀取技術(shù)仍依賴于二代測(cè)序技術(shù),雖然二代測(cè)序技術(shù)具有精度高、通量大等優(yōu)點(diǎn),然而仍存在操作復(fù)雜、耗時(shí)長且成本高的缺點(diǎn)[8]。常規(guī)的二代測(cè)序?qū)嶒?yàn)過程,包含文庫構(gòu)建(4~8 h)、測(cè)序(12~80 h)、數(shù)據(jù)分析(2~24 h)等多個(gè)步驟,步驟多、時(shí)間長,因此不能實(shí)現(xiàn)對(duì)存儲(chǔ)信息的即時(shí)、快速提取。
隨著測(cè)序技術(shù)的成熟和發(fā)展,新出現(xiàn)的三代測(cè)序技術(shù)[9-10]具有測(cè)序長度更長的優(yōu)點(diǎn)。三代測(cè)序技術(shù)中的納米孔測(cè)序儀具有便攜性、實(shí)時(shí)讀取信息的優(yōu)點(diǎn),更適宜于DNA存儲(chǔ)信息的數(shù)據(jù)讀取。為驗(yàn)證新出現(xiàn)的便攜式國產(chǎn)測(cè)序平臺(tái)是否可用于開展DNA存儲(chǔ)信息的即時(shí)讀取,本研究設(shè)計(jì)并進(jìn)行了實(shí)驗(yàn)驗(yàn)證。
基于perl語言開發(fā)文本信息轉(zhuǎn)核酸編碼器,將中國古詩詞《將進(jìn)酒》中的179個(gè)漢字信息依次轉(zhuǎn)換為機(jī)內(nèi)碼、0和1數(shù)字串,再根據(jù)A和0、C和1的對(duì)應(yīng)關(guān)系,將文本信息轉(zhuǎn)換為核酸序列(圖1)。
圖1 DNA存儲(chǔ)、樣本準(zhǔn)備、測(cè)序和信息解碼流程圖
人工設(shè)計(jì)用于信息存儲(chǔ)的DNA存儲(chǔ)介質(zhì)。設(shè)計(jì)含有插入序列的pGH質(zhì)粒作為信息載體(圖1)。插入序列結(jié)構(gòu)為起始標(biāo)記序列+信息序列+終止標(biāo)記序列。信息序列采用A、C、G、T堿基分別代表0、1、空格和回車符號(hào)。每條插入序列的長度在400~1 000 bp內(nèi)。序列合成委托生物公司完成。
使用限制性內(nèi)切酶HindⅢ對(duì)含有插入序列的pGH質(zhì)粒進(jìn)行酶切,得到線性化質(zhì)粒樣本。使用Qeagen-8測(cè)序試劑盒和國產(chǎn)納米孔測(cè)序儀QNome-9604的Qcell-3841芯片對(duì)樣本進(jìn)行文庫構(gòu)建和測(cè)序。QNome-9604測(cè)序儀的測(cè)序原理為人工合成一種具有跨膜通道蛋白的多聚合物膜,通過在膜兩側(cè)施加不同的電壓產(chǎn)生電壓差,使DNA鏈在馬達(dá)蛋白的牽引下解螺旋并通過納米孔蛋白。由于不同的堿基跨膜時(shí)會(huì)形成特征性離子電流變化信號(hào),根據(jù)電流信號(hào)可識(shí)別堿基信息,記錄DNA鏈跨膜時(shí)的電流變化,從而讀取到每條DNA鏈上的堿基信息,獲得fastq格式的測(cè)序數(shù)據(jù)。
Fastq格式的下機(jī)測(cè)序數(shù)據(jù)采用filtlong過濾掉小于400 bp和大于1 000 bp的序列后,采用minimap2[11]方法比對(duì),將測(cè)序reads進(jìn)行分組?;诜纸M結(jié)果,進(jìn)行組內(nèi)reads的錯(cuò)誤糾正,并生成最終的consensus序列,再將ATCG堿基解碼成相應(yīng)的字節(jié)和符號(hào),利用自開發(fā)的解碼器將轉(zhuǎn)換所得的0和1字符串轉(zhuǎn)化為文字信息。
本研究選用了詩仙李白的《將進(jìn)酒》作為待存儲(chǔ)的信息,將詩中的179個(gè)中文字符利用方法中描述的文本信息轉(zhuǎn)核酸編碼器轉(zhuǎn)化為核酸序列進(jìn)行加密,最終獲得3 843個(gè)堿基,分為6條序列(表1),長度范圍為433~845 bp。將人工構(gòu)造的6條序列分別合成后插入克隆載體pGH,形成可在大腸埃希菌中穩(wěn)定傳代的質(zhì)粒。攜帶人工合成信息的甘油菌及其所包含的質(zhì)??捎?80 ℃冰箱中長期保存(如圖1所示)。將6種質(zhì)粒按照等摩爾比混合,制作成待讀取信息的核酸存儲(chǔ)物質(zhì),該物質(zhì)可存儲(chǔ)于-20 ℃冰箱短期保存。
表1 合成的6條序列信息
相較于二代測(cè)序儀,國產(chǎn)納米孔測(cè)序平臺(tái)QNome-9604具有便攜性和實(shí)時(shí)產(chǎn)生數(shù)據(jù)的優(yōu)點(diǎn)。采用該平臺(tái)的Qeagen-8測(cè)序試劑盒和Qcell-3841芯片對(duì)本次實(shí)驗(yàn)設(shè)計(jì)的核酸存儲(chǔ)物質(zhì)進(jìn)行測(cè)序,在4 h內(nèi)持續(xù)產(chǎn)出數(shù)據(jù),累計(jì)共獲得38 210條測(cè)序序列,總堿基數(shù)98 510 636 bp,平均reads長度2 578 bp。
基于fastq格式的原始測(cè)序數(shù)據(jù),利用自開發(fā)的測(cè)序轉(zhuǎn)文本信息解碼器進(jìn)行信息的轉(zhuǎn)碼,解碼過程中基于read多重比對(duì)實(shí)現(xiàn)測(cè)序序列的矯正,最終實(shí)時(shí)獲得的解碼結(jié)果如圖2所示,成功實(shí)現(xiàn)了《將進(jìn)酒》詩中的179個(gè)中文字符的134個(gè)字符的正確破譯,破譯成功率為74.9%。由于測(cè)序過程產(chǎn)生的部分插入或缺失堿基未能通過解碼過程中的序列比對(duì)實(shí)現(xiàn)自我矯正,仍有45個(gè)字符未能成功破譯。
圖2 原始信息和解碼信息對(duì)應(yīng)圖
DNA信息存儲(chǔ)在信息數(shù)據(jù)存儲(chǔ)方面具有極大潛力,早在20世紀(jì)80年代后期就已有科學(xué)家證明了DNA作為數(shù)據(jù)存儲(chǔ)介質(zhì)具備存儲(chǔ)密度高、存儲(chǔ)時(shí)間長、損耗率低等方面的能力和優(yōu)勢(shì)[12]。近幾十年來,該領(lǐng)域的研究在存儲(chǔ)的數(shù)據(jù)量和存儲(chǔ)密度的最大化方面取得了重大進(jìn)步。2018年,美國發(fā)布的《半導(dǎo)體合成生物學(xué)路線圖》預(yù)測(cè)基于DNA分子的數(shù)據(jù)存儲(chǔ)將有望解決海量數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)中心規(guī)模與能耗方面的挑戰(zhàn)。2019年7月,《科學(xué)美國人》將DNA存儲(chǔ)列為年度十大突破性技術(shù)之一。相較于DNA合成技術(shù)和DNA存儲(chǔ)技術(shù)的快速發(fā)展,近年來測(cè)序技術(shù)的飛速發(fā)展使快速準(zhǔn)確讀取DNA中存儲(chǔ)的信息成為可能。然而二代測(cè)序仍有著耗時(shí)較長的缺點(diǎn),其技術(shù)原理決定了必須整個(gè)實(shí)驗(yàn)結(jié)束后才能讀取測(cè)序信息,實(shí)驗(yàn)流程短則十幾個(gè)小時(shí),長則幾天,目前尚未能實(shí)現(xiàn)對(duì)于二代測(cè)序?qū)嶒?yàn)過程中的數(shù)據(jù)實(shí)時(shí)讀取。國產(chǎn)納米孔測(cè)序平臺(tái)QNome的出現(xiàn),因其具備實(shí)時(shí)讀取核酸信息的特點(diǎn),使從存儲(chǔ)于核酸介質(zhì)中的信息即時(shí)讀取成為了可能。本研究通過制作模擬樣本,利用納米孔測(cè)序平臺(tái)實(shí)時(shí)讀取信息,成功地從存儲(chǔ)了一首中文詩歌《將進(jìn)酒》的核酸樣本中破譯信息,耗時(shí)4 h,破譯成功率為74.9%。
測(cè)序技術(shù)不僅在讀取DNA存儲(chǔ)方面發(fā)揮讀取信息的作用,近年來在臨床醫(yī)學(xué)、公共衛(wèi)生領(lǐng)域也發(fā)揮著重要作用,例如未知病原的檢測(cè)等等。除華大智造BGIseq/MGIseq測(cè)序儀外,目前主流的測(cè)序儀器(如Illumina、Ion、Nanopore)仍為國際壟斷,而華大智造的BGIseq/MGIseq測(cè)序儀為二代測(cè)序技術(shù),目前仍不具備實(shí)時(shí)讀取信息的能力。此前,國際上僅有Nanopore測(cè)序儀具備測(cè)序時(shí)實(shí)時(shí)產(chǎn)生數(shù)據(jù)的能力,該品牌為英國產(chǎn)品,目前已被證明可應(yīng)用于DNA存儲(chǔ)數(shù)據(jù)(如1.67 Mb的圖畫)的準(zhǔn)確解碼和實(shí)時(shí)讀取[13]。國產(chǎn)測(cè)序品牌QNome為目前國內(nèi)第一款商業(yè)化的納米孔測(cè)序儀,具有實(shí)時(shí)測(cè)序的能力,本研究實(shí)踐驗(yàn)證了其從存儲(chǔ)DNA信息的介質(zhì)中即時(shí)讀取信息的能力。在成本方面,國產(chǎn)QNome-9604測(cè)序儀單次運(yùn)行成本約9 000元,相較于國際品牌有一定的成本優(yōu)勢(shì),也提示了未來在國內(nèi)DNA存儲(chǔ)信息領(lǐng)域獲得實(shí)際應(yīng)用的可能性。然而,本研究雖然揭示了納米孔測(cè)序技術(shù)在DNA存儲(chǔ)信息即時(shí)讀取方面的可能性,但同時(shí)國產(chǎn)QNome測(cè)序儀在準(zhǔn)確度方面仍待進(jìn)一步提高。本次實(shí)驗(yàn)測(cè)序數(shù)據(jù)量較低且數(shù)據(jù)矯正方法有待提升,目前本次解碼實(shí)踐僅實(shí)現(xiàn)了74.9%信息的即時(shí)讀取,仍有待在測(cè)序通量、測(cè)序芯片信號(hào)讀取的準(zhǔn)確度和電信號(hào)轉(zhuǎn)碼過程中的矯正算法等多個(gè)方面做進(jìn)一步的改進(jìn)。隨著DNA合成和國內(nèi)各品牌測(cè)序平臺(tái)的進(jìn)一步發(fā)展,DNA存儲(chǔ)和基于測(cè)序技術(shù)的信息讀取技術(shù)有望徹底改變未來數(shù)據(jù)訪問和計(jì)算領(lǐng)域。