王澳
摘 要:作為一種新興儲存方式,DNA儲存系統(tǒng)以其極強的穩(wěn)定性和極高的儲存密度備受關(guān)注。尤其是近些年隨著儲存需求的快速上升,與之相關(guān)的研究也在增加,并取得了一些令人振奮的成果。本文從儲存方法、匯編算法、未來發(fā)展等方面出發(fā),簡要匯總了一些科研成果,并提出可能的未來發(fā)展方向,以期為該領(lǐng)域的進一步研究提供幫助。
關(guān)鍵詞:信息載體;DNA儲存;DNA算法
一、緒論
自信息革命以來,隨著計算機科學的發(fā)展與網(wǎng)絡(luò)交流,人類文明的信息量成指數(shù)級增長,又被稱作大數(shù)據(jù)時代。信息總量突破100ZB,這個數(shù)字還在以每18個月翻一番的速度急劇增長。[1]這要求儲存裝置必須要有更大的容量,還應(yīng)當具有更快的運行速度,更可靠的儲存質(zhì)量和更高的安全性,同時還希望足夠廉價。目前廣泛采用的半導(dǎo)體顆?;蚴谴判詢Υ娼橘|(zhì)的固有缺陷愈發(fā)凸顯且基于它們的研究陷入瓶頸,難以滿足這日益增長的需求,而計算機存儲體系越發(fā)顯得后繼無力,現(xiàn)有的方法或許很快將會逼近其理論極限。[2]值此時,我們對發(fā)展新一代儲存裝置提出了迫切的需求。DNA存儲技術(shù)正是在這種情況下脫穎而出,受到廣大相關(guān)行業(yè)的關(guān)注與支持。
基于核物理、高能激光、超強磁場等技術(shù)的進步,全息圖儲存、原子探針、非揮發(fā)性的磁性隨機寄存器相繼面世。[3]同時,伴隨生命科學的進步,人類在自然中獲取靈感。而DNA,即脫氧核糖核酸;以其出色的穩(wěn)定性,高效的可復(fù)制性和無出其右的信息密度成為新的儲存方式中強而有力的候選。在對其進行深入發(fā)掘后,以DNA為載體的信息儲存技術(shù)的概念開始發(fā)聲。研究表明DNA的編譯方式非常接近計算機程序,它們都采用順序編碼,都采用數(shù)據(jù)糾錯譯碼來保證信息的精確與完整,都通過點陣儲存信息,同時,都可以通過特定的點陣區(qū)間進行糾錯。因此,DNA儲存天然有極好的向下兼容性,適宜作為未來的信息介質(zhì)。同時以DNA分子為存儲載體,以四種堿基排列組合來存儲信息,信息存儲量大,通過PCR擴增使成本降低,便于保存且安全高效,完美契合了當前我們對于信息存儲的需求。
二、DNA儲存技術(shù)的原理
DNA分子可以看作是很長的多聚核苷酸鏈,擁有數(shù)目巨大的位,因此,DNA天然具有儲存信息的功能。DNA分子由兩條互補配對的堿基鏈構(gòu)成,在自然界中存在多種堿基分子,包括近年發(fā)現(xiàn)的5-胞嘧啶甲酰(5-formylcytosine),5-胞嘧啶羧基(5-carboxylcytosine),其中的4種A,T,G和C是構(gòu)成DNA的主要堿基,它們的排列組合使得信息儲存在DNA鏈中,編譯生命活動。DNA儲存技術(shù)利用這一系統(tǒng)將信息編碼,通過生物或化學方法儲存在DNA中與復(fù)制,測序操作共同完成儲存器的讀寫和復(fù)制功能。這樣,DNA分子就類似于磁盤,擁有儲存與修改信息的功能。而堿基互補配對的過程就像是計算機的處理單元,從而又引發(fā)有關(guān)DNA分子計算,DNA存儲器的熱潮,吸引了大量尤其是計算機科學家的興趣。
DNA計算是隨著分子生物學的出現(xiàn)與發(fā)展而興起的。1994年,美國加利福利亞大學的Adleman博士在《science》上首次發(fā)表了關(guān)于DNA分子生物計算方法的開創(chuàng)性文章,通過生化方法求解了7個頂點的哈密頓回路問題,顯示了用DNA進行特定目的計算的問題。其研究開啟了DNA算法的先河,引得眾多學者的側(cè)目。DNA分子計算研究受生物學、遺傳學、計算機科學、化學等學科的交叉影響,內(nèi)容涉及極廣。這個新觀念拓寬了人們對自然計算尤其是基本算法的理解。
三、DNA儲存技術(shù)的優(yōu)勢
在漫長的生物演化中,生物體的一切生命活動都由它們的遺傳物質(zhì)操縱。為了保證生物體的最終目的即繁衍遺傳,生命演化出了極端穩(wěn)定的信息儲存系統(tǒng)。研究表明,DNA的半衰期為512年,在理想環(huán)境中可以保存100萬年以上依舊能識別完整信息。[4]這是現(xiàn)有的儲存介質(zhì)無法企及的。由于半導(dǎo)體顆粒的記錄方法是儲存電子現(xiàn)成電容陣列,電子的緩慢釋放使得儲存時間大約為10年,磁性儲存器(硬盤,光盤或磁帶)的儲存是建立在磁疇陣列上,環(huán)境的變化及自身的干擾將使其發(fā)生不可避免的消磁。光介質(zhì)例如光盤或全息儲存系統(tǒng)雖然不會發(fā)生上述問題,但由于自身材料的性能保存時間也在數(shù)百年之內(nèi)。于是,就有人發(fā)現(xiàn)了DNA,DNA能夠人工合成再通過PCR技術(shù)大量擴增,這就為DNA作為信息儲存的界質(zhì)提供了充足條件。同時,做為一種高度折疊的分子,DNA的儲存密度極大,達到TB級。通過PCR方法也能實現(xiàn)快速復(fù)制。磁力儲存系統(tǒng)如磁帶磁盤基于穩(wěn)定性的考慮有最小磁疇面積,它們的儲存接近極限。光系統(tǒng)也具有最小讀取面積的問題。相對于傳統(tǒng)儲存技術(shù)來說,由于PCR能大量擴增DNA分子,所以批量生產(chǎn)的成本較低;它沒有運動部件,也不存在斷電問題,更加適合長久穩(wěn)定的保存數(shù)據(jù);DNA作為信息儲存載體,其數(shù)據(jù)儲存容量非常之大,遠遠超過當前的任何儲存方式。綜合來看,DNA作為一種新興儲存系統(tǒng),在超長時間儲存,大容量儲存方向有極大優(yōu)勢,且具有穩(wěn)定可靠的載體,檢索速度極快,抗干擾能力強等優(yōu)點,具有非常廣闊的發(fā)展前景,未來隨著技術(shù)進步極有可能成為一種常見的儲存方式。
四、DNA儲存系統(tǒng)的起源發(fā)展
為了實現(xiàn)DNA分子生理功能,DNA系統(tǒng)并非采用計算機語言中常見的順序邏輯(由一般到特殊、由抽象到具體、由主要到次要、由現(xiàn)象到本質(zhì)、由原因到結(jié)果、由概念到應(yīng)用)通過并行算法及分布式儲存單元,DNA系統(tǒng)在隨機寄存性能和魯棒性上表現(xiàn)良好。20世紀70年代,最早關(guān)于DNA進行信息儲存的構(gòu)想就被提出:通過堿基分子的排列記錄二進制數(shù)據(jù),通過生化方法進行記錄復(fù)制。這一構(gòu)想在1988年首次實現(xiàn)。1994年,南加州大學課題組實現(xiàn)了在生化系統(tǒng)中運算解決哈密頓圈問題。[5]次年,DNA儲存器的首個模型被提出。[6]1999年,首次使用DNA鏈編碼并恢復(fù)了23字節(jié)的信息,Kashiwamura在2003年制造了一個高密度的小型DNA存儲器,又在兩年后證明該系統(tǒng)的可靠性。在2007年生物學家把枯草芽孢桿菌作為試驗對象,將信息刻入DNA。2012年1月,德國的聯(lián)合科研團隊利用三文魚的DNA制造單次寫入反復(fù)讀取的存儲器,但至多能存儲30小時。2012年9月,哈佛醫(yī)學院教授、遺傳學家George Church的團隊發(fā)表文章將5.34萬字的書籍圖片和程序存進了不到1沙克DNA中。2013年,Evan、Birney和Nick Goldman的研究團隊將十四行詩一張格式圖片一篇學術(shù)論文和26秒的演講片段以及一個文檔存進了微量的DNA片段里,把成果發(fā)到了《nature》上。2016年,微軟研究團隊將100部包括《戰(zhàn)爭與和平》在內(nèi)的作品寄存在DNA中,又通過測序完整的讀取出內(nèi)容。同時通過對DNA進行包覆等方法進一步增加了穩(wěn)定性。[7]甚至通過將編碼基因?qū)牖罴毎?,實現(xiàn)信息的自我復(fù)制,準確度達到90%。[8]
五、DNA儲存技術(shù)現(xiàn)存的問題
當今社會,每天產(chǎn)生的信息量都極為龐大,目前的信息儲存技術(shù)已經(jīng)難以完成如此巨額的工作,需要有更加適合的信息載體,DNA儲存技術(shù)應(yīng)運而生。相對于傳統(tǒng)信息存儲技術(shù)而言,它在包括寫入、讀取、檢索、穩(wěn)定、大容量、存儲時間長,穩(wěn)定可靠方面都有巨大的優(yōu)越性。但目前尚存在部分問題,例如DNA作為遺傳信息的載體,其存在與表達都需要其他蛋白質(zhì)的參與,很容易受到外界因素的影響受到損傷,導(dǎo)致信息缺失,恐怕難以適應(yīng)類似硬盤的信息儲存。關(guān)于核酸蛋白質(zhì)的序列和結(jié)構(gòu)數(shù)據(jù)十分龐大繁雜,對這些信息的管理、控制、分析、解讀也成為當前生物信息學的一大難題。DNA存儲技術(shù)的發(fā)展還需要依靠生命科學的發(fā)展,還需我們對生命機理、對DNA序列有更深刻的研究和了解。諸如此類的問題還有許多,現(xiàn)在DNA分子存儲技術(shù)還在起步階段,要想真正投入生產(chǎn)使用乃至于取代當前的存儲技術(shù)還有很長的路要走,還有許多技術(shù)難關(guān)需要克服,但應(yīng)該相信其巨大的潛力可以在未來信息存儲領(lǐng)域發(fā)揮巨大的作用。
六、DNA存儲器的應(yīng)用前景展望
DNA是人體的遺傳信息載體,經(jīng)過無數(shù)年的不斷進化和殘酷的自然篩選,DNA儲存信息是一種安全可靠的信息儲存方式,DNA儲存系統(tǒng)的性能遠遠超過現(xiàn)有的任何一種人工手段。但由于DNA儲存技術(shù)尚在起步階段,人工編碼特定序列的DNA及測序工作等工作還有很多困難,許多理論尚不清楚。單分子操作、生物編程、合成后的保護等技術(shù)都亟待解決。減少非特異性雜交與保留存儲空間之間的矛盾彼消此長。[9]但或許通過增加人工合成的堿基使DNA具有更高的復(fù)雜度能解決這個問題,同時還可以確保合成DNA不能逃逸到自然界之中。[10]雖然DNA儲存系統(tǒng)還很不完善,距離成熟可靠的實用儲存器尚需時日。鑒于它的巨大潛力,許多機構(gòu)都開展了相關(guān)的研究。例如Erlich等人發(fā)明的“水滴”法,將字符串隨機包裝成“水滴”,再將其映射到DNA上。使得每個堿基儲存1.6Bt信息并增強DNA的抗逆性。[11]未來,一切都將是數(shù)字化的,數(shù)據(jù)訓練算法也應(yīng)用越來越廣泛,以DNA為載體的信息儲存技術(shù)也將越來越普遍。在這個信息大爆炸的時代,每天都有大量的信息產(chǎn)生,依照目前的發(fā)展速度,很快就將沒有足夠的信息儲存和計算材料可供使用,就需要有新的信息儲存方式,所以,研究DNA儲存方式是極有意義和必要的事。相信在不久的將來,以DNA為載體的信息儲存技術(shù)就會大量出現(xiàn),得到廣泛的應(yīng)用。
七、結(jié)語
DNA儲存技術(shù)是一種新型的信息儲存方式,具有穩(wěn)定可靠、儲存量大、超長儲存時間等優(yōu)點,是生物與計算機科學的交叉學科,具有十分重大的意義。雖然現(xiàn)在DNA存儲技術(shù)還有許多難關(guān)沒有攻破,還需要生命科學的不斷進步,對生命活動的不斷認識與了解,但這幾十年中不斷取得的發(fā)展與成果十分可喜,也印證了DNA存儲技術(shù)的巨大潛力。相信這些都不是問題,以DNA為界質(zhì)的信息儲存方式必然會取代傳統(tǒng)的信息儲存方式,成為新時代的主流。
參考文獻:
[1]Hilbert Martin,López Priscila.The Worlds Technological Capacity to Store,Communicate,and Compute Information[J].Science,2011,332(6025):60-65.
[2]韋丹.磁信息存儲技術(shù)的回顧與展望[J].物理,2004,33(9):646-651.
[3]方糧.未來存儲新技術(shù)的發(fā)展方向[J].通信世界,2003,000(013):29-30.
[4]Kaplan Matt.DNA has a 521-year half-life[EB/OL].https://www.nature.com/news/dna-has-a-521-year-half-life-1.11555,2012-10-10.