基因測(cè)序技術(shù)的飛速發(fā)展忙壞了數(shù)據(jù)存儲(chǔ)公司,在他們發(fā)愁如何存儲(chǔ)爆炸式增長(zhǎng)的基因數(shù)據(jù)時(shí),生物學(xué)家卻另辟蹊徑,他們發(fā)現(xiàn),基因本身,就是最好的存儲(chǔ)設(shè)備。
2015年2月,瑞士聯(lián)邦理工學(xué)院的項(xiàng)目團(tuán)隊(duì)對(duì)外公布了一項(xiàng)最新研究成果:他們成功將一段DNA片段塞進(jìn)了石英玻璃材質(zhì)的球形膠囊中。
看起來(lái)不是什么重大成果,此前人們?cè)缫涯軌虬袲NA片段塞進(jìn)各式各樣的材料中。但關(guān)鍵是,4周后,瑞士科學(xué)家從那段DNA中,完整取出了之前存入的83KB數(shù)據(jù)。
這無(wú)疑是DNA存儲(chǔ)技術(shù)的歷史性突破。它意味著,利用DNA存儲(chǔ)和讀取數(shù)據(jù),不再是一個(gè)不錯(cuò)的想法,而是一個(gè)可行的辦法。
不過(guò),別高興太早,雖然實(shí)驗(yàn)已證明了其可行性,但要真正干掉如今的硬盤(pán)和服務(wù)器,DNA存儲(chǔ)還有很長(zhǎng)的路要走。
1克=700TB
在分析所有困難前,先來(lái)看一個(gè)基本的問(wèn)題,為什么要用DNA來(lái)存儲(chǔ)數(shù)據(jù)?
答案不是為了好玩,也不是某些技術(shù)先鋒的創(chuàng)新之舉,而是我們現(xiàn)有的存儲(chǔ)工具,已經(jīng)跟不上數(shù)據(jù)存儲(chǔ)的需求。
市場(chǎng)研究公司IDC和數(shù)據(jù)存儲(chǔ)公司EMC在2014年做了一項(xiàng)調(diào)研,他們發(fā)現(xiàn),2013年全世界的數(shù)據(jù)總量達(dá)到了4.4ZB(1ZB=10.74億TB),按照如今的數(shù)據(jù)增長(zhǎng)速度,即使保守估計(jì),2020年,數(shù)據(jù)總量也將超過(guò)44ZB。
而隨著摩爾定律的升級(jí),人類(lèi)已經(jīng)逐步接近傳統(tǒng)電子制造技術(shù)的極限,即便摩爾定律一直生效,現(xiàn)有電子存儲(chǔ)設(shè)備的性能和容量提升速度,也無(wú)法跟上人類(lèi)產(chǎn)出數(shù)據(jù)的速度。
在數(shù)據(jù)大爆炸災(zāi)難發(fā)生前,人類(lèi)需要找到不受摩爾定律限制的存儲(chǔ)設(shè)備。DNA存儲(chǔ)的設(shè)想,由此而生。
關(guān)于DNA存儲(chǔ),流傳最廣的說(shuō)法是2010年誕生于酒吧中。當(dāng)時(shí),歐洲生物信息研究所副所長(zhǎng)尤安·伯尼和同事尼克·古德曼在德國(guó)漢堡市一間酒吧中發(fā)愁,用什么可以替代昂貴的存儲(chǔ)硬盤(pán),以處理日益繁多的基因數(shù)據(jù)。
兩人開(kāi)玩笑說(shuō),要是有存儲(chǔ)設(shè)備能像DNA一樣存儲(chǔ)遺傳基因信息多好,你看一只猛犸象的基因就能讓我們了解數(shù)萬(wàn)年前的許多信息。
話(huà)音剛落,兩人立馬有了同樣的想法,為什么不用DNA存儲(chǔ)信息呢?它本身就是一個(gè)很好的存儲(chǔ)設(shè)備。于是,兩位科學(xué)家找了一張餐巾紙,在上面寫(xiě)下了這個(gè)偉大的構(gòu)想。
在兩人的構(gòu)想中,所謂DNA存儲(chǔ),就是利用DNA的4個(gè)堿基——A、T、C、G為基本符號(hào),通過(guò)獨(dú)特的排列組合,形成一套編碼存儲(chǔ)和讀取數(shù)據(jù)。
這與如今的二進(jìn)制電子存儲(chǔ)有異曲同工之妙,只不過(guò),二進(jìn)制電子存儲(chǔ)是以1和0為基本符號(hào)進(jìn)行排列組合,形成不同的序列,進(jìn)而組合成信息和數(shù)據(jù)。
而DNA有4個(gè)堿基,在編碼上也就多了許多可能,眾多的優(yōu)勢(shì)也將從中顯現(xiàn)。
一個(gè)最明顯的優(yōu)勢(shì),就是容量。DNA本身就是攜帶海量遺傳信息的“數(shù)據(jù)庫(kù)”,在人類(lèi)的基因序列中,1克重量的DNA就包含數(shù)十億GB的遺傳數(shù)據(jù),而根據(jù)2012年美國(guó)科學(xué)家喬治·丘奇在1沙克(億萬(wàn)分之一克)DNA中存入的數(shù)據(jù)量換算,1克DNA能存儲(chǔ)的數(shù)據(jù),多達(dá)700TB,相當(dāng)于1.4萬(wàn)張藍(lán)光光盤(pán),或233個(gè)3TB的硬盤(pán)。
丘奇說(shuō),以這個(gè)存儲(chǔ)容量,今后,一個(gè)拇指大小的DNA存儲(chǔ)設(shè)備,就能存下整個(gè)互聯(lián)網(wǎng)的信息。
最佳存儲(chǔ)選擇?
除了容量巨大,DNA存儲(chǔ)的優(yōu)勢(shì)還包括無(wú)須依賴(lài)電源和不需要維護(hù)等,不過(guò)以此就斷言DNA是未來(lái)最佳存儲(chǔ)設(shè)備,還為時(shí)尚早。
2013年,經(jīng)過(guò)3年努力,尤安·伯尼和尼克·古德曼完成了他們首次的DNA存儲(chǔ)實(shí)驗(yàn),將154首莎士比亞的詩(shī)歌、一張歐洲生物信息研究所的JPG格式圖片、一份關(guān)于DNA分子結(jié)構(gòu)的PDF學(xué)術(shù)論文、馬丁·路德·金 “我有一個(gè)夢(mèng)想”的26秒演講片段以及一個(gè)編碼系統(tǒng)文檔統(tǒng)統(tǒng)存進(jìn)了微量的DNA里。
但完成這一存儲(chǔ)過(guò)程,著實(shí)費(fèi)了不少功夫。
最基本的難題是如何將這些數(shù)字化形式存在的文字、圖片和視頻,轉(zhuǎn)化成DNA堿基的編碼語(yǔ)言。科學(xué)家們時(shí)至今日使用的方法,都是發(fā)明一段中間代碼,讓這段代碼充當(dāng)中介,實(shí)現(xiàn)二進(jìn)制電子語(yǔ)言與DNA堿基語(yǔ)言的轉(zhuǎn)化。
比如,將莎士比亞的詩(shī)歌翻譯成中間代碼,再利用DNA合成技術(shù),將堿基按序排列,合成一段符合詩(shī)歌代碼的DNA片段,并加上一段索引代碼,保證每一個(gè)位置的堿基與相應(yīng)的詩(shī)歌字母相匹配。
讀取階段,則是利用基因測(cè)序儀和計(jì)算機(jī),按照DNA片段的序列索引,將DNA中存儲(chǔ)的信息排列好,并通過(guò)中間代碼轉(zhuǎn)化成計(jì)算機(jī)能夠讀取的二進(jìn)制數(shù)字語(yǔ)言。
理論上看這是一個(gè)接近完美的存儲(chǔ)和讀取方法,但實(shí)際上,除去中間代碼的編寫(xiě)難度之高,DNA本身的存儲(chǔ)和數(shù)據(jù)保護(hù),也是一個(gè)大麻煩。
以往眾多科學(xué)家的測(cè)試結(jié)果表明,合成存入數(shù)據(jù)的DNA并不困難,但要讀取數(shù)據(jù)時(shí),DNA會(huì)對(duì)周?chē)h(huán)境作出反應(yīng),很難保持穩(wěn)定,這很容易導(dǎo)致讀取的DNA數(shù)據(jù)經(jīng)常出現(xiàn)錯(cuò)誤,或者數(shù)據(jù)隨著細(xì)胞死亡而丟失。
瑞士聯(lián)邦理工學(xué)院科學(xué)家們的實(shí)驗(yàn)之所以可以稱(chēng)為突破性成功,就在于解決了DNA片段的存儲(chǔ)問(wèn)題,將DNA片段當(dāng)成“化石”保存,再通過(guò)氟化物的作用,釋放DNA,進(jìn)而完整準(zhǔn)確地讀取出所有存入的數(shù)據(jù)。
瑞士的科學(xué)家說(shuō),利用這種方法,存儲(chǔ)數(shù)據(jù)的DNA可以在-18℃下保存100萬(wàn)年之久。
不過(guò),即便保存方法難題得到解決,DNA存儲(chǔ)還需要面對(duì)所有前沿科技面臨的共同挑戰(zhàn)——成本。
瑞士科學(xué)家在DNA片段中存儲(chǔ)的83KB數(shù)據(jù),包括一份瑞典聯(lián)邦憲章以及英文版的阿基米德著作《機(jī)械定理方法》,整個(gè)存儲(chǔ)和讀取過(guò)程,花費(fèi)超過(guò)1000歐元,而若要存儲(chǔ)一整部電視劇,費(fèi)用將是一個(gè)驚人的數(shù)字。
不過(guò)好消息是,基因測(cè)序和DNA合成技術(shù)的發(fā)展速度也同樣驚人,DNA存儲(chǔ)的成本也在隨之降低,屆時(shí),即便不能成為最佳存儲(chǔ)設(shè)備,也會(huì)是最好的選擇之一。