蔡富娟++汪煜琦
【摘要】生物信息學(xué)在生命科學(xué)研究的數(shù)據(jù)處理方面等方面發(fā)揮重要作用,伴隨著云計(jì)算和大數(shù)據(jù)技術(shù)的出現(xiàn)和在生物信息學(xué)學(xué)科中的成熟運(yùn)用,此門學(xué)科將在生命科學(xué)研究領(lǐng)域發(fā)揮更大的作用。因此,在生物專業(yè)的培養(yǎng)過程中加強(qiáng)生物信息學(xué)的學(xué)習(xí)和熟練掌握程度尤為重要。
【關(guān)鍵詞】生物信息學(xué) 云計(jì)算 大數(shù)據(jù)
【中圖分類號】G642 【文獻(xiàn)標(biāo)識碼】A 【文章編號】2095-3089(2017)09-0094-02
一、引言
日前,生物技術(shù)的發(fā)展使得海量生物數(shù)據(jù)不斷產(chǎn)生,隨著大量數(shù)據(jù)的出現(xiàn),生物計(jì)算對運(yùn)算速度、數(shù)據(jù)處理、數(shù)據(jù)存儲、計(jì)算成本等各方面的不同需求也越來越強(qiáng)烈。
生物信息學(xué)(Bioinformatics)是在生命科學(xué)研究中,主要通過研發(fā)并應(yīng)用計(jì)算機(jī)技術(shù)、統(tǒng)計(jì)與數(shù)學(xué)方法,對海量生物數(shù)據(jù)進(jìn)行存儲、管理、檢索、分析、建模,從而解決生物學(xué)問題,發(fā)現(xiàn)新的生物學(xué)規(guī)律,以獲得傳統(tǒng)生物學(xué)研究手段無法獲得的創(chuàng)新發(fā)現(xiàn)。它是當(dāng)今生命科學(xué)的重大前沿領(lǐng)域之一,同時(shí)也將是21世紀(jì)自然科學(xué)的核心領(lǐng)域之一。而隨著云計(jì)算、大數(shù)據(jù)兩個(gè)強(qiáng)大技術(shù)背景的出現(xiàn),生物信息學(xué)必將在生命科學(xué)領(lǐng)域研究中能給予更大的支持和引領(lǐng)作用。因此,如何將以上重要的技術(shù)運(yùn)用到生物領(lǐng)域的各項(xiàng)研究中,除了對技術(shù)本身的掌握外,重要前提之一就是重視生物信息學(xué)的學(xué)習(xí)和掌握程度。本文將從以下幾個(gè)方面闡述。
二、生命科學(xué)研究過程中產(chǎn)生的數(shù)據(jù)現(xiàn)狀
生命科學(xué)各領(lǐng)域研究過程中產(chǎn)生的數(shù)據(jù)正在急速增長,尤其是2010年以來,隨著新一代測序技術(shù)的發(fā)展,更大數(shù)量級的基因組數(shù)據(jù)產(chǎn)出日漸增加(從GB,TB級到PB,EB級)。生命科學(xué)大數(shù)據(jù)不僅僅來源于高通量的基因組和轉(zhuǎn)錄組測序。大數(shù)據(jù)的產(chǎn)生已從基礎(chǔ)研究、藥物開發(fā)、臨床診療到健康管理的所有環(huán)節(jié),這表明生命科學(xué)研究已進(jìn)入了大數(shù)據(jù)時(shí)代。因此通過對數(shù)據(jù)的挖掘可能會比基礎(chǔ)實(shí)驗(yàn)研究更早的發(fā)現(xiàn)生物學(xué)規(guī)律,從而促進(jìn)生命科學(xué)領(lǐng)域健康快速的發(fā)展。給傳統(tǒng)生物學(xué)帶來了前所未有的機(jī)遇和挑戰(zhàn)。
三、云計(jì)算(Cloud Computing)相關(guān)技術(shù)在生物信息學(xué)的應(yīng)用現(xiàn)狀[1]
生命科學(xué)研究領(lǐng)域的大量研究都是建立在數(shù)據(jù)的基礎(chǔ)上,但這些數(shù)據(jù)散布在上萬個(gè)不同的數(shù)據(jù)庫中,而且存在不同的拷貝。數(shù)據(jù)庫格式種類多,大多數(shù)能夠以扁平結(jié)構(gòu)的文件形式獲得,而且這些數(shù)據(jù)庫與檢索系統(tǒng)相容性很差。數(shù)據(jù)的存儲與分析、處理無法在同一平臺上完成。以上這些問題隨著云技術(shù)的發(fā)展很可能迎刃而解。
1.云存儲在生物信息學(xué)中的應(yīng)用
云計(jì)算系統(tǒng)擁有強(qiáng)大的存儲能力,云計(jì)算采用分布式、冗余存儲存儲數(shù)據(jù),具有很高的可用性、可靠性和經(jīng)濟(jì)性。云計(jì)算的數(shù)據(jù)存儲技術(shù)未來的發(fā)展將集中在超大規(guī)模的數(shù)據(jù)存儲、數(shù)據(jù)加密和安全性保證以及提高I/O速率等方面。這也正是生物信息學(xué)技術(shù)對于未來生物學(xué)數(shù)據(jù)存儲的要求。
2.云計(jì)算的超強(qiáng)計(jì)算能力在生物信息學(xué)中的應(yīng)用
生物信息學(xué)中的數(shù)據(jù)在使用前必須要進(jìn)行大量地分析與整合,因此對于硬件的運(yùn)算能力提出很高的要求。云計(jì)算通過一定的協(xié)調(diào)調(diào)度策略,通過數(shù)萬乃至百萬的普通計(jì)算機(jī)之間的聯(lián)合來提供超強(qiáng)的、可與超級計(jì)算機(jī)相抗衡的計(jì)算能力,使用戶完成單臺計(jì)算機(jī)根本無法完成的任務(wù)。
3.云搜索在生物信息學(xué)中的應(yīng)用
目前,生物信息學(xué)研究中使用的數(shù)據(jù)庫技術(shù)都不能很好的與現(xiàn)有的搜索技術(shù)兼容,因此數(shù)據(jù)的搜索,尤其是在海量數(shù)據(jù)中進(jìn)行數(shù)據(jù)的搜索成為一個(gè)主要的問題。云搜索是基于云計(jì)算技術(shù)的一種搜索引擎,與傳統(tǒng)的搜索軟件不同,云搜索是在‘云”中,通過用戶在互聯(lián)網(wǎng)上提交的查詢請求,云計(jì)算模式將調(diào)用云中的成千上萬臺計(jì)算機(jī)同時(shí)搜索眾多數(shù)據(jù)庫及網(wǎng)絡(luò)資源,并運(yùn)用各種不同的方法盡可能地提供完備的搜索結(jié)果。
4.基于云計(jì)算技術(shù)的編程模型在生物信息學(xué)中的應(yīng)用
云計(jì)算技術(shù)可以將軟件加載在“云”上,用戶可以不必使用自己的終端來安裝軟件,只需直接利用互聯(lián)網(wǎng)上現(xiàn)有的軟件來完成生物數(shù)據(jù)的分析與研究。這樣可以大大減弱運(yùn)行軟件對于用戶終端硬件的配置要求,同時(shí)對于一些付費(fèi)軟件業(yè)可以在低成本的情況下使用。另外,云計(jì)算技術(shù)能夠讓用戶更輕松的享受服務(wù),允許用戶利用云技術(shù)提供的編程模型編寫簡單的程序來實(shí)現(xiàn)特定的目的。
四、大數(shù)據(jù)(Big Data)相關(guān)技術(shù)在生物信息學(xué)的應(yīng)用現(xiàn)狀
大數(shù)據(jù)技術(shù)主要指從各種類型的數(shù)據(jù)中快速獲得有價(jià)值信息的技術(shù),其處理技術(shù)包括:大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲及管理、大數(shù)據(jù)分析及挖掘、大數(shù)據(jù)展現(xiàn)和應(yīng)用等。
1.超大容量的生物數(shù)據(jù)庫
現(xiàn)有生物大型通用數(shù)據(jù)庫包括美國NCBI的GenBank、歐洲的EBI、日本的DDBJ等。針對于某些特定數(shù)據(jù)或研究對象的數(shù)據(jù)庫如Uni-Prot(蛋白數(shù)據(jù)庫)、MG-RAST(微生物數(shù)據(jù)庫)也正在快速發(fā)展。這些都是從事生物信息數(shù)據(jù)的管理、匯聚、分析、發(fā)布等工作的大型數(shù)據(jù)庫[2]。
2.高性能計(jì)算(High Performance Calculation,HPC)
生物大數(shù)據(jù)的規(guī)模和計(jì)算強(qiáng)度已經(jīng)遠(yuǎn)超過了我們個(gè)人電腦所能處理的范圍[3]。目前比較流行的快速高效計(jì)算方法有并行計(jì)算和GPU計(jì)算。并行計(jì)算(Parallel Computing),即一個(gè)任務(wù)分配給多條流水線路或多個(gè)處理器來完成。并行計(jì)算可以充分調(diào)用可用于計(jì)算的資源。在生物信息學(xué)中典型的應(yīng)用就是分子對接計(jì)算[4]。GPU具有很高的數(shù)據(jù)計(jì)算效率[5],單個(gè)GPU芯片中可以集成上千個(gè)處理器,具有極其強(qiáng)大的浮點(diǎn)數(shù)運(yùn)算能力。同時(shí),使用CUDA編程技術(shù)可以很好的解決復(fù)雜計(jì)算問題。生物研究領(lǐng)域的計(jì)算具有數(shù)據(jù)量大、計(jì)算度復(fù)雜、要求精度高的特點(diǎn),生物研究領(lǐng)域的大數(shù)據(jù)處理將是GPU計(jì)算的最佳用武之地[6]。
3.數(shù)據(jù)挖掘
數(shù)據(jù)挖掘又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(knowledge discovery in database,KDD),是對大量觀察到的數(shù)據(jù)進(jìn)行收集、分析和提取,從中發(fā)現(xiàn)事先未知的聯(lián)系和規(guī)律,進(jìn)而形成知識[7]。時(shí)至今日,面對海量的數(shù)據(jù)已無法采用人工的方式來完成。數(shù)據(jù)挖掘和知識發(fā)現(xiàn)是生物信息學(xué)在生物領(lǐng)域研究的主要任務(wù)[8]。目前數(shù)據(jù)挖掘技術(shù)已被應(yīng)用于基因芯片分析、DNA序列比對、真核基因表達(dá)、RNA轉(zhuǎn)錄、生物文獻(xiàn)的挖掘以及生物數(shù)據(jù)的可視化研究領(lǐng)域等。
4.催生新的科研模式
生物信息與網(wǎng)絡(luò)有類似的體系結(jié)構(gòu),例如研究對象由堿基A、T、G、C序列組成,與計(jì)算機(jī)的元數(shù)據(jù)0、1序列數(shù)據(jù)相類似,基因組學(xué)的網(wǎng)絡(luò)環(huán)境與計(jì)算機(jī)網(wǎng)絡(luò)的層次結(jié)構(gòu)十分類似。從理論上講這兩者有一定的同構(gòu)基礎(chǔ)。海量數(shù)據(jù)的出現(xiàn)催生出新的科研模式,即面對海量數(shù)據(jù),科研人員只需從數(shù)據(jù)中直接查找或挖掘所需要的信息,無需直接接觸需研究的對象,這給生物信息的研究帶來了新的思路,如對人類認(rèn)識疾病的發(fā)病過程、疾病的抵抗性研究將帶來新思路、個(gè)人基因組以及個(gè)性化醫(yī)療等等。
五、結(jié)語
鑒于生物信息學(xué)學(xué)科的特殊性,它是多學(xué)科之間的交叉領(lǐng)域,如想真正掌握并運(yùn)用好此門學(xué)科,需要充分認(rèn)識到生物大數(shù)據(jù)帶來的機(jī)遇和挑戰(zhàn);必須有扎實(shí)的計(jì)算機(jī)、數(shù)學(xué)、統(tǒng)計(jì)學(xué)等學(xué)科基礎(chǔ);思考適應(yīng)該學(xué)科的最佳教學(xué)方式等。這就需要對生物專業(yè)培養(yǎng)方案中生物信息學(xué)學(xué)科教育的重新審視。
生物信息學(xué)被譽(yù)為解讀“生命天書的慧眼”[9]。早期DNA、RNA和蛋白質(zhì)一級序列的相關(guān)研究促成了生物信息學(xué)的誕生和快速發(fā)展,如今基于以上兩個(gè)強(qiáng)大技術(shù)的支持,生物信息學(xué)必將迎來第二次騰飛。
參考文獻(xiàn):
[1]魏霖靜陳蕾.云計(jì)算技術(shù)在生物信息學(xué)中的應(yīng)用[J].信息與電腦122-123,2014.09.
[2]寧康,陳挺.生物醫(yī)學(xué)大數(shù)據(jù)的現(xiàn)狀與展望[J].科學(xué)通報(bào)2015,60(5-6)534-546.
[3]Boyle J.Biology must develop its own big-datansystems[J].Nature,2013,499:7.
[4] Dudley JT,Butte AJ.A quick guide for developing effective bioinformatics programming skills[J].PLos Comput Biol,2009,5:e1000589.
[5] Li JY,Zhao DS,Wang YM.GPU computing and its application in biomedical reserch[J].Mil Med Sci,2011,35:634-636.
[6]胡瑞峰.大數(shù)據(jù)時(shí)代下生物信息技術(shù)在生物醫(yī)藥領(lǐng)域的應(yīng)用前景[J].藥學(xué)學(xué)報(bào)2014,49(11):1512-1519.
[7] Gong ZL,Chen Y,Su Y,et al.Application of data mining in biomedical data analysis[J].J Shanghai Jiaotong Univ(Med Sci),2010,30:1420-1423.
[8] Howe D,Costanzo M,F(xiàn)ey P,et al.Big data:the future of biocuration[J].Nature,2008,455:47-50.
[9] Hu YG,Xu WB.Application of data mining in bioinformatics[J].China J Bioinform,2004,3:40-42.