陳鵬
摘 要
隨著現(xiàn)代計算機(jī)信息技術(shù)的快速發(fā)展,生物信息學(xué)與計算機(jī)技術(shù)的結(jié)合度也越來越高,在生物信息學(xué)的數(shù)據(jù)庫中就很好地應(yīng)用了計算機(jī)信息技術(shù),而數(shù)據(jù)庫的建立與完善對生物信息學(xué)的發(fā)展也具有重要的作用,本文中主要對數(shù)據(jù)庫的應(yīng)用進(jìn)行分析。
【關(guān)鍵詞】生物信息學(xué) 數(shù)據(jù)庫 應(yīng)用
現(xiàn)代社會是一個信息化的社會,人們每天進(jìn)行各種信息的交流愈加頻繁,在這個信息化的時代,計算機(jī)以及信息技術(shù)為人們信息的交流提供了重要的工具。生物信息學(xué)數(shù)據(jù)庫的建設(shè)與應(yīng)用就是利用了現(xiàn)代的計算機(jī)信息技術(shù)對生物信息進(jìn)行存儲、檢索與分析。
1 生物信息學(xué)數(shù)據(jù)庫
生物信息學(xué)是建立在應(yīng)用數(shù)學(xué)、計算機(jī)科學(xué)以及生命科學(xué)等多學(xué)科基礎(chǔ)之上的交叉學(xué)科,這門學(xué)科的主要任務(wù)就是探究如何高效地獲取生物學(xué)信息,對信息進(jìn)行處理與分析,存儲信息以及應(yīng)用生物學(xué)信息。數(shù)據(jù)庫技術(shù)主要解決了將世界海量的生物學(xué)數(shù)據(jù)、已有的研究成果以及技術(shù)信息等收納并存儲在數(shù)據(jù)庫中,這樣可以大大方便人們的生物研究與信息的查詢與借鑒。
2 數(shù)據(jù)庫的分類與特點(diǎn)
生物信息學(xué)數(shù)據(jù)庫中的數(shù)據(jù)種類極為多樣,其數(shù)據(jù)庫中的信息覆蓋面也極為廣泛,數(shù)據(jù)信息很全面;數(shù)據(jù)庫的信息更新速度快,信息的內(nèi)容更新的也很豐富;數(shù)據(jù)庫的規(guī)模在不斷地擴(kuò)大,數(shù)據(jù)庫的復(fù)雜性也在不斷增加;在使用上更加地網(wǎng)絡(luò)化、便捷化。
2.1 一級數(shù)據(jù)庫(一次數(shù)據(jù)庫)
在生物信息學(xué)數(shù)據(jù)庫中的一級數(shù)據(jù)庫主要包括了核酸和蛋白質(zhì)一級結(jié)構(gòu)序列數(shù)據(jù)庫,基因組數(shù)據(jù)庫以及生物大分子(主要為蛋白質(zhì))的三維空間結(jié)構(gòu)數(shù)據(jù)庫,通常稱為基本數(shù)據(jù)庫。一級數(shù)據(jù)庫的明顯優(yōu)勢就是在這個數(shù)據(jù)庫中數(shù)據(jù)的信息量很大,海量信息存儲在數(shù)據(jù)庫中并且數(shù)據(jù)每天都在增加,數(shù)據(jù)的信息也會及時更新并且更新速度很快,一級數(shù)據(jù)庫的用戶量也很多并且用戶面也很廣泛。因此以及數(shù)據(jù)庫的建立是需要性能高的、磁盤的容量很大的并且擁有專門的數(shù)據(jù)庫信息管理系統(tǒng)的計算機(jī)作為載體來支撐這些功能的完成。另外,數(shù)據(jù)信息還需要一些大型的商業(yè)軟件作為數(shù)據(jù)管理的支撐。例如,在我國的生物信息學(xué)研究所中使用的是Oracle數(shù)據(jù)庫系統(tǒng),這種軟件管理系統(tǒng)可以較好地將數(shù)據(jù)進(jìn)行管理與分類。研究所中針對基因組的數(shù)據(jù)庫進(jìn)行管理以及運(yùn)行則主要是基于Sybase數(shù)據(jù)庫系統(tǒng)來完成的。
2.2 二級數(shù)據(jù)庫
所謂的二級數(shù)據(jù)庫主要是以一級數(shù)據(jù)庫以及文獻(xiàn)資料為基礎(chǔ)建立起來的數(shù)據(jù)庫,也稱專業(yè)數(shù)據(jù)庫。二級數(shù)據(jù)庫相較于一級數(shù)據(jù)庫,其數(shù)據(jù)信息的容量也小得多,數(shù)據(jù)信息的更新速度也相對要慢一些。二級數(shù)據(jù)庫不需要大型的商業(yè)軟件來支撐數(shù)據(jù)庫的管理,可以直接使用一些基本的瀏覽器,如web瀏覽器。二級數(shù)據(jù)庫有很多種類,例如,基于核酸數(shù)據(jù)庫建立的二級數(shù)據(jù)庫中有真核基因順式調(diào)控元件和反式作用因子數(shù)據(jù)庫的TransFac數(shù)據(jù)庫,以及真核基因啟動子數(shù)據(jù)庫EPD,密碼子使用表數(shù)據(jù)庫CUTG等?;谌S空間結(jié)構(gòu)為基礎(chǔ)構(gòu)建的數(shù)據(jù)庫有蛋白質(zhì)二級結(jié)構(gòu)構(gòu)象參數(shù)數(shù)據(jù)庫DSSP,已知空間結(jié)構(gòu)的蛋白質(zhì)家族數(shù)據(jù)庫FSSP等。
3 生物信息學(xué)數(shù)據(jù)庫的應(yīng)用
3.1 序列的比較
所謂的序列的比較主要是指將兩個序列中的各個元素放在一起然后按照對應(yīng)等同的關(guān)系對元素進(jìn)行有關(guān)的排列。對于兩個序列中共有的那些排列順序表示的是這兩個序列的相似程度是較高的,是對序列的一種較為定性的描述。對于最優(yōu)的排列主要是反應(yīng)在這兩個序列中的最大相似程度以及最少相異處,現(xiàn)在較為普遍尋找最優(yōu)排列的方法是通過動態(tài)的規(guī)劃算法來尋找最優(yōu)序列。一般來說,對于一個新的序列以及數(shù)據(jù)庫中的某個序列的比較是可以在非常短的時間內(nèi)就可以比較出來的,但是由于基因數(shù)據(jù)庫中的數(shù)據(jù)極為繁多,因此在這個序列中的比較會相對花費(fèi)較長的時間才可以比較出來,尤其是逐個對比的時候,所需要的時間更長。所以,現(xiàn)在對于基因數(shù)據(jù)庫中的序列的比較主要是使用搜索計較算法來進(jìn)行序列的比較。另外,關(guān)于序列的搜索主要是有兩種使用較為普遍的使用程序,一個是BLASR程序,另外一個是FASTA程序,這兩個程序在實踐應(yīng)用中是比較成功的,其可以根據(jù)給定的序列,然后在基因數(shù)據(jù)庫中快速地找出一些同源的序列,進(jìn)而提高搜素與比較的速度。例如,在BLASR這個程序中主要使用的是一種對于序列的數(shù)據(jù)進(jìn)行局部的對比與分析,這可以較快找出一些同源的序列,然后進(jìn)行比較找出較優(yōu)的序列,因為這種程序可以較快提高比較速度,軟件的使用性能也不錯,因而在實踐中應(yīng)用度較廣。
3.2 數(shù)據(jù)挖掘技術(shù)
隨著生物信息學(xué)的數(shù)據(jù)庫的數(shù)據(jù)在飛速增長,怎樣在海量的信息中提取出用戶需要的信息成為一個問題的關(guān)鍵,也是在生物技術(shù)信息數(shù)據(jù)庫的應(yīng)用中需要解決的一個問題。另外,如何在已有的數(shù)據(jù)信息中以及從基因數(shù)據(jù)庫中識別出編碼的蛋白質(zhì)的基因,如何對識別的基因進(jìn)行多種信息的表達(dá)與控制,如何解讀出生物的遺傳密碼,分析出蛋白質(zhì)的相關(guān)結(jié)構(gòu)以及功能等都是需要面對以及解決的問題,也在當(dāng)下生物信息學(xué)數(shù)據(jù)庫中面臨著的比較棘手的困難。針對上述問題,在實踐應(yīng)用中比較常用的是一種數(shù)據(jù)的挖掘技術(shù)。這種信息挖掘技術(shù)可以高效地從數(shù)據(jù)庫的海量信息中挖掘出有效的信息或者生物知識。這種數(shù)據(jù)挖掘的技術(shù)主要就是從數(shù)據(jù)庫中這些海量的信息、隨機(jī)的信息數(shù)據(jù)中提取出一些人們以前不知道的但確實是有用的信息來提供給用戶使用。用戶通過這種技術(shù)可以高效地找出自己需要的信息與知識,因此這種技術(shù)具有很強(qiáng)的應(yīng)用性,值得推廣與應(yīng)用。
4 結(jié)束語
關(guān)于生物信息學(xué)數(shù)據(jù)庫以及應(yīng)用方面還有很多需要探究的方面,本文主要是對其進(jìn)行了一些簡單的介紹,并沒有很詳細(xì)的延展開來,需要在今后繼續(xù)分析與研究。但可以肯定的是很多的生物技術(shù)的研究都是需要數(shù)據(jù)庫的支撐來促進(jìn)世界生物技術(shù)的發(fā)展與進(jìn)步。
參考文獻(xiàn)
[1]趙屹,谷瑞升,杜生明.生物信息學(xué)研究現(xiàn)狀及發(fā)展趨勢[J].醫(yī)學(xué)信息學(xué)雜志.2012,33(5):2-6.
[2]孫清鵬,賈棟,萬善霞.生物信息學(xué)應(yīng)用教程[M].北京:中國林業(yè)出版社.2012:23-56.
作者單位
重慶醫(yī)科大學(xué) 重慶市 400016endprint