褚皓
摘要:本文重點介紹了生物信息學和數(shù)據(jù)挖掘技術的基本概念,以及生物信息學的一些主要研究方向。同時也舉例了一些數(shù)據(jù)挖掘技術在生物信息學領域的具體應用,強調了如今數(shù)據(jù)挖掘技術在生物信息學領域中存在部分不足以及未來廣闊的應用前景。
關鍵詞:數(shù)據(jù)挖掘;生物信息學;數(shù)據(jù)挖掘工具;生物學數(shù)據(jù)庫
中圖分類號:TP399? ?文獻標識碼:A? ? 文章編號:1007-9416(2018)10-0000-00
1 引言
近年來,基因組學和蛋白質組學的快速發(fā)展積累了大量的生物數(shù)據(jù),為揭開生命神秘的面紗提供了良好的數(shù)據(jù)基礎。生物信息學,或計算生物學,是用信息技術和計算機科學來解釋生物數(shù)據(jù)的跨學科科學,它是伴隨基因組研究而產生的,其研究內容也緊隨著基因組研究而發(fā)展。
如今,在生物信息學領域中最受關注的一個方向就是應用和開發(fā)數(shù)據(jù)挖掘技術來解決生物問題,其中包括蛋白質結構預測、基因分類、基于微陣列數(shù)據(jù)的癌癥分類、基因表達數(shù)據(jù)的聚類以及蛋白質相互作用的統(tǒng)計建模等。由此可見,數(shù)據(jù)挖掘在生物信息領域前景廣闊。
2 生物信息學
生物信息學(Bioinformatics)是生命科學、計算機科學、信息科學和數(shù)學等學科交匯融合所形成的一門交叉學科[1]。生物信息學這個術語是由保利恩·霍格威格在1979年為研究生物系統(tǒng)中的信息過程而創(chuàng)造的。它自上世紀80年代末后大量應用于基因組學和遺傳學領域,尤其是涉及到高通量DNA測序的基因組學領域。
生物信息學也可以定義為計算機技術在生物信息管理中的應用,它是從生物序列和生物分子中提取、存儲、組織、分析、解釋和利用信息的科學。在過去的幾十年中,得益于DNA測序技術和生物繪圖技術的進步以及基因組技術和電子信息技術的高速發(fā)展結合在一起產生了大量與分子生物學相關的數(shù)據(jù)信息。生物信息學的主要目標是通過對這些信息的分析挖掘增加對生物過程的理解。
生物信息學研究的一些重要領域包括:
2.1 序列分析
序列分析是生物信息學的基礎,主要通過應用計算機對DNA序列或多肽序列進行序列比對、序列數(shù)據(jù)庫和重復序列搜索等操作,研究生物序列在醫(yī)學分析和基因組定位過程中相似的位點以及不同的位點。
2.2 基因組注釋
基因組注釋在生物信息學中指通過計算的手段來為基因組中的基因或其他生物元素進行標注[3]。第一個基因組注釋軟件系統(tǒng)是由Owen White博士在1995年設計的。
2.3 基因表達分析
基因的表達水平可以通過運用各種技術測量mRNA表達水平的方式來確定,比如采用微陣列技術,cDNA表達序列標簽測序(EST),基因表達系列分析(SAGE),大規(guī)模并行測序(MPSS),或各種復合原位雜交法等。以上所有技術都有著良好的抗噪性,且不受生物測量誤差影響。這一領域還涉及到需要開發(fā)相應統(tǒng)計工具以分離并移除高通量基因表達研究所產出信號值中的噪音。
2.4 蛋白質表達分析
基因表達的測量方法有很多,包括mRNA表達和蛋白表達。由于蛋白質是細胞活動的最終催化劑,但蛋白表達水平是確定實際基因表達水平的最佳線索之一。蛋白質微陣列和高通量質譜(MS)可以提供生物樣品中蛋白質的快照圖像信號。生物信息學在蛋白質微陣列和高通量質譜研究中起著重要的作用。
2.5 癌癥突變分析
受癌癥影響的細胞的基因組往往以復雜乃至不可預測的方式排列,因此大量的測序工作被用來對此前未知的癌癥基因的點突變進行識別。生物信息學家一直在開發(fā)專業(yè)的自動軟件系統(tǒng),以處理高通量測序產出的海量序列數(shù)據(jù)。他們不斷運用新開發(fā)出的算法和軟件,將測序結果與不斷完善的人類基因組序列和多態(tài)序列進行比對。同時,新的物理檢測技術,比如利用寡核苷酸微陣列技術來識別染色體的增益和損耗,以及利用單核苷酸多態(tài)性陣列來檢測已知的點突變等,在腫瘤研究中的復發(fā)病變基因序列分析中也得到了廣泛的應用。
2.6 蛋白質結構預測
蛋白質的氨基酸序列(又稱為初級結構)可以通過編碼該蛋白質的基因序列來確定。一般情況下,蛋白質初級結構決定了其原生環(huán)境中的結構。因此,深入了解這種結構對于理解蛋白質的內在功能至關重要。在蛋白質初級結構之上還有二級結構、三級結構和四級結構。蛋白質結構預測也是藥物設計和新型酶設計的重要內容。
2.7 比較基因組學
比較基因組學是研究不同的物種間基因組結構和功能的關系的學科?;虬l(fā)現(xiàn)是比較基因組學的一個重要應用,主要應用于發(fā)現(xiàn)基因組中新的非編碼功能元素。蛋白質、RNA以及不同物種調控區(qū)域間差異也是比較基因組學的主要研究方向。近年來,隨著生物信息學的快速發(fā)展,基因組比較算法研究在計算機科學領域也非常流行。
2.8 生物系統(tǒng)建模
生物系統(tǒng)建模是系統(tǒng)生物學和數(shù)學生學的重要組成部分。研究人員開發(fā)和運用高效的算法、數(shù)據(jù)結構以及可視化工具,將海量生物數(shù)據(jù)進行集成化處理,以便于最后應用于計算機建模作業(yè)。這涉及到了使用計算機模擬生物系統(tǒng),比如代謝產物與酶的網(wǎng)絡、信號轉導通路和基因調控網(wǎng)絡之類的細胞子系統(tǒng),以觀察和分析這些細胞過程之間的復雜關系。近年來,通過計算機模擬簡單生命形式逐漸成為生物學家理解生物進化過程的一種重要嘗試。
2.9 高通量圖像分析
如今,得益于計算機技術的發(fā)展,大量的生物醫(yī)學圖像數(shù)據(jù)得以在短時間內被自動處理、量化和分析?,F(xiàn)代圖像分析系統(tǒng)加強了研究人員觀測大型復雜圖像的能力。一個完善的分析系統(tǒng)甚至可以完全獨立運行。生物醫(yī)學成像技術對于診斷和研究已經(jīng)變得越來越重要并已在實際案例中得到應用,比如臨床圖像分析與可視化、DNA圖譜中的克隆重疊推斷、生物圖像信息學等。
2.10 蛋白質對接
在過去的二十年中,數(shù)以萬記的蛋白質三維結構已通過x射線晶體學和蛋白質核磁共振波譜(蛋白質NMR)技術得到確定。因此,生物學家們如今面臨的一個核心問題是不通過具體的生物學實驗,而僅僅基于這些三維結構來預測蛋白質間的相互作用是否可行。
3 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中提取或“挖掘”知識,是在大量數(shù)據(jù)中發(fā)現(xiàn)新的模式和關系的科學。它被定義為通過挖掘存儲在數(shù)據(jù)倉庫中的大量數(shù)據(jù)以發(fā)現(xiàn)有意義的新關聯(lián)、新模式和新趨勢的過程。數(shù)據(jù)挖掘有時也被稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KDD)。數(shù)據(jù)挖掘并不專屬于某一個學科門類,而是多學科交叉,相關學科包括數(shù)據(jù)庫、統(tǒng)計學、機器學習、領域知識等[2]。
對于生物信息學來說,數(shù)據(jù)挖掘理論非常適用,雖然高通量測序會產出大量的生物數(shù)據(jù),但是在生物個體的分子水平上仍缺少一個完整的數(shù)據(jù)理論體系。同時,龐大的生物信息數(shù)據(jù)庫也為知識發(fā)現(xiàn)理論的發(fā)展帶來了機遇和挑戰(zhàn)。在生物領域進行數(shù)據(jù)挖掘有助于從生物學和其他相關生命科學領域(如醫(yī)學和神經(jīng)科學等)產出的海量數(shù)據(jù)中提取有用的知識,或在相關領域取得突破。
在處理實際問題時,數(shù)據(jù)挖掘的主要目標其實就是描述和預測。數(shù)據(jù)挖掘的主要任務,包括如從數(shù)據(jù)中發(fā)掘出一些新的模式和細節(jié)的步驟,如下所列:
分類:分類是將一個數(shù)據(jù)項映射(分類)到某個預定義的類中。
估計:根據(jù)提供的數(shù)據(jù)為一些未知的連續(xù)變量估出的值。
預測:與分類和估計類似,根據(jù)一些事物未來行為或未來的估值進行分類。
關聯(lián)規(guī)則:確定哪些工作可以同時進行,也被稱為依賴建模。
聚類:將一個總體分成若干組或群。
可視化:運用可視化技術描述數(shù)據(jù)。
數(shù)據(jù)學習可以分為兩類:定向(“監(jiān)督”)和無定向(“無監(jiān)督”)學習。前三個任務——分類、估計和預測——是監(jiān)督學習的例子。后面三個任務——關聯(lián)規(guī)則、聚類和可視化——是無監(jiān)督學習的例子。監(jiān)督學習的目標是在所有變量之間建立關系,并從中發(fā)掘新的模型。
由于數(shù)據(jù)發(fā)掘和只是發(fā)現(xiàn)在現(xiàn)代生物學中的巨大作用,新的數(shù)據(jù)發(fā)掘工具的研發(fā)是如今最熱門的課題之一。
4 數(shù)據(jù)挖掘在生物信息學中的應用
數(shù)據(jù)挖掘在生物信息學中的應用包括基因發(fā)現(xiàn)、蛋白功能域檢測、功能基序檢測、蛋白功能推斷、疾病診斷、疾病預后、疾病治療優(yōu)化、蛋白與基因交互網(wǎng)絡重構、數(shù)據(jù)清理、蛋白質亞細胞定位預測等。
例如,微陣列技術經(jīng)常用于疾病診斷。根據(jù)癌癥患者基因型的微陣列數(shù)據(jù)可以預估患者的生存期,以及腫瘤轉移或復發(fā)的風險。機器學習能夠通過質譜技術用于多肽的識別。串聯(lián)質譜中片段離子之間相關性的研究對于通過數(shù)據(jù)庫搜索以減少多肽識別的隨機錯配至關重要。因此,現(xiàn)在急需一種對相關性信息的進行綜合高效評分的數(shù)據(jù)挖掘算法。
5 結語
在生物信息學領域中,數(shù)據(jù)挖掘仍然受到生物數(shù)據(jù)庫本身大小、數(shù)量、多樣性、數(shù)據(jù)質量、數(shù)據(jù)來源以及生物本體樣本缺失等各方面的限制。隨著基因組研究的進展與現(xiàn)代生物技術的發(fā)展,如何將眾多的數(shù)據(jù)挖掘技術應用于生物信息分析是當前研究的熱點,包括適合生物信息處理的數(shù)據(jù)挖掘體系架構、算法的開發(fā)、新的數(shù)據(jù)挖掘分析功能研究等[4]。數(shù)據(jù)挖掘技術與生物信息學的緊密結合會得到更多更有意義的挖掘結果,對人類社會的進步起到積極的作用。
參考文獻
[1]Luscombe NM,Greenbaum D, Gerstein M. What is bioinformatics? A proposed definition and overview of the field. Methods information in Medicine,2001,40(4):346-58
[2]王星,等.大數(shù)據(jù)分析:方法與應用[M].北京:清華大學出版社,2013:13
[3]梁艷春,張琛,等.生物信息學中的數(shù)據(jù)挖掘方法及應用[M].北京:科學出版社,2011:12.
[4]李佳,江濤.生物信息數(shù)據(jù)挖掘應用研究[J].中國科技信息,2009,(20):42-43
Application of data mining in bioinformatics
CHU Hao
(Beijing Capitalbio Technology, Beijing? 102600)
Abstract:This article highlights some of the basic concepts of bioinformatics and data mining and some of the major research areas of bioinformatics. The main application of data mining in the domain of bioinformatics is explained as well. It also emphasizes some of the current shortcomings and promising opportunities in future of data mining in bioinformatics.
Key Word: Data mining, Bioinformatics, Data mining tool, biology database