韓俊偉 智慧 王宏 徐良德
(哈爾濱醫(yī)科大學生物信息科學與技術學院 黑龍江哈爾濱 150086)
R語言由來自新西蘭奧克蘭大學的Ross Ihaka和Robert Gentleman教授聯(lián)合開發(fā)的計算機語言,主要用于數(shù)學建模、統(tǒng)計計算、數(shù)據(jù)處理、可視化等幾個主要方向。R語言屬于GNU系統(tǒng)的一個自由、免費、源代碼開放的面向對象的軟件,擁有UNIX、LINUX、MacOS和WINDOWS版本。R語言的另一個重要的應用是自由開發(fā)性。用戶可以根據(jù)需要自由編寫R功能包(package),供使用者免費下載。隨著新一代測序技術和計算機技術的進步,生物信息取得了極大進步,為識別人類復雜疾病的治病靶點,闡明復雜疾病的發(fā)病機制成為可能。為了更好地推動生物信息技術的進步,準確地使用數(shù)據(jù)工具來處理海量的生物信息數(shù)據(jù),Gnumeric開發(fā)者和R開發(fā)者合作開發(fā)了Bioconductor計劃。Bioconductor的產生推動了計算生物學及生物信息學的發(fā)展。目前,生物信息實驗課程中任然以一些陳舊軟件的使用來指導學生,極大地制約了學生的主觀能動性,不利于學生科研實踐能力的發(fā)展。因此,如何將R語言的方法與技術應用于生物信息的教學實踐對于提高實驗課的教學質量具有重要意義。本文通過R語言在實際生物學數(shù)據(jù)中的應用,通過案例分析的方式為生物信息專業(yè)的研究者和師生提供有益的借鑒。
隨著新一代測序技術和計算機技術的進步,產生了大量的生物學數(shù)據(jù)。為了對數(shù)據(jù)有初步的了解和掌握,需要對數(shù)據(jù)進行必要匯總統(tǒng)計:如計算均值,方差,中位數(shù),百分位數(shù),極差等統(tǒng)計量。R語言的內嵌函數(shù)(mean(),var(),median()等)可以方便、快捷的對數(shù)據(jù)匯總統(tǒng)計,掌握數(shù)據(jù)的數(shù)字特征。
基因芯片技術的應用主要包括基因表達檢測、突變檢測、基因組多態(tài)性分析等方面。如何方便高效地將基因芯片探針I(yè)D中所包含的信息提取出來,得到基因的表達值,探索基因功能,獲取基因相關的生物學注釋是處理基因芯片數(shù)據(jù)的關鍵。Bioconductor中包含了多個大型的基因芯片注釋包:“hgu133a”,“hgu133plus2”,“hgu95av2”等。這些注釋包提供了芯片探針I(yè)D與基因的對應關系,在染色體上的位置信息,功能注釋信息等,為我們掌握基因的序列信息,基因功能 以及基因本體論提供幫助。
在生物信息中,一個基礎的應用是通過識別差異表達基因來尋找疾病風險標記物,為藥物開發(fā)和探索疾病的發(fā)病機理提供幫助。目前,R語言可以幫助使用者計算在疾病和正常狀態(tài)下基因的倍數(shù)變化(Fold Change),從而找到在生物學方面表達上調或下調基因。同時,我們可以利用R語言的內嵌函數(shù)t.test() 實現(xiàn)t檢驗,找出在統(tǒng)計學方面的差異表達基因。用戶只需要輸入標準化的帶有正常和疾病類標簽的表達芯片數(shù)據(jù),通過該函數(shù)就可以得出t統(tǒng)計量以及統(tǒng)計顯著性水平。
聚類屬于非監(jiān)督機器學習方法,是一種探索性數(shù)據(jù)分析方法,其目的是把相似的事物劃分到若干“自然”的類別中?;蛐酒垲惙治鍪且曰蜷g的相似程度為基礎,或者說以基因間的距離為基礎,將表達相似的基因聚在一起,從而探索同類中基因的功能相似性與一致性。目前,有多個R的內嵌函數(shù)和Bioconductor的系列分析包提供了聚類算法。如利用歐式距離和平均類間距類對基因表達數(shù)據(jù)進行系統(tǒng)的層次聚類分析函數(shù)hclust();利用相關系數(shù)作為基因距離的K均值聚類算法函數(shù)kmeans();實現(xiàn)各種層次聚類算法,并對結果繪制聚類熱圖的R包 “ALL”。這些函數(shù)和R包實現(xiàn)了生物芯片數(shù)據(jù)的聚類分析。
生物學網絡分析是生物信息學研究的一個重點和難點內容。生物學網絡包括基因-基因共表達網絡,蛋白質-蛋白質互作網絡,基因-基因功能網絡等。如何在生物學網絡中探索有用的價值和信息對提高人們對基因功能的理解和掌握至關重要。Bioconductor 提供許多網絡分析軟件包“graph”、“RBGL”、“Rgraphviz”,這些軟件包可以靈活對生物學網絡構建、分析、以及可視化。隨著生物數(shù)據(jù)的擴增,生物網絡數(shù)據(jù)不斷增大,為了適應大網絡數(shù)據(jù)分析,產生了“igraph”包。與R語言中同類包相比,它的速度更快,而且函數(shù)命令與圖形展現(xiàn)更為豐富。它可以處理有向網絡和無向網絡,并可以提供各種網絡分析方法:度、介數(shù)、最短路徑、子網挖掘等。
插圖是科學研究中對結果展示常用的重要輔助手段。如何能將科研成果用直觀,清晰的圖像展現(xiàn)出來對提升科研的認知度至關重要。R語言提供了強大圖像繪制功能。首先,R語言低級繪圖命令如:points(),lines(),box()等可以幫助用戶繪制一些基本的點圖,線圖,盒裝圖等基本圖像。其次,R語言高級繪圖函數(shù)如:plot(),pie(),hist()可以繪制各種二維圖,餅圖,直方圖等。同時,R語言作圖包提供各種用戶需要的圖形繪制。
R語言操作簡單,方便靈活,適用于各種操作系統(tǒng)。它的免費性與開源性為廣大使用者提供了方便。R語言目前已經在生物信息的使用中越來越廣泛。我們希望通過具體的案例分析闡明R語言在生物信息研究中的重要應用,為生物信息科研工作者提供參考,為生物信息的實踐教學提供有益的借鑒。