羅鑫 李明明
摘要:為解決當前林業(yè)生物信息學領域面臨的儲存成本高、數(shù)據(jù)量大、分析技術門檻高等問題,嘗試提出了一種基于林業(yè)大數(shù)據(jù)的生物信息云平臺構(gòu)建方案,首先對研究現(xiàn)狀進行初步概括,然后給出了林業(yè)生物信息云平臺的基本架構(gòu),最后系統(tǒng)分析了林業(yè)生物信息云平臺的設計要點,以供業(yè)內(nèi)人士參考與借鑒。
關鍵詞:生物信息;云平臺;林業(yè)大數(shù)據(jù)
中圖分類號:TP311
文獻標識碼:A?文章編號:1674-9944(2020)14-0206-02
1?引言
國內(nèi)有關研究人員基于對當前生物信息學領域云計算服務的分析與研究,從服務特點著手對其進行分類,生成包括數(shù)據(jù)服務軟件服務、平臺服務、以及基礎設施服務這4個方面的類別[1]。生物信息云從上述4個方面著手,面向用戶提供海量數(shù)據(jù)獲取、存儲以及分析功能支持。同時,還有研究人員圍繞生物信息學領域?qū)υ朴嬎慵夹g的應用問題展開了探索與研究,認為當前生物信息云平臺建設過程當中首要解決的問題即如何適應生物信息云平臺發(fā)展需求,構(gòu)建基于數(shù)據(jù)以及軟件的云儲存方案,并與數(shù)據(jù)壓縮、P2P等相關技術相融合,滿足海量大數(shù)據(jù)傳輸需求,形成與云平臺相適宜的輕量型編程環(huán)境,提高云平臺的開放性特征。
2?林業(yè)生物信息云平臺架構(gòu)
云計算作為一種全新的計算模式,可以提供便捷、按需以及可用性的網(wǎng)絡訪問服務,引導用戶進入可配置的計算資源共享環(huán)境中,根據(jù)用戶實際需求提供包括網(wǎng)絡、儲存、服務器、應用軟件以及軟件服務等在內(nèi)的一系列資源支持[2,3]。尤其在當前技術條件支持下,生物信息領域高通量測序技術進一步發(fā)展,帶動生物信息學進入組學時代,隨著組學測序技術的深入應用,生物信息海量數(shù)據(jù)生成,亟待通過對云計算技術的應用來解決其儲存以及分析方面面臨的問題。在此過程中需要特別注意的一點是,在當前生物信息領域基因組測序技術迅猛發(fā)展的背景下,生物產(chǎn)業(yè)面向計算機計算以及存儲功能的需求呈現(xiàn)出指數(shù)級的增長趨勢,尤其對于林業(yè)數(shù)據(jù)而言,海量林業(yè)數(shù)據(jù)的生成迫切需要構(gòu)建一套基于大數(shù)據(jù)的生物信息云平臺系統(tǒng),來適應其對儲存能力以及計算能力的增長速度。在這一背景下,基于林業(yè)大數(shù)據(jù)的生物信息云平臺應運而生,其典型架構(gòu)如圖1所示。
3?林業(yè)生物信息云平臺設計
3.1?信息數(shù)據(jù)收集清洗
林業(yè)生物信息源數(shù)據(jù)以國際數(shù)據(jù)庫公開數(shù)據(jù)信息為依據(jù),由于數(shù)據(jù)庫更新升級間隔時間較短,因此需要實現(xiàn)面向林業(yè)生物信息云平臺的源數(shù)據(jù)自動獲取功能。此過程中嘗試搭載網(wǎng)頁解析技術,自動調(diào)節(jié)程序獲取與“林業(yè)”關鍵詞相關的序列數(shù)據(jù)、基因功能蛋白數(shù)據(jù)以及結(jié)構(gòu)數(shù)據(jù)[4,5]。與傳統(tǒng)應用環(huán)境所不同的是,在林業(yè)大數(shù)據(jù)計算環(huán)境下,生物信息云平臺源數(shù)據(jù)自動獲取后還需要對其進行轉(zhuǎn)換以及清洗處理,以生成可以面向大數(shù)據(jù)計算環(huán)境所服務的業(yè)務數(shù)據(jù)格式。
3.2?大數(shù)據(jù)服務構(gòu)建
考慮到林業(yè)領域研究中常涉及到的問題,可以對林業(yè)生物信息數(shù)據(jù)進行分類,第一類為基因組,第二類為轉(zhuǎn)錄組,第三類為基因功能組,第四類為蛋白結(jié)構(gòu)組,第五類為零散數(shù)據(jù)組[6]。在林業(yè)大數(shù)據(jù)平臺環(huán)境支持下,大數(shù)據(jù)存儲技術需要考慮全類型數(shù)據(jù)儲存以及計算多樣化的實際需求,選用中低端儲存設備,在分布式文件系統(tǒng)基礎之上構(gòu)建各類數(shù)據(jù)庫作為支持,以滿足大數(shù)據(jù)存儲效率高以及成本低的要求。在技術實現(xiàn)的過程當中,選用基于Hadoop大數(shù)據(jù)集成平臺Cloudera技術實現(xiàn),數(shù)據(jù)庫系統(tǒng)選用Oracle系統(tǒng)。
3.3?硬件資源服務構(gòu)建
用戶通過租用云計算平臺下所配置相關虛擬主機的方式,滿足對計算、存儲等相關硬件設備的控制需求,構(gòu)建后續(xù)實際問題分析所需的計算環(huán)境[7]。對于生物信息云平臺而言,可以將海量的生物信息學工具以虛擬鏡像的格式打包并面向用戶所租用云計算虛擬主機所服務,支持數(shù)據(jù)分析功能的實現(xiàn)。以CloVR為例,其面向用戶提供租用虛擬主機包含有預配置以及自動的生物信息學流程,同時支持在云計算平臺以及本地計算機上的運行,虛擬機運行建立在BioLinu以及Ubuntu系統(tǒng)基礎之上,并通過安裝Hadoop以及Grid Engine的方式滿足作業(yè)調(diào)度功能的實現(xiàn)。
3.4?分析環(huán)境服務構(gòu)建
在基于林業(yè)大數(shù)據(jù)的生物信息云平臺中,面向生物信息的分析環(huán)境由兩個部分組成,第一是生物信息學軟件支持庫,第二是生物信息開發(fā)語言環(huán)境[8]。目前,在生物信息云平臺系統(tǒng)構(gòu)建中,常涉及到的系統(tǒng)開發(fā)語言模式包括JAVA、C++以及python等,上述系統(tǒng)開發(fā)語言模式均有與之相配套的生物信息學開發(fā)庫,如C++開發(fā)語言模式與Bioperl開發(fā)庫所對應,JAVA開發(fā)語言模式與Biojava開發(fā)庫所對應。需要特別注意的一點是,為了方便后續(xù)對海量林業(yè)數(shù)據(jù)進行統(tǒng)計分析,可以嘗試在云平臺上安裝具有R語言結(jié)構(gòu)模式的生物信息學數(shù)據(jù)庫。基于Cloudman的數(shù)據(jù)處理格式將軟件工具以鏡像方式打包,并支持直接在AWS平臺上的應用。
3.5?分析軟件服務構(gòu)建
目前技術條件支持下,絕大部分基于生物信息學分析軟件都是通過自主開發(fā)的方式實現(xiàn),所涉及到的生物信息學工具,如BLAST、UCSC等,可以搭載瀏覽器實現(xiàn)登陸,并對相關服務進行應用,即分析軟件服務[9]。這些服務多由軟件工具的開發(fā)方所提供,在實際應用中表現(xiàn)出了較差的可伸縮性,需要通過并行計算以及分布式計算的方式對其進行完善,以優(yōu)化軟件服務效果。
4?數(shù)據(jù)應用
用戶通過所構(gòu)建基于林業(yè)大數(shù)據(jù)生物信息云平臺的方式,不但能夠獲取與該區(qū)域林業(yè)相關數(shù)據(jù)資源,還能夠參考業(yè)務需求,利用生物信息云平臺所提供決策分析工具,獲取專題服務信息[10]。以防災減災專題數(shù)據(jù)庫為例,圖2給出了有害生物專題在數(shù)據(jù)平臺決策分析中的應用結(jié)果?;趫D2,用戶可以直接獲取相應區(qū)域范圍內(nèi)林業(yè)有害生物的類型、數(shù)量以及空間分布特征等相關數(shù)據(jù),為后續(xù)決策以及其他工作的開展提供參考。除此以外,基于生物信息云平臺所提供的海量數(shù)據(jù)庫,還可以搭載預測模型對未來林業(yè)生態(tài)整體發(fā)展趨勢與走向進行可靠預測,如有關樹種分布的預測,并結(jié)合當?shù)貧庀髷?shù)據(jù)、人口活動情況以及交通運輸數(shù)據(jù),對各個區(qū)域災害發(fā)生的分布情況進行可靠預測,掌握空間分布特征,同樣能夠為后續(xù)決策以及相關工作的開展提供參考意見。
5?結(jié)語
生物信息云平臺建設具有所涉及到的數(shù)據(jù)類型眾多、生物物種海量、數(shù)據(jù)分析呈現(xiàn)出多樣化的特點,導致工程量大且成本高,是一項長期且系統(tǒng)性的工程,必須引起業(yè)內(nèi)人士的高度關注與重視。本文著眼于林業(yè)生物信息大數(shù)據(jù),構(gòu)建了專用林業(yè)生物信息云平臺,并就信息數(shù)據(jù)收集清洗、大數(shù)據(jù)服務構(gòu)建、硬件資源服務構(gòu)建、分析環(huán)境服務構(gòu)建以及分析軟件服務構(gòu)建這幾個方面的內(nèi)容進行分析與探討,能夠面向林業(yè)生物學研究提供生物信息學數(shù)據(jù)平臺服務與支持,幫助林業(yè)研究人員突破計算機硬件平臺以及軟件分析存在的局限性,實現(xiàn)數(shù)據(jù)全面共享,并且方便對林學問題的深入研究,對提升林業(yè)研究作業(yè)效率意義重大。
參考文獻:
[1]孫燕飛.基于云平臺的雙向聚類算法在生物信息領域中的應用[J].科技通報,2013,29(4):143~145.
[2]楊?方,陳曉冬,楊?蕊, 等.基于vSphere技術的農(nóng)業(yè)科研云平臺研究和構(gòu)建[J].山西農(nóng)業(yè)科學,2017,45(11):1863~1866.
[3]謝?江,王旻超,易榮貴, 等.CPSE-Bio:基于云計算的生物問題求解環(huán)境[J].上海大學學報(自然科學版),2013,19(1):21~25.
[4]查貴庭,羅國富.南京農(nóng)業(yè)大學著力打造生物信息學計算與云服務共享平臺[J].中國教育網(wǎng)絡,2015(10):34~36.
[5]董?峰,周鵬旭.面向云計算平臺的多層免疫入侵檢測模型[J].計算機工程與應用,2016,52(21):101~104,174.
[6]田?燕,張新剛,梁晶晶, 等.基于身份認證和訪問控制的云安全管理平臺[J].測控技術,2013,32(2):97~99,103.
[7]王維秋,劉春麗,馬鳳毛,等.“互聯(lián)網(wǎng)+”時代高校智慧黨建云平臺構(gòu)建探究[J].錦州醫(yī)科大學學報(社會科學版),2019,17(5):1~5.
[8]李春梅,譚靖,李瑩.“浙”里的林業(yè)有“智慧”——浙江創(chuàng)新探索林業(yè)云平臺業(yè)務整合共享[J].信息化建設,2019,7(7):53~54.
[9]趙友杰,曹?涌,熊?飛.基于林業(yè)大數(shù)據(jù)的生物信息云平臺的構(gòu)建研究[J].電腦知識與技術,2018,14(1):23~25.
[10]黎?曦,黃海虹,張新耐,等.基于造林綠化工程的林業(yè)信息平臺構(gòu)建[J].科技視界,2017,5(5):100,118.