陳 銘
(浙江大學(xué) 生命科學(xué)學(xué)院,生物信息學(xué)系,杭州 310058)
生物信息學(xué)是應(yīng)用數(shù)學(xué)、信息學(xué)、統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)的方法研究生物學(xué)問題的學(xué)科。近年來,科學(xué)技術(shù)的進(jìn)步極大地增強(qiáng)了我們獲取生物學(xué)數(shù)據(jù)的能力,生物信息學(xué)也跨過后基因組時(shí)代[1],邁入大數(shù)據(jù)時(shí)代[2]。類型、內(nèi)容、復(fù)雜度不斷增加的生物學(xué)數(shù)據(jù)迫使生物信息學(xué)研究人員思考如何有效整合這些數(shù)據(jù),用以研究復(fù)雜度更甚的生命系統(tǒng)運(yùn)作機(jī)制。本文將針對(duì)大數(shù)據(jù)時(shí)代的整合生物信息學(xué),從數(shù)據(jù)、方法、系統(tǒng)等不同層面進(jìn)行梳理和探討。
生物信息學(xué)的發(fā)展伴隨著傳統(tǒng)生物學(xué)數(shù)據(jù)(如物種基礎(chǔ)數(shù)據(jù)、生理生化、性狀遺傳、環(huán)境資料等等)以及各類組學(xué)數(shù)據(jù)(如基因組、轉(zhuǎn)錄組、蛋白組、代謝組、表觀組、表型組等等)的不斷積累。這些數(shù)據(jù)不斷被存放到相關(guān)的數(shù)據(jù)庫(kù)中。目前已有數(shù)以萬(wàn)計(jì)的生物信息學(xué)數(shù)據(jù)庫(kù)針對(duì)不同研究對(duì)象、領(lǐng)域方向整合了相應(yīng)的原始/第二手?jǐn)?shù)據(jù)。國(guó)際學(xué)術(shù)期刊《核酸研究》(Nucleic Acids Research)每年推出數(shù)據(jù)庫(kù)專輯對(duì)當(dāng)年新發(fā)表的較有影響力的生物信息學(xué)數(shù)據(jù)庫(kù)進(jìn)行收集整理;此外,Database、Bioinformatics等期刊也專門刊登生物信息數(shù)據(jù)庫(kù)相關(guān)論文。整理過的生物學(xué)數(shù)據(jù)大多可以通過文獻(xiàn)查閱與數(shù)據(jù)庫(kù)檢索挖掘?qū)崿F(xiàn)數(shù)據(jù)的收集和整合。生物信息學(xué)領(lǐng)域主要的數(shù)據(jù)庫(kù)和工具見圖1。
圖1 主要生物信息學(xué)數(shù)據(jù)庫(kù)、工具(根據(jù)DaTo的統(tǒng)計(jì)分析結(jié)果提供,http://bis.zju.edu.cn/dato/)Fig.1 Main bioinformatics databases and tools (according to the statistical results of DaTo:http://bis.zju.edu.cn/dato/)
除了傳統(tǒng)的核酸序列數(shù)據(jù)庫(kù)以外,其他各類較有影響力的數(shù)據(jù)庫(kù)數(shù)據(jù)量也在不斷增加,如GWAS atlas[3]總結(jié)了47 565個(gè)項(xiàng)目的數(shù)據(jù);KEGG[4]收集的參考Pathway maps數(shù)量已達(dá)826 189;TCGA[5]數(shù)據(jù)庫(kù)已產(chǎn)出了超過2.5 PB的基因組、表觀基因組、轉(zhuǎn)錄組和蛋白組數(shù)據(jù),大大提高了對(duì)腫瘤診斷、治療以及預(yù)防的能力;ENCODE[6]收錄了19 180種生物樣本。我國(guó)的NONCODE[7]收錄的動(dòng)植物lncRNA轉(zhuǎn)錄本數(shù)量已分別達(dá)549 813和94 697。
以三大傳統(tǒng)核酸序列數(shù)據(jù)庫(kù)(NCBI的GenBank[8]、EMBL-EBI的ENA[9]以及DDBJ[10])為代表的生物信息學(xué)數(shù)據(jù)庫(kù)還在繼續(xù)擴(kuò)張中(見圖2)。
圖2 主要生物信息學(xué)數(shù)據(jù)庫(kù)的數(shù)據(jù)統(tǒng)計(jì)(2021-09-18)Fig.2 Data statistics of main bioinformatics databases(2021-09-18)
雖然我國(guó)的生物信息學(xué)數(shù)據(jù)庫(kù)建設(shè)一開始落后于西方國(guó)家,但從2017年開始,我國(guó)每年的數(shù)據(jù)庫(kù)發(fā)表數(shù)量(以論文計(jì))已超越美國(guó),位居全球第一。深圳華大生命科學(xué)研究院(原深圳華大基因研究院)于2011年承建的國(guó)家基因庫(kù)(CNGB)目前已收錄超過5PB的測(cè)序數(shù)據(jù)[11];北京基因組所于2015年建立了國(guó)內(nèi)首個(gè)組學(xué)原始數(shù)據(jù)匯交、存儲(chǔ)、管理與共享系統(tǒng)GSA(Genome Sequence Archive),目前數(shù)據(jù)量已突破10PB[12]。令人鼓舞的是,在2019年,由中國(guó)科學(xué)院北京基因組研究所(國(guó)家生物信息中心)作為依托單位,聯(lián)合中國(guó)科學(xué)院生物物理研究所和中國(guó)科學(xué)院上海營(yíng)養(yǎng)與健康研究所共同建設(shè)成立了國(guó)家基因組科學(xué)數(shù)據(jù)中心(NGDC),開啟了我國(guó)國(guó)家級(jí)生物信息學(xué)科學(xué)數(shù)據(jù)匯聚與共享的發(fā)展征程。
隨著生物信息學(xué)邁入大數(shù)據(jù)時(shí)代,飛速增長(zhǎng)的生物學(xué)數(shù)據(jù)已遠(yuǎn)遠(yuǎn)超出了傳統(tǒng)生物信息學(xué)方法的能力范圍,生物組學(xué)大數(shù)據(jù)的數(shù)據(jù)挖掘與整合分析已成為當(dāng)前生物信息學(xué)研究的新挑戰(zhàn)。
生物信息學(xué)的產(chǎn)生主要是人類基因組計(jì)劃帶來的海量序列數(shù)據(jù)的結(jié)果,可見生物信息學(xué)依賴于生物學(xué)的發(fā)展,也受制于生物學(xué)研究所能產(chǎn)生的數(shù)據(jù)類型。生物信息學(xué)進(jìn)入大數(shù)據(jù)時(shí)代后,生物學(xué)數(shù)據(jù)多模態(tài)的特性愈發(fā)突出。不同平臺(tái)和類型的生物學(xué)數(shù)據(jù)的產(chǎn)生與積累涉及到數(shù)據(jù)的儲(chǔ)存讀寫問題,數(shù)據(jù)保存在文件或記錄中的規(guī)則不同就導(dǎo)致了不同的數(shù)據(jù)格式。主要的生物學(xué)數(shù)據(jù)類型及格式包括:文本型定性數(shù)據(jù)(如純文本數(shù)據(jù)UTF-8,ASCII(.txt)、特定格式的序列相關(guān)文檔格式(見表1)、XML格式(.xml、.dtd)、HTML格式(.htm、.html、.xhtml)、JSON(JavaScript Object Notation)格式等);表格型定量數(shù)據(jù)(如制表符分隔的文件(.tab、.tsv)、電子表格Excel文件(.xls、.xlsx)、逗號(hào)分隔文件(.csv)等);圖形圖像數(shù)據(jù)(如光柵格式圖像:tiff、png、jpeg、dng、bmp、gif等;矢量格式:SVG可縮放矢量圖形、AutoCAD繪圖交換格式、封裝的PostScript、Adobe可移植文檔格式等;制圖數(shù)據(jù)geotiff、geopdf、geojpeg2000、shapefile、netcdf等;地理信息系統(tǒng)屬性數(shù)據(jù)格式(.mdb)、mapinfo交換格式(.mif)等);數(shù)字音頻數(shù)據(jù)(如免費(fèi)無損音頻編解碼器FLAC、波形音頻格式WAV、音頻交換文件格式AIFF、MPEG音頻層3等);數(shù)字視頻數(shù)據(jù)(如MPEG-4、MOV、AVI、MXF等);以及各種實(shí)驗(yàn)測(cè)試觀察數(shù)據(jù),如光譜數(shù)據(jù)等表示輪廓以及峰位和強(qiáng)度的圖JCAMP格式、測(cè)序原始數(shù)據(jù)(見表1)、芯片原始數(shù)據(jù)CEL格式、結(jié)構(gòu)測(cè)定格式(.hkl、.sca、.mtz、.pdb)等。如何有效挖掘與整合分析這些不同類型的數(shù)據(jù),進(jìn)而實(shí)現(xiàn)生物信息學(xué)的理論與應(yīng)用研究,是整合生物信息學(xué)面臨的主要問題之一。
表1 序列文件格式Table 1 File formats ofr sequences
相較于傳統(tǒng)生物學(xué)數(shù)據(jù)(如物種基礎(chǔ)數(shù)據(jù)、生理生化、性狀遺傳、環(huán)境資料等),組學(xué)數(shù)據(jù)特有的大數(shù)據(jù)量、多尺度、高維度、異質(zhì)性等特征給整合生物信息學(xué)分析帶來了很大的挑戰(zhàn)。譬如,由于測(cè)量技術(shù)限制,組學(xué)數(shù)據(jù)往往存在一定程度的“缺陷”(誤差、缺失),必須利用數(shù)學(xué)、計(jì)算科學(xué)的方法處理。在生物數(shù)據(jù)整合過程中,需要將由不同來源的數(shù)據(jù)合并成一致的形式,因而會(huì)面臨實(shí)體識(shí)別問題(Entity Identification Problem)和數(shù)據(jù)去冗余問題[13]。大量的組學(xué)數(shù)據(jù)還帶來了存儲(chǔ)與數(shù)據(jù)壓縮問題,如文本型格式適用于單個(gè)或少量個(gè)體的基因組,但對(duì)大量個(gè)體基因組進(jìn)行研究時(shí),文本型格式需要的存儲(chǔ)空間是海量的,因而需要改進(jìn)存儲(chǔ)方式,常見的方法是生成參考基因組并以SNP的形式存儲(chǔ)個(gè)體基因組。
生物信息學(xué)的發(fā)展一直伴隨著數(shù)據(jù)標(biāo)準(zhǔn)的提出與應(yīng)用。以Hadoop文件格式標(biāo)準(zhǔn)為例,其包含文本文件、序列文件、基于行的格式、AVRO數(shù)據(jù)文件(數(shù)據(jù)定義以JSON格式存儲(chǔ),數(shù)據(jù)以二進(jìn)制格式存儲(chǔ),最大限度地減小文件大小和提高效率)和拼花文件格式(數(shù)據(jù)按列存儲(chǔ))以及優(yōu)化的行列(ORC)。JSON是一種簡(jiǎn)單的文件格式,可以被大多數(shù)編程語(yǔ)言簡(jiǎn)單地讀取和處理;XML是一種被廣泛應(yīng)用于數(shù)據(jù)交換的格式,具有保留原始數(shù)據(jù)結(jié)構(gòu)和文件構(gòu)建方式的功能,并允許開發(fā)人員在不干擾數(shù)據(jù)讀取的情況下使用數(shù)據(jù)編寫部分文檔。相較于XML格式,JSON格式在網(wǎng)絡(luò)傳輸上帶來了更大的便利,但可讀性和查詢速度要遜色于XML格式,較長(zhǎng)的JSON格式文件會(huì)帶來繁瑣復(fù)雜的數(shù)據(jù)節(jié)點(diǎn)查找問題。關(guān)系數(shù)據(jù)格式(RDF)是知識(shí)圖譜(Knowledge Graph)、語(yǔ)義網(wǎng)絡(luò)(Semantic Network)、本體庫(kù)(Ontology)數(shù)據(jù)的描述形式,描述了實(shí)體、屬性、關(guān)系等,是文件形式的知識(shí)庫(kù)存儲(chǔ)方式。RDF數(shù)據(jù)可以存儲(chǔ)在XML和JSON,以及其他序列化的數(shù)據(jù)結(jié)構(gòu)中。
組學(xué)數(shù)據(jù)的標(biāo)準(zhǔn)也隨著技術(shù)進(jìn)步不斷改進(jìn)。以基因表達(dá)數(shù)據(jù)為例,基因芯片時(shí)期的數(shù)據(jù)標(biāo)注標(biāo)準(zhǔn)MIAME[14](Minimum Information about a Microarray Experiment)規(guī)定了微陣列實(shí)驗(yàn)六個(gè)部分的信息描述,為基因表達(dá)數(shù)據(jù)庫(kù)和公共倉(cāng)庫(kù)的建立,數(shù)據(jù)分析工具的開發(fā)建立基礎(chǔ)。而對(duì)于測(cè)序數(shù)據(jù),則有ENCODE[6]制定了數(shù)據(jù)標(biāo)準(zhǔn)化的分析方案和指南(https://www.encodeproject.org/data-standards/),提供了信息描述、實(shí)驗(yàn)指南、統(tǒng)一分析處理要求以及各種分析類型的質(zhì)量指標(biāo)應(yīng)用等。
在系統(tǒng)生物學(xué)方面,SBML[15](Systems Biology Markup Language)已被越來越多的生物網(wǎng)絡(luò)建模工具接受。BioModels數(shù)據(jù)庫(kù)(https://www.ebi.ac.uk/biomodels/)收集了大量生物網(wǎng)絡(luò)模型,基本上支持了SBML、CellML、Matlab等格式。而除了生物反應(yīng)網(wǎng)絡(luò)數(shù)據(jù)標(biāo)準(zhǔn)化交換格式外,SBGN(Systems Biology Graphical Notation)也致力于提供支持SBML的網(wǎng)絡(luò)圖像表示的可視化標(biāo)準(zhǔn)。
然而,上述標(biāo)準(zhǔn)仍不能單獨(dú)覆蓋所有生物數(shù)據(jù)實(shí)體,因此當(dāng)前急需一個(gè)全面的標(biāo)準(zhǔn)化命名體系,用于統(tǒng)一命名方式。
與其他學(xué)科一樣,生物信息學(xué)也是一門尋找規(guī)律的學(xué)科,許多生物信息學(xué)研究可以歸結(jié)為通過數(shù)據(jù)分析尋找相似與差異(“同與不同”),并建立預(yù)測(cè)模型的過程。統(tǒng)計(jì)學(xué)習(xí)(Statistical Learning)和機(jī)器學(xué)習(xí)(Machine Learning)是兩類較為常見的模型構(gòu)建方法,可用于序列比較和模式識(shí)別、表達(dá)譜聚類和生物標(biāo)志物識(shí)別、生物網(wǎng)絡(luò)的關(guān)聯(lián)分析、醫(yī)學(xué)圖像自動(dòng)識(shí)別及分子分型、人群隊(duì)列疾病預(yù)測(cè)等問題[16]。嚴(yán)格來說,統(tǒng)計(jì)學(xué)習(xí)是統(tǒng)計(jì)學(xué)的子領(lǐng)域,而機(jī)器學(xué)習(xí)則是人工智能的子領(lǐng)域,統(tǒng)計(jì)學(xué)習(xí)強(qiáng)調(diào)模型及其可解釋性,精度和不確定性;機(jī)器學(xué)習(xí)強(qiáng)調(diào)大規(guī)模應(yīng)用和預(yù)測(cè)準(zhǔn)確性。然而,這種區(qū)別正變得越來越模糊,許多生物信息學(xué)方法已經(jīng)兼具兩者特征。
由于生物大數(shù)據(jù)具有多模態(tài)、高維度的特點(diǎn),在生物大數(shù)據(jù)中尋找相似與差異(“同與不同”)的方法不盡相同,而且常常會(huì)出現(xiàn)假陽(yáng)性、假陰性的結(jié)果。差異分析除了直接的比較(生物學(xué)功能為依據(jù))外,還有各種統(tǒng)計(jì)比較分析(p-value為依據(jù)),通過觀察樣本是否落在設(shè)定的各種統(tǒng)計(jì)分布區(qū)間判斷其是否為異常值。預(yù)測(cè)模型的目標(biāo)是找出實(shí)際數(shù)據(jù)與它們所屬的類別之間的關(guān)系,當(dāng)類別未知時(shí),往往可使用無監(jiān)督學(xué)習(xí)算法,讓算法自行發(fā)現(xiàn)數(shù)據(jù)中的構(gòu)成模式。此類研究可歸結(jié)為降維(Dimension Reduction)、聚類(Clustering)、分類(Classification)、回歸(Regression)四大問題。
由于生物學(xué)大數(shù)據(jù),特別是組學(xué)數(shù)據(jù)特征數(shù)量龐大,如轉(zhuǎn)錄組測(cè)序數(shù)據(jù)基因數(shù)量可以萬(wàn)計(jì),生物學(xué)大數(shù)據(jù)的維度非常高,其中包含了大量的冗余和噪聲,對(duì)數(shù)據(jù)進(jìn)行直接計(jì)算和存儲(chǔ)所消耗的資源極為龐大,因此非常有必要對(duì)數(shù)據(jù)進(jìn)行降維操作。降維算法可以去除數(shù)據(jù)中存在的冗余信息和噪聲,抽取出最能代表數(shù)據(jù)分布的特征,可以在一定程度上提高學(xué)習(xí)算法的準(zhǔn)確性和數(shù)據(jù)的可理解性。將其數(shù)據(jù)降至為二維或三維還有助于對(duì)數(shù)據(jù)進(jìn)行可視化,以便于直觀發(fā)現(xiàn)數(shù)據(jù)間存在的關(guān)系。常用的降維方法包括有基于特征選取的:缺少值比率(Missing Value Ratio)、低方差過濾器(Low Variance Filter)、高相關(guān)濾波器(High Correlation Filter)、隨機(jī)森林(Random Forest)、后向特征消除(Backward Feature Elimination)和前向特征選擇(Forward Feature Selection);基于組分因素的:因素分析(Factor Analysis)、主成分分析(Principal Component Analysis)、獨(dú)立分量分析(Independent Component Analysis);依據(jù)基于映射(Projection)的:等距映射ISOMAP(Isometric Mapping)、t-SNE(t-distributed Stochastic Neighbor Embedding)和UMAP(Uniform Manifold Approximation and Projection)等。其中,主成分分析通過識(shí)別一組具有最大方差和相互不相關(guān)的特征的線性組合來生成低維表示的數(shù)據(jù)集,有助于理解變量在無監(jiān)督環(huán)境下的潛在的相互作用。
生物信息學(xué)邁入大數(shù)據(jù)時(shí)代所帶來的一個(gè)突出問題就是高昂的數(shù)據(jù)標(biāo)注成本,對(duì)所有數(shù)據(jù)集進(jìn)行人工標(biāo)注的想法在龐大數(shù)據(jù)量的沖擊下變得不切實(shí)際[17]。因此,聚類由于其無需標(biāo)注的特性得到了廣泛的研究和應(yīng)用。簡(jiǎn)而言之,聚類就是按數(shù)據(jù)內(nèi)在的相似性將未標(biāo)注的數(shù)據(jù)集劃分為多個(gè)類別,使類別內(nèi)的數(shù)據(jù)相似度較大而類別間的數(shù)據(jù)相似度較小的操作。聚類是無監(jiān)督學(xué)習(xí)的分類方式。常見的聚類算法包括(1)劃分聚類:K-means算法、K-medoids算法、K-pototypes算法、CLARANS算法;(2)層次聚類:BIRCH算法、CURE算法;(3)密度聚類:DBSCAN算法、OPTICS算法、DENCLUE算法;(4)網(wǎng)格聚類:STING算法、CLIQUE算法、WAVE-CLUSTER算法;(5)混合聚類:GMM(高斯混合模型)、CLIQUE(綜合密度和網(wǎng)格的算法);(6)其他:如SOM神經(jīng)網(wǎng)絡(luò)模型聚類、FCM模糊聚類等。其中,K-means聚類根據(jù)聚類中心點(diǎn)的距離將數(shù)據(jù)分為k個(gè)不同的聚簇,層次聚類則是通過創(chuàng)建一棵聚類樹來構(gòu)建多級(jí)分層結(jié)構(gòu)。
與聚類不同,分類屬于監(jiān)督學(xué)習(xí)的范疇,即根據(jù)一些給定的已知類別的樣本(有標(biāo)簽數(shù)據(jù)),使計(jì)算機(jī)能夠?qū)ξ粗悇e的樣本進(jìn)行分類。分類要求必須事先明確知道各類別的信息,是一種對(duì)離散型隨機(jī)變量建?;蝾A(yù)測(cè)的監(jiān)督學(xué)習(xí)算法。常用的分類算法包括:決策樹分類法;基于規(guī)則的分類器;樸素的貝葉斯分類算法(Naive Bayesian Classifier);基于支持向量機(jī)(Support Vector Machine,SVM)的分類器;神經(jīng)網(wǎng)絡(luò)法;k-最鄰近法(K-Nearest Neighbor,KNN);模糊分類法。
與分類相似,回歸也是監(jiān)督學(xué)習(xí)的一種算法,但回歸方法是一種對(duì)數(shù)值型連續(xù)隨機(jī)變量進(jìn)行預(yù)測(cè)和建模的監(jiān)督學(xué)習(xí)算法,產(chǎn)生的結(jié)果一般也是數(shù)值型的。回歸任務(wù)的特點(diǎn)是標(biāo)注的數(shù)據(jù)集具有數(shù)值型的目標(biāo)變量。每一個(gè)觀察樣本都有一個(gè)數(shù)值型的標(biāo)注真值以監(jiān)督算法。常用的回歸算法有:線性回歸、回歸樹(包括隨機(jī)森林(RF)或梯度提升樹(GBDT))、深度學(xué)習(xí)(特殊的非線性回歸分析方法)、最近鄰算法等。
基于統(tǒng)計(jì)比較的相關(guān)性分析(Correlation Analysis)已大量地被用來判斷兩個(gè)或多個(gè)變量(基因、蛋白等)是否相關(guān),進(jìn)而確定它們的相關(guān)性正負(fù)和強(qiáng)弱(見圖3)。根據(jù)變量的數(shù)據(jù)類型不同(如連續(xù)變量、二分類變量、無序分類變量和有序分類變量),采用的統(tǒng)計(jì)檢驗(yàn)分析方法也不同。相關(guān)性不等于因果性,需要判斷區(qū)分自變量和因變量,有關(guān)因果關(guān)系的研究也是生物信息學(xué)建模的重要內(nèi)容[18]。
圖3 生物信息學(xué)相關(guān)性關(guān)系網(wǎng)絡(luò)建立示意圖(陳迪俊博士提供[20])Fig.3 Schematic diagram of correlation networks construction in bioinformatics(provided by Dr.CHEN Dijun[20])
在生物數(shù)據(jù)的統(tǒng)計(jì)分析中,統(tǒng)計(jì)學(xué)顯著性與生物學(xué)顯著性的差異是另一個(gè)值得關(guān)注的問題。如在篩選差異表達(dá)基因列表時(shí),純粹用p值(p-value)往往不如用倍數(shù)法(fold-change)加上非嚴(yán)格的p值得到的結(jié)果可重復(fù)性強(qiáng);p值強(qiáng)調(diào)限制假陽(yáng)性,而生物學(xué)研究更側(cè)重假陰性;從生物學(xué)角度看,潛在的基因可能具有低p值。另外,統(tǒng)計(jì)學(xué)結(jié)果時(shí)常會(huì)被濫用,忽視樣本偏差就是一個(gè)常見的問題,只有當(dāng)樣本可以代表總體時(shí),統(tǒng)計(jì)結(jié)果才是可信、精確的。預(yù)防統(tǒng)計(jì)濫用要使用合適的圖表、規(guī)避偏差。柱狀統(tǒng)計(jì)圖可能是最容易使用、最容易理解的圖表,但許多人忽視其中的平均數(shù)(如均值、中位數(shù)、眾數(shù))、偏差、誤差等[19]。
在生物信息學(xué)領(lǐng)域,針對(duì)特定問題的算法并非只有一種,而是十分多樣化,因而相應(yīng)的工具也十分多樣化,如針對(duì)植物蛋白亞細(xì)胞定位的預(yù)測(cè)工具多達(dá)上百個(gè)。具體在從事生物學(xué)數(shù)據(jù)分析處理、建模預(yù)測(cè)等工作中,應(yīng)根據(jù)自己的需求選擇適合的方法和工具,整合多種方法對(duì)特定問題進(jìn)行分析,而不建議依賴使用一種方法去完成。比如在單細(xì)胞組學(xué)研究中,對(duì)稀有細(xì)胞群體的鑒定是一個(gè)廣受關(guān)注的問題,常規(guī)的細(xì)胞聚類方法常常會(huì)將稀有細(xì)胞群體視為噪聲,而對(duì)邊界值容忍度較強(qiáng)、鑒定稀有細(xì)胞群體效果較好的方法對(duì)于主要細(xì)胞群體的聚類效果往往又不盡人意,因此需要聯(lián)合多種聚類方法進(jìn)行鑒定[21]。
一般來說,每種方法都有其局限性,尤其是對(duì)于特定的研究對(duì)象,一些常規(guī)方法可能并不可靠。因此,整合多種方法進(jìn)行分析是一個(gè)非常自然的想法,如PSI[22]對(duì)植物蛋白質(zhì)的亞細(xì)胞定位進(jìn)行了整合生物信息學(xué)的預(yù)測(cè),整合了10余種方法,其結(jié)果顯著提高了預(yù)測(cè)的準(zhǔn)確性。使用1種、5種、30種方法來模擬評(píng)估AUPR值,發(fā)現(xiàn)整合方法越多,結(jié)果越可信(見圖4)。
圖4 不同數(shù)量方法整合評(píng)估AUPR值(劉麗麗博士提供)Fig.4 Assessment of AUPR value by different numbers of methods(provided by Dr.LIU Lili)
生物信息學(xué)的遠(yuǎn)景是可以基于系統(tǒng)的生物學(xué)數(shù)據(jù),全面自主發(fā)掘生命科學(xué)的規(guī)律。目前生命科學(xué)本身的研究還處于“各自為政、自我突破”(學(xué)科方向?yàn)橹行?的局面(見圖5)。但未來研究的方向已經(jīng)顯現(xiàn),那就是整合各種學(xué)科研究成果,整合各類數(shù)據(jù),從系統(tǒng)角度進(jìn)行研究,這給生物信息學(xué)、系統(tǒng)生物學(xué)帶來的是全新的挑戰(zhàn)[23-24]。需要有其他學(xué)科發(fā)展的新方法,也同時(shí)是生物信息學(xué)本身要考慮解決的問題。
圖5 生物系統(tǒng)各組學(xué)研究?jī)?nèi)容及生物學(xué)科、專業(yè)的概括Fig.5 Research contents of different omics in biological systems and summary of different biological subjects and disciplines
面對(duì)大數(shù)據(jù)時(shí)代的挑戰(zhàn),各種數(shù)學(xué)方法、信息技術(shù)應(yīng)運(yùn)而生(見圖6),我們已進(jìn)入了數(shù)據(jù)密集型科學(xué)發(fā)展階段。不斷增強(qiáng)的數(shù)據(jù)獲取與存儲(chǔ)能力、數(shù)學(xué)建模與計(jì)算能力、人工智能與物聯(lián)網(wǎng)實(shí)時(shí)結(jié)合能力將進(jìn)一步推進(jìn)生命科學(xué)與技術(shù)的變革式發(fā)展。如何整合各種計(jì)算與信息資源,發(fā)掘數(shù)據(jù)背后的生物學(xué)規(guī)律,促進(jìn)相應(yīng)應(yīng)用開發(fā)落地,是生物信息學(xué)領(lǐng)域面臨的另一個(gè)層次的挑戰(zhàn)。
圖6 大數(shù)據(jù)時(shí)代計(jì)算科學(xué)與信息技術(shù)的主要領(lǐng)域Fig.6 Main areas of computer science and information technology in the big data era
由于生物系統(tǒng)的復(fù)雜性,在整合分析過程中,應(yīng)該注意時(shí)空尺度與計(jì)算復(fù)雜度要素(見圖7),還需要注意:(1)全局與局部的關(guān)系:應(yīng)充分考慮總體特征及局部細(xì)節(jié);(2)并列與關(guān)聯(lián)關(guān)系:如編碼與非編碼、表達(dá)網(wǎng)絡(luò)與代謝網(wǎng)絡(luò)等之間的關(guān)系;(3)靜態(tài)與動(dòng)態(tài)的關(guān)系:應(yīng)加強(qiáng)時(shí)間序列動(dòng)態(tài)數(shù)據(jù)的分析;(4)時(shí)空維度的模型;(5)細(xì)胞與個(gè)體、個(gè)體與群體的關(guān)系;(6)算法、軟件與硬件的整合。
圖7 生物系統(tǒng)的時(shí)空復(fù)雜性與計(jì)算速度Fig.7 Spatiotemporal complexity and computation speed of biological systems
作為交叉學(xué)科,生物信息學(xué)的快速發(fā)展得益于其他相關(guān)學(xué)科的不斷發(fā)展與交叉。整合生物信息學(xué)將進(jìn)一步促進(jìn)相關(guān)學(xué)科的深度融合,其發(fā)展更是依賴于擁有整合生物信息學(xué)知識(shí)與技術(shù)背景的人員,關(guān)鍵是人才、是教育。生物信息學(xué)人才培養(yǎng)的需要充分考慮其他學(xué)科的系統(tǒng)理論知識(shí)與技術(shù)的支撐。相關(guān)教材建設(shè)也需要充分考慮其多學(xué)科交叉的特點(diǎn),優(yōu)化整合各方面知識(shí)點(diǎn),突出生物信息學(xué)的學(xué)科特色以及理論與實(shí)踐緊密結(jié)合的特點(diǎn)[25]。另外,還可建立問題驅(qū)動(dòng)和數(shù)據(jù)驅(qū)動(dòng)并重、多學(xué)科聯(lián)動(dòng)的教學(xué)體系,建立基因組、表觀基因組、轉(zhuǎn)錄組、蛋白質(zhì)組、代謝組以及各種表型組的復(fù)雜數(shù)據(jù)分析技術(shù)訓(xùn)練平臺(tái),如用于開發(fā)綜合教育資源,對(duì)研究人員進(jìn)行生物信息學(xué)數(shù)據(jù)分析訓(xùn)練的社區(qū)驅(qū)動(dòng)框架[26]。
整合生物信息學(xué)的科學(xué)研究,其研究范式也可能需要更偏向于整合型、工程化研究,組織整合相關(guān)團(tuán)隊(duì)力量進(jìn)行攻關(guān),類似于現(xiàn)行的國(guó)家重點(diǎn)專項(xiàng)大科學(xué)(工程)計(jì)劃等,但需要更緊密、整合度更高的組織,否則容易出現(xiàn)項(xiàng)目承接后缺少溝通,難以整合研究資源的情況。
生物信息學(xué)伴隨著生命科學(xué)與計(jì)算機(jī)信息技術(shù)的快速發(fā)展而發(fā)展,大量數(shù)據(jù)庫(kù)和軟件工具被開發(fā)出來反饋助力生命科學(xué)的研究與發(fā)展。
生物數(shù)據(jù)庫(kù)并非十全十美,囿于測(cè)量技術(shù)的限制和潛在的操作錯(cuò)誤,數(shù)據(jù)庫(kù)中存在錯(cuò)誤數(shù)據(jù)是幾乎不可避免的。隨著時(shí)間推移,錯(cuò)誤數(shù)據(jù)會(huì)不斷積累,而日益龐大的數(shù)據(jù)量又使得及時(shí)的數(shù)據(jù)校驗(yàn)與更新幾乎成為奢望[27]。對(duì)于數(shù)據(jù)庫(kù)中的錯(cuò)誤數(shù)據(jù),值得注意的是數(shù)據(jù)來源本身可能就存在問題,如組學(xué)數(shù)據(jù)的測(cè)量值往往與實(shí)際值存在較大偏差,許多實(shí)際存在的數(shù)量關(guān)系無法很好地轉(zhuǎn)換到測(cè)序結(jié)果中[28]。另一個(gè)較為典型的例子是,上世紀(jì)六七十年代就有人提出,生物學(xué)研究中可能存在錯(cuò)誤鑒別細(xì)胞系的問題,但未能引起科研工作者足夠警覺,以至于錯(cuò)認(rèn)細(xì)胞系的問題因?yàn)榧?xì)胞系的以誤傳誤,不斷擴(kuò)大對(duì)科研結(jié)果的負(fù)面影響。2017年P(guān)LoS ONE[29]報(bào)道有超過3萬(wàn)篇研究論文錯(cuò)認(rèn)了細(xì)胞系,這些錯(cuò)誤影響的不僅是論文本身的工作,還影響了超過4萬(wàn)篇引用了這些論文的其他工作,以至于近年來發(fā)表相關(guān)論文時(shí)還必須增加對(duì)所用細(xì)胞系的審查鑒定工作,也發(fā)展了許多針對(duì)各類細(xì)胞系的鑒定方法。由于生物信息學(xué)是一門數(shù)據(jù)驅(qū)動(dòng)的學(xué)科,因此確保數(shù)據(jù)的準(zhǔn)確性是十分重要的。
多年來,生物信息學(xué)家針對(duì)各類生物學(xué)問題開發(fā)了許多方法與工具,但僅有其中的一小部分被廣泛使用,這是因?yàn)槭褂谜咄鶡o法比較所有工具,從眾選擇常用工具就成為最穩(wěn)妥的選擇。不斷增長(zhǎng)的使用者數(shù)量促使了常用工具在易用性上的改進(jìn),同時(shí)強(qiáng)化了其權(quán)威性,成為了經(jīng)典。然而,這種馬太效應(yīng)也潛在地阻止更適合、更先進(jìn)的方法被廣泛應(yīng)用。
生命系統(tǒng)的復(fù)雜性迫使我們?cè)谘芯繒r(shí)采用“還原論”(Reductionism),使用一系列假設(shè)簡(jiǎn)化條件?;趭W卡姆剃刀原則,我們的目標(biāo)是在盡可能少的假設(shè)下建模真實(shí)條件中的生命系統(tǒng)。但整合生物信息學(xué)所采用的數(shù)據(jù)往往是在不同條件下,基于不同的技術(shù)手段和假設(shè)獲得的,如何統(tǒng)一這些不同的假設(shè),是整合生物信息學(xué)研究需要著重考慮的問題。
生命科學(xué)是極其復(fù)雜的,探究其規(guī)律,依賴于各種手段去描述它,去測(cè)量它,去模型它,再去預(yù)測(cè)它。首先在于數(shù)據(jù)信息的采集,如同“瞎子摸象”的過程,各類方法,產(chǎn)生了各類數(shù)據(jù),但要注意的是,哪些是全局的特征數(shù)據(jù),哪些是局部的數(shù)據(jù),哪些是常態(tài)的數(shù)據(jù),哪些是特定狀態(tài)的數(shù)據(jù)。即便去描述這些數(shù)據(jù),有時(shí)也是個(gè)問題,所以生物信息學(xué)也需要有手段去可視化這些數(shù)據(jù)。但歸根到底還只是描述這些“測(cè)得的”數(shù)據(jù),代表著只是大象的一部分信息。需要有更多的時(shí)空數(shù)據(jù),或期待有更多的新儀器設(shè)備可以測(cè)到的新數(shù)據(jù),來進(jìn)行整合拼圖。
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)的重要性和價(jià)值已經(jīng)毋庸置疑。信息是資源,數(shù)據(jù)也是生產(chǎn)力。數(shù)據(jù)正在改變競(jìng)爭(zhēng)格局,認(rèn)識(shí)數(shù)據(jù)的力量,并能夠?qū)?shù)據(jù)轉(zhuǎn)化為數(shù)據(jù)生產(chǎn)力,如為重大的生物醫(yī)學(xué)問題找到結(jié)構(gòu)性的解決方案,推動(dòng)在癌癥免疫治療以及精準(zhǔn)治療領(lǐng)域的創(chuàng)新。
就像農(nóng)業(yè)時(shí)代的土地、工業(yè)時(shí)代的能源,如今,數(shù)據(jù)已成為核心資源,已成為國(guó)家戰(zhàn)略的一部分。如何進(jìn)一步發(fā)展生命科學(xué)數(shù)據(jù)規(guī)范化存儲(chǔ),建立自己的數(shù)據(jù)中心,甚至成立全球數(shù)據(jù)中心;同時(shí)借助不斷強(qiáng)大的信息技術(shù),從數(shù)據(jù)到信息到知識(shí),通過各類計(jì)算平臺(tái)(包括云平臺(tái)),實(shí)現(xiàn)快速分析與應(yīng)用。當(dāng)然,大數(shù)據(jù)也是一把雙刃劍。數(shù)據(jù)共享、數(shù)據(jù)保密、數(shù)據(jù)缺失、隱私保護(hù)等安全問題需要格外重視,同時(shí)要保證數(shù)據(jù)的安全。生物安全已經(jīng)成為我國(guó)國(guó)家安全戰(zhàn)略的重要部分,將不斷加強(qiáng)生物數(shù)據(jù)信息安全治理能力。
未來需要發(fā)展各種整合信息學(xué)的新方法,如面對(duì)大數(shù)據(jù)的壓縮、整合方法、各組學(xué)的融合分析方法、各場(chǎng)景各類深度學(xué)習(xí)方法的整合使用、人工智能+人腦混合模型(人機(jī)整合)、全方位高精度分析方法,以及這些整合生物信息學(xué)的研究是否還要考慮其研究結(jié)果的可重復(fù)性(Reproducibility)的問題等等。