• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    多組學(xué)數(shù)據(jù)整合分析和應(yīng)用研究綜述

    2021-12-12 02:49:42鐘雅婷林艷梅陳定甲彭昱忠曾遠(yuǎn)鵬
    關(guān)鍵詞:組學(xué)聚類預(yù)測(cè)

    鐘雅婷,林艷梅,陳定甲,彭昱忠,曾遠(yuǎn)鵬

    南寧師范大學(xué) 計(jì)算機(jī)與信息工程學(xué)院 科學(xué)計(jì)算與智能信息處理廣西高校重點(diǎn)實(shí)驗(yàn)室,南寧 530100

    隨著人類基因組計(jì)劃的提出及實(shí)施,新的組學(xué)數(shù)據(jù)測(cè)序技術(shù)不斷涌現(xiàn),如,高通量測(cè)序技術(shù)[1],能快速地獲得高維多組學(xué)數(shù)據(jù),為生物醫(yī)學(xué)領(lǐng)域的研究提供了數(shù)據(jù)來源。

    早期,許多研究都是對(duì)單一組學(xué)進(jìn)行整合分析。然而,由于生物系統(tǒng)本身的復(fù)雜性,無法通過單一組學(xué)進(jìn)行完全描述。如:基因組學(xué)雖然已經(jīng)能揭示癌癥患者基因改變的情況,但并不是所有基因變異都會(huì)引起其表達(dá)及功能的改變[2]。因此,簡(jiǎn)單地研究某一層次生物分子變化,難以深入理解復(fù)雜的生物學(xué)過程,在復(fù)雜疾病中這種情況顯得尤為突出。多組學(xué)數(shù)據(jù)整合分析方法從此孕育而生,它有利于對(duì)生物醫(yī)學(xué)數(shù)據(jù)進(jìn)行全面深入的研究,甚至可以補(bǔ)充任何單一組學(xué)中缺失或不可靠的信息。各種因素促使了組學(xué)研究從單組學(xué)分析向多組學(xué)數(shù)據(jù)整合分析的方向發(fā)展。

    多組學(xué)整合技術(shù)是指結(jié)合兩種或者兩種以上組學(xué)數(shù)據(jù)集,包括基因組學(xué)、表觀基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)、微生物組學(xué)、影像組學(xué)等,對(duì)生物樣本進(jìn)行系統(tǒng)研究,從而探究生物系統(tǒng)中多種物質(zhì)之間相互作用。當(dāng)前,國內(nèi)外已有許多研究者探究了一些先進(jìn)有效的多組學(xué)數(shù)據(jù)整合方法,將多組學(xué)數(shù)據(jù)進(jìn)行整合,能夠從大量而繁雜的多組學(xué)數(shù)據(jù)中找到多源數(shù)據(jù)間的內(nèi)在關(guān)聯(lián),幫助人們?nèi)娴卣J(rèn)識(shí)生命系統(tǒng),對(duì)研究生命科學(xué)問題具有重要意義。

    本文綜述了近年來多組學(xué)數(shù)據(jù)整合分析的方法與應(yīng)用研究進(jìn)展。

    1 數(shù)據(jù)整合方法的概念組織

    數(shù)據(jù)整合是指通過整合不同類型和不同來源(如兩個(gè)不同的癌癥數(shù)據(jù)集)的數(shù)據(jù),并使用語義技術(shù)將它們合并為有意義或有價(jià)值的信息。本章按數(shù)據(jù)類型和整合時(shí)機(jī)兩個(gè)角度概述數(shù)據(jù)整合方法。

    1.1 按數(shù)據(jù)類型分類

    按數(shù)據(jù)類型分類,可將組學(xué)數(shù)據(jù)整合方法分為垂直數(shù)據(jù)整合和水平數(shù)據(jù)整合[3-4],如圖1所示。

    圖1 垂直數(shù)據(jù)整合和水平數(shù)據(jù)整合示意圖Fig.1 Schematic diagram of vertical and horizontal data integration

    (1)垂直數(shù)據(jù)整合

    垂直數(shù)據(jù)整合指整合同一實(shí)驗(yàn)、不同組學(xué)數(shù)據(jù),從而關(guān)聯(lián)不同的知識(shí)。

    (2)水平數(shù)據(jù)整合

    水平數(shù)據(jù)整合指整合不同實(shí)驗(yàn)、同一組學(xué)數(shù)據(jù),從而關(guān)聯(lián)不同的知識(shí)。

    1.2 按整合時(shí)機(jī)分類

    從技術(shù)上講,根據(jù)整合時(shí)機(jī)分類,數(shù)據(jù)整合可分為早期整合、中期整合和后期整合三種不同類型,表1為三類方法的過程步驟及優(yōu)缺點(diǎn)對(duì)比。

    (1)早期整合

    早期整合指先將數(shù)據(jù)集轉(zhuǎn)換為單個(gè)基于特征的表或基于圖的表示,然后采用原始或降維處理后的不同數(shù)據(jù)組合,最后輸入機(jī)器學(xué)習(xí)模型得到預(yù)測(cè)結(jié)果[5]。它的優(yōu)點(diǎn)是只要數(shù)據(jù)無冗余,都能夠考慮特征之間的相關(guān)性。缺點(diǎn)是它忽略了每種組學(xué)數(shù)據(jù)類型的獨(dú)特分布,權(quán)重需要規(guī)范化,增加了輸入數(shù)據(jù)的維度。因此,利用早期整合方法整合多組學(xué)數(shù)據(jù)時(shí),必須設(shè)法減輕這些問題的影響。如文獻(xiàn)[6]提出對(duì)組學(xué)數(shù)據(jù)預(yù)先進(jìn)行特征選擇并降維的方法,解決該問題。

    (2)中期整合

    中期整合是指保留數(shù)據(jù)集的數(shù)據(jù)結(jié)構(gòu),并僅在分析階段合并它們,是一種通過聯(lián)合模型將其融合的算法,能夠解決數(shù)據(jù)集多樣性問題[5]。該方法的優(yōu)點(diǎn)是具有較高的性能,缺點(diǎn)是不能與現(xiàn)在的軟件一起使用,需要研發(fā)新的算法組合數(shù)據(jù)。

    (3)后期整合

    后期整合指先讓每個(gè)組學(xué)數(shù)據(jù)類型分別學(xué)習(xí)特征,形成多個(gè)第一級(jí)訓(xùn)練模型,然后將第一級(jí)訓(xùn)練得到的特征整合,用作分類器或回歸器的輸入[7]。它的優(yōu)點(diǎn)是每種數(shù)據(jù)類型采用單組學(xué)標(biāo)準(zhǔn)化,不會(huì)增加輸入空間的維度。缺點(diǎn)是可靠性低,僅將每種組學(xué)的預(yù)測(cè)結(jié)果整合,挖掘能整合的特征開銷大。

    2 多組學(xué)數(shù)據(jù)整合分析方法

    組學(xué)數(shù)據(jù)多是異質(zhì)的,具有不同的類型和格式,因而難以整合[8-9]。探究多組學(xué)數(shù)據(jù)整合的方法,有助于研究生命科學(xué)問題,挖掘其中的重要信息。在本章中,將從計(jì)算方法角度綜述近年來基于統(tǒng)計(jì)方法、傳統(tǒng)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等技術(shù)的多組學(xué)數(shù)據(jù)整合方法。更進(jìn)一步的劃分方法如圖2所示。

    2.1 基于統(tǒng)計(jì)方法整合多組學(xué)數(shù)據(jù)

    統(tǒng)計(jì)方法是早期人們對(duì)大規(guī)模的數(shù)據(jù)進(jìn)行收集、整合、分析后,根據(jù)其所反應(yīng)的問題給出一定結(jié)論的方法。該方法被許多領(lǐng)域廣泛地應(yīng)用,生物學(xué)領(lǐng)域也不例外。

    表1 早、中、后期數(shù)據(jù)整合方法對(duì)比Table 1 Comparison of early,middle and late data integration methods

    圖2 多組學(xué)數(shù)據(jù)整合分析方法分類Fig.2 Classification of multi-omics data integrationanalysis methods

    為整合多組學(xué)數(shù)據(jù),研究者嘗試采用統(tǒng)計(jì)方法進(jìn)行研究,取得了不錯(cuò)的成果。如,Argelaguet等人[10]提出多組學(xué)因子分析的統(tǒng)計(jì)方法(Multi-Omics Factor Analysis,MOFA),根據(jù)幾個(gè)數(shù)據(jù)矩陣在重疊的樣本集上測(cè)量多組學(xué)數(shù)據(jù)類型,由隱藏因素推斷出可解釋的低維數(shù)據(jù)表示,最終能有效地識(shí)別疾病變異的主要驅(qū)動(dòng)因素。

    然而,上述方法遺漏了特征間的非線性關(guān)系,為彌補(bǔ)其不足,許多研究者提出采用最小二乘法及其擴(kuò)展提高性能。Rohart等人[11]擴(kuò)展了偏最小二乘法(Partial Least Squares,PLS)用于多組學(xué)數(shù)據(jù)特征選擇和整合分析的mixOmics R函數(shù)包,專門用于生物數(shù)據(jù)集的多元分析,以探測(cè)異構(gòu)組學(xué)數(shù)據(jù)集之間的關(guān)系。楊海濤[12]提出GA-CKPLS方法,該方法基于核偏最小二乘法(Kernel Partial Least Squares,KPLS)框架進(jìn)行融合,并使用遺傳算法(Genetic Algorithm,GA)優(yōu)化核參數(shù)和核權(quán)重,提高了整合性能,但其面對(duì)大規(guī)模數(shù)據(jù)時(shí),計(jì)算速度慢。Rantalainen等人[13]基于正交偏最小二乘法(Orthogonal Projection to Latent Structure,OPLS)提出整合代謝組學(xué)和蛋白質(zhì)組學(xué)數(shù)據(jù)的矩陣方法,發(fā)現(xiàn)了蛋白質(zhì)和代謝物之間存在多種相關(guān)性,它的優(yōu)點(diǎn)是能挖掘被忽略的因素,缺點(diǎn)是不能提供安全可靠的檢測(cè)結(jié)果。

    除了最小二乘法這種統(tǒng)計(jì)方法外,還有許多的統(tǒng)計(jì)方法也被用于多組學(xué)數(shù)據(jù)整合,如計(jì)算相似度矩陣、核函數(shù)等人方法。李啟雄[14]提出MV-SSNMTF(Multi-View Simultaneous Symmetric Non-Negative Matrix Tri-Factorization)算法,該方法采用不同的相似性度量方法生成多個(gè)相似度矩陣,然后將其分解為子矩陣,最后融合不同的公共子矩陣以獲得相似性連接圖,并使用圖切割算法從中準(zhǔn)確地識(shí)別出子類型。其不足之處在于過度壓縮信息,且隨機(jī)性導(dǎo)致每次結(jié)果不一致。Zhang等人[15]提出線性鄰域正則化的稀疏特征學(xué)習(xí)集成方法(SFLLN)。該方法先通過稀疏特征學(xué)習(xí)將不同特征空間中藥物的組學(xué)數(shù)據(jù)映射到共同的交互空間中,然后,引入線性鄰域正則化來描述藥物間的相互作用,其優(yōu)點(diǎn)是具有較高的精度,缺點(diǎn)是調(diào)參耗時(shí)長,這就說明了算法仍需改進(jìn)。Li等人[16]提出自適應(yīng)套索的多核懲罰線性混合模型(MKpLMM),不僅可以從組學(xué)數(shù)據(jù)的每一層獲取預(yù)測(cè)效果,還可以通過多個(gè)核函數(shù)來獲取組學(xué)數(shù)據(jù)的交互作用,預(yù)測(cè)多層組學(xué)數(shù)據(jù)復(fù)雜性。其優(yōu)點(diǎn)是可容納各種類型的數(shù)據(jù),有助于提高預(yù)測(cè)精度,尤其是同時(shí)應(yīng)用于藥物和ANDI數(shù)據(jù)集時(shí),MKpLMM比其他方法的效果更好。將上述基于統(tǒng)計(jì)方法整合多組學(xué)數(shù)據(jù)的原理、優(yōu)勢(shì)、局限性和適用場(chǎng)景整理成表2所示。

    表2 基于統(tǒng)計(jì)方法整合多組學(xué)數(shù)據(jù)對(duì)比Table 2 Integration of multi-omics data comparison based on statistical methods

    綜上所述,基于統(tǒng)計(jì)方法整合多組學(xué)數(shù)據(jù)在一定程度上比單一組學(xué)數(shù)據(jù)研究的準(zhǔn)確率和分類精度高,有助于挖掘影響生命問題的因素。

    然而,不同的統(tǒng)計(jì)方法對(duì)實(shí)驗(yàn)結(jié)果存在一定的影響,如穩(wěn)定性差、計(jì)算速度慢、抗壓能力差、可靠性低等問題。除此之外,受計(jì)算資源的限制,統(tǒng)計(jì)方法往往處理的是中小規(guī)模的數(shù)據(jù)集,在大型任務(wù)的處理過程中仍然需要人為地對(duì)特征進(jìn)行處理。

    因此,為解決統(tǒng)計(jì)方法整合多組學(xué)數(shù)據(jù)的不足,一些研究者開始探討將傳統(tǒng)的機(jī)器學(xué)習(xí)方法應(yīng)用于多組學(xué)數(shù)據(jù)的整合。

    2.2 基于傳統(tǒng)機(jī)器學(xué)習(xí)的多組學(xué)數(shù)據(jù)整合方法

    機(jī)器學(xué)習(xí)是人工智能領(lǐng)域的一個(gè)重要組成部分,為生物信息學(xué)領(lǐng)域研究生命現(xiàn)象和規(guī)律提供了技術(shù)支持。本節(jié)將從聚類算法、隨機(jī)森林算法、其他機(jī)器學(xué)習(xí)方法等角度綜述基于傳統(tǒng)機(jī)器學(xué)習(xí)的多組學(xué)數(shù)據(jù)整合方法。

    2.2.1 基于聚類算法整合多組學(xué)數(shù)據(jù)

    聚類算法(Cluster)的核心是對(duì)一堆觀測(cè)數(shù)據(jù)進(jìn)行劃分,使簇內(nèi)的數(shù)據(jù)彼此相似,而簇間數(shù)據(jù)的相似度盡可能小。對(duì)組學(xué)數(shù)據(jù)進(jìn)行聚類分析,從中發(fā)現(xiàn)規(guī)律,在疾病分型、精準(zhǔn)醫(yī)療、藥物研究等方面具有十分重要的意義。

    一些研究者通過K均值聚類(K-means)及其變種算法整合多組學(xué)數(shù)據(jù)取得了不錯(cuò)的成果。如,張旭等人[17]采用基因芯片顯著性分析算法(SAM)和K-means等方法分析了兩組與結(jié)核病相關(guān)的組學(xué)數(shù)據(jù),其核心是先選擇同簇內(nèi)最相似的基因,再分組比較,最終選出了典型的結(jié)核病的14個(gè)候選易感基因,從而縮短了研究結(jié)核病的時(shí)間開銷,降低成本。沈思鵬[18]研究出一種無監(jiān)督類別多組學(xué)整合預(yù)測(cè)模型的算法(Random Partition Fusion Based onK-Means,RPFKM),能夠預(yù)測(cè)腫瘤患者的生存結(jié)果。該方法分為兩個(gè)步驟:第一,隨機(jī)抽取變量進(jìn)行K-means聚類,計(jì)算相似度矩陣;第二,進(jìn)行相似性矩陣整合。它的優(yōu)點(diǎn)在于整體的分類效果比其他聚類效果好,但其預(yù)測(cè)能力有限,只能對(duì)微觀分子生物多組學(xué)數(shù)據(jù)進(jìn)行整合,無法將臨床特征,外界環(huán)境等因素考慮進(jìn)去。

    聚類方法多種多樣,部分研究者將聚類算法與其他的一些算法融合,效果顯著。如,Nicora等人[19]綜述了兩種聚類方法,分別為基于鄰域的多組學(xué)聚類(Neighborhood based multi-omics clustering,Nemo)和親和網(wǎng)絡(luò)融合算法(Affinity Network Fusion,ANF)。Nemo是通過徑向基函數(shù)核計(jì)算每個(gè)組學(xué)間的相似性矩陣,對(duì)得到的平均相似度矩陣進(jìn)行譜聚類。ANF則是將圖聚類應(yīng)用于包含多個(gè)視圖信息的親和矩陣,對(duì)于每個(gè)組元,經(jīng)過特征選擇后計(jì)算距離。這兩種方法都能在多個(gè)TCGA癌癥數(shù)據(jù)集檢測(cè)出癌癥亞型,聚類性能優(yōu)于其在單組學(xué)中的應(yīng)用。

    此外,王星等人[20]通過基于基因網(wǎng)絡(luò)正則化的雙聚類算法(Network Regularized Bi-Clustering algorithm,NetRBC),利用基因間的相互作用網(wǎng)絡(luò)構(gòu)建正則化項(xiàng)約束,指導(dǎo)基因簇進(jìn)行矩陣分解,有效提升了預(yù)測(cè)癌癥亞型聚類精度。但癌癥的生長發(fā)育受多方面因素的影響,僅利用不同實(shí)驗(yàn)間的基因組數(shù)據(jù)整合難以對(duì)癌癥的高度異質(zhì)性進(jìn)行全面的了解。

    綜上所述,基于聚類算法整合多組學(xué)數(shù)據(jù)可取的主要因素有以下四個(gè):第一,可以降低實(shí)驗(yàn)噪聲和生物噪聲對(duì)數(shù)據(jù)的影響,降低時(shí)間和成本開銷;第二,能有效提升組學(xué)整合預(yù)后結(jié)果的準(zhǔn)確性和分類精度,揭示不同的細(xì)胞方面,如,在基因組和表觀基因組水平上的影響;第三,在相同的分子方面,每個(gè)組可以包含其他組學(xué)沒有的數(shù)據(jù),如,突變和拷貝數(shù);第四,組學(xué)可以代表來自不同生物體水平的數(shù)據(jù),如,基因表達(dá)和微生物組組成。其不足之處在于無法全面考慮外界因素的影響,可靠性有待提高。因此,基于聚類算法整合多組學(xué)數(shù)據(jù)也在不斷深入研究。

    2.2.2 基于隨機(jī)森林算法整合多組學(xué)數(shù)據(jù)

    隨機(jī)森林算法(Random Forest,RF)首先基于bootstrap方法有放回地抽取樣本,然后基于決策樹信息增益等人指標(biāo)用每個(gè)bootstrap樣本生成樹,并整合多棵樹的預(yù)測(cè)信息,通過投票得出最終的預(yù)測(cè)結(jié)果[21]。

    隨機(jī)森林算法被廣泛應(yīng)用于高維組學(xué)數(shù)據(jù)整合中[22-24]。如何進(jìn)行整合預(yù)測(cè),以下研究者給出了不同的思路。齊惠穎等人[25]提出一種整合四種組學(xué)數(shù)據(jù)的隨機(jī)森林乳腺癌生存預(yù)測(cè)方法,該方法先用PLS對(duì)原始數(shù)據(jù)進(jìn)行歸一化和特征降維處理,之后放入RF預(yù)測(cè)得到預(yù)測(cè)結(jié)果,能有效地提高預(yù)測(cè)性能,但在噪音較大的分類或者回歸問題上會(huì)出現(xiàn)過擬合的情況。Roman等人[26]比較了五種隨機(jī)森林算法,得出塊森林(block forest)方法在組學(xué)整合上的效果更好。該方法核心是向標(biāo)準(zhǔn)的RF中添加了一個(gè)額外化組件“塊選擇”,其優(yōu)點(diǎn)是解決了塊直接重疊預(yù)測(cè)信息的問題,還考慮了所有臨床協(xié)變量,從而提高了性能。Acharjee等人[27]采用隨機(jī)森林回歸法,整合轉(zhuǎn)錄組學(xué)、代謝組學(xué)和蛋白質(zhì)組學(xué)數(shù)據(jù),對(duì)馬鈴薯4個(gè)品質(zhì)性狀進(jìn)行預(yù)測(cè),從而找到與表型性狀相關(guān)的遺傳和代謝途徑,但其不能在缺乏有關(guān)所調(diào)查性狀的基因、代謝物或蛋白質(zhì)的先驗(yàn)知識(shí)的情況下進(jìn)行驗(yàn)證。Li等人[28]利用隨機(jī)森林特征方法整合多組學(xué)數(shù)據(jù),以識(shí)別調(diào)控因子檢測(cè)基因表達(dá),構(gòu)建全基因組基因調(diào)控網(wǎng)絡(luò)。通過計(jì)算關(guān)鍵候選基因的異?;蚣g的相似性作為距離度量,采用基于密度的聚類算法得到包含20個(gè)基因的癌癥相關(guān)基因模塊。該方法的優(yōu)點(diǎn)能有效地區(qū)分高危和低危人群。缺點(diǎn)是對(duì)于小樣本數(shù)據(jù)集不適用,且研究都集中在靜態(tài)網(wǎng)絡(luò)上,沒有考慮時(shí)間維度。

    在針對(duì)分類問題時(shí),隨機(jī)森林算法與其他算法融合能夠提高模型的性能。Mohammed等人[29]提出結(jié)合RF和SVM,對(duì)不同組織類型的正常和癌癥樣本進(jìn)行分類,該方法靈敏度和特異性超過現(xiàn)有的生物標(biāo)記來識(shí)別潛在的癌癥生物標(biāo)記,準(zhǔn)確率高達(dá)97.89%。Xu等人[30]提出一種新的分層集成深度靈活神經(jīng)森林框架HIDFNForest,該方法先采用堆疊自編碼器(Stacked Autoencoder,SAE)學(xué)習(xí)組學(xué)數(shù)據(jù)的復(fù)雜表示,再將其用于DFNForest模型將患者的癌癥亞型分類。該方法不僅能夠?qū)⒔M學(xué)數(shù)據(jù)獨(dú)立,且其采用的SAE比傳統(tǒng)的PCA、NMF的降維效果更好,提高了模型的分類性能。

    綜上所述,隨機(jī)森林算法能有效地對(duì)多組學(xué)數(shù)據(jù)進(jìn)行整合,但可能存在過擬合、缺乏數(shù)據(jù)造成無法驗(yàn)證、生存期數(shù)據(jù)變化等多種因素影響預(yù)測(cè)性能的問題。

    2.2.3 基于其他機(jī)器學(xué)習(xí)方法整合多組學(xué)數(shù)據(jù)

    通過前面兩類機(jī)器學(xué)習(xí)算法的研究發(fā)現(xiàn),由于組學(xué)數(shù)據(jù)規(guī)模大、多樣性等特點(diǎn),單一算法對(duì)數(shù)據(jù)整合的效果不如多種算法融合的性能好。因而,一些研究者開始探究如何將機(jī)器學(xué)習(xí)領(lǐng)域的其他方法進(jìn)行融合,提高數(shù)據(jù)整合分析的性能。

    Gerdes等人[31]開發(fā)了一種基于機(jī)器學(xué)習(xí)的藥物排序方法(Drug Ranking Using ML,DRUML),該方法能將蛋白質(zhì)組學(xué)和磷蛋白組學(xué)特征的組合,得出降低癌細(xì)胞增殖方面療效的生成藥物排名列表。它不必與參考樣本比較,就可以在癌細(xì)胞群體中預(yù)測(cè)藥物排名,且其使用內(nèi)部歸一化藥物反應(yīng)的距離度量、降維等方式減少噪聲,增加了預(yù)測(cè)模型的穩(wěn)健性。

    Hasan等人[32]提出一種基于機(jī)器學(xué)習(xí)的新型藥物-靶點(diǎn)相互作用預(yù)測(cè)模型(Prediction of Drug-Target Interactions,PreDTIS),該模型首先將組學(xué)數(shù)據(jù)結(jié)合,然后用欠采樣技術(shù)解決藥靶數(shù)據(jù)集高度不平衡的問題;其次,用改良的增量特征選擇算法選擇最優(yōu)特征,去除噪聲和冗余特征,提高預(yù)測(cè)準(zhǔn)確性;最后,用LightGBM分類器預(yù)測(cè)藥靶相互作用。結(jié)果表明,該方法顯著優(yōu)于其他現(xiàn)有方法。

    王昕[33]提出一種基于極限學(xué)習(xí)機(jī)的癌癥質(zhì)譜分類方法(Extreme Learning Machine,ELM)和一種基于粒子群算法結(jié)合極限學(xué)習(xí)機(jī)方法(Particle Swarm Optimization-Extreme Learning Machine,PSO-ELM),以代謝組學(xué)和蛋白質(zhì)學(xué)組學(xué)為數(shù)據(jù),分別進(jìn)行癌癥分類和提取高維質(zhì)譜數(shù)據(jù)特征的實(shí)驗(yàn)。兩者的共同優(yōu)點(diǎn)是準(zhǔn)確率高,誤診率低,分類效果及可行性好。前者的缺點(diǎn)是固定參數(shù)忽略對(duì)算法本身的研究,后者則引入PSO解決了這一不足。

    李明達(dá)等人[34]提出一種中級(jí)融合分類方法,該方法先引入PLS分別對(duì)各種組學(xué)數(shù)據(jù)進(jìn)行降維,然后利用支持向量機(jī)(Support Vector Machine,SVM)對(duì)融合后的數(shù)據(jù)進(jìn)行分類。該方法優(yōu)點(diǎn)是能有效降低數(shù)據(jù)維度,且分類準(zhǔn)確率能有效提高,缺點(diǎn)是可進(jìn)行實(shí)驗(yàn)的數(shù)據(jù)量少,普遍適用性有待提高。

    Gui等人[35]結(jié)合了多組學(xué)數(shù)據(jù)結(jié)合的分析,研究了腎透明細(xì)胞癌(ccRCC)缺氧與免疫的相互作用。首先,使用t-SNE和ssGSEA研究三種亞型在遺傳和表觀特征的缺氧免疫差異,隨后基于LASSO和Cox構(gòu)建預(yù)后模型。該模型的預(yù)后性能好并能預(yù)測(cè)患者對(duì)免疫治療的反應(yīng),準(zhǔn)確性較高,但實(shí)驗(yàn)僅僅是建立在TCGA數(shù)據(jù)集上,覆蓋的數(shù)據(jù)集不全面。

    Malik等人[36]提出基于多組學(xué)整合的肺腺癌生存預(yù)測(cè)模型。首先,用鄰域成分分析方法(Neighborhood Component Analysis,NCA)對(duì)組學(xué)數(shù)據(jù)進(jìn)行特征選擇,選擇最佳特征組合,并將其整合輸入到SVM、神經(jīng)網(wǎng)絡(luò)模式識(shí)別器、RUSBoost算法構(gòu)建生存預(yù)測(cè)模型。該方法可以有效地將肺腺癌患者劃分為兩個(gè)生存類別,準(zhǔn)確率達(dá)92.9%,但其訓(xùn)練和驗(yàn)證集的樣本較少,限制了預(yù)測(cè)能力。

    Yuan等人[37]提出一種新的ML方法(LncRNA-Gene-Disease association networks,LGDLDA)。該方法首先計(jì)算lncRNA、基因和疾病的相似度矩陣,利用非線性特征學(xué)習(xí)將鄰域信息整合到相似矩陣中;然后,使用嵌入節(jié)點(diǎn)表示來逼近觀測(cè)矩陣;最后,對(duì)候選lncRNA-疾病對(duì)進(jìn)行排序,選擇潛在的疾病相關(guān)lncRNA。它的優(yōu)點(diǎn)是穩(wěn)定性比較高,能有效預(yù)測(cè)潛在的癌癥相關(guān)lncRNA,缺點(diǎn)是數(shù)據(jù)集小,易過擬合。

    Wang等人[38]提出一個(gè)DeepDRK框架,它首先將癌癥組學(xué)數(shù)據(jù)轉(zhuǎn)為相似性矩陣,然后利用化合物的化學(xué)特征和藥靶相互作用分別計(jì)算兩個(gè)抗癌藥物的相似矩陣,形成抗癌藥物的整合表示,最后構(gòu)建一個(gè)二分圖標(biāo)記癌細(xì)胞和抗癌藥物之間的關(guān)系。其優(yōu)點(diǎn)是準(zhǔn)確性和魯棒性比SVM和RF高,缺點(diǎn)是藥物數(shù)據(jù)集小限制了性能提升。

    通過對(duì)上述幾種機(jī)器學(xué)習(xí)方法的總結(jié),可以發(fā)現(xiàn),利用多種機(jī)器學(xué)習(xí)方法融合,能提高多組學(xué)數(shù)據(jù)整合的性能。上述幾種方法的共同優(yōu)點(diǎn)在于分類準(zhǔn)確率得到提高,能夠減少噪聲對(duì)實(shí)驗(yàn)的影響,解決數(shù)據(jù)高度不平衡問題,增加了模型預(yù)測(cè)的穩(wěn)健性。缺點(diǎn)是數(shù)據(jù)集少且易過擬合、普遍適用性較低。

    2.2.4 小結(jié)

    綜上所述,聚類算法、隨機(jī)森林算法以及其他機(jī)器學(xué)習(xí)方法為多組學(xué)數(shù)據(jù)整合提供了廣泛的技術(shù)支持,上述基于傳統(tǒng)機(jī)器學(xué)習(xí)的多組學(xué)數(shù)據(jù)整合方法的原理、優(yōu)勢(shì)、局限性和適用場(chǎng)景如表3所示。

    簡(jiǎn)而言之,這些機(jī)器學(xué)習(xí)方法的共同優(yōu)點(diǎn)是具有較高的準(zhǔn)確率。缺點(diǎn)分別為,隨機(jī)森林算法是在某些噪音較大的分類器或回歸問題上過擬合;聚類算法的缺點(diǎn)則是對(duì)孤立點(diǎn)比較敏感,結(jié)果不穩(wěn)定;其他方法存在參數(shù)固定不能進(jìn)一步提高準(zhǔn)確率,數(shù)據(jù)樣本小限制了預(yù)測(cè)能力等問題。為彌補(bǔ)機(jī)器學(xué)習(xí)方法的局限,提升性能,一些研究者將深度學(xué)習(xí)方法應(yīng)用于多組學(xué)數(shù)據(jù)整合。

    表3 基于傳統(tǒng)機(jī)器學(xué)習(xí)的多組學(xué)數(shù)據(jù)整合方法對(duì)比Table 3 Comparison of multi-omics data integration methods based on traditional machine learning

    2.3 基于深度學(xué)習(xí)的多組學(xué)數(shù)據(jù)整合方法

    深度學(xué)習(xí)(Deep Learning,DL)是一種使用深度神經(jīng)網(wǎng)絡(luò)的新興機(jī)器學(xué)習(xí)方法,迄今在各領(lǐng)域引發(fā)了突破性的變革。其采用的深度神經(jīng)網(wǎng)絡(luò)是具有多層隱藏層的神經(jīng)網(wǎng)絡(luò),利用神經(jīng)網(wǎng)絡(luò)中每一層進(jìn)行數(shù)據(jù)處理,逐層進(jìn)行特征學(xué)習(xí),使神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí)到深層抽象的特征數(shù)據(jù)。

    常用的深度網(wǎng)絡(luò)模型有深度前饋網(wǎng)絡(luò)(Deep Feedforward Network,DFN)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)、自編碼器(AutoEncoder,AE)和圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Networks,GNN)及其變體等[39]。近年來,深度學(xué)習(xí)在多組學(xué)整合分析領(lǐng)域取得了成果,吸引了大量研究者對(duì)此進(jìn)行研究[40]。本節(jié)將從深度前饋網(wǎng)絡(luò)、自編碼器、圖神經(jīng)網(wǎng)絡(luò)等角度綜述基于深度學(xué)習(xí)的多組學(xué)數(shù)據(jù)整合方法。

    2.3.1 基于深度前饋網(wǎng)絡(luò)整合多組學(xué)數(shù)據(jù)

    深度前饋網(wǎng)絡(luò)是最具代表的深度學(xué)習(xí)模型。它定義了映射y=f(x;θ),指信息流從輸入x,經(jīng)過中間計(jì)算f(x;θ)后得到輸出y,整個(gè)過程中不存在從輸出到輸入的反向連接。

    近年來,許多研究者將深度前饋網(wǎng)絡(luò)應(yīng)用于多組學(xué)數(shù)據(jù)整合分析取得很好的效果。

    Deng等人[41]提出一個(gè)多模態(tài)深度學(xué)習(xí)框架DDIMDL,將藥物的多種組學(xué)特征放入到DFN中訓(xùn)練,實(shí)驗(yàn)結(jié)果顯示,DDIMDL模型能有效預(yù)測(cè)藥物交互事件,尋找潛在有效的藥物。但對(duì)于某些事件,存在交互次數(shù)不夠?qū)е逻^擬合問題,這也說明了未來可通過擴(kuò)充數(shù)據(jù)集、增加交互次數(shù)解決該問題。

    一些學(xué)者利用深度前饋網(wǎng)絡(luò)從兩種或多種數(shù)據(jù)集找出相應(yīng)的特征,并融合進(jìn)行統(tǒng)一表示,獲得了比較好的分類預(yù)測(cè)效果。如,Hossein等人[42]提出了集成多組學(xué)數(shù)據(jù)的方法MOLI(Multi-Omics Late Integration method)。該方法先將多個(gè)前饋編碼子網(wǎng)絡(luò)與每個(gè)組學(xué)數(shù)據(jù)相對(duì)應(yīng),將其編碼到一個(gè)特征空間后串聯(lián)進(jìn)行整合,最后將其作為分類子網(wǎng)絡(luò)的輸入以預(yù)測(cè)藥物的反應(yīng)。其優(yōu)于單組學(xué)預(yù)測(cè)性能,且可減少過擬合和數(shù)據(jù)分布不平衡問題,不足之處在于沒有考慮或比較基線中不同組學(xué)數(shù)據(jù)類型的基因之間的相互作用。

    上述的方法是通過一個(gè)模型得到特征后融合,以下則是不同的模型得出的特征融合。如,Malik等人[43]提出后期綜合深度前饋網(wǎng)絡(luò)多組學(xué)框架來構(gòu)建乳腺癌患者生存和藥物反應(yīng)預(yù)測(cè)模型,先用NCA從多組學(xué)數(shù)據(jù)集中選擇相關(guān)特征,然后分別放入DFN與K-means進(jìn)行分類,結(jié)果顯示,該模型能有效地將患者分為兩類,并且可以避免過擬合。

    除了上述兩種融合方法外,還可以采取先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理的方法,將其整理為同類型的輸入。如,Zhao等人[44]提出DeepOmix方法,該方法集成了不同組學(xué)數(shù)據(jù)作為輸入基因?qū)樱驅(qū)庸?jié)點(diǎn)根據(jù)輸入定義的路徑或功能模塊的先驗(yàn)信息與功能層連接,最終能夠?qū)颖痉譃楦唢L(fēng)險(xiǎn)和低風(fēng)險(xiǎn)兩組。其優(yōu)點(diǎn)是能夠解決高維度的問題,且可解釋性、穩(wěn)定性、魯棒性較高。

    此外,Huang等人[45]利用2型糖尿病多組學(xué)數(shù)據(jù),闡明胰島素抵抗與多組學(xué)特征之間的關(guān)系,并開發(fā)了基于深度神經(jīng)網(wǎng)絡(luò)解釋算法,以解釋微生物組特征對(duì)胰島素分類的影響,且利用集成分類器和DFN分類器驗(yàn)證了降維特征的合理性。

    通過深度前饋網(wǎng)絡(luò)整合多組學(xué)數(shù)據(jù),能更好地挖掘影響生命問題的潛在因素,防止?jié)撛诘闹匾畔G失,有效地提高了準(zhǔn)確率。其缺點(diǎn)是數(shù)據(jù)集不平衡會(huì)影響實(shí)驗(yàn)結(jié)果。

    受上述研究者的啟發(fā),可以通過數(shù)據(jù)集擴(kuò)充等技術(shù)避免過擬合,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理或者采取不同的方式對(duì)模型融合,從而提高數(shù)據(jù)整合的性能。

    2.3.2 基于自編碼器整合多組學(xué)數(shù)據(jù)

    自編碼器(AE)是一種數(shù)據(jù)壓縮算法,通過訓(xùn)練后能將輸入復(fù)制到輸出,主要是便于數(shù)據(jù)去噪和降維。自編碼器分為兩個(gè)組件:第一個(gè)組件是編碼(encoder),一般是多層網(wǎng)絡(luò),將輸入的數(shù)據(jù)壓縮成一個(gè)向量,從而降低維度;第二個(gè)組件是解碼(decoder),主要是重建與原始輸入一樣的數(shù)據(jù),以達(dá)到壓縮還原的作用。它在深度學(xué)習(xí)發(fā)展的過程中也出現(xiàn)了很多變體,如,去噪自編碼器(DAE)、變分自編碼器(VAE)、去耦變分自編碼器(DVEA)等。

    由前所述可知,多組學(xué)數(shù)據(jù)具有高維、量大、有噪聲等特點(diǎn),通過自編碼器后輸出數(shù)據(jù)維度一般遠(yuǎn)小于輸入數(shù)據(jù)維度,適合解決高維數(shù)據(jù)的整合問題,減輕了高維度數(shù)據(jù)對(duì)模型的壓力。因此,一些學(xué)者研究利用自編碼器對(duì)多組學(xué)數(shù)據(jù)進(jìn)行整合。如,Kumardeep等人[46]利用AE整合肝癌患者的多組學(xué)數(shù)據(jù),然后使用方差分析(Analysis of Variance,ANOVA)特征選擇方法來識(shí)別生物標(biāo)志物,最后基于SVM構(gòu)建了肺癌亞型預(yù)測(cè)模型,能夠劃分具有生存期敏感的肝癌亞型。該方法在文獻(xiàn)[47]得到驗(yàn)證,能夠劃分高低風(fēng)險(xiǎn)兩類患者,比傳統(tǒng)的方法更有效。

    Yang等人[48]提出一種基于多模態(tài)深度自編碼器的藥物表示方法DDI-MDAE(Multi-modal Deep Auto-Encoders Based Drug Representation Learning Method),該方法可以同時(shí)學(xué)習(xí)具有多種藥物組學(xué)特征的統(tǒng)一表示,然后用4個(gè)算子表示藥物-藥物對(duì),并采用隨機(jī)森林分類器訓(xùn)練模型來預(yù)測(cè)藥物相互作用。該方法的優(yōu)點(diǎn)在于可對(duì)大規(guī)模的、有噪聲的、稀疏的、特征不完整的藥物數(shù)據(jù)進(jìn)行預(yù)測(cè),準(zhǔn)確率較高。這表明將網(wǎng)絡(luò)拓?fù)浜驼Z義信息結(jié)合起來用于藥物表示可能會(huì)提高預(yù)測(cè)性能。

    曹業(yè)偉等人[49]提出一種基于深度自編碼器的多組學(xué)數(shù)據(jù)整合方法DAEMI(Deep Autoencoder for Multiomics Integration,DAEMI),該方法先將三種組學(xué)數(shù)據(jù)直接拼接作為輸入,然后從瓶頸層提取所需的壓縮特征,學(xué)習(xí)多組學(xué)數(shù)據(jù)的特征表示。最后,使用K均值算法對(duì)新特征樣本進(jìn)行聚類,得到了不同癌癥亞型。實(shí)驗(yàn)結(jié)果表明,它在不同癌癥數(shù)據(jù)集上表現(xiàn)更可靠,抗噪能力強(qiáng),聚類有效性和穩(wěn)定性優(yōu)于現(xiàn)有方法,但目前不適用于高維度小樣本數(shù)據(jù)集。

    Park等人[50]提出三重?fù)p失進(jìn)行監(jiān)督特征提取學(xué)習(xí)方法Super.FELT(Supervised Feature Extraction Learning using Triplet loss),該方法首先基于肘方法的方差閾值和三重?fù)p失函數(shù)監(jiān)督編碼器分別進(jìn)行特征選擇和特征編碼,然后將結(jié)果輸入分類器進(jìn)行整合,最后訓(xùn)練一個(gè)損失函數(shù)為二進(jìn)制交叉熵函數(shù)的神經(jīng)網(wǎng)絡(luò)分類器,用于藥物反應(yīng)預(yù)測(cè)。其優(yōu)點(diǎn)是采用的特征選擇方法提高了性能,即使沒有給定藥物的體內(nèi)數(shù)據(jù)集,也能用于預(yù)測(cè)患者的藥物反應(yīng)。

    Chai等人[51]提出DCAP框架整合癌癥風(fēng)險(xiǎn)評(píng)估的多組學(xué)數(shù)據(jù),以更準(zhǔn)確估計(jì)癌癥預(yù)后。該方法核心是將高維的組學(xué)特征輸入到DAE網(wǎng)絡(luò)中獲得代表性的特征,并將其放入Cox模型估計(jì)患者的風(fēng)險(xiǎn),XGboos模型擬合估計(jì)的風(fēng)險(xiǎn),最后確定與癌癥高度相關(guān)的預(yù)后標(biāo)記。該方法的優(yōu)點(diǎn)是預(yù)測(cè)精度比以前的方法提高了6.5%,缺點(diǎn)是忽略了腫瘤純度和臨床因素等會(huì)影響預(yù)測(cè)的精度。

    Chung等人[52]基于長短期記憶的變分自編碼器(Long Short-Term Memory Based Variational Auto-Encoder,LSTM-VAE)對(duì)時(shí)間序列數(shù)字?jǐn)?shù)據(jù)進(jìn)行訓(xùn)練;然后利用LSTM-VAE提取的低維嵌入進(jìn)行聚類;最后,將深度卷積嵌入聚類(Deep Convolutional Embedded Clustering,DCEC)應(yīng)用于時(shí)間趨勢(shì)圖像,對(duì)圖像重建和聚類分配進(jìn)行聯(lián)合優(yōu)化。其缺點(diǎn)是本實(shí)驗(yàn)中采用的多元組數(shù)據(jù)不平衡,在一定程度上影響了性能,這也說明了未來可以從解決數(shù)據(jù)不平衡這一角度提高預(yù)測(cè)精度。

    Ma等人[53]提出了一種基于網(wǎng)絡(luò)約束的多視角因子分解自編碼器方法(Multi-view factorization Auto-Encoder,MAE),該方法由多個(gè)分解AE組成,并提供了一種將圖形約束集成到模型中的自然方法,可以有效地整合分子相互作用網(wǎng)絡(luò)與多組學(xué)數(shù)據(jù),該模型泛化能力好,能解決高維特征小樣本的過擬合問題。

    Zhang等人[54]采用AE來集成多組學(xué)數(shù)據(jù),并將其與K-means聚類相結(jié)合,能區(qū)分超高危亞群和高危神經(jīng)母細(xì)胞瘤,該分類方法優(yōu)于主成分分析(PCA)與iCluster聚類法,對(duì)高危神經(jīng)母細(xì)胞瘤的綜合分類可以幫助臨床醫(yī)生制定個(gè)性化的治療方案。

    另外,自編碼器還可以隨機(jī)生成與訓(xùn)練數(shù)據(jù)類似的數(shù)據(jù),常被稱作生成模型(Generative Model,GM),有助于生成打標(biāo)簽的數(shù)據(jù),提高實(shí)驗(yàn)的準(zhǔn)確率。如,Jia等人[55]利用變分自編碼器(Variational AutoEncoder,VAE)生成大于1 000細(xì)胞系中的基因表達(dá)譜,并基于表達(dá)譜的隱向量訓(xùn)練了藥物反應(yīng)的預(yù)測(cè)模型,挖掘出33種腫瘤類型中與藥物反應(yīng)相關(guān)的分子特征,能解決癌癥樣品中藥物反應(yīng)譜的新特征遺漏和過擬合問題。具有穩(wěn)健性和準(zhǔn)確性高等優(yōu)點(diǎn),其缺點(diǎn)是該模型對(duì)于一些藥物,無法提高預(yù)測(cè)精度,找出潛在的混雜因素。

    綜上所述,基于自編碼器整合多組學(xué)數(shù)據(jù),能解決高維度、稀疏數(shù)據(jù)、過擬合的問題,能更好地提高模型的效率、預(yù)測(cè)準(zhǔn)確率和穩(wěn)健性。這也說明了未來可將重心放在深度學(xué)習(xí)自編碼器方法解決多組學(xué)整合的問題上。

    2.3.3 基于圖神經(jīng)網(wǎng)絡(luò)整合多組學(xué)數(shù)據(jù)

    傳統(tǒng)的深度學(xué)習(xí)方法被應(yīng)用在提取歐氏空間數(shù)據(jù)的特征方面取得了巨大的成功,但在許多實(shí)際應(yīng)用場(chǎng)景中的數(shù)據(jù)都是從非歐式空間生成的,傳統(tǒng)的深度學(xué)習(xí)方法在處理非歐式空間數(shù)據(jù)上的表現(xiàn)難以使人滿意,于是圖神經(jīng)網(wǎng)絡(luò)應(yīng)運(yùn)而生。部分研究者也探索用能夠處理非歐式空間的圖神經(jīng)網(wǎng)絡(luò)進(jìn)行多組學(xué)數(shù)據(jù)分析。如,高創(chuàng)等人[56]提出一種基于圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Network,GCN)的藥物靶標(biāo)作用關(guān)系預(yù)測(cè)方法,該方法首先構(gòu)造一個(gè)結(jié)合多種藥靶相關(guān)信息的異質(zhì)信息網(wǎng)絡(luò),然后采用GCN在此異質(zhì)信息網(wǎng)絡(luò)上學(xué)習(xí),得到能精確表達(dá)每個(gè)節(jié)點(diǎn)拓?fù)涮卣骷班従犹卣餍畔⒌牡途S向量表征,最后利用這些向量信息通過向量空間投影預(yù)測(cè)節(jié)點(diǎn)間概率的評(píng)分。該方法的優(yōu)點(diǎn)是能解決樣本不平衡的問題,能挖掘未知藥靶關(guān)系。

    Wang等人[57]提出了多組學(xué)圖卷積網(wǎng)絡(luò)(Multi-Omics Graph cOnvolutional NETworks,MOGONET)整合方法,用于生物醫(yī)學(xué)分類。該方法可概括為三個(gè)部分:首先是對(duì)每種組學(xué)數(shù)據(jù)類型進(jìn)行預(yù)處理和特征選擇,然后通過GCN進(jìn)行特定組學(xué)學(xué)習(xí),最后通過VCDN進(jìn)行多組學(xué)集成。它的優(yōu)點(diǎn)是加入的VCDN模型可以更好地對(duì)數(shù)據(jù)分類,其實(shí)驗(yàn)結(jié)果也具有良好的可解釋性。

    Althubaiti等人[58]開發(fā)了一個(gè)用于多組學(xué)癌癥分析的框架DeepMOCCA,該框架由圖卷積神經(jīng)網(wǎng)絡(luò)和圖注意力機(jī)制構(gòu)成,能夠預(yù)測(cè)33種癌癥類型的樣本的生存時(shí)間,優(yōu)于大多數(shù)現(xiàn)有的方法,且注意力機(jī)制能夠用于識(shí)別患者中的驅(qū)動(dòng)因素和預(yù)后標(biāo)記,其不足在于缺乏許多癌癥的準(zhǔn)確預(yù)后標(biāo)記。

    當(dāng)然,圖神經(jīng)網(wǎng)絡(luò)除了能夠解決非歐式空間的問題外,還能通過保留圖的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和節(jié)點(diǎn)內(nèi)容信息,將圖中頂點(diǎn)表示為低維向量,以便于使用簡(jiǎn)單算法進(jìn)行處理。受此啟發(fā),Wang等人[59]提出一種基于圖卷積網(wǎng)絡(luò)(Integrating Genomic Data and Clinical Data by Graph Convolutional Network,GCGCN)的融合多基因組數(shù)據(jù)和臨床數(shù)據(jù)的癌癥生存預(yù)測(cè)方法,該方法利用相似性網(wǎng)絡(luò)融合算法(SNF)和最小冗余最大相關(guān)算法分別對(duì)組學(xué)數(shù)據(jù)融合,進(jìn)行特征選擇操作,生成樣本相似矩陣和樣本特征矩陣,然后放入到GCGCN訓(xùn)練。它的優(yōu)點(diǎn)是準(zhǔn)確率高,分類效果好,能考慮特征相關(guān)性,缺點(diǎn)是可用樣本少,適用性不夠強(qiáng)。

    綜上所述,圖神經(jīng)網(wǎng)絡(luò)中的每個(gè)數(shù)據(jù)樣本(節(jié)點(diǎn))都會(huì)有邊與圖中其他實(shí)數(shù)據(jù)樣本(節(jié)點(diǎn))相關(guān),這些信息可用于捕獲多組學(xué)樣本之間的相互依賴關(guān)系,具有很好的適應(yīng)性和可解釋性。因而,圖神經(jīng)網(wǎng)絡(luò)適于多組學(xué)數(shù)據(jù)整合。

    2.3.4 小結(jié)

    深度學(xué)習(xí)中的方法為組學(xué)整合研究提供了新思路,它的優(yōu)點(diǎn)是在特征學(xué)習(xí)方面性能較高,能有效避免分割和手工設(shè)計(jì)特征提取給模型帶來的誤差。但是,也存在了一些缺點(diǎn),如,因數(shù)據(jù)高維、訓(xùn)練數(shù)據(jù)集小、交互次數(shù)不夠,不同事件數(shù)據(jù)集數(shù)量不平衡及大量噪聲導(dǎo)致過擬合問題,數(shù)據(jù)異質(zhì)性、特異性導(dǎo)致預(yù)測(cè)精度無法提高的問題。

    為解決以上的不足,文獻(xiàn)[56]在數(shù)據(jù)集的所有樣本中,將某一特征的值從最小值到最大值進(jìn)行替換,而其他特征保持不變,重復(fù)這個(gè)過程,直到考慮每個(gè)樣本的所有特征,從而解決特定特征對(duì)結(jié)果的造成的影響。文獻(xiàn)[60]提出前饋網(wǎng)絡(luò)和自動(dòng)編碼器采用了dropout,batch歸一化,將每組組學(xué)數(shù)據(jù)獨(dú)立地放入三個(gè)自動(dòng)編碼器獨(dú)立訓(xùn)練以使輸入和輸出的差異最小,從而避免過擬合。

    當(dāng)前,基于自編碼器和深度前饋網(wǎng)絡(luò)在多組學(xué)整合方面的研究成果較多,而圖神經(jīng)網(wǎng)絡(luò)在多組學(xué)整合方面的研究成果還較少,這也提供了新的研究方向,未來可以探究如何用其他的圖神經(jīng)網(wǎng)絡(luò)方法提高多組學(xué)數(shù)據(jù)整合的性能。上述基于深度學(xué)習(xí)的多組學(xué)數(shù)據(jù)整合方法的原理、優(yōu)勢(shì)、局限性和適用場(chǎng)景如表4所示。

    2.4 多組學(xué)數(shù)據(jù)整合分析方法小節(jié)

    近年來,探究多組學(xué)數(shù)據(jù)的整合分析方法較為火熱。本節(jié)基于統(tǒng)計(jì)方法、傳統(tǒng)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等技術(shù)對(duì)多組學(xué)數(shù)據(jù)整合方法進(jìn)行了簡(jiǎn)單的梳理和概述,并總結(jié)了每種方法的優(yōu)勢(shì)以及局限性。總而言之,這三類方法各有側(cè)重點(diǎn)。通過分析,將這三種不同類型多組學(xué)數(shù)據(jù)整合方法的優(yōu)勢(shì)、局限性整理成表5所示。

    3 多組學(xué)數(shù)據(jù)整合分析的應(yīng)用

    3.1 醫(yī)學(xué)領(lǐng)域

    在醫(yī)學(xué)領(lǐng)域研究中,多組學(xué)數(shù)據(jù)的整合分析應(yīng)用十分廣泛。它為精準(zhǔn)醫(yī)療與醫(yī)藥研發(fā)提供了有效的途徑,能獲取更全面的相關(guān)信息,彌補(bǔ)單組學(xué)數(shù)據(jù)的片面性,幫助醫(yī)生進(jìn)行更精準(zhǔn)的診療與研發(fā)。本節(jié)綜述了近年來多組學(xué)整合分析在醫(yī)學(xué)領(lǐng)域的一些應(yīng)用案例。

    3.1.1 腫瘤多組學(xué)應(yīng)用

    腫瘤是一種復(fù)雜的系統(tǒng)性疾病,涉及到了DNA、RNA、蛋白質(zhì)和代謝物水平等多種異常。因此,探究組學(xué)數(shù)據(jù)之間的關(guān)系能夠幫助醫(yī)生探究生命機(jī)理與早期診療。

    當(dāng)前,基因組學(xué)、蛋白質(zhì)組學(xué)及代謝組學(xué)等組學(xué)數(shù)據(jù)已經(jīng)被用于腫瘤分析,但是通過單組學(xué)進(jìn)行腫瘤診斷還存在局限性。如,單組學(xué)在食管癌早期篩查與診斷存在局限性,原因在于單組學(xué)數(shù)據(jù)展現(xiàn)的只是生命對(duì)象的一個(gè)視角,會(huì)引起以偏概全診斷腫瘤[61]。

    多組學(xué)數(shù)據(jù)的整合分析能更深入地了解腫瘤從一個(gè)組學(xué)級(jí)別到下一個(gè)組學(xué)級(jí)別信息流的變化,有可能揭露更多的生物學(xué)信息[2]。一些研究者已開展了多組學(xué)整合分析在腫瘤方面的研究。如,文獻(xiàn)[62-64]運(yùn)用聚類法整合多組學(xué)數(shù)據(jù),揭示了不同的肝癌分子亞型。Fu等人[65]運(yùn)用深度轉(zhuǎn)移學(xué)習(xí)方法,采用癌癥的基因組、轉(zhuǎn)錄組為數(shù)據(jù),結(jié)果顯示,該方法可以準(zhǔn)確地對(duì)29種癌癥類型分類。Li等人[66]研究發(fā)現(xiàn),MRI定量影像組學(xué)特征與多種基因檢測(cè)聯(lián)合可有效評(píng)估乳腺癌的復(fù)發(fā)風(fēng)險(xiǎn)。Mun等人[67]采用多層組學(xué)聯(lián)合分析的方法,研究80對(duì)癌和癌旁配對(duì)樣本的蛋白、基因組圖譜,為慢性胃癌的治療提供了更直接的參考。Rusch等人[68]提取78例臨床腫瘤樣本的組學(xué)數(shù)據(jù)進(jìn)行整合,找到與腫瘤相關(guān)的結(jié)構(gòu)變異、體細(xì)胞突變、致病性突變等原因。Li等人[69]采用罕見的變異檢驗(yàn)方法STAAR整合了多組學(xué)數(shù)據(jù),從大規(guī)模全基因組測(cè)序數(shù)據(jù)中找到了常見疾病與罕見疾病的關(guān)聯(lián)。Hoadley等人[70]使用iCluster對(duì)腫瘤樣本中的四種組學(xué)數(shù)據(jù)進(jìn)行了整合分析,識(shí)別出28個(gè)社團(tuán)。文昱琦[71]提出了基于異質(zhì)網(wǎng)絡(luò)重啟隨機(jī)游走的多組學(xué)數(shù)據(jù)整合算法,應(yīng)用于TCGA癌癥的多組學(xué)數(shù)據(jù)也取得了較現(xiàn)有算法更優(yōu)的效果。郭茂祖等人[72]利用聚類法集成多組學(xué)生物數(shù)據(jù),發(fā)現(xiàn)了關(guān)鍵基因模塊及其異常調(diào)控的基因集合,有助于癌癥研究。Yang等人[73]提出一種Subtype-GAN深度對(duì)抗學(xué)習(xí)方法,通過多層的神經(jīng)網(wǎng)絡(luò)提取子類型的特征,然后使用共識(shí)聚類和高斯混合模型來識(shí)別腫瘤樣本的分子亞型,準(zhǔn)確率高。Jonathan等人[74]使用VAE對(duì)結(jié)腸腺癌進(jìn)行癌癥分型,得到5種分子亞型。

    表4 基于深度學(xué)習(xí)的多組學(xué)數(shù)據(jù)整合方法對(duì)比Table 4 Comparison of multi-omics data integration methods based on deep learning

    綜上,多組學(xué)數(shù)據(jù)的整合分析在腫瘤疾病的研究方面取得了不錯(cuò)的成效。因此,有理由相信在基因組、轉(zhuǎn)錄組、蛋白組、代謝組等生命組學(xué)數(shù)據(jù)的共同支持下,未來在腫瘤識(shí)別診斷的性能和效率會(huì)更高。

    表5 不同類型多組學(xué)數(shù)據(jù)整合方法優(yōu)缺點(diǎn)對(duì)比Table 5 Comparison of advantages and disadvantages of different types of multi-omics data integration methods

    3.1.2 傳染病診療應(yīng)用

    傳染病具有傳播速度快、感染性強(qiáng)、死亡率高等特點(diǎn),細(xì)數(shù)2020年,新型冠狀病毒病(COVID-19)迅速蔓延成為全球健康挑戰(zhàn),截至2020年10月中旬,報(bào)告病例超過3 800萬例,相關(guān)死亡人數(shù)超過100萬[75]。

    當(dāng)前,利用多組學(xué)數(shù)據(jù)進(jìn)行整合分析有利于傳染病的診療。以今年影響最大的COVID-19的研究為例,Su等人[75]對(duì)139例COVID-19患者的臨床檢測(cè)、免疫細(xì)胞和血漿多組學(xué)(代謝組、蛋白組)進(jìn)行了綜合分析,可解析輕度和中度COVID-19之間的急劇變化狀態(tài),中度COVID-19可能為治療干預(yù)提供最有效的環(huán)境。Song等人[76]經(jīng)研究COVID-19患者的血漿脂質(zhì)組和代謝組發(fā)現(xiàn),用10種血漿代謝物有效區(qū)分COVID-19患者與健康者。Zhao等人[77]通過采用從4名COVID-19產(chǎn)婦和2名健康產(chǎn)婦分娩后3天的初乳樣本中得到蛋白質(zhì)組學(xué)、脂質(zhì)組學(xué)和代謝組學(xué)數(shù)據(jù),揭示了與新冠肺炎相關(guān)的母乳蛋白和代謝的顯著變化。Shen等人[78]對(duì)血清樣本中的蛋白和代謝物的相對(duì)濃度進(jìn)行了全景式的測(cè)定,從而揭露了重癥患者體內(nèi)多種獨(dú)特的分子調(diào)控。Chen等人[79]對(duì)83名受試者(16名重度病例,50名輕度病例和17名健康對(duì)照)的外周血和血漿樣本進(jìn)行了轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)和代謝組學(xué)分析,表明以基因、蛋白質(zhì)和外泌體RNA作為潛在的生物標(biāo)志物,可能有助于預(yù)測(cè)SARS-CoV-2感染。Thomas等人[80]運(yùn)用了最新的多組學(xué)整合方法,研究了COVID-19對(duì)23名健康受試者和29名新冠肺炎患者紅細(xì)胞的影響,結(jié)果表明,SARS-CoV-2感染會(huì)影響紅細(xì)胞結(jié)構(gòu)膜蛋白和脂質(zhì)水平穩(wěn)態(tài)。

    綜上,多組學(xué)數(shù)據(jù)的整合分析利于傳染病的診斷和治療,隨著多組學(xué)整合技術(shù)的提高,將對(duì)傳染病的診斷和治療做出巨大貢獻(xiàn)。

    3.1.3 藥物研發(fā)應(yīng)用

    新藥研發(fā)是一個(gè)成本高昂、周期漫長、充滿風(fēng)險(xiǎn)的過程。通常,一個(gè)新藥物從實(shí)驗(yàn)室啟動(dòng)研發(fā)到獲批上市銷售大約需要10到15年的時(shí)間[81]。在這過程中,需要分析測(cè)試數(shù)百萬個(gè)候選分子,但最終只有一個(gè)可以成藥且獲批上市銷售[82-83]。

    從分子層面深入挖掘微生物組、基因組、代謝組和蛋白質(zhì)組數(shù)據(jù),結(jié)合生理學(xué)指標(biāo)檢測(cè),可有助于藥物研發(fā)。如,Deng等人[41]提出的DDIMDL框架,利用藥物的多種組學(xué)特征,預(yù)測(cè)了藥物交互事件,從而尋找潛在有效的藥物,經(jīng)實(shí)驗(yàn)結(jié)果顯示,DDIMDL優(yōu)于現(xiàn)有的方法。Geonhee等人[84]提出一種新的深度學(xué)習(xí)模型,用1 597種藥物特征組合而成的三種相似度輪廓作為實(shí)驗(yàn)的數(shù)據(jù),結(jié)果顯示,所提出的新深度學(xué)習(xí)模型可更準(zhǔn)確地預(yù)測(cè)藥物間的相互作用。李杰[85]提出網(wǎng)絡(luò)醫(yī)學(xué)等人數(shù)據(jù)挖掘方法挖掘多組學(xué)數(shù)據(jù),該方法能夠應(yīng)用于復(fù)雜疾病治療靶標(biāo)預(yù)測(cè)及藥物基因組學(xué)研究。曼瓊等人[86]利用多組學(xué)整合方法對(duì)中醫(yī)藥毒性進(jìn)行研究,有助于發(fā)現(xiàn)中藥和復(fù)方與人體生物效應(yīng)間復(fù)雜系統(tǒng)的關(guān)系。Hu等人[87]采用卷積神經(jīng)網(wǎng)絡(luò)準(zhǔn)確地找到藥物和靶標(biāo)之間的相互作用,提取藥物間的細(xì)微特征。Chiu等人[88]利用DeepDR模型學(xué)習(xí)藥物組學(xué)特征,預(yù)測(cè)腫瘤的藥物反應(yīng),能確定新藥的耐藥性,助于新藥研發(fā)。

    綜上,在多組學(xué)數(shù)據(jù)整合方法的支持下,未來將會(huì)提高復(fù)雜疾病的藥物研發(fā)效率,助于社會(huì)醫(yī)療水平的提升。

    3.2 植物生理病理領(lǐng)域

    植物的基本組成物質(zhì)由蛋白質(zhì)、糖、脂肪和核酸以及它們的代謝物組成,這些都可以通過組學(xué)測(cè)序技術(shù)測(cè)出對(duì)應(yīng)的組學(xué)數(shù)據(jù),為植物的生理學(xué)和植物病理學(xué)方面的研究提供了數(shù)據(jù)源。本節(jié)綜述近年來多組學(xué)數(shù)據(jù)整合分析在植物生理病理領(lǐng)域的一些應(yīng)用案例。

    3.2.1 植物生理學(xué)的應(yīng)用

    植物細(xì)胞在轉(zhuǎn)錄、翻譯、代謝水平上的變化往往都會(huì)影響植物的生長和發(fā)育。多組學(xué)數(shù)據(jù)整合分析可以從不同的維度獲取植物生長發(fā)育的動(dòng)態(tài)變化情況,更好地展示細(xì)胞生命過程,進(jìn)而研究植物的生長發(fā)育復(fù)雜機(jī)制,提高了育種的效率。

    如,湯冰倩等人[89]采用轉(zhuǎn)錄組、代謝組數(shù)據(jù)預(yù)測(cè)植物表型,結(jié)果表明,多組學(xué)聯(lián)合分析提高了雜交水稻的產(chǎn)量。史關(guān)燕等人[90]綜述了基于多組學(xué)技術(shù)解析作物雜種優(yōu)勢(shì)機(jī)制研究的最新動(dòng)態(tài),總結(jié)出不同遺傳背景材料和不同性狀的雜種優(yōu)勢(shì)遺傳基礎(chǔ)解釋并不相同,單一的模式并不能完全解釋其遺傳機(jī)制。Yang等人[91]將轉(zhuǎn)錄組和代謝組聯(lián)合分析,闡明RDI(調(diào)節(jié)灌溉技術(shù))對(duì)赤霞珠漿果花青素生物合成和代謝的影響機(jī)制,RDI可以提高葡萄的花青素含量,有助于提高葡萄酒的質(zhì)量。Hu等人[92]利用多組學(xué)聯(lián)合分析揭示了褪黑素通過抑制茉莉酸的生物合成促進(jìn)銅脅迫下瓜根發(fā)育。豐美靜等人[93]用多組學(xué)聯(lián)合分析從不同的角度獲取植物生長發(fā)育各個(gè)時(shí)期的動(dòng)態(tài)變化情況,為紅豆杉細(xì)胞培養(yǎng)、紫杉醇以及紫杉醇類似物的大規(guī)模工業(yè)生產(chǎn)提供了理論基礎(chǔ)。Chen等人[94]關(guān)注水稻籽粒中發(fā)生的代謝和轉(zhuǎn)錄變化,并降低可能受到多溴二苯醚污染的農(nóng)田中的作物健康風(fēng)險(xiǎn)。Ichihashi等人[95]采用多組學(xué)綜合分析,表明有機(jī)氮通過充當(dāng)?shù)春蜕锘钚曰衔镏苯釉黾恿酥参锏纳锪?。馬愛民等人[96]利用多組學(xué)探索出番茄生長過程中代謝物變化,找到影響其生產(chǎn)重量的原因,為改良品質(zhì)做出貢獻(xiàn)。馬婷玉[97]通過組學(xué)整合對(duì)青蒿素合成的因素進(jìn)行分析,為青蒿素培育奠定了基礎(chǔ)。Zhao等人[98]整合小麥的轉(zhuǎn)錄組和代謝組數(shù)據(jù),找到調(diào)節(jié)植物鉀饑餓耐受性的候選基因,有助于研究小麥根系適應(yīng)缺鉀的分子變化。

    綜上,利用多組學(xué)整合分析能有效地研究植物的生長發(fā)育變化情況,有益于提高植物的育種效率,提高農(nóng)作物的產(chǎn)量,為世界人們帶來了很大的福音。

    3.2.2 植物病理學(xué)的應(yīng)用

    植物病理學(xué)以植物病害為研究對(duì)象,在生物化學(xué)等方面挖掘其發(fā)病的原因以及感染過程。在自然系統(tǒng)中,許多植物病原體與宿主共同進(jìn)化出拮抗關(guān)系,植物病害是調(diào)節(jié)植物種群的重要力量[99]。

    近年來,利用多組學(xué)整合分析能夠挖掘出影響植物生長的病菌,從而預(yù)防病菌對(duì)植物的影響,提高了植物的生產(chǎn)率。如,鞏校東[100]運(yùn)用多組學(xué)整合技術(shù),對(duì)大斑病菌侵染過程中玉米葉片在各個(gè)組學(xué)上的變化進(jìn)行研究,找到了與玉米響應(yīng)大斑病菌侵染過程密切相關(guān)的功能基因和代謝途徑,初步探究了玉米與大斑病菌互作過程的分子機(jī)制。畢凱[101]利用多組學(xué)整合技術(shù)深入地了解根腫菌的休眠、生長、發(fā)育和致病等生命活動(dòng),從而提出了新的根腫病的綠色防控技術(shù),減少了經(jīng)濟(jì)損失。周瑤等人[102]采用基因編輯和標(biāo)記輔助選擇策略操控等方法對(duì)多組學(xué)數(shù)據(jù)整合,從中了解小麥赤霉病寄主抗性機(jī)制,進(jìn)一步改良小麥赤霉病抗性,保障食品安全。李婷婷等人[103]運(yùn)用多組學(xué)整合技術(shù)分析得出花生中miR156::SPL的表達(dá)差異是造成在感病和抗病花生品種中類黃酮物質(zhì)代謝差異的主要原因。David等人[104]利用多組學(xué)方法挖掘出保護(hù)細(xì)胞對(duì)系統(tǒng)獲得抗藥性響應(yīng)的分子機(jī)制,增強(qiáng)植物抗病能力。Chin等人[105]利用多組學(xué)整合比較檸檬和柑橘對(duì)“亞洲白念珠菌”感染后的變化差異,有助于培育更多的品種。Kang等人[106]對(duì)小麥根的中的芽孢桿菌的多組學(xué)數(shù)據(jù)進(jìn)行分析,找到延長全蝕性疾病的發(fā)病時(shí)間。

    綜上,多組學(xué)整合分析為研究植物病害背后更復(fù)雜的機(jī)制,揭示植物疾病的多維視角,預(yù)防病害對(duì)植物生長的影響提供了技術(shù)支持。

    4 多組學(xué)數(shù)據(jù)整合分析方法存在的問題及未來展望

    隨著組學(xué)研究的不斷深入,多組學(xué)數(shù)據(jù)整合分析已經(jīng)成為發(fā)展趨勢(shì),在精準(zhǔn)醫(yī)療、植物生理病理等領(lǐng)域的研究具有十分重要的意義。

    本文通過對(duì)三個(gè)階段多組學(xué)整合方法的研究,對(duì)不同的方法進(jìn)行分類,并總結(jié)其優(yōu)勢(shì)、局限以及適用場(chǎng)景性,以及應(yīng)用情況。通過對(duì)統(tǒng)計(jì)方法、傳統(tǒng)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)方法整合多組學(xué)數(shù)據(jù)的總結(jié)及對(duì)比,可以發(fā)現(xiàn)其中存在的問題。下面將討論多組學(xué)數(shù)據(jù)整合分析方法存在的主要問題與未來研究方向。

    (1)數(shù)據(jù)集

    多組學(xué)整合分析需要用到多種組學(xué)的數(shù)據(jù)集,如,代謝組、轉(zhuǎn)錄組、基因組等組學(xué)數(shù)據(jù),這些數(shù)據(jù)結(jié)構(gòu)不同,數(shù)據(jù)類型也不同,如何能夠統(tǒng)一地表示并有效地運(yùn)用起來,是未來將要探索的一個(gè)方向。

    此外,組學(xué)數(shù)據(jù)的采集會(huì)涉及生命體的隱私與安全問題,因而目前公開的數(shù)據(jù)集較少。多組學(xué)數(shù)據(jù)進(jìn)行整合分析需要大量的組學(xué)數(shù)據(jù),如何得到大量的組學(xué)數(shù)據(jù),依目前比較先進(jìn)的技術(shù)有遷移學(xué)習(xí)、對(duì)抗生成學(xué)習(xí)等方法。但是這種模仿生成的數(shù)據(jù)不一定能準(zhǔn)確地反應(yīng)出真實(shí)的狀況,所以提高數(shù)據(jù)共享與安全是未來一個(gè)重要的研究方向。

    (2)算法模型

    組學(xué)數(shù)據(jù)具有高維度、多噪音、數(shù)據(jù)稀疏、異質(zhì)性的特點(diǎn)以及實(shí)驗(yàn)中存在數(shù)據(jù)集不平衡的問題,都會(huì)影響模型預(yù)測(cè)的精度。因此,要將不同、復(fù)雜且大規(guī)模的組學(xué)數(shù)據(jù)進(jìn)行整合,對(duì)算法模型和計(jì)算平臺(tái)的分析能力提出了較高要求。如,對(duì)于高維度、多噪音的數(shù)據(jù),目前主要方法有通過主成分分析法或自編碼器進(jìn)行降維、降噪;對(duì)于稀疏和異質(zhì)的數(shù)據(jù)需要轉(zhuǎn)換,目前可以通過回歸方法解決,但是這些方法都有著自身的缺陷,在未來仍然需要對(duì)上述問題進(jìn)行大量研究。

    現(xiàn)有的組學(xué)數(shù)據(jù)整合分析方法和算法模型已獲得一定的成功,但多是將各組學(xué)數(shù)據(jù)獨(dú)立分析后,再將結(jié)果進(jìn)行整合,其整合分析能力有限。因此,如何采用有效、高效的整合方法或算法模型對(duì)組學(xué)數(shù)據(jù)進(jìn)行統(tǒng)一整合,挖掘多組學(xué)數(shù)據(jù)中隱含的知識(shí)和規(guī)律,成為一個(gè)亟待解決的問題。

    (3)評(píng)估方法

    對(duì)于單一的組學(xué)模型訓(xùn)練出來的結(jié)果,使用的評(píng)估方法是可以根據(jù)單一的特征需求進(jìn)行評(píng)估的,但是對(duì)多組學(xué)數(shù)據(jù)而言,不同組學(xué)數(shù)據(jù)之間存在著差異性,這些差異性導(dǎo)致了評(píng)估模型的方法也不一樣,如何設(shè)置能夠兼容這些差異的評(píng)估方法成為一個(gè)比較關(guān)鍵的研究方向。

    (4)實(shí)驗(yàn)結(jié)果的可解釋性

    多組學(xué)數(shù)據(jù)整合方法的研究,主要是為精準(zhǔn)醫(yī)學(xué)、動(dòng)植物病理學(xué)等服務(wù),這些實(shí)際工作要求的可解釋性是非常高的,出現(xiàn)差錯(cuò)造成的后果將難以想象。目前的整合方法多是通過計(jì)算方法得出,不能直接應(yīng)用于這些領(lǐng)域,所以對(duì)實(shí)驗(yàn)結(jié)果的可解釋性探究也是一個(gè)重要的研究方向。

    猜你喜歡
    組學(xué)聚類預(yù)測(cè)
    無可預(yù)測(cè)
    黃河之聲(2022年10期)2022-09-27 13:59:46
    選修2-2期中考試預(yù)測(cè)卷(A卷)
    選修2-2期中考試預(yù)測(cè)卷(B卷)
    口腔代謝組學(xué)研究
    基于UHPLC-Q-TOF/MS的歸身和歸尾補(bǔ)血機(jī)制的代謝組學(xué)初步研究
    基于DBSACN聚類算法的XML文檔聚類
    不必預(yù)測(cè)未來,只需把握現(xiàn)在
    基于改進(jìn)的遺傳算法的模糊聚類算法
    代謝組學(xué)在多囊卵巢綜合征中的應(yīng)用
    一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
    美女高潮到喷水免费观看| av网站在线播放免费| 高潮久久久久久久久久久不卡| 水蜜桃什么品种好| 成年动漫av网址| 99国产综合亚洲精品| 国产一区二区三区av在线| 欧美日韩成人在线一区二区| 久久人妻熟女aⅴ| 国产亚洲精品久久久久5区| 香蕉国产在线看| 高清在线国产一区| 丝袜脚勾引网站| 精品人妻1区二区| 亚洲精品粉嫩美女一区| 中文字幕人妻熟女乱码| 精品高清国产在线一区| 欧美+亚洲+日韩+国产| 亚洲精品美女久久av网站| 久久精品亚洲av国产电影网| 丰满迷人的少妇在线观看| 黄色视频在线播放观看不卡| 免费少妇av软件| 欧美日韩亚洲综合一区二区三区_| 亚洲欧美成人综合另类久久久| 精品少妇久久久久久888优播| 激情视频va一区二区三区| 国产免费av片在线观看野外av| 99国产精品一区二区蜜桃av | 亚洲精品日韩在线中文字幕| 亚洲情色 制服丝袜| 亚洲五月色婷婷综合| 精品国产一区二区三区四区第35| 久久免费观看电影| 久久国产精品人妻蜜桃| 激情视频va一区二区三区| a级片在线免费高清观看视频| av超薄肉色丝袜交足视频| 久久久国产一区二区| 色婷婷久久久亚洲欧美| 精品一品国产午夜福利视频| 久久久久国内视频| 亚洲情色 制服丝袜| 国产精品国产三级国产专区5o| 国产精品久久久人人做人人爽| 欧美精品一区二区大全| 成人18禁高潮啪啪吃奶动态图| 一级a爱视频在线免费观看| 一区福利在线观看| 十八禁人妻一区二区| 久久久久精品国产欧美久久久 | 午夜福利免费观看在线| 十分钟在线观看高清视频www| netflix在线观看网站| 欧美+亚洲+日韩+国产| 久久精品人人爽人人爽视色| 精品久久蜜臀av无| 侵犯人妻中文字幕一二三四区| 精品人妻在线不人妻| 国产伦人伦偷精品视频| 亚洲一卡2卡3卡4卡5卡精品中文| 狂野欧美激情性bbbbbb| 国产精品国产三级国产专区5o| 日韩精品免费视频一区二区三区| 亚洲精品粉嫩美女一区| 最新的欧美精品一区二区| 极品人妻少妇av视频| 男女边摸边吃奶| 午夜老司机福利片| 777米奇影视久久| av片东京热男人的天堂| √禁漫天堂资源中文www| av国产精品久久久久影院| 国产精品久久久久成人av| 国产无遮挡羞羞视频在线观看| 午夜福利视频在线观看免费| 免费在线观看完整版高清| 狠狠婷婷综合久久久久久88av| 亚洲五月婷婷丁香| 成人国产av品久久久| 99香蕉大伊视频| 国产高清videossex| 一区二区三区四区激情视频| 国产免费视频播放在线视频| 中文字幕高清在线视频| 亚洲欧美一区二区三区久久| 日韩 亚洲 欧美在线| 一边摸一边抽搐一进一出视频| 侵犯人妻中文字幕一二三四区| 婷婷色av中文字幕| 久久精品国产a三级三级三级| 久久亚洲精品不卡| 国产三级黄色录像| cao死你这个sao货| av福利片在线| 精品一区在线观看国产| 国产成+人综合+亚洲专区| 激情视频va一区二区三区| 国产淫语在线视频| 午夜福利免费观看在线| 色精品久久人妻99蜜桃| 99久久精品国产亚洲精品| 亚洲国产精品一区三区| 国产日韩欧美视频二区| 欧美日韩中文字幕国产精品一区二区三区 | 人人妻人人爽人人添夜夜欢视频| e午夜精品久久久久久久| 亚洲自偷自拍图片 自拍| 日韩视频在线欧美| 亚洲精华国产精华精| 久久影院123| 在线观看www视频免费| 日本黄色日本黄色录像| 狂野欧美激情性xxxx| 久久久久网色| 日韩欧美一区视频在线观看| 成人黄色视频免费在线看| 99国产精品99久久久久| 男女无遮挡免费网站观看| 亚洲精华国产精华精| 青青草视频在线视频观看| 老熟妇仑乱视频hdxx| 久久精品人人爽人人爽视色| 国产97色在线日韩免费| av一本久久久久| 日韩欧美一区二区三区在线观看 | 高清视频免费观看一区二区| 精品国产乱码久久久久久男人| 日本av免费视频播放| av又黄又爽大尺度在线免费看| 少妇猛男粗大的猛烈进出视频| 亚洲欧美激情在线| 欧美在线黄色| 国产精品.久久久| 亚洲天堂av无毛| 黑人猛操日本美女一级片| 热99国产精品久久久久久7| 亚洲伊人色综图| 日本精品一区二区三区蜜桃| 十分钟在线观看高清视频www| 老熟妇乱子伦视频在线观看 | 777米奇影视久久| 黑人巨大精品欧美一区二区mp4| a级片在线免费高清观看视频| 精品国产乱码久久久久久小说| 亚洲专区字幕在线| av视频免费观看在线观看| 青草久久国产| 99国产精品一区二区三区| 久久久精品免费免费高清| 男人操女人黄网站| 成年人午夜在线观看视频| kizo精华| 最新在线观看一区二区三区| a 毛片基地| 深夜精品福利| 可以免费在线观看a视频的电影网站| 一级黄色大片毛片| 黄色视频,在线免费观看| 欧美一级毛片孕妇| 12—13女人毛片做爰片一| 黑丝袜美女国产一区| 亚洲欧洲日产国产| 国产欧美日韩一区二区三区在线| 亚洲激情五月婷婷啪啪| 精品亚洲成国产av| 宅男免费午夜| 成人国产av品久久久| 三上悠亚av全集在线观看| 狠狠婷婷综合久久久久久88av| 成人影院久久| 在线观看一区二区三区激情| 99香蕉大伊视频| 99国产精品一区二区三区| 久久亚洲国产成人精品v| 热99re8久久精品国产| 欧美国产精品va在线观看不卡| 亚洲第一青青草原| 中文字幕色久视频| 精品少妇一区二区三区视频日本电影| 少妇裸体淫交视频免费看高清 | 欧美97在线视频| 在线十欧美十亚洲十日本专区| 精品人妻在线不人妻| 国产欧美日韩综合在线一区二区| 男人爽女人下面视频在线观看| 午夜福利,免费看| 亚洲国产av新网站| 建设人人有责人人尽责人人享有的| 午夜福利在线免费观看网站| 亚洲国产精品一区三区| 亚洲国产看品久久| 亚洲熟女精品中文字幕| av在线播放精品| 99国产极品粉嫩在线观看| 视频区欧美日本亚洲| 国产av又大| 一本大道久久a久久精品| 久久久精品免费免费高清| 人人妻人人澡人人看| 777久久人妻少妇嫩草av网站| 捣出白浆h1v1| 夫妻午夜视频| 亚洲伊人色综图| 亚洲精品美女久久久久99蜜臀| av有码第一页| 曰老女人黄片| 不卡一级毛片| 亚洲精品久久成人aⅴ小说| 中文字幕另类日韩欧美亚洲嫩草| 亚洲伊人久久精品综合| 亚洲欧美一区二区三区久久| 国产日韩欧美亚洲二区| 久久中文字幕一级| 日韩中文字幕视频在线看片| 一本大道久久a久久精品| 搡老岳熟女国产| 亚洲欧美精品自产自拍| 亚洲成国产人片在线观看| 国产精品熟女久久久久浪| 亚洲精品久久成人aⅴ小说| 亚洲精品自拍成人| 国产日韩一区二区三区精品不卡| 妹子高潮喷水视频| 十八禁网站网址无遮挡| 欧美日韩福利视频一区二区| 日本av手机在线免费观看| 欧美精品高潮呻吟av久久| 亚洲美女黄色视频免费看| 国产免费一区二区三区四区乱码| 国产91精品成人一区二区三区 | 欧美大码av| 新久久久久国产一级毛片| 亚洲精品久久久久久婷婷小说| 女人爽到高潮嗷嗷叫在线视频| 欧美黄色片欧美黄色片| 99热网站在线观看| 少妇粗大呻吟视频| 黄片大片在线免费观看| 亚洲一区中文字幕在线| 欧美日韩亚洲综合一区二区三区_| 久久久久久久久免费视频了| 久久精品国产亚洲av香蕉五月 | 国产一区二区三区av在线| 在线十欧美十亚洲十日本专区| 啦啦啦 在线观看视频| 午夜成年电影在线免费观看| 久久国产精品男人的天堂亚洲| 别揉我奶头~嗯~啊~动态视频 | 久久香蕉激情| 精品国产超薄肉色丝袜足j| 性色av乱码一区二区三区2| 国精品久久久久久国模美| 人妻 亚洲 视频| 性少妇av在线| 免费日韩欧美在线观看| 国产无遮挡羞羞视频在线观看| 国产精品秋霞免费鲁丝片| 久久久国产一区二区| 我要看黄色一级片免费的| 午夜精品国产一区二区电影| 性高湖久久久久久久久免费观看| 日本vs欧美在线观看视频| 一本大道久久a久久精品| 日韩电影二区| 一级,二级,三级黄色视频| 亚洲国产精品一区三区| 999久久久国产精品视频| 最近中文字幕2019免费版| 首页视频小说图片口味搜索| 五月天丁香电影| 国产欧美日韩一区二区三 | 亚洲欧洲日产国产| 欧美亚洲日本最大视频资源| 天天添夜夜摸| 亚洲avbb在线观看| 水蜜桃什么品种好| 99精品欧美一区二区三区四区| 久久亚洲国产成人精品v| 欧美黄色片欧美黄色片| e午夜精品久久久久久久| 黄网站色视频无遮挡免费观看| 亚洲性夜色夜夜综合| 亚洲精品乱久久久久久| 在线观看www视频免费| 国产成人精品在线电影| 两人在一起打扑克的视频| 精品久久久精品久久久| h视频一区二区三区| 免费女性裸体啪啪无遮挡网站| 黑人欧美特级aaaaaa片| 亚洲精品一区蜜桃| 日韩人妻精品一区2区三区| 午夜免费鲁丝| 啦啦啦免费观看视频1| 午夜精品久久久久久毛片777| 在线 av 中文字幕| 啦啦啦 在线观看视频| 自拍欧美九色日韩亚洲蝌蚪91| 99国产精品一区二区三区| www.999成人在线观看| 美女扒开内裤让男人捅视频| 亚洲精品第二区| 国产欧美亚洲国产| 亚洲综合色网址| 12—13女人毛片做爰片一| 纵有疾风起免费观看全集完整版| 亚洲 欧美一区二区三区| 精品亚洲成a人片在线观看| 日韩大码丰满熟妇| 亚洲av成人一区二区三| 日本91视频免费播放| 黄片大片在线免费观看| 亚洲专区字幕在线| 搡老岳熟女国产| 一区在线观看完整版| 亚洲一区中文字幕在线| 亚洲国产毛片av蜜桃av| 午夜福利在线观看吧| 少妇猛男粗大的猛烈进出视频| 国产精品香港三级国产av潘金莲| 黄片大片在线免费观看| 精品久久久精品久久久| 久久中文看片网| 亚洲av男天堂| 不卡一级毛片| 人人妻人人爽人人添夜夜欢视频| 久久久久久久久久久久大奶| 一级片'在线观看视频| 久久精品亚洲熟妇少妇任你| 亚洲精品一二三| 免费人妻精品一区二区三区视频| 夜夜骑夜夜射夜夜干| 国产精品二区激情视频| 自拍欧美九色日韩亚洲蝌蚪91| 12—13女人毛片做爰片一| 亚洲av欧美aⅴ国产| 亚洲国产欧美网| 亚洲精品一二三| 精品久久蜜臀av无| 国产精品久久久久久精品古装| 午夜福利免费观看在线| 在线av久久热| 曰老女人黄片| 日韩三级视频一区二区三区| 亚洲精品久久久久久婷婷小说| 午夜久久久在线观看| 欧美性长视频在线观看| 好男人电影高清在线观看| 日韩三级视频一区二区三区| 99热国产这里只有精品6| 日韩一区二区三区影片| 91av网站免费观看| 黄色a级毛片大全视频| 日韩 欧美 亚洲 中文字幕| 90打野战视频偷拍视频| 大型av网站在线播放| 桃红色精品国产亚洲av| 操出白浆在线播放| 精品欧美一区二区三区在线| 一级毛片电影观看| av在线播放精品| 免费在线观看视频国产中文字幕亚洲 | 亚洲avbb在线观看| 黑人欧美特级aaaaaa片| 中文字幕高清在线视频| 热99国产精品久久久久久7| 亚洲熟女毛片儿| 国产深夜福利视频在线观看| 男女无遮挡免费网站观看| 亚洲av美国av| 最近中文字幕2019免费版| 最近最新免费中文字幕在线| 欧美日韩视频精品一区| 夜夜夜夜夜久久久久| 欧美少妇被猛烈插入视频| 一区二区三区四区激情视频| 老司机深夜福利视频在线观看 | 久久久国产精品麻豆| 精品久久久久久电影网| a 毛片基地| 久久人妻福利社区极品人妻图片| 精品少妇久久久久久888优播| 久久久久网色| 每晚都被弄得嗷嗷叫到高潮| 丁香六月天网| 人妻一区二区av| 肉色欧美久久久久久久蜜桃| 最新的欧美精品一区二区| 极品人妻少妇av视频| 正在播放国产对白刺激| 男男h啪啪无遮挡| 97精品久久久久久久久久精品| 伊人久久大香线蕉亚洲五| 在线观看免费视频网站a站| 亚洲精品美女久久av网站| 满18在线观看网站| 亚洲色图 男人天堂 中文字幕| 狂野欧美激情性xxxx| 精品国产乱子伦一区二区三区 | 精品少妇黑人巨大在线播放| 国产亚洲精品久久久久5区| 91国产中文字幕| 少妇的丰满在线观看| 一级毛片女人18水好多| 亚洲国产精品成人久久小说| 成年av动漫网址| 亚洲视频免费观看视频| 91av网站免费观看| 美女主播在线视频| 夫妻午夜视频| 一本久久精品| 悠悠久久av| 80岁老熟妇乱子伦牲交| 91成年电影在线观看| 黄片大片在线免费观看| 中文精品一卡2卡3卡4更新| 久久青草综合色| 亚洲专区国产一区二区| 精品人妻1区二区| 99精品欧美一区二区三区四区| 亚洲七黄色美女视频| 国产极品粉嫩免费观看在线| 久久ye,这里只有精品| 超碰成人久久| 成人国产一区最新在线观看| 亚洲成人国产一区在线观看| 91av网站免费观看| 免费在线观看黄色视频的| 久久ye,这里只有精品| 女性被躁到高潮视频| 亚洲精品一区蜜桃| 日本黄色日本黄色录像| 亚洲精品日韩在线中文字幕| 国产国语露脸激情在线看| 2018国产大陆天天弄谢| 国产99久久九九免费精品| www日本在线高清视频| 超碰97精品在线观看| 国产野战对白在线观看| 亚洲成av片中文字幕在线观看| 久久av网站| 中文字幕人妻丝袜制服| 丝袜人妻中文字幕| 18禁裸乳无遮挡动漫免费视频| 黄片播放在线免费| 午夜91福利影院| 国产精品国产三级国产专区5o| 欧美av亚洲av综合av国产av| 19禁男女啪啪无遮挡网站| 永久免费av网站大全| 欧美日韩福利视频一区二区| 免费av中文字幕在线| 国产免费视频播放在线视频| 国产精品久久久久久精品电影小说| 成人国产一区最新在线观看| 国产不卡av网站在线观看| 男女之事视频高清在线观看| 成人黄色视频免费在线看| 国产一区二区 视频在线| 亚洲精品第二区| 两个人免费观看高清视频| 大型av网站在线播放| 亚洲国产欧美在线一区| 精品久久久精品久久久| 女人高潮潮喷娇喘18禁视频| 女性生殖器流出的白浆| av福利片在线| 国产成人免费无遮挡视频| 男人舔女人的私密视频| 免费在线观看黄色视频的| 午夜视频精品福利| 两性夫妻黄色片| 久久人人爽人人片av| 一个人免费在线观看的高清视频 | 欧美人与性动交α欧美软件| 欧美老熟妇乱子伦牲交| 操美女的视频在线观看| 麻豆乱淫一区二区| 纵有疾风起免费观看全集完整版| 在线 av 中文字幕| 国产欧美日韩精品亚洲av| 视频区图区小说| 搡老熟女国产l中国老女人| 99国产极品粉嫩在线观看| 叶爱在线成人免费视频播放| 一本—道久久a久久精品蜜桃钙片| 又黄又粗又硬又大视频| 天天影视国产精品| 欧美在线一区亚洲| 夫妻午夜视频| 国产精品国产三级国产专区5o| 高清视频免费观看一区二区| 欧美人与性动交α欧美精品济南到| 亚洲 欧美一区二区三区| 好男人电影高清在线观看| 99国产综合亚洲精品| 亚洲成国产人片在线观看| 国产老妇伦熟女老妇高清| 久热这里只有精品99| 午夜激情久久久久久久| 人人妻,人人澡人人爽秒播| 性少妇av在线| 日韩制服丝袜自拍偷拍| 一区二区三区精品91| 五月天丁香电影| 久久精品人人爽人人爽视色| 91大片在线观看| 日本欧美视频一区| 99香蕉大伊视频| 侵犯人妻中文字幕一二三四区| 日韩欧美免费精品| 日日爽夜夜爽网站| 19禁男女啪啪无遮挡网站| 国产日韩一区二区三区精品不卡| 久久久久久久国产电影| 黄频高清免费视频| 亚洲欧洲精品一区二区精品久久久| 国产无遮挡羞羞视频在线观看| 午夜福利在线免费观看网站| 熟女少妇亚洲综合色aaa.| 国产亚洲一区二区精品| 日韩熟女老妇一区二区性免费视频| 日韩大片免费观看网站| 亚洲精品第二区| 日韩熟女老妇一区二区性免费视频| 一本—道久久a久久精品蜜桃钙片| 九色亚洲精品在线播放| 久久久久精品人妻al黑| 亚洲成国产人片在线观看| 一级黄色大片毛片| av有码第一页| 熟女少妇亚洲综合色aaa.| 国产无遮挡羞羞视频在线观看| 精品久久久久久久毛片微露脸 | 欧美大码av| 韩国精品一区二区三区| 久久人妻熟女aⅴ| 青青草视频在线视频观看| 精品亚洲成国产av| 十八禁人妻一区二区| 亚洲欧美一区二区三区久久| 亚洲精品久久成人aⅴ小说| 99香蕉大伊视频| 一边摸一边抽搐一进一出视频| 十八禁网站网址无遮挡| 国产成人欧美在线观看 | 国产伦理片在线播放av一区| 日韩制服骚丝袜av| 一二三四在线观看免费中文在| 大香蕉久久网| 欧美中文综合在线视频| 纯流量卡能插随身wifi吗| 亚洲精品中文字幕一二三四区 | 亚洲av男天堂| 一区二区三区激情视频| 美女脱内裤让男人舔精品视频| 国产男人的电影天堂91| 欧美日韩亚洲高清精品| 国产成人精品久久二区二区91| 一区二区三区四区激情视频| 精品国产一区二区三区四区第35| 一区二区三区精品91| 国产精品久久久久成人av| 18禁国产床啪视频网站| e午夜精品久久久久久久| 国产成人av激情在线播放| 日韩大码丰满熟妇| 国产免费一区二区三区四区乱码| 热99久久久久精品小说推荐| 日韩一卡2卡3卡4卡2021年| 日韩中文字幕欧美一区二区| 国产伦人伦偷精品视频| 国精品久久久久久国模美| 少妇被粗大的猛进出69影院| 国产成人免费观看mmmm| 欧美日韩黄片免| 老鸭窝网址在线观看| 天天躁日日躁夜夜躁夜夜| 中文字幕人妻丝袜一区二区| 亚洲精品国产一区二区精华液| 丝瓜视频免费看黄片| 久久精品亚洲av国产电影网| 五月天丁香电影| 老司机影院毛片| 黄色怎么调成土黄色| 考比视频在线观看| 一本色道久久久久久精品综合| 亚洲精品中文字幕在线视频| cao死你这个sao货| 精品久久久精品久久久| 欧美日本中文国产一区发布| 久久久久精品国产欧美久久久 | 欧美午夜高清在线| 亚洲第一欧美日韩一区二区三区 | 亚洲av男天堂| 狠狠精品人妻久久久久久综合| 在线观看免费日韩欧美大片| www日本在线高清视频| 黑丝袜美女国产一区| 日日摸夜夜添夜夜添小说| 午夜福利,免费看| www.熟女人妻精品国产| 日韩视频在线欧美| 桃花免费在线播放| 欧美+亚洲+日韩+国产| 亚洲熟女精品中文字幕| 亚洲成人免费电影在线观看| 天天操日日干夜夜撸| 免费在线观看视频国产中文字幕亚洲 | 日韩,欧美,国产一区二区三区| av天堂久久9| 午夜福利一区二区在线看| 欧美日韩亚洲国产一区二区在线观看 | 脱女人内裤的视频|