侯祥英,崔運(yùn)鵬,劉 娟
(1.淄博市農(nóng)業(yè)科學(xué)研究院,淄博 255020;2.農(nóng)業(yè)農(nóng)村部農(nóng)業(yè)大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室,中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081)
植物基因組學(xué)分析與育種的研究目標(biāo)是對(duì)植物全生命周期的信息流進(jìn)行研究。該信息流從基因組DNA序列分析開始,并在植物表型研究或作物物種、農(nóng)藝性狀等方面的研究結(jié)束。介于基因?qū)用婧椭参锉硇蛯用嫘畔⒅g的是通過轉(zhuǎn)錄和翻譯傳遞的信息流,這就是弗朗西斯·克里克(FRANCIS)提出的 “分子生物學(xué)中心法則”[1]。中心法則中的每一步都不僅可以看作是傳遞,還可以看作是前一步遺傳信息的轉(zhuǎn)化。所涉及的分子特征統(tǒng)稱為 “分子表型”,以將它們與終端特征區(qū)分開來。隨著單細(xì)胞測(cè)序、高通量測(cè)序技術(shù)的突破,植物基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白組學(xué)、代謝組學(xué)等生物多組學(xué)也取得了巨大進(jìn)步,可以大規(guī)模低成本地獲取參與信息傳遞的多維分子表型,包括DNA、RNA 和蛋白質(zhì)中元素的結(jié)構(gòu)、修飾、功能和進(jìn)化,以及它們之間的相互作用。海量生物組表型數(shù)據(jù)進(jìn)一步促進(jìn)了基于中心法則的信息傳輸和轉(zhuǎn)換的細(xì)粒度剖析。對(duì)植物信息流的全方位研究對(duì)于基因組學(xué)基礎(chǔ)研究和作物改良都有重大意義,例如研究識(shí)別與特定表型變異(人工誘變或自然變異)相關(guān)的基因組變異或者兩者之間的因果關(guān)系。然而,分子表型中的豐富信息在很大程度上尚未得到有效探索,這使得從DNA 序列到植物表型的端到端機(jī)制理解變得很困難。
隨著深度學(xué)習(xí)與大數(shù)據(jù)技術(shù)的快速發(fā)展,開啟了分子表型和植物表型研究的智能化研究時(shí)代。例如,通過深度學(xué)習(xí)的關(guān)聯(lián)分析,可進(jìn)行全轉(zhuǎn)錄組關(guān)聯(lián)研究(TWAS),具有更短的信息傳遞路徑和更少的信息轉(zhuǎn)換步驟[2]。此外通過深度學(xué)習(xí)模型可以直接從上游分子表型或從基因組DNA 序列預(yù)測(cè)分子表型[3]。本研究在概述深度學(xué)習(xí)概念方法的基礎(chǔ)上,對(duì)近年來深度學(xué)習(xí)在分子表型建模與變異研究的應(yīng)用場(chǎng)景和最新進(jìn)展進(jìn)行總結(jié)、概括和分析。同時(shí),分析了深度學(xué)習(xí)方法在作物遺傳改良中的應(yīng)用,以期為相關(guān)研究人員提供參考。
深度學(xué)習(xí)本質(zhì)上是基于線性回歸和一些激活函數(shù)的諸多分類器協(xié)同工作。深度學(xué)習(xí)中有很多神經(jīng)節(jié)點(diǎn),而不是傳統(tǒng)統(tǒng)計(jì)學(xué)習(xí)中只有一個(gè)線性回歸節(jié)點(diǎn)。在深度學(xué)習(xí)中,輸入和輸出之間有很多層。輸入和輸出之間的層稱為隱藏層,節(jié)點(diǎn)稱為隱藏節(jié)點(diǎn)。神經(jīng)網(wǎng)絡(luò)中的一個(gè)重要因素是受人類神經(jīng)激發(fā)啟發(fā)的激活函數(shù),用于生成輸入和輸出之間的非線性關(guān)系。常用的激活函數(shù)例如Sigmoid、Hyperbolic Tangent、ReLU。激活函數(shù)的作用是將數(shù)據(jù)轉(zhuǎn)換和抽象成一個(gè)更可分類的平面。深度學(xué)習(xí)分類器需要借助梯度下降等數(shù)學(xué)工具來學(xué)習(xí)參數(shù),尤其是在學(xué)習(xí)凸函數(shù)參數(shù)時(shí)效果顯著。學(xué)習(xí)是通過最小化預(yù)測(cè)值和實(shí)際值之間的誤差來完成的。本研究重點(diǎn)對(duì)深度學(xué)習(xí)的主流模型的架構(gòu)和特征進(jìn)行介紹,包括自動(dòng)編碼器、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、生成對(duì)抗網(wǎng)絡(luò)以及圖神經(jīng)網(wǎng)絡(luò)等。
自動(dòng)編碼器(AutoEncoder)主要由編碼器、解碼器和隱藏層組成。自動(dòng)編碼器首先對(duì)輸入信號(hào)進(jìn)行編碼,然后使用編碼信號(hào)重建初始信號(hào)。該編碼信號(hào)可以最小化初始信號(hào)和重構(gòu)信號(hào)之間的誤差。在編碼和重構(gòu)的過程中,編碼器將輸入數(shù)據(jù)映射到特定的特征空間。解碼器將編碼信號(hào)的特征映射回?cái)?shù)據(jù)空間,然后重構(gòu)初始數(shù)據(jù)。自動(dòng)編碼器的3 個(gè)重要變體包括:稀疏自動(dòng)編碼器(Sparse Auto Encoder,SAE)、去噪自動(dòng)編碼器(Denoising Auto Encoder,DAE)和收縮自動(dòng)編碼器(Contractive Auto Encoder,CAE)。
卷積神經(jīng)網(wǎng)絡(luò)具有共享權(quán)限的網(wǎng)絡(luò)結(jié)構(gòu),可以有效降低網(wǎng)絡(luò)模型的復(fù)雜度,同時(shí)也減少了權(quán)重的數(shù)量。處理高維圖像效率更高,可以直接將圖像作為整個(gè)網(wǎng)絡(luò)的輸入,有效避免傳統(tǒng)算法復(fù)雜的特征提取和重構(gòu)。作為一個(gè)多層神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中的每一層由若干個(gè)二維平面組成,每個(gè)平面都有獨(dú)立的神經(jīng)元。卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)主要依靠共享權(quán)重、局部滑動(dòng)窗口、下采樣來保證輸入數(shù)據(jù)的不變性。卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程分為兩個(gè)階段。第一階段是前向訓(xùn)練階段,由3 個(gè)步驟組成:根據(jù)給定的樣本集隨機(jī)選擇樣本;將樣本作為初始數(shù)據(jù)放入網(wǎng)絡(luò);計(jì)算相應(yīng)的輸出數(shù)據(jù)。第二階段是反向傳播階段,包括兩個(gè)步驟:計(jì)算理想數(shù)據(jù)信息與輸出數(shù)據(jù)信息的差值;根據(jù)反向傳輸?shù)恼`差最小化方法調(diào)整權(quán)重矩陣。
與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)不同,RNN 利用了網(wǎng)絡(luò)中的序列信息。這一特性在許多應(yīng)用中是至關(guān)重要的,包括DNA 序列。在這些應(yīng)用中,數(shù)據(jù)序列中的嵌入式結(jié)構(gòu)傳達(dá)了有用的知識(shí)。RNN 學(xué)習(xí)方式通過使用特定形式的存儲(chǔ)器來模擬學(xué)習(xí)的知識(shí)隨時(shí)間的動(dòng)態(tài)變化,不僅分析當(dāng)前的輸入,而且對(duì)前序內(nèi)容具備記憶能力。一個(gè)RNN 可以被看作是短期記憶單元,包括輸入層x、隱藏(狀態(tài))層s 和輸出層y,包括深度 “輸入到隱藏” “隱藏到輸出” 和 “隱藏到隱藏” 3 種模式。RNN 的一個(gè)主要問題是它對(duì)梯度消失和爆炸的敏感性。由于在訓(xùn)練過程中大量的小導(dǎo)數(shù)或大導(dǎo)數(shù)的乘法,梯度可能會(huì)衰減或爆炸。這種敏感性隨著時(shí)間的推移而降低,意味著網(wǎng)絡(luò)隨著新輸入的進(jìn)入而忘記了最初的輸入。因此,LSTM 被用來處理這個(gè)問題,在其遞歸連接中提供記憶塊。每個(gè)記憶塊包括存儲(chǔ)網(wǎng)絡(luò)時(shí)間狀態(tài)的記憶單元,以及控制信息流的門控單元。
生成對(duì)抗網(wǎng)絡(luò)是基于博弈論的生成模型類。生成對(duì)抗網(wǎng)絡(luò)沒有明確地對(duì)數(shù)據(jù)分布進(jìn)行建模,而是從中對(duì)樣本進(jìn)行建模。通過深度神經(jīng)網(wǎng)絡(luò)進(jìn)行采樣,神經(jīng)網(wǎng)絡(luò)將隨機(jī)噪聲作為輸入,并將其轉(zhuǎn)化為模型分布。生成對(duì)抗網(wǎng)絡(luò)由兩個(gè)神經(jīng)網(wǎng)絡(luò)組成:一種稱為生成器;另一種稱為鑒別器。這個(gè)模型被稱為對(duì)抗模型,因?yàn)樯善鞑粩嗟卦噲D欺騙鑒別器,讓其相信輸入來自訓(xùn)練數(shù)據(jù)(真實(shí)數(shù)據(jù)),而鑒別器總是區(qū)分兩者。這兩個(gè)神經(jīng)網(wǎng)絡(luò)試圖相互對(duì)抗。在獲取這兩個(gè)輸入后,誤差函數(shù)輸出特定樣本是真的還是假的概率,用于訓(xùn)練生成器和鑒別器的權(quán)重。
深度學(xué)習(xí)或傳統(tǒng)機(jī)器學(xué)習(xí)僅以向量的形式考慮歐幾里得平面中的數(shù)據(jù),例如圖像、音頻等。然而,圖數(shù)據(jù)集具有以下4 個(gè)不同特征,導(dǎo)致傳統(tǒng)機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法在圖數(shù)據(jù)領(lǐng)域應(yīng)用的失效。
(1)不規(guī)則域圖表示不規(guī)則域或非歐幾里得數(shù)據(jù),并不能像圖像和音頻一樣,可以很容易地在歐幾里得平。面或網(wǎng)格狀結(jié)構(gòu)中表示。導(dǎo)致許多數(shù)學(xué)運(yùn)算不能直接應(yīng)用于圖數(shù)據(jù)。
(2)非靜態(tài)結(jié)構(gòu)。圖可能具有不同的形狀和結(jié)構(gòu),例如齊次、非齊次、有符號(hào)、無符號(hào)圖等。圖的細(xì)粒度可以以節(jié)點(diǎn)為中心(即鏈接預(yù)測(cè)、節(jié)點(diǎn)排名等)、或者以圖為中心(例如圖生成、圖分類等)等。最常用的圖表示方法是使用鄰接矩陣。由于添加或刪除節(jié)點(diǎn)后其形狀會(huì)發(fā)生變化。
(3)可擴(kuò)展性和并行化。圖可能有數(shù)百萬個(gè)節(jié)點(diǎn)和數(shù)十億條邊,龐大的數(shù)據(jù)成為傳統(tǒng)深度學(xué)習(xí)模型訓(xùn)練的障礙,尤其是具有許多節(jié)點(diǎn)和隱藏層的模型。同時(shí)由于圖中的每個(gè)節(jié)點(diǎn)都攜帶一些關(guān)于圖中其他節(jié)點(diǎn)的信息,算法并行化也面臨很多挑戰(zhàn)。
(4)領(lǐng)域特定知識(shí)。在圖上學(xué)習(xí)可能還需要了解領(lǐng)域特定知識(shí)。例如 “藥物-靶標(biāo)” 相互作用預(yù)測(cè)任務(wù),其中藥物化學(xué)分子結(jié)構(gòu)可能有助于更好地預(yù)測(cè)。其他額外信息可能有助于將藥物副作用作為特征進(jìn)行預(yù)測(cè)。
圖神經(jīng)網(wǎng)絡(luò)是一種輸入為圖數(shù)據(jù)而不是向量的神經(jīng)網(wǎng)絡(luò)。它學(xué)習(xí)表示每個(gè)節(jié)點(diǎn)的特征,進(jìn)一步生成的特征可以用于任何與圖相關(guān)的問題,例如節(jié)點(diǎn)分類、圖分類、聚類等。每個(gè)節(jié)點(diǎn)的特征包含節(jié)點(diǎn)本身的特征與其鄰居節(jié)點(diǎn)信息。
當(dāng)前基于圖神經(jīng)網(wǎng)絡(luò),開發(fā)了許多衍生的深度學(xué)習(xí)模型,例如圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)和GaphSage等。圖卷積神經(jīng)網(wǎng)絡(luò)分3 步運(yùn)行:卷積核、池化和Flattening。
根據(jù)圖神經(jīng)網(wǎng)絡(luò)中的不同核函數(shù),可將圖卷積神經(jīng)網(wǎng)絡(luò)分為兩種類型:①空間方法。這類卷積運(yùn)算不需要圖的特征值。典型的工作包括GAT 和GaphSage。②譜方法。這類方法基于特征值,考慮了整個(gè)圖結(jié)構(gòu)以及各個(gè)圖組件。
可解釋人工智能(Explainable AI,XAI)是以可理解的方式向人類解釋,并呈現(xiàn)智能系統(tǒng)行為與決策的新一代人工智能。近年來,從模型內(nèi)外2 個(gè)角度對(duì)XAI 模型的可解釋問題提出了兩大解決方案,包括“模型自身可解釋” 和 “模型以外可解釋”。前者是通過直接設(shè)計(jì)具有內(nèi)在可解釋性的算法實(shí)現(xiàn)模型的可解釋功能,包括線性回歸、邏輯回歸在內(nèi)的廣義線性模型,以及梯度增強(qiáng)機(jī)、隨機(jī)森林、極端梯度提升在內(nèi)的樹集成模型;后者將模型預(yù)測(cè)與解釋分開,主要包括可視化解釋、影響方法、基于實(shí)例的解釋、基于知識(shí)的解釋4 種技術(shù)類型。
可視化解釋是探尋深度神經(jīng)網(wǎng)絡(luò)等復(fù)雜模型內(nèi)部工作機(jī)制最直接的途徑,其技術(shù)方法主要包括:代理模型、部分依賴圖(Partial Dependence Plot,PDP)和個(gè)體條件期望(Individual Conditional Expectation,ICE)。代理模型即用來解釋復(fù)雜模型的簡單模型,雖然計(jì)算量小,但其計(jì)算結(jié)果和高精度模型的計(jì)算分析結(jié)果相近。PDP 是一種圖形表示,有助于可視化特定特征對(duì)機(jī)器學(xué)習(xí)模型預(yù)測(cè)結(jié)果的平均邊際影響。ICE 是一種與PDP 類似的圖形表示,能深入到單個(gè)樣本,分析某一特征變化對(duì)單個(gè)樣本的影響,并給出每個(gè)樣本的預(yù)測(cè)值。影響方法通過更改模型輸入或內(nèi)部參數(shù)來評(píng)估特征的重要性或相關(guān)性,并記錄特征更改對(duì)模型性能的影響程度,以解釋模型決策。影響方法主要有敏感性分析、層級(jí)相關(guān)性傳播和特征重要性3 種。敏感性分析通過使每個(gè)特征在可能的范圍內(nèi)變動(dòng)來預(yù)測(cè)這些特征的變化對(duì)模型輸出值的影響程度。層級(jí)相關(guān)性傳播將模型決策的重要性信號(hào)從模型的輸出層神經(jīng)元逐層傳播到模型的輸入層,使模型的決策結(jié)果可在特征上找到解釋,得到每個(gè)特征參與分類決策的貢獻(xiàn)大小。特征重要性則是通過改變特征值,計(jì)算模型預(yù)測(cè)誤差的變化,從而量化每個(gè)輸入變量對(duì)模型預(yù)測(cè)結(jié)果的貢獻(xiàn)。基于實(shí)例的解釋技術(shù)通過選擇數(shù)據(jù)集的特定實(shí)例來解釋AI 模型的行為,包括原型和批評(píng)解釋,以及反事實(shí)解釋。原型是指從數(shù)據(jù)集中選擇的具有代表性的實(shí)例,數(shù)據(jù)集中的實(shí)例關(guān)系是由與原型的相似性決定的。為了避免過度泛化,數(shù)據(jù)集也需要展示批評(píng)點(diǎn),即不能被一組原型有效代表的實(shí)例。模型可預(yù)測(cè)原型和批評(píng)的結(jié)果,以解釋模型決策,并發(fā)現(xiàn)模型算法的弱點(diǎn)。反事實(shí)解釋描述了一種因果關(guān)系,即 “如果沒有輸入特征X,則預(yù)測(cè)結(jié)果Y 不會(huì)發(fā)生”,通過對(duì)原始實(shí)例的輸入特征進(jìn)行最小條件的更改,以獲得不同預(yù)定輸出結(jié)果的新實(shí)例,從而解釋模型的決策行為。LIME 方法對(duì)模型進(jìn)行局部可解釋性分析。該方法通過擾動(dòng)圖片中的像素塊觀察模型預(yù)測(cè)性能的變化,如果模型預(yù)測(cè)性能下降,證明所刪除的像素塊是一個(gè)重要特征,實(shí)現(xiàn)對(duì)模型決策過程的解釋?;贕rad-CAM 的CNN 可解釋方法,利用加權(quán)梯度類激活映射顯示出圖像中對(duì)結(jié)果產(chǎn)生重要影響的區(qū)域。基于知識(shí)的解釋主要包括提取內(nèi)部知識(shí)和引入外部知識(shí)的解釋方法。目前,基于知識(shí)提取的方法主要包括知識(shí)蒸餾和知識(shí)圖譜。知識(shí)蒸餾是一種降低模型復(fù)雜度的模型壓縮方法,可將信息從深層網(wǎng)絡(luò)傳遞到淺層網(wǎng)絡(luò)。
當(dāng)主要目的不僅是準(zhǔn)確預(yù)測(cè)而且是解釋生物規(guī)則時(shí),機(jī)器學(xué)習(xí)模型的可解釋性和量化特征重要性對(duì)植物生物學(xué)研究來說變得至關(guān)重要。例如,在從植物基因組準(zhǔn)確預(yù)測(cè)表型的同時(shí),探究每個(gè)核苷酸的影響也非常重要。雖然深度學(xué)習(xí)提供了高精度的預(yù)測(cè),但有時(shí)深度學(xué)習(xí)模型難以解釋,這對(duì)于探索生物過程的推理至關(guān)重要。為了構(gòu)建更多可解釋的模型,SHAP(SHApley Additive exPlanations)為每個(gè)特征分配一個(gè)特定預(yù)測(cè)的重要性值。DeepLIFT(深度學(xué)習(xí)重要特征)分解神經(jīng)網(wǎng)絡(luò)對(duì)特定輸入的輸出預(yù)測(cè),以定義重要特征。出于類似的目的,集成梯度旨在將深度網(wǎng)絡(luò)的預(yù)測(cè)歸因于其輸入特征。另一方面,編碼生物特征的選擇在可解釋性中也起著關(guān)鍵作用。最后,在運(yùn)行模型或解釋結(jié)果之前,考慮測(cè)量錯(cuò)誤或數(shù)據(jù)集提交過程中出現(xiàn)的錯(cuò)誤也很重要。
根據(jù)數(shù)據(jù)標(biāo)注情況可以分為兩大類:有監(jiān)督和無監(jiān)督的深度神經(jīng)網(wǎng)絡(luò)。監(jiān)督學(xué)習(xí)的目的是獲得一個(gè)模型,將其預(yù)測(cè)變量(如DNA 序列)映射到目標(biāo)變量(如組蛋白標(biāo)記)。目標(biāo)變量可以是分類的(分類)或連續(xù)的(回歸)。如果數(shù)據(jù)集中沒有關(guān)于分類標(biāo)簽的標(biāo)注,即為無監(jiān)督學(xué)習(xí),包括聚類和特征提取。
深度學(xué)習(xí)應(yīng)用于基因組學(xué)的輸入通常為將生物序列和分子表型分別作為預(yù)測(cè)變量和目標(biāo)變量,其工作流程通常包括4 個(gè)步驟,如圖1 所示。
圖1 深度神經(jīng)網(wǎng)絡(luò)在植物基因組學(xué)中應(yīng)用的一般流程Fig.1 General process of deep neural network application in plant genomics
(1)輸入數(shù)據(jù)預(yù)處理。主要包括生物序列的檢索和編碼、分子表型的數(shù)字或分類表示,以及將預(yù)測(cè)“因子-目標(biāo)” 對(duì)正確拆分為訓(xùn)練、驗(yàn)證和測(cè)試集,通常采用生物序列之間的進(jìn)化關(guān)系作為依據(jù)。
(2)模型構(gòu)建和訓(xùn)練。主要包括模型架構(gòu)和超參數(shù)的選擇以及在訓(xùn)練集上訓(xùn)練模型。在訓(xùn)練期間應(yīng)持續(xù)監(jiān)控模型在驗(yàn)證集上的性能,以確定何時(shí)停止模型訓(xùn)練以避免欠擬合和過擬合。
(3)模型評(píng)估。評(píng)估訓(xùn)練模型在另一個(gè)數(shù)據(jù)集上的性能,稱為測(cè)試集。用于衡量模型性能的指標(biāo)取決于目標(biāo)變量的性質(zhì):ROC 曲線下面積(auROC)常用于分類問題,R-squared 常用于回歸問題。
(4)通過顯著性或特征歸因方法獲取模型可解釋性以識(shí)別生物序列中的功能元素。
深度學(xué)習(xí)已應(yīng)用于大規(guī)模數(shù)據(jù)分析的多個(gè)領(lǐng)域,以解決基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)和系統(tǒng)生物學(xué)中的復(fù)雜生物學(xué)問題[4]。當(dāng)前研究表明,DNA 形狀在決定轉(zhuǎn)錄因子(TF)DNA 結(jié)合特異性方面起著重要作用[5]。深度學(xué)習(xí)模型可以使用大量數(shù)據(jù)類型,包括染色質(zhì)可及性分析(例如MNase-seq、DNase-seq、FAIRE)和其他基因組分析(例如微陣列、RNA-seq表達(dá))。同樣,對(duì)于轉(zhuǎn)錄因子TF 結(jié)合,存在ChIP-seq數(shù)據(jù)、基因表達(dá)譜、DAP-seq(DNA 親和純化測(cè)序)和ampDAP-seq,通過使用擴(kuò)增并去甲基化的DNA 作為底物和組蛋白修飾來了解基因表達(dá)的潛在機(jī)制[6]。為了分析這些大規(guī)模數(shù)據(jù)集,當(dāng)前有諸多深度學(xué)習(xí)方法來模擬TF-DNA 結(jié)合特異性。為了預(yù)測(cè)TF 結(jié)合特性,當(dāng)前也有基于深度學(xué)習(xí)的方法。例如,了解DNA 和RNA 結(jié)合蛋白的序列特異性對(duì)于開發(fā)生物系統(tǒng)中的調(diào)控過程模型和識(shí)別致病變體至關(guān)重要[7]。
DeepBind[8]、DeepSEA[9]和Basset[10],是首批應(yīng)用于基因組數(shù)據(jù)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)。在DeepBind中,訓(xùn)練了多個(gè)單任務(wù)模型(參數(shù)的中位數(shù)為1 586)來預(yù)測(cè)轉(zhuǎn)錄因子的體外和體內(nèi)結(jié)合親和力(即結(jié)合或未結(jié)合)和轉(zhuǎn)錄因子的體外結(jié)合親和力。該方法始終比現(xiàn)有的非深度學(xué)習(xí)方法表現(xiàn)更好。DeepSEA 模型(52 843 119 個(gè)參數(shù))從DNA 元素百科全書(ENCODE)和Roadmap Epigenomics 項(xiàng)目編譯了919 個(gè)2.4M 非編碼變體的染色質(zhì)圖,并測(cè)了919 個(gè)染色質(zhì)特征(人類GRCh37 基因組)的存在與否,包括轉(zhuǎn)錄因子結(jié)合、DNA 可及性和給定1 000BP 序列的組蛋白修飾。Basset(4 135 064 個(gè)參數(shù))在給定600bp 序列的情況下預(yù)測(cè)了164 個(gè)二值化DNA 可訪問性特征。DeepBind 可以學(xué)習(xí)幾個(gè)基序來預(yù)測(cè)DNA 和RNA 結(jié)合蛋白的結(jié)合位點(diǎn)。由DeepBind 確定的特異性很容易被可視化為位置權(quán)重矩陣的加權(quán)組合或 “突變圖”,表明變異如何影響特定序列內(nèi)的結(jié)合[3]。在DeepSEA、DeFind[11]和DFIM[12]中評(píng)估了功能性非編碼變異的影響。DRNApred 用于區(qū)分DNA 和RNA 結(jié)合殘基。由于數(shù)據(jù)集易于獲得,上述這些方法通常是在組織或細(xì)胞系上進(jìn)行訓(xùn)練和測(cè)試的。在玉米等具有大量重復(fù)元件和寬基因間區(qū)域的物種中,確定關(guān)鍵的基因組調(diào)控區(qū)域具有挑戰(zhàn)性。為了應(yīng)對(duì)這些挑戰(zhàn),基于自然語言處理的k-mer 語法等方法已被用于以高效且精確地注釋玉米品系中的調(diào)控區(qū)域[13]。使用大規(guī)模的ChIP-seq 來重建玉米葉片中的網(wǎng)絡(luò),并訓(xùn)練機(jī)器學(xué)習(xí)模型來預(yù)測(cè)TF 的結(jié)合和共定位。所得到的網(wǎng)絡(luò)覆蓋了77%的表達(dá)基因,并顯示出像現(xiàn)實(shí)世界網(wǎng)絡(luò)一樣的無標(biāo)度拓?fù)浣Y(jié)構(gòu)和功能模塊化。機(jī)器學(xué)習(xí)方法在模擬轉(zhuǎn)錄因子結(jié)合位點(diǎn)方面也發(fā)揮了重要作用。機(jī)器學(xué)習(xí)模型在植物生物學(xué)的幾個(gè)方面已被證明是高效的,既可以單獨(dú)或以組合方式從各種類型的測(cè)序數(shù)據(jù)中進(jìn)行訓(xùn)練,還可以進(jìn)一步整合其他信息,例如DNase I 超敏數(shù)據(jù),以更好地預(yù)測(cè)體內(nèi)轉(zhuǎn)錄結(jié)合位點(diǎn)(TFBS)[13]。
總結(jié)而言,自最初應(yīng)用以來,CNN 已被大量應(yīng)用于基于DNA 序列預(yù)測(cè)各種分子表型,并已成為新的最先進(jìn)模型。應(yīng)用包括分類轉(zhuǎn)錄因子結(jié)合位點(diǎn)[11]和預(yù)測(cè)分子表型,如染色質(zhì)功能[14],DNA 接觸映射[15],DNA甲基化[16,17],基因表達(dá)[18],和RBP 結(jié)合[19]。除了從序列中預(yù)測(cè)分子表型之外,CNN 還成功地應(yīng)用于傳統(tǒng)上由手工生物信息學(xué)方法解決的更多技術(shù)任務(wù)。例如,它們已被用于預(yù)測(cè)引導(dǎo)RNA 的特異性[20],增強(qiáng)的Hi-C數(shù)據(jù)分辨率[21],從DNA 序列預(yù)測(cè)起源的實(shí)驗(yàn)室和預(yù)測(cè)遺傳變異體[22]。CNNs 也被用來模擬基因組中的長期依賴關(guān)系。盡管相互作用的調(diào)控元件可能位于未折疊線性DNA 序列上的遠(yuǎn)處,但這些元件通常在實(shí)際的3D染色質(zhì)構(gòu)象中靠近。因此,從線性DNA 序列建模分子表型,盡管是染色質(zhì)的粗略近似,但可以通過允許長程依賴性并允許模型隱式學(xué)習(xí)3D 組織的方面(例如“啟動(dòng)子-增強(qiáng)子” 循環(huán))來改進(jìn)。在Basenji[16]中,這是通過使用擴(kuò)張卷積實(shí)現(xiàn)的,它啟用了感受野達(dá)到32KB。擴(kuò)張卷積還允許使用10KB 的感受野從序列中預(yù)測(cè)剪接位點(diǎn)。
在基因組學(xué),RNNs 已被用于聚集細(xì)胞神經(jīng)網(wǎng)絡(luò)的輸出用于預(yù)測(cè)單細(xì)胞DNA 甲基化狀態(tài)[17],RBP 結(jié)合[23],轉(zhuǎn)錄因子結(jié)合和DNA 無障礙[24]。RNN 在miRNA 生物學(xué)中也有應(yīng)用:deepTarget[25]在從mRNA-miRNA 序列對(duì)預(yù)測(cè)miRNA 結(jié)合靶標(biāo)方面比現(xiàn)有模型表現(xiàn)更好,并且deepMiRGene[26]從mRNA 序列及其預(yù)測(cè)的二級(jí)結(jié)構(gòu)中比現(xiàn)有方法更好地預(yù)測(cè)前體miRNA 的發(fā)生使用手工制作的功能。來自原始DNA 測(cè)序數(shù)據(jù)的堿基調(diào)用是另一個(gè)應(yīng)用RNN 的預(yù)測(cè)任務(wù)。盡管RNN 有諸多應(yīng)用,但對(duì)于基因組學(xué)中常見的序列建模任務(wù),缺乏對(duì)循環(huán)和卷積架構(gòu)的系統(tǒng)比較。
在比較CNN 和k-mer 方法時(shí),CNN 在特征提取方面更有效。然而,CNN 通常被認(rèn)為是黑匣子,因?yàn)閷?duì)其輸出的解釋具有挑戰(zhàn)性,并且可能涉及高計(jì)算成本。此外,他們的表現(xiàn)有多少來自于學(xué)習(xí)基本的生物規(guī)則,例如關(guān)鍵基序、基序關(guān)系和一般序列視角,這是相當(dāng)不確定的。出于解釋DNA 的目的,k-mer 方法優(yōu)于CNN 和RNN。使用k-mers(或k-tuples,k-gram)頻率對(duì)序列進(jìn)行分類是快速、準(zhǔn)確、無參考和無對(duì)齊的。k-mer 是一種基于基因的方法,用于識(shí)別序列特征。通常,k-mer 頻率向量與距離函數(shù)配對(duì)在一起,以測(cè)量任何一對(duì)序列之間的數(shù)量相似性?;趩卧~統(tǒng)計(jì)來恢復(fù)語義和句法線索很容易解釋,但是,確定為什么以某種方式對(duì)序列進(jìn)行分類并不像更傳統(tǒng)的基于對(duì)齊的方法那樣直接。然而,使用k-mer 表示似乎是準(zhǔn)確和快速分類的良好平衡。值得注意的是,也有結(jié)合k-mer 方法和深度學(xué)習(xí)模型的例子[27],盡管尚未系統(tǒng)評(píng)估這種方法對(duì)精度或可解釋性的影響。
在線性模型等簡單模型中,模型的參數(shù)通常衡量輸入特征對(duì)預(yù)測(cè)的貢獻(xiàn)。因此,在輸入特征相對(duì)獨(dú)立的情況下,可以直接用于模型解釋。相比之下,深度神經(jīng)網(wǎng)絡(luò)的參數(shù)由于其冗余和與輸出的非線性關(guān)系而難以解釋。在復(fù)雜模型中,必須通過探測(cè)每個(gè)預(yù)測(cè)示例的 “輸入-輸出” 關(guān)系來間接得到特征重要性分?jǐn)?shù),也稱為屬性分?jǐn)?shù)、相關(guān)性分?jǐn)?shù)或貢獻(xiàn)分?jǐn)?shù)。特征重要性分?jǐn)?shù)顯示了給定輸入中對(duì)模型預(yù)測(cè)最有影響的部分,從而有助于解釋做出這種預(yù)測(cè)的原因。在DNA 序列為基礎(chǔ)的模型中,重要性分?jǐn)?shù)可以表征序列基序,并因此廣泛用于在基因組學(xué)[28]。特征重要性分?jǐn)?shù)還可用于探測(cè)更復(fù)雜的上位相互作用[12]。
根據(jù)是使用輸入擾動(dòng)還是使用反向傳播計(jì)算,特征重要性分?jǐn)?shù)可以分為兩大類。對(duì)于DNA 序列為基礎(chǔ)的模型中,誘導(dǎo)的擾動(dòng)可以是單核苷酸取代或調(diào)節(jié)基序的插入。基于擾動(dòng)的重要性得分的主要缺點(diǎn)是計(jì)算成本高,當(dāng)需要計(jì)算整個(gè)數(shù)據(jù)集的重要性得分時(shí),這一點(diǎn)就變得很明顯?;诜聪騻鞑サ奶卣髦匾苑?jǐn)?shù)是更高效計(jì)算方式。在這些方法中,所有輸入特征的重要性分?jǐn)?shù)是使用通過網(wǎng)絡(luò)的單個(gè)反向傳播計(jì)算的,因此它們只需要兩倍于單個(gè)預(yù)測(cè)的計(jì)算量。最簡單的基于反向傳播的重要性分?jǐn)?shù)是Saliency Maps[29]和Input-Masked Gradients[30]。由于深度學(xué)習(xí)框架支持自動(dòng)微分,這些分?jǐn)?shù)可以在幾行代碼中有效地實(shí)現(xiàn)。
Saliency Maps、Input-Masked Gradients 或基于擾動(dòng)的方法的一個(gè)問題是所謂的神經(jīng)元飽和問題。為了解決此問題,提出了基于參考的方法,如DeepLIFT 和Integrated Gradients[31]。這些方法將輸入特征與其 “參考” 值進(jìn)行比較,從而避免飽和問題。在DNA 序列的情況下,合理的參考值是原始序列的二核苷酸改組版本。我們注意到目前缺乏基因組學(xué)中特征重要性分?jǐn)?shù)和不同參考值的嚴(yán)格基準(zhǔn)。因此,建議嘗試多種方法,并將它們與一些易于理解的示例或模擬數(shù)據(jù)進(jìn)行比較。
最近提出了一種 “可見神經(jīng)網(wǎng)絡(luò)” 的方法,DCell模型[32],以提高內(nèi)部神經(jīng)網(wǎng)絡(luò)激活的可解釋性。DCell對(duì)應(yīng)于細(xì)胞內(nèi)已知分子子系統(tǒng)的層次結(jié)構(gòu)。神經(jīng)網(wǎng)絡(luò)中的節(jié)點(diǎn)對(duì)應(yīng)分子子系統(tǒng),例如信號(hào)通路或大蛋白質(zhì)復(fù)合物,只有上游系統(tǒng)(例如小蛋白質(zhì)復(fù)合物)是下游系統(tǒng)的一部分時(shí),才允許兩個(gè)節(jié)點(diǎn)(系統(tǒng))之間的連接(如大的蛋白質(zhì)復(fù)合物)。由于神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元對(duì)應(yīng)已知概念,因此可以解釋它們的激活和參數(shù)。這種方法僅適用于底層實(shí)體及其層次結(jié)構(gòu)足夠廣為人知的任務(wù),可能無法直接適用于實(shí)體或其層次結(jié)構(gòu)通常未知的任務(wù),例如轉(zhuǎn)錄因子結(jié)合。
圖結(jié)構(gòu)數(shù)據(jù),包括 “蛋白質(zhì)-蛋白質(zhì)” 相互作用網(wǎng)絡(luò)和基因調(diào)控網(wǎng)絡(luò),在基因組學(xué)中無處不在。圖表卷積神經(jīng)(GCN)網(wǎng)絡(luò)的使用的節(jié)點(diǎn)的各個(gè)特征中的曲線圖和所述節(jié)點(diǎn)連接來解決圖機(jī)器學(xué)習(xí)任務(wù)。GCN依次應(yīng)用多個(gè)圖變換(層),其中每個(gè)圖變換以非線性方式聚合來自相鄰節(jié)點(diǎn)或邊的特征,并用一組新特征表示節(jié)點(diǎn)或邊。GCN 可以訓(xùn)練的任務(wù)包括節(jié)點(diǎn)分類,無監(jiān)督節(jié)點(diǎn)嵌入(旨在找到節(jié)點(diǎn)的信息性低維表示),邊緣分類和圖分類。
GCN 已應(yīng)用于許多生物和化學(xué)問題。例如,一種方法使用無監(jiān)督的方法以無監(jiān)督的方式從 “蛋白質(zhì)-蛋白質(zhì)” 相互作用網(wǎng)絡(luò)中推導(dǎo)出蛋白質(zhì)的新特征,然后使用這些特征來預(yù)測(cè)不同組織中的蛋白質(zhì)功能[33]。GCN 也被用于模擬多藥副作用[34]。在化學(xué)中,曲線圖的卷積已經(jīng)成功地用于預(yù)測(cè)各種分子的性質(zhì),包括溶解性,藥物功效和光電效率[35]。GCN 的基因組應(yīng)用包括根據(jù)其他基因的表達(dá)[36],研究了基因交互圖(相同的路徑、“蛋白質(zhì)-蛋白質(zhì)”、共同表達(dá)或研究論文文本關(guān)聯(lián))如何應(yīng)用于深度模型,類似于圖像上的卷積。探索了圖卷積神經(jīng)網(wǎng)絡(luò)在基因組學(xué)的使用,通過結(jié)合基因嵌入以利用圖信息。這種方法在低數(shù)據(jù)約束下為特定的任務(wù)提供了優(yōu)勢(shì),但非常依賴于所用圖形的質(zhì)量?;蛳嗷プ饔脠D的目的是捕捉基因之間的各種關(guān)系,并可用于創(chuàng)建更多的生物直觀模型來進(jìn)行機(jī)器學(xué)習(xí)。當(dāng)前研究也試圖通過利用這些圖進(jìn)行 “單基因推斷”(SGI)來評(píng)估這些圖所提供的偏差。SGI 任務(wù)評(píng)估了與使用數(shù)據(jù)集中所有基因的基線相比,一個(gè)基因在特定圖形中的鄰居能多好地 “解釋” 該基因本身。GCN為利用圖的結(jié)構(gòu)模式解決有監(jiān)督和無監(jiān)督的機(jī)器學(xué)習(xí)問題提供了有前景的工具,我們希望在未來看到更多的基因組學(xué)應(yīng)用。
給定生物序列作為預(yù)測(cè)因子,深度學(xué)習(xí)模型可用于預(yù)測(cè)分子表型(例如轉(zhuǎn)錄因子結(jié)合、表觀遺傳標(biāo)記、染色質(zhì)狀態(tài)和基因表達(dá)水平)。深度學(xué)習(xí)模型最強(qiáng)大的部分是它們能夠?qū)π碌?、以前未見過的序列數(shù)據(jù)(即不在訓(xùn)練集中的數(shù)據(jù))進(jìn)行從頭預(yù)測(cè)。
盡管自然種群中存在大量遺傳變異,但可以對(duì)其中的一小部分進(jìn)行深度學(xué)習(xí)模型訓(xùn)練,以預(yù)測(cè)所有其他變異(即整個(gè)變異空間)的影響。例如,在某些基因上訓(xùn)練的模型可用于對(duì)其他基因進(jìn)行預(yù)測(cè)。這些不僅包括常見的等位基因,還包括低頻和稀有變異,無論其影響程度如何。人類遺傳學(xué)、精準(zhǔn)醫(yī)學(xué)和進(jìn)化生物學(xué)的關(guān)鍵挑戰(zhàn)包括破譯基因表達(dá)的調(diào)控代碼和理解基因組變異的轉(zhuǎn)錄效應(yīng)。然而,由于非編碼突變空間的巨大規(guī)模,這是極困難的?;谏疃葘W(xué)習(xí)的框架ExPecto 可以從DNA 序列中準(zhǔn)確預(yù)測(cè)突變的組織特異性轉(zhuǎn)錄效應(yīng),包括那些罕見的或未被觀察到的突變。這使得探究基因表達(dá)的進(jìn)化限制和突變疾病效應(yīng)的初始預(yù)測(cè)成為可能,從而使ExPecto 成為預(yù)測(cè)表達(dá)和疾病風(fēng)險(xiǎn)的端到端計(jì)算框架。ExPecto 是一個(gè)基于深度學(xué)習(xí)的框架,可以僅根據(jù)DNA 序列預(yù)測(cè)突變的組織特異性轉(zhuǎn)錄效應(yīng)。ExPecto 可以優(yōu)先考慮GWAS 位點(diǎn)的因果變體,并用于預(yù)測(cè)變體的疾病風(fēng)險(xiǎn)。由于在密切相關(guān)的物種中控制分子過程的生物學(xué)是保守的,在一個(gè)物種中訓(xùn)練的模型可以直接應(yīng)用于密切相關(guān)的物種[37]。或者這些模型可以用作遷移學(xué)習(xí)中的教師模型密切相關(guān)物種的任務(wù),促進(jìn)知識(shí)從研究充分的物種(如擬南芥)遷移到相關(guān)但特征不佳的物種(如十字花科中的其他物種)。
提出了基于生物證據(jù)研究的自動(dòng)建模(AMBER)[38],這是一個(gè)完全自動(dòng)化的框架,可以有效地設(shè)計(jì)和應(yīng)用基因組序列的CNN。AMBER 通過最先進(jìn)的神經(jīng)結(jié)構(gòu)搜索(NAS)為用戶指定的生物問題設(shè)計(jì)最佳模型。將AMBER 應(yīng)用于基因組調(diào)控特征的建模任務(wù),并證明AMBER 設(shè)計(jì)的模型的預(yù)測(cè)結(jié)果明顯比同等基線的非NAS 模型更準(zhǔn)確,并匹配甚至超過了已發(fā)表的專家設(shè)計(jì)的模型。對(duì)AMBER 架構(gòu)搜索的解釋揭示了其利用完整的計(jì)算操作空間來準(zhǔn)確模擬基因組序列的設(shè)計(jì)原則。此外,說明了利用AMBER 準(zhǔn)確發(fā)現(xiàn)等位基因特異性結(jié)合和疾病遺傳性富集的功能性基因組變異[38]。AMBER 為設(shè)計(jì)基因組學(xué)中準(zhǔn)確的深度學(xué)習(xí)模型提供了一種有效的自動(dòng)化方法??傊疃葘W(xué)習(xí)模型可以極大地推動(dòng)我們對(duì)終端表型的基因組變異的理解。
4.5.1 CNN 與RNN 在蛋白質(zhì)預(yù)測(cè)中的應(yīng)用
任何蛋白質(zhì)的功能直接取決于其三級(jí)結(jié)構(gòu)。蛋白質(zhì)的三級(jí)結(jié)構(gòu)可以通過綜合分析各種蛋白質(zhì)特性來揭示,例如二級(jí)結(jié)構(gòu)、跨膜拓?fù)洹⑿盘?hào)肽、溶劑可及性、骨架二面角、無序到有序轉(zhuǎn)變、接觸圖、模型質(zhì)量、殘基間接觸、蛋白質(zhì)相互作用位點(diǎn)、蛋白質(zhì)紊亂和酶動(dòng)力學(xué)。為了從頭肽序列中提取重要的氨基酸特征,使用CNN 方法開發(fā)了DeepNovo[39]?;诖?lián)質(zhì)譜數(shù)據(jù)的新肽測(cè)序是獵槍蛋白質(zhì)組學(xué)的關(guān)鍵技術(shù),用于識(shí)別沒有任何數(shù)據(jù)庫的肽和組裝未知的蛋白質(zhì)。然而,由于串聯(lián)質(zhì)譜的離子覆蓋率較低,如果某些連續(xù)氨基酸的支持性片段離子全部丟失,則無法確定其順序,這導(dǎo)致了從頭測(cè)序的低精度。pNovo 3[40]使用一個(gè)學(xué)習(xí)排名框架來區(qū)分每個(gè)光譜的相似肽候選者。衡量每個(gè)實(shí)驗(yàn)光譜和其對(duì)應(yīng)的理論光譜之間的相似性的3 個(gè)指標(biāo)被用作重要的特征,其中理論光譜可以由pDeep 算法使用深度學(xué)習(xí)精確預(yù)測(cè)。在基于質(zhì)譜的蛋白質(zhì)組學(xué)中,多肽和蛋白質(zhì)的鑒定和定量在很大程度上依賴于序列數(shù)據(jù)庫搜索或光譜庫匹配。由于缺乏準(zhǔn)確的片段離子強(qiáng)度預(yù)測(cè)模型,降低了這些方法的實(shí)用性[41]。將ProteomeTools 合成肽庫擴(kuò)展到55 萬條胰蛋白酶肽和2 100 萬條高質(zhì)量串聯(lián)質(zhì)譜。并訓(xùn)練了一個(gè)深度神經(jīng)網(wǎng)絡(luò)Prosit,在色譜保留時(shí)間和片段離子強(qiáng)度的預(yù)測(cè)方面取得顯著提升。
蛋白質(zhì)與蛋白質(zhì)的相互作用(PPI)不斷參與動(dòng)態(tài)的病理和生物學(xué)研究過程中。因此,徹底理解PPI 是非常重要的,有利于闡明疾病的發(fā)生,實(shí)現(xiàn)最佳的“藥物-目標(biāo)” 治療效果,并描述蛋白質(zhì)的復(fù)合結(jié)構(gòu)。
例如,文獻(xiàn)使用圖表示學(xué)習(xí)和結(jié)構(gòu)特征的深度學(xué)習(xí)模型來預(yù)測(cè)lncRNA 和蛋白質(zhì)的相互作用,為了通用性和探索不同的模型設(shè)計(jì)原則,利用生物信息技術(shù)基于不同的特征提取和選擇方法來開發(fā)lncRNA-蛋白相互作用預(yù)測(cè)算法,并基于互作關(guān)系進(jìn)行功能推測(cè)。并在在擬南芥和玉米數(shù)據(jù)集上驗(yàn)證所提出方法的性能。
然而,與從不同物種和生物體獲得的蛋白質(zhì)序列相比,所揭示的 “蛋白質(zhì)-蛋白質(zhì)” 相互作用的數(shù)量相對(duì)有限。為了解決這一難題,許多研究工作都是為了促進(jìn)發(fā)現(xiàn)新的PPI 而進(jìn)行的。在這些方法中,僅僅依靠蛋白質(zhì)序列數(shù)據(jù)的PPI 預(yù)測(cè)技術(shù)比其他需要廣泛生物領(lǐng)域知識(shí)的方法更為廣泛。為了預(yù)測(cè)二級(jí)結(jié)構(gòu),在深度學(xué)習(xí)模型中使用了相對(duì)溶劑可及性和殘基間接觸圖rawMS[42]。然而,深度學(xué)習(xí)算法在不同領(lǐng)域取得了成功,但由于覆蓋率低和數(shù)據(jù)嘈雜,它們對(duì)PPI 預(yù)測(cè)的有效性非常低。DPPI 成為一種能夠從序列信息中預(yù)測(cè)PPI 和同二聚體相互作用的新模型[43]。
提出了一種多模態(tài)的深度表征學(xué)習(xí)結(jié)構(gòu),將蛋白質(zhì)的理化特征與來自PPI 網(wǎng)絡(luò)的圖形拓?fù)涮卣飨嘟Y(jié)合[44]。不僅考慮到了蛋白質(zhì)序列信息,還考慮到了PPI 網(wǎng)絡(luò)中每個(gè)蛋白質(zhì)節(jié)點(diǎn)的拓?fù)鋵W(xué)表征。通過構(gòu)建了一個(gè)堆疊的自動(dòng)編碼器架構(gòu),以及一個(gè)基于生成的元路徑的連續(xù)詞包(CBOW)模型來研究PPI 預(yù)測(cè)。隨后,利用監(jiān)督下的深度神經(jīng)網(wǎng)絡(luò)來識(shí)別PPI 并對(duì)蛋白質(zhì)家族進(jìn)行分類。8 個(gè)物種的PPI 預(yù)測(cè)準(zhǔn)確率從96.76%到99.77%不等,這是第一個(gè)用于研究PPI 網(wǎng)絡(luò)的多模態(tài)深度表示學(xué)習(xí)框架。
現(xiàn)有的 “蛋白質(zhì)-蛋白質(zhì)” 相互作用預(yù)測(cè)的計(jì)算方法大多集中在特征提取和特征組合上[45]。設(shè)計(jì)了一種名為Res2vec 的新的殘基表征方法來表示蛋白質(zhì)序列。通過Res2vec 得到的殘基表征更精確地描述了原始序列的 “殘基-殘基” 相互作用,并為下游的深度學(xué)習(xí)模型提供了更有效的輸入。結(jié)合有效的特征嵌入和強(qiáng)大的深度學(xué)習(xí)技術(shù)[45],提供了一個(gè)通用的計(jì)算管道來推斷 “蛋白質(zhì)-蛋白質(zhì)” 相互作用,即使是在蛋白質(zhì)結(jié)構(gòu)知識(shí)完全未知的情況下。
基于不同的蛋白質(zhì)序列編碼器,人們提出了大量的計(jì)算方法。一個(gè)蛋白質(zhì)序列對(duì)的置信度分?jǐn)?shù)可以被看作是對(duì)PPI 的一種測(cè)量。一個(gè)蛋白質(zhì)對(duì)的置信度分?jǐn)?shù)越高,該蛋白質(zhì)對(duì)就越可能發(fā)生相互作用。因此,引入了一個(gè)深度學(xué)習(xí)框架[46],即序數(shù)回歸和遞歸卷積神經(jīng)網(wǎng)絡(luò)(OR-RCNN)方法,從置信度的角度來預(yù)測(cè)PPI。它主要包括兩個(gè)部分:蛋白質(zhì)序列對(duì)的編碼部分和通過置信度分?jǐn)?shù)預(yù)測(cè)PPI 的部分。第一部分,應(yīng)用兩個(gè)具有共享參數(shù)的遞歸卷積神經(jīng)網(wǎng)絡(luò)(RCNN)構(gòu)建兩個(gè)蛋白質(zhì)序列嵌入向量,可以自動(dòng)從蛋白質(zhì)對(duì)中提取穩(wěn)健的局部特征和序列信息。在此基礎(chǔ)上,通過元素相乘的方式將兩個(gè)嵌入向量編碼為一個(gè)新的嵌入向量。在第二部分中,通過考慮置信度分?jǐn)?shù)背后的序數(shù)信息,使用序數(shù)回歸來構(gòu)建多個(gè)子分類器。多個(gè)子分類器的結(jié)果被匯總,得到最終的置信度分?jǐn)?shù)。
4.5.2 ALPHAFOLD 在蛋白質(zhì)預(yù)測(cè)中的應(yīng)用
蛋白質(zhì)對(duì)生命至關(guān)重要,了解其結(jié)構(gòu)可以促進(jìn)對(duì)其功能的機(jī)械性理解。通過巨大的實(shí)驗(yàn)努力,大約10萬個(gè)獨(dú)特的蛋白質(zhì)的結(jié)構(gòu)已被確定,但這只是數(shù)十億已知蛋白質(zhì)序列中的一小部分。由于確定一個(gè)蛋白質(zhì)結(jié)構(gòu)需要數(shù)月至數(shù)年的艱苦努力,結(jié)構(gòu)覆蓋率成為當(dāng)前研究的瓶頸。通過分析同源序列的共變性,可以推斷出哪些氨基酸殘基是接觸的,這有助于預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)。AlphaFold 通過訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)來對(duì)殘基對(duì)之間的距離進(jìn)行準(zhǔn)確的預(yù)測(cè),這比接觸預(yù)測(cè)能傳達(dá)更多的結(jié)構(gòu)信息。利用這些信息,構(gòu)建了一個(gè)能夠準(zhǔn)確描述蛋白質(zhì)形狀的平均力勢(shì)。所得到的勢(shì)可以通過一個(gè)簡單的梯度下降算法進(jìn)行優(yōu)化,以生成結(jié)構(gòu),而不需要復(fù)雜的采樣程序。即使對(duì)于同源序列較少的序列AlphaFold 也能達(dá)到很高的準(zhǔn)確性。AlphaFold 代表了蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的一個(gè)相當(dāng)大的進(jìn)步[47]。
50 多年來,僅根據(jù)其氨基酸序列預(yù)測(cè)一個(gè)蛋白質(zhì)采用的三維結(jié)構(gòu),即 “蛋白質(zhì)折疊問題” 的結(jié)構(gòu)預(yù)測(cè)部分,一直是一個(gè)重要的開放式研究問題?,F(xiàn)有的方法遠(yuǎn)遠(yuǎn)達(dá)不到原子的準(zhǔn)確性要求,特別是在沒有同源結(jié)構(gòu)的時(shí)候。AlphaFold2 提供了第一個(gè)可以定期預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的計(jì)算方法,即使在沒有類似結(jié)構(gòu)的情況下也能達(dá)到原子精度。AlphaFold 的基礎(chǔ)是一種新的機(jī)器學(xué)習(xí)方法,將有關(guān)蛋白質(zhì)結(jié)構(gòu)的物理和生物知識(shí)納入深度學(xué)習(xí)算法的設(shè)計(jì)中,利用多序列排列的方式[48]。
AlphaFold2 通過結(jié)合新的神經(jīng)網(wǎng)絡(luò)架構(gòu)Evoformer和基于蛋白質(zhì)結(jié)構(gòu)的進(jìn)化、物理和幾何約束的訓(xùn)練程序,大大提高了結(jié)構(gòu)預(yù)測(cè)的準(zhǔn)確性。提出了一個(gè)聯(lián)合嵌入多序列排列(MSA)和成對(duì)特征的新架構(gòu),一個(gè)新的輸出表示和相關(guān)損失,使準(zhǔn)確的端到端結(jié)構(gòu)預(yù)測(cè)成為可能,一個(gè)新的等價(jià)注意力架構(gòu),使用中間損失來實(shí)現(xiàn)預(yù)測(cè)的迭代完善,屏蔽MSA 損失來與結(jié)構(gòu)聯(lián)合訓(xùn)練,使用自我蒸餾和自我估計(jì)準(zhǔn)確性從無標(biāo)簽的蛋白質(zhì)序列學(xué)習(xí)。Evoforme 是將蛋白質(zhì)結(jié)構(gòu)的預(yù)測(cè)視為三維空間中的圖推理問題,其中圖的邊緣是由相近的殘基定義。
BAEK 等探索了基于DeepMind 框架的網(wǎng)絡(luò)架構(gòu)。他們使用了一個(gè)三軌網(wǎng)絡(luò)來同時(shí)處理序列、距離和坐標(biāo)信息,并取得了接近DeepMind 的精度。通過RoseTTA折疊方法可以解決具有挑戰(zhàn)性的X 射線晶體學(xué)和低溫電子顯微鏡建模問題,并產(chǎn)生準(zhǔn)確的 “蛋白質(zhì)-蛋白質(zhì)” 復(fù)合物模型[49]。通過應(yīng)用AlphaFold2[50],顯著擴(kuò)大了蛋白質(zhì)組的結(jié)構(gòu)覆蓋范圍,其規(guī)模幾乎涵蓋了整個(gè)人類蛋白質(zhì)組(98.5%的人類蛋白質(zhì))。由此產(chǎn)生的數(shù)據(jù)集涵蓋了58%的殘基,其中一個(gè)子集(占所有殘基的36%)具有非常高的置信度。同時(shí)在AlphaFold 模型基礎(chǔ)上開發(fā)了用于解釋數(shù)據(jù)集的指標(biāo)。AlphaFold2從多序列排列(MSA)中編碼的共同進(jìn)化關(guān)系中預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)。盡管最近準(zhǔn)確率大幅提高,但仍有3 個(gè)挑戰(zhàn):①預(yù)測(cè)無法生成MSA 的孤兒和快速進(jìn)化的蛋白質(zhì);②快速探索設(shè)計(jì)的結(jié)構(gòu);③了解溶液中自發(fā)多肽折疊的規(guī)則[1]。提出了一個(gè)端到端的可區(qū)分的遞歸幾何網(wǎng)絡(luò)(RGN),能夠在不使用MSA 的情況下從單個(gè)蛋白質(zhì)序列預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)。這個(gè)深度學(xué)習(xí)系統(tǒng)有兩個(gè)新的元素:一個(gè)是蛋白質(zhì)語言模型(AminoBERT),它使用轉(zhuǎn)化器從數(shù)以百萬計(jì)的未對(duì)齊的蛋白質(zhì)中學(xué)習(xí)潛在的結(jié)構(gòu)信息;另一個(gè)是幾何模塊,緊湊地表示Cα骨架幾何。RGN2 在孤兒蛋白上的表現(xiàn)優(yōu)于AlphaFold2和RoseTTAFold(以及trRosetta),并在設(shè)計(jì)序列上具有競(jìng)爭(zhēng)力,同時(shí)在計(jì)算時(shí)間上實(shí)現(xiàn)了106 倍的減少。
作物育種的一個(gè)重要組成部分是在環(huán)境適應(yīng)和現(xiàn)代管理實(shí)踐的背景下清除有害等位基因。過去30 年,被概括為育種3.0 時(shí)代,見證了標(biāo)記輔助選擇、關(guān)聯(lián)分析和基因組預(yù)測(cè)的巨大勝利。值得注意的是,育種3.0時(shí)代標(biāo)記輔助育種中使用的遺傳變異不一定是農(nóng)藝性狀的因果變異。當(dāng)育種者有能力大規(guī)模預(yù)測(cè)因果有益和有害變異時(shí),可以通過編輯將有益等位基因直接引入優(yōu)良種質(zhì),而不是通過在連鎖位點(diǎn)攜帶有害等位基因的另一個(gè)供體親本回交。同樣,可以通過編輯有效地從基因組中清除有害等位基因。模擬研究表明,通過使用基因組編輯將有益的變異引入基因組,可以顯著加速牲畜的育種。然而,由于基因型與環(huán)境之間的相互作用在作物物種中比在牲畜中更為突出,等位基因效應(yīng)(無論是有害的、有益的還是適應(yīng)性的)在作物物種中更具挑戰(zhàn)性。理想情況下,特定于環(huán)境的模型或?qū)h(huán)境因素作為額外輸入的模型將緩解這個(gè)問題。因此,可以合理地將深度學(xué)習(xí)模型預(yù)測(cè)的功能變異概念化為下一個(gè)育種時(shí)代的關(guān)鍵,即育種4.0,其中作物物種的遺傳改良在很大程度上取決于基因組編輯[4]。
在進(jìn)行這種通過編輯繁殖的方法時(shí),我們并不僅限于自然界中已知的有益變體。相反,我們享有完全的自由,可以根據(jù)我們的深度學(xué)習(xí)模型對(duì)感興趣的生物過程的 “理解” 來創(chuàng)建新穎的有益等位基因。例如,編輯番茄CLAVATA3 基因(SlCLV3)啟動(dòng)子[51]以增加果實(shí)大小并優(yōu)化花序分枝[52]。由于SlCLV3 啟動(dòng)子中缺乏功能注釋,飽和啟動(dòng)子誘變采用CRISPR/Cas9 系統(tǒng),然后選擇具有理想果實(shí)和花序特征的突變體。未來,通過從啟動(dòng)子序列預(yù)測(cè)基因表達(dá)水平的深度學(xué)習(xí)模型,可以通過單核苷酸分辨率的顯著性評(píng)分識(shí)別SlCLV3 啟動(dòng)子上的關(guān)鍵順式元件,預(yù)測(cè)它們對(duì)SlCLV3基因的功能喪失影響表達(dá),然后實(shí)施模型引導(dǎo)的啟動(dòng)子編輯。
創(chuàng)建具有特定功能的新基因組元素的另一種方法是在合成生物學(xué)中應(yīng)用生成模型。例如,在學(xué)習(xí)現(xiàn)有啟動(dòng)子的突變空間后,可以訓(xùn)練模型以創(chuàng)建具有時(shí)空特異性的新啟動(dòng)子。然而,盡管變分自編碼器和生成對(duì)抗網(wǎng)絡(luò)等生成模型最近引起了廣泛關(guān)注,但它們?cè)诤铣缮飳W(xué)中的潛在應(yīng)用仍然相當(dāng)有限。一個(gè)例子是應(yīng)用GAN 來生成編碼抗菌肽的合成DNA 序列[53]。
變異自動(dòng)編碼器(VAEs)和GANs 是在深度學(xué)習(xí)領(lǐng)域出現(xiàn)的兩種強(qiáng)大的生成方法。VAEs 是具有額外分布假設(shè)的自動(dòng)編碼器,使其能夠生成新的隨機(jī)樣本。當(dāng)前自動(dòng)編碼器已被用于填補(bǔ)缺失數(shù)據(jù),提取基因表達(dá)特征,檢測(cè)微陣列數(shù)據(jù)和大量RNA,以尋找有意義的概率潛在表示[54]。自動(dòng)編碼器通常用于插補(bǔ)、降維和表征學(xué)習(xí)。因此,自編碼器可以作為將映射從高維數(shù)據(jù)空間轉(zhuǎn)換為低維特征空間的有效手段,從而提高聚類結(jié)果[55]。為了描述遺傳對(duì)基因表達(dá)的影響,文獻(xiàn)[56]建立了一個(gè)深度自動(dòng)編碼器模型來評(píng)估良好的遺傳變異對(duì)基因表達(dá)變化的影響。文獻(xiàn)[57]提出了Adversarial Deconfounding AutoEncoder(AD-AE)方法去混淆基因表達(dá)潛在空間。通過聯(lián)合訓(xùn)練網(wǎng)絡(luò)生成嵌入,這些嵌入可以編碼盡可能多的信息,而不會(huì)編碼任何混雜信號(hào)。通過將AD-AE 應(yīng)用于兩個(gè)不同的基因表達(dá)數(shù)據(jù)集,表明該模型可以:①生成不編碼混雜信息的嵌入;②保存原始空間中存在的生物信號(hào);③在不同的混雜域。
GANs 被認(rèn)為是一種完全不同的生成模型的方法,它涉及兩個(gè)神經(jīng)網(wǎng)絡(luò),一個(gè)鑒別器和一個(gè)發(fā)生器網(wǎng)絡(luò)。它們被聯(lián)合訓(xùn)練,其中生成器旨在生成真實(shí)的數(shù)據(jù)點(diǎn),而判別器則對(duì)給定樣本是真實(shí)的還是由生成器生成的進(jìn)行分類。GAN 已經(jīng)被用來生成蛋白質(zhì)編碼的DNA 序列[53],并為蛋白質(zhì)結(jié)合微陣列設(shè)計(jì)DNA 探針。GANs能夠生成優(yōu)于訓(xùn)練數(shù)據(jù)集中的序列,以更高的蛋白質(zhì)結(jié)合親和力來衡量[58]。在單細(xì)胞基因組學(xué)領(lǐng)域,GANs已被用于模擬scRNA-seq 數(shù)據(jù)和降維[59]。此外,作者通過擾動(dòng)解釋了GANs 的內(nèi)部表示。在MAGAN143 中,作者使用一個(gè)由兩個(gè)GANs 組成的架構(gòu)解決了來自不同領(lǐng)域的數(shù)據(jù)集,即CyTOF 數(shù)據(jù)和scRNA-seq 數(shù)據(jù)的對(duì)齊這一挑戰(zhàn)性問題。使用生成模型來創(chuàng)建新的DNA元件、基因,甚至具有所需功能的調(diào)節(jié)回路,并將它們應(yīng)用于作物改良將成為未來育種的發(fā)展重點(diǎn)之一。
本研究對(duì)近年來深度學(xué)習(xí)在植物基因組和作物育種研究領(lǐng)域的最新進(jìn)展進(jìn)行了總結(jié)梳理??傮w來看,深度學(xué)習(xí)在基因組學(xué)研究諸多領(lǐng)域方向上取得了比傳統(tǒng)方法更好的效果,深度學(xué)習(xí)在基因組學(xué)中的應(yīng)用已經(jīng)產(chǎn)生了具有科學(xué)和經(jīng)濟(jì)意義的早期應(yīng)用。深度學(xué)習(xí)的優(yōu)勢(shì)主要體現(xiàn)在兩個(gè)方面:①端到端學(xué)習(xí),能夠?qū)⒍鄠€(gè)預(yù)處理步驟整合到一個(gè)模型中;②多模態(tài)數(shù)據(jù)處理能力,可處理基因組學(xué)中極其異質(zhì)的數(shù)據(jù),包括序列、計(jì)數(shù)、質(zhì)譜強(qiáng)度和圖像。深度學(xué)習(xí)為基因組學(xué)與作物育種的研究拓展了全新的研究視角,隨著算法精度不斷提高,為促進(jìn)表型與基因型組學(xué)的不同尺度關(guān)聯(lián)研究帶來新的機(jī)會(huì)。
深度學(xué)習(xí)當(dāng)前已經(jīng)在基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)和合成生物學(xué)等領(lǐng)域取得諸多進(jìn)展,可以為作物育種和植物基因組學(xué)領(lǐng)域提供強(qiáng)大驅(qū)動(dòng)力,如完善基因組功能注釋、挖掘新功能基因、預(yù)測(cè)植物表型、發(fā)現(xiàn)基因、RNA、蛋白質(zhì)等物質(zhì)的新分類模式,指導(dǎo)基因編輯。如何進(jìn)一步將揭示與分子表型或終末性狀相關(guān)遺傳位點(diǎn)的關(guān)聯(lián)作圖與從DNA 到分子表型信息流模型相結(jié)合,了解表型變異背后的因果變異,實(shí)現(xiàn)因果變異的優(yōu)先級(jí)排序,提高表型預(yù)測(cè)準(zhǔn)確性,進(jìn)而加速遺傳增益仍然是未來作物育種工作的巨大挑戰(zhàn)。深度學(xué)習(xí)模型發(fā)展的巨大進(jìn)步是分子表型預(yù)測(cè),以及這些模型在通過連鎖不平衡的計(jì)算機(jī)中斷發(fā)現(xiàn)功能變異中的應(yīng)用。研究用于全基因組識(shí)別有害和適應(yīng)性變異的深度學(xué)習(xí)方法,是未來農(nóng)業(yè)中基于編輯的作物遺傳改良的先決條件。綜上所述,深度學(xué)習(xí)為植物基因組學(xué)與作物育種的研究帶來了巨大的機(jī)遇,為相關(guān)研究與應(yīng)用提供新思路。深度學(xué)習(xí)模型可以極大地推動(dòng)對(duì)終端表型的基因組變異的理解,并有希望應(yīng)用于作物改良研究與實(shí)踐中。