董正心, 潘小勇, 沈紅斌
(上海交通大學(xué) 電子信息與電氣工程學(xué)院,上海 200240)
RNA結(jié)合蛋白(RNA binding protein,簡(jiǎn)稱RBP)作為細(xì)胞中重要的蛋白質(zhì)之一,是RNA代謝的關(guān)鍵組成部分。它在基因調(diào)控過程中發(fā)揮著重要作用,包括轉(zhuǎn)錄后的剪接、加工、修飾、轉(zhuǎn)運(yùn)等RNA代謝過程,影響著RNA的結(jié)構(gòu)并相互作用[1]。隨著高通量測(cè)序技術(shù)的發(fā)展,RBP的更多功能逐漸被發(fā)現(xiàn)。大量實(shí)驗(yàn)結(jié)果表明,RNA結(jié)合蛋白在影響染色質(zhì)水平上存在著廣泛的功能和作用,各種不同的RBP可通過調(diào)控RNA來控制轉(zhuǎn)錄,增強(qiáng)RNA與蛋白質(zhì)之間的相互作用,且RBP可作為轉(zhuǎn)錄因子或輔助因子來調(diào)控轉(zhuǎn)錄的[2]。例如,在環(huán)狀RNA的形成過程中,RNA結(jié)合蛋白QKI起到了重要的調(diào)控作用,它通過結(jié)合pre-mRNA(不均一核RNA)上的特定結(jié)合位點(diǎn)來促進(jìn)環(huán)狀RNA的形成[3]。此外,遺傳學(xué)數(shù)據(jù)和大量蛋白質(zhì)組學(xué)數(shù)據(jù)表明,RBP與神經(jīng)系統(tǒng)疾病、癌癥等許多人類疾病有關(guān),由RBP異常引起的RNA代謝缺陷可能是許多人類疾病的基礎(chǔ)[4]。因此,通過研究RNA與RNA結(jié)合蛋白之間的相互作用的信息來揭示RBP的調(diào)控機(jī)制,對(duì)于探索RNA功能、治療疾病等都有著重要意義。
目前,分析RNA與蛋白質(zhì)相互作用或者定位RBP結(jié)合位點(diǎn)最常用的方法為高通量測(cè)序技術(shù),如交聯(lián)免疫共沉淀結(jié)合高通量測(cè)序(cross linking immunoprecipitation and high-throughput sequencing,簡(jiǎn)稱CLIP-seq)[5]、RNA結(jié)合蛋白免疫沉淀結(jié)合高通量測(cè)序(RNA binding protein immunoprecipitation and high-throughput sequencing, 簡(jiǎn)稱RIP-seq)[6]等。由于細(xì)胞中的RNA與RBP結(jié)合會(huì)形成核糖核蛋白(RNP)復(fù)合物,高通量測(cè)序技術(shù)首先利用特定蛋白的抗體將對(duì)應(yīng)的RNA-蛋白質(zhì)復(fù)合物沉淀下來,再分離復(fù)合物提取其中的RNA,并對(duì)其進(jìn)行測(cè)序。高通量測(cè)序技術(shù)在疾病基因篩查以及人類基因組學(xué)研究等方面做出了突出貢獻(xiàn)[7]。但對(duì)于規(guī)模龐大、類型復(fù)雜的基因組測(cè)序數(shù)據(jù),這種通過人工篩選來確定RBP結(jié)合位點(diǎn)的方法,不僅測(cè)序?qū)嶒?yàn)時(shí)間長(zhǎng),價(jià)格也非常昂貴,其測(cè)序結(jié)果的準(zhǔn)確性也依賴于實(shí)驗(yàn)環(huán)境及實(shí)驗(yàn)器材。因此,如何使用基于數(shù)據(jù)驅(qū)動(dòng)的方法來研究RNA和蛋白質(zhì)的相互作用成為一個(gè)有吸引力的研究方向。隨著近年來大數(shù)據(jù)技術(shù)的發(fā)展,機(jī)器學(xué)習(xí)方法蓬勃發(fā)展,在生物信息領(lǐng)域得到了廣泛應(yīng)用,使用計(jì)算機(jī)對(duì)海量的測(cè)序數(shù)據(jù)進(jìn)行模式挖掘的方法也快速發(fā)展。
隨著高通量測(cè)序技術(shù)和生物信息學(xué)的發(fā)展,關(guān)于RNA與蛋白質(zhì)相互作用及RBP結(jié)合位點(diǎn)的大型數(shù)據(jù)庫(kù)層出不窮。其中,大部分?jǐn)?shù)據(jù)庫(kù)不僅整合了大量來自如CLIP-seq等技術(shù)的實(shí)驗(yàn)數(shù)據(jù),而且通過獨(dú)立實(shí)驗(yàn)對(duì)RBP的準(zhǔn)確性進(jìn)行了驗(yàn)證和篩選,具有較高的可信度,為基于數(shù)據(jù)驅(qū)動(dòng)的方法如機(jī)器學(xué)習(xí)方法提供了數(shù)據(jù)基礎(chǔ),用來構(gòu)建可靠的基準(zhǔn)數(shù)據(jù)集并用于機(jī)器學(xué)習(xí)模型的訓(xùn)練、測(cè)試、驗(yàn)證及評(píng)估。表1列舉了近幾年發(fā)表的可用于查詢RBPs結(jié)合位點(diǎn)及其他RNA與蛋白質(zhì)相互作用信息的部分?jǐn)?shù)據(jù)庫(kù)。
表1中,RBPDB[8]是一個(gè)RNA結(jié)合特異性數(shù)據(jù)庫(kù),它收集了所有的具有已知RNA結(jié)合位點(diǎn)域的RBPs結(jié)合實(shí)驗(yàn)數(shù)據(jù),實(shí)驗(yàn)物種包括人、小鼠、蠅和蠕蟲,數(shù)據(jù)涵蓋272種RBPs、71個(gè)模體的位置權(quán)重矩陣和36套來自免疫沉淀實(shí)驗(yàn)的體內(nèi)結(jié)合轉(zhuǎn)錄序列。
表1 RNA-蛋白質(zhì)結(jié)合位點(diǎn)數(shù)據(jù)庫(kù)
通過對(duì)來自37個(gè)獨(dú)立研究的108個(gè)CLIP-Seq數(shù)據(jù)集進(jìn)行解碼,starBase[9]建立了RNA-RNA和蛋白質(zhì)-RNA的相互作用網(wǎng)絡(luò),不僅可以進(jìn)行泛癌分析,還可以執(zhí)行部分RNA的存活和差異表達(dá)分析。CLIPdb[10]構(gòu)建了一個(gè)RBP-RNA相互作用的數(shù)據(jù)庫(kù),包含各種高分辨率的RBPs在RNA上的結(jié)合位點(diǎn)及人工注釋,可以在全基因組尺度上直觀地顯示出RBPs的結(jié)合位點(diǎn)。由于RBPs和miRNA的聯(lián)合作用可認(rèn)為是形成了一種轉(zhuǎn)錄后調(diào)控編碼,DoRiNA[11]數(shù)據(jù)庫(kù)主要用于分析轉(zhuǎn)錄后調(diào)控過程中RNA的相互作用。類似地,RBP-Var[12]數(shù)據(jù)庫(kù)提供了RBP在轉(zhuǎn)錄后調(diào)控及相互作用的功能變體的注釋,可以判斷單核苷酸變異體(SNVs)是否可以影響RNA的二級(jí)結(jié)構(gòu),并識(shí)別可能會(huì)被破壞結(jié)合的RBPs,因此,可用于探索人類疾病背后的SNVs。ATtRACT[13]是RNA結(jié)合蛋白和相關(guān)模體的數(shù)據(jù)庫(kù),可以發(fā)現(xiàn)在一組序列中重復(fù)出現(xiàn)的模式,并與已存在的模體進(jìn)行比較。特別地,RBPTD[14]數(shù)據(jù)庫(kù)涵蓋了與人類癌癥相關(guān)的RBPs數(shù)據(jù),通過整合28種癌癥的基因表達(dá)譜、預(yù)后數(shù)據(jù)和DNA拷貝數(shù)變異(CNV)等數(shù)據(jù)來研究RBPs的變異原因和潛在功能。RBP2GO[15]提供了一個(gè)全面的RNA 結(jié)合蛋白數(shù)據(jù)庫(kù),包括從人類到細(xì)菌等13個(gè)物種的信息,105種RBPs,并且允許對(duì)具有特定分子功能的RNA結(jié)合蛋白進(jìn)行反向搜索。另外,POSTAR[16]系列數(shù)據(jù)庫(kù)基于高通量測(cè)序數(shù)據(jù),主要探索了7個(gè)物種的轉(zhuǎn)錄后調(diào)控機(jī)制,提供了最大的帶功能注釋的RBPs結(jié)合位點(diǎn)的集合。
對(duì)于機(jī)器學(xué)習(xí)模型來說,需要輸入數(shù)值型的數(shù)據(jù)來保證模型內(nèi)部的計(jì)算。因此,對(duì)于非數(shù)值型數(shù)據(jù)如由堿基組成的RNA序列,在輸入模型前需要進(jìn)行合理的編碼使其轉(zhuǎn)化為數(shù)值數(shù)據(jù)。這個(gè)過程稱為特征編碼,一般在輸入模型前得到的是初級(jí)的稀疏特征,而機(jī)器學(xué)習(xí)模型可以從中提取有用的信息得到高級(jí)的抽象特征,從而完成特定的機(jī)器學(xué)習(xí)任務(wù)。以下介紹3種在RBP結(jié)合位點(diǎn)預(yù)測(cè)領(lǐng)域常用的幾種特征編碼方式。
獨(dú)熱編碼常用于離散型數(shù)據(jù)的編碼,這種數(shù)據(jù)常包含多個(gè)類別,且各個(gè)類別的重要程度沒有明顯差別。經(jīng)過獨(dú)熱編碼后可得到由單個(gè)1和多個(gè)0組成的N維向量,其中N由類別數(shù)決定,1所在的位置由當(dāng)前類別決定。編碼成向量形式同時(shí)也意味著將數(shù)據(jù)映射到了歐式空間,各個(gè)類別初始的獨(dú)熱編碼特征向量之間的距離相同,而經(jīng)過模型學(xué)習(xí)后的高級(jí)特征之間的距離會(huì)發(fā)生變化,即體現(xiàn)了當(dāng)前任務(wù)中各維特征的重要程度。對(duì)于用于RBP結(jié)合位點(diǎn)預(yù)測(cè)的RNA序列,包含A、C、G、U(或T)4種堿基,因此經(jīng)過獨(dú)熱編碼可以得到L×4的獨(dú)熱矩陣,其中L為序列長(zhǎng)度。這也是最常用的RNA序列編碼方法,其編碼過程如圖1所示。
圖1 獨(dú)熱編碼示例
在生物信息學(xué)中,K-mer是指對(duì)于輸入的序列數(shù)據(jù)進(jìn)行切分產(chǎn)生的長(zhǎng)度為K的序列片段。如對(duì)于RNA序列來說,即為包含K個(gè)堿基的RNA子序列。K-mers方法常用于基因組復(fù)雜度分析、基因組組裝等,還可以通過生成K-mers譜結(jié)合一些概率模型來研究基因組的分布,如低階馬爾可夫模型[17]。基于K-mer的編碼方式主要有2種。以k為3為例,共有64種3-mer片段,對(duì)于每條RNA序列生成64維編碼向量。一種方法是對(duì)于輸入的每條序列切分生成3-mer片段集合,統(tǒng)計(jì)集合中每種3-mer出現(xiàn)的次數(shù)即為該條序列的64維編碼向量對(duì)應(yīng)維度上的特征數(shù)值,也稱基于K-mer頻率的編碼方法,其編碼過程如圖2(a)所示。另一種方法借鑒了自然語言處理領(lǐng)域的方法,將K-mers片段集合當(dāng)作單詞詞袋,單個(gè)K-mer視為單詞,RNA序列視為句子,考慮了K-mers之間即RNA前后序列之間的連續(xù)關(guān)系,可用詞嵌入方法生成對(duì)應(yīng)的嵌入編碼進(jìn)行進(jìn)一步的學(xué)習(xí)。另外,基于分子生物學(xué)的特征也有一些編碼方法的拓展。例如,在信使RNA分子中,相鄰的3個(gè)核苷酸可在蛋白質(zhì)翻譯時(shí)對(duì)應(yīng)一種氨基酸,可視為K為3時(shí)的一個(gè)特例。如CRIP[18]方法將所有的64種3-mer片段對(duì)應(yīng)20種氨基酸和1個(gè)終止密碼子進(jìn)行映射,得到3-mer片段的21維獨(dú)熱編碼的特征向量,相較于4維獨(dú)熱編碼得到了更豐富的序列信息,其編碼過程如圖2(b)所示。
圖2 K-mers編碼方法
除了對(duì)RNA的序列信息進(jìn)行編碼之外,RNA的二級(jí)折疊結(jié)構(gòu)也蘊(yùn)含著大量信息,因此可以將RNA二級(jí)結(jié)構(gòu)轉(zhuǎn)化為拓?fù)鋱D結(jié)構(gòu)。常用的RNA二級(jí)結(jié)構(gòu)預(yù)測(cè)方法有RNAFold[19]、MFold[20]、RnaPredict[21]等,如RNAFold預(yù)測(cè)具有最小自由能的RNA二級(jí)結(jié)構(gòu)。如RPI-Net[22]方法在得到預(yù)測(cè)的RNA二級(jí)結(jié)構(gòu)后,把堿基作為圖上的結(jié)點(diǎn),把序列主鏈及二級(jí)結(jié)構(gòu)中的堿基配對(duì)信息作為圖中連接的邊,得到相應(yīng)的拓?fù)鋱D結(jié)構(gòu),其過程示意圖如圖3所示。
圖3 RNA二級(jí)結(jié)構(gòu)
在過去的幾十年里,機(jī)器學(xué)習(xí)在多個(gè)領(lǐng)域得到了廣泛的應(yīng)用并取得了優(yōu)越的成果,如計(jì)算機(jī)視覺、自然語言處理、生物信息學(xué)等。機(jī)器學(xué)習(xí)方法可以從訓(xùn)練數(shù)據(jù)的已知樣本中學(xué)習(xí)到隱含的模式,并用于對(duì)未知樣本的預(yù)測(cè)。大部分機(jī)器學(xué)習(xí)方法為有數(shù)據(jù)標(biāo)簽的監(jiān)督學(xué)習(xí)模型,如支持向量機(jī)、隨機(jī)森林等,而非監(jiān)督學(xué)習(xí)沒有數(shù)據(jù)標(biāo)簽信息。這里的傳統(tǒng)機(jī)器學(xué)習(xí)指淺層結(jié)構(gòu)的模型,深度學(xué)習(xí)指具有深層結(jié)構(gòu)、包含多層神經(jīng)網(wǎng)絡(luò)的模型。
3.1.1 支持向量機(jī)
支持向量機(jī)(support vector machine,簡(jiǎn)稱SVM)[23]是經(jīng)典的機(jī)器學(xué)習(xí)技術(shù)之一,常用于解決各種分類與回歸問題。SVM是一種廣義線性分類器。除了線性分類外,SVM還可以通過核函數(shù)將非線性輸入向量映射到線性高維特征空間,并在該特征空間中構(gòu)造一個(gè)最大間隔超平面,該超平面以最大間隔將兩類數(shù)據(jù)分開。在機(jī)器學(xué)習(xí)中,SVM常使用帶正則項(xiàng)的鉸鏈損失函數(shù)(hinge loss function),其學(xué)習(xí)目標(biāo)為類間幾何間隔最大化即損失函數(shù)最小化,因此求解SVM可以看作求解二次凸優(yōu)化問題,常用的方法有梯度下降、坐標(biāo)下降、內(nèi)點(diǎn)法等。
由于SVM較強(qiáng)的泛化能力,其應(yīng)用也越來越廣泛。不僅可以進(jìn)行光學(xué)字符識(shí)別,還可用于文本及圖像分類,并且越來越廣泛地應(yīng)用于生物學(xué)中,如微陣列基因表達(dá)譜分類、蛋白質(zhì)分類等[24]。
3.1.2 隨機(jī)森林
隨機(jī)森林(random forest,簡(jiǎn)稱RF)[25]是決策樹的集合,其中每棵樹都依賴于獨(dú)立采樣的樣本訓(xùn)練數(shù)據(jù),其泛化誤差取決于每棵樹的性能和彼此之間的多樣性,且隨著決策樹數(shù)量的增加收斂到一個(gè)極限值。RF在訓(xùn)練過程中進(jìn)行隨機(jī)特征選擇,通過投票法或平均法聚合多棵決策樹的預(yù)測(cè)結(jié)果來得到最終的預(yù)測(cè)結(jié)果,這種隨機(jī)抽樣和集成策略使得它具有較高的預(yù)測(cè)精度和泛化能力。
由于RF在處理高維特征空間和復(fù)雜數(shù)據(jù)結(jié)構(gòu)上具有獨(dú)特的優(yōu)勢(shì),其在生物信息學(xué)領(lǐng)域的應(yīng)用也越來越廣泛[26]。如利用腫瘤標(biāo)志物表達(dá)訓(xùn)練RF來檢測(cè)腫瘤樣本簇[27],或利用RF來預(yù)測(cè)蛋白質(zhì)對(duì)之間的相互作用[28]。
3.2.1 多層感知機(jī)(MLP)
多層感知機(jī)(multilayer perceptron,簡(jiǎn)稱MLP)[29]是一種前饋人工神經(jīng)網(wǎng)絡(luò),可以通過不同的激活函數(shù)將一組輸入向量映射到一組輸出向量。MLP一般由3層或者更多層網(wǎng)絡(luò)構(gòu)成,其基本結(jié)構(gòu)包括輸入層、隱含層、輸出層,每層都由多個(gè)節(jié)點(diǎn)組成,每個(gè)節(jié)點(diǎn)即一個(gè)帶有激活函數(shù)的神經(jīng)元。在訓(xùn)練過程中,各神經(jīng)元的權(quán)重參數(shù)可以通過監(jiān)督學(xué)習(xí)的反向傳播算法更新,以減小實(shí)際值與預(yù)測(cè)值之間的誤差。由于激活函數(shù)的可選擇性,MLP可用于解決多種復(fù)雜問題。
3.2.2 深度置信網(wǎng)絡(luò)(DBN)
深度置信網(wǎng)絡(luò)(deep belief networks,簡(jiǎn)稱DBN)[30]通常由多層隱含層構(gòu)成,其層內(nèi)單元沒有聯(lián)系,具有逐層學(xué)習(xí)的特點(diǎn)。DBN可以看作多個(gè)子網(wǎng)絡(luò)的組合,如受限玻爾茲曼機(jī)(RBM)或自動(dòng)編碼器,其中每個(gè)子網(wǎng)絡(luò)的隱藏層充當(dāng)下一個(gè)子網(wǎng)絡(luò)的可見層。DBN具有2個(gè)特征:1)自上而下學(xué)習(xí)的生成權(quán),決定某層的變量如何根據(jù)上一層的變量來改變;2)自下而上傳遞的生成權(quán),由底層的數(shù)據(jù)向量推斷每層潛在變量的值。DBN可用于處理高度結(jié)構(gòu)化的數(shù)據(jù)(如圖像),且經(jīng)過訓(xùn)練后可以用來初始化隱含層進(jìn)行數(shù)據(jù)特征降維。由于其處理復(fù)雜數(shù)據(jù)的優(yōu)勢(shì),DBN被應(yīng)用在許多領(lǐng)域,如預(yù)測(cè)單聲道隱馬爾可夫模型狀態(tài)的概率分布[31]。
3.2.3 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)
循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,簡(jiǎn)稱RNN)[32]是一種帶有循環(huán)結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),它通過隱藏狀態(tài)來存儲(chǔ)過去的信息,再與當(dāng)前輸入一起決定當(dāng)前輸出及隱藏狀態(tài)的更新,常用于處理序列數(shù)據(jù),如自然語言等。由于RNN在訓(xùn)練過程中出現(xiàn)參數(shù)爆炸、梯度消失等問題,且無法解決長(zhǎng)期依賴問題,難以學(xué)習(xí)到較長(zhǎng)時(shí)間之前的信息,因此引入了多個(gè)變種,如長(zhǎng)短期記憶單元(long short-term memory,簡(jiǎn)稱LSTM)、門控循環(huán)單元(gated recurrent unit,簡(jiǎn)稱GRU)等。LSTM[33]由輸入門、遺忘門、輸出門及記憶單元等構(gòu)成,這種結(jié)構(gòu)使LSTM在訓(xùn)練過程中可以決定輸入的信息是否應(yīng)該保留或遺忘,解決了長(zhǎng)期依賴問題,適用于長(zhǎng)時(shí)滯后的任務(wù),可用來處理較長(zhǎng)的序列數(shù)據(jù)。GRU[34]是LSTM的一個(gè)改進(jìn)版本,它對(duì)門控機(jī)制進(jìn)行了改進(jìn),其單元內(nèi)部只包括重置門和更新門。
3.2.4 卷積神經(jīng)網(wǎng)絡(luò)(CNN)
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,簡(jiǎn)稱CNN)屬于前饋神經(jīng)網(wǎng)絡(luò),一般由卷積層、池化層、全連接層組成。卷積操作為使用一定大小的卷積核在輸入特征上進(jìn)行滑動(dòng),并將感受野內(nèi)的數(shù)值與卷積核進(jìn)行對(duì)應(yīng)元素的乘法運(yùn)算,然后將乘法結(jié)果進(jìn)行加和得到卷積后特征圖中的對(duì)應(yīng)元素值。其中卷積核對(duì)應(yīng)參數(shù)由訓(xùn)練確定,在訓(xùn)練過程中使用反向傳播算法來優(yōu)化卷積核參數(shù)。池化操作是一種降采樣方法,常采用最大池化、平均池化等方法對(duì)上一層輸出的特征圖進(jìn)行降維操作。經(jīng)過多個(gè)卷積層和池化層,可以提取到高級(jí)抽象特征,再經(jīng)過一層或多層全連接層完成相應(yīng)的分類或回歸任務(wù)。
CNN目前已在多個(gè)領(lǐng)域廣泛應(yīng)用,如圖像分類、目標(biāo)檢測(cè)、語義分割、自然語言處理等,近年來也常用于藥物發(fā)現(xiàn),如AtomNet[35]將卷積概念應(yīng)用于生物活性和化學(xué)相互作用的建模,使用三維卷積來預(yù)測(cè)小分子生物活性。由于CNN強(qiáng)大的特征學(xué)習(xí)能力,可以挖掘出數(shù)據(jù)中蘊(yùn)含的空間結(jié)構(gòu),CNN也可用于模體的挖掘,對(duì)于研究和理解RNA與蛋白質(zhì)相互作用有重要意義。
3.2.5 圖神經(jīng)網(wǎng)絡(luò)(GNN)
圖神經(jīng)網(wǎng)絡(luò)(graph neural networks,簡(jiǎn)稱GNN)[36]是一種處理圖數(shù)據(jù)的網(wǎng)絡(luò),可用于多種圖類型數(shù)據(jù),如無向圖、有向圖、無環(huán)圖、循環(huán)圖等,將圖及其節(jié)點(diǎn)映射到歐幾里得空間進(jìn)行運(yùn)算。類似的領(lǐng)域有圖嵌入,它旨在學(xué)習(xí)節(jié)點(diǎn)或圖的低維、稠密的特征表示,同時(shí)保留圖的拓?fù)浣Y(jié)構(gòu)和節(jié)點(diǎn)內(nèi)容,如Deepwalk[37]使用隨機(jī)游走的方法獲取局部信息來學(xué)習(xí)節(jié)點(diǎn)的潛在嵌入特征表示。使用深度學(xué)習(xí)的方法來進(jìn)行圖嵌入學(xué)習(xí)時(shí)也可歸于圖神經(jīng)網(wǎng)絡(luò)領(lǐng)域。GNN領(lǐng)域中圖卷積網(wǎng)絡(luò)(graph convolutional network,簡(jiǎn)稱GCN)占有重要地位,包括譜方法和空間方法。通常GCN的輸入包括節(jié)點(diǎn)特征矩陣和圖結(jié)構(gòu)描述性矩陣,如鄰接矩陣,GCN可以進(jìn)行端到端的學(xué)習(xí),其示意圖如圖4所示。
圖4 圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)示意圖
近年來,隨著圖神經(jīng)網(wǎng)絡(luò)的發(fā)展,提出了各種變體網(wǎng)絡(luò),如GraphSAGE[38]通過對(duì)鄰居節(jié)點(diǎn)采樣、聚合的操作實(shí)現(xiàn)以節(jié)點(diǎn)為中心的小批量訓(xùn)練來代替全圖訓(xùn)練;GAT[39]將注意力機(jī)制引入圖神經(jīng)網(wǎng)絡(luò),通過注意力機(jī)制聚合鄰居節(jié)點(diǎn)并自適應(yīng)地分配權(quán)重,提高了表達(dá)能力。除了應(yīng)用在社交網(wǎng)絡(luò)、知識(shí)圖譜、推薦系統(tǒng)等領(lǐng)域外,圖神經(jīng)網(wǎng)絡(luò)在生物信息學(xué)上的應(yīng)用也越來越廣泛,包括小分子結(jié)構(gòu)、基因/蛋白質(zhì)相互作用網(wǎng)絡(luò)等,如GCNG[40]利用圖神經(jīng)網(wǎng)絡(luò)將高通量空間表達(dá)數(shù)據(jù)中的空間信息編碼為圖,并結(jié)合表達(dá)數(shù)據(jù)來推斷基因相互作用。
目前,大部分預(yù)測(cè)RBP結(jié)合位點(diǎn)的方法將預(yù)測(cè)問題轉(zhuǎn)化為分類問題,來判斷蛋白質(zhì)是否能與RNA某些區(qū)域綁定。對(duì)于RNA序列,能與蛋白質(zhì)綁定的區(qū)域稱為結(jié)合位點(diǎn),其他區(qū)域稱為非結(jié)合位點(diǎn)。因此,可以訓(xùn)練一種蛋白質(zhì)特異性的二值分類器來預(yù)測(cè)RNA上的RBP結(jié)合位點(diǎn),該分類模型需要RNA的表征作為輸入,訓(xùn)練數(shù)據(jù)通常使用高通量測(cè)序技術(shù)獲得。對(duì)于特定蛋白質(zhì),需要收集足夠多的訓(xùn)練數(shù)據(jù)來預(yù)測(cè)RBP在RNA上的綁定位點(diǎn)。由于不同的RBP具有不同的綁定模式,對(duì)于每種RBP需要單獨(dú)訓(xùn)練一個(gè)模型。
傳統(tǒng)的機(jī)器學(xué)習(xí)方法需要通過特征工程清洗數(shù)據(jù)、提取特征,以及使用更淺層的學(xué)習(xí)模型,如SVM、RF等。表2總結(jié)了近年來使用傳統(tǒng)機(jī)器學(xué)習(xí)來預(yù)測(cè)RBP結(jié)合位點(diǎn)的方法。
表2 基于傳統(tǒng)機(jī)器學(xué)習(xí)預(yù)測(cè)RBP結(jié)合位點(diǎn)的方法
RNAContext[41]方法提出了基于結(jié)構(gòu)上下文字母表來標(biāo)注RNA序列的單個(gè)堿基,集成了序列和結(jié)構(gòu)信息來推斷RBPs的綁定傾向,可以準(zhǔn)確預(yù)測(cè)短序列上RBP的綁定強(qiáng)度,學(xué)習(xí)到結(jié)合位點(diǎn)的3 D形狀的更精確描述。之后,RCK[42]在RNAContext的基礎(chǔ)上進(jìn)行了改進(jìn),使用了一種新的基于K-mer的模型,同樣用到了結(jié)構(gòu)信息,將RNAplfold預(yù)測(cè)的結(jié)構(gòu)上下文的概率向量與序列一起作為輸入?;贙-mer的方法能更好地引入上下文信息,但同時(shí)也意味著模型參數(shù)增多,提高了模型過擬合的風(fēng)險(xiǎn)。
GraphProt[43]方法則首次利用完整的二級(jí)結(jié)構(gòu)信息,采用了一種高效的圖-核方法,將預(yù)測(cè)得到的結(jié)構(gòu)編碼成圖,其中包含序列和完整的二級(jí)結(jié)構(gòu)信息,之后再使用圖核的方法從圖中提取特征,最后通過訓(xùn)練SVM模型對(duì)RBP結(jié)合位點(diǎn)進(jìn)行分類。在RBP-24數(shù)據(jù)集的評(píng)估上,GraphProt在24組中有20組的表現(xiàn)都優(yōu)于RNAContext。實(shí)驗(yàn)結(jié)果表明[43],加入結(jié)構(gòu)信息相比不加結(jié)構(gòu)信息使得模型在平均相對(duì)誤差上有大幅度下降,因此,模型的準(zhǔn)確性能得到了提升,但是模型訓(xùn)練速度下降。
與前幾種方法不同的是,Oli[44]方法僅使用了序列特征作為模型輸入,提取RNA序列的K-mer頻率作為輸入特征,用SVM作為分類器對(duì)RNA-蛋白質(zhì)的相互作用進(jìn)行分類。另外,該方法同時(shí)提出了基于模體評(píng)分的OliMo[44]方法以及基于二級(jí)結(jié)構(gòu)的OliMoSS[44]方法。經(jīng)過實(shí)驗(yàn)證明[44],僅基于序列的Oli方法通過四核苷酸特征表示提取到了足夠的結(jié)合特性,這時(shí)結(jié)構(gòu)信息可能是不必要的。
iONMF[45]使用了一種正交矩陣分解方法來整合多個(gè)數(shù)據(jù)源,旨在發(fā)現(xiàn)類別特異性的RNA結(jié)合模式,其中,蛋白質(zhì)與RNA相互作用的關(guān)鍵預(yù)測(cè)因子是RNA序列和結(jié)構(gòu)模體的位置、RBP的共結(jié)合及基因區(qū)域類型。該方法驗(yàn)證了融合多個(gè)數(shù)據(jù)源的模型比在單個(gè)數(shù)據(jù)源上取得了更高的準(zhǔn)確性,而且這種正交正則化非負(fù)矩陣因子分解的方法給數(shù)據(jù)集成技術(shù)提供了新的方案。
RNAcommender[46]考慮到蛋白質(zhì)結(jié)構(gòu)域的組成和RNA預(yù)測(cè)的二級(jí)結(jié)構(gòu),利用了相互作用信息,針對(duì)RBPs的RNA靶標(biāo)訓(xùn)練了一個(gè)推薦系統(tǒng),為未知的RBPs預(yù)測(cè)RNA靶標(biāo)。
綜上所述,可以看出基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法注重于數(shù)據(jù)特征的處理、選擇和集成,而加入額外信息的作用與模型本身有關(guān)。例如,在Oli方法中,二級(jí)結(jié)構(gòu)特征未起到提升預(yù)測(cè)性能的效果,但在iONMF方法使用的多源數(shù)據(jù)特征中,又驗(yàn)證了信息量最大的數(shù)據(jù)源是RNA結(jié)構(gòu)。因此,當(dāng)前模型是否能有效利用到結(jié)構(gòu)信息也是需要考慮的因素。對(duì)于基于K-mer頻率的方法,在Oli方法中證實(shí)了4-mer核苷酸的方法能有效提取到結(jié)合特征,雖然RCK方法中指出這種方法會(huì)導(dǎo)致參數(shù)的增加,需要交叉驗(yàn)證來避免過擬合,但是在模型訓(xùn)練速度上并未下降,因此,基于K-mer的方法是一種值得考慮的有效的特征提取方法。
隨著實(shí)驗(yàn)驗(yàn)證的RBP結(jié)合位點(diǎn)數(shù)據(jù)的迅速積累,可以使用深度學(xué)習(xí)挖掘出越來越多隱含在數(shù)據(jù)里的綁定模式。深度學(xué)習(xí)被廣泛地應(yīng)用在計(jì)算機(jī)生物學(xué),如用來預(yù)測(cè)RBP結(jié)合位點(diǎn)的深度學(xué)習(xí)模型針對(duì)每種蛋白質(zhì)訓(xùn)練一個(gè)蛋白質(zhì)特異性模型。表3對(duì)于近年來在RBP結(jié)合位點(diǎn)預(yù)測(cè)領(lǐng)域上提出的基于深度學(xué)習(xí)的方法進(jìn)行了總結(jié)。
4.2.1 基于RNA序列預(yù)測(cè)RBP結(jié)合位點(diǎn)
經(jīng)過多種方法證明,僅使用RNA序列作為模型輸入也可以提取到足夠信息,取得較好的預(yù)測(cè)效果,下面介紹幾種基于RNA序列預(yù)測(cè)RBP結(jié)合位點(diǎn)的深度學(xué)習(xí)方法。
DeepBind[47]是第一個(gè)使用卷積神經(jīng)網(wǎng)絡(luò)來預(yù)測(cè)RBP結(jié)合位點(diǎn)的方法,并且可以利用卷積層學(xué)習(xí)到的參數(shù)來挖掘序列綁定模體,獲得的準(zhǔn)確性優(yōu)于基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法。DeeperBind[48]則在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上添加了一個(gè)LSTM層來學(xué)習(xí)序列內(nèi)的長(zhǎng)期依賴信息,結(jié)合深度學(xué)習(xí)特征表征的能力,使用高通量技術(shù)產(chǎn)生的數(shù)據(jù)訓(xùn)練模型學(xué)習(xí)序列的結(jié)合特性,進(jìn)一步提升了預(yù)測(cè)性能。DanQ[49]使用了類似的CNN和雙向LSTM的網(wǎng)絡(luò)架構(gòu)來學(xué)習(xí)調(diào)控機(jī)制,預(yù)估突變的影響,其預(yù)測(cè)染色質(zhì)水平的能力意味著它可以更好地預(yù)測(cè)遺傳變異引起的表觀遺傳變化。由于RNA序列的轉(zhuǎn)錄機(jī)制、序列長(zhǎng)度等特點(diǎn),CNN通過訓(xùn)練卷積核在局部感受野內(nèi)提取高級(jí)抽象特征,而LSTM則憑借其學(xué)習(xí)長(zhǎng)依賴信息的能力很好地處理了較長(zhǎng)的RNA序列,使得CNN與LSTM組合的網(wǎng)絡(luò)取得了優(yōu)越的性能。
類似于CNN與LSTM的組合網(wǎng)絡(luò)結(jié)構(gòu),MSCGRU[50]是一種結(jié)合多尺度卷積層和雙向門控遞歸單元(GRU)層的預(yù)測(cè)模型。多尺度卷積層能夠捕獲不同長(zhǎng)度的模體特征及RNA-蛋白質(zhì)之間局部的結(jié)合模式,雙向GRU層能捕獲子序列之間的依賴關(guān)系,從而預(yù)測(cè)RBP的綁定基序。
一般來說,由局部和全局序列決定RBP是否能與某序列片段進(jìn)行綁定。因此,iDeepE[51]結(jié)合了一個(gè)局部多通道CNN和一個(gè)全局CNN來預(yù)測(cè)RBP結(jié)合位點(diǎn),其中局部CNN處理多個(gè)重疊的固定長(zhǎng)度子序列,而全局CNN處理整條序列,且局部CNN在保持和全局CNN相似性能的情況下處理速度更快。由iDeepE的結(jié)果可知,更深的模型不意味著更好的預(yù)測(cè)性能,因?yàn)楦畹哪P屯馕吨枰嗟挠?xùn)練樣本來保證模型的泛化性能。經(jīng)實(shí)驗(yàn)對(duì)比發(fā)現(xiàn),只有2層CNN的模型比有20層CNN的ResNet表現(xiàn)得更好,特別是對(duì)于那些已知RNA靶點(diǎn)較少的蛋白質(zhì)。在RNA長(zhǎng)序列上iDeepE比DeepBind表現(xiàn)得更好,但在短的RNA序列片段上兩者表現(xiàn)相似。
隨著注意力機(jī)制在計(jì)算機(jī)視覺領(lǐng)域取得了可觀的進(jìn)展,它在其他領(lǐng)域上的應(yīng)用也越來越廣泛。iDeepA[52]引入基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)來自動(dòng)搜索重要位置如綁定基序,并用來預(yù)測(cè)RBP結(jié)合位點(diǎn)。iDeepA中集成了CNN和2層注意力層,并提取了來自CNN和注意力層的3個(gè)輸出特征圖。對(duì)于具有少量已知RNA靶點(diǎn)的蛋白質(zhì),引入注意力機(jī)制提升了預(yù)測(cè)能力。但是對(duì)于具有大量已知RNA靶點(diǎn)的蛋白質(zhì),引入注意力機(jī)制不能提升預(yù)測(cè)能力。一個(gè)可能的原因是注意力機(jī)制可以快速定位到重要的基序,因此不需要更多的訓(xùn)練樣本來學(xué)習(xí)高級(jí)特征。
另外,K-mer方法也可以編碼RNA序列,但是K-mer頻率不能對(duì)不同的K-mer之間的距離建模。考慮到核酸的多態(tài)性,一些K-mer在語義上是相關(guān)的。因此,一些方法首先將K-mer當(dāng)作單詞,將序列當(dāng)作句子,使用詞嵌入方法學(xué)習(xí)分布式特征,然后使用學(xué)習(xí)到的特征來分析K-mer之間的相似性。如iDeepV[53]引入了word2vec詞嵌入方法,首先,從全基因組序列中學(xué)習(xí)K-mers的低維、稠密的分布式向量,然后將這些學(xué)習(xí)到的向量進(jìn)一步輸入CNN以區(qū)分結(jié)合位點(diǎn)與非結(jié)合位點(diǎn)。對(duì)于某些只有少量訓(xùn)練樣本的RBP,iDeepV的表現(xiàn)優(yōu)于DeepBind。另外,學(xué)習(xí)到的分布式特征可以用于其他的下游分類任務(wù)。與傳統(tǒng)的K-mers方法相比,分布式表示特征對(duì)于檢測(cè)K-mers之間潛在的相互關(guān)系和相似性更有效。類似地,RBPSpot[54]方法也使用了K-mer方法來搜索具有統(tǒng)計(jì)學(xué)意義的基序,結(jié)合其上下文信息來評(píng)估序列的綁定潛力。除了分布式特征外,一些傳統(tǒng)的語言模型也可以用于特征提取。如kDeepBind[55]中使用k-Gram統(tǒng)計(jì)語言模型提取了序列的k-Gram頻次,與CNN提取的特征拼接后輸入全連接層完成分類任務(wù)。
綜上所述,與基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法相比,得益于神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征提取能力及處理大型數(shù)據(jù)集的強(qiáng)大的計(jì)算能力,基于深度學(xué)習(xí)的方法在僅有序列信息的情況下可以取得更好的預(yù)測(cè)性能。如DeepBind方法僅使用CNN模型,但在RBP-24數(shù)據(jù)集上的評(píng)估AUC達(dá)到了0.92,高于RNAContext和GraphPort,在RBP-31數(shù)據(jù)集上的評(píng)估AUC達(dá)到了0.85,與iONMF持平,但也高于Oli和GraphProt。
4.2.2 引入結(jié)構(gòu)信息預(yù)測(cè)RBP結(jié)合位點(diǎn)
RBP也通過識(shí)別結(jié)構(gòu)上下文與RNA靶點(diǎn)結(jié)合,因此,結(jié)構(gòu)信息也被用來預(yù)測(cè)RBP結(jié)合位點(diǎn)和結(jié)合偏好。多種方法證明,添加多源特征能提升性能,特別是一些互補(bǔ)的特征。考慮到RBP結(jié)合位點(diǎn)的異構(gòu)表示及除序列外其他影響RNA-蛋白質(zhì)相互作用的因素,iDeep[56]方法通過集成包括區(qū)域類型、共綁定、結(jié)構(gòu)概率、模體得分和RNA序列共5種多源數(shù)據(jù)特征來學(xué)習(xí)其之間的共享特征。其中使用CNN捕捉序列中的調(diào)控模體,使用DBN學(xué)習(xí)其他4種數(shù)據(jù)輸入的隱藏狀態(tài)的高級(jí)特征,2個(gè)模型獨(dú)立預(yù)訓(xùn)練后,再結(jié)合在一起進(jìn)行最后的聯(lián)合訓(xùn)練。iDeep在性能上超過了其他先進(jìn)的方法,并且可用于推斷綁定序列模體。從iDeep的結(jié)果可看出,區(qū)域類型和共綁定信息對(duì)于預(yù)測(cè)RNA上的RBP結(jié)合位點(diǎn)起到了較大作用,而且使用多模態(tài)的方法也能從各模態(tài)中學(xué)習(xí)到更有效的特征。
類似地,考慮到調(diào)控序列不僅取決于核酸序列,還取決于其與基因組標(biāo)志物,如轉(zhuǎn)錄起始位點(diǎn)、外顯子邊界或聚腺苷酸化位點(diǎn)的相對(duì)距離,CONCISE[57]引入樣條變換,構(gòu)建了一種基于樣條函數(shù)的神經(jīng)網(wǎng)絡(luò)模型,針對(duì)各基因組標(biāo)志物之間的相對(duì)距離建模。由CONCISE的結(jié)果可知,其性能超過了其他基于距離的機(jī)器學(xué)習(xí)模型。但局限性在于,輸入的標(biāo)量特征的尺度需要提前確定,以保證樣條節(jié)點(diǎn)均勻地分布在整個(gè)特征值范圍內(nèi)。
在進(jìn)行RBP結(jié)合位點(diǎn)預(yù)測(cè)時(shí),常伴隨著挖掘模體的任務(wù)。如iDeepS[58]使用2個(gè)CNN和一個(gè)雙向LSTM來同時(shí)學(xué)習(xí)結(jié)合序列模體和結(jié)構(gòu)模體,還可以學(xué)習(xí)到序列和結(jié)構(gòu)間的長(zhǎng)期依賴信息。iDeepS僅使用了序列及根據(jù)序列預(yù)測(cè)的結(jié)構(gòu),由于iDeep使用了其他多源的特征,例如基因組背景信息,在一些RBP上iDeepS表現(xiàn)得比iDeep差,但與其他基于序列和結(jié)構(gòu)的方法如GraphProt相比,iDeepS表現(xiàn)更好。Pysster[59]能通過CNN同時(shí)檢測(cè)序列和結(jié)構(gòu)中的模體,其中,序列和結(jié)構(gòu)通過組合序列和結(jié)構(gòu)的字母表得到的擴(kuò)展字母表來進(jìn)行編碼,并對(duì)輸入序列分類。
隨著預(yù)測(cè)RNA二級(jí)折疊結(jié)構(gòu)方法的進(jìn)步和準(zhǔn)確性的提升,一些二級(jí)結(jié)構(gòu)預(yù)測(cè)結(jié)果可作為可靠數(shù)據(jù)加入輸入特征。如DLPRB[60]根據(jù)RNAplfold預(yù)測(cè)得到RNA結(jié)構(gòu)上下文的概率向量,對(duì)結(jié)構(gòu)信息進(jìn)行特征編碼,再使用CNN和RNN從高通量體外數(shù)據(jù)中聯(lián)合分析RNA序列和結(jié)構(gòu),其網(wǎng)絡(luò)結(jié)構(gòu)新穎性在于,RNN在RNA結(jié)合位點(diǎn)預(yù)測(cè)中的應(yīng)用及CNN中數(shù)百個(gè)可變長(zhǎng)度卷積核的組合。cDeepBind[61]通過輕量級(jí)CNN用于轉(zhuǎn)錄組范圍推理和適用于小批量數(shù)據(jù)的LSTM,將計(jì)算預(yù)測(cè)的二級(jí)結(jié)構(gòu)特征作為模型輸入,并證實(shí)了其在提高預(yù)測(cè)性能方面的有效性。
除了學(xué)習(xí)RNA序列的分布式表示外,DeepRKE[62]利用RNA一級(jí)序列和二級(jí)結(jié)構(gòu)的分布式表示來推斷RNA結(jié)合蛋白結(jié)合位點(diǎn),使用了非監(jiān)督的淺層神經(jīng)網(wǎng)絡(luò),使用嵌入詞算法提取RNA序列和二級(jí)結(jié)構(gòu)的特征,即分布式表示的K-mers序列,然后將學(xué)習(xí)到的序列分布式特征輸入CNN和雙向LSTM來預(yù)測(cè)RBP結(jié)合位點(diǎn)。Deepnet-rbp[63]則首次考慮了RNA三級(jí)結(jié)構(gòu)信息,將序列、二級(jí)結(jié)構(gòu)、三級(jí)結(jié)構(gòu)信息編碼為統(tǒng)一的特征表示,描述了RBP在所有3個(gè)維度上的結(jié)構(gòu)特異性,然后輸入多DBN模型來預(yù)測(cè)RBP結(jié)合位點(diǎn)和模體。其中,使用了RNAshapes工具預(yù)測(cè)可能的二級(jí)結(jié)構(gòu),利用一種復(fù)制式softmax模型對(duì)原始序列和二級(jí)結(jié)構(gòu)進(jìn)行編碼,并通過JAR3D工具預(yù)測(cè)序列的三級(jí)結(jié)構(gòu)模體。實(shí)驗(yàn)結(jié)果表明,整合額外的RNA三級(jí)結(jié)構(gòu)特征可以提高模型在預(yù)測(cè)RBP結(jié)合位點(diǎn)方面的性能。
除了將RNA序列表示成獨(dú)熱編碼,RNA二級(jí)結(jié)構(gòu)也可以表征成圖。GraphProt2[64]首先通過RNAfold預(yù)測(cè)序列的二級(jí)折疊結(jié)構(gòu),然后以此為基礎(chǔ)將預(yù)測(cè)的二級(jí)結(jié)構(gòu)編碼為圖。使用堿基作為圖中的節(jié)點(diǎn),將其one-hot編碼及保守性分?jǐn)?shù)、區(qū)域類型等特征作為節(jié)點(diǎn)特征,使用堿基配對(duì)信息建立圖中的邊,得到了完整的無向拓?fù)鋱D網(wǎng)絡(luò),然后利用圖神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)RBP結(jié)合位點(diǎn)。與GraphProt不同的是,GraphProt2對(duì)整條RNA序列計(jì)算了位置預(yù)測(cè)得分,預(yù)測(cè)性能優(yōu)于iDeepS。
與僅使用序列的方法相比,將預(yù)測(cè)的結(jié)構(gòu)引入模型訓(xùn)練可以在一定程度上提高預(yù)測(cè)性能,但也大大增加了計(jì)算量,對(duì)于長(zhǎng)RNA序列來說非常耗時(shí)。結(jié)構(gòu)信息包含二級(jí)折疊結(jié)構(gòu)、結(jié)構(gòu)概率、區(qū)域類型等多種信息,如何結(jié)合模型結(jié)構(gòu)有效利用多種結(jié)構(gòu)信息,如GraphProt2中結(jié)合圖神經(jīng)網(wǎng)絡(luò)模型提取RNA二級(jí)折疊結(jié)構(gòu)的特征,是進(jìn)一步提升的關(guān)鍵點(diǎn)。
4.2.3 多標(biāo)簽、多任務(wù)、多模態(tài)
與上述針對(duì)每種RBP訓(xùn)練一個(gè)模型的RBP特異性模型不同,iDeepM[65]提出了一種多標(biāo)簽深度學(xué)習(xí)方法。iDeepM將預(yù)測(cè)RBP的問題建模成多標(biāo)簽的分類問題,通過一個(gè)CNN和一個(gè)LSTM來預(yù)測(cè)綁定的蛋白質(zhì),其中CNN用來提取高級(jí)基序特征,而LSTM用來學(xué)習(xí)RBP之間的長(zhǎng)期依賴關(guān)系。iDeepM的一個(gè)優(yōu)勢(shì)在于不需要為模型訓(xùn)練構(gòu)建負(fù)樣本集,而是利用了RBP之間的依賴關(guān)系。多模態(tài)深度學(xué)習(xí)可以學(xué)習(xí)到多源數(shù)據(jù)的共享高級(jí)特征,而對(duì)于RBP綁定的RNA,每個(gè)模態(tài)都有其自身的表征。對(duì)于RBP結(jié)合位點(diǎn)預(yù)測(cè),這些共享的高級(jí)特征具有強(qiáng)大的辨別能力。類似地,DeepRiPe[66]構(gòu)建了多任務(wù)、多模態(tài)的DNN模型,使用模塊化結(jié)構(gòu)從DNA/RNA序列和轉(zhuǎn)錄本區(qū)域類型中學(xué)習(xí)信息特征,然后將這些模塊的特征合并輸入多任務(wù)模塊,同時(shí)預(yù)測(cè)多個(gè)RBP的結(jié)合位點(diǎn)。因此,DeepRiPe模型既能夠使用任務(wù)之間的共享信息,又能專注于每個(gè)RBP的獨(dú)特特征。
這種多標(biāo)簽、多任務(wù)、多模態(tài)的結(jié)構(gòu)相較于單任務(wù)學(xué)習(xí)關(guān)注到了更多的關(guān)聯(lián)信息,考慮到了不同的RBP之間的相似性及相互作用,在多個(gè)任務(wù)之間共享學(xué)習(xí)到的信息,為單個(gè)RBP的預(yù)測(cè)提供了補(bǔ)充。
4.2.4 非編碼RNA
近年來,除了信使RNA(mRNA)以外,對(duì)其他非編碼類RNA分子的探索也成為熱門的研究方向,如環(huán)狀RNA(circRNAs)、長(zhǎng)鏈非編碼RNA(lncRNA)等。非編碼RNA通常指不翻譯蛋白質(zhì)的RNA,但這并不意味著這些RNA不包含信息或不發(fā)揮功能[67]。實(shí)際上,這些非編碼RNA也通過某種模式來控制基因表達(dá)的水平,參與了與其他核酸和蛋白質(zhì)相互作用的復(fù)雜網(wǎng)絡(luò),對(duì)細(xì)胞生物學(xué)具有廣泛的影響,并在疾病中扮演重要角色。在癌癥研究中,非編碼RNA已被確定為多種癌癥的致癌驅(qū)動(dòng)和腫瘤抑制因子,其相互作用的失調(diào)導(dǎo)致了腫瘤的發(fā)生,并揭示了重要的新靶點(diǎn)[68]。
環(huán)狀RNA(circRNAs)是一種具有共價(jià)閉合結(jié)構(gòu)、高穩(wěn)定性的RNA,參與基因調(diào)控,由線性RNA的5’端和3’端經(jīng)共價(jià)結(jié)合形成[69]。在CRIP[18]方法中,使用了基于密碼子編碼的方法,通過結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)來研究環(huán)狀RNA與RBP的相互作用,從而預(yù)測(cè)RBP在circRNA上的結(jié)合位點(diǎn)。iCircRBP-DHN[70]方法利用深層次網(wǎng)絡(luò)識(shí)別circRNA與RBP的結(jié)合位點(diǎn),首先提出了一種新的編碼方法CircRNA2Vec,旨在通過一種無監(jiān)督文檔嵌入方法從circRNA序列中捕獲長(zhǎng)距離依賴關(guān)系,然后和k元組核苷酸頻率模式結(jié)合起來表示不同程度的核苷酸依賴性。該網(wǎng)絡(luò)結(jié)構(gòu)可看作一個(gè)具有自注意機(jī)制的雙向門控遞歸單元(BiGRUs)的深層多尺度殘差網(wǎng)絡(luò),它能同時(shí)提取局部和全局上下文信息。該模型不僅表現(xiàn)出在識(shí)別環(huán)狀RNA-RBP相互作用位點(diǎn)方面的潛力,而且在線性RNA數(shù)據(jù)集RBP-31上也表現(xiàn)出了優(yōu)于CRIP、iDeepS的性能。iDeepC[71]是一種RBP特異性方法。它采用了一個(gè)由輕量級(jí)注意力模塊和度量模塊組成的孿生神經(jīng)網(wǎng)絡(luò)。其中,孿生神經(jīng)網(wǎng)絡(luò)通過成對(duì)度量學(xué)習(xí)有效地提高了網(wǎng)絡(luò)捕獲環(huán)狀RNA之間互信息的能力,在一定程度上解決了部分RBPs的已知綁定circRNA數(shù)量有限的小樣本問題。類似地,長(zhǎng)鏈非編碼RNA(lncRNA)一般指長(zhǎng)度超過200 bp的一類RNA[72]。HOCNNLB[73]方法通過一種基于高階核苷酸編碼的卷積神經(jīng)網(wǎng)絡(luò)模型來預(yù)測(cè)RBP在lncRNA上的結(jié)合位點(diǎn),在長(zhǎng)鏈非編碼RNA上表現(xiàn)出了優(yōu)秀的預(yù)測(cè)性能。
為了比較各方法的性能,對(duì)比了不同模型在RBP-24[43]和RBP-31[45]兩個(gè)數(shù)據(jù)集上的公開實(shí)驗(yàn)結(jié)果。
RBP-24數(shù)據(jù)集來自GraphProt (http://www.bioinf.uni-freiburg.de/Software/GraphProt/),由21個(gè)蛋白質(zhì)的24個(gè)實(shí)驗(yàn)組成,其中23組來自doRiNA[74],另外一組是PTB的HITS-CLIP結(jié)合位點(diǎn)數(shù)據(jù)[75]。其訓(xùn)練和測(cè)試序列具有可變長(zhǎng)度,且不同RBP的訓(xùn)練樣本數(shù)量不同。
RBP-31數(shù)據(jù)集來自iONMF (https://github.com/mstrazar/ionmf),是一個(gè)序列具有固定長(zhǎng)度的基準(zhǔn)數(shù)據(jù)集。其中,每條序列的長(zhǎng)度為101 nt,每個(gè)RBP有24 000個(gè)訓(xùn)練樣本、6 000個(gè)驗(yàn)證樣本和10 000個(gè)測(cè)試樣本。它由24個(gè)蛋白質(zhì)的31個(gè)實(shí)驗(yàn)組成,在每個(gè)實(shí)驗(yàn)中,首先確定cDNA計(jì)數(shù)最高的核苷酸位置作為正樣本備選池,然后在距離小于15個(gè)核苷酸的位置中,只考慮具有最高cDNA計(jì)數(shù)的位置當(dāng)作正樣本以避免冗余,負(fù)樣本取自在任何實(shí)驗(yàn)中都未檢測(cè)到相互作用的基因中的序列區(qū)域。
此處只比較實(shí)驗(yàn)中報(bào)告的平均接收者操作特征曲線(receiver operating characteristic curve,簡(jiǎn)稱ROC)下的面積(AUC)。ROC曲線由預(yù)測(cè)結(jié)果和真實(shí)標(biāo)簽共同決定,其縱坐標(biāo)為真陽率(TPR),橫坐標(biāo)為假陽率(FPR),計(jì)算方法為:
(1)
(2)
其中:TP指預(yù)測(cè)為正類的正樣本;FP指預(yù)測(cè)為正類的負(fù)樣本;TN指預(yù)測(cè)為負(fù)類的負(fù)樣本;FN指預(yù)測(cè)為負(fù)類的正樣本。因此,TPR可以理解為模型正確預(yù)測(cè)的能力,而FPR為模型錯(cuò)誤預(yù)測(cè)的程度,當(dāng)TPR越高時(shí),曲線下面積越大,即AUC越高,模型性能越好。
由各方法公開的數(shù)據(jù)可知,基于深度學(xué)習(xí)的方法通常比傳統(tǒng)的基于機(jī)器學(xué)習(xí)的方法表現(xiàn)更好。深度學(xué)習(xí)廣泛用于預(yù)測(cè)RBP結(jié)合位點(diǎn)的蛋白質(zhì)特異性方法,基于深度學(xué)習(xí)的方法比基于淺層學(xué)習(xí)的方法具有更好的性能??赡艿脑蚴?,蛋白質(zhì)的樣本數(shù)非常大,這對(duì)訓(xùn)練深度學(xué)習(xí)模型非常有利。
對(duì)于在RBP-24上的實(shí)驗(yàn)數(shù)據(jù),DeepBind方法憑借卷積神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征提取能力,表現(xiàn)出了優(yōu)于RNAContext與GraphProt的預(yù)測(cè)能力。與DeepBind具有相當(dāng)性能的iDeepA、iDeepV方法的平均AUC同樣達(dá)到了0.92,證實(shí)了注意力機(jī)制與詞嵌入方法應(yīng)用在RBP結(jié)合位點(diǎn)預(yù)測(cè)領(lǐng)域上的有效性。同時(shí),融合局部CNN與全局CNN的iDeepE方法的AUC達(dá)到了0.93,也展現(xiàn)了CNN在關(guān)注不同范圍內(nèi)重要信息的能力。帶預(yù)訓(xùn)練的孿生網(wǎng)絡(luò)iDeepC的平均AUC達(dá)到了0.94,表現(xiàn)出了最高的準(zhǔn)確性,同時(shí)適用于小樣本的蛋白質(zhì)預(yù)測(cè)任務(wù),在一定程度上緩解了由于部分RBP的已知RNA靶點(diǎn)不足帶來的問題。
對(duì)于在RBP-31上的實(shí)驗(yàn)數(shù)據(jù),DeepBind方法同樣表現(xiàn)出了優(yōu)于Oli、GraphProt及iONMF方法的預(yù)測(cè)能力,基于深度學(xué)習(xí)的方法顯示出了更多的優(yōu)勢(shì)。特別是,與使用多個(gè)特征源的基于矩陣分解的iONMF方法相比,僅使用序列的深度學(xué)習(xí)模型產(chǎn)生更好或相當(dāng)?shù)男阅埽⑶襥ONMF的平均AUC達(dá)到了0.85,而同樣具有多源特征的基于多模態(tài)深度學(xué)習(xí)的CONCISE方法和基于多尺度卷積網(wǎng)絡(luò)的MSCGRU方法的平均AUC達(dá)到了0.92,展現(xiàn)了深度學(xué)習(xí)網(wǎng)絡(luò)在融合多源數(shù)據(jù)、多尺度特征上的強(qiáng)大能力。
模體是普遍存在于核酸或蛋白質(zhì)等生物大分子中的保守序列,可看作序列集合中的一種公共序列模式,或具有特定功能的序列片段。在蛋白質(zhì)中表現(xiàn)為一種具有特定功能的超二級(jí)結(jié)構(gòu),包括線性短模體、結(jié)構(gòu)模體等。模體挖掘?qū)Χㄎ簧镄蛄兄杏幸饬x的序列片斷起著重要作用。RNA結(jié)合蛋白的序列特異性表現(xiàn)出深度的進(jìn)化保守性,可以從RBP的RNA結(jié)合域序列推斷其綁定偏好,因此,模體挖掘?qū)τ诜治鋈祟愞D(zhuǎn)錄后調(diào)控機(jī)制,探索RBP與RNA靶標(biāo)之間的序列特異性關(guān)聯(lián)具有重要意義。深度學(xué)習(xí)方法已經(jīng)被廣泛應(yīng)用在RBP綁定模體挖掘上,特別是卷積神經(jīng)網(wǎng)絡(luò),檢測(cè)模體一般是基于卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)RBP結(jié)合位點(diǎn)方法的副產(chǎn)物,可理解為通過CNN學(xué)習(xí)到RBP結(jié)合序列的高級(jí)特征。表4、表5分別對(duì)近幾年挖掘序列模體和序列-結(jié)構(gòu)模體的方法進(jìn)行了總結(jié)。由iDeep可知,可以把學(xué)習(xí)到的卷積核參數(shù)轉(zhuǎn)化為位置權(quán)重矩陣,以匹配輸入序列來挖掘RBP的綁定模體。另外,iDeepC方法基于可解釋性方法來挖掘綁定模體,通過使用集成梯度來計(jì)算每個(gè)堿基對(duì)蛋白和RNA綁定的重要性貢獻(xiàn),得到序列上每個(gè)堿基的重要性分?jǐn)?shù),進(jìn)而找到那些連續(xù)分?jǐn)?shù)較高的序列片段,作為潛在的RBP綁定模體。
表4 序列模體挖掘方法
表5 序列-結(jié)構(gòu)模體挖掘方法
由以上可以看出,深度學(xué)習(xí)技術(shù)已經(jīng)在RBP結(jié)合位點(diǎn)預(yù)測(cè)領(lǐng)域得到了廣泛應(yīng)用,顯著地提高了RBP結(jié)合位點(diǎn)與非結(jié)合位點(diǎn)的分類性能,且通過挖掘模體提高了模型方法的可解釋性。但是,深度學(xué)習(xí)技術(shù)的應(yīng)用還具有一些限制,其在生物信息領(lǐng)域上的應(yīng)用有待進(jìn)一步改進(jìn)與提升,據(jù)此提出了以下可行的改進(jìn)方向。
隨著高通量測(cè)序技術(shù)的發(fā)展,大量序列數(shù)據(jù)得到積累,使得深度學(xué)習(xí)技術(shù)的應(yīng)用成為可能,但也決定了模型能達(dá)到的預(yù)測(cè)精度的上限。目前,由于測(cè)序技術(shù)上的局限性及實(shí)驗(yàn)的不確定性,數(shù)據(jù)仍存在假陽性和假陰性的問題。而且,大多數(shù)模型在處理序列時(shí)需要進(jìn)行切割,將其中的包含結(jié)合位點(diǎn)的片段分離出來用作正樣本。這個(gè)過程也會(huì)因?yàn)檫x取的分割方法不合適而破壞結(jié)構(gòu)完整性、序列連續(xù)性,因此引入噪聲或丟失信息。同樣地,在構(gòu)造負(fù)樣本集時(shí)也會(huì)受到影響,并且負(fù)樣本數(shù)遠(yuǎn)大于正樣本數(shù)。另外,RBP數(shù)據(jù)集在不同的RBP之間也存在不平衡的問題,而部分RBP的數(shù)據(jù)集由于樣本數(shù)較少,導(dǎo)致模型訓(xùn)練不充分而達(dá)不到更高的預(yù)測(cè)精度。因此,更高質(zhì)量的數(shù)據(jù)集可能會(huì)更大地提升預(yù)測(cè)性能。
由各方法在RBP-24與RBP-31數(shù)據(jù)集上的公開實(shí)驗(yàn)數(shù)據(jù)可以看出,基于多通道CNN的iDeepE方法在RBP-24上的平均AUC達(dá)到了0.93,而在RBP-31上基于多尺度CNN的MSCGRU方法的平均AUC達(dá)到了0.92,都表現(xiàn)出了最好的預(yù)測(cè)能力。由此可見,這種融合多維度特征的深度學(xué)習(xí)方法能有效提取RNA序列上隱含的有用信息,從多個(gè)尺度學(xué)習(xí)到重要特征。同時(shí),在MSCGRU方法中BiGRU網(wǎng)絡(luò)也起到了學(xué)習(xí)長(zhǎng)期依賴信息的重要作用,能夠在全局的維度上學(xué)習(xí)不同尺度特征之間的相關(guān)性,這也使得網(wǎng)絡(luò)更適用于RNA序列上的學(xué)習(xí)任務(wù)。因此,如何針對(duì)RNA序列及RBP結(jié)合位點(diǎn)的特點(diǎn)量身定制合適的深度學(xué)習(xí)網(wǎng)絡(luò),或者按照其特殊的結(jié)合模式提出獨(dú)特的學(xué)習(xí)方法,是在RBP結(jié)合位點(diǎn)預(yù)測(cè)領(lǐng)域上進(jìn)一步突破的關(guān)鍵。
近年來,除了介紹的幾種深度學(xué)習(xí)模型外,更多改進(jìn)的深度學(xué)習(xí)模型也層出不窮。遷移學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、對(duì)比學(xué)習(xí)、多任務(wù)學(xué)習(xí)等也逐漸被應(yīng)用到生物信息領(lǐng)域,如MTTFsite[81]是一個(gè)多任務(wù)學(xué)習(xí)框架,通過利用跨細(xì)胞系的數(shù)據(jù)來解決數(shù)據(jù)缺乏的問題,其中包含一個(gè)共享的CNN來學(xué)習(xí)所有細(xì)胞系中轉(zhuǎn)錄因子的共同特征以及一個(gè)私有的CNN來學(xué)習(xí)每個(gè)細(xì)胞系中轉(zhuǎn)錄因子的私有特征,特別是在那些標(biāo)記數(shù)據(jù)不足的細(xì)胞類型上提升了預(yù)測(cè)性能,在一定程度上緩解了數(shù)據(jù)不均衡的問題。另外,深度學(xué)習(xí)模型相當(dāng)于一個(gè)“黑匣子”,對(duì)于其在RBP結(jié)合位點(diǎn)預(yù)測(cè)上應(yīng)用的可解釋性,模體挖掘作為探索的第一步已經(jīng)取得了較好的效果。未來,對(duì)RNA-蛋白質(zhì)結(jié)合機(jī)制上更多的可解釋性研究,需要進(jìn)一步探索。
本文主要回顧了近年來深度學(xué)習(xí)在RBP結(jié)合位點(diǎn)預(yù)測(cè)領(lǐng)域上的預(yù)測(cè)方法進(jìn)展。首先,總結(jié)了常用的RNA-蛋白質(zhì)結(jié)合位點(diǎn)數(shù)據(jù)庫(kù)。然后對(duì)應(yīng)用于傳統(tǒng)機(jī)器學(xué)習(xí)模型和深度學(xué)習(xí)模型的編碼技術(shù)進(jìn)行了介紹,主要是RNA序列的編碼方法。接下來介紹了傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)的發(fā)展。進(jìn)一步對(duì)近年來應(yīng)用傳統(tǒng)機(jī)器學(xué)習(xí)或深度學(xué)習(xí)技術(shù)來預(yù)測(cè)RBP結(jié)合位點(diǎn)、挖掘模體的方法進(jìn)行了詳細(xì)介紹,并對(duì)其在RBP結(jié)合位點(diǎn)數(shù)據(jù)集上的性能進(jìn)行了比較。最后,討論了目前深度學(xué)習(xí)方法應(yīng)用上的局限性及其可能的改進(jìn)方向。