楊海濤,鄧趙紅,王士同
江南大學(xué) 人工智能與計(jì)算機(jī)學(xué)院,江蘇 無錫214122
核糖核酸(ribonucleic acid,RNA),存在于生物細(xì)胞以及部分病毒、類病毒的遺傳信息載體之中,在生命體中主要發(fā)揮調(diào)控編碼基因表達(dá)的作用,同時(shí)也擔(dān)任基因轉(zhuǎn)錄后合成蛋白質(zhì)的模板角色,是生命體中不可缺少的成分。一條RNA想要順利發(fā)揮其功能,一般需要借助RNA 結(jié)合蛋白(RNA-binding protein,RBP)進(jìn)行介導(dǎo),因此缺少某種RBP 可能會(huì)導(dǎo)致某類RNA 無法發(fā)揮其調(diào)控或翻譯的功能,使生命體的某些重要蛋白質(zhì)缺失或異常增殖,影響自身機(jī)能。
RNA 結(jié)合蛋白(RBP)是翻譯過程的關(guān)鍵參與者,它們結(jié)構(gòu)域的多功能性與結(jié)構(gòu)靈活性使得RBP能夠控制大量轉(zhuǎn)錄物的代謝。RBP 幾乎涉及翻譯調(diào)控層的所有步驟,它們與其他蛋白質(zhì)以及編碼和非編碼RNA 建立高度動(dòng)態(tài)的相互作用,產(chǎn)生稱為核糖核蛋白復(fù)合物的功能單元,調(diào)節(jié)RNA 剪切、多腺苷酸化、穩(wěn)定性、定位、翻譯和退化[1-2]。研究發(fā)現(xiàn),某些特定RBP 具有調(diào)節(jié)RNA 合成癌蛋白和腫瘤抑制蛋白的功效,因此破譯RBP 與癌癥相關(guān)RNA 靶標(biāo)之間錯(cuò)綜復(fù)雜的結(jié)合關(guān)系網(wǎng)絡(luò)將為腫瘤生物學(xué)提供更好的研究方向,并可能發(fā)現(xiàn)治療癌癥的新方法[3-4]。
在大數(shù)據(jù)和測(cè)序技術(shù)高度發(fā)展的背景下,醫(yī)療條件無法對(duì)每對(duì)RNA 和RBP 進(jìn)行結(jié)合性檢測(cè),因此涌現(xiàn)了很多利用機(jī)器學(xué)習(xí)模型從RNA 序列中識(shí)別RBP 結(jié)合位點(diǎn)[5]的算法。例如:Maticzka 等人提出了GraphProt[6]方法,其從高通量實(shí)驗(yàn)數(shù)據(jù)中學(xué)習(xí)RBP序列和結(jié)構(gòu)的結(jié)合偏好,設(shè)計(jì)出獨(dú)特的計(jì)算框架;Corrado 等人提出RNACommender[7],一種預(yù)測(cè)結(jié)合位點(diǎn)的方法,能夠通過可用的相互作用信息,考慮蛋白質(zhì)結(jié)構(gòu)和RNA 的模擬二級(jí)結(jié)構(gòu),向未探索的RBP推薦RNA 靶點(diǎn);由Zhang 等人提出的HOCNNLB[8]使用高階核苷酸編碼來作為初始特征,預(yù)測(cè)某段給定的RNA 是否是結(jié)合位點(diǎn)。這些方法的關(guān)注點(diǎn)在于利用原始RNA 序列的特征預(yù)測(cè)結(jié)合位點(diǎn)[9-10],忽視了RNA 與RBP 已有的結(jié)合信息對(duì)預(yù)測(cè)的助力。針對(duì)此,Pan 等人提出了iDeepM[11]方法,其利用多標(biāo)簽分類和深度學(xué)習(xí)法預(yù)測(cè)一條RNA 與多種RBP 的結(jié)合情況,成功達(dá)到多標(biāo)簽分類的預(yù)期效果。但iDeepM也存在如下的不足:其使用的RNA 序列單視角數(shù)據(jù)雖然對(duì)分類具有一定的有效性,但受限于RNA 序列的信息量不足,導(dǎo)致預(yù)測(cè)精度較低;另外該方法使用的卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)未能充分學(xué)習(xí)到標(biāo)簽之間的關(guān)聯(lián),同樣對(duì)預(yù)測(cè)精度產(chǎn)生影響。
本文針對(duì)iDeepM方法面臨的挑戰(zhàn),在Pan等人工作的基礎(chǔ)上進(jìn)行了改進(jìn),提出了RRMVL(RNA-RBP multiview learning)方法。RRMVL 融合了多視角深度特征學(xué)習(xí)、多標(biāo)簽特征學(xué)習(xí)和最優(yōu)多標(biāo)簽鏈?zhǔn)綄W(xué)習(xí)技術(shù)來進(jìn)行RBP 識(shí)別。首先,在最初的RNA 序列數(shù)據(jù)基礎(chǔ)上,提取了氨基酸序列視角數(shù)據(jù)、多間隙二肽成分視角數(shù)據(jù)和RNA 序列語義視角數(shù)據(jù);然后,針對(duì)不同視角的數(shù)據(jù)結(jié)構(gòu),設(shè)計(jì)各自視角的深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行深度特征學(xué)習(xí);接著,融合提取到的各個(gè)視角的深度特征,使用邏輯回歸原理學(xué)習(xí)每個(gè)視角的每一維特征對(duì)每一個(gè)標(biāo)簽的貢獻(xiàn)權(quán)重;最后,將深度特征向量與各自標(biāo)簽對(duì)應(yīng)的權(quán)重系數(shù)相乘,輸入至改進(jìn)后的CC 多標(biāo)簽分類器中訓(xùn)練,實(shí)現(xiàn)最優(yōu)多標(biāo)簽鏈?zhǔn)綄W(xué)習(xí),進(jìn)一步提高RNA 與RBP 結(jié)合的預(yù)測(cè)精度。本文的實(shí)驗(yàn)研究表明使用基于多視角的最優(yōu)多標(biāo)簽鏈?zhǔn)綄W(xué)習(xí)的方法在預(yù)測(cè)精度方面有了明顯的提升。
本文主要貢獻(xiàn)可歸納如下:(1)使用Word2Vec 技術(shù)訓(xùn)練6 聚體RNA 語義模型,提取出RNA 序列的序列語義視角數(shù)據(jù)用于識(shí)別RNA 結(jié)合蛋白;(2)使用多間隙二肽成分表示法構(gòu)建RNA 序列的成分視角,其包含更豐富的成分信息;(3)設(shè)計(jì)獨(dú)立的網(wǎng)絡(luò)模型,學(xué)習(xí)本文提出的RNA 序列視角、氨基酸序列視角、多間隙二肽成分視角和RNA 序列語義視角中每一維深度特征對(duì)每個(gè)標(biāo)簽的貢獻(xiàn)權(quán)重,實(shí)現(xiàn)多標(biāo)簽特征學(xué)習(xí);(4)改進(jìn)現(xiàn)有的CC 多標(biāo)簽鏈?zhǔn)椒诸惼?,將多?biāo)簽特征學(xué)習(xí)后的加權(quán)特征向量應(yīng)用于多標(biāo)簽學(xué)習(xí)中,最大化提升了CC 多標(biāo)簽分類器對(duì)每個(gè)標(biāo)簽的學(xué)習(xí)能力,達(dá)到最優(yōu)多標(biāo)簽鏈?zhǔn)綄W(xué)習(xí)的效果;(5)研究了類樣本不均衡對(duì)預(yù)測(cè)RNA 和RBP 結(jié)合精度的影響。
自然界中存在五種堿基A、C、G、U、T,其中前四者是構(gòu)成RNA 的主要成分。RNA 序列和氨基酸序列可以通過翻譯和逆翻譯機(jī)制[12]相互轉(zhuǎn)化。因?yàn)榘被嵝蛄惺怯?0 種氨基酸構(gòu)成的蘊(yùn)含一定上下文信息的序列,其信息量遠(yuǎn)比RNA 序列豐富[13],因此在以RNA 為研究主體的生物信息學(xué)領(lǐng)域,通常將RNA 序列轉(zhuǎn)化為氨基酸序列進(jìn)行特征提取與分析。將RNA序列翻譯成氨基酸序列是單向且唯一的,但是由于一種氨基酸可對(duì)應(yīng)多種堿基組合,用普通的翻譯方法得到的氨基酸序列無法還原至原始RNA 序列,這會(huì)造成信息丟失和信息曲解的后果。例如堿基組合GCA 可翻譯得到固定的氨基酸A,但是氨基酸A 卻可以表示為GCA、GCC、GCG、GCU。為了處理這個(gè)問題,本文使用三種方式將RNA 序列翻譯為氨基酸序列:(1)從頭開始翻譯RNA 序列;(2)跳過RNA 序列第一個(gè)堿基開始翻譯;(3)跳過RNA 序列第一和第二個(gè)堿基開始翻譯。用此方法可將長(zhǎng)度為m的RNA序列轉(zhuǎn)化為3 條長(zhǎng)度為1/3m的氨基酸序列,這三種形態(tài)的氨基酸序列可以通過序列信息互補(bǔ)還原原始RNA 序列信息。如上述的堿基組合GCA,可使用三種形態(tài)序列對(duì)應(yīng)位置的氨基酸R、A、H 來唯一確定。三種形態(tài)拼接起來的長(zhǎng)度為m的氨基酸序列能夠完全繼承原始RNA 序列的序列信息,且具有更加豐富的表現(xiàn)形式。
二肽是氨基酸序列特有的一種結(jié)構(gòu)[14],任意兩個(gè)氨基酸的組合稱為二肽。因?yàn)槎膶?duì)左右氨基酸的排列敏感[15-16],所以20 種天然氨基酸可以組成400 種不同的二肽。多間隙二肽成分表示法(g-gap dipeptide composition)[17]是一種描述氨基酸序列中二肽成分信息的方法。這種方法不僅包含了兩個(gè)氨基酸在序列上的相關(guān)性,還描述了由于蛋白質(zhì)二級(jí)結(jié)構(gòu)中的氫鍵作用,序列上距離遠(yuǎn)的兩個(gè)氨基酸,在三維空間上卻可能相鄰。因此使用多間隙二肽成分表示法可以為機(jī)器學(xué)習(xí)提供更多氨基酸序列和RNA 序列的成分信息,通常將氨基酸序列中多間隙二肽的種類及數(shù)量映射為一條特征向量作為初始特征使用。多間隙(g-gap)中的g表示某種中間間隔了g個(gè)氨基酸的二肽,取值范圍為0 到9。
在大數(shù)據(jù)為背景的信息時(shí)代,涌現(xiàn)出眾多形式的信息,其中文本信息是最傳統(tǒng)也是信息量最大的一種表現(xiàn)形式。如何將文字量化為可以提取特征的數(shù)字形式,即自然語言處理(natural language processing,NLP),成為機(jī)器學(xué)習(xí)領(lǐng)域一個(gè)重要的研究方向。Onehot 是目前較為流行的編碼技術(shù)[18-19],其原理是將由n種元素組成的長(zhǎng)度為m的文字序列構(gòu)建為n×m的矩陣,其中把每種元素轉(zhuǎn)化為n維標(biāo)準(zhǔn)正交基向量填充至m長(zhǎng)度中的對(duì)應(yīng)位置。但這種方法構(gòu)建的初始特征矩陣受限于維度過大,且使用機(jī)器學(xué)習(xí)方法提取稀疏矩陣特征的效果不理想,因此one-hot 并不適用于大型詞庫的文本處理。
Word2Vec[20-22]是NLP 領(lǐng)域常用的方法,其原理是通過訓(xùn)練獨(dú)特的網(wǎng)絡(luò)模型,將詞庫中的每個(gè)詞映射為k維實(shí)數(shù)向量,使用詞的實(shí)數(shù)向量來構(gòu)建文本樣本的初始特征矩陣。詞向量模型的訓(xùn)練過程如下:(1)對(duì)文本樣本進(jìn)行分詞操作,構(gòu)造詞典,統(tǒng)計(jì)詞頻,依照詞語出現(xiàn)概率構(gòu)造哈夫曼樹,生成每個(gè)詞語的二進(jìn)制碼;(2)構(gòu)建一個(gè)3 層結(jié)構(gòu)的網(wǎng)絡(luò)模型,將相鄰詞語的二進(jìn)制碼分別作為特征和標(biāo)簽輸入至模型進(jìn)行訓(xùn)練;(3)獲取模型隱含層參數(shù),計(jì)算詞庫中每個(gè)單詞的詞向量?;谠~頻的哈夫曼編碼可以讓詞頻相似的詞在隱藏層激活的內(nèi)容基本一致,且單詞出現(xiàn)的頻率越高,它們激活的隱藏層節(jié)點(diǎn)數(shù)目就越少,有效通過較低的計(jì)算復(fù)雜度學(xué)習(xí)到單詞在高維空間中的距離分布。通過此方法訓(xùn)練出來的詞向量不僅具有維度低的優(yōu)點(diǎn),而且包含了其在文本樣本中的上下文信息,可以為特征提取提供良好的幫助。
不同于多分類問題,多標(biāo)簽分類[23]是一種更普遍且更具有挑戰(zhàn)的問題,它描述了一個(gè)樣本可以對(duì)應(yīng)多個(gè)類的情況?,F(xiàn)處理這類問題的方法有兩種:一種是問題轉(zhuǎn)化法,即把多標(biāo)簽問題中的多個(gè)標(biāo)簽通過一定形式的組合,變?yōu)槿舾蓸?biāo)簽集合,將標(biāo)簽集合看作特殊的標(biāo)簽,間接把問題轉(zhuǎn)化為普通的單標(biāo)簽學(xué)習(xí)問題。經(jīng)典的算法有BR(binary relevance)[24]、LP(label powerset)[25]和CC(classifier chains)[26]。BR 算法設(shè)計(jì)若干分類器,有效學(xué)習(xí)到每個(gè)類別的特征,卻忽略了標(biāo)簽之間的相關(guān)性;LP 算法雖然考慮到標(biāo)簽之間的聯(lián)系,但是該算法的時(shí)間和空間復(fù)雜度比較高;CC 算法利用多個(gè)分類器構(gòu)造鏈?zhǔn)浇Y(jié)構(gòu),可以有效學(xué)習(xí)到標(biāo)簽之間錯(cuò)綜復(fù)雜的關(guān)系。另一種做法是改進(jìn)現(xiàn)有的單標(biāo)簽學(xué)習(xí)法來適應(yīng)多標(biāo)簽分類,使其具有處理多標(biāo)簽問題的能力。比較常見的有基于Boosting的算法AMH(AdaBoost.MH)和AMR(AdaBoost.MR)[27],以及基于決策樹的算法。其中AMH 是以Hamming Loss作為損失函數(shù)來構(gòu)建學(xué)習(xí)模型;AMR算法以Ranking Loss 作為損失函數(shù);Clare 等人對(duì)經(jīng)典的單標(biāo)簽決策樹學(xué)習(xí)模型進(jìn)行了改進(jìn),提出算法C4.5[28],其原理是通過計(jì)算訓(xùn)練樣本的信息增益來訓(xùn)練分類器。改進(jìn)后的算法中,葉節(jié)點(diǎn)不再是一個(gè)類,而是一個(gè)標(biāo)簽集合。但這些算法沒有充分考慮標(biāo)簽間的關(guān)聯(lián)性。
本文把探索一條RNA 與多種RNA 結(jié)合蛋白(RBP)結(jié)合的問題轉(zhuǎn)化為機(jī)器學(xué)習(xí)中的多標(biāo)簽分類問題。RNA 序列作為研究主體,RBP 作為類別。不同于現(xiàn)有方法,本文利用分子生物學(xué)原理,把原始RNA 序列轉(zhuǎn)化為氨基酸序列,統(tǒng)計(jì)氨基酸序列的0-gap 二肽和1-gap 二肽數(shù)量,組成多間隙二肽成分,利用Word2Vec 技術(shù)構(gòu)建6 聚體RNA 詞向量,由此得到RNA 序列視角、氨基酸序列視角、多間隙二肽成分視角和RNA 序列語義視角的初始數(shù)據(jù)。然后使用深度卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)分別提取4 個(gè)視角的深度特征,將其拼接并投入至多標(biāo)簽特征學(xué)習(xí)模型中訓(xùn)練,通過此模型的處理,可以獲取每個(gè)標(biāo)簽相關(guān)的加權(quán)特征向量。接著將加權(quán)特征向量投入多標(biāo)簽分類器CC 模型學(xué)習(xí)標(biāo)簽之間的關(guān)聯(lián)性。最后使用上述CC 模型訓(xùn)練出來的分類器,預(yù)測(cè)一條未探索的RNA 序列與多種RBP 的結(jié)合情況。本文方法的整體框架如圖1 所示,它包含4 個(gè)部分:獲取初始多視角數(shù)據(jù)、多視角深度特征學(xué)習(xí)、多標(biāo)簽特征學(xué)習(xí)和多標(biāo)簽學(xué)習(xí)。
Fig.1 Optimal multi-label chain learning method framework based on multi-view learning圖1 基于多視角的最優(yōu)多標(biāo)簽鏈?zhǔn)綄W(xué)習(xí)方法框架
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)量增多的同時(shí),數(shù)據(jù)的表示形式也越來越多樣化,對(duì)樣本進(jìn)行多視角數(shù)據(jù)提取成為一種趨勢(shì)。利用多視角數(shù)據(jù)間相容、互補(bǔ)的性質(zhì)對(duì)其進(jìn)行更有效的分析成為很多領(lǐng)域的必然需求。本文從4 個(gè)角度對(duì)RNA 序列進(jìn)行數(shù)據(jù)提取工作,分別為包含次序信息的RNA 序列視角、氨基酸序列視角,包含成分信息的多間隙二肽成分視角和包含語義信息的RNA 序列語義視角。
2.2.1 RNA 序列one-hot編碼
RNA 序列是由4 種堿基組成的文字序列。許多方法將其作為特征提取的主體,利用one-hot 編碼技術(shù)將文字序列轉(zhuǎn)化為數(shù)值矩陣,再投入至機(jī)器學(xué)習(xí)模型中去訓(xùn)練。One-hot會(huì)為一條長(zhǎng)度為m的RNA序列構(gòu)造一個(gè)4×m大小的空白矩陣,將每種堿基轉(zhuǎn)化為4維正交基向量,填充至序列的對(duì)應(yīng)位置,如圖2所示。
Fig.2 One-hot encoding of RNA sequence圖2 RNA 序列one-hot編碼
圖2 中行標(biāo)題為一條具體的RNA 序列,實(shí)際長(zhǎng)度為2 700。對(duì)照列中堿基所在的位置,可以把序列中的堿基A 表示為向量(1,0,0,0)T,堿基C 表示為向量(0,1,0,0)T,堿基G 表示為(0,0,1,0)T,堿基U 表示為(0,0,0,1)T,以此類推。由于數(shù)據(jù)集中RNA 序列的長(zhǎng)度不統(tǒng)一,規(guī)定了一個(gè)固定的長(zhǎng)度2 700,使用堿基B 來補(bǔ)齊每條不足2 700 位的RNA 序列,這里統(tǒng)一用向量(0.25,0.25,0.25,0.25)T來表示。
2.2.2 氨基酸序列one-hot編碼
上述方法構(gòu)建的初始矩陣雖然對(duì)提取特征有幫助,但缺點(diǎn)是信息量較少。氨基酸序列由20 種氨基酸構(gòu)成,其信息量遠(yuǎn)比RNA 序列豐富,因此使用氨基酸序列轉(zhuǎn)化得到的one-hot 編碼矩陣會(huì)為特征提取提供更好的效果。利用基于codon[29]的三種翻譯方式,可將長(zhǎng)度為m的RNA 序列轉(zhuǎn)化為3 條長(zhǎng)度為1/3m的氨基酸序列,拼接三種形態(tài)的氨基酸序列,能夠完全繼承原始RNA 序列的序列信息,且具有更加豐富的表現(xiàn)形式。對(duì)拼接的長(zhǎng)鏈進(jìn)行one-hot 編碼,原理同RNA 序列,可得到20×m大小的初始特征矩陣,如圖3 所示,即為本文所提出的氨基酸視角數(shù)據(jù)。圖中行標(biāo)題為一條具體的氨基酸序列,實(shí)際長(zhǎng)度為2 700。對(duì)照列標(biāo)題中氨基酸所在的位置,可以將行序列中的所有氨基酸表示為20 維的標(biāo)準(zhǔn)正交基向量,其中i表示氨基酸α在圖中列標(biāo)題所在位置,如氨基酸A 可以表示為氨基酸H 可以表示為氨基酸M可以表示為以此類推。由于RNA 序列存在終止密碼子,且部分RNA 序列含有臨時(shí)堿基B,這里使用字母O 來表示它們,向量值全部設(shè)為0.05。
2.2.3 提取序列成分構(gòu)造多間隙二肽柱狀圖
上述提到的RNA 視角和氨基酸視角數(shù)據(jù)偏向于對(duì)序列次序提取特征,而序列除了次序外,其組成成分同樣重要。因?yàn)?-gap 二肽偏向于二維序列的成分組成,而1-gap 二肽帶有三維結(jié)構(gòu)成分信息,所以使用0-gap 二肽和1-gap 二肽提取成分信息效果最佳,本文采用它們的組合形式構(gòu)成多間隙二肽成分視角。二肽對(duì)左右氨基酸排列是敏感的,對(duì)于本文中21 種氨基酸(20 種天然氨基酸和本文增加的臨時(shí)氨基酸O),共有21×21×2 個(gè)多間隙二肽種類,由于OO 和O*O 的組合對(duì)本文的研究無太多意義,被舍棄。統(tǒng)計(jì)這880 種二肽出現(xiàn)的次數(shù)得到特征向量,可以有效地捕獲序列成分信息和空間成分信息。由于880 維的特征向量是一維的,用于提取深度特征的效果不理想,將其轉(zhuǎn)化為二維柱狀圖,可以更有效地提取深度特征,如圖4 所示。圖中上部分表格的橫坐標(biāo)為二肽種類,其中“AA”表示左右都是丙氨酸的0-gap二肽,18 代表其在樣本序列中的數(shù)量;“A*D”表示左側(cè)為丙氨酸,中間間隔任意一個(gè)氨基酸,右側(cè)為天冬氨酸的1-gap 二肽。圖4 只列舉了12 種二肽,實(shí)際數(shù)量為880 種。下部分圖表為轉(zhuǎn)化后的柱狀圖,每種二肽數(shù)量的上限設(shè)為30,因此取30×880 大小的矩陣作為此條序列的多間隙二肽初始數(shù)據(jù)。
2.2.4 使用RNA 詞向量構(gòu)建語義矩陣
自然語言處理(natural language processing,NLP)是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要研究方向,從初始數(shù)據(jù)的角度來看,生物信息學(xué)與NLP的研究數(shù)據(jù)具有相同的形式[30]。因此,可以使用NLP的方法來解決生物信息學(xué)中對(duì)文本的編碼及初始特征構(gòu)建。本文使用6 聚體RNA 構(gòu)建語義詞庫,6 聚體RNA 為6 個(gè)連續(xù)堿基組成的結(jié)構(gòu),詞庫共由46種6 聚體RNA組成。本文使用現(xiàn)流行的Word2Vec技術(shù)構(gòu)建語義模型,其原理如圖5 所示?;诒疚乃脭?shù)據(jù)集中的92 102 條RNA 序列,逐條對(duì)它們進(jìn)行以下操作:(1)使用6 位堿基為大小的滑動(dòng)窗口,獲取RNA 序列中6 聚體RNA 的排列順序;(2)對(duì)每個(gè)6 聚體RNA 進(jìn)行編碼,即它在4 096種形態(tài)中的位置(以“AAAAAA”為1,“UUUUUU”為4 096 的規(guī)則);(3)將相鄰的2 個(gè)6 聚體RNA 分別作為特征X和標(biāo)簽Y,投入至語義模型中訓(xùn)練;(4)從訓(xùn)練完的語義模型中提取4 096種6 聚體RNA 的詞向量結(jié)果;(5)使用詞向量替代RNA 序列中每個(gè)6 聚體RNA,構(gòu)建RNA 序列語義矩陣。由6 聚體RNA 詞向量構(gòu)成的RNA 序列語義矩陣不僅具有較小的維度,而且包含了以6 位堿基為基序的RNA 序列次序和上下文結(jié)構(gòu)信息,可以更好地進(jìn)行深度特征學(xué)習(xí)。
Fig.5 Process of generating RNA sequence semantic matrix圖5 RNA 序列語義矩陣生成過程
基于上述4 個(gè)視角得到的初始特征數(shù)據(jù),構(gòu)建了4 個(gè)不同的深度卷積神經(jīng)網(wǎng)絡(luò)模型,來獲取這4 個(gè)視角的深度特征。深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一類包含卷積計(jì)算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),處理對(duì)象主要為圖像數(shù)據(jù),其具有強(qiáng)大的表征學(xué)習(xí)能力,能夠按其階層結(jié)構(gòu)對(duì)輸入信息進(jìn)行平移不變分類[31-33],因此也被稱為“平移不變?nèi)斯ど窠?jīng)網(wǎng)絡(luò)”。4 個(gè)視角的模型很相似,輸入層之后統(tǒng)一附加卷積層,經(jīng)過池化、扁平化、dropout 后使用2 個(gè)全連通層進(jìn)行橋接。利用這樣的模型所得到的深度特征不僅比原始特征具有更小的維數(shù),而且具有更好的判別能力,增強(qiáng)了后續(xù)分類工作的泛化性。圖6 中的(1)~(4)分別是提取RNA 序列視角、氨基酸序列視角、多間隙二肽成分視角和RNA 序列語義視角深度特征的CNN 模型圖。圖中公式k@m×n表示網(wǎng)絡(luò)各層的特征圖數(shù)量及大小,k表示該層的特征圖數(shù)量,m×n表示該特征圖的大??;卷積核的大小表示為k×m×n,其中k代表卷積核的數(shù)量,m×n代表卷積核的大小,卷積步長(zhǎng)默認(rèn)為1。整個(gè)模型的輸入為上文提到的各個(gè)視角的原始數(shù)據(jù)矩陣,經(jīng)過模型處理后得到68 維的特征向量,對(duì)應(yīng)68 個(gè)類別(67 種RBP 和不屬于任何一類的負(fù)類)。CNN 網(wǎng)絡(luò)最后一層網(wǎng)絡(luò)采用的激活函數(shù)為“Sigmoid”函數(shù),該函數(shù)會(huì)將最后的全連通層數(shù)據(jù)映射到0~1 之間,因此最后的特征向量值均為小數(shù),代表RNA 序列隸屬于這68 個(gè)類的概率分布。網(wǎng)絡(luò)最后一層只是為了使本文的模型達(dá)到擬合數(shù)據(jù)的目的,深度特征數(shù)據(jù)經(jīng)過該層和Sigmoid 函數(shù)激活已經(jīng)有了明顯的分類趨勢(shì),不利于訓(xùn)練接下來的多標(biāo)簽特征學(xué)習(xí)模型,因此采用倒數(shù)第二層202 維的深度特征作為模型的輸出結(jié)果。
Fig.6 4 views'deep feature extraction network model圖6 4 個(gè)視角深度特征提取網(wǎng)絡(luò)模型
圖6模型中,除了最后一層全連通層使用“Sigmoid”激活函數(shù)外,其他網(wǎng)絡(luò)層的激活函數(shù)均為“ReLU”。因?yàn)椤癛eLU”函數(shù)比“Sigmoid”具有更小的計(jì)算量,且有一定的防止梯度消失的作用。由于最后一層要將特征向量與標(biāo)簽相關(guān)聯(lián),使用“Sigmoid”函數(shù)比較合適?!癛eLU”函數(shù)和“Sigmoid”函數(shù)的公式定義如下:
因?yàn)槎鄻?biāo)簽分類問題可以看成是由若干個(gè)二分類問題所組成,所以使用二分類的損失函數(shù)來處理多分類問題。上述4 個(gè)CNN 模型均采用二進(jìn)制交叉熵(binary_crossentropy)作為損失函數(shù),定義如下:
其中,p(xi)和q(xi)都代表序列x對(duì)于類別i的隸屬度,p代表實(shí)標(biāo)簽值,即1 或0,q代表預(yù)測(cè)值,在這里因?yàn)榻?jīng)過“Sigmoid”函數(shù)激活,所以q∈[0,1]。
CC 算法是一種可以高效學(xué)習(xí)標(biāo)簽之間關(guān)聯(lián)的多標(biāo)簽分類算法,其原理是構(gòu)建若干個(gè)二分類器來預(yù)測(cè)對(duì)應(yīng)的若干標(biāo)簽,每訓(xùn)練完一個(gè)二分類器,算法都會(huì)將該分類器預(yù)測(cè)的對(duì)應(yīng)標(biāo)簽結(jié)果附加到初始特征之后,作為下一個(gè)二分類器訓(xùn)練的輸入特征,直至所有分類器訓(xùn)練完畢。然而CC 算法存在三種弊端:其一,每次為新標(biāo)簽訓(xùn)練分類器時(shí),盡管加入了部分已預(yù)測(cè)的標(biāo)簽值作為新特征,然而輸入的初始特征始終不變,無法最大化利用標(biāo)簽關(guān)聯(lián)性訓(xùn)練新標(biāo)簽分類器;其二,CC 算法過于依賴標(biāo)簽排列順序,最初的標(biāo)簽分類器性能直接影響了后續(xù)新標(biāo)簽分類器的訓(xùn)練效果;其三,現(xiàn)有的CC 算法無法應(yīng)用于多視角數(shù)據(jù)場(chǎng)景下的多標(biāo)簽學(xué)習(xí)。
鑒于此,本文改進(jìn)了現(xiàn)有CC 鏈?zhǔn)椒诸惼鳎瑢⑵鋺?yīng)用到多視角場(chǎng)景。利用多標(biāo)簽特征學(xué)習(xí)技術(shù),把多視角數(shù)據(jù)的優(yōu)勢(shì)附加到CC 算法中,同時(shí)最大化提升了分類器對(duì)每個(gè)標(biāo)簽的學(xué)習(xí)能力,使之可以更好地學(xué)習(xí)標(biāo)簽之間的關(guān)聯(lián),達(dá)到最優(yōu)多標(biāo)簽鏈?zhǔn)綄W(xué)習(xí)的效果,具體原理如圖7 所示。
Fig.7 Principle of optimal multi-label chain learning based on multi-view learning圖7 基于多視角的最優(yōu)多標(biāo)簽鏈?zhǔn)綄W(xué)習(xí)原理
算法分兩部分:多標(biāo)簽特征學(xué)習(xí)和多標(biāo)簽學(xué)習(xí)。首先從上游的CNN 模型獲取各個(gè)視角的深度特征向量,將它們拼接并投入至多標(biāo)簽特征學(xué)習(xí)網(wǎng)絡(luò)模型中訓(xùn)練。該模型的輸入為808 維特征向量,輸出為68維結(jié)果,對(duì)應(yīng)68 個(gè)標(biāo)簽。通過該模型的學(xué)習(xí),可以獲取68 組808 維的權(quán)重系數(shù),對(duì)應(yīng)輸入向量的每一維特征對(duì)預(yù)測(cè)每個(gè)標(biāo)簽的貢獻(xiàn)權(quán)重。將808 維特征向量依次與這68 組權(quán)重系數(shù)相乘,獲得68 組加權(quán)特征向量,用于訓(xùn)練下游的CC 多標(biāo)簽分類器。本實(shí)驗(yàn)的CC 多標(biāo)簽分類器由68 個(gè)二分類器組成,用于預(yù)測(cè)一條RNA 對(duì)68 個(gè)標(biāo)簽的隸屬情況。鑒于CC 多標(biāo)簽分類器對(duì)標(biāo)簽順序具有依賴性,根據(jù)訓(xùn)練集中各標(biāo)簽樣本數(shù)量的差異對(duì)標(biāo)簽分類器的訓(xùn)練進(jìn)行預(yù)排序,使得樣本數(shù)量較多的標(biāo)簽分類器始終處于優(yōu)先訓(xùn)練的狀態(tài)。根據(jù)此訓(xùn)練次序,從多標(biāo)簽特征學(xué)習(xí)模塊獲得加權(quán)特征向量x1,并將其用作輸入特征開始訓(xùn)練第一個(gè)二分類器。由它預(yù)測(cè)的第一個(gè)標(biāo)簽值被附加到加權(quán)特征向量x2末尾,用以訓(xùn)練第二個(gè)二分類器。重復(fù)該過程,直至最后一個(gè)二分類器訓(xùn)練完畢。不同于傳統(tǒng)的CC 多標(biāo)簽分類器,本文提出的最優(yōu)CC 多標(biāo)簽分類器,其特點(diǎn)在于,當(dāng)訓(xùn)練完第i個(gè)二分類器后,將目前預(yù)測(cè)的所有標(biāo)簽值附加到與下個(gè)標(biāo)簽關(guān)聯(lián)的加權(quán)特征向量xi+1的末尾,進(jìn)行第i+1 個(gè)二分類器的訓(xùn)練。這樣不僅保留了CC 算法學(xué)習(xí)標(biāo)簽關(guān)聯(lián)性的能力,而且最大化提升了CC 多標(biāo)簽分類器對(duì)每個(gè)標(biāo)簽的學(xué)習(xí)能力,把多視角和多標(biāo)簽算法的優(yōu)勢(shì)結(jié)合在一起,形成最優(yōu)多標(biāo)簽鏈?zhǔn)綄W(xué)習(xí)。訓(xùn)練和預(yù)測(cè)算法如算法1、算法2 所示。
算法1 最優(yōu)CC 多標(biāo)簽分類器訓(xùn)練過程(基于L個(gè)標(biāo)簽和與L個(gè)標(biāo)簽相關(guān)聯(lián)的加權(quán)特征向量數(shù)據(jù)集DL)
算法2最優(yōu)CC 多標(biāo)簽分類器預(yù)測(cè)過程(基于樣本X的L組權(quán)重特征)
本文使用的數(shù)據(jù)來源于AURA 網(wǎng)站[34]。本文從該網(wǎng)站上獲取了137 003 條RNA 序列信息,1 264 種調(diào)控因子信息以及2 549 510 個(gè)它們之間的結(jié)合位點(diǎn)信息,如圖8 所示,紅色整圓部分代表RNA 序列庫,結(jié)合位點(diǎn)信息和調(diào)控因子信息屬于綁定關(guān)系,因此使用藍(lán)色半圓和綠色半圓分別表示它們,圖中各顏色數(shù)值代表對(duì)應(yīng)部分的信息數(shù)量。調(diào)控因子又稱反式作用因子,是轉(zhuǎn)錄模板上游基因編碼的一類蛋白調(diào)節(jié)因子,包括激活因子和阻遏因子等。常見的調(diào)控因子有RBP、miRNA、轉(zhuǎn)錄因子。因本文是研究RBP 結(jié)合關(guān)聯(lián)性問題,且上述結(jié)合位點(diǎn)信息中涉及的RNA 不全包含在137 003 條序列中,所以最終本文選取了67 種RBP,73 681 條RNA 序列信息和550 386個(gè)它們之間的結(jié)合位點(diǎn)信息,如圖8 中雙圓的交叉部分所示。除此之外,本課題加入了18 421 條沒有任何結(jié)合位點(diǎn)信息的RNA 序列并入數(shù)據(jù)集,作為負(fù)樣本使用。
Fig.8 AURA database composition圖8 AURA 數(shù)據(jù)庫組成
本文采用AUC 面積和F1 得分兩種評(píng)價(jià)指標(biāo)來評(píng)價(jià)模型的分類性能和預(yù)測(cè)性能。AUC 被定義為ROC 曲線下面積,ROC 曲線是反映敏感性和特異性連續(xù)變化的綜合指標(biāo)[35],AUC 值越大,模型的分類性能越好。在多標(biāo)簽分類問題中,類別樣本不均衡會(huì)導(dǎo)致性能指標(biāo)偏差過大,因此本文引入常用的Macro、Micro 和Weight 約束條件。Macro-AUC通過給每個(gè)類設(shè)置相同的權(quán)重,計(jì)算各個(gè)類的AUC 求和均值得到,當(dāng)小類很重要時(shí)該數(shù)值會(huì)偏低。Micro-AUC 是將每個(gè)類的敏感性和特異性分別求和,得出的結(jié)果繪制成ROC 曲線,求得的AUC,當(dāng)大類很重要時(shí)該數(shù)值會(huì)偏低。Weighted-AUC 根據(jù)每個(gè)類的樣本數(shù)量,計(jì)算出每個(gè)類的權(quán)重,再對(duì)這些類的AUC 進(jìn)行加權(quán)求和。除了評(píng)價(jià)模型分類性能外,還將對(duì)模型的預(yù)測(cè)性能進(jìn)行F1-score 的計(jì)算,F(xiàn)1 值是準(zhǔn)確率和召回率的調(diào)和平均數(shù),和AUC 指標(biāo)相同,也為F1 增加了Macro、Micro 和Weight的約束條件。
為探究一條未知RNA 與多種RBP 的結(jié)合情況,Pan 等人使用多標(biāo)簽技術(shù),利用卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)建立了iDeepM[11]預(yù)測(cè)模型,本文在相同數(shù)據(jù)集的基礎(chǔ)上對(duì)提出的方法RRMVL 以及RRMVL下各個(gè)視角的單視角模型進(jìn)行五折交叉驗(yàn)證測(cè)試。同時(shí),為了驗(yàn)證深度學(xué)習(xí)在基于長(zhǎng)樣本RNA 序列上的學(xué)習(xí)優(yōu)勢(shì),本文構(gòu)造了編碼整條RNA 序列作為特征進(jìn)行訓(xùn)練的決策樹分類模型,以此與深度學(xué)習(xí)模型進(jìn)行對(duì)比,結(jié)果如表1 所示。k折交叉驗(yàn)證在確保一致的數(shù)據(jù)分布的基礎(chǔ)上,將數(shù)據(jù)劃分為大小相同的k個(gè)子集。每次將其中一個(gè)子集作為測(cè)試集,其他子集作為訓(xùn)練集。獲取k個(gè)測(cè)試結(jié)果的平均值作為最終結(jié)果。這種驗(yàn)證方法有效避免了試驗(yàn)樣品的取樣偏差,從而獲得了更有說服力的試驗(yàn)結(jié)果。
從表1 可以看出,使用深度學(xué)習(xí)的iDeepM 模型和RRMVL 模型效果均優(yōu)于決策樹模型,證明深度學(xué)習(xí)在提取長(zhǎng)樣本特征上的優(yōu)勢(shì)明顯。RRMVL 方法下個(gè)任意視角模型預(yù)測(cè)值均優(yōu)于iDeepM 模型,體現(xiàn)了本文方法的有效性。同時(shí),所有視角模型整合下的RRMVL 方法在AUC 數(shù)值和F1 數(shù)值上均比任意單視角模型高,體現(xiàn)了多視角數(shù)據(jù)之間的信息互補(bǔ)性,同時(shí)也說明數(shù)據(jù)的多視角化在生物信息學(xué)領(lǐng)域可以取得較好的效果。從單視角來看,多間隙二肽成分視角取得了最好的效果,這是因?yàn)槎嚅g隙二肽不僅包含序列次序信息,而且包含了序列成分和結(jié)構(gòu)信息,是信息量最豐富的視角。RNA 序列語義單視角的效果相比初始RNA 序列視角略低,這是由于通常訓(xùn)練一個(gè)好的語義模型需要百萬級(jí)的樣本數(shù)據(jù),而本文的數(shù)據(jù)集僅包含92 102 條RNA 序列,不足以訓(xùn)練出效果理想的6 聚體RNA 詞向量,因此預(yù)測(cè)性能效果不佳??傮w而言,在3 種對(duì)比算法中,本文提出的RRMVL 方法取得了3 項(xiàng)AUC 和3 項(xiàng)F1 的最佳效果,由此證明基于多視角的最優(yōu)多標(biāo)簽鏈?zhǔn)綄W(xué)習(xí)方法在識(shí)別RNA 結(jié)合蛋白的問題上達(dá)到了預(yù)期效果。
為檢驗(yàn)本文使用的多標(biāo)簽特征學(xué)習(xí)和最優(yōu)多標(biāo)簽鏈?zhǔn)綄W(xué)習(xí)效果,本文在AURA 數(shù)據(jù)集上對(duì)RRMVL及其變體方法進(jìn)行了雙重對(duì)比實(shí)驗(yàn),分別為使用基于多視角投票的集成學(xué)習(xí)RRMVL 方法與使用多標(biāo)簽特征學(xué)習(xí)RRMVL 方法對(duì)比,以及未使用多標(biāo)簽學(xué)習(xí)的RRMVL 方法和使用多標(biāo)簽學(xué)習(xí)的RRMVL 方法對(duì)比。因基于多視角投票的集成學(xué)習(xí)模型不是一種分類器,所以沒有AUC 指標(biāo),其余方法的五折交叉驗(yàn)證結(jié)果如表2 所示。
Table 1 Performance of algorithms on AURA dataset表1 各算法在AURA 數(shù)據(jù)集上的性能
Table 2 Effect comparison of multi-label feature learning and multi-label learning表2 多標(biāo)簽特征學(xué)習(xí)、多標(biāo)簽學(xué)習(xí)效果對(duì)比
Fig.9 Line charts of methods'performance comparison for single class dataset圖9 單個(gè)類數(shù)據(jù)集的方法性能對(duì)比折線圖
從表2 可以看出,對(duì)于多視角數(shù)據(jù)而言,在對(duì)其使用多標(biāo)簽特征學(xué)習(xí)后,模型的預(yù)測(cè)性能始終比基于投票的集成學(xué)習(xí)突出,說明多標(biāo)簽特征學(xué)習(xí)充分利用了多視角數(shù)據(jù)的優(yōu)勢(shì)。另一方面,在處理多標(biāo)簽分類問題上,使用多標(biāo)簽分類器的方法始終優(yōu)于未使用多標(biāo)簽技術(shù)的方法,證明了標(biāo)簽之間的關(guān)聯(lián)對(duì)預(yù)測(cè)產(chǎn)生了不可忽視的作用。結(jié)合多標(biāo)簽特征學(xué)習(xí)和多標(biāo)簽學(xué)習(xí),即本文提出的最優(yōu)多標(biāo)簽鏈?zhǔn)綄W(xué)習(xí),其性能優(yōu)于使用集成學(xué)習(xí)的傳統(tǒng)CC 算法,證明本文對(duì)傳統(tǒng)CC 算法的改進(jìn)富有成效。值得注意的是進(jìn)行多標(biāo)簽學(xué)習(xí)后,RRMVL 的AUC 指標(biāo)有所下降,這是由于多標(biāo)簽CC 分類器的分類性能與神經(jīng)網(wǎng)絡(luò)最后一層的“Sigmoid”網(wǎng)絡(luò)分類能力略有差距。對(duì)于三項(xiàng)F1 指標(biāo),基于最優(yōu)多標(biāo)簽鏈?zhǔn)綄W(xué)習(xí)方法RRMVL取得了最好效果,再次證明本文方法能夠較為準(zhǔn)確地判別某條未探索的RNA 與多種RBP 的結(jié)合情況。
為研究類樣本數(shù)量對(duì)實(shí)驗(yàn)效果的影響,本文使用RRMVL 對(duì)68 個(gè)類數(shù)據(jù)集進(jìn)行單獨(dú)實(shí)驗(yàn),對(duì)比iDeepM 的五折交叉驗(yàn)證結(jié)果折線圖如圖9所示。圖9為準(zhǔn)確度、召回率和F1 指數(shù)的折線圖,按照類樣本數(shù)量遞增的次序進(jìn)行繪圖。
從圖9 可以看出,兩種對(duì)比算法中,RRMVL 在大部分類的預(yù)測(cè)精度取得了最佳效果,兩個(gè)方法隨著類樣本數(shù)量的逐漸提升,各指標(biāo)都呈現(xiàn)逐漸提高并趨于平緩的趨勢(shì)。當(dāng)樣本數(shù)量低于5 000 時(shí),各項(xiàng)指標(biāo)的起伏較大,這是由于類樣本數(shù)量過少導(dǎo)致模型無法準(zhǔn)確地學(xué)習(xí)這些類樣本的深度特征。對(duì)比兩條曲線,iDeepM 方法在低樣本環(huán)境下的學(xué)習(xí)能力不如RRMVL,表現(xiàn)為動(dòng)蕩幅度更劇烈,間接體現(xiàn)多視角數(shù)據(jù)在小樣本學(xué)習(xí)下的優(yōu)勢(shì)。總體而言,本文方法在各個(gè)類數(shù)據(jù)集上達(dá)到了預(yù)期效果。
本文提出一種基于多視角的最優(yōu)多標(biāo)簽鏈?zhǔn)綄W(xué)習(xí)法來對(duì)一條未探索的RNA 進(jìn)行RBP 結(jié)合性識(shí)別,通過實(shí)驗(yàn)數(shù)據(jù)可以發(fā)現(xiàn),本研究提出的多視角深度特征提取法對(duì)比傳統(tǒng)的特征提取,獲得了更好的效果。并且使用多標(biāo)簽特征學(xué)習(xí)和最優(yōu)多標(biāo)簽鏈?zhǔn)綄W(xué)習(xí)的算法進(jìn)一步提高了預(yù)測(cè)精度。可以發(fā)現(xiàn)以多間隙二肽成分視角為首的多視角數(shù)據(jù)以及多視角多標(biāo)簽的學(xué)習(xí)方法對(duì)識(shí)別RBP 具有較大的價(jià)值。
雖然研究的效果得到了提升,但是該研究還有一些不足和值得進(jìn)一步深入研究的地方。比如RNA序列語義性視角的性能略低,沒有達(dá)到預(yù)期的效果。隨著測(cè)序工作的進(jìn)行,未來基于大數(shù)據(jù)下的語義模型能夠更好地學(xué)習(xí)到6 聚體RNA 的詞向量分布,該視角的預(yù)測(cè)精度可以得到一定的提升。此外,本文所用數(shù)據(jù)集中不同類別的樣本數(shù)量相差過大,屬于典型的類不平衡問題,對(duì)模型的學(xué)習(xí)效果和分類效果產(chǎn)生較大影響。未來如何構(gòu)造更適合類不平衡場(chǎng)景下的RBP 識(shí)別方法也將是一個(gè)重要的研究方向。