程威,王帥,范錦江,彭景,林顯光,陳恒玲
(中南民族大學(xué) 生物醫(yī)學(xué)工程學(xué)院,武漢 430074)
環(huán)狀RNA(circRNA)作為一種特殊類(lèi)型的長(zhǎng)非 編碼RNA(lncRNA),因其環(huán)狀結(jié)構(gòu)和在癌癥等多種疾病中的重要作用而受到越來(lái)越多的關(guān)注[1].在前體mRNA(pre-mRNA)的剪接過(guò)程中,下游內(nèi)含子側(cè)翼的下游供體位點(diǎn)(5′剪接位點(diǎn))與第二個(gè)上游內(nèi)含子的上游受體位點(diǎn)(3′剪接位點(diǎn))連接,形成環(huán)狀RNA(如圖1所示),這一過(guò)程是一種獨(dú)特的選擇性剪接,稱(chēng)為反向剪接(back-splicing)[2].這與經(jīng)典的線(xiàn)性RNA形成對(duì)比,傳統(tǒng)的線(xiàn)性RNA則是將單個(gè)內(nèi)含子內(nèi)的上游供體位點(diǎn)(5′剪接位點(diǎn))與下游受體位點(diǎn)(3′剪接位點(diǎn))連接起來(lái).與線(xiàn)性RNA相比,環(huán)狀RNA多了一些結(jié)構(gòu)特性,具體地說(shuō),它不具有5′末端帽子和3′末端poly(A)尾巴,因此它結(jié)構(gòu)比較穩(wěn)定,可以抵抗核酸外切酶的降解[3].雖然circRNA的大部分生物學(xué)功能和生物學(xué)機(jī)制仍然沒(méi)有被發(fā)現(xiàn),但是近年來(lái),有研究表明,circRNA可以作為microRNA海綿[4],并且可能是RNA結(jié)合蛋白的潛在海綿.此外,circRNA還可以參與轉(zhuǎn)錄的調(diào)控和選擇性剪接[5].目前有研究也發(fā)現(xiàn),環(huán)狀RNA具有翻譯的潛力[6].circRNA在基因調(diào)控和許多復(fù)雜疾病的發(fā)生上都起著至關(guān)重要的作用,現(xiàn)在有研究已經(jīng)證實(shí)circRNA很有潛力作為疾病的生物標(biāo)志物[7].
圖1 環(huán)狀RNA的形成過(guò)程Fig.1 The formation of circRNA
環(huán)狀RNA是一種長(zhǎng)鏈非編碼RNA(lncRNA),是屬于非編碼RNA(ncRNA)中的一種.ncRNA是由DNA轉(zhuǎn)錄而成的功能性RNA,但是它不能翻譯成蛋白質(zhì)[8].根據(jù)長(zhǎng)度,ncRNA可以分為兩類(lèi),小于200 bp的稱(chēng)為短非編碼RNA,lncRNA的長(zhǎng)度一般大于200 bp.circRNA與其他lncRNA有一些不同的屬性,例如反向剪接,GT-AG堿基對(duì)和成對(duì)的ALU重復(fù)序列.circRNA和其他lncRNA不一樣,circRNA可以?xún)H僅根據(jù)轉(zhuǎn)錄本的大小就能非常有效的從其他 小 非 編 碼RNA中(例 如:miRNA、siRNA和snoRNA)識(shí)別出來(lái),但是根據(jù)簡(jiǎn)單的特征,是很難把circRNA從lncRNA中識(shí)別出來(lái)的[9].由于幾乎所有的lncRNA的表達(dá)水平都很低,區(qū)分circRNA和lncRNA是一件非常困難的事.目前,常見(jiàn)的circRNA識(shí)別工具是通過(guò)識(shí)別高通量測(cè)序的數(shù)據(jù)中circRNA的反向剪接位點(diǎn)來(lái)鑒別環(huán)狀RNA,例如find_circ[10]、circRNA_finder[11]等.然而,已經(jīng)有相關(guān)研究表明[12-13],這些識(shí)別工具準(zhǔn)確率非常的低,且具有較高的假陽(yáng)性率和假陰性率.這些工具都是基于高通量測(cè)序的數(shù)據(jù)來(lái)進(jìn)行識(shí)別的,但是由于circRNA是一種低表達(dá)的RNA,在測(cè)序覆蓋率地的時(shí)候非常難捕獲,并且它們都只利用了反向剪接位點(diǎn)這一信息,沒(méi)有利用到環(huán)狀RNA的序列特征,以至于導(dǎo)致識(shí)別準(zhǔn)確率不高.
近年來(lái),隨著機(jī)器學(xué)習(xí)和深度學(xué)習(xí)快速的發(fā)展和其廣泛的運(yùn)用到各個(gè)領(lǐng)域,一些機(jī)器學(xué)習(xí)算法和深度學(xué)習(xí)算法也廣泛的運(yùn)用到生物信息學(xué)研究當(dāng)中,例如PAN等人使用一種稱(chēng)為PredcircRNA[14]的多核學(xué)習(xí)的機(jī)器學(xué)習(xí)算法從lncRNA中識(shí)別出circRNA,CHEN等人使用一種叫做H-ELM[15]的機(jī)器學(xué)習(xí)算法對(duì)circRNA進(jìn)行識(shí)別,WANG[16]等人使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)鑒定與癌癥相關(guān)的circRNA.機(jī)器學(xué)習(xí)算法在識(shí)別circRNA之前需要提取circRNA的生物學(xué)特征,但是因其低表達(dá)量和穩(wěn)定性限制,獲取生物學(xué)特征并不容易,以至于識(shí)別準(zhǔn)確率較低;深度學(xué)習(xí)算法能夠處理大規(guī)模的數(shù)據(jù)并且自動(dòng)提取有效的特征,可以彌補(bǔ)機(jī)器學(xué)習(xí)算法的不足,但是單一的網(wǎng)絡(luò)架構(gòu)也只能提取一部分的信息.在本文中,提出ACNN-BLSTM雙層神經(jīng)網(wǎng)絡(luò)架構(gòu),其中非對(duì)稱(chēng)卷積神經(jīng)網(wǎng)絡(luò)(ACNN)[17]可以有效的提取序列的局部特征,雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(BLSTM)[18]可以雙向捕獲序列的前后特征,這兩種特征被結(jié)合在一起,與其它深度學(xué)習(xí)方法相比,識(shí)別的準(zhǔn)率較高,并且模型的性能也更好.
1.1.1 Word2Vec背景
2013年,Google開(kāi)源了一款用于詞向量計(jì)算的工具——Word2Vec,引起了工業(yè)界和學(xué)術(shù)界的關(guān)注[19].首先,word2vec可以在百萬(wàn)數(shù)量級(jí)的詞典和上億的數(shù)據(jù)集上進(jìn)行高效地訓(xùn)練;其次,該工具得到的訓(xùn)練結(jié)果——詞向量(word embedding)與One-hot方法相比,可以更好地表達(dá)詞與詞之間的相似特征.
Word2Vec主要使用CBOW(Continuous Bag-of-Words Model)和Skip-gram模型進(jìn)行訓(xùn)練[20],其中CBOW模型根據(jù)中心詞W(t)周?chē)脑~來(lái)預(yù)測(cè)中心詞,Skip-gram模型則根據(jù)中心詞W(t)來(lái)預(yù)測(cè)周?chē)~,模型示意圖(如圖2所示).這兩種模型都包含輸入層、投影層和輸出層,并使用層次Softmax(Hierarchical Softmax)和負(fù)采樣(Negative Sampling)技術(shù)[21]來(lái)大大減少計(jì)算量復(fù)雜度,加快了模型訓(xùn)練過(guò)程.
圖2 Word2Vec模型Fig.2 Word2Vec model
1.1.2 Skip-gram模型提取詞向量
由于提取的序列數(shù)據(jù)是大量的文本數(shù)據(jù),因此可以把一條序列中多個(gè)連續(xù)堿基看成是一個(gè)“單詞”,每一條序列就可以看成是一個(gè)個(gè)“單詞”組成而來(lái).本文提出了一種基于Word2Vec模型的方法來(lái)處理序列數(shù)據(jù),首先將每條序列按照一定步長(zhǎng)s分割成k-mers序列,其中k表示k個(gè)連續(xù)堿基,則k-mers即是把k個(gè)連續(xù)堿基看成一個(gè)“單詞”,然后通過(guò)Word2Vec將k-mers序列轉(zhuǎn)換成相對(duì)應(yīng)的索引序列,并且映射到嵌入矩陣中相應(yīng)索引位置的向量(如圖3所示),利用Skip-gram模型計(jì)算一共有多少個(gè)不同的k-mers,最后將每一個(gè)k-mers投影到d維空間并對(duì)嵌入矩陣進(jìn)行預(yù)訓(xùn)練.
圖3 序列詞向量化Fig.3 Vectorization of sequence words
因?yàn)檎麄€(gè)模型中的卷積層需要固定長(zhǎng)度的輸入,所以得指定一個(gè)最大長(zhǎng)度maxlen,來(lái)滿(mǎn)足固定長(zhǎng)度的輸入.對(duì)于長(zhǎng)度小于maxlen的序列,就在其末尾填充0來(lái)來(lái)表示k-mers;對(duì)于長(zhǎng)度大于maxlen的序列,直接在序列的尾部剪切多余的k-mers以達(dá)到maxlen.所以現(xiàn)在,每條序列就可以表示為:
其中xj∈Rd,xj是序列中第j個(gè)k-mer對(duì)應(yīng)的d維詞向量.
1.2.1 卷積神經(jīng)網(wǎng)絡(luò)(CNN)
卷 積 神 經(jīng) 網(wǎng) 絡(luò) 結(jié) 構(gòu)[22]由Hubel和Wiesel于1962年提出,經(jīng)過(guò)多年的發(fā)展演變,目前已經(jīng)是深度學(xué)習(xí)領(lǐng)域重要的網(wǎng)絡(luò)結(jié)構(gòu).卷積神經(jīng)網(wǎng)絡(luò)(CNN)因其優(yōu)越的性能,被廣泛應(yīng)用于圖像處理、語(yǔ)音識(shí)別、文本分析等領(lǐng)域.
卷積神經(jīng)網(wǎng)絡(luò)通常主要由這幾類(lèi)層構(gòu)成:輸入層、卷積層、池化層和全連接層(如圖4所示).通過(guò)將這些層疊加起來(lái),就可以構(gòu)建一個(gè)完整的卷積神經(jīng)網(wǎng)絡(luò).
圖4 卷積神經(jīng)網(wǎng)絡(luò)Fig.4 Convolutional Neural Network
1.2.2 非對(duì)稱(chēng)卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)
針對(duì)與上文介紹的傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò),這里選擇用非對(duì)稱(chēng)卷積神經(jīng)網(wǎng)絡(luò)來(lái)對(duì)序列特征進(jìn)行提取.與較淺的網(wǎng)絡(luò)相比,較深的網(wǎng)絡(luò)通常會(huì)具有更強(qiáng)的能力,但是這同時(shí)也帶來(lái)一些困難,更長(zhǎng)的訓(xùn)練時(shí)間和大量參數(shù)使它們難以進(jìn)行訓(xùn)練.通過(guò)使用非對(duì)稱(chēng)卷積,可以大大減少需要訓(xùn)練的參數(shù)的數(shù)量,模型的性能會(huì)稍有損失,但是綜合考慮來(lái)看可以忽略,因此可以使用同樣的數(shù)據(jù)來(lái)訓(xùn)練更深的模型.在本文中,把更常見(jiàn)的k×d矩形卷積濾波器給拆分為兩個(gè)單獨(dú)的矩形卷積濾波器(如圖5所示).
圖5 非對(duì)稱(chēng)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Asymmetric Convolutional Neural Network structure
首先,用1×d矩形卷積濾波器來(lái)與輸入層中每條序列中的k-mer對(duì)應(yīng)的詞向量xj卷積,此時(shí)會(huì)產(chǎn)生相應(yīng)的特征mj.
其中b是偏差,f是非線(xiàn)性激活函數(shù),這里選擇ReLU來(lái)作為激活函數(shù),因?yàn)樗诰矸e神經(jīng)網(wǎng)絡(luò)中收斂較快,求梯度簡(jiǎn)單,性能表現(xiàn)較好.每一條序列都產(chǎn)生了特征mj,這樣就得到了特征矩陣M,M∈RL.
然后在Rk空間中,用k×1矩形卷積濾波器與特征矩陣M進(jìn)行卷積,得到新的特征Cj和新的特征矩陣C.
1.3.1 長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)
1997年,瑞士人工智能科學(xué)家HOCHREITER&SCHMILDHUBER提出了長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)[23].LSTM相對(duì)于基礎(chǔ)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)網(wǎng)絡(luò)來(lái)說(shuō),記憶能力更強(qiáng),更擅長(zhǎng)處理長(zhǎng)的序列信號(hào)數(shù)據(jù),LSTM提出后,被廣泛應(yīng)用在序列預(yù)測(cè)、自然語(yǔ)言處理等任務(wù)中,LSTM結(jié)構(gòu)如圖6所示.
圖6 長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Long and short time memory network Structure
1.3.2 雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)架構(gòu)
傳統(tǒng)的LSTM網(wǎng)絡(luò)為單向的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),這種網(wǎng)絡(luò)它捕獲的信息都是當(dāng)前時(shí)刻之前的歷史信息,忽略了未來(lái)的信息.由于基因序列數(shù)據(jù)是前后相關(guān)聯(lián)的,所以采用了BLSTM網(wǎng)絡(luò)[18,24](如圖7所示),它是由前向的LSTM網(wǎng)絡(luò)和反向的LSTM網(wǎng)絡(luò)組成,具有捕獲前后特征的能力,這對(duì)識(shí)別環(huán)狀RNA非常有利.
圖7 雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)結(jié)構(gòu)Fig.7 Bidirectional long and short time memory network structure
首先,從數(shù)據(jù)庫(kù)CircBase[25]和LNCipedia[26]下載本實(shí)驗(yàn)需要的fasta格式的circRNA和lncRNA的序列數(shù)據(jù),由于原始數(shù)據(jù)沒(méi)有分類(lèi)標(biāo)簽,則需要進(jìn)行手動(dòng)標(biāo)注,本實(shí)驗(yàn)對(duì)circRNA標(biāo)注“1”,lncRNA標(biāo)注“0”.第二步,需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,本實(shí)驗(yàn)使用python中Biopython模塊對(duì)fasta格式的序列數(shù)據(jù)進(jìn)行清洗并剝離fasta的Meta標(biāo)簽,得到易于數(shù)據(jù)分析的DataFrame格式的序列數(shù)據(jù),接著用python腳本把序列數(shù)據(jù)分割成k-mers類(lèi)型的序列.第三步,使用Word2Vec模型對(duì)k-mers序列進(jìn)行訓(xùn)練,將每一條序列數(shù)據(jù)都進(jìn)行向量化處理.第四步,把這些向量化后的數(shù)據(jù)依次通過(guò)Embedding嵌入層、ACNN層、BLSTM層和全連接層進(jìn)行訓(xùn)練.最后,對(duì)訓(xùn)練完成后的模型使用測(cè)試集的數(shù)據(jù)進(jìn)行測(cè)試,使用準(zhǔn)確度(Accuracy)、精確度(Precision)、召回率(Recall)、F1值、馬修斯相關(guān)系數(shù)(MCC)和AUC值等一系列性能指標(biāo)來(lái)評(píng)估模型的識(shí)別能力.整個(gè)實(shí)驗(yàn)設(shè)計(jì)的流程圖如圖8所示.
圖8 實(shí)驗(yàn)整體流程圖Fig.8 Experimental flow graph
實(shí)驗(yàn)采用的工具包是Anaconda,使用的編程語(yǔ)言是Python3.7,使用的框架是TensorFlow2.3,該框架里面封裝了Keras深度學(xué)習(xí)API,在GPU加速的環(huán)境下運(yùn)行.
本實(shí)驗(yàn)從數(shù)據(jù)庫(kù)CircBase[25]下載了人類(lèi)circRNA,剔除小于200 bp的轉(zhuǎn)錄本,一共得到32914條正樣本,在數(shù)據(jù)庫(kù)中LNCipedia[26]下載了被注釋過(guò)的人類(lèi)lncRNA,一共得到35618條負(fù)樣本,這個(gè)數(shù)據(jù)庫(kù)提供每個(gè)轉(zhuǎn)錄本的基本信息、基因結(jié)構(gòu)和若干統(tǒng)計(jì)數(shù)據(jù).隨機(jī)選擇20000個(gè)circRNA和相同數(shù)量的lncRNA來(lái)構(gòu)建本次實(shí)驗(yàn)數(shù)據(jù)集.
實(shí)驗(yàn)數(shù)據(jù)集分為訓(xùn)練集、驗(yàn)證集和測(cè)試集三個(gè)部分,其中80%用于訓(xùn)練,10%用于驗(yàn)證,10%用于測(cè)試.訓(xùn)練集被用來(lái)擬合模型的最優(yōu)參數(shù),使用驗(yàn)證集來(lái)驗(yàn)證帶有這些最優(yōu)參數(shù)的模型的性能,最后用測(cè)試集的數(shù)據(jù)來(lái)測(cè)試模型的泛化能力.該測(cè)試的目的是對(duì)最終選定的模型做出無(wú)偏評(píng)估.
本實(shí)驗(yàn)采用的結(jié)果評(píng)價(jià)指標(biāo)是準(zhǔn)確度(Accuracy)、精確度(Precision)、召回率(Recall)、F1值和馬修斯相關(guān)系數(shù)(MCC),這些指標(biāo)廣泛用于衡量二元分類(lèi)模型的性能.這幾個(gè)模型評(píng)價(jià)指標(biāo)都是通過(guò)TP、TN、FP和FN計(jì)算得到的,其中TP,即真陽(yáng)性(True Positives),表示實(shí)際為正樣本且被分類(lèi)器判斷為正樣本的樣本數(shù);TN,即真陰性(True Negatives),表示實(shí)際為負(fù)樣本且被分類(lèi)器判定為負(fù)樣本的樣本數(shù);FP,即假陽(yáng)性(False Positives),表示實(shí)際為負(fù)樣本且被分類(lèi)器判定為正樣本的樣本數(shù);FN,即假陰性(False Negatives),表示實(shí)際為正樣本且被分類(lèi)器判定為負(fù)樣本的樣本數(shù).具體計(jì)算公式如下:
準(zhǔn)確度(Accuracy)反映的是模型在所有樣本中識(shí)別正樣本的正確率,精確度(Precision)體現(xiàn)了模型對(duì)負(fù)樣本的區(qū)分能力,精確度越高,說(shuō)明模型對(duì)負(fù)樣本的區(qū)分能力越強(qiáng).召回率(Recall)體現(xiàn)了模型對(duì)正樣本的識(shí)別能力,召回率越高,說(shuō)明模型對(duì)正樣本的識(shí)別能力越強(qiáng).F1值是精確度和召回率兩者的綜合,F(xiàn)1值越高,說(shuō)明模型越穩(wěn)健.馬修斯相關(guān)系數(shù)(MCC)主要用于衡量二分類(lèi)問(wèn)題,其綜合考慮了TP、TN、FP和FN,是一個(gè)比較均衡的指標(biāo),對(duì)于樣本不均衡情況下也可以使用.MCC的取值范圍在[-1,1],取值為1表示預(yù)測(cè)與實(shí)際完全一致,取值為0表示預(yù)測(cè)的結(jié)果還不如隨機(jī)預(yù)測(cè)的結(jié)果,取值為-1表示預(yù)測(cè)結(jié)果與實(shí)際的結(jié)果完全不一致.
除此之外,本次實(shí)驗(yàn)還采用了AUC(Area under Curve)值,即ROC曲線(xiàn)下的面積對(duì)本實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)估,其中AUC值越大,說(shuō)明模型分類(lèi)效果越好.
為了讓本文提出的ACNN-BLSTM模型具有最佳的性能和良好的魯棒性,挑選了三個(gè)影響模型性能的超參數(shù)進(jìn)行測(cè)試,分別是:k-mer的長(zhǎng)度k,序列分割的步長(zhǎng)s和序列的最大長(zhǎng)度maxlen.在這里,使用測(cè)試集的數(shù)據(jù)進(jìn)行測(cè)試和討論,并選用上文提到的MCC值來(lái)作為衡量指標(biāo).
首先,從k-mer的長(zhǎng)度k開(kāi)始測(cè)試,因?yàn)檫B續(xù)堿基的個(gè)數(shù)決定了語(yǔ)料庫(kù)里詞的個(gè)數(shù),k的長(zhǎng)度越大,總的語(yǔ)料庫(kù)就會(huì)越大,需要訓(xùn)練的詞向量就會(huì)越多,word2vec模型訓(xùn)練的效果可能會(huì)變差,所以需要一個(gè)合適的k-mer長(zhǎng)度.這里控制序列分割步長(zhǎng)s統(tǒng)一都為1,然后從k=1開(kāi)始增加k-mer的長(zhǎng)度,測(cè)試的結(jié)果如圖9所示.
圖9 k-mer長(zhǎng)度對(duì)模型性能的影響Fig.9 The effect of k-mer length on model performance
從圖9可以發(fā)現(xiàn),k=3時(shí)模型的性能最好,k=3過(guò)后,模型的性能開(kāi)始下降,到k=5時(shí)尤其明顯,模型性能下降幅度最大.在這里猜想,隨著k的增加,語(yǔ)料庫(kù)的單詞數(shù)呈幾何倍數(shù)增長(zhǎng),模型需要訓(xùn)練的參數(shù)大幅增加,實(shí)驗(yàn)機(jī)器難以支持Word2Vec模型訓(xùn)練詞向量,導(dǎo)致模型的性能下降.
其次,第二個(gè)測(cè)試的參數(shù)是序列的分割步長(zhǎng)s,這個(gè)測(cè)試建立在上個(gè)測(cè)試的基礎(chǔ)上,選用了k=3時(shí)的性能最好的模型來(lái)控制變量.理論上,步長(zhǎng)越大,語(yǔ)料庫(kù)就會(huì)越小,模型訓(xùn)練的壓力也會(huì)越小.但在實(shí)驗(yàn)之前,預(yù)測(cè)語(yǔ)料庫(kù)的減小會(huì)減少序列中包含的信息,并可能會(huì)降低模型的性能.測(cè)試的結(jié)果如圖10所示.
圖10 步長(zhǎng)對(duì)模型性能的影響Fig.10 The effect of stride on model performance
實(shí)驗(yàn)結(jié)果正如預(yù)測(cè)的那樣,越大的步長(zhǎng),語(yǔ)料庫(kù)就會(huì)越小,序列數(shù)據(jù)所包含的信息就越少,這對(duì)模型訓(xùn)練是非常不利的,因此,在模型參數(shù)中步長(zhǎng)s設(shè)置為1.
最后,一個(gè)要測(cè)試的超參數(shù)是序列的最大長(zhǎng)度maxlen.由于序列數(shù)據(jù)是長(zhǎng)短不一的,而模型又需要統(tǒng)一的長(zhǎng)度的數(shù)據(jù)來(lái)作為輸入,所以就不得不截取一個(gè)能力范圍內(nèi)的序列最大長(zhǎng)度.統(tǒng)計(jì)了實(shí)驗(yàn)數(shù)據(jù)集總共40000條序列的長(zhǎng)度分布,如圖11所示.
圖11 序列長(zhǎng)度的分布直方圖Fig.11 Histogram of sequence length distribution
從圖11可以發(fā)現(xiàn),長(zhǎng)度在500 bp內(nèi)的序列數(shù)據(jù)是最多的,幾乎80%的序列的長(zhǎng)度都在0到2000 bp這個(gè)區(qū)間里.理論上序列最大長(zhǎng)度maxlen越大越好,這樣幾乎可以把序列所有的信息都保留下來(lái),能夠最大程度讓模型訓(xùn)練所有的序列特征.
在上面兩個(gè)測(cè)試的基礎(chǔ)之上,選擇k=3,s=1時(shí)性能最好的模型對(duì)最大序列長(zhǎng)度也進(jìn)行了測(cè)試.從500 bp到2000 bp,間隔500 bp,測(cè)試結(jié)果如圖12所示,從圖中可以看到,隨著最大序列長(zhǎng)度的增加,模型的性能也是逐漸提升的,1500 bp到2000 bp這個(gè)區(qū)間,模型的MCC值提升幅度尤為明顯,這次測(cè)試結(jié)果可以推測(cè),如果序列最大長(zhǎng)度進(jìn)一步增加,模型的性能可能還會(huì)有提升的空間.但是,由于實(shí)驗(yàn)機(jī)器的性能不足以支撐這么大的數(shù)據(jù)量,綜合考慮,選取了能力范圍內(nèi)最大的序列長(zhǎng)度maxlen為2000 bp,雖然達(dá)不到最完美的效果,但是誤差也在可接受的范圍內(nèi).
圖12 序列最大長(zhǎng)度對(duì)模型性能的影響Fig.12 The effect of sequence maximum length on model performance
本實(shí)驗(yàn)采用的參數(shù)主要有:序列分割的步長(zhǎng)s為1,連續(xù)堿基的個(gè)數(shù)k-mer為3,一條序列的最大k-mers數(shù)maxlen為2000,k-mers的向量維度d為40,非對(duì)稱(chēng)卷積濾波器的數(shù)量為100,卷積核的長(zhǎng)度為7,LSTM的單元數(shù)為100,BLSTM的層數(shù)為1,初始學(xué)習(xí)率為0.001,每批次大小為128,迭代的次數(shù)為50,采用的優(yōu)化器是Adam,Dropout為0.1.
本文一共進(jìn)行了5組實(shí)驗(yàn),模型在訓(xùn)練集、驗(yàn)證集和測(cè)試集上的準(zhǔn)確率如表1所示,模型在測(cè)試集上計(jì)算的F1值、Recall值、Precision值、MCC值和AUC值等性能指標(biāo)如表2所示.
表1 模型的準(zhǔn)確率Tab.1 Accuracy of model
表2 模型的性能指標(biāo)Tab.2 Performance indicators of the model
根據(jù)表1和表2列出的實(shí)驗(yàn)結(jié)果可知,ACNN-BLSTM模型無(wú)論在訓(xùn)練集、驗(yàn)證集和測(cè)試集上,準(zhǔn)確率都要優(yōu)于其他模型,并且所有的性能指標(biāo)也是5種模型當(dāng)中最優(yōu),對(duì)5種模型的分析和討論如下:
首先是CNN模型,CNN是5種模型中結(jié)構(gòu)最簡(jiǎn)單的.從表1和表2可以發(fā)現(xiàn),CNN它的準(zhǔn)確率和性能為5種模型當(dāng)中最劣,這也直觀(guān)的反映出CNN的確不擅長(zhǎng)處理長(zhǎng)序列數(shù)據(jù).第二是ACNN模型,ACNN在訓(xùn)練集、驗(yàn)證集和測(cè)試上準(zhǔn)確率都要比CNN的準(zhǔn)確率高,模型的性能相對(duì)于CNN有小幅的提升,并且訓(xùn)練時(shí)間也是5種模型當(dāng)中最少的,僅花費(fèi)了165 s,這證明了ACNN的確可以減少模型需要訓(xùn)練的參數(shù)的數(shù)量,減少模型訓(xùn)練的時(shí)間.第三,LSTM是經(jīng)典的處理序列的模型,從表1上看LSTM的準(zhǔn)確率要高于前面的CNN和ACNN模型,但是,從表2上看LSTM的性能指標(biāo)全方位低于ACNN模型,原因是LSTM是從頭到尾進(jìn)行序列的訓(xùn)練,序列越往后計(jì)算對(duì)模型的影響越敏感,并且過(guò)長(zhǎng)的序列的梯度計(jì)算仍非常困難,模型難以捕獲序列遠(yuǎn)端的信息.第四是BLSTM模型,BLSTM相對(duì)于LSTM多了一層反向LSTM,使得其可以從序列的末尾開(kāi)始進(jìn)行特征的捕獲,從表1和表2上看,BLSTM的準(zhǔn)確率和性能都要優(yōu)于LSTM,這說(shuō)明了BLSTM模型學(xué)習(xí)RNA序列上下文特征上的能力要比LSTM模型更強(qiáng),但是由于多了一層反向LSTM,模型的訓(xùn)練時(shí)間是5種模型當(dāng)中最慢,達(dá)到了1728 s.
通過(guò)上面對(duì)實(shí)驗(yàn)結(jié)果的分析,嘗試?yán)肁CNN訓(xùn)練時(shí)間短和BLSTM可以更好的學(xué)習(xí)RNA序列上下文特征的優(yōu)勢(shì),將ACNN和BLSTM組合起來(lái)成為ACNN-BLSTM模型.實(shí)驗(yàn)結(jié)果也如表1表2所示,ACNN-BLSTM模型準(zhǔn)確率和性能為5種模型中最優(yōu),對(duì)ACNN和BLSTM的結(jié)合非常成功.
圖13是5種模型在測(cè)試集上評(píng)估的ROC曲線(xiàn),可以看到,ACNN-BLSTM模型的AUC值是最高的,達(dá)到了0.979,說(shuō)明該模型的分類(lèi)性能是在這5種模型中是最好的,緊接著是ACNN模型,AUC值為0.957,排在第三的是BLSTM模型,它的AUC值為0.954,實(shí)驗(yàn)結(jié)果同樣證明了,把ACNN模型和BLSTM模型結(jié)合起來(lái),ACNN-BLSTM模型的分類(lèi)性能的確也要優(yōu)于其他模型.
圖13 測(cè)試集的ROC曲線(xiàn)Fig.13 The ROC curve of the test set
最后,本實(shí)驗(yàn)對(duì)模型分類(lèi)性能做了進(jìn)一步的測(cè)試.隨機(jī)選取4000條全新的序列,作為新的測(cè)試集,規(guī)定circRNA的標(biāo)簽是1,lncRNA的標(biāo)簽是0,實(shí)驗(yàn)結(jié)果如圖14所示.從該測(cè)試集的混淆矩陣可以看到,正確識(shí)別1838條lncRNA,1892條circRNA,識(shí)別錯(cuò)誤的序列僅270條,準(zhǔn)確率93%,達(dá)到了前一批測(cè)試集測(cè)試的水平,這說(shuō)明該實(shí)驗(yàn)的模型也具有良好的泛化能力.
圖14 測(cè)試集的混淆矩陣Fig.14 The confusion matrix of the test set
本文提出的ACNN-BLSTM模型,利用了非對(duì)稱(chēng)卷積神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)量大時(shí)訓(xùn)練快的優(yōu)勢(shì),和雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)捕獲序列前后特征的能力,基于詞向量化后的序列特征對(duì)環(huán)狀RNA進(jìn)行識(shí)別,與傳統(tǒng)單一的CNN、ACNN、LSTM和BLSTM神經(jīng)網(wǎng)絡(luò)模型相比,識(shí)別的準(zhǔn)確率和模型各方面性能指標(biāo)都要更好,但是本實(shí)驗(yàn)只是對(duì)兩種RNA進(jìn)行分類(lèi),沒(méi)有考慮多種RNA的分類(lèi),所以接下來(lái)的工作是對(duì)多種不同的RNA進(jìn)行分類(lèi),嘗試其他的算法模型,繼續(xù)增強(qiáng)模型的分類(lèi)能力.