譚超俊,顧萬(wàn)君,謝雪英
(東南大學(xué) 生物科學(xué)與醫(yī)學(xué)工程學(xué)院,南京 210096)
環(huán)狀RNA是一類(lèi)在前體mRNA(pre-mRNA)剪接過(guò)程中形成的新型內(nèi)源RNA,與傳統(tǒng)線性RNA不同的是其通過(guò)反向剪接使5’端和3’端共價(jià)連接,形成閉合環(huán)狀結(jié)構(gòu)(見(jiàn)圖1),因而不受核酸外切酶介導(dǎo)的降解的影響,比線性RNA更穩(wěn)定[1-2]。多年來(lái),環(huán)狀RNA被認(rèn)為是前體mRNA剪接過(guò)程中的副產(chǎn)品[3],但越來(lái)越多的研究表明環(huán)狀RNA在生物體中通過(guò)多種途徑發(fā)揮著重要的作用。環(huán)狀RNA作為競(jìng)爭(zhēng)性?xún)?nèi)源RNA,可以調(diào)控基因的轉(zhuǎn)錄和表達(dá)[4-5];一些環(huán)狀RNA包含多個(gè)microRNA結(jié)合位點(diǎn),可以充當(dāng)microRNA海綿[6];環(huán)狀RNA可以與蛋白相互作用,從而參與多種生物過(guò)程的調(diào)控[5,7];另外,環(huán)狀RNA還能夠翻譯蛋白[8]。
圖1 環(huán)狀RNA的形成Fig.1 Formation of circRNA
為了更好地研究環(huán)狀RNA,準(zhǔn)確有效地鑒定環(huán)狀RNA是至關(guān)重要的。多種因素可以促進(jìn)環(huán)狀RNA的形成,如側(cè)翼區(qū)域的互補(bǔ)序列[9]、反向重復(fù)序列[10]、ALU和串聯(lián)重復(fù)序列[2]以及SNP密度[11]等。這些因素與RNA分子的進(jìn)化保守性和結(jié)構(gòu)特征被認(rèn)為是鑒定環(huán)狀RNA的重要特征。目前,常見(jiàn)的環(huán)狀RNA識(shí)別工具是通過(guò)識(shí)別高通量測(cè)序(RNA-seq)數(shù)據(jù)中的反向剪接位點(diǎn)來(lái)鑒定環(huán)狀RNA,如find_circ[12]、CIRI[13]、circRNA_finder[14]、MapSplice[15]和CIRCexplorer[16]等。然而,已有相關(guān)研究[17-18]表明這些工具普遍存在較高的假陽(yáng)性率和假陰性率,不同工具對(duì)同一個(gè)測(cè)序數(shù)據(jù)的檢出重合率非常低,這是因?yàn)槭紫冗@些工具是基于高通量測(cè)序數(shù)據(jù)的,因此對(duì)表達(dá)豐度非常敏感,但大部分環(huán)狀RNA通常是低表達(dá)的,在測(cè)序覆蓋率較低情況下難以捕獲,其次它們只利用了反向剪接位點(diǎn)信息來(lái)識(shí)別環(huán)狀RNA,忽略了環(huán)化過(guò)程中其他因素的影響。
近年來(lái),機(jī)器學(xué)習(xí)方法越來(lái)越多地應(yīng)用于生物信息學(xué)研究。一些研究[19-20]分析環(huán)狀RNA形成過(guò)程中的影響因素,通過(guò)訓(xùn)練傳統(tǒng)的機(jī)器學(xué)習(xí)算法(支持向量機(jī)、隨機(jī)森林和多核學(xué)習(xí)等)來(lái)鑒別環(huán)狀RNA和長(zhǎng)鏈非編碼RNA(Long non-coding RNA,lncRNA),取得了較高的識(shí)別正確率。但是這些方法需要先進(jìn)行特征分析,而且這些選取的特征不能全面充分地表征反向剪接過(guò)程。深度學(xué)習(xí)算法能夠處理大規(guī)模數(shù)據(jù)并自動(dòng)提取有效特征,可以彌補(bǔ)傳統(tǒng)機(jī)器學(xué)習(xí)模型的不足。本文將從傳統(tǒng)機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法這兩個(gè)方面來(lái)介紹基于序列計(jì)算預(yù)測(cè)環(huán)狀RNA的8種工具,并比較分析它們?cè)跍y(cè)試數(shù)據(jù)集上的識(shí)別結(jié)果。
PredcircRNA[19](https://github.com/xypan1232/predcircrna)采用了基于多種特征訓(xùn)練的多核學(xué)習(xí)框架模型,用來(lái)區(qū)分環(huán)狀RNA和其他長(zhǎng)鏈非編碼RNA(其運(yùn)行流程見(jiàn)圖2(a))。首先,從轉(zhuǎn)錄本中提取不同的特征—圖特征、保守性分?jǐn)?shù)、序列組成、ALU和串聯(lián)(Tandem)重復(fù)序列、SNP密度和開(kāi)放閱讀框(Open Reading Frame,ORF)等。圖特征用節(jié)點(diǎn)表示核苷酸,用邊表示核苷酸之間的鍵關(guān)系,可以表示RNA分子的序列和結(jié)構(gòu)。保守性分?jǐn)?shù)是根據(jù)UCSC中下載的phyloP(Phylogenetic p-values)保守分?jǐn)?shù)自定義的。序列組成特征包含三核苷酸特征、GC含量、序列長(zhǎng)度、GT、AG、GTAG和AGGT的頻率等。另外計(jì)算每個(gè)轉(zhuǎn)錄本的Alu重復(fù)序列數(shù)目,利用Tandem Repeats Finder檢測(cè)串聯(lián)重復(fù)序列并計(jì)算其頻率,txCdsPredict獲得每個(gè)轉(zhuǎn)錄本的開(kāi)放閱讀框并提取其長(zhǎng)度和比例。為了融合多種特征,PredcircRNA使用多核學(xué)習(xí)方法,能有效地對(duì)環(huán)狀RNA和其他lncRNA進(jìn)行分類(lèi)。PredcircRNA分析的這些特征(如保守性分?jǐn)?shù)和GT/AG序列)對(duì)于鑒別環(huán)狀RNA和lncRNA有重要作用,而且不同類(lèi)型的特征相較于單一特征能相互補(bǔ)充從而提高模型能力。PredcircRNA正樣本來(lái)自circBase數(shù)據(jù)庫(kù)中的14 084條環(huán)狀RNA,負(fù)樣本來(lái)自GENCODE數(shù)據(jù)庫(kù)中19 722條其他類(lèi)型的lncRNA,隨機(jī)選取10 000條環(huán)狀RNA和相同數(shù)量的其他lncRNA進(jìn)行模型訓(xùn)練,剩余的數(shù)據(jù)作為獨(dú)立的測(cè)試數(shù)據(jù)集,通過(guò)5折交叉驗(yàn)證,準(zhǔn)確率達(dá)到0.862。
H-ELM[20]利用有特征選擇功能的H-ELM(hierarchical extreme learning machine,層次極限學(xué)習(xí)器)算法來(lái)提取特征,進(jìn)一步識(shí)別環(huán)狀RNA和lncRNA(其流程原理見(jiàn)圖2(b))。該方法沿用了PredcircRNA中定義的特征,使用mRMR(minimum redundancy maximum relevance,最小冗余最大相關(guān))方法對(duì)這些特征進(jìn)行分析。利用獲得的特征列表、IFS(incremental feature selection,增量特征選擇)方法和H-ELM算法,建立最優(yōu)分類(lèi)模型。相較于PredcircRNA,H-ELM用mRMR方法對(duì)特征進(jìn)行了分析選擇,利用了IFS方法和H-ELM算法來(lái)建立模型。H-ELM使用PredcircRNA的數(shù)據(jù),雖然在同樣的數(shù)據(jù)集上通過(guò)十折交叉驗(yàn)證,H-ELM模型的準(zhǔn)確率為0.789,低于PredcircRNA,但它通過(guò)特征分析,發(fā)現(xiàn)進(jìn)化保守性、序列特征、特異性序列和結(jié)構(gòu)是區(qū)分環(huán)狀RNA和其他lncRNA的重要因素。
predict_circ[21]通過(guò)選取剪接位點(diǎn)側(cè)翼上下游內(nèi)含子的長(zhǎng)度、A-to-I密度、ALU重復(fù)序列和RNA結(jié)合蛋白(RBP)作用位點(diǎn)等100個(gè)與RNA成環(huán)相關(guān)的序列特征,建立機(jī)器學(xué)習(xí)模型來(lái)識(shí)別環(huán)狀RNA(其原理見(jiàn)圖2(c)),并比較了隨機(jī)森林和支持向量機(jī)的分類(lèi)效果。結(jié)果表明,選取的序列特征能有效地鑒別RNA能否成環(huán),同時(shí)不同序列特征對(duì)模型的分類(lèi)預(yù)測(cè)能力的貢獻(xiàn)也不同。predict_circ共選取了3組數(shù)據(jù)集和1組獨(dú)立測(cè)試集,正樣本來(lái)自5種環(huán)狀RNA預(yù)測(cè)工具的檢測(cè)結(jié)果交集、circBase中的人類(lèi)環(huán)狀RNA以及收集文獻(xiàn)中的經(jīng)過(guò)PCR驗(yàn)證的環(huán)狀RNA,負(fù)樣本來(lái)自UCSC人類(lèi)基因數(shù)據(jù)hg19版本的編碼蛋白序列(去除與環(huán)狀RNA重合的轉(zhuǎn)錄本),隨機(jī)抽取與每組正樣本集數(shù)量相近的序列作為對(duì)應(yīng)的負(fù)樣本集。將每組數(shù)據(jù)的正負(fù)數(shù)據(jù)集中隨機(jī)抽取2/3作為訓(xùn)練集,1/3作測(cè)試集,5折交叉驗(yàn)證后,每組數(shù)據(jù)的分類(lèi)準(zhǔn)確率均達(dá)到0.85以上。
圖2 基于傳統(tǒng)統(tǒng)計(jì)學(xué)習(xí)方法的工具流程圖Fig.2 Flowchart of tools based on statistical learning
CirRNAPL[22](http://server.malab.cn/CirRNAPL/)使用了基于粒子群優(yōu)化(particle swarm optimization,PSO)算法的極限學(xué)習(xí)機(jī)(extreme learning machine,ELM)模型,能準(zhǔn)確識(shí)別circRNA(其流程見(jiàn)圖2(d))。首先,提取序列數(shù)據(jù)的四個(gè)特征:核糖核酸組成、序列自相關(guān)特征、偽核糖核酸組成和預(yù)測(cè)結(jié)構(gòu)組成。核糖核酸組成包括k-mer(k參數(shù)為2和3)、錯(cuò)配和子序列;序列自相關(guān)特征主要表征序列中核苷酸間的相關(guān)性;預(yù)測(cè)結(jié)構(gòu)組成主要表示序列的結(jié)構(gòu)特征。然后使用ELM識(shí)別環(huán)狀RNA,并且通過(guò)利用PSO算法優(yōu)化ELM的參數(shù),提高其泛化能力,達(dá)到更高的識(shí)別精度。CirRNAPL選取了三組數(shù)據(jù)對(duì)模型進(jìn)行了訓(xùn)練。第一組和第二組的正樣本均使用PredCircRNA方法中使用的14 084條環(huán)狀RNA數(shù)據(jù),第一組和第二組的負(fù)樣本分別為GENCODE v19版本的9 533條編碼蛋白基因(protein-coding genes,PCGs)和1 973條lncRNAs;第三組數(shù)據(jù)的正樣本是H1hsec干細(xì)胞中表達(dá)的2 082條circRNA,反之,負(fù)樣本為H1hsec干細(xì)胞中未表達(dá)的相同數(shù)量的circRNA。將三組數(shù)據(jù)分為了訓(xùn)練集和測(cè)試集,并進(jìn)行了十折交叉驗(yàn)證,最終在三組數(shù)據(jù)上的準(zhǔn)確率分別為0.815,0.802和0.782。
DeepCirCode[23](https://github.com/BioDataLearning/DeepCirCode)是第一個(gè)采用深度學(xué)習(xí)模型來(lái)預(yù)測(cè)mRNA是否能反向剪接形成環(huán)狀RNA的分類(lèi)工具(其流程見(jiàn)圖3(a))。該方法采用卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)地從序列中學(xué)習(xí)相關(guān)特征——序列基序(Sequence motif)。因?yàn)橛醒芯勘砻髂承㏑BP等作用因子能通過(guò)特定的結(jié)合位點(diǎn)(序列基序)來(lái)促進(jìn)RNA環(huán)化。DeepCirCode將候選反向剪接位點(diǎn)側(cè)翼的內(nèi)含子和外顯子序列轉(zhuǎn)換成二進(jìn)制向量作為網(wǎng)絡(luò)輸入,通過(guò)識(shí)別側(cè)翼序列中是否存在能促進(jìn)環(huán)化的序列基序來(lái)預(yù)測(cè)環(huán)狀RNA。通過(guò)分析DeepCirCode檢測(cè)出的序列基序,發(fā)現(xiàn)其中一些確實(shí)與已知的RNA剪接、轉(zhuǎn)錄或翻譯的基序相匹配。此外,通過(guò)對(duì)小鼠和果蠅數(shù)據(jù)進(jìn)行測(cè)試,發(fā)現(xiàn)一些人類(lèi)序列基序在小鼠和果蠅的序列中也存在,這說(shuō)明這些基序在進(jìn)化過(guò)程中存在保守性,很可能在環(huán)狀RNA的生物發(fā)生過(guò)程中起著重要作用。DeepCirCode將circBase和circRNADb[24]兩個(gè)公共數(shù)據(jù)庫(kù)的環(huán)狀RNA作為正樣本數(shù)據(jù)集,按條件篩選出共7 964條人類(lèi)外顯子環(huán)狀RNA,負(fù)樣本是從GENCODE的人類(lèi)參考基因組注釋信息中隨機(jī)選取相應(yīng)的剪接位點(diǎn),10折交叉驗(yàn)證的準(zhǔn)確率為0.852 4,AUC為0.905 8。
circDeep[25](https://github.com/UofLBioinformatics/circDeep)采用端到端(End-to-End)的深度學(xué)習(xí)框架來(lái)區(qū)別環(huán)狀RNA和lncRNA(流程原理見(jiàn)圖3(b))。circDeep引入了三種描述符(descriptor):RCM(Reverse Complement Matching,反向互補(bǔ)匹配)描述符、ACNN-BLSTM序列描述符和保守性描述符。RCM描述符目的是選取促進(jìn)環(huán)化過(guò)程的潛在側(cè)翼序列。ACNN-BLSTM序列描述符結(jié)合了ACNN(Asymmetric Convolution Neural Network,非對(duì)稱(chēng)卷積神經(jīng)網(wǎng)絡(luò))和BLSTM(Bidirectional Long Short-Term Memory Network,雙向長(zhǎng)短期記憶網(wǎng)絡(luò)),能夠從每個(gè)序列中提取局部模式和遠(yuǎn)程作用(Long-range dependencies)。保守性描述符包含物種間特殊序列的保守信息和保守基序特征。為了融合三種不同的描述符,它使用了一種從不同方面的信息構(gòu)建非線性表示的深度學(xué)習(xí)架構(gòu)。其正樣本來(lái)自circRNADb數(shù)據(jù)庫(kù)的31 939條人類(lèi)環(huán)狀RNA,負(fù)樣本來(lái)自GENCODE的19 683條其他類(lèi)型lncRNA。將每個(gè)數(shù)據(jù)集劃分為訓(xùn)練集(75%)、驗(yàn)證集(10%)和測(cè)試集(15%),模型訓(xùn)練后,測(cè)試集上的結(jié)果準(zhǔn)確率達(dá)到0.941 7。
CRC[26](https://github.com/chl556/Contextual_Regression_for_CircRNA)基于環(huán)狀RNA反向剪接位點(diǎn)的側(cè)翼區(qū)域特征—CpG島(Where long noncoding RNAs meet DNA methylation.)、RBP結(jié)合位點(diǎn)、簡(jiǎn)單重復(fù)序列、A-to-I RNA編輯位點(diǎn)和序列,通過(guò)上下文回歸(contextual regression)模型來(lái)預(yù)測(cè)環(huán)狀RNA的形成(流程原理見(jiàn)圖3(c)),接著還通過(guò)特征提取(feature extraction technique)和PCA獲得10個(gè)特征主成分,在此基礎(chǔ)上運(yùn)用K均值聚類(lèi),將環(huán)狀RNA分成7種亞型,這些亞型分別對(duì)應(yīng)于已有的環(huán)狀RNA生物發(fā)生機(jī)制。因此作者認(rèn)為人類(lèi)環(huán)狀RNA具有多種不同的生物發(fā)生機(jī)制,可以分成多個(gè)不同的亞型。此外,CRC還發(fā)現(xiàn)環(huán)狀RNA生物發(fā)生與側(cè)翼區(qū)域CpG島之間新的關(guān)聯(lián)以及鑒定了相關(guān)的RNA結(jié)合蛋白。CRC從circNet數(shù)據(jù)庫(kù)中收集55 689個(gè)人類(lèi)環(huán)狀RNA反向剪接位點(diǎn)作為正樣本,在hg19人類(lèi)基因組上隨機(jī)選擇等量的位點(diǎn)作為負(fù)樣本,然后將數(shù)據(jù)隨機(jī)劃分為訓(xùn)練集和測(cè)試集(比例為7∶3),通過(guò)十次訓(xùn)練,達(dá)到平均準(zhǔn)確率為0.726和AUC值為0.801。
JEDI(Junction Encoder with Deep Interaction)[27](https://github.com/hallogameboy/JEDI)用深度學(xué)習(xí)方法對(duì)剪接位點(diǎn)及其深層相互作用建立模型,直接從基因或轉(zhuǎn)錄本序列中預(yù)測(cè)環(huán)狀RNA。JEDI對(duì)序列里每個(gè)外顯子和內(nèi)含子連接位點(diǎn)進(jìn)行基于深度雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的編碼,然后用交叉注意層(Cross-attention layer)對(duì)反向剪接位點(diǎn)的深層相互作用建模(見(jiàn)圖3(d))。JEDI不僅能夠預(yù)測(cè)環(huán)狀RNA,而且能夠解釋剪接位點(diǎn)間的關(guān)系,從而發(fā)現(xiàn)基因內(nèi)的反向剪接。另外對(duì)小鼠環(huán)狀RNA的研究結(jié)果表明,JEDI預(yù)測(cè)人類(lèi)環(huán)狀RNA的模型也適用于小鼠環(huán)狀RNA數(shù)據(jù)。JEDI選取了三組數(shù)據(jù)。第一組:正樣本來(lái)自circRNADb的31 939條人類(lèi)環(huán)狀RNA,負(fù)樣本來(lái)自GENCODE參考注釋的19 683條其他lncRNA,進(jìn)行5次交叉驗(yàn)證后所得準(zhǔn)確率達(dá)到0.989 9;第二組:正樣本來(lái)自circRNADb的每條環(huán)狀RNA對(duì)應(yīng)的7 777條基因,對(duì)于負(fù)樣本,去除了正樣本中選擇的基因,得到7 000條基因,經(jīng)過(guò)5折交叉驗(yàn)證,模型達(dá)到準(zhǔn)確率0.964 6;第三組:正樣本來(lái)自circBase的1 522條小鼠環(huán)狀RNA,負(fù)樣本來(lái)自GENCODE參考注釋的1 522條其他lncRNA,模型訓(xùn)練后,準(zhǔn)確率為0.886 8。
圖3 基于深度學(xué)習(xí)方法的工具流程圖Fig.3 Flowchart of tools based on deep learning
為了在同一標(biāo)準(zhǔn)下比較分析以上算法的功能,我們利用公共數(shù)據(jù)庫(kù)circRNADb中人類(lèi)環(huán)狀RNA數(shù)據(jù)對(duì)以上工具進(jìn)行測(cè)試。其中,H-ELM未提供代碼下載鏈接,PredcircRNA工具所需比對(duì)數(shù)據(jù)庫(kù)目前不提供下載,CRC需要對(duì)數(shù)據(jù)計(jì)算一組特征值,但相應(yīng)的計(jì)算代碼并未提供,CirRNAPL雖然提供了網(wǎng)站服務(wù),但是網(wǎng)站上不方便處理大量的數(shù)據(jù),也沒(méi)有提供工具的下載,所以本文最后只進(jìn)行了基于深度學(xué)習(xí)算法的三種工具(DeepCirCode,circDeep和JEDI)的比較。circRNADb公共數(shù)據(jù)庫(kù)中共有32 194條人類(lèi)環(huán)狀RNA,去除長(zhǎng)度短于200 nt的環(huán)狀RNA,并過(guò)濾掉剪接位點(diǎn)側(cè)翼內(nèi)含子序列和兩端外顯子序列短于50 nt的環(huán)狀RNA,最終獲得13 264條序列作為正樣本數(shù)據(jù)集。提取GENCODE[28]v19版本人類(lèi)參考基因組注釋的其他類(lèi)型的lncRNA,剔除與circBase[29]和circRNADb中環(huán)狀RNA序列相重疊的序列,得到8 125條lncRNA作為負(fù)樣本數(shù)據(jù)集。分別將正負(fù)樣本集中75%的數(shù)據(jù)作為訓(xùn)練集,25%的數(shù)據(jù)作為測(cè)試數(shù)據(jù),對(duì)以上三種模型進(jìn)行訓(xùn)練和測(cè)試,并采用以下指標(biāo)來(lái)評(píng)估模型在測(cè)試集上的性能:準(zhǔn)確度(Acc)、靈敏度(Sn)、特異性(Sp)和馬修斯相關(guān)系數(shù)(MCC),分別定義如下:
(1)
(2)
(3)
(4)
結(jié)果見(jiàn)表1和圖4,這表明這三種基于深度學(xué)習(xí)算法的工具對(duì)于識(shí)別環(huán)狀RNA都有較好的效果,尤其是JEDI,在測(cè)試集上的識(shí)別正確率達(dá)到了97.89%。這三個(gè)工具中,circDeep運(yùn)行時(shí)間最長(zhǎng),因?yàn)樵撍惴ㄐ枰馁M(fèi)大量時(shí)間提取特征。
表1 模型分類(lèi)性能打分Table 1 Performance in model classification %
圖4 測(cè)試分類(lèi)結(jié)果ROC曲線Fig.4 ROC curves of prediction results of testing dataset
環(huán)狀RNA通過(guò)非經(jīng)典方式進(jìn)行反向剪接而成,通常認(rèn)為剪接位點(diǎn)側(cè)翼區(qū)域的反向互補(bǔ)序列和RBP結(jié)合位點(diǎn)等是促進(jìn)內(nèi)含子區(qū)域配對(duì)從而介導(dǎo)反向剪接形成環(huán)狀RNA分子。本文主要介紹了8種基于序列預(yù)測(cè)環(huán)狀RNA的工具。這8種工具均基于RNA序列來(lái)挖掘其內(nèi)在特征,利用不同的機(jī)器學(xué)習(xí)算法來(lái)識(shí)別環(huán)狀RNA,其優(yōu)缺點(diǎn)見(jiàn)表2所示。PredcircRNA、H-ELM以及predict_circ發(fā)展了不同的策略來(lái)提取特征,并使用了傳統(tǒng)的統(tǒng)計(jì)學(xué)習(xí)算法(PredcircRNA的多核學(xué)習(xí),H-ELM的層次極端學(xué)習(xí)機(jī),predict_circ的支持向量機(jī)和隨機(jī)森林及CirRNAPL的基于粒子群優(yōu)化算法的極限學(xué)習(xí)機(jī))來(lái)構(gòu)建分類(lèi)器。這一類(lèi)方法需要預(yù)先進(jìn)行選擇和計(jì)算特征,而且提取的特征是專(zhuān)門(mén)用于描述序列某方面的性質(zhì),因此需要一定的先驗(yàn)知識(shí)為基礎(chǔ)。DeepCirCode、circDeep、CRC和JEDI使用深度學(xué)習(xí)算法可以自動(dòng)地從原始序列中學(xué)習(xí)復(fù)雜模式。DeepCirCode使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)反向剪接位點(diǎn)的側(cè)翼序列進(jìn)行學(xué)習(xí),circDeep使用卷積神經(jīng)網(wǎng)絡(luò)和雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)對(duì)序列進(jìn)行編碼,CRC對(duì)反向剪接位點(diǎn)的側(cè)翼區(qū)域特征建立基于卷積神經(jīng)網(wǎng)絡(luò)的上下文回歸模型,JEDI使用深度雙向循環(huán)神經(jīng)網(wǎng)絡(luò)編碼序列并通過(guò)交叉注意層構(gòu)建反向剪接的深層相互作用模型。卷積神經(jīng)網(wǎng)絡(luò)能夠獲得重要的序列局部模式來(lái)進(jìn)行預(yù)測(cè),但是無(wú)法識(shí)別每個(gè)剪接位點(diǎn)的位置信息。circDeep通過(guò)應(yīng)用循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)序列信息,彌補(bǔ)了卷積神經(jīng)網(wǎng)絡(luò)的不足,但是忽略了一些基本的信息(如剪接位點(diǎn))。CRC雖然能通過(guò)深度學(xué)習(xí)方式識(shí)別環(huán)狀發(fā)生過(guò)程,但輸入特征中包含了基于統(tǒng)計(jì)的信息。JEDI相較于前幾種深度學(xué)習(xí)預(yù)測(cè)工具,只對(duì)序列剪接位點(diǎn)周?chē)膫?cè)翼區(qū)域進(jìn)行建模,不需要其他特征信息,充分挖掘了序列的剪接位點(diǎn)信息及其深度相互作用信息,可以自動(dòng)發(fā)現(xiàn)反向剪接的位點(diǎn),而無(wú)需任何注釋?zhuān)€能夠很好地保留形成環(huán)狀RNA的剪接位點(diǎn)信息和其他重要信息,因此在模型評(píng)估的各衡量指標(biāo)中都取得了最好的表現(xiàn)。
表2 預(yù)測(cè)環(huán)狀RNA 工具優(yōu)缺點(diǎn)Table 2 Advantages and disadvantages of circRNA prediction tools
無(wú)論是基于傳統(tǒng)機(jī)器學(xué)習(xí)方法還是深度學(xué)習(xí)方法,以上模型都是從序列中挖掘局部信息,但受限于知識(shí)和方法的不足,已經(jīng)利用的序列信息(序列基序,ALU序列和剪接位點(diǎn)等)還是不足以完全地解釋RNA成環(huán)機(jī)制。序列的上下游調(diào)控信息、遠(yuǎn)程調(diào)控信息、RNA與蛋白質(zhì)互作信息和RNA結(jié)構(gòu)等是現(xiàn)有工具未挖掘到的一些信息。如何更全面地挖掘信息并有效地表征,是環(huán)狀RNA識(shí)別工具開(kāi)發(fā)的一個(gè)可能方向。
本文通過(guò)比較分析現(xiàn)有工具各自特征提取的側(cè)重點(diǎn)和方法的優(yōu)劣,目的在于幫助大家在研究過(guò)程中選擇合適的工具,也希望能對(duì)開(kāi)發(fā)出更好的預(yù)測(cè)環(huán)狀RNA的算法和工具有所啟發(fā),從而推進(jìn)對(duì)環(huán)狀RNA形成機(jī)制的研究和功能的探索。