張瀚元,趙博偉,胡 倫*,王 磊,尤著宏
(1.中國科學(xué)院大學(xué) 中國科學(xué)院新疆理化技術(shù)研究所,新疆 烏魯木齊 830011;2.廣西科學(xué)院 大數(shù)據(jù)與智能計(jì)算研究中心,廣西 南寧 530007;3.西北工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院 大數(shù)據(jù)存儲與管理工業(yè)和信息化部重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710072)
環(huán)狀RNA是一類收尾相連具有環(huán)狀結(jié)構(gòu)的轉(zhuǎn)錄RNA,它產(chǎn)生于DNA轉(zhuǎn)錄過程或轉(zhuǎn)錄后的修飾[1-2],具體的產(chǎn)生機(jī)制還在研究中。雖然細(xì)胞內(nèi)的RNA主要是以線性結(jié)構(gòu)為主,但環(huán)狀RNA也大量存在,并且發(fā)現(xiàn)環(huán)狀RNA往往會高表達(dá)轉(zhuǎn)錄。近年來隨著高通量測序技術(shù)的發(fā)展,環(huán)狀RNA能夠通過被反向比對的雙端(two-paired)短序列識別出。數(shù)據(jù)分析表明,它們在癌癥等多種復(fù)雜疾病組織與正常組織的比對中有顯著的轉(zhuǎn)錄差異,這些有差異的環(huán)狀RNA被認(rèn)為與該疾病發(fā)生和發(fā)展有關(guān)系[3]。比如,Hsa_circ_0046430在最近研究中參與miR-6785-5p/SRCIN1的ceRNA調(diào)控網(wǎng)絡(luò)促進(jìn)結(jié)腸癌的生長[4],CircRNA DDX21則參與miR-1264/QKI的ceRNA調(diào)控網(wǎng)絡(luò)以弱化三陰性乳腺癌的生長[5],而利用環(huán)狀RNA基因表達(dá)數(shù)據(jù)則可以挖掘出新的胃癌標(biāo)志物[6]等等。然而,通過實(shí)驗(yàn)手段發(fā)現(xiàn)的環(huán)狀RNA與疾病的關(guān)聯(lián)關(guān)系畢竟有限,研究人員希望通過現(xiàn)有的研究信息和生物知識,借助機(jī)器學(xué)習(xí)和人工智能的方法,預(yù)測和挖掘環(huán)狀RNA與疾病的關(guān)聯(lián)關(guān)系[7]。
建立生物基因型與表型性狀的關(guān)聯(lián)關(guān)系一直是生命科學(xué)研究的重要問題[8]。研究人員已經(jīng)通過計(jì)算手段來挖掘這種關(guān)聯(lián)關(guān)系,如小RNA(microRNA)與疾病[9]、非編碼RNA(LncRNA)與疾病[10]、環(huán)狀RNA(Circular RNA,CircRNA)與疾病[11-13]的關(guān)聯(lián)關(guān)系。由于已有知識的局限,以及不同生物分子對應(yīng)的疾病特征不同,目前多數(shù)有效的環(huán)狀RNA與疾病的預(yù)測方法是通過鏈路預(yù)測(Link prediction)對已知的環(huán)狀RNA與疾病關(guān)系的補(bǔ)全,關(guān)聯(lián)關(guān)系(Association prediction)預(yù)測可以認(rèn)為是鏈路預(yù)測的一種特例[14]。主要關(guān)于鏈路預(yù)測的方法都有嘗試在環(huán)狀RNA與疾病關(guān)系預(yù)測問題上進(jìn)行研究,比如KATZHCDA方法通過KATZH圖信息指標(biāo)對環(huán)狀RNA與疾病的關(guān)系進(jìn)行預(yù)測。KATZH指標(biāo)是一種通過節(jié)點(diǎn)間鏈路個(gè)數(shù)來衡量節(jié)點(diǎn)間關(guān)系程度并用于鏈路關(guān)系的預(yù)測[15]。iCircDA-MF通過矩陣分解的方法整合環(huán)狀RNA與疾病的相關(guān)信息進(jìn)行鏈路預(yù)測[16]。也有通過深度學(xué)習(xí)模型構(gòu)建分類器進(jìn)行相關(guān)關(guān)系的預(yù)測,如MSFCNN方法通過融合多源信息后利用兩層卷積網(wǎng)絡(luò)進(jìn)行關(guān)系預(yù)測[17]。GIS-CDA也是一種采用了圖注意力機(jī)制的模型,但主要是利用數(shù)據(jù)融合的技術(shù)和歸納式矩陣補(bǔ)全[12]。以上關(guān)于圖鏈路預(yù)測的傳統(tǒng)方法都有應(yīng)用在環(huán)狀RNA與疾病關(guān)系的預(yù)測中。AE-DNN方法通過構(gòu)建編碼器(AutoEncoder)和深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network)進(jìn)行關(guān)系預(yù)測[18]。AANE-SAE[19]利用屬性網(wǎng)絡(luò)編碼算法(AANE)獲得淺層特征,并利用堆疊的自動(dòng)編碼器(SAE)獲得深層特征,最后利用XGboost分類器進(jìn)行預(yù)測。一般來說利用信息指標(biāo)進(jìn)行鏈路預(yù)測只局限于部分結(jié)構(gòu),無法利用到全面的圖結(jié)構(gòu)信息。單純利用傳統(tǒng)的機(jī)器學(xué)習(xí)模型雖然也能取得較好的訓(xùn)練效果,但是在驗(yàn)證中相對來說具有較高的假陽性率,不利于生物實(shí)驗(yàn)的驗(yàn)證。矩陣分解方法的結(jié)果假陽性率低,但是偏重于已有知識的強(qiáng)化,發(fā)現(xiàn)新知識的能力較弱。
為了能夠提高預(yù)測的能力,就需要引入更多生物知識及其關(guān)系網(wǎng)絡(luò)來提取特征信息,比如構(gòu)建生物知識的異構(gòu)網(wǎng)絡(luò)等[20]。隨著近年來圖表示學(xué)習(xí)(graph represent learning)算法的發(fā)展,圖表示學(xué)習(xí)在人類社會網(wǎng)絡(luò)鏈路預(yù)測的相關(guān)問題上取得了較好的結(jié)果[21]。一些圖表示學(xué)習(xí)方法被用于環(huán)狀RNA與疾病關(guān)聯(lián)關(guān)系的預(yù)測,如Lei通過隨機(jī)游走算法實(shí)現(xiàn)特征的提取,并利用K鄰接聚類的方法實(shí)現(xiàn)環(huán)狀RNA與疾病關(guān)聯(lián)關(guān)系的預(yù)測[22];本課題組發(fā)表的iGRLCDA通過因子圖卷積網(wǎng)絡(luò)(factor Graph Convolution Network)在異構(gòu)圖上提取特征[23],利用隨機(jī)森林分類器實(shí)現(xiàn)環(huán)狀RNA與疾病關(guān)聯(lián)關(guān)系的預(yù)測,取得了較好的結(jié)果。理論上,圖卷積網(wǎng)絡(luò)也可以直接做鏈路預(yù)測[14],但是不容易訓(xùn)練成功。考慮到環(huán)狀RNA與疾病的關(guān)系中大部分關(guān)系未知,所以iGRLCDA利用因子圖卷積網(wǎng)絡(luò)在主要的圖結(jié)構(gòu)上對節(jié)點(diǎn)分類(node classification)。依據(jù)節(jié)點(diǎn)分類模型提取出所有節(jié)點(diǎn)的特征,最后依據(jù)分類器實(shí)現(xiàn)鏈路關(guān)系預(yù)測。在iGRLCDA的設(shè)計(jì)過程中,發(fā)現(xiàn)對傳統(tǒng)機(jī)器學(xué)習(xí)方法進(jìn)行調(diào)優(yōu)的過程比較費(fèi)時(shí)且需要一定技巧,希望設(shè)計(jì)一種具有自適應(yīng)且綜合性能良好的模型來實(shí)現(xiàn)環(huán)狀RNA與疾病關(guān)聯(lián)關(guān)系的預(yù)測。深度學(xué)習(xí)模型無疑具有較好的自適應(yīng)性,但目前對于環(huán)狀RNA與疾病關(guān)系預(yù)測深度學(xué)習(xí)AE-DNN模型[18]部分性能并不出眾,反映非平衡數(shù)據(jù)性能的MCC指標(biāo)為0.58,低于iGRLCDA[23]的0.714 6。此外,在驗(yàn)證集上AE-DNN模型的AUC為0.85,也低于iGRLCDA[23]的0.928 7。在實(shí)現(xiàn)自動(dòng)編碼器(AutoEncoder,AE)與深度全連接神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)的基礎(chǔ)上,嵌入圖注意力機(jī)制(Graph Attention Network,GAT)[24],實(shí)現(xiàn)了GAT-AE-DNN結(jié)構(gòu)的端到端的深度學(xué)習(xí)模型GATECDA,在環(huán)狀RNA與疾病預(yù)測的CircR2Disease數(shù)據(jù)集中[25],其綜合性能AUC得分為0.961 8,MCC關(guān)系為0.757 6。GATECDA采用端到端的GAT-AE-DNN深度學(xué)習(xí)模型,具有自適應(yīng)性、易于泛化和拓展等特點(diǎn),訓(xùn)練過程也更容易。
基于圖表示學(xué)習(xí)方法進(jìn)行特征提取并預(yù)測關(guān)聯(lián)關(guān)系的基礎(chǔ)在于從圖中學(xué)習(xí)相應(yīng)的知識并將圖結(jié)構(gòu)信息融合入圖中節(jié)點(diǎn)的特征。相較于傳統(tǒng)上只利用節(jié)點(diǎn)內(nèi)部的信息,圖表示學(xué)習(xí)可以利用節(jié)點(diǎn)有聯(lián)系的不同節(jié)點(diǎn)的特征來強(qiáng)化自身以反映與相關(guān)節(jié)點(diǎn)的聯(lián)系。以環(huán)狀RNA參與的ceRNA調(diào)控網(wǎng)絡(luò)為例,如果只考慮其自身的序列信息,那么可能在表示中無法反映出環(huán)狀RNA通過吸附miRNA來調(diào)節(jié)LncRNA的關(guān)系。但利用圖表示學(xué)習(xí)方法提取特征后,所提取的特征來源于環(huán)狀RNA自身,但也能把現(xiàn)有的調(diào)控關(guān)系反映出來。
目前,主要的圖表示學(xué)習(xí)方法有矩陣分解的方法、隨機(jī)游走的方法、圖神經(jīng)網(wǎng)絡(luò)的方法等。其中圖注意力網(wǎng)絡(luò)(Graph attention networks,GATs)也是圖神經(jīng)網(wǎng)絡(luò)中一種主要的方法[21,24],在多個(gè)同質(zhì)數(shù)據(jù)集上的鏈路預(yù)測中取得了較好的性能。研究中首先建立異構(gòu)的環(huán)狀RNA與疾病關(guān)系的網(wǎng)絡(luò)。所謂異構(gòu)是因?yàn)榄h(huán)狀RNA或疾病在各自向量空間內(nèi)存在關(guān)系圖,如圖1所示,需要在不同向量空間表述的節(jié)點(diǎn)關(guān)系中挖掘關(guān)聯(lián)關(guān)系。比如關(guān)系圖G=(u,v),其中的u與v分別表示不同類型的節(jié)點(diǎn),它們各自在自身的向量空間存在不同的維度u_feature和v_feature。已經(jīng)知道部分u與v之間存在聯(lián)系,因此構(gòu)成了異構(gòu)關(guān)系圖。圖表示學(xué)習(xí)方法實(shí)質(zhì)就是在考慮異構(gòu)關(guān)系圖G的結(jié)構(gòu)上把u_feature和v_feature映射到同一個(gè)空間成為node_feature,該node_feature可以區(qū)分整體關(guān)系圖G中不同節(jié)點(diǎn)的類別。
隨后,u與v之間的已知關(guān)系(u,v)->R為預(yù)測的正樣本集,隨機(jī)產(chǎn)生的關(guān)系(u,v)->R*為預(yù)測的負(fù)樣本,正負(fù)樣本具有相同的大小N(N=739)并一同作為大小為2N的訓(xùn)練集。在訓(xùn)練集上采用五折交叉驗(yàn)證。此外,為了驗(yàn)證不同模型的性能,從訓(xùn)練集中拿出n(n=50)個(gè)關(guān)系作為驗(yàn)證集。最后,將提取的節(jié)點(diǎn)特征聯(lián)系起來利用分類器進(jìn)行預(yù)測。圖1展示了GATECDA的整體流程,從異構(gòu)生物知識中獲得環(huán)狀RNA與疾病的特征,并用深度模型預(yù)測關(guān)聯(lián)關(guān)系。
研究工作在一臺雙路Intel至強(qiáng)2365V2處理器的工作站上實(shí)現(xiàn),內(nèi)存為96 GB。在實(shí)現(xiàn)過程中,實(shí)際使用內(nèi)存不超過16 GB,主要在屬性節(jié)點(diǎn)的特征提前上花費(fèi)較多。GATECDA模型采用python 3.7語言實(shí)現(xiàn),模型利用tensorflow 2.7張量流計(jì)算框架和keras深度學(xué)習(xí)框架封裝構(gòu)建,GAT層的實(shí)現(xiàn)采用了dgl圖神經(jīng)網(wǎng)絡(luò)工具包。
考慮通過環(huán)狀RNA的序列信息相似性,疾病關(guān)系的語義信息相似性和由已知的環(huán)狀RNA與疾病關(guān)系信息相似性來建立異構(gòu)網(wǎng)絡(luò)。其中,環(huán)狀RNA序列信息源自circBase[26]數(shù)據(jù)庫中基于hg19基因組的推測的環(huán)狀RNA選擇性剪切序列。疾病關(guān)系的語義信息采用引用字典Mesh的關(guān)系獲得[27]。環(huán)狀RNA與疾病關(guān)系信息由CircR2Disease數(shù)據(jù)庫[25]中經(jīng)過實(shí)驗(yàn)驗(yàn)證的關(guān)系獲得。部分因數(shù)據(jù)庫環(huán)狀RNA的id對應(yīng)不上的序列也可以由CircR2Disease數(shù)據(jù)庫[25]提供的基因組位置或?qū)?yīng)的基因Symbol獲得。一共獲得739個(gè)環(huán)狀RNA與疾病關(guān)系作為正樣本集,涉及到661個(gè)環(huán)狀RNA和100種疾病。在這個(gè)關(guān)系中,還存在65 261個(gè)未標(biāo)注的環(huán)狀RNA與疾病的隨機(jī)關(guān)系,隨機(jī)從里面取得739個(gè)作為負(fù)樣本集。最后從1 478個(gè)正負(fù)樣本關(guān)系中取出50個(gè)關(guān)系作為驗(yàn)證集,剩余的1 428個(gè)關(guān)系作為訓(xùn)練集。
根據(jù)獲得的數(shù)據(jù)信息,可以構(gòu)建三組節(jié)點(diǎn)間相似關(guān)系信息,包括環(huán)狀RNA與疾病、環(huán)狀RNA與環(huán)狀RNA、疾病與疾病。
(1)環(huán)狀RNA與疾病關(guān)聯(lián):所有從CircR2Disease[25]的739個(gè)環(huán)狀RNA與疾病關(guān)系,涉及到661個(gè)環(huán)狀RNA和100種疾病,可以構(gòu)成661×100的關(guān)系矩陣RD,其中有關(guān)系為1,否則為0。從該關(guān)系矩陣就可以通過Gaussian Interaction Profile (GIP)方法獲得單個(gè)環(huán)狀RNA或疾病的特征向量。GIP方法也是藥物與疾病關(guān)系等預(yù)測中常使用的方法[28],可以通過函數(shù)SE(p(i),p(j))從關(guān)系矩陣中兩個(gè)表示為0-1向量V(p)獲得節(jié)點(diǎn)i與j的相似性,如公式(1)。
(1)
(2)
其中,V(p(i))-V(p(j))表示兩個(gè)0-1向量間的差異,通過L2范式獲得差異的距離,乘以歸一化因子θ后獲得e指數(shù)的冪。最后,通過冪指數(shù)函數(shù)SE可以獲得0-1關(guān)系矩陣RD中任意兩個(gè)節(jié)點(diǎn)間的相似性,進(jìn)而原來稀疏的0-1關(guān)系矩陣就轉(zhuǎn)化為稠密關(guān)系。其中環(huán)狀RNA或疾病可以獲得761個(gè)維度的特征。
(2)環(huán)狀RNA與環(huán)狀RNA相似性:可以獲得環(huán)狀RNA的序列信息,并通過序列相似性獲得環(huán)狀RNA與環(huán)狀RNA的661×661的相似矩陣CC。由此,可生成單個(gè)環(huán)狀RNA的特征向量。這里的環(huán)狀RNA的相似性由skip-gram結(jié)構(gòu)的word2vec生成[29]。因?yàn)镽NA序列結(jié)構(gòu)的復(fù)雜性,RNA序列的作用區(qū)域可能局限于內(nèi)部的短序列片段中,直接獲取兩條RNA序列的相似性不能反映它們相互作用的關(guān)系[30]。word2vec模型在自然預(yù)言處理中廣泛使用,它通過一個(gè)單詞在上下文中的出現(xiàn)關(guān)系來挖掘其特征表示。在生物序列的挖掘中,定義6-mer,如“ACCATC”為一個(gè)單詞w。
(3)
word2vec在該任務(wù)中是尋找參數(shù)Θ使得所有屬于語料T中每個(gè)句子S內(nèi)單詞W的聯(lián)合概率乘積最大。在訓(xùn)練中語料T包括13 000條環(huán)狀RNA序列。
(4)
(3)疾病與疾病相似性: 建立疾病與疾病100×100的相似關(guān)系,就可以獲得單個(gè)疾病100個(gè)維度的特征信息。疾病與疾病的相似關(guān)系源自MeSH數(shù)據(jù)庫。作為醫(yī)學(xué)引用詞典,MeSH數(shù)據(jù)庫通過分析大量醫(yī)學(xué)論文的引用關(guān)系提供了醫(yī)學(xué)主題詞關(guān)系。利用醫(yī)學(xué)主題詞關(guān)系,基于王等人[31]發(fā)表的方法,可以獲得關(guān)于疾病間的相似關(guān)系。醫(yī)學(xué)主題詞關(guān)系構(gòu)建了有向無環(huán)圖(DAG)??梢杂浤骋患膊參與的DAG(d)=(d,N(d),E(d)),其中N(d)表示與某一疾病相關(guān)的所有節(jié)點(diǎn),包括疾病或者癥狀;E(d)表示與之涉及的所有邊。如果在DAG(d)中還存在另一疾病s,那么可以通過如下公式計(jì)算疾病d與疾病s的關(guān)系:
(5)
在公式(5)中如果疾病d與疾病s關(guān)聯(lián),那么它們的關(guān)系為1,否則找出疾病d到疾病s所有共同關(guān)聯(lián)的子節(jié)點(diǎn)數(shù)量,作為它們之間的關(guān)系。在復(fù)雜疾病中,疾病d的影響力為所有與之有關(guān)疾病的關(guān)系的累加和,定義如下:
(6)
有了以上(6)的信息,可以定義兩個(gè)疾病間的互信息SS1:
在公式(7)中,兩兩疾病間的相似關(guān)系可以理解為與它們相關(guān)所有節(jié)點(diǎn)的關(guān)系除以兩個(gè)疾病的整體影響。但是有些疾病可能影響的節(jié)點(diǎn)少,但它卻很重要,于是設(shè)計(jì)了另一個(gè)指標(biāo)DCd(s):
(8)
其中,num(contain(DAG(d),s))表示DAG(d)圖中包含疾病s的數(shù)量,num(diseases)表示所有的疾病。這樣關(guān)聯(lián)數(shù)量少的疾病DC的分就越高。于是,有了第二個(gè)衡量疾病關(guān)系的互信息SS2:
(9)
最后,將SS1與SS2共同考慮得到SS=0.5*SS1+0.5*SS2,作為最后疾病之間的語義相似關(guān)系。
在GATECDA的實(shí)現(xiàn)如圖2所示。首先,構(gòu)建了環(huán)狀RNA與疾病的初始特征,計(jì)算環(huán)狀RNA與疾病之間關(guān)聯(lián)關(guān)系的相似性,疾病的語義相似性和環(huán)狀RNA的序列相似性。其次,GATECDA加入了圖注意力網(wǎng)絡(luò)(Graph attention networks,GATs)提取環(huán)狀RNA與疾病異質(zhì)關(guān)系圖中的特征表示。最后,將得到的環(huán)狀RNA與疾病的特征表示送入AE-DNN深度學(xué)習(xí)模型進(jìn)行關(guān)系預(yù)測,其中包含了自動(dòng)編碼器(AutoEncoder,AE)和深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)。筆者認(rèn)為GAT起到了特征提取與融合的作用,AE起到了特征降維的作用,DNN起到了分類器的作用。單層圖注意力網(wǎng)絡(luò)GAT也是由數(shù)個(gè)神經(jīng)元組成的單元,一般不超過三層,比圖卷積網(wǎng)絡(luò)更容易達(dá)到訓(xùn)練效果[24]。相比圖卷積網(wǎng)絡(luò)是一種淺層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),因?yàn)楸旧韺儆谏窠?jīng)網(wǎng)絡(luò),所以可以嵌入到深度學(xué)習(xí)模型中。
圖2 GATECDA模型深度學(xué)習(xí)模型的結(jié)構(gòu)
模型首先接受生物知識圖G及其節(jié)點(diǎn)特征。圖G可以認(rèn)為是一個(gè)M*N的二部圖(bipartie graph)。M可以認(rèn)為是所有的環(huán)狀RNA,而N為疾病,同時(shí)M和N各自的特征也被作為參數(shù)。圖注意力網(wǎng)絡(luò)在接受數(shù)據(jù)后完成了以下工作:
Wupdatenode=[sigmoid(X*[F(j),F(i)])]
(10)
(11)
(12)
F*(i)=LeakyReLU(α*F(i))
(13)
其中,j表示i節(jié)點(diǎn)的所有鄰接節(jié)點(diǎn)。Wupdatenode構(gòu)成了輸入層的神經(jīng)網(wǎng)絡(luò),X*[F(j),F(i)]為該層輸入的數(shù)據(jù),其中X為自定義特征矩陣,[F(j),F(i)]表示i和j的聯(lián)合特征向量。在學(xué)習(xí)一遍所有節(jié)點(diǎn)后,希望單個(gè)節(jié)點(diǎn)更新后在整體中起到最大作用,這里用α體現(xiàn)特征的更新,F*是更新后的特征。此外,作為一種隨機(jī)過程,每更新一輪被認(rèn)為是1個(gè)頭(head)的注意力,更新k次為多個(gè)頭(k-heads)的注意力,在GATECDA中k為8。最后,所有1至k次的特征更新都被均方和作為最后的特征,如公式(14):
(14)
注意力的思想與word2vec一致,就是每個(gè)節(jié)點(diǎn)都朝著在整體背景中最顯著去改變。而多頭的概念與主成分分析(PCA)的概念相似。所以認(rèn)為多頭注意力網(wǎng)絡(luò)起到了特征提取與融合的作用。隨后的AE-DNN模型由自動(dòng)編碼器(AutoEncoder,AE)和深度神經(jīng)網(wǎng)絡(luò)DNN(Deep Neural Network)組成,是深度學(xué)習(xí)中的經(jīng)典模型,在很多機(jī)器翻譯任務(wù)中都有較為出色的表現(xiàn)。AE層接受稀疏的數(shù)據(jù),在不斷收窄的多層網(wǎng)絡(luò)中實(shí)現(xiàn)信息的融合、壓縮與標(biāo)準(zhǔn)化,之后又以多層變寬的網(wǎng)絡(luò)壓縮后的數(shù)據(jù)還原回輸入數(shù)據(jù)。AE具有降維的作用,在GATECDA中,如圖2(2)把兩層GAT網(wǎng)絡(luò)得到的1 522維的特征壓縮為128維的特征。經(jīng)過AE處理過的數(shù)據(jù)又被送入深度神經(jīng)網(wǎng)絡(luò)6層神經(jīng)網(wǎng)絡(luò)構(gòu)建的DNN進(jìn)行關(guān)聯(lián)關(guān)系的分類預(yù)測,如圖2(3)。在所有的AE-DNN層中,都使用了Batch normalization和dropout機(jī)制。Batch normalization是一種歸一化方法,可以減小異常數(shù)據(jù)的干擾。dropout機(jī)制是在每一層反饋梯度時(shí),只更新一定比例的神經(jīng)元,該模型訓(xùn)練時(shí)dropout的值為0.3。Batch normalization和dropout機(jī)制都是為了防止模型過擬合,提高模型泛化能力。
在取得對預(yù)測結(jié)果評估矩陣的真陽性率(True Positive,TP)、真陰性率(True Negative,TN)、假陽性率(False Positive,FP)、假陰性率(False Negative,FN)后,采用了準(zhǔn)確率(Acc.)、敏感度(Sen.)、精準(zhǔn)率(Pre.)、F1打分(F1)和Matthews關(guān)系(MCC)來較全面地評估模型的性能,這些也是機(jī)器學(xué)習(xí)領(lǐng)域的主流評價(jià)方法,如下:
(15)
(16)
(17)
(18)
MCC=
(19)
在五折交叉驗(yàn)證的測試下,衡量受試者工作特征曲線(ROC)下面積(AUC)也是機(jī)器學(xué)習(xí)領(lǐng)域里衡量模型性能的主要指標(biāo)。通過模型在逐一增長的測試集上預(yù)測結(jié)果真陽性率(TPR)與假陽性率(FPR)的平面坐標(biāo)位置,就可以做出ROC曲線。
為了評估GATECDA模型的能力,在CircR2Disease數(shù)據(jù)集上進(jìn)行五折交叉驗(yàn)證,即將訓(xùn)練集劃分為5等份,進(jìn)行五次訓(xùn)練。每次以其中四份進(jìn)行訓(xùn)練,一份進(jìn)行測試(285個(gè)樣本)。圖3展示了GATECDA模型的訓(xùn)練過程的ROC曲線及AUC值。GATECDA模型的五折交叉驗(yàn)證平均AUC值為0.961 8,每次的AUC值分別為0.947 6,0.952 0,0.963 7和0.979 5。其綜合性能在表1中體現(xiàn),平均準(zhǔn)確率為87.53%,敏感度為93.62%,精準(zhǔn)度為83.80%,F1打分為88.35%,MCC關(guān)系為0.757 6, 精準(zhǔn)度-召回曲線下面積AUPRC為0.903 2,ROC曲線下面積AUC為0.961 8。
表1 GATECDA在CircR2Disease數(shù)據(jù)集上五折交叉驗(yàn)證
圖3 GATECDA模型在CircR2Disease 數(shù)據(jù)集生成的ROC曲線
比較了已經(jīng)發(fā)表的環(huán)狀RNA與疾病關(guān)聯(lián)關(guān)系預(yù)測的幾種方法在CircR2Disease[25]數(shù)據(jù)集上五折交叉驗(yàn)證中的AUC值, 見表2。 它們包括基于圖表示學(xué)習(xí)方法GATECDA、iGRLCD[23]和GIS-CDA[12],深度學(xué)習(xí)模型AE-DNN[18]與AANE-SAE[19],以上模型在文中研究背景中均有介紹。通過比較可以看出,GATE-CDA在五折交叉驗(yàn)證中平均的AUC為0.961 8,高于iGRLCDA[23]的0.928 7和AE-DNN[18]的0.930 3。對于衡量不平衡數(shù)據(jù)集上性能的MCC值,GATECDA的0.757 6,也高于AE-DNN的0.583 6和iGRLCDA模型的0.714 6。其中GIS-CDA與GATECDA模型都采用了圖注意力機(jī)制,不過GIS-CDA是先用編碼器融合不同維度的特征后再使用圖注意力機(jī)制, GATECDA模型首先使用圖注意力機(jī)制而不是進(jìn)行編碼的信息融合,因而比GIS-CDA模型的AUC略高。筆者認(rèn)為在設(shè)計(jì)異構(gòu)網(wǎng)絡(luò)模型時(shí),越能完整和直接地利用圖結(jié)構(gòu)信息,越有利于模型的預(yù)測。GATECDA不足在于實(shí)現(xiàn)的圖注意力機(jī)制(CAT)是一種淺學(xué)習(xí)[14,24],對于以后更大規(guī)模數(shù)據(jù)集或知識圖譜上能力提升空間不如圖卷積網(wǎng)絡(luò)(GCN)模型[21]
表2 不同預(yù)測模型的比較
比較GATECDA和不同分類器模型在驗(yàn)證集上的預(yù)測能力。其中KNN、RF、XGboost和SVM為iLearnPlus工具[32]封裝好的分類器。GATECDA是該文提出的端到端圖注意力網(wǎng)絡(luò)、自動(dòng)編碼器與深度神經(jīng)網(wǎng)絡(luò)結(jié)合的深度學(xué)習(xí)模型(GAT_AE_DNN),其中AE是自動(dòng)編碼器加輸出層的分類器,DNN是深度神經(jīng)網(wǎng)絡(luò)分類器。SVM是支持向量機(jī)(Support Vector Machine),KNN是K鄰接分類器(K-nearest Neighbor),RF是隨機(jī)森林分類器(Random Forest),XGboost是極限學(xué)習(xí)分類器(Extreme Gradient boost)。以上所有模型都在1 428個(gè)正負(fù)關(guān)系構(gòu)成的訓(xùn)練集上加以訓(xùn)練,并在獨(dú)立劃分出的50個(gè)樣本的驗(yàn)證集上做性能比較。從圖4中可以看出,在驗(yàn)證集樣本上GATECDA的AUC最高為0.972 6, XGboost的AUC值為0.895 0,KNN為0.733 3,RF為0.640 8, SVM為0.667 2。
圖4 不同分類器模型在驗(yàn)證集上的ROC曲線
為了分析圖結(jié)構(gòu)的已有知識信息與節(jié)點(diǎn)屬性信息對模型能力的貢獻(xiàn),設(shè)計(jì)了特征消融實(shí)驗(yàn),見表3。研究中,GATECDA模型既使用已有知識構(gòu)建圖G,也采用節(jié)點(diǎn)屬性特征,得到的預(yù)測結(jié)果AUC為0.961 8,AUPR為0.903 2。GATECDA-F是GATECDA模型只包含圖結(jié)構(gòu)信息,得到的預(yù)測結(jié)果AUC為0.582 7,AUPR為0.785 7。GATECDA-G是GATECDA模型只包含節(jié)點(diǎn)屬性特征,得到的預(yù)測結(jié)果AUC為0.491 5,AUPR為0.732 8。最后為該結(jié)果符合預(yù)期,圖注意力網(wǎng)絡(luò)在考慮圖結(jié)構(gòu)和節(jié)點(diǎn)屬性特征時(shí)可以強(qiáng)化特征信息。
表3 特征消融實(shí)驗(yàn)
通過GATECDA從661個(gè)環(huán)狀RNA和100種疾病的65 261個(gè)未標(biāo)注潛在組合中預(yù)測3 743個(gè)關(guān)聯(lián)關(guān)系,約占未標(biāo)注總數(shù)的5.7%。表4列出預(yù)測結(jié)果排名前30的關(guān)聯(lián)關(guān)系,并且通過文獻(xiàn)檢索查到相關(guān)CircRNA或其所在基因在以前的生物實(shí)驗(yàn)中有發(fā)現(xiàn)與相關(guān)疾病存在聯(lián)系。在預(yù)測的結(jié)果得到的前30個(gè)環(huán)狀RNA與疾病的關(guān)聯(lián)關(guān)系中,其中有25個(gè)關(guān)聯(lián)能夠在最近醫(yī)學(xué)文獻(xiàn)中被發(fā)現(xiàn)存在關(guān)聯(lián)。預(yù)測結(jié)果可以幫助研究人員縮小篩查范圍,盡快找到與疾病相關(guān)的關(guān)鍵標(biāo)志物。實(shí)驗(yàn)中獲得的差異信息很多,一般的方法是做富集分析或是在基因共表達(dá)網(wǎng)絡(luò)尋找關(guān)鍵基因。如果結(jié)合已有知識對環(huán)狀RNA與疾病的關(guān)聯(lián)關(guān)系預(yù)測可以為尋找關(guān)鍵基因和疾病標(biāo)志物提供一種新的角度。
表4 預(yù)測排名前30個(gè)環(huán)狀RNA與疾病的關(guān)系及文獻(xiàn)檢索
續(xù)表4
筆者認(rèn)為,目前采用圖表示學(xué)習(xí)提取特征進(jìn)行環(huán)狀RNA與疾病關(guān)聯(lián)關(guān)系預(yù)測的方法比其他方法能獲得較好的綜合性能。針對目前取得的進(jìn)展,一方面需要利用更豐富的生物網(wǎng)絡(luò)知識,即利用復(fù)雜異構(gòu)網(wǎng)絡(luò)實(shí)現(xiàn)對任意環(huán)狀RNA與疾病的預(yù)測,同時(shí)保持驗(yàn)證中較低的假陽性率。從這一點(diǎn)上看,GATECDA的基礎(chǔ)在于已有知識的補(bǔ)全,因而更適合于降低假陽性率的新知識的挖掘。另一方面,研究環(huán)狀RNA與疾病關(guān)系的預(yù)測最初也是想實(shí)現(xiàn)環(huán)狀RNA、調(diào)控分子、生物過程、生物性狀到疾病完整鏈路的預(yù)測,但相關(guān)的知識和計(jì)算方法以前達(dá)不到一定的積累。隨著圖神經(jīng)網(wǎng)絡(luò)、圖表示學(xué)習(xí)和生物信息等方法在相關(guān)方面的進(jìn)展,關(guān)聯(lián)關(guān)系預(yù)測方法與生物知識的不斷積累,圖表示學(xué)習(xí)的方法能夠在與大規(guī)模知識圖譜不斷結(jié)合與發(fā)展。利用GATECDA多頭注意力機(jī)制和易于訓(xùn)練的特點(diǎn),在多目標(biāo)的二部圖(bipartite graph)結(jié)構(gòu)中應(yīng)當(dāng)會比較適用,挖掘出中間的調(diào)控過程,實(shí)現(xiàn)鏈路預(yù)測。
環(huán)狀RNA與疾病關(guān)聯(lián)關(guān)系預(yù)測模型在利用圖表示學(xué)習(xí)機(jī)制后性能有所提升,圖神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)結(jié)合的模型更易于訓(xùn)練與泛化。筆者認(rèn)為利用人工智能技術(shù)挖掘已有生命科學(xué)知識進(jìn)行相關(guān)的預(yù)測,其結(jié)果可以有助于解釋在高通量實(shí)驗(yàn)中發(fā)現(xiàn)的大量異常信息,為研究人員推薦出與研究背景相關(guān)的關(guān)鍵信息,這將加快和提高相關(guān)領(lǐng)域的研究進(jìn)展。