杜曉昕 羅金琦 金梅 王振飛 周薇
摘? 要:針對(duì)當(dāng)前長(zhǎng)鏈非編碼RNA(lncRNA)與疾病關(guān)聯(lián)預(yù)測(cè)研究中存在的異質(zhì)網(wǎng)絡(luò)構(gòu)建不完善、網(wǎng)絡(luò)節(jié)點(diǎn)信息挖掘不充分問(wèn)題,提出一種基于關(guān)系圖卷積網(wǎng)絡(luò)(Relational Graph Convolutional Network, R-GCN)的方法(RGCNLDA)。首先,構(gòu)建lncRNA-miRNA-疾病異質(zhì)圖,隨后在異質(zhì)圖上訓(xùn)練R-GCN獲取節(jié)點(diǎn)嵌入向量,最后使用多層感知機(jī)預(yù)測(cè)lncRNA-疾病關(guān)聯(lián)。5折交叉驗(yàn)證結(jié)果顯示,RGCNLDA的受試者工作特征曲線下面積(AUROC)為0.934,表明其具有良好的預(yù)測(cè)性能。
關(guān)鍵詞:lncRNA;關(guān)系圖卷積網(wǎng)絡(luò);異質(zhì)圖;關(guān)聯(lián)預(yù)測(cè)
中圖分類號(hào):TP311? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2096-4706(2023)07-0086-04
Abstract: Aiming at the problems of imperfect heterogeneous network construction and insufficient network node information mining in the current research on association prediction of long non-coding RNA (lncRNA) and disease, a method based on Relational Graph Convolutional Network (R-GCN) is proposed (RGCNLDA). Firstly, a lncRNA-miRNA-disease heterogeneous graph is constructed, and then R-GCN is trained on the heterogeneous graph to obtain node embedding vectors. Finally, a multi-layer perceptron is used to get lncRNA-disease associations. The results of 5-fold cross validation show that the Area Under Receiver Operating Characteristic curve (AUROC) of RGCNLDA is 0.934, indicating a good predictive performance.
Keywords: lncRNA; R-GCN; heterogeneous graph; association prediction
0? 引? 言
長(zhǎng)鏈非編碼RNA(lncRNA)是一種含有200多個(gè)核苷酸的非編碼RNA[1]。越來(lái)越多的研究表明,lncRNA的突變和調(diào)控異常與各種復(fù)雜人類疾病的發(fā)生和發(fā)展密切相關(guān),如糖尿病、心血管疾病、神經(jīng)系統(tǒng)疾病和包括肺癌、乳腺癌和前列腺癌在內(nèi)的癌癥[2]。因此,急需開(kāi)發(fā)高效、準(zhǔn)確的計(jì)算模型來(lái)預(yù)測(cè)潛在的lncRNA-疾病關(guān)聯(lián)。
預(yù)測(cè)lncRNA-疾病關(guān)聯(lián)的方法大致可以分為兩類:基于機(jī)器學(xué)習(xí)的方法和基于網(wǎng)絡(luò)隨機(jī)游走的方法。在基于機(jī)器學(xué)習(xí)的方法中,Chen等人[3]提出了一種稱為L(zhǎng)RLSLDA的半監(jiān)督學(xué)習(xí)方法,該方法使用拉普拉斯正則化最小二乘來(lái)識(shí)別lncRNA與疾病之間的潛在關(guān)聯(lián)。近年來(lái)興起的深度學(xué)習(xí)技術(shù)也被廣泛應(yīng)用于lncRNA-疾病關(guān)聯(lián)預(yù)測(cè)中,如Yang等人[4]提出了一個(gè)名為BiGAN的雙向生成對(duì)抗網(wǎng)絡(luò)模型,由一個(gè)編碼器、一個(gè)生成器和一個(gè)鑒別器組成,通過(guò)編碼器和生成器學(xué)習(xí)高級(jí)特征,并通過(guò)鑒別器預(yù)測(cè)lncRNA-疾病關(guān)聯(lián)。在基于網(wǎng)絡(luò)隨機(jī)游走的方法中,Wang等人[5]構(gòu)建與疾病關(guān)聯(lián)的lncRNA功能網(wǎng)絡(luò),進(jìn)行重啟隨機(jī)游走(Random Walk with Restart, RWR),從而預(yù)測(cè)與疾病關(guān)聯(lián)的lncRNA;Hu等人[6]提出一種BiWalkLDA方法,在lncRNA-疾病網(wǎng)絡(luò)上進(jìn)行雙隨機(jī)游走,整合相互作用譜和基因本體信息,預(yù)測(cè)lncRNA-疾病關(guān)聯(lián)。
上述方法雖然在lncRNA-疾病關(guān)聯(lián)預(yù)測(cè)中取得了一定的成果,但也存在一些弊端。例如,沒(méi)有充分考慮到多源數(shù)據(jù)整合對(duì)于提取節(jié)點(diǎn)信息的重要性,著重于提取節(jié)點(diǎn)的線性特征而忽略了節(jié)點(diǎn)在網(wǎng)絡(luò)中的拓?fù)浣Y(jié)構(gòu)信息。因此,本文提出一種基于關(guān)系圖卷積網(wǎng)絡(luò)的方法RGCNLDA,整合lncRNA、miRNA以及疾病信息構(gòu)建異質(zhì)圖,并根據(jù)節(jié)點(diǎn)與節(jié)點(diǎn)之間的不同關(guān)系分別提取節(jié)點(diǎn)的非線性特征,從而充分挖掘節(jié)點(diǎn)信息,提高預(yù)測(cè)性能。
1? 相關(guān)概念
1.1? 異質(zhì)圖
異質(zhì)圖是指圖中節(jié)點(diǎn)類型與邊類型之和大于1的圖。將一個(gè)無(wú)向異質(zhì)圖定義為G=(V,E,R)。其中,V表示節(jié)點(diǎn)集合,任意節(jié)點(diǎn)vi ∈ V。E表示邊的集合,節(jié)點(diǎn)vi與vj之間的邊(vi,r,vj) ∈ E。r表示節(jié)點(diǎn)vi與vj之間的關(guān)系,r ∈ R。
1.2? 關(guān)系圖卷積網(wǎng)絡(luò)R-GCN
圖卷積網(wǎng)絡(luò)(Graph Convolutional Network, GCN)只能作用于同質(zhì)圖,即圖中只有一種類型的節(jié)點(diǎn)或邊。對(duì)于具有多種類型的節(jié)點(diǎn)和邊的圖,GCN將節(jié)點(diǎn)和邊都視作同一種類型,無(wú)法挖掘不同節(jié)點(diǎn)類型和邊類型的節(jié)點(diǎn)之間的信息。關(guān)系圖卷積網(wǎng)絡(luò)(R-GCN)能夠克服這種弊端。R-GCN根據(jù)節(jié)點(diǎn)之間的不同關(guān)系,分別聚合鄰居節(jié)點(diǎn)信息。
R-GCN通過(guò)式(1)計(jì)算節(jié)點(diǎn)vi在第l+1層神經(jīng)網(wǎng)絡(luò)上的向量表示:
其中,W表示權(quán)重矩陣,cir表示歸一化常數(shù),Nir表示與節(jié)點(diǎn)vi具有r關(guān)系的鄰居節(jié)點(diǎn)的集合。
1.3? 鏈接預(yù)測(cè)
異質(zhì)圖上的鏈接預(yù)測(cè)是指判斷給定類型的節(jié)點(diǎn)之間是否存在邊。計(jì)算兩兩節(jié)點(diǎn)之間存在鏈接可能性的得分如式(2)所示:
其中,hi(k)與hj(k)表示節(jié)點(diǎn)vi與vj經(jīng)過(guò)多層圖神經(jīng)網(wǎng)絡(luò)的向量表示,?表示計(jì)算節(jié)點(diǎn)vi與vj之間鏈接可能性得分的函數(shù)。
2? 基于R-GCN的lncRNA-疾病關(guān)聯(lián)預(yù)測(cè)
2.1? LMD異質(zhì)圖構(gòu)建
構(gòu)建LncRNA-MiRNA-Disease異質(zhì)圖,簡(jiǎn)稱LMD異質(zhì)圖。LMD異質(zhì)圖由lncRNA、miRNA和疾病三種類型的節(jié)點(diǎn)和描述這三種類型節(jié)點(diǎn)之間相似關(guān)系、關(guān)聯(lián)關(guān)系和相互作用關(guān)系的六種類型的邊組成。
2.1.1? 數(shù)據(jù)準(zhǔn)備
為構(gòu)建LMD異質(zhì)圖,從LncRNADisease v2.0數(shù)據(jù)庫(kù)[7]和Lnc2Cancer v3.0數(shù)據(jù)庫(kù)[8]下載了實(shí)驗(yàn)證實(shí)的lncRNA-疾病關(guān)聯(lián)數(shù)據(jù)。將所有疾病名稱轉(zhuǎn)換為標(biāo)準(zhǔn)MESH疾病術(shù)語(yǔ),過(guò)濾重復(fù)數(shù)據(jù),刪除只有一個(gè)或沒(méi)有關(guān)聯(lián)的lncRNA以避免可能的噪聲。已知的lncRNA-miRNA關(guān)聯(lián)數(shù)據(jù)來(lái)自Encori數(shù)據(jù)庫(kù)[9]和NPInter v4.0數(shù)據(jù)庫(kù)[10]。類似地,從lncRNA-miRNA關(guān)聯(lián)中消除冗余數(shù)據(jù),僅保留lncRNA -疾病關(guān)聯(lián)數(shù)據(jù)中的lncRNA和miRNA-疾病關(guān)聯(lián)數(shù)據(jù)中的miRNA。從HMDD v3.2數(shù)據(jù)庫(kù)[11]中獲得了miRNA-疾病關(guān)聯(lián)數(shù)據(jù),篩選出了在生物學(xué)研究中更有價(jià)值的與疾病有因果關(guān)系的miRNA。
2.1.2? 相似性計(jì)算
構(gòu)建LMD異質(zhì)圖時(shí),計(jì)算了相同類型節(jié)點(diǎn)之間的相似性分?jǐn)?shù),從而確定相同類型節(jié)點(diǎn)在LMD異質(zhì)圖中是否有邊。首先,計(jì)算疾病節(jié)點(diǎn)之間的語(yǔ)義相似性。根據(jù)Wang等人[12]提出的方法,任何疾病都可以用唯一的有向無(wú)環(huán)圖(DAG)來(lái)表示。DAG中的節(jié)點(diǎn)代表疾病術(shù)語(yǔ),具有層次關(guān)系。通過(guò)計(jì)算疾病術(shù)語(yǔ)的語(yǔ)義值,以及兩個(gè)DAG中常見(jiàn)術(shù)語(yǔ)的語(yǔ)義值,可以計(jì)算疾病節(jié)點(diǎn)之間的相似性分?jǐn)?shù)。計(jì)算疾病術(shù)語(yǔ)t對(duì)疾病A的貢獻(xiàn)值如式(3)所示:
其中,Δ表示語(yǔ)義衰減因子,表明在疾病di的DAG圖中,當(dāng)疾病di的某個(gè)祖先疾病節(jié)點(diǎn)距離di越遠(yuǎn)時(shí),其對(duì)di的語(yǔ)義貢獻(xiàn)值越小。隨后,由式(4)計(jì)算出疾病di的語(yǔ)義貢獻(xiàn)值,式(5)根據(jù)疾病di和疾病dj的DAG圖,計(jì)算出di與dj的語(yǔ)義相似性:
對(duì)于疾病di與dj,如果通過(guò)上述方法計(jì)算出的語(yǔ)義相似度大于0,則在LMD異質(zhì)圖中為它們添加一條邊。
基于功能相似的lncRNA通常與相似的疾病相關(guān)的理論,Chen等人[13]計(jì)算了lncRNA之間的功能相似性。將D(li)和D(lj)分別定義為與lncRNAli和lncRNAlj相互關(guān)聯(lián)的疾病組,計(jì)算D(li)和D(lj)之間的相似性,作為lncRNAli和lncRNAlj之間的功能相似性。假設(shè)疾病d與li關(guān)聯(lián),則d與疾病組D(lj)之間的相似性計(jì)算如式(6)所示,由此,lncRNAli和lncRNAlj之間的功能相似性計(jì)算如式(7)所示:
如果兩兩lncRNA的相似性分?jǐn)?shù)大于0,則在LMD異質(zhì)圖中添加一條li與lj之間的邊。
按照上述類似的方法,可以計(jì)算出兩兩miRNA之間的功能相似性。假設(shè)miRNAmi與miRNAmj分別與疾病組D(mi)、D(mj)關(guān)聯(lián),則mi與mj的功能相似性可由式(8)和式(9)計(jì)算得到:
類似地,如果兩個(gè)miRNA之間的相似性大于0,則在LMD異質(zhì)圖添加一條(mi,mj)無(wú)向邊。
2.1.3? 數(shù)據(jù)整合
整合從數(shù)據(jù)庫(kù)中下載的已知lncRNA-疾病關(guān)聯(lián)、lncRNA-miRNA相互作用、miRNA-疾病關(guān)聯(lián),以及計(jì)算出的lncRNA-lncRNA相似性、miRNA-miRNA相似性、疾病-疾病相似性,構(gòu)建LMD異質(zhì)圖。圖中各類型節(jié)點(diǎn)的數(shù)量如表1所示,各類型的邊的數(shù)量如表2所示。
2.2? LMD異質(zhì)圖節(jié)點(diǎn)特征獲取
將構(gòu)建的LMD異質(zhì)圖輸入利用R-GCN模型,從而獲取的節(jié)點(diǎn)表示向量。如圖1所示,以節(jié)點(diǎn)lncRNAl1為例,根據(jù)lncRNA-lncRNA相似關(guān)系,聚合節(jié)點(diǎn)l2和l3的表示向量;根據(jù)lncRNA-疾病關(guān)聯(lián)關(guān)系,聚合節(jié)點(diǎn)d2和d3的表示向量;根據(jù)lncRNA-miRNA的相互作用關(guān)系,聚合節(jié)點(diǎn)m2和m3的表示向量;最后,將節(jié)點(diǎn)自連接作為一種特殊的關(guān)系,整合l1自身的表示向量。將上述l1的鄰居節(jié)點(diǎn)以及l(fā)1自身的表示向量經(jīng)過(guò)激活函數(shù)得到更新后的表示向量。同理,在LMD異質(zhì)圖上更新其他lncRNA節(jié)點(diǎn)、miRNA節(jié)點(diǎn)、疾病節(jié)點(diǎn)的表示向量。
2.3? lncRNA-疾病關(guān)聯(lián)預(yù)測(cè)
將R-GCN獲取的LMD異質(zhì)圖中的lncRNA節(jié)點(diǎn)、疾病節(jié)點(diǎn)拼接形成lncRNA-疾病節(jié)點(diǎn)對(duì)向量;同時(shí),根據(jù)已知的lncRNA-疾病關(guān)聯(lián)進(jìn)行負(fù)采樣(如:隨機(jī)采樣k個(gè)不與lncRN l1關(guān)聯(lián)的疾病節(jié)點(diǎn)),將負(fù)采樣得到的節(jié)點(diǎn)繪制成子圖,由R-GCN獲取節(jié)點(diǎn)表示向量后,拼接形成lncRNA-疾病節(jié)點(diǎn)對(duì)向量。分別將正負(fù)樣本的lncRNA-疾病節(jié)點(diǎn)對(duì)向量輸入多層感知機(jī),得到lncRNA-疾病關(guān)聯(lián)的得分。
3? 實(shí)驗(yàn)結(jié)果與分析
3.1? 評(píng)價(jià)指標(biāo)與評(píng)估方法
以受試者工作特征曲線下面積(Area Under Receiver Operating Characteristic curve, AUROC)和PR曲線下面積(Area Under Precision–Recall curve, AUPR)作為評(píng)估指標(biāo),采用五折交叉驗(yàn)證方法對(duì)RGCNLDA模型的性能進(jìn)行評(píng)估。將樣本集平均分為5份,依次選取一份樣本集用于驗(yàn)證,剩余4份樣本集用于訓(xùn)練,取5次實(shí)驗(yàn)的平均結(jié)果作為該分類器的性能指標(biāo)。
3.2? 參數(shù)設(shè)置
本文基于PyTorch框架實(shí)現(xiàn)RGCNLDA模型,訓(xùn)練節(jié)點(diǎn)維度為64維,使用Adam優(yōu)化器,R-GCN網(wǎng)絡(luò)的層數(shù)為2層,負(fù)采樣節(jié)點(diǎn)數(shù)為5,學(xué)習(xí)率為0.001,訓(xùn)練150輪次。
3.3? 對(duì)比實(shí)驗(yàn)
將RGCNLDA模型與其他3種預(yù)測(cè)lncRNA-疾病關(guān)聯(lián)的先進(jìn)模型MFLDA[14]、TPGLDA[15]、SDLDA[16]在同一數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),五折交叉驗(yàn)證下的ROC曲線和AUC值如圖2所示。
由圖2可知,RGCNLDA模型在4種方法中具有最優(yōu)的預(yù)測(cè)性能。五折交叉驗(yàn)證下的平均AUC值對(duì)比TPGLDA模型、MFLDA模型、SDLDA模型分別提升了7.11%、16.31%、5.06%。MFLDA模型和TPGLDA模型雖然整合了異構(gòu)生物源的數(shù)據(jù),但沒(méi)有充分挖掘lncRNA節(jié)點(diǎn)和疾病節(jié)點(diǎn)的非線性特征;SDLDA模型雖然利用了矩陣分解和深度學(xué)習(xí)提取節(jié)點(diǎn)非線性特征,但沒(méi)有考慮到多源數(shù)據(jù)整合。由此可見(jiàn),RGCNLDA模型具有良好的預(yù)測(cè)性能。
4? 結(jié)? 論
研究表明,lncRNA在疾病的產(chǎn)生和發(fā)展過(guò)程中發(fā)揮著至關(guān)重要的作用,因此,設(shè)計(jì)高效的預(yù)測(cè)模型研究潛在的lncRNA-疾病關(guān)聯(lián)有助于理解疾病的產(chǎn)生原理并輔助醫(yī)護(hù)人員有針對(duì)性地開(kāi)展疾病預(yù)防和治療工作。本文提出RGCNLDA模型,首先整合lncRNA、疾病、miRNA多源數(shù)據(jù)構(gòu)建異質(zhì)圖,并根據(jù)節(jié)點(diǎn)類型不同以及節(jié)點(diǎn)之間的不同關(guān)系訓(xùn)練R-GCN網(wǎng)絡(luò),充分挖掘異質(zhì)圖中節(jié)點(diǎn)特征,最后使用多層感知機(jī)為lncRNA-疾病節(jié)點(diǎn)對(duì)進(jìn)行打分,得到潛在的lncRNA-疾病關(guān)聯(lián)。五折交叉驗(yàn)證的AUC值表明本模型具有良好的預(yù)測(cè)性能。
參考文獻(xiàn):
[1] TAFT R J,PANG K C,MERCER T R, et al. Non-coding RNAs: regulators of disease [J]. J Pathol,2010,220(2):126-139.
[2] JOHNSON R. Long non-coding RNAs in Huntington's disease neurodegeneration [J] Neurobiol Dis,2012,46:245-254.
[3] CHEN X,YAN G Y. Novel human lncRNA-disease association inference based on lncRNA expression profiles [J].Bioinformatics,2013,29(20):2617-2624.
[4] YANG Q,LI X K. BiGAN: LncRNA-disease association prediction based on bidirectional generative adversarial network [J/OL].BMC Bioinformatics,2021,22[2022-11-26].https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-021-04273-7.
[5] WANG Y T,JUAN L R,PENG J J,et al. LncDisAP: a computation model for LncRNA-disease association prediction based on multiple biological datasets [J/OL].BMC Bioinformatics,2019,20[2022-11-22].https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-019-3081-1.
[6] HU J L,GAO Y Q,LI J, et al. A novel algorithm based on bi-random walks to identify disease-related lncRNAs [J/OL].BMC Bioinformatics,2019,20[2022-11-22].https://pubmed.ncbi.nlm.nih.gov/31760932/.
[7] BAO Z Y,YANG Z,HUANG Z,et al. LncRNADisease 2.0: an updated database of long non-coding RNA-associated disease [J].Nucleic Acids Res,2019,47(D1):D1034-D1037.
[8] GAO Y,SHANG S P,GUO S,et al. Lnc2Cancer 3.0: an updated resource for experimentally supported lncRNA/circRNA cancer associations and web tools based on RNA-seq and scRNA-seq data[J]. Nucleic Acids Res,2021,49(D1):D1251-D1258.
[9] LI J H,LIU S,ZHOU H,et al. starBase v2.0: decoding miRNA-ceRNA, miRNA-ncRNA and protein-RNA interaction networks from large-scale CLIP-Seq data [J]. Nucleic Acids Res,2014,42(Database issue):D92-D97.
[10] TENG X Y,CHEN X M,XUE H,et al. NPInter v4.0: an integrated database of ncRNA interactions [J].Nucleic Acids Res,2020,48(D1):D160–D165.
[11] HUANG Z,SHI J C,GAO Y X,et al. HMDD v3.0: a database for experimentally supported human microRNA-disease associations [J].Nucleic Acids Res,2019,47(D1):D1013-D1017.
[12] WANG D,WANG J,LU M,et al. Inferring the human microRNA functional similarity and functional network based on microRNA-associated diseases [J].Bioinformatics,2010,26:1644-1650.
[13] CHEN X,YAN C C,LUO C,et al. Constructing lncRNA functional similarity network based on lncRNA-disease associations and disease semantic similarity [J/OL]. Scientific Reports, 2015, 5[2022-11-22].https://www.nature.com/articles/srep11338.
[14] Fu GY, Wang J, LUO C, et al. Matrix factorization-based data fusion for the prediction of lncRNA–disease associations [J]. Bioinformatics,2018,34(9):1529-1537.
[15] FU G Y,WANG J,LUO C,et al. TPGLDA: Novel prediction of associations between lncRNAs and diseases via lncRNA-disease-gene tripartite graph [J].Scientific Reports,2018,8(1):1-11.
[16] ZENG M,LU C Q,ZHANG F H,et al. SDLDA: lncRNA-disease association prediction based on singular value decomposition and deep learning [J].Methods,2020,179:73-80.
作者簡(jiǎn)介:杜曉昕(1983—),女,漢族,江蘇徐州人,教授,碩士研究生,研究方向:生物醫(yī)學(xué)大數(shù)據(jù)分析與處理;羅金琦(1997—),女,漢族,四川綿陽(yáng)人,碩士在讀,研究方向:臨床醫(yī)學(xué)大數(shù)據(jù)挖掘;金梅(1977—),女,漢族,遼寧鞍山人,講師,碩士研究生,研究方向:機(jī)器學(xué)習(xí);王振飛(1999—),男,漢族,山東省濰坊人,碩士在讀,研究方向:機(jī)器學(xué)習(xí)與群智能優(yōu)化算法;周薇(1999—),女,漢族,河北定州人,碩士在讀,研究方向:群智能優(yōu)化算法。