趙 靜,李浩琳,王會(huì)青,王 彬
(太原理工大學(xué)信息與計(jì)算機(jī)學(xué)院, 太原 030600)
miRNA 是一類長度約為20 個(gè)核苷酸的非編碼RNA[1],廣泛存在于真核生物中,并在許多生物過程中發(fā)揮著至關(guān)重要的作用,如早期細(xì)胞生長、發(fā)育、增殖、分化、腫瘤侵襲和細(xì)胞凋亡等[1-3]。突變或生物功能障礙的miRNA 可能會(huì)導(dǎo)致疾病的發(fā)生。Calin等[4]通過研究miR15 和miR16 的頻繁缺失和下調(diào)證明了miRNA 水平的降低與慢性淋巴細(xì)胞白血病之間存在顯著相關(guān)性,Yang 等[5]研究發(fā)現(xiàn)腫瘤的發(fā)生或凋亡依賴于miRNA 的調(diào)控。隨著 miRNA 研究的發(fā)展,miRNA 與疾病的關(guān)聯(lián)已擴(kuò)展到多種疾病,包括白血病[6]、肺癌[7]和乳腺癌[8]等。因此,研究miRNA與疾病之間的關(guān)聯(lián)有助于從分子水平了解疾病的發(fā)病機(jī)制,對(duì)于研究疾病的預(yù)后、診斷、評(píng)估和治療具有重要意義[9]。
在miRNA-疾病關(guān)聯(lián)預(yù)測方面,大多數(shù)研究方法采用miRNA 功能相似性和疾病語義相似性作為輸入,進(jìn)行miRNA-疾病關(guān)聯(lián)預(yù)測。Zhao 等[10]基于miRNA 功能相似性、疾病語義相似性,采用最近鄰與SVM 對(duì)miRNA-疾病對(duì)加權(quán)投票,以預(yù)測miRNA-疾病關(guān)聯(lián)。Chen 等[11]基于miRNA 功能相似性、疾病語義相似性構(gòu)建決策樹,并級(jí)聯(lián)多個(gè)決策樹進(jìn)行miRNA-疾病關(guān)聯(lián)預(yù)測。然而上述方法僅利用了miRNA 功能相似性和疾病語義相似性,未利用miRNA 序列相似性、疾病功能相似性和漢明相似性,忽略了miRNA 和疾病不同相似性信息間的潛在關(guān)聯(lián),影響了miRNA-疾病關(guān)聯(lián)預(yù)測性能。
早期miRNA-疾病關(guān)聯(lián)預(yù)測依賴于傳統(tǒng)生物實(shí)驗(yàn),其過程復(fù)雜、昂貴且耗時(shí),因此基于計(jì)算的方法被提出,用于miRNA-疾病關(guān)聯(lián)預(yù)測。目前基于計(jì)算的方法可分為基于矩陣分解的方法和基于機(jī)器學(xué)習(xí)的方法?;诰仃嚪纸獾姆椒ㄍㄟ^將miRNA 和疾病相似矩陣映射到底層子空間來獲得線性特征,從而挖掘miRNA 和疾病間深層的關(guān)聯(lián)信息。Gao 等[12]使用圖正則化L2,1非負(fù)矩陣分解方法來推斷潛在的 miRNA-疾病關(guān)聯(lián)。Chen 等[13]基于已知關(guān)聯(lián)以及miRNA 和疾病的相似性矩陣,提出歸納矩陣補(bǔ)全模型預(yù)測缺失的miRNA-疾病關(guān)聯(lián)?;跈C(jī)器學(xué)習(xí)的方法可以利用非線性函數(shù)自動(dòng)學(xué)習(xí)miRNA 和疾病相似性信息中的非線性特征,實(shí)現(xiàn)miRNA-疾病關(guān)聯(lián)的高效預(yù)測。Peng 等[14]基于異構(gòu)網(wǎng)絡(luò)提出MDACNN 方法,使用自動(dòng)編碼器提取miRNA 和疾病的非線性特征并采用CNN 預(yù)測miRNA-疾病關(guān)聯(lián)。Li 等[15]使用圖卷積網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)miRNA 和疾病的非線性特征進(jìn)行miRNA-疾病關(guān)聯(lián)預(yù)測。然而,基于矩陣分解的方法僅采用miRNA 和疾病的線性特征,基于機(jī)器學(xué)習(xí)的方法僅關(guān)注了miRNA 和疾病的非線性特征,兩者忽略了miRNA 和疾病的線性特征與非線性特征間的信息互補(bǔ)性,降低了miRNA-疾病關(guān)聯(lián)預(yù)測性能。
近年來,相關(guān)研究提出將矩陣分解方法與機(jī)器學(xué)習(xí)相結(jié)合,融合線性特征和非線性特征,并已成功應(yīng)用于生物信息領(lǐng)域。Zeng 等[16]使用SVD 和深度網(wǎng)絡(luò)融合lncRNA 和疾病的線性和非線性特征,在關(guān)聯(lián)矩陣的基礎(chǔ)上預(yù)測 lncRNA-疾病關(guān)聯(lián),取得了較好的結(jié)果。Xie 等[17]基于多源相似性,使用SVD 以及深度矩陣分解融合cirRNA 和疾病的線性特征和非線性特征,提高了cirRNA-疾病關(guān)聯(lián)預(yù)測精度。因此將矩陣分解方法與機(jī)器學(xué)習(xí)相結(jié)合,可以實(shí)現(xiàn)線性特征和非線性特征互補(bǔ),有助于潛在miRNA-疾病關(guān)聯(lián)預(yù)測。
基于上述問題,本文提出了一種miRNA-疾病關(guān)聯(lián)預(yù)測模型GCNMSF。GCNMSF 基于miRNA 功能相似性和疾病語義相似性,引入了miRNA 序列相似性、疾病功能相似性和漢明相似性,采用相似性核融合方法(SKF)分別融合miRNA 功能和疾病語義等多源相似性信息,捕獲了miRNA 和疾病不同相似性信息間的潛在關(guān)聯(lián),構(gòu)建了更豐富的初始特征空間;然后采用兩路圖卷積(GCN)分別學(xué)習(xí)miRNA 和疾病的非線性拓?fù)涮卣?,嵌入卷積注意塊(CBAM)從通道和空間兩個(gè)層面自適應(yīng)優(yōu)化非線性特征空間,并引入非負(fù)矩陣分解方法(NMF)學(xué)習(xí)miRNA 和疾病的線性特征;最后,融合miRNA、疾病的線性特征和非線性特征重構(gòu)miRNA-疾病關(guān)聯(lián)矩陣,實(shí)現(xiàn)miRNA-疾病關(guān)聯(lián)預(yù)測。
本文從miRNA 疾病數(shù)據(jù)庫HMDDv2.0[18-19]中下載了5 430 個(gè)miRNA-疾病關(guān)聯(lián)對(duì),包含495 種miRNA和383 種疾病。然后將495 種miRNA 和383 種疾病構(gòu)成二維miRNA-疾病關(guān)聯(lián)矩陣Y∈{0,1}m×n。如果miRNAmi與疾病dj之間存在關(guān)聯(lián),那么Y(i,j)=1 ,否則Y(i,j)=0 。
本文采用miRNA 功能相似性、miRNA 序列相似性、疾病語義相似性、疾病功能相似性以及漢明相似性作為多源相似性數(shù)據(jù),miRNA 功能相似性、miRNA 序列相似性、疾病語義相似性、疾病功能相似性均從公開數(shù)據(jù)庫獲得,miRNA、疾病漢明相似性基于miRNA-疾病關(guān)聯(lián)相似性計(jì)算其漢明距離獲得。miRNA 和疾病多源相似性數(shù)據(jù)如表1 所示。
表1 miRNA 和疾病多源相似性數(shù)據(jù)Table 1 Multi-source similarity data of miRNA and disease
基于相似性較高的miRNA 趨向于與相似的疾病相關(guān)聯(lián)這一假設(shè)[20],本文提出了miRNA-疾病關(guān)聯(lián)預(yù)測模型GCNMSF,模型架構(gòu)如圖1 所示。
圖1 GCNMSF 模型架構(gòu)Fig.1 Model framework of the GCNMSF
融合miRNA 和疾病的多源相似性,可以實(shí)現(xiàn)不同miRNA 和疾病相似性間的信息互補(bǔ),豐富初始特征空間。本文采用SKF 方法[20]融合miRNA 功能相似性、序列相似性、漢明相似性為miRNA 融合相似性信息,融合疾病語義相似性、功能相似性、漢明相似性為疾病融合相似性信息,從而捕獲miRNA 和疾病不同相似性信息間的潛在關(guān)聯(lián),提高miRNA-疾病關(guān)聯(lián)預(yù)測精度。
在SKF 過程中,Km,l和Kd,l分別表示miRNA 相似性矩陣和疾病相似性矩陣,其中l(wèi)=1,2,3 。對(duì)于miRNA 每個(gè)原始相似性矩陣Km,l,SKF 首先進(jìn)行歸一化處理,得到歸一化矩陣Pm,l。然后,基于Km,l中每個(gè)節(jié)點(diǎn)mj的鄰接節(jié)點(diǎn)集Ni構(gòu)建稀疏矩陣Sm,l,miRNA 稀疏矩陣構(gòu)建過程如式(1)所示。
基于歸一化矩陣和稀疏矩陣,每個(gè)miRNA 原始相似性矩陣Km,l經(jīng)過t次迭代獲得優(yōu)化后的相似性矩陣,l=1,2,3 ,然后融合不同miRNA 相似性矩陣的得到miRNA 多源融合相似性矩陣Km,具體過程如式(2)所示。
式中:α1、α2均為SKF 方法中的偏置量。
此外,為了消除多源相似性矩陣融合過程中存在的噪聲,SKF 在miRNA 多源融合相似性矩陣Km中添加了權(quán)重矩陣Wm,其構(gòu)建如式(3)所示。
矩陣分解能夠通過隱語義學(xué)習(xí)數(shù)據(jù)的深層特征關(guān)聯(lián),被廣泛應(yīng)用于生物數(shù)據(jù)分析和計(jì)算機(jī)領(lǐng)域[21-22]。由于NMF 的非負(fù)性和高效性,本文采取NMF 方法提取miRNA 和疾病的線性特征。以miRNA-疾病關(guān)聯(lián)矩陣Y∈Rm×n作為輸入,使用NMF將其分解為兩個(gè)非負(fù)低秩矩陣Um∈ Rm×r和Vd∈Rn×r,使?jié)M足Y≈,其中r≤min (m,n) 。因此miRNA的線性特征矩陣Um和疾病的線性特征矩陣Vd可通過NMF 分解得到,目標(biāo)函數(shù)如式(4)所示,其中,||*||F表示矩陣 * 的 Frobenius 范數(shù)。
2.3.1 GCN GCN 利用卷積核學(xué)習(xí)miRNA 和疾病的拓?fù)浣Y(jié)構(gòu)信息,可以補(bǔ)充miRNA 和疾病的非線性特征中的拓?fù)浣Y(jié)構(gòu)信息[23-24]。本文將經(jīng)過相似性核融合得到的miRNA 多源融合相似性矩陣和疾病多源融合相似性矩陣輸入到GCN 中學(xué)習(xí)非線性拓?fù)涮卣鳌?/p>
GCN 使用圖的拉普拉斯矩陣的特征值和特征向量來提取數(shù)據(jù)的拓?fù)湫畔?。?jīng)過拉普拉斯矩陣轉(zhuǎn)換和特征分解,第t-1 步的miRNA 多源融合相似性矩陣可以轉(zhuǎn)化為,如公式(5)所示。其中,Λm=diag(λ1,λ2,λ3,···,λm)表示特征值矩陣。
相似地,疾病的非線性拓?fù)涮卣骺杀硎緸?
2.3.2 卷積注意塊優(yōu)化特征空間 不同節(jié)點(diǎn)具有不同信息,而GCN 在特征提取過程中不同節(jié)點(diǎn)間共享權(quán)重,難以提取重要節(jié)點(diǎn)特征。因此本文在GCN 中添加CBAM[26],CBAM 包含通道注意力模塊和空間注意力模塊,可以通過通道和空間兩個(gè)層面研究不同特征的重要性差異,賦予拓?fù)湎嗨频泥徲蚋蟮臋?quán)值,以此實(shí)現(xiàn)特征的自適應(yīng)優(yōu)化,提升網(wǎng)絡(luò)節(jié)點(diǎn)的表示能力。
輸入特征Fx首先通過通道注意力模塊生成一維通道注意力圖Mc。通道注意力的具體架構(gòu)如圖2 所示。
圖2 CBAM 通道注意模塊Fig.2 Channel attention module in the CBAM
在通道注意力模塊中,F(xiàn)x首先通過平均池化和最大池化分別生成和,然后將和輸入到共享網(wǎng)絡(luò)MLP 中,生成通道注意圖Mc∈RC×1×1,具體計(jì)算過程見公式(9):
通道注意圖Mc與原始特征矩陣Fx點(diǎn)乘 ? 得到,然后通過空間注意力模塊生成二維空間注意力圖Ms。空間注意力模塊具體架構(gòu)如圖3 所示。
圖3 CBAM 空間注意模塊Fig.3 Spatial attention module in the CBAM
最后,將空間注意力圖Ms與進(jìn)行點(diǎn)乘操作,得到經(jīng)過卷積注意塊優(yōu)化的特征。
在miRNA-疾病關(guān)聯(lián)預(yù)測階段,本文首先將miRNA 和疾病的線性特征和非線性特征進(jìn)行拼接,得到miRNA 特征和疾病特征Dnew=然后,采用矩陣補(bǔ)全的方法補(bǔ)全miRNA-疾病關(guān)聯(lián)矩陣,得到重構(gòu)miRNA-疾病關(guān)聯(lián)矩陣Z,如式(11)所示。
其中:Wm∈Rfm×r和Wd∈Rfd×r分別為將miRNA 和disease 特征映射到原始特征空間的低秩特征映射矩陣。
在誤差回溯過程中本文采用均方誤差損失函數(shù)。為了防止模型訓(xùn)練過程中GCN 的過平滑問題,本文在損失函數(shù)中添加偏置項(xiàng) α 調(diào)整陽性樣本與陰性樣本的損失比,以更好地訓(xùn)練模型。偏置損失公式如式(12)所示。
其中:Φ(·) 表示均方誤差損失;Y+和Y-分別表示miRNA-疾病關(guān)聯(lián)矩陣中的已知關(guān)聯(lián)集和未知關(guān)聯(lián)集。
在模型訓(xùn)練優(yōu)化過程中,對(duì)于非線性拓?fù)涮卣鲗W(xué)習(xí),本文設(shè)置GCN 層數(shù)為2,各層節(jié)點(diǎn)數(shù)為[256,256],并將卷積注意塊CBAM 嵌入到兩層神經(jīng)網(wǎng)絡(luò)之間;對(duì)于線性特征學(xué)習(xí),本文設(shè)置NMF 迭代次數(shù)為1,輸出維度256,以保證線性和非線性特征的均衡;對(duì)于特征優(yōu)化,本文選擇Adam 優(yōu)化器對(duì)均方誤差損失函數(shù)進(jìn)行優(yōu)化,以獲取GCN 的最優(yōu)特征,并設(shè)置學(xué)習(xí)率為0.000 1。
在miRNA-疾病關(guān)聯(lián)預(yù)測和參數(shù)選擇過程中,本文基于miRNA-疾病關(guān)聯(lián)數(shù)據(jù)集,將其中5 430 個(gè)已知miRNA-疾病關(guān)聯(lián)作為陽性數(shù)據(jù)集,184 155 個(gè)未知miRNA-疾病關(guān)聯(lián)作為陰性數(shù)據(jù)集,采用五折交叉驗(yàn)證評(píng)估本文模型GCNMSF 的性能。在每折交叉驗(yàn)證中,將5 430 個(gè)陽性樣本劃分為5 個(gè)子集,選取其中1 個(gè)子集作為測試集,其余作為訓(xùn)練集;在184 155個(gè)陰性樣本中,選取與陽性訓(xùn)練樣本相同數(shù)量的陰性樣本作為測試集,其余陰性樣本作為訓(xùn)練集。
在模型預(yù)測性能的評(píng)估過程中,本文采用AUC、AUPR 和F1_score 統(tǒng)計(jì)度量指標(biāo)。AUPR 表示PR 曲線下面積,橫坐標(biāo)為召回率Recall,縱坐標(biāo)為精確率Precision。AUC 表示ROC 曲線下面積,橫坐標(biāo)是偽陽性率(FPR),縱坐標(biāo)是真陽性率(TPR)。TPR、FPR、Recall、Precision 和F1_score 計(jì)算公式如下所示。
其中:TP 為正樣本被正確識(shí)別的數(shù)量;FP 為負(fù)樣本被預(yù)測為正樣本的數(shù)量;TN 為負(fù)樣本被正確識(shí)別的數(shù)量,TP 為正樣本被預(yù)測為負(fù)樣本的數(shù)量。
在本文模型GCNMSF 性能評(píng)估之前,需要對(duì)損失函數(shù)中的偏置項(xiàng) α 以及GCN 層數(shù)進(jìn)行確定。本文基于miRNA-疾病關(guān)聯(lián)數(shù)據(jù)集,分別對(duì)偏置項(xiàng) α 以及GCN 層數(shù)進(jìn)行五折交叉驗(yàn)證。偏置項(xiàng) α 是損失函數(shù)中陽性樣本和陰性樣本的損失比,其取值區(qū)間為(0,1)。取步長0.1 對(duì)不同 α 值進(jìn)行驗(yàn)證,結(jié)果如圖4(a)所示,α=0 表示損失函數(shù)未添加偏置 α 。當(dāng)偏置項(xiàng) α 為0.4 時(shí),AUC 值為0.945 2,達(dá)到最優(yōu),表明適當(dāng)調(diào)整陽性樣本和陰性樣本的損失比有利于模型的預(yù)測。然后,保持偏置項(xiàng) α=0.4 不變,分別取GCN 層數(shù)為1、2、3,依次對(duì)GCN 的不同層數(shù)進(jìn)行驗(yàn)證,結(jié)果如圖4(b)所示。由圖可見,當(dāng)GCN 層數(shù)為2 時(shí),模型性能最優(yōu),表明圖卷積層數(shù)的加深可能會(huì)導(dǎo)致過平滑,降低模型預(yù)測能力。因此,本文選擇偏置項(xiàng) α 為0.4,GCN 層數(shù)為2。
圖4 GCNMSF 模型的參數(shù)選擇實(shí)驗(yàn)結(jié)果Fig.4 Experimental results of the GCNMSF model with different parameters
本文模型GCNMSF 引入了多源相似性信息,并融合了miRNA 和疾病的線性特征和非線性特征預(yù)測miRNA-疾病關(guān)聯(lián)。為了驗(yàn)證多源相似性的有效性以及線性特征和非線性特征的必要性,引入了消融實(shí)驗(yàn)。
在miRNA 和疾病的多源相似性消融實(shí)驗(yàn)中,以本文模型GCNMSF 作為基線模型,對(duì)不同miRNA 和疾病相似性組合進(jìn)行五折交叉驗(yàn)證,結(jié)果如表2 所示。表2 中第一列表示不同相似性組合,其中MFS表示miRNA 功能相似性,MSS 表示miRNA 序列相似性,DSS 表示疾病語義相似性,DFS 表示疾病功能相似性,HMS 表示漢明相似性。
表2 不同相似性組合消融實(shí)驗(yàn)數(shù)據(jù)表Table 2 Ablation experiments with different similarity combinations
從表2 可以看出,采用miRNA 和疾病的單源相似性時(shí)的各項(xiàng)指標(biāo)均低于采用多源相似性時(shí)的指標(biāo),這是因?yàn)楦呦嗨菩缘?miRNA 往往與相似的疾病相關(guān),而多源相似性融合可以學(xué)習(xí)多種不同相似性信息間的潛在關(guān)聯(lián),而且漢明相似性融入了拓?fù)浣Y(jié)構(gòu)信息,從而豐富了初始特征空間,提高了miRNA-疾病關(guān)聯(lián)預(yù)測精度。在線性特征和非線性特征消融性實(shí)驗(yàn)中,分別對(duì)線性特征學(xué)習(xí)模塊GCN、非線性特征學(xué)習(xí)模塊NMF 以及本文模型GCNMSF 進(jìn)行五折交叉驗(yàn)證。結(jié)果如圖5 所示。
圖5 線性和非線性特征學(xué)習(xí)模塊消融實(shí)驗(yàn)結(jié)果Fig.5 Results of linear and nonlinear feature learning module ablation experiments
由圖5 可得,本文模型GCNMSF 融合miRNA和疾病的線性特征和非線性特征,性能優(yōu)于僅使用線性特征的NMF 模塊和僅使用非線性特征的GCN 模塊,這表明線性特征和非線性特征的融合可以實(shí)現(xiàn)特征信息互補(bǔ),為miRNA-疾病關(guān)聯(lián)預(yù)測提供更豐富的特征表示。
為了評(píng)估本文模型GCNMSF 的有效性,本文選取了 ABMDA[10]、EDTMDA[11]、IMCMDA[13]、NIMCGCN[15]、DMA[27]、TCRWMDA[28]作為對(duì)比方法,并在miRNA-疾病數(shù)據(jù)集上進(jìn)行五折交叉驗(yàn)證,,結(jié)果如圖6 所示。其中,IMCMDA、TCRWMDA 基于矩陣分解和隨機(jī)游走,ABMDA、EDTMDA 基于傳統(tǒng)機(jī)器學(xué)習(xí),DMA、NIMCGCN 基于深度學(xué)習(xí)。
圖6 不同方法五折交叉實(shí)驗(yàn)結(jié)果Fig.6 Five-fold-cross experiments of different methods
由圖6 可得,本文模型GCNMSF 在五折交叉實(shí)驗(yàn)中的AUC 和AUPR 值為0.945 2 和0.947 0,均優(yōu)于對(duì)比方法。DMA、ABMDA、EDTMDA、TCRWMDA、IMCMDA、NIMCGCN 均采用miRNA 功能相似性和疾病語義相似性,未融合miRNA 序列和疾病功能等多源相似性信息,這表明融合多源相似性信息可以為miRNA-疾病關(guān)聯(lián)預(yù)測提供更豐富的初始特征信息,有利于miRNA-疾病關(guān)聯(lián)預(yù)測。而且上述對(duì)比方法僅采用miRNA 和疾病的線性特征或非線性特征進(jìn)行預(yù)測,未融合線性特征和非線性特征,這表明融合線性特征和非線性特征可以實(shí)現(xiàn)信息互補(bǔ),豐富miRNA 和疾病的特征表示,提高miRNA-疾病預(yù)測性能。綜上可知,在miRNA-疾病關(guān)聯(lián)預(yù)測中,本文模型通過融合多源相似性信息以及線性特征和非線性特征取得了更高的結(jié)果,能夠更有效地預(yù)測miRNA-疾病關(guān)聯(lián)。
為了進(jìn)一步驗(yàn)證本文模型GCNMSF 對(duì)特定疾病的識(shí)別和預(yù)測能力,本文以乳腺癌、肝癌、結(jié)腸癌3 種常見疾病為例,選取ABMDA[10]、EDTMDA[11]、IMCMDA[13]、NIMCGCN[15]、DMA[27]、TCRWMDA[28]作為對(duì)比方法進(jìn)行驗(yàn)證,結(jié)果如圖7 所示。由圖7可知,本文模型GCNMSF 在3 種疾病上獲得的AUC 值均高于其他模型,進(jìn)一步表明本文模型在特定疾病的小樣本集上,能夠依據(jù)相似性數(shù)據(jù)的特征信息實(shí)現(xiàn)特定疾病相關(guān)miRNA 的預(yù)測,具有較好的穩(wěn)健性。
圖7 不同方法預(yù)測特定疾病的實(shí)驗(yàn)結(jié)果Fig.7 Experimental results of different methods on specific diseases prediction
為了進(jìn)一步驗(yàn)證本文模型GCNMSF 在真實(shí)案例中的準(zhǔn)確性,本文模型選取兩種常見疾病肺癌和乳腺癌進(jìn)行案例研究,并使用dbDEMCv3.0[29]和miR2Disease[30]數(shù)據(jù)庫進(jìn)行驗(yàn)證。
為了驗(yàn)證本文模型GCNMSF 在特定疾病未知miRNA-疾病關(guān)聯(lián)預(yù)測中的有效性,將GCNMSF 用于預(yù)測與肺癌相關(guān)的潛在miRNA,并將排名前50 的miRNAs 在dbDEMCv3.0 和miR2Disease 數(shù)據(jù)庫進(jìn)行驗(yàn)證。如果dbDEMCv3.0 和miR2Disease 數(shù)據(jù)庫中存在miRNA-肺癌關(guān)聯(lián),則表示預(yù)測成功,具體結(jié)果如表3 所示。表3 所示證明了肺癌前50 個(gè)相關(guān)miRNA中有46 個(gè)相關(guān)miRNA 在dbDEMCv3.0 和miR2Disease數(shù)據(jù)庫中得到了驗(yàn)證,hsa-mir-378a、hsa-mir-296、hsa-mir-151a 和 hsa-mir-520c 未在 dbDEMCv3.0 和miR2Disease 數(shù)據(jù)庫中得到相關(guān)文獻(xiàn)支持。肺癌的驗(yàn)證結(jié)果說明了本文模型GCNMSF 可以有效地預(yù)測特定疾病潛在miRNA-疾病關(guān)聯(lián)。
表3 肺癌相關(guān)miRNA 預(yù)測實(shí)驗(yàn)數(shù)據(jù)表Table 3 Predicted data of miRNAs associated with lung cancer
為進(jìn)一步驗(yàn)證本文模型GCNMSF 預(yù)測未知疾病miRNA-疾病關(guān)聯(lián)的性能,本文首先去除miRNA-疾病關(guān)聯(lián)矩陣中已知miRNA-乳腺癌關(guān)聯(lián),重新訓(xùn)練模型GCNMSF 并預(yù)測乳腺癌相關(guān)的miRNA。然后將排名前50 的miRNA 在dbDEMCv3.0 和miR2Disease數(shù)據(jù)庫進(jìn)行驗(yàn)證,前50 個(gè)相關(guān)miRNA 的預(yù)測和驗(yàn)證結(jié)果見表4。表4 表明乳腺癌前50 個(gè)相關(guān)miRNA均在dbDEMCv3.0 和miR2Disease 數(shù)據(jù)庫中得到了驗(yàn)證,預(yù)測精度為100%,表明本文模型GCNMSF 可在沒有任何已知miRNA 關(guān)聯(lián)的情況下,預(yù)測未知疾病與miRNA 的潛在關(guān)聯(lián)。
表4 乳腺癌相關(guān)miRNA 預(yù)測實(shí)驗(yàn)數(shù)據(jù)表Table 4 Predicted miRNAs associated with breast cancer
本文針對(duì)現(xiàn)有miRNA-疾病關(guān)聯(lián)研究考慮信息不全面以及特征提取方式單一的問題,提出了一種miRNA-疾病關(guān)聯(lián)預(yù)測模型GCNMSF。該模型引入miRNA 序列相似性、疾病功能相似性和漢明相似性,采用SKF 融合miRNA 和疾病多源相似性數(shù)據(jù),豐富初始特征空間;采用嵌入CBAM 的兩路圖卷積分別學(xué)習(xí)miRNA 和疾病的非線性特征,并引入NMF方法學(xué)習(xí)miRNA 和疾病的線性特征,融合miRNA和疾病的線性特征和非線性特征,實(shí)現(xiàn)信息互補(bǔ),最后利用融合的線性特征和非線性特征預(yù)測miRNA-疾病關(guān)聯(lián)。消融實(shí)驗(yàn)結(jié)果表明,多源相似性信息有助于miRNA、疾病信息互補(bǔ),豐富特征信息,而且相較單一線性特征或非線性特征,二者的結(jié)合更有利于miRNA-疾病關(guān)聯(lián)的預(yù)測。肺癌和乳腺癌的案例研究進(jìn)一步證實(shí)了本文模型的實(shí)際有效性。盡管本文模型GCNMSF 在miRNA-疾病預(yù)測中表現(xiàn)出較好的性能,但仍需要進(jìn)一步改進(jìn)。由于圖卷積特征提取時(shí)存在深度拓展局限性,因此本文將繼續(xù)探索其他深度學(xué)習(xí)技術(shù)在miRNA-疾病中的可應(yīng)用性。