賀興時(shí),李 錦,梁蕓蕓
(西安工程大學(xué) 理學(xué)院,陜西 西安 710048)
高血壓作為最普遍的慢性疾病,影響著全球1/4以上的人口[1],高血壓與心力衰竭、腎衰竭等一系列的疾病有關(guān)[2]。越來(lái)越多的人們?cè)馐芨哐獕旱睦_,雖然有α和β受體阻滯劑、利尿劑和腎素抑制劑等新的藥物,但這些藥物都有血管性水腫、腹瀉、皮疹等不同程度的副作用。因此,為減少或消除與高血壓相關(guān)的病痛,研發(fā)更安全、副作用小,可有效抑制高血壓的藥物意義重大。
深度學(xué)習(xí)[3]是機(jī)器學(xué)習(xí)中的一種新興技術(shù),近年來(lái)已廣泛應(yīng)用于生物信息學(xué)的研究[4-5]?;谟?jì)算方法的抗高血壓肽識(shí)別利用統(tǒng)計(jì)分析、數(shù)據(jù)挖掘方法提取蛋白質(zhì)的序列信息,并通過(guò)機(jī)器學(xué)習(xí)算法來(lái)識(shí)別預(yù)測(cè)。WANG等提出了一種通過(guò)偏最小二乘回歸方法識(shí)別蛋白質(zhì)的預(yù)測(cè)模型[6]。KUMAR等設(shè)計(jì)了基于氨基酸組分、原子組成和化學(xué)描述的模型,該模型使用支持向量機(jī)對(duì)多肽進(jìn)行預(yù)測(cè)[7]。WIN等提出了采用隨機(jī)森林結(jié)合多種計(jì)算方法預(yù)測(cè)AHTPs 的PAAP模型[8]。MANAVALAN等構(gòu)建了采用8種特征提取方法和集成分類器預(yù)測(cè)AHTPs 的mAHTPred模型[9]。ZHUANG等提出了基于預(yù)處理編碼算法和卷積神經(jīng)網(wǎng)絡(luò)捕獲抗AHTPs特征的模型[10]。SHI等提出一種新的AHTPs識(shí)別預(yù)測(cè)模型,該模型采用5種方法進(jìn)行特征提取,合并卷積神經(jīng)網(wǎng)絡(luò)和門控循環(huán)單元(gated recurrent units,GRU)為分類器對(duì)AHTPs進(jìn)行預(yù)測(cè)[11]。但這些模型存在識(shí)別精度低、過(guò)預(yù)測(cè)等缺點(diǎn)。
本文基于深度學(xué)習(xí)構(gòu)建iAHTPs-BiGRU的AHTPs識(shí)別模型。采用多源特征提取方法從不同維度提取肽序列的信息,包括新增強(qiáng)分組氨基酸組分(NEGAAC)、約簡(jiǎn)的二肽組分(RDPC)、二肽頻率與預(yù)期平均值之間的偏差(DDE)、氨基酸理化性質(zhì)的距離變換(AAP-DT)和BLOSUM62編碼,并將得到的特征信息輸入到雙向門控循環(huán)單元(BiGRU)中,識(shí)別蛋白質(zhì)序列是否是抗高血壓肽,并采用10-折交叉驗(yàn)證對(duì)基準(zhǔn)數(shù)據(jù)集和獨(dú)立數(shù)據(jù)集進(jìn)行性能評(píng)估。
為了開(kāi)發(fā)預(yù)測(cè)模型,方便與其他識(shí)別模型進(jìn)行比較,采用構(gòu)建的基準(zhǔn)數(shù)據(jù)集和獨(dú)立數(shù)據(jù)集[7]。正樣本使用KUMAR等構(gòu)造的抗高血壓肽非冗基準(zhǔn)余數(shù)據(jù)集[5],數(shù)據(jù)集中的所有序列均從數(shù)據(jù)庫(kù)AHTPDB[12]和BIOPEP[13]得到,且都是經(jīng)實(shí)驗(yàn)驗(yàn)證的正樣本序列。因?yàn)檩^短的序列難以生成有用的信息特征,所以刪除長(zhǎng)度小于5個(gè)氨基酸殘基的肽序列,剩余913條肽序列作為基準(zhǔn)數(shù)據(jù)集的正樣本。然后從Swiss-Prot中選擇913條隨機(jī)肽作為負(fù)樣本。獨(dú)立數(shù)據(jù)集是從AHTPDB和BIOPEP數(shù)據(jù)庫(kù)中通過(guò)人工提取實(shí)驗(yàn)驗(yàn)證的正樣本。此外,負(fù)樣本仍然是從Swiss-Prot中隨機(jī)肽產(chǎn)生。應(yīng)用CD-HIT[14]刪除獨(dú)立數(shù)據(jù)集中與基準(zhǔn)數(shù)據(jù)集中的序列一致度大于90%的序列,得到386個(gè)正樣本和386個(gè)負(fù)樣本。
在基準(zhǔn)數(shù)據(jù)集和獨(dú)立數(shù)據(jù)集中,小肽、中肽和大肽等肽序列的大小不同,但是在特征提取部分,部分方法需要相同長(zhǎng)度的肽序列。為使肽序列信息保持完整,根據(jù)最長(zhǎng)肽序列的長(zhǎng)度采用虛擬氨基酸“X”補(bǔ)齊所有序列。
1.2.1 NEGAAC方法
EGAAC將20種氨基酸分為5組[15],并已應(yīng)用于病毒翻譯后修飾位點(diǎn)預(yù)測(cè)[16]、賴氨酸琥珀?;稽c(diǎn)預(yù)測(cè)[17]。本文采用新的分組方法對(duì)EGAAC方法進(jìn)行改進(jìn),將20種氨基酸根據(jù)親疏水性分為6組[18],提出NEGAAC方法。新的分組為m1:R, D, E, N, Q, K, H;m2:L, I, V, A, M, F;m3:S, T, Y, W;m4:P;m5:G;m6:C。
使用滑動(dòng)窗口n沿著序列進(jìn)行掃描,NEGAAC計(jì)算公式為
式中:R(m,n)為基于NEGAAC的肽序列特征;W(m,n)為滑動(dòng)窗口n中第m組氨基酸的數(shù)量;L為肽序列長(zhǎng)度。通過(guò)式(1)得到(L-n+1)×6維的特征信息。
1.2.2 RDPC特征提取
RDPC是一種有效的特征提取方法,已應(yīng)用于抗癌肽的識(shí)別[19]。根據(jù)氨基酸化學(xué)結(jié)構(gòu)和極性將氨基酸分為r1:A, G, I, L, M, V;r2:F, W, Y;r3:H, K, R;r4:D, E;r5:C, N, P, Q, S, T等5組,即
(2)
式中:hi(i=1,2,…,25)為二肽出現(xiàn)的概率;ci為二肽的出現(xiàn)次數(shù)。
1.2.3 DDE特征表現(xiàn)
DDE特征表示方法[20]是將肽序列轉(zhuǎn)化為數(shù)值信息,已廣泛應(yīng)用于蛋白質(zhì)翻譯后的修飾位點(diǎn)[21]的預(yù)測(cè)。主要步驟如下:
第一步:計(jì)算蛋白質(zhì)序列二肽組分(D),計(jì)算公式為
(3)
式中:D(b,d)為氨基酸的二肽組分;wbd為氨基酸對(duì)b,d的數(shù)量。
第二步:計(jì)算肽序列的理論均值(M)和理論方差(V),計(jì)算公式為
(4)
(5)
式中:M(b,d)為肽序列的理論均值;V(b,d)為肽序列的理論方差;Ab和Ad分別為第1個(gè)氨基酸和第2個(gè)氨基酸的密碼子數(shù);Aw為氨基酸密碼子的總數(shù)。
第三步:由D、M、V計(jì)算肽序列的DDE,計(jì)算公式為
(6)
式中:PDDE為基于DDE的肽序列特征。
1.2.4 AAP-DT特征方法
根據(jù)氨基酸的9種理化性質(zhì)[22]將肽序列轉(zhuǎn)換為數(shù)值序列。對(duì)物理化學(xué)性質(zhì)的值進(jìn)行標(biāo)準(zhǔn)化,基于標(biāo)準(zhǔn)化之后的數(shù)據(jù),將每個(gè)肽序列轉(zhuǎn)換為一個(gè)性質(zhì)矩陣(A),即
A=(ai,j)L×9
(7)
式中:ai,j為第i個(gè)氨基酸的第j個(gè)理化性質(zhì)的值。最后根據(jù)距離變換方法將理化性質(zhì)矩陣轉(zhuǎn)換為肽序列的特征,即
(8)
式中:PAAP-DT為基于AAP-DT方法的氨基酸特征;j1與j2為2種理化性質(zhì)。根據(jù)肽序列的長(zhǎng)度,設(shè)ε的最大值為10。
1.2.5 BLOSUM62編碼
蛋白質(zhì)替換計(jì)分矩陣BLOSUM是計(jì)算氨基酸之間的替換相對(duì)頻率和概率,反映肽序列的進(jìn)化信息,BLOSUM62由一致度大于62%的序列計(jì)算得到,已應(yīng)用于原核生物賴氨酸乙?;A(yù)測(cè)[23]、肽識(shí)別[24]等領(lǐng)域。基于BLOSUM62矩陣,每個(gè)氨基酸可編碼為20維的特征向量。
為準(zhǔn)確識(shí)別AHTPs,采用深度學(xué)習(xí)構(gòu)建一個(gè)具有混合架構(gòu)的神經(jīng)網(wǎng)絡(luò)。BiGRU神經(jīng)網(wǎng)絡(luò)包含輸入層、BiGRU[25]、全連接層、dropout層和輸出層,將數(shù)字信息矩陣輸入到神經(jīng)網(wǎng)絡(luò)中。
BiGRU由前向?qū)W習(xí)和后向?qū)W習(xí)2層GRU[26]組成,故在BiGRU(記為XBiGRU)中,t時(shí)刻的隱藏狀態(tài),即
(9)
本文共設(shè)置3層BiGRU,每層的神經(jīng)元個(gè)數(shù)分別為32、16和8。經(jīng)過(guò)BiGRU網(wǎng)絡(luò)得到輸入矩陣的高級(jí)特征,隨后將這些特征輸入到全鏈接層進(jìn)一步判別。同時(shí)為了避免過(guò)擬合,在每層的BiGRU網(wǎng)絡(luò)中引入Dropout[27]機(jī)制,Dropout以一定的概率刪除部分神經(jīng)元。模型中全連接層的神經(jīng)元個(gè)數(shù)分別為32、16和16,加入Dropout層提高了模型整體的泛化能力,Dropout層的參數(shù)設(shè)為0.1。全鏈接層為正向和反向傳播,用于不斷迭代更新參數(shù)和計(jì)算輸出結(jié)果。采用校正線性單元[28]作為激活函數(shù),整個(gè)網(wǎng)絡(luò)中使用Adam[29]算法進(jìn)行優(yōu)化。Softmax函數(shù)以概率的形式表示分類結(jié)果,故輸出層使用Softmax函數(shù)計(jì)算最終輸出。
為證明所構(gòu)建的識(shí)別模型的有效性,采用10-折交叉驗(yàn)證方法進(jìn)行性能評(píng)估并輸出敏感度(Sn)、特異度(Sp)、準(zhǔn)確度(Acc)、馬修相關(guān)系數(shù)(CMC)4個(gè)評(píng)價(jià)指標(biāo),即
(10)
(11)
(12)
-1≤CMC≤1
(13)
在NEGAAC中,滑動(dòng)窗口n值分別取2、3、4、5、6、7、8,計(jì)算2組數(shù)據(jù)集的識(shí)別精度,不同n值的精確度如圖1所示。當(dāng)n=5時(shí),基準(zhǔn)數(shù)據(jù)集和獨(dú)立數(shù)據(jù)集的識(shí)別度達(dá)到84.37%和94.65%,因此最優(yōu)參數(shù)n取5。
圖 1 不同n值的精確度Fig.1 Accuracy of different n value
為避免所得到的特征信息過(guò)于簡(jiǎn)單,使用 NEGAAC、RDPC、 DDE、AAP-DT和BLOSUM62編碼從氨基酸的理化性質(zhì)和進(jìn)化信息等角度表達(dá)肽序列的有效信息。為體現(xiàn)每個(gè)特征提取方法的識(shí)別性能,不同特征組的識(shí)別精確度結(jié)果如圖2所示。
圖 2 不同特征組的識(shí)別精確度Fig.2 Accuracy of different feature groups
從圖2可以看出,在基準(zhǔn)數(shù)據(jù)集中,單個(gè)特征組的識(shí)別精確度在68.63%~87.47%之間,拼接后的特征其識(shí)別準(zhǔn)確度也達(dá)到96.78%。在獨(dú)立數(shù)據(jù)集中,單個(gè)特征組的識(shí)別精確度在75.95%~96.66%之間,拼接后的特征其識(shí)別準(zhǔn)確度達(dá)到96.78%。說(shuō)明針對(duì)本文所使用的數(shù)據(jù)集,該方法識(shí)別抗高血壓肽的效果相對(duì)較好,且提取的特征比單一特征識(shí)別性能更高。
對(duì)于NEGAAC特征提取方法,改進(jìn)后的精確度分別達(dá)到84.37%和96.65%,比改進(jìn)前分別高2.68%和2.85%,表明由NEGAAC提取出的特征更有效,更加具有識(shí)別性。
為了有效識(shí)別AHTPs,構(gòu)建基于深度學(xué)習(xí)的iAHTPs-BiGRU識(shí)別模型,iAHTPs-BiGRU模型基于多源特征和深度學(xué)習(xí)對(duì)肽序列進(jìn)行識(shí)別,得到了滿意的結(jié)果。分類器是預(yù)測(cè)模型中的關(guān)鍵部分,選擇不同的分類器對(duì)模型的最終輸出影響較大。為選擇最合適的分類器,選擇9種有代表性的分類學(xué)習(xí)算法與BiGRU進(jìn)行比較,其中XGboost、LGBM、ET、RF、GBDT為機(jī)器學(xué)習(xí)算法,LSTM、CNN、GRU、DNN等4種為深度學(xué)習(xí)算法,模型識(shí)別性能及不同分類器的比較見(jiàn)表1。
表 1 模型識(shí)別性能及不同分類器的比較
從表1可以看出,基于10-折交叉驗(yàn)證,在基準(zhǔn)數(shù)據(jù)集上,評(píng)價(jià)指標(biāo)A、Sn、Sp、CMC分別達(dá)到96.78%、97.06%、96.48%、93.60%。在獨(dú)立數(shù)據(jù)集上,評(píng)價(jià)指標(biāo)A、Sn、Sp、CMC分別達(dá)到98.72%、97.95%、99.49%、97.51%,評(píng)價(jià)指標(biāo)的值都相對(duì)較高,表明iAHTPs-BiGRU模型對(duì)于識(shí)別預(yù)測(cè)AHTPs具有較好的效果。基于10-折交叉驗(yàn)證,BiGRU在基準(zhǔn)數(shù)據(jù)集和獨(dú)立數(shù)據(jù)集上的識(shí)別準(zhǔn)確率分別超過(guò)其他分類器3.34%~34.89%和0.5%~13.33%,同時(shí)Sn和Sp的值相較于其他分類器也有明顯的提高,進(jìn)一步說(shuō)明iAHTPs-BiGRU模型所使用的分類器識(shí)別性能相對(duì)較高。
為了更加準(zhǔn)確、公正地評(píng)價(jià)iAHTPs-BiGRU識(shí)別模型的性能,將iAHTPs-BiGRU模型性能與AHTpin_AAC[7]、 AHTpin_ATC[7]、 PAAP[8]、mAHTPred[9]、SHI等[11]5個(gè)識(shí)別模型在相同的數(shù)據(jù)集中進(jìn)行比較,不同模型的精確度如圖3所示。
圖 3 不同模型的精確度Fig.3 Accuracy comparison of different models
從圖3可以看出,在基準(zhǔn)數(shù)據(jù)集上,iAHTPs-BiGRU模型的識(shí)別準(zhǔn)確度超出其他5個(gè)模型0.55%~18.72%;在獨(dú)立數(shù)據(jù)集上,雖然比SHI等的模型識(shí)別精度低0.38%,但可以降低過(guò)擬合現(xiàn)象使泛化能力更強(qiáng),進(jìn)一步表明iAHTPs-BiGRU模型是一個(gè)有效的、可遷移性強(qiáng)的識(shí)別工具。
1) 由NEGAAC、RDPC、 DDE、AAP-DT和BLOSUM62編碼等5個(gè)特征提取方法組成的多源特征信息充分表達(dá)了序列信息,提高了識(shí)別效果。
2) 基于深度學(xué)習(xí)的BiGRU算法利用多層的結(jié)構(gòu)表示特征信息中的抽象特征,預(yù)測(cè)效果優(yōu)良。