, , , ,
(1. 山東理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 山東 淄博 255049; 2. 山東大學(xué) 山東省軟件工程重點(diǎn)實(shí)驗(yàn)室, 山東 濟(jì)南 250000)
天然無(wú)序蛋白質(zhì)是一類柔性極強(qiáng)的蛋白質(zhì),它們?cè)谖唇壎ǖ狡渌肿訒r(shí),處于不折疊的松散狀態(tài)卻具有正常的生物學(xué)功能,不僅廣泛參與各種重要的生理與病理過(guò)程, 而且與神經(jīng)退行性疾病和癌癥的關(guān)系非常密切[1-2]。天然無(wú)序蛋白質(zhì)在生物體內(nèi)普遍存在,并且生命形式越高級(jí)其含量越多[1-2],特別是在人類細(xì)胞中,大約30%~50%的蛋白質(zhì)完全無(wú)序或包含顯著無(wú)序片段[3]。雖然無(wú)序蛋白質(zhì)在單獨(dú)存在狀態(tài)下無(wú)折疊,但是當(dāng)綁定到其分子伴侶上時(shí),其中的某些片段會(huì)發(fā)生從無(wú)折疊到折疊的狀態(tài)改變,通常把這些能改變狀態(tài)的片段稱為分子識(shí)別特征(molecular recognition features,MoRF)[4],也稱功能模體。同一個(gè)MoRF可以與多個(gè)不同的分子對(duì)象綁定而呈現(xiàn)不同的二級(jí)結(jié)構(gòu)折疊狀態(tài)。MoRF很容易形成蛋白質(zhì)相互作用網(wǎng)絡(luò)中的“集線器”[5],是蛋白質(zhì)相互作用網(wǎng)絡(luò)中的關(guān)鍵點(diǎn),因此,識(shí)別MoRF在無(wú)序蛋白質(zhì)序列中的位置,對(duì)理解蛋白質(zhì)的功能,研究蛋白質(zhì)折疊機(jī)制和相關(guān)疾病的致病機(jī)理及尋找藥物靶點(diǎn)至關(guān)重要。
物理實(shí)驗(yàn)方法識(shí)別無(wú)序蛋白質(zhì)功能模體具有難度大、 成本高、 耗時(shí)長(zhǎng)(無(wú)序片段在X射線晶體衍射圖上電子密度缺失)的缺陷, 而計(jì)算機(jī)輔助方法能極大地降低成本和縮短耗費(fèi)時(shí)間, 并且為在大數(shù)據(jù)的基礎(chǔ)上進(jìn)行分析提供可能, 是必不可少的方法。 天然無(wú)序蛋白質(zhì)和MoRF沒(méi)有固定的折疊結(jié)構(gòu), 能用的結(jié)構(gòu)特征信息有限, 因此, 基于序列特征的預(yù)測(cè)方法受到了廣泛關(guān)注。 目前人們提出一些基于序列特征來(lái)預(yù)測(cè)無(wú)序蛋白質(zhì)MoRF序列位置的方法, 其中, 代表性的方法有MoRFpred[6]、 ANCHOR[7]、 MFSPSSMpred[8]、 Retro-MoRFs[9]、 MoRFCHiB[10]和MoRFPred-plus[11]。這些方法將從其他預(yù)測(cè)工具得到的大量結(jié)果作為輸入特征,例如,預(yù)測(cè)的殘基無(wú)序傾向概率、二級(jí)結(jié)構(gòu)特征、溶劑可及表面面積和二面轉(zhuǎn)角等。大量采用預(yù)測(cè)的特征值進(jìn)行串聯(lián)后再次作為輸入,容易造成特征空間的高維稀疏而導(dǎo)致“過(guò)擬合”問(wèn)題,并且極大地增加了算法的復(fù)雜度。另外,傳統(tǒng)算法將特征抽取和機(jī)器學(xué)習(xí)訓(xùn)練作為2個(gè)獨(dú)立的過(guò)程進(jìn)行,先采用各種統(tǒng)計(jì)分析方法提取特征并人工進(jìn)行預(yù)處理,再進(jìn)行二次編碼來(lái)生成特征向量作為機(jī)器學(xué)習(xí)的輸入,然后進(jìn)行學(xué)習(xí)訓(xùn)練,沒(méi)有考慮特征抽取和機(jī)器學(xué)習(xí)過(guò)程之間存在著潛在的不匹配效應(yīng),而且人工特征工程也容易導(dǎo)致特征抽取的不全面,因此,有必要提出更加簡(jiǎn)單、高效的算法來(lái)改進(jìn)無(wú)序蛋白質(zhì)功能模體的預(yù)測(cè)。
先前的研究[7,12]表明,無(wú)序蛋白質(zhì)功能模體具有特定的序列保守性模式,它是由高度保守殘基夾雜著高度可變的殘基構(gòu)成的。高度保守是為了維護(hù)特定的功能,而高度可變是為了維護(hù)無(wú)序結(jié)構(gòu)的靈活性。在結(jié)合分子伴侶時(shí),并不是所有殘基貢獻(xiàn)都一樣,只有一些特定的殘基模式在分子識(shí)別中有貢獻(xiàn),因此,功能模體在蛋白質(zhì)序列的特征表達(dá)中具有特定的模式。
目前,隨著人工智能熱潮的到來(lái),深度學(xué)習(xí)受到了高度關(guān)注,而深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural networks, DCNN)被視為深度學(xué)習(xí)的支柱。DCNN最初是被設(shè)計(jì)用來(lái)處理圖像像素矩陣中的空間局部關(guān)聯(lián)性[13]。它直接以原始圖像作為輸入,避開傳統(tǒng)識(shí)別算法中復(fù)雜的特征提取和數(shù)據(jù)重建過(guò)程,隱式地從訓(xùn)練數(shù)據(jù)中自行抽取特征進(jìn)行學(xué)習(xí)。DCNN取得成功的關(guān)鍵是卷積算子能夠充分利用圖像像素矩陣中密集表示的數(shù)據(jù)的空間局部相關(guān)性[13]。因?yàn)檫@種局部相關(guān)性不是圖像數(shù)據(jù)所特有的,任何能表示成矩陣形式的其他類型的數(shù)據(jù)也具有這類屬性,所以DCNN在自然語(yǔ)言、聲音、視頻等多個(gè)領(lǐng)域的應(yīng)用取得了巨大成功。另外,DCNN不像傳統(tǒng)算法那樣把特征提取和模型學(xué)習(xí)作為2個(gè)獨(dú)立的步驟進(jìn)行,而是交織在一起同時(shí)進(jìn)行,這樣可以減少特征提取和模型學(xué)習(xí)之間潛在的不匹配效應(yīng)[13]。
本文中采用類似于圖像的表示方法(像素矩陣)來(lái)表示蛋白質(zhì)序列(特征矩陣),序列中的功能模體的模式信息也必然包含在該序列所對(duì)應(yīng)的特征矩陣中,所以DCNN也適用于蛋白質(zhì)中功能模體的序列模式識(shí)別問(wèn)題?;诖吮疚闹刑岢鲆环N簡(jiǎn)單的序列表示方法來(lái)描述蛋白質(zhì)的序列信息,并采用DCNN構(gòu)建模型進(jìn)行無(wú)序蛋白質(zhì)功能模體MoRF的預(yù)測(cè)。
本文中所使用的數(shù)據(jù)集分為3個(gè)部分,即訓(xùn)練集、驗(yàn)證集和測(cè)試集,均來(lái)自于文獻(xiàn)[6]中所使用的數(shù)據(jù)集。其中訓(xùn)練集取自于421條蛋白質(zhì)多肽鏈,包含了5 396個(gè)正樣本(MoRF殘基) 和240 588個(gè)負(fù)樣本(非MoRF殘基)。為了解決正、負(fù)樣本的嚴(yán)重不平衡問(wèn)題,從負(fù)樣本中隨機(jī)抽取了與正樣本等量的樣本數(shù)與正樣本合并到一起組成訓(xùn)練集。驗(yàn)證集由419條包含MoRF的蛋白質(zhì)多肽鏈構(gòu)成,測(cè)試集由45條包含MoRF的蛋白質(zhì)多肽鏈構(gòu)成。驗(yàn)證集、測(cè)試集與訓(xùn)練集的序列相似度均小于30%。上述數(shù)據(jù)集的統(tǒng)計(jì)見表1。
表1 數(shù)據(jù)集的統(tǒng)計(jì)
本文中使用了2類特征來(lái)表示蛋白質(zhì)序列,即位置性特異性打分矩陣(position specific scoring matrix,PSSM)和氨基酸特征系數(shù)。
1)PSSM。本文中使用PSI-BLAST (position specific iterative basic local alignment search tool)命令[14],設(shè)置迭代次數(shù)為3,比對(duì)美國(guó)國(guó)家生物技術(shù)信息中心的非冗余序列數(shù)據(jù)庫(kù)來(lái)生成PSSM文件。每條長(zhǎng)度為l的蛋白質(zhì)肽鏈可得到一個(gè)l×20型的矩陣(l為蛋白質(zhì)序列的長(zhǎng)度)。該矩陣主要用來(lái)代表序列中氨基酸的保守性特征,其元素值分布在[-16,16]之間,元素?cái)?shù)值越大,表示保守性越強(qiáng)。
2)氨基酸特征系數(shù)。本文中使用了3類特征系數(shù)來(lái)表示氨基酸特征(圖1),分別來(lái)自文獻(xiàn)[15]中的10種木寺系數(shù)(k1—k10)、文獻(xiàn)[16]中的5種特征系數(shù)(f1—f5)和文獻(xiàn)[17]中的7種特征系數(shù)(p1—p7)。這些特征系數(shù)在相關(guān)文獻(xiàn)里被認(rèn)為是能比較豐富地表達(dá)氨基酸的各種理化特征信息和微觀結(jié)構(gòu)特征信息。這樣,每條蛋白質(zhì)序列可表示為一個(gè)l×(10+5+7)型,即l×22型的矩陣。
黃色背景的k1—k10、綠色背景的f1—f5和藍(lán)色背景的p1—p7分別代表了不同類的特征系數(shù),每類分別包含了3×20個(gè)、5×20個(gè)和7×20個(gè)系數(shù)常量。圖1 3類氨基酸的特征系數(shù)
用PSSM及3組氨基酸特征系數(shù)矩陣橫向連接到一起來(lái)表示蛋白質(zhì)序列特征,每條長(zhǎng)度為l的蛋白質(zhì)序列對(duì)應(yīng)到一個(gè)l×(20+10+5+7)型,即l×42型的矩陣。采用滑動(dòng)窗口切分該矩陣,為每個(gè)殘基產(chǎn)生一個(gè)特征矩陣作為神經(jīng)網(wǎng)絡(luò)模型的輸入。無(wú)序蛋白質(zhì)MoRF片段的長(zhǎng)度一般分布在5~25個(gè)殘基之間,為了讓每個(gè)殘基可能對(duì)應(yīng)的MoRF片段的信息都完整地包含在該滑動(dòng)窗口內(nèi),本文中采用長(zhǎng)度為51的滑動(dòng)窗口(每個(gè)殘基兩側(cè)各取25個(gè)殘基)來(lái)切分序列所對(duì)應(yīng)的特征矩陣。通過(guò)這種編碼方式,每個(gè)殘基的特征信息即被表示成一個(gè)51×42型的矩陣。
本算法的流程圖如圖2所示。 首先, 由蛋白質(zhì)序列得到PSSM, 并計(jì)算序列對(duì)應(yīng)的3類特征系數(shù)(k1—k10、f1—f7和p1—p5)。 用上述PSSM和各種特征系數(shù)橫向連接來(lái)表示蛋白質(zhì)序列, 使每條長(zhǎng)度為l的蛋白質(zhì)序列對(duì)應(yīng)于一個(gè)l×42型的矩陣; 然后, 通過(guò)滑動(dòng)窗口提取每個(gè)殘基對(duì)應(yīng)的特征矩陣塊作為DCNN模型的輸入; 最后, 將DCNN模型的輸出概率值進(jìn)一步通過(guò)平滑處理, 產(chǎn)生最終的預(yù)測(cè)結(jié)果。
本文中采用的DCNN結(jié)構(gòu)如圖3所示,3個(gè)卷積層(卷積核大小為3×3)、3個(gè)丟失層(丟失率為0.2)和3個(gè)下采樣層(窗口大小為2×2)分別交織在一起,最后再接上2個(gè)全連接層,并在全連接層中間也插入1個(gè)丟失層(丟失率為0.2)。除了輸出層的激活函數(shù)為Sigmoid, 用來(lái)產(chǎn)生預(yù)測(cè)概率值外, 其他各層的激活函數(shù)均為Relu,模型訓(xùn)練時(shí)損失函數(shù)為Binary_crossentropy,優(yōu)化函數(shù)為RMSProp。
本研究屬于二分類問(wèn)題,即判斷某個(gè)氨基酸殘基是否屬于無(wú)序蛋白質(zhì)的MoRF片段。感受性曲線(receiver operating characteristic curve, ROC)及曲線下的面積(area under curve, AUC)值被用來(lái)作為算法的評(píng)價(jià)指標(biāo)。AUC值越大,即ROC下的面積值越大,說(shuō)明該分類器的性能越好。在ROC圖中,每個(gè)點(diǎn)的橫坐標(biāo)為假陽(yáng)性率(FPR),代表將負(fù)樣本錯(cuò)分為正樣本的概率;縱坐標(biāo)為真陽(yáng)性率(TPR),代表將正樣本分對(duì)的概率。另外, 正確指數(shù)又稱約登(Youden)指數(shù),也被用來(lái)作為評(píng)價(jià)指標(biāo)之一。該指數(shù)為正樣本分對(duì)的概率與負(fù)樣本分對(duì)的概率之和減去1,表示分類器對(duì)樣本預(yù)測(cè)正確的總能力,指數(shù)越大,性能越好。
因?yàn)闊o(wú)序蛋白中的功能模體是一個(gè)連續(xù)的序列片段而不是單個(gè)的氨基酸, 所以本文中采用滑動(dòng)窗口對(duì)DCNN模型的輸出概率值進(jìn)行平滑的優(yōu)化處理, 即對(duì)每個(gè)殘基取包含其兩側(cè)一定長(zhǎng)度內(nèi)的殘基預(yù)測(cè)概率的平均值作為該中心殘基的最終預(yù)測(cè)結(jié)果。 為了優(yōu)化平均化滑動(dòng)窗口的大小, 本文中在驗(yàn)證集上進(jìn)行了分析比較。該算法根據(jù)不同滑動(dòng)窗口
conv2d、max_pooling2d、dense、dropout和activation分別表示對(duì)應(yīng)的卷積層、下采樣層、全連接層、丟失層和激活層;input和output表示各層網(wǎng)絡(luò)對(duì)應(yīng)的輸入和輸出參數(shù)。圖3 本文中使用的深度卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)圖
大小所得到的ROC曲線如圖4所示。當(dāng)窗口長(zhǎng)度大于9后,算法性能趨于穩(wěn)定,因此,本文中選擇最佳的滑動(dòng)窗口長(zhǎng)度13來(lái)進(jìn)行結(jié)果的優(yōu)化。
圖4 根據(jù)不同平均化滑動(dòng)窗口大小所得到的感受性曲線
在驗(yàn)證集上, 本文中對(duì)使用不同特征表示蛋白質(zhì)序列的方法的性能進(jìn)行了比較。 主要對(duì)比了以下4種方法: 1)打分矩陣方法僅使用了PSSM來(lái)表示蛋白質(zhì)序列特征; 2)特征系數(shù)方法僅使用了3類氨基酸特征系數(shù)來(lái)表示蛋白質(zhì)序列特征; 3)打分矩陣-特征系數(shù)方法同時(shí)使用了PSSM和3類氨基酸特征系數(shù)來(lái)表示蛋白質(zhì)序列特征,但沒(méi)有采用最后的平滑處理來(lái)優(yōu)化結(jié)果;4)本文中提出的方法。上述4種方法在驗(yàn)證集上進(jìn)行測(cè)試得到的ROC曲線如圖5所示,本文中提出的方法AUC值達(dá)到0.708,優(yōu)于其他方法的性能。
圖5 4種基于不同特征的方法在驗(yàn)證集上的感受性曲線
目前已有的方法中,Retro-MoRFs[9]、MoRFCHiB[10]和MoRFPred-plus[11]的性能主要依賴于組合多個(gè)分類器的預(yù)測(cè)結(jié)果,它們的精確度在很大程度上是“以量取勝”,而本文中提出的方法是基于單個(gè)機(jī)器學(xué)習(xí)模型的,因此,只與3個(gè)有代表性的單模型方法進(jìn)行了比較,即MoRFpred[6]、ANCHOR[7]和MFSPSSMpred[8],這些方法也經(jīng)常在其他文獻(xiàn)中作為比較對(duì)象。經(jīng)過(guò)在測(cè)試集上進(jìn)行測(cè)試,各方法的ROC曲線圖如圖6所示,詳細(xì)的正確指數(shù)、TPR、FPR和AUC值列于表2中。從圖6和表2中可以看出,本文中提出的方法在測(cè)試集上取得最好的性能,即正確指數(shù)值達(dá)到0.444,AUC值達(dá)到0.760。
圖6 不同方法在測(cè)試集上的感受性曲線
方法名稱正確指數(shù)真陽(yáng)性率假陽(yáng)性率線下面積值文獻(xiàn)[6]中的方法0.1920.2360.0450.697文獻(xiàn)[7]中的方法0.1980.4330.2360.638文獻(xiàn)[8]中的方法0.3700.5460.1760.706本文中提出的方法0.4440.7320.2880.760
本文中利用一種深度學(xué)習(xí)方法來(lái)預(yù)測(cè)天然無(wú)序蛋白質(zhì)中的功能模體在序列中的位置。采用位置特異性打分矩陣和3類氨基酸特征系數(shù)來(lái)描述蛋白質(zhì)序列信息,將每條序列編碼成類似于圖像像素矩陣的二維數(shù)值矩陣形式,并用DCNN來(lái)搭建模型進(jìn)行預(yù)測(cè)。 另外, 本文中把無(wú)序蛋白質(zhì)中的功能模體預(yù)測(cè)作為一個(gè)片段識(shí)別來(lái)對(duì)待, 而不是像傳統(tǒng)方法那樣作為單個(gè)的殘基分類, 所以在DCNN的輸出上加了一個(gè)段平均化的平滑處理步驟來(lái)進(jìn)一步優(yōu)化結(jié)果。 在相同數(shù)據(jù)集上進(jìn)行測(cè)試和比較, 結(jié)果表明,本文中提出的方法顯著優(yōu)于其他方法, AUC值和正確指數(shù)值均大于其他方法的,說(shuō)明本算法能有效地識(shí)別功能模體在無(wú)序蛋白質(zhì)序列中的隱藏信息模式。本方法也適用于其他聚集型蛋白質(zhì)功能位點(diǎn)的預(yù)測(cè)。
馮曉英等學(xué)者研究的結(jié)論說(shuō)明:“經(jīng)過(guò)20年的發(fā)展,混合式教學(xué)的實(shí)踐與研究已經(jīng)漸趨成熟;混合式教學(xué)被普遍看好,被認(rèn)為是未來(lái)教學(xué)的主要形式;政府和教育機(jī)構(gòu)也對(duì)混合式教學(xué)給予越來(lái)越多的戰(zhàn)略和政策支持?!本唧w來(lái)講: