聶良鵬,權麗君,吳庭芳,孫曉雨,何如吉,呂 強
(蘇州大學 計算機科學與技術學院,江蘇 蘇州 215006) (江蘇省計算機信息處理技術重點實驗室,江蘇 蘇州 215006)
蛋白質是生命的物質基礎,生物機體幾乎所有的生命活動都需要蛋白質的參與.目前,蛋白質測序已成為一項常規(guī)的實驗手段,但很難通過序列信息來獲得蛋白質結構及其相關的功能信息以助于生物醫(yī)學的應用研究.然而,通過實驗的手段來識別蛋白質的結構非常的繁瑣和昂貴.因此,使用計算手段預測蛋白質三維結構,常被作為生化實驗的一種補充手段,用來幫助我們在實驗結構未知的情況下了解蛋白質的生化功能.蛋白質質量評估(Quality Asessment,QA),通過對蛋白質模型進行評分以挑選盡可能接近天然結構的蛋白質模型,是蛋白質結構預測方法的重要組成部分.由于QA問題的解決對于生物醫(yī)學領域的重要性,它于2006年第7屆蛋白質結構預測技術關鍵評估比賽(Critical Assessment Of Techniques For Protein Structure Prediction,CASP[1])中成為了一個獨立的開放比賽單元[2],利用預測服務器提交的蛋白質預測模型對來自世界各地最先進的QA方法進行評測.其中,作為有監(jiān)督算法問題,各類QA方法既可預測單一的全局結構精度分數,也可預測每個殘基的局部結構精度分數,而大多數的方法會通過平均殘基局部分數來計算全局分數.
QA方法分為單一方法和集成方法兩大類[3].單一方法是指僅使用自己構建的評估方法對蛋白質模型進行評分,主要有以ProQ2[4],ProQ3[5]為代表的傳統(tǒng)機器學習方法和以ProQ3D[6],ProQ4[7],MULTICOM-NOVEL[8]為代表的深度機器學習方法.ProQ2,ProQ3使用了大量人工微調過的蛋白質模型特征,并且所有的特征都被優(yōu)化在與蛋白質模型大小無關的有限范圍內.這些特征被用于訓練使用線性核函數的支持向量機(SVM).然而,ProQ2和ProQ3不能識別特征之間更復雜的非線性關系.近年來,基于深度神經網絡的機器學習已被證明優(yōu)于傳統(tǒng)機器學習方法.深度網絡能夠識別輸入特征之間的非線性關系.隨著3D蛋白質數據的不斷增長,基于深度學習的QA方法也得了快速發(fā)展[9].ProQ3D使用了與ProQ2和ProQ3相同的輸入,但是使用多層感知機(Multi-Layer Perceptron,MLP)代替線性支持向量機,其結果得到了實質性的改善.為了利用局部特征的空間分布,使得深度網絡可在局部范圍上進行真實值和預測值的比較,ProQ4,MULTICOM-NOVEL實現(xiàn)了由殘基局部結構分數訓練的1D 卷積神經網絡(Convolution Neural Network,CNN),提高整體的預測性能.然而CNN并無法有效的提取殘基上下文之間的長程相互作用.集成方法是指構建的QA方法集成了很多專家構建的先進方法,在此基礎上輸出評分,以達到更加準確的結果,有以ModFOLD7[10],MULTICOM[11]為代表的機器學習方法.ModFOLD7服務器集成了10種單一方法的輸出結果,包括MetaPSICOV[12],PSIPRED[13],ProQ2,ProQ2D,ProQ3D,VoroMQA[14],DISOPRED[15],ModFOLDclust_single,ModFOLDclustQ _single[16]以及ResQ[17].MULTICOM服務器將12種先進的QA方法(SBROD[18],OPUS_PSP[19],RF_CB_SRS_OD[20],Rwplus[21],DeepQA[22],ProQ2,ProQ3,Dope[23],Voronota[24],APOLLO[25],Pcons[26],ModFOLDclust2)輸出的精度分數和殘基接觸結果進行集成,用于預測蛋白質模型的全局精度分數.
目前,蛋白質模型質量評估相對于自然語言,圖像處理研究領域而言,只探索了深度學習方向的較為淺層的應用.本文為了探索基于深度學習框架的更精確的QA方法,提出了一個基于多尺度卷積神經網絡(Multiscale Convolution Neural Network,MCNN)和雙向門控循環(huán)神經網絡[27](Bidirectional Gated Recurrent Unit,BiGRU)的深度模型,并將該方法命名為BMBQA(Quality Assessment Base on MCNN-BiGRU).由于在圖像處理領域表現(xiàn)優(yōu)異的MCNN可以更好的把淺層特征中的細節(jié)信息和深層特征中的抽象信息進行融合,因此我們認為它可能在生物領域也存在很大的優(yōu)勢.本文使用CASP7-12歷屆比賽中各組提交的蛋白質模型進行訓練.首先使用Pyrosetta[28]和Psiblast[29]對每個蛋白質模型進行殘基級別上的各類屬性特征的提取,然后將其輸入到MCNN中進行不同尺度的局部細節(jié)特征和抽象特征的提取,之后再將其輸入到BiGRU中進行雙向的運算累積以得到每個殘基的全局特征表示,最后輸出評分,分值越大代表該蛋白質模型越接近天然蛋白質結構.此外,通過加入了蛋白質數據庫(Protein Data Bank,PDB)中與當前訓練蛋白質同源的眾多天然蛋白質,以達到數據增強的目的,從而提高了BMBQA挑選目標蛋白質中最優(yōu)蛋白質模型的能力.最后,BMBQA利用CASP13中的數據集與當前先進的12種單一方法進行比較,在4個經典的評價指標中均排名前三,實驗結果說明BMBQA在QA領域具有較強的競爭力和先進性.
如圖1所示,本文將蛋白質模型(Protein model)作為輸入,首先將其通過基于Pyrosetta和Psiblast的特征預處理程序(Feature Preprocessing),獲得蛋白質模型對應的序列,結構和能量特征;然后將這些特征組成特征矩陣(Feature Matrix)作為BMBQA模型的輸入,最終預測出蛋白質模型的全局結構精度分數Global Distance Test_Total Score(GDT_TS)[30].BMBQA使用基于MCNN-BiGRU的深度學習框架,對蛋白質模型進行局部細節(jié)信息和抽象信息以及殘基全局特征的提取,以便更好的進行精度評估.
圖1 實驗流程圖Fig.1 Experiment flow chart
2.1.1 CASP數據集
本文使用CASP7~12比賽中來自世界各個小組和自動服務器提交的蛋白質模型來構建訓練集和驗證集.對于每個目標蛋白質來說,都存在上百個由不同的蛋白質模型預測器提交的蛋白質模型.其中訓練集使用了561個目標蛋白質下的309619個蛋白質模型,驗證集使用了29個目標蛋白質下的15318個蛋白質模型,且訓練和驗證數據已保證不同源.對于測試集,本文在CASP13的基準上,對階段2比賽中的33個目標蛋白質下的4949個蛋白質模型進行評分.
數據標簽,即衡量蛋白質模型與天然蛋白質之間的相似程度大小,使用的是GDT_TS.GDT_TS是指天然蛋白質和蛋白質模型疊加之后,對應原子的均方根誤差(Root mean squared Error,RMSD)小于1,2,4,8?得到的最大原子比例的平均值.相對于傳統(tǒng)的RMSD而言,GDT_TS的結果更加穩(wěn)健.CASP在QA結果生成中,GDT_TS被當做主要的度量精度[31].通常,GDT_TS越高,蛋白質模型預測的越好.本文使用LGA[30](Local-Global Alignment)來生成標簽GDT_TS,這與CASP評測中心的使用是一致的.
2.1.2 數據增強
由于訓練數據是由歷屆CASP比賽中的蛋白質模型組成的,所以數據分布存在不平衡的現(xiàn)象,劣質的蛋白質模型(GDT_TS<40)多于優(yōu)質的蛋白質模型(GDT_TS≥40).為了解決這一問題,首先,我們將眾多蛋白質模型對應的天然蛋白質加入數據集中;接著,既是為了擴充數據,平衡數據集,也是為了給BMBQA在訓練時樹立更多的天然蛋白質榜樣(GDT_TS=100),本文利用blastp[32]獲取訓練集蛋白質模型的眾多同源蛋白,將其加入訓練數據中.blastp可將目標蛋白質序列與PDB中的庫序列進行一對一的序列比對.我們將PDB中與訓練集蛋白質序列的相似度超過30%的同源蛋白加入訓練數據中.
為防止從PDB中加入的同源蛋白同樣和測試集中的目標蛋白質存在高度相似,破壞與對標方法之間的比較公平性,我們將測試集中的目標蛋白質序列與同源蛋白序列進行序列比對,篩除掉與測試集有同源性的數據后,用剩余的3387個同源蛋白進行數據增強.本文希望通過加入眾多榜樣蛋白質來讓BMBQA學習到更多優(yōu)質蛋白質模型應該具有的特性,提高BMBQA挑選最優(yōu)蛋白質模型的性能.
本文將未進行數據增強的數據集稱為DataSet1,數據增強后的數據集稱為DataSet2.在不同的數據集上訓練出來的BMBQA具有不同的性能.
如圖2所示,通過基于Pyrosetta的蛋白質處理程序,生成該蛋白質模型對應的殘基序列(Sequence)和整體總能量值(Tot Energies),以及每個殘基對應的二級結構(Secondary Structure,SS),二面角(Dihedral Angle)和原子三維坐標(ATOM Coordinate),以及能量值(Energies).通過Psiblast來生成位置特異性打分矩陣[33](Position Specific Scoring Matrix,PSSM).基于這些不同類別特征的組合,得到BMBQA的特征輸入矩陣.
圖2 蛋白質模型特征預處理Fig.2 Feature preprocessing of protein model
2.3.1 輸入與輸出
BMBQA模型結構如圖3所示,其中的一個輸入是900×77的特征矩陣,其中900是指蛋白質殘基序列的長度,77為每個殘基特征的維度,在長度未滿900的序列首尾填充上0使之等長,殘基序列使用one-hot進行編碼.通過不同類別特征的組合得到:殘基級別上所有特征的組合(Mixed features);由Sequence和PSSM組成的序列特征(Sequence features);由SS,Dihedral Angle,ATOM Coordinate組成的結構特征(Structure features);以及每個殘基的能量項特征(Energies features).另一個輸入是1×19的Tot Energies,代表整個蛋白質模型的19種總能量項的值.模型的輸出是[0,100]范圍的GDT_TS.
圖3 BMBQA結構圖Fig.3 Structure of BMBQA
2.3.2 淺層特征提取(Shallow feature extraction)
基于殘基的各類特征矩陣可看做是多通道的一維圖像,我們可用1D CNN來進行特征提取.BMBQA先將Mixed features輸入到卷積核大小為1×64的1D CNN中,其中1是指1D卷積核的長度,64指卷積核的個數.通過長度為1的卷積核來實現(xiàn)跨通道的特征信息的整合,將不同的殘基屬性特征進行融合得到新的特征圖表示.緊接著對特征圖使用卷積核大小為5×64的卷積操作,每次對5個殘基的特征向量進行卷積,提取到淺層特征圖表示.
2.3.3 多尺度卷積(MCNN)
將淺層特征輸入到MCNN中得到淺層特征中的細節(jié)信息和深層特征中的抽象信息的融合輸出.MCNN的結構如圖4所示,模塊中有4條線路,每條線路都疊加有不同層數且不同卷積核尺寸的CNN,所以每條線路的卷積感受野是不同的,在每條線路上可以描述在不同尺度上的蛋白質模型質量特征.在圖像處理領域,認為淺層的卷積網絡感受野小,分辨率高,可以提取到淺層的能準確描述圖片的細節(jié)信息;隨著卷積網絡的不斷加深,感受野的不斷變大,提取的圖像特征逐漸轉化成更加抽象的符合人類大腦感知的深層特征,將細節(jié)信息和抽象信息進行融合可以很好的對圖像問題進行處理[34],本文認為這個理論同樣適合生物領域.模塊中的第1、第2條線路,有較少層的CNN和較小的卷積感受野,通過它們來提取蛋白質序列中更加精細的局部細節(jié)信息;第3、第4條線路中有較多層的CNN,卷積感受野也相對較大,通過它們來提取蛋白質序列中更深層次的局部抽象信息.將這4條線路輸出的局部細節(jié)信息和局部抽象信息進行融合,再通過卷積核尺度為1的CNN提取到新的特征.為最大程度的保證信息不丟失,我們進行跳躍連接,將MCNN的輸入和輸出進行相加,再通過最大池化層(MaxPooling)來降低特征的維度.
圖4 多尺度卷積模塊Fig.4 Multiscale convolution module
2.3.4 雙向門控循環(huán)神經網絡(BiGRU)
蛋白質是氨基酸脫水縮合形成的多肽鏈經過盤曲折疊形成的具有一定空間結構的物質,所以每個殘基在空間位置上可能既與它前面的殘基有相互作用,又與它后面的殘基相關.因此,我們將特征輸入到BiGRU中.BiGRU每個節(jié)點的輸出是由該節(jié)點的輸入與其左右相鄰的節(jié)點經過特征累積計算得到的.BiGRU可以根據上下文得到每個殘基的全局特征.
2.3.5 特征拼接(Concatenate)
Mixed features在進行MCNN和BiGRU之后會導致不同類別屬性獨立特征信息的丟失,包括Sequence features,Structure features,Energies Features,我們又單獨對它們進行了特征提取,然后與Mixed features的輸出進行特征拼接,輸入到非線性的MLP中.BMBQA中加入了Dropout[35]層來進行一定概率的屏蔽神經元的運算,防止出現(xiàn)過擬合現(xiàn)象;還加入了Batch Normalization[36]層來防止梯度消失,加快訓練收斂.最后輸出范圍為[0,100]的GDT_TS全局評分,分值越高,表明蛋白質模型結構越接近天然蛋白質結構.
對于BMBQA的訓練,我們使用TensorFlow2作為深度學習框架,在Ubuntu系統(tǒng)環(huán)境下使用NVIDIA GeForce GTX 1080ti的GPU作為計算單元,使用Adam[37]優(yōu)化器來指導模型的訓練,利用早停機制(Early stopping)來訓練模型最好的泛化性能,以便更好的擬合數據.
模型的損失函數為:
(1)
(2)
(3)
(4)
Difference from the best[9]指標如公式(5)所示,best為目標蛋白質中最優(yōu)蛋白質模型對應的GDT_TS分數,top是指QA方法挑選出來的最好的蛋白質模型對應的GDT_TS分數,兩者的差值代表了QA方法挑選最優(yōu)蛋白質模型的性能,值為0代表該目標蛋白質下剛好挑選到了最優(yōu)的蛋白質模型,值越大代表QA方法的性能越差.QA方法最終的應用是對同一目標蛋白質下的蛋白質模型進行排序,來挑選最優(yōu)的蛋白質模型進行生物醫(yī)學研究應用,所以該指標性能至關重要.
Differencefromthebest=|best-top|
(5)
3.2.1 DataSet1
本文首先在DataSet1上訓練BMBQA,并在4個評價指標上與12個單一方法進行比較.結果如圖5和表1所示.
圖5展示了13種方法的Pearson相關系數和Spearman相關系數的數值分布及均值.從圖中可以看到,BMBQA的Pearson相關系數均值得分為0.719,排名第2.Spearman相關系數均值得分為0.690,排名第一.說明BMBQA相對其他QA方法來說具有很強的競爭力,體現(xiàn)了BMBQA的先進性.
圖5 相關性箱形圖Fig.5 Correlation box-plot
表1 13種方法性能比較表Table 1 Performance comparison of 13 methods
表1中展示了BMBQA在Differences與Difference from the best兩個指標上的比較結果.相比較兩個相關系數排名而言,兩個誤差指標的排名沒有太靠前,但是從指標數值范圍來說仍與對標方法具有競爭力.
3.2.2 DataSet2
本文在DataSet2上重新訓練BMBQA,在加入眾多的榜樣蛋白質數據后,BMBQA學習到了更多優(yōu)質蛋白質應該具有的特性,提高了自身在目標蛋白質中挑選最優(yōu)蛋白質模型的能力,Difference from the best指標排名上升到了第1名,如圖6所示.我們還發(fā)現(xiàn)在目標蛋白質T1009上的Difference from the best指標得分為0,說明我們在該目標蛋白質上挑選到了完全正確的最優(yōu)蛋白質模型,T1009的蛋白質結構如圖7所示.
圖6 Difference from the best條形圖Fig.6 Difference from the best bar chart
圖7 T1009蛋白質結構Fig.7 Protein structure of T1009
圖8展示了每個QA方法在Difference from the best指標上誤差小于1、1-10、以及大于10的目標蛋白質數占總目標蛋白質數的百分比.一個先進的QA方法應該在誤差小于1這部分上盡可能多的占有百分比,而在大于10這部分上應盡可能少的占有百分比.BMBQA的實驗結果中,小于1的目標蛋白質占總目標蛋白質的20.8%,1-10的目標蛋白質占總目標蛋白質的50%,大于10的目標蛋白質占總目標蛋白質的29.2%.如圖8所示,BMBQA方法在Difference from the best指標百分比排名上仍然位居首位,說明BMBQA在挑選最優(yōu)蛋白質模型能力方面優(yōu)于其他QA方法.
圖8 Difference from the best百分比圖Fig.8 Difference from the best percentage chart
數據增強使得BMBQA極大程度的提高了挑選最優(yōu)蛋白質模型的性能,但這是以其余3個指標的損失為代價的,Pearson相關系數,Spearman相關系數,Differences指標都有一定程度的損失.
3.2.3 BMBQA_Comb
本文認為在DataSet1上訓練的BMBQA側重于評分的相關性指標性能,將其命名為BMBQA_Corr.而在DataSet2上訓練的BMBQA側重于目標蛋白質中最優(yōu)蛋白質模型的挑選,將其命名為BMBQA_Select.為了更好的結合兩個深度模型各自的優(yōu)點,我們在對蛋白質模型進行評分時,將兩個深度模型的輸出進行融合,來重新得到新的評分結果,作為最終輸出,將融合后的方法命名為BMBQA_Comb.3個方法在4個評價指標上的比較結果如表2所示.BMBQA_Comb在CASP13的基準上,與12個QA方法進行比較排名,Pearson相關系數排名第二,Spearman相關系數排名第一,Differences排名第三,Difference from the best排名第一.說明了BMBQA方法不管在評分的準確性上,還是蛋白質模型排序能力上,以及挑選最優(yōu)蛋白質的性能上相對其余的QA方法都有很強的競爭力.
表2 3種方法的性能比較Table 2 Performance comparison of 3 methods
為了研究MCNN的重要性,本文以MCNN為變量做了對比實驗,在DataSet2上進行訓練,所得結果如表3所示.可以看到使用MCNN之后,4個評價指標性能均有提升.說明將淺層特征中的局部細節(jié)信息和深層特征中的局部抽象信息進行結合,不僅在圖像領域有效,在生物領域同樣適合.
CASP13測試結果中,Pearson和Differences指標并未排在首位,說明本文訓練的BMBQA模型還存在一定的缺陷.
1)訓練BMBQA的數據集偏小,深度學習需要大數據來學習特征,而本文只使用了590個目標蛋白質下的數據進行訓練,易造成BMBQA泛化性不足.
2)盡管本文已進行數據增強,但并未完全解決數據分布不平衡的現(xiàn)象,導致BMBQA對劣質蛋白質模型的質量評估相對于優(yōu)質蛋白質模型更加準確,且導致高質量蛋白質模型(GDT_TS>80)的預測評分普遍偏小,如圖9所示.
圖9 預測GDT_TS和真實GDT_TS比對圖Fig.9 Plot of predicted GDT_TS against the true GDT_TS
3)蛋白質二級結構可分為α-螺旋,β-折疊以及l(fā)oop-環(huán)區(qū).本文的訓練數據中70%的蛋白質模型都是α-β-loop結構,α-loop和β-loop結構的蛋白質模型相對較少,造成BMBQA對這兩類結構的蛋白質模型預測較差,如圖10所示,T0950目標蛋白質只有α和loop結構,其目標下的蛋白質模型Pearson相關系數只有0.244.后續(xù)可以使用更多的目標蛋
圖10 T0950蛋白質結構Fig.10 Protein structure of T0950
白質,并通過3DRobot[38]生成數據分布更加平衡的數據集訓練更加泛化的BMBQA模型,同時也需要平衡3種二級結構類別的目標蛋白質數量.
可靠的評估蛋白質模型的質量分數對識別最佳的蛋白質模型和在生物醫(yī)學領域使用它們起到至關重要的作用.為了實現(xiàn)更精確的QA方法,本文提出了一個基于多尺度卷積和雙向門控循環(huán)神經網絡的BMBQA深度模型.在CASP13盲測試基準上與其余的QA先進方法進行比對,結果表明不管是評分的準確性還是蛋白質模型的排序能力,亦或是挑選最優(yōu)蛋白質模型的性能上都與當下先進的方法具有較強競爭力,每個評價指標BMBQA均位列前三名,體現(xiàn)了該方法的有效性和穩(wěn)定性.此外,本文還展示了BMBQA框架中的多尺度卷積模塊融合蛋白質序列淺層特征中的局部細節(jié)信息和深層特征中的局部抽象信息在生物領域的適用性,以及雙向門控循環(huán)神經網絡捕獲長距離的殘基相互作用的重要性.
為了進一步彌補不足,未來將進一步研究如何擴充數據集以達到數據平衡的目的,嘗試使用網格化蛋白質3D結構豐富特征信息,最后嘗試使用3D CNN和自注意力機制[39](Self-Attention)等深度學習手段進行特征提取,以獲得更準確的蛋白質質量評估.