鄭美麗,朱 琪,張步忠,2
(1.安慶師范大學 計算機與信息學院,安徽 安慶 246013;2.蘇州大學 江蘇省計算機信息處理技術(shù)重點實驗室,江蘇 蘇州 215006)
蛋白質(zhì)是由氨基酸縮水鏈接成的一種有機復合物,一個氨基酸殘基的基本構(gòu)成有中心Cα原子、氨基(-NH2)、羧基(-COOH)、氫鍵(-H)和側(cè)鏈R基團。蛋白質(zhì)三維結(jié)構(gòu)中,骨架主鏈上的二面角很大程度上反映了三維構(gòu)象。一個氨基酸殘基通常對應兩個二面角(首尾殘基除外)[1],φ(phi)和ψ(psi),范圍在-180°至180°之間。圍繞N-Ca的C-N-Ca-C原子構(gòu)成φ二面角,圍繞Ca-C鍵的N-Ca-C-N構(gòu)成ψ二面角,實例如圖1所示。蛋白質(zhì)主鏈二面角(φ,ψ)是蛋白質(zhì)結(jié)構(gòu)的一部分,研究蛋白質(zhì)二面角對于蛋白質(zhì)功能的研究具有重要的意義。諾貝爾獎獲得者Anfinsen[2]的實驗表明,蛋白質(zhì)的結(jié)構(gòu)信息包括二面角蘊含于其序列之中,從而表明從序列出發(fā)進行蛋白質(zhì)二面角預測是可行的。
圖1 蛋白質(zhì)二面角
骨架二面角作為一種重要的結(jié)構(gòu)約束,它對主鏈構(gòu)象變化的影響遠大于鍵長和鍵角,在蛋白質(zhì)結(jié)構(gòu)預測的空間進行采樣以研究蛋白質(zhì)折疊和細化中起著關鍵作用,準確預測骨架二面角可以加速對低能結(jié)構(gòu)構(gòu)象空間的有效采樣,大大推進三級結(jié)構(gòu)預測。
蛋白質(zhì)序列殘基的表示,主要有位置特異性評分矩陣[3](PSSM)、隱馬爾可夫模型打分矩陣[4](HMM)、物理化學性質(zhì)[5](PP)、蛋白質(zhì)二級結(jié)構(gòu)[6](SS)、溶劑可及性[7](SA)、序列編碼[8](SC)等。
1.1.1 位置特異性評分矩陣
序列進化信息對揭示蛋白質(zhì)結(jié)構(gòu)和功能非常重要。多序列比對方法PSI-BLAST[9]產(chǎn)生的位置特異性評分矩陣能揭示序列進化信息,被廣泛應用在蛋白質(zhì)相關的生物信息學中。如式(1)所示,PSSM是形如L×20的矩陣,其中L是蛋白質(zhì)序列長度,行是序列中殘基,列是現(xiàn)有20種氨基酸。P(i→j)表示序列中第i個殘基突變?yōu)榈趈種氨基酸殘基的概率。對于將PSSM數(shù)據(jù)作為序列表示,還需進行歸一化處理。
(1)
1.1.2 隱馬爾可夫模型評分矩陣
在多序列比對中,HH-suite[10]套件中的HHblits基于其專用格式的多序列數(shù)據(jù)庫,通過聚類UniProt或者NR庫,將序列長度對齊性80%以上、相似度20%以上的序列聚集,并生成對應的HMM特征文件。通過HHsearch/HHblits生成的HMM格式中,HMM數(shù)據(jù)部分表示的是該位置殘基向?qū)獨埢儺惖陌l(fā)生概率,用-1 000*lb(frequency)表示成正整數(shù),“*”表示零。隨后的一行是10種轉(zhuǎn)移概率。在作為數(shù)據(jù)特征表示時,可取前30列。
1.1.3 氨基酸的物理化學特性
蛋白質(zhì)其物理化學性質(zhì)一部分與氨基酸相似,一部分在特定環(huán)境下具有特定的性質(zhì)。在蛋白質(zhì)結(jié)構(gòu)特性預測中,常用的氨基酸理化性質(zhì)有:空間參數(shù)、極化率、體積、疏水性、等電點、螺旋概率和片概率,具體取值參見文獻[5]。
1.1.4 序列編碼
蛋白質(zhì)一級序列是字母編碼,對一級序列常用0-1編碼表示,多數(shù)用21或22維向量的正交編碼。由于該編碼形式只有一個非零向量,不利于梯度優(yōu)化類算法值更新,Zhang[11]采用自編碼器方式將0-1稀疏向量映射到稠密向量,計算方法如式(2),用h表示新的編碼。
(2)
1.1.5 其 它
蛋白質(zhì)結(jié)構(gòu)決定功能,描述其空間特性的二級結(jié)構(gòu)、溶劑可及表面積、殘基接觸圖[12](Contact Map,CM)、多序列比對信息(MMseqs2)等也應用到了二面角預測中。OPUS-TASS和OPUS-TASS2方法還使用獨特的PSP[13](Potential Based On Side Chain Packing)特征。為方便對比,表1列出了近年來的典型預測算法的特征表示。
表1 預測方法的輸入特征
蛋白質(zhì)二面角預測值表示主要有:數(shù)值(已歸一化),二面角的正弦和余弦函數(shù)值。SPINE X、Real-SPINE、Real-SPINE 2.0、Real-SPINE 3.0、DANGLE等方法輸出都是將二面角進行歸一化。SPIDER 2、SPIDER 3、SPIDER3-Single、DeepRIN、RaptorX-Angle、SPOT-1D、ProteinUnet、CRRNN2、SPOT-1D-single等通過輸出二面角的正弦、余弦函數(shù)來消除角度周期性,再通過公式α=tan-1[sinα/cosα]還原二面角。DESTRUCT、ANGLOR則是直接輸出二面角的角度。
二面角預測評價標準有皮爾遜相關系數(shù)(PCC)、平均絕對誤差(MAE)、均方根誤差(RMSE)等。在進行蛋白質(zhì)二面角預測評價時,對預測值P'和真實值E之間的差值通常先按式(3)將二面角進行角度變換,其中P'是預測二面角的原始值。PCC、MAE、RMSE分別通過式(4)~(6)計算。
(3)
(4)
(5)
(6)
1.4.1 訓練集
訓練集多數(shù)來自PISCES CullPDB[33]挑選的數(shù)據(jù)集,序列之間的相似度一般低于30%。也常從PDB蛋白質(zhì)數(shù)據(jù)庫中直接抽取序列并篩選用作訓練集。
1.4.2 測試集
對模型泛化性能進行測試用的數(shù)據(jù)集,多數(shù)來自一些公開數(shù)據(jù)集,如CB513、CASP(10-14)數(shù)據(jù)集等。另一種是算法提出者給出的測試集合,如TEST2016、TEST2018[27]、CASP-FM56[34]等。表2和表3分別給出了近年來的預測方法對(φ,ψ)二面角的預測性能,測試數(shù)據(jù)用CASP公共數(shù)據(jù)集。“FM”表示數(shù)據(jù)集中是無模板序列,預測難度更大。對比指標用PCC和MAE,“-”表示指標缺失。
表2 φ角在各測試集的評價指標
續(xù)表2
表3 ψ角在各測試集的評價指標
ψ角的預測難度高于φ角。從預測結(jié)果看,自Spider 3起的深度學習方法均取得了更優(yōu)性能,一方面是訓練數(shù)據(jù)更多,另外一方面參數(shù)更多的深度學習方法得到充分訓練后,泛化性能更好。特別地,OPUS-TASS2性能最好,其次分別是OPUS-TASS和SPOT-1D。這三個方法都是參數(shù)規(guī)模大的集成模型,SPOT-1D和OPUS-TASS混合使用長短期記憶網(wǎng)絡[35](Long-Short Term Memory,LSTM)、卷積神經(jīng)網(wǎng)絡[36](Convolutional Neural Networks,CNN)和殘差網(wǎng)絡[37](Residual Neural Network,ResNet);OPUS-TASS2進一步融合Transformer[38]。SPOT-1D和OPUS-TASS2都將Contact map作為輸入。
二面角預測可歸類為回歸問題,隨著蛋白質(zhì)已知結(jié)構(gòu)的數(shù)據(jù)集增多,機器學習方法已應用到該問題中。
二面角預測引入到計算領域最初是作為輔助手段提升二級結(jié)構(gòu)預測性能。2000年Bystroff[39]提出用隱馬爾可夫模型預測二面角構(gòu)象,將(φ,ψ)映射到10個區(qū)域和1個順式肽結(jié)構(gòu)。2004年,Kuang等[40]用支持向量機和神經(jīng)網(wǎng)絡預測二面角構(gòu)象,將(φ,ψ)映射到(A,B,G,E)四個區(qū)域。
2005年Wood等[14]提出DESTRUCT方法,用級聯(lián)反饋輸入策略構(gòu)建三個神經(jīng)網(wǎng)絡,預測二級結(jié)構(gòu)和ψ二面角,但其關注點依然在二級結(jié)構(gòu)。2008年,Wu和Zhang[15]提出ANGLOR方法,用PSSM和計算軟件預測的二級結(jié)構(gòu)、溶劑可及性作為輸入,用神經(jīng)網(wǎng)絡預測φ角、支持向量機預測ψ角。2009年Shen等[41]提出TALOS+模型,利用兩級前饋神經(jīng)網(wǎng)絡預測(φ,ψ)二面角。
2012年Song等[17]提出TANGLE,用兩階段的支持向量回歸(SVR)策略預測骨架二面角。TANGLE不依賴已知結(jié)構(gòu)信息,輸入是PSSM和PSIPred軟件預測的二級結(jié)構(gòu)、Scratch預測的溶劑可及性、Disopred2預測的固有無序信息、序列長度以及序列權(quán)重,輸入到第一階段SVR后,預測結(jié)果再輸入第二階段的SVR。Song還綜合驗證了輸入窗口尺寸和輸入特征組合對性能的影響。TANGLE完全從一級序列出發(fā)以及兩階段訓練、逐步求精的策略,對后續(xù)研究工作有深刻的影響。
2010年,Cheung等[42]提出DANGLE模型,用貝葉斯生成模型預測二面角。利用殘基鍵化學位移特性,將(φ,ψ)二面角映射到36×36的10°方格拉氏空間(Ramachandran Space)圖中。利用貝葉斯公式計算查詢散布模式(Query Scatter Pattern,QSP)下的(φ,ψ)概率。
限于計算資源和已知蛋白質(zhì)三維結(jié)構(gòu)不多等因素,傳統(tǒng)計算方法性能有待改進。但給本問題研究提供了參考意義。
近年來,深度學習方法由于其良好的泛化性能,廣泛應用在多個領域。2014年,Lyons等[43]用深度稀疏自編碼器堆疊的模型SPIDER預測骨架Cα上的θ和τ二面角。2015年Heffernan等[21]提出的SPIDER2可以預測蛋白質(zhì)二級結(jié)構(gòu)、二面角和溶劑可及表面積。SPIDER2模型結(jié)構(gòu)和SPIDER一樣,在訓練時進行三次迭代,上一次訓練結(jié)果作為下一次迭代訓練的輸入。實驗表明迭代式訓練能有效提升模型泛化性能。
2017年,Li等[44]將受限的玻爾茲曼機(RBM)與深度神經(jīng)網(wǎng)絡結(jié)合,設計出了深度遞歸RBM(DReRBM)模型。在受限的玻爾茲曼機的基礎上,將上一次的輸出ht-1作為本次輸入,充分擬合了蛋白質(zhì)序列上下游環(huán)境。DReRBM模型由輸入層、隱藏層和輸出層組成,多個RBM堆棧在其中,以一種逐步的方式訓練,一個訓練過的RBM的隱藏數(shù)據(jù)作為可見的輸入數(shù)據(jù)饋送給下一個RBM,模型梯度計算通過吉布斯采樣完成。
2017年,Heffernan等[22]提出SPIDER3模型預測蛋白質(zhì)二級結(jié)構(gòu)、溶劑可及性、接觸圖和二面角。SPIDER3由兩層雙向長短期記憶網(wǎng)絡[45](BLSTM)構(gòu)建。SPIDER3和SPIDER2一樣,采用迭代訓練的策略,上一輪輸出作為下一輪輸入,共迭代了4次。SPIDER3分別訓練了回歸和分類模型。BLSTM能記憶前向和后向兩個方向的時序輸入信息,較好地擬合了蛋白質(zhì)序列殘基和左右上下文相關的特性,能夠?qū)W習距離較遠和距離較近的序列內(nèi)的依賴關系。
卷積神經(jīng)網(wǎng)絡[36]結(jié)合殘差網(wǎng)絡[37],通過網(wǎng)絡層加深提升長范圍特征感知。2018年,Gao等[24]提出了RaptorX-Angle模型。RaptorX-Angle中堆疊了多個殘差塊。結(jié)合K-means算法,首先,從訓練數(shù)據(jù)中生成一組(φ,ψ)的聚類,從中可以得到每個聚類的分布;然后,利用深度學習方法對離散標簽進行預測;最后,通過混合經(jīng)驗聚類及其預測概率來預測實際二面角值。
另一典型CNN結(jié)構(gòu)模型是Fang等[25]在2018年提出的DeepRIN。DeepRIN結(jié)合Inception ResNet,構(gòu)建殘差Inception塊,并堆疊兩層殘差Inception塊。DeepRIN用小窗口卷積來提高網(wǎng)絡的計算效率。DeepRIN使用9 000條訓練數(shù)據(jù),并將每條序列長度對齊到700,輸入不再使用窗口形式。
鑒于RNN在長范圍特征獲取的優(yōu)勢、CNN局部特性獲取和ResNet便捷殘差傳遞的特點,多數(shù)模型結(jié)合三者用于預測二面角。2019年Klausen等[28]提出了NetSurfP-2.0模型,預測殘基的溶劑可及性、二級結(jié)構(gòu)、無序蛋白和骨架二面角。NetSurfP-2.0輸入是HMM特征和序列編碼,分別經(jīng)過32個卷積核129、257的CNN后,輸入兩層BLSTM網(wǎng)絡,BLSTM單向1 024個單元。NetSurfP-2.0使用了10 337條訓練序列,其參數(shù)規(guī)模也達到了3 400萬,過多網(wǎng)絡參數(shù)給訓練和預測帶來了不便。
2019年,Kim等[46]提出使用生成對抗網(wǎng)絡(GAN)進行二面角預測,訓練了GAN的鑒別器來估計密度,但模型的顯式密度不易處理。因此,引入噪聲對比估計(Noise-Contrastive Estimation,NCE)來估計非歸一化統(tǒng)計模型的歸一化常數(shù),即引入了噪聲對比估計生成對抗網(wǎng)絡(NCE-GAN),通過從已知分布(如噪聲對比估計)中輸入噪聲樣本,并為鑒別器添加相應的類,從而實現(xiàn)生成對抗網(wǎng)絡的顯式密度估計。
2019年,Hanson等[27]提出SPOT-1D模型,預測蛋白質(zhì)二級結(jié)構(gòu)、二面角、溶劑可及性和殘基接觸數(shù)(Contact Number)。SPOT-1D的輸入在PSSM、HMM特征和理化性質(zhì)的基礎上,將預測的接觸圖作為輸入改進模型泛化性能。SPOT-1D利用BLSTM和ResNet混合模型的集成來識別和傳播整個序列的短期和長期依賴,SPOT-1D由9個網(wǎng)絡結(jié)構(gòu)的模型集成。SPOT-1D訓練集包含10 029條序列,分別訓練了分類和回歸兩類模型,總模型文件大小10 GB左右。SPOT-1D在多個任務上均取得較好性能,但其龐大的模型不利于在生物領域應用開展。
2020年,Xu等[31]提出的OPUS-TASS性能比SPOT-1D更好。OPUS-TASS輸入為PSSM、HMM、理化性質(zhì)和19位PSP,分別送到5層CNN網(wǎng)絡、2層Transformer網(wǎng)絡(編碼部分),兩部分合并得到228維的數(shù)據(jù)再送給4層BLSTM網(wǎng)絡。OPUS-TASS分別集成7個模型用于分類和回歸預測。OPUS-TASS模型文件3.7 GB,比SPOT-1D要小,但依然對實際應用的資源要求較高。
2018年,Heffernan等提出了僅使用序列信息的SPIDER3-Single[23]模型,SPIDER3-Single的網(wǎng)絡結(jié)構(gòu)和訓練方法與SPIDER3類似,不同的是僅用了20維序列編碼作為輸入。但SPIDER3-Single模型泛化性能和SPIDER3相比還是有較大差距。2021年Kotowski等[29]提出ProteinUnet模型,ProteinUnet輸入和SPIDER3-Single一樣,但大幅度提升了預測性能。
2021年,Singh等[30]同樣提出了面向單序列輸入的SPOT-1D-Single模型。SPOT-1D-Single集成了三個不同的結(jié)構(gòu)模型,也分別面向分類和回歸訓練。SPOT-1D-Single使用39 120條訓練序列。SPOT-1D-Single泛化性能不如SPOT-1D,但已超越ProteinUnet,并已有了一定的實用價值。
通過上述分析,計算方法特別是深度學習預測二面角,取得了較好進展,但預測性能依然有提升空間,針對相關研究,可以從以下幾個方面進行思考:
(1)單序列輸入更方便生物學人員使用?,F(xiàn)有模型多依賴PSSM、HMM等多序列比對信息,對非專業(yè)人員要求高。僅有序列編碼信息的單序列模型,對生物學人員更友好,而單序列輸入模型性能還有待提高。
(2)需要設計對計算資源依賴更少的模型。在泛化性能一致時,輕量級模型更方便用戶使用,推理時對計算資源依賴更少。
(3)可將多個問題聯(lián)合解決。二面角、二級結(jié)構(gòu)、接觸圖等蛋白質(zhì)結(jié)構(gòu)層面問題,相互依賴。如二級結(jié)構(gòu)預測性能提升,同樣能推動二面角預測性能。將預測得到的接觸圖等信息作為模型輸入,同樣也能提升二面角、二級結(jié)構(gòu)預測性能。
(4)訓練樣本依然偏少。截至到2022年4月,PDB數(shù)據(jù)庫中通過生物實驗手段解析的已知蛋白質(zhì)結(jié)構(gòu)10.66萬條。這些數(shù)據(jù)無法支持類似BERT大規(guī)模模型訓練,需要設計對序列特性捕獲更好的深度學習模型。
蛋白質(zhì)骨架二面角是蛋白質(zhì)結(jié)構(gòu)的重要屬性,高精度地預測蛋白質(zhì)骨架二面角以加速對三維結(jié)構(gòu)構(gòu)象空間的有效采樣,對蛋白質(zhì)三級結(jié)構(gòu)預測具有重要意義。該文對蛋白質(zhì)骨架二面角預測算法的發(fā)展和領域內(nèi)最新研究進行了綜述,從序列表征、輸出、數(shù)據(jù)集、結(jié)構(gòu)框架等方面介紹算法。同時,對當前二面角預測存在的問題進行了思考。