張曉慧 谷昊晟 王知人
(燕山大學(xué)理學(xué)院,秦皇島066004)
隨著后基因組時代的到來以及解析獲得的蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)越來越多,蛋白質(zhì)結(jié)構(gòu)-功能關(guān)系研究成為結(jié)構(gòu)生物學(xué)研究領(lǐng)域的重要科學(xué)問題,受到生命科學(xué)研究者的普遍關(guān)注。蛋白質(zhì)是生物功能的主要實現(xiàn)者,生物體的一切生命活動幾乎都離不開蛋白質(zhì)的參與,蛋白質(zhì)在基因表達調(diào)控、生物化學(xué)反應(yīng)的催化、物質(zhì)運輸、信號傳導(dǎo)、免疫防御、新陳代謝等生命過程中都發(fā)揮著關(guān)鍵性的作用。而蛋白質(zhì)的各種生物學(xué)功能取決于其不同的空間結(jié)構(gòu)以及特定的構(gòu)象運動,蛋白質(zhì)在不同的生理環(huán)境和功能狀態(tài)下會呈現(xiàn)不同的空間構(gòu)象,蛋白質(zhì)生物學(xué)功能的實現(xiàn)有賴于其特定空間構(gòu)象的轉(zhuǎn)變[1],因此,蛋白質(zhì)結(jié)構(gòu)的動態(tài)性和柔性是蛋白質(zhì)行使其生物功能的關(guān)鍵因素,基于蛋白質(zhì)的三維結(jié)構(gòu)預(yù)測其柔性運動特征,開發(fā)有效預(yù)測蛋白質(zhì)柔性的數(shù)學(xué)模型和工具,有助于蛋白質(zhì)生物學(xué)功能分子機制的研究,可以為藥物設(shè)計和納米分子器型的設(shè)計提供重要信息,具有重要的理論意義和應(yīng)用價值。
關(guān)于分析和預(yù)測蛋白質(zhì)柔性的問題很早就受到分子生物學(xué)家、計算生物學(xué)家等的高度關(guān)注。近幾年,基于機器學(xué)習(xí)預(yù)測蛋白質(zhì)柔性分析方法取得了良好的效果。2011 年Hwang 等[2]開發(fā)了一種基于支持向量機的機器學(xué)習(xí)策略預(yù)測了蛋白質(zhì)表面loop區(qū)的柔性,使用蛋白質(zhì)單體結(jié)構(gòu)中l(wèi)oop 區(qū)殘基的Ramachandran 角、晶體學(xué)B 因子和相對溶劑可及表面積三個特征,來區(qū)分蛋白質(zhì)表面的柔性loop區(qū)和剛性loop 區(qū),由表面loop 區(qū)的運動情況解釋蛋白質(zhì)-蛋白質(zhì)結(jié)合時表面的構(gòu)象變化。2017 年李海鷗[3]在蛋白質(zhì)-配體對接骨架柔性以及全原子柔性的優(yōu)化方面進行了研究,構(gòu)建了一個基于多種深度學(xué)習(xí)模型的蛋白質(zhì)二面角預(yù)測框架,精確地預(yù)測了蛋白質(zhì)二面角,為蛋白質(zhì)對接中骨架柔性的處理提供了一種非常有效的解決思路。同時,也提出了一種蛋白質(zhì)整體結(jié)構(gòu)重構(gòu)的方法,使用了深度學(xué)習(xí)模型中的多層堆疊自動編碼器模型,有效地避免了基于模板的傳統(tǒng)蛋白質(zhì)結(jié)構(gòu)預(yù)測方法中的采樣算法復(fù)雜、打分函數(shù)不準(zhǔn)確的問題。2018 年Bramer等[4]結(jié)合多種機器學(xué)習(xí)模型和多尺度加權(quán)彩色圖(MWCGs)方法,對蛋白質(zhì)的B 因子進行了預(yù)測。該方法利用MWCGs來提取蛋白質(zhì)結(jié)構(gòu)的局部柔性特征,進而與蛋白質(zhì)結(jié)構(gòu)分辨率、重原子個數(shù)、結(jié)構(gòu)解析的R實驗值等蛋白質(zhì)全局特征相結(jié)合,通過決策樹、隨機森林和卷積神經(jīng)網(wǎng)絡(luò)對大、中、小三組蛋白質(zhì)數(shù)據(jù)集進行了訓(xùn)練和測試;結(jié)果表明,用機器學(xué)習(xí)方法得到的B 因子預(yù)測結(jié)果比用GNM 等傳統(tǒng)方法得到的最小二乘擬合結(jié)果更準(zhǔn)確。2020年Bemister-Buffington 等[5]通過基于圖理論的ProFlex 方法獲得蛋白質(zhì)柔性分析,結(jié)合有效的機器學(xué)習(xí)模型對18個非活性和9個活性狀態(tài)的蛋白質(zhì)偶聯(lián)受體(GPCRs)的跨膜螺旋和loop區(qū)進行了分析,有效識別了由配體觸發(fā)的GPCRs 中配體結(jié)合位點的柔性轉(zhuǎn)變。大量研究表明,機器學(xué)習(xí)方法是蛋白質(zhì)結(jié)構(gòu)和柔性特征分析和預(yù)測的有效工具,在蛋白質(zhì)結(jié)構(gòu)-功能關(guān)系研究中得到了廣泛應(yīng)用。
除了傳統(tǒng)的機器學(xué)習(xí)方法,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)等深度學(xué)習(xí)模型在蛋白質(zhì)結(jié)構(gòu)-功能關(guān)系中也逐步得到了應(yīng)用。CNN 模型在二維和三維圖像識別領(lǐng)域取得了巨大成功和廣泛應(yīng)用,圖像數(shù)據(jù)具有規(guī)則的數(shù)據(jù)結(jié)構(gòu)形式,比如規(guī)則的二維網(wǎng)格或三維體素。而蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)是一種非規(guī)則的數(shù)據(jù)結(jié)構(gòu)形式,為了構(gòu)建適用于蛋白質(zhì)體系的CNN 模型,現(xiàn)有的處理方法主要有兩類:一類是人為地劃分空間網(wǎng)格,將蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)轉(zhuǎn)換為三維體素或圖片集合的形式,進而采用圖像處理領(lǐng)域常用的CNN 模型進行蛋白質(zhì)體系的研究。2017年Jiménez等[6]從計算機視覺的角度將蛋白質(zhì)結(jié)構(gòu)視為三維圖像,將三維空間離散成1? × 1? × 1? 大小的體素網(wǎng)格,根據(jù)蛋白質(zhì)中原子的體積,將所有原子映射到相應(yīng)的網(wǎng)絡(luò)上,同時,考慮了原子的7種特質(zhì)(疏水性、芳香性、氫鍵受體或供體、帶正或負(fù)電以及是否金屬離子),將這些特征作為格點不同的特征通道,利用三維卷積模型,來預(yù)測蛋白質(zhì)的活性位點。2020 年Wang等[7]開發(fā)了一種名為DOVE 的基于三維卷積操作的深度神經(jīng)網(wǎng)絡(luò)方法,以蛋白質(zhì)-蛋白質(zhì)相互作用界面為中心,設(shè)置203 ?3或403 ?3大小的盒子,將盒子進行網(wǎng)格劃分,將蛋白質(zhì)中的原子映射到不同的網(wǎng)格內(nèi),并將原子相互作用類型及其能量貢獻作為神經(jīng)網(wǎng)絡(luò)的輸入特征,利用三維卷積運算來預(yù)測蛋白質(zhì)-蛋白質(zhì)對接模式。另一類被大家廣泛采用的方法是將蛋白質(zhì)抽象為由大量的點和邊所構(gòu)成的分子圖,圖中的節(jié)點表示體系中的原子,邊表示原子之間的化學(xué)鍵,進而通過設(shè)計特定的圖卷積運算操作對蛋白質(zhì)體系特征進行提取分析。2017 年Fout 等[8]將蛋白質(zhì)結(jié)構(gòu)抽象為節(jié)點和邊所構(gòu)成的圖,評估了多個圖卷積算子,通過對節(jié)點局部性質(zhì)的卷積運算,來有效識別蛋白質(zhì)-蛋白質(zhì)相互作用界面,結(jié)果表明,這種方法預(yù)測的精度優(yōu)于基于支持向量機的方法。2020年Mahmoud等[9]將蛋白質(zhì)和配體抽象為由點和邊所構(gòu)成的圖,對于蛋白質(zhì)的圖模型,每一個節(jié)點代表一個殘基的Cα原子,節(jié)點的特征用殘基的類型來表示,節(jié)點之間邊的特征用兩個殘基Cα原子之間的距離來表示,對于配體的圖模型,節(jié)點和邊分別表示配體的重原子以及它們之間的共價連接。進而,利用圖神經(jīng)網(wǎng)絡(luò)來預(yù)測蛋白質(zhì)的Cα原子與配體重原子之間的距離。研究表明,相對于傳統(tǒng)的分子對接方法,該模型對于蛋白質(zhì)-配體結(jié)合模式預(yù)測的效率和準(zhǔn)確性方面都有顯著提高。然而,上述兩類方法均存在一定的局限性和不足。在第一類方法中,需要將蛋白質(zhì)體系內(nèi)的所有原子映射到各自最近的網(wǎng)絡(luò)上,這種映射過程會人為導(dǎo)致結(jié)構(gòu)上的誤差。同時,由于不同的蛋白質(zhì)大小不一,對于體積比較小的蛋白質(zhì),存在大量的空網(wǎng)格,增加了很多不必要的計算。在第二類方法中,將蛋白質(zhì)抽象為圖的過程中,會人為丟失部分結(jié)構(gòu)信息,比如原子之間的距離、相對位置等。
Qi等[10]提出了一種基于點云的卷積神經(jīng)網(wǎng)絡(luò)模型PointNet,在三維物體識別和分割研究中取得了非常好的效果,本文借鑒PointNet 模型的思想,將蛋白質(zhì)體系視為大量原子所構(gòu)成的點云,通過對點云的卷積運算來預(yù)測蛋白質(zhì)結(jié)構(gòu)的柔性。該方法直接將蛋白質(zhì)體系中所有原子的三維坐標(biāo)作為輸入,不需要對蛋白質(zhì)的空間結(jié)構(gòu)進行人為預(yù)處理,保留了蛋白質(zhì)結(jié)構(gòu)中所有原子的位置信息。在卷積運算中,分別使用對稱池化操作和空間變換網(wǎng)絡(luò)[11]來處理點云的排列不變性和空間旋轉(zhuǎn)不變性。與Qi 等的模型不同的是,不同的蛋白質(zhì)結(jié)構(gòu)所含有的原子數(shù)量不均一、數(shù)據(jù)尺寸不規(guī)則,為了實現(xiàn)網(wǎng)絡(luò)的小批量訓(xùn)練方法,提出了一種新的批量化策略,使用大小不等的蛋白質(zhì)小批量輸入對網(wǎng)絡(luò)進行迭代訓(xùn)練,并采用Pearson 相關(guān)系數(shù)作為模型訓(xùn)練的評價指標(biāo)。同時,在網(wǎng)絡(luò)的池化層和空間變換網(wǎng)絡(luò)部分,采用了最大池化、平均池化串聯(lián)的方法,有效避免一些極端情況發(fā)生,提升了網(wǎng)絡(luò)的穩(wěn)定性[12]。相對于大的蛋白質(zhì)體系,小蛋白質(zhì)的柔性更大,預(yù)測也更為困難,為此,本文選用小于60 個氨基酸的小蛋白質(zhì)體系作為研究對象,在蛋白質(zhì)數(shù)據(jù)庫(protein data bank,PDB)中收集了243個非冗余蛋白質(zhì)結(jié)構(gòu)作為數(shù)據(jù)集,訓(xùn)練并測試了所搭建網(wǎng)絡(luò)對蛋白質(zhì)溫度因子(B因子)[13]的預(yù)測效果,并與蛋白質(zhì)柔性分析中廣泛采用的高斯網(wǎng)絡(luò)模型[14](Gaussian network model,GNM)的預(yù)測效果進行了比較。
本文使用的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)來自于PDB 數(shù)據(jù)庫(http://www.rcsb.org/),利用網(wǎng)站所提供的高級檢索工具,按照如下標(biāo)準(zhǔn)搜集蛋白質(zhì)結(jié)構(gòu)文件數(shù)據(jù),建立非冗余的小蛋白結(jié)構(gòu)數(shù)據(jù)集:
a.蛋白質(zhì)的殘基數(shù)目范圍在0~60;
b.蛋白質(zhì)的結(jié)構(gòu)通過X-射線晶體結(jié)構(gòu)解析方法獲得,并且分辨率在0.0~1.5 ?之間;
c.蛋白質(zhì)結(jié)構(gòu)中僅包含一條鏈;
d.所有蛋白質(zhì)的序列同源性小于30%。
從滿足上述標(biāo)準(zhǔn)的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)中排除溫度因子值全部相同和溫度因子為0的蛋白質(zhì),最終剩余243個PDB文件。在這243個蛋白質(zhì)體系中任意選取210個作為訓(xùn)練集,其余33個作為測試集。訓(xùn)練集的210個蛋白質(zhì)PDB代碼列在了附件表S1中,測試集的33個蛋白質(zhì)PDB代碼見表3。
本文借鑒了PointNet對三維點云進行局部結(jié)構(gòu)識別和分割的思想,搭建了蛋白質(zhì)柔性預(yù)測的卷積神經(jīng)網(wǎng)絡(luò)模型,對蛋白質(zhì)的B 因子進行回歸預(yù)測,具體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
Fig.1 Network structure
1.2.1 網(wǎng)絡(luò)算法的具體步驟
a.提取蛋白質(zhì)氨基酸Cα原子的三維坐標(biāo)作為輸入,矩陣大小為N× 3,N代表蛋白質(zhì)中氨基酸的數(shù)目,利用改進的空間變換網(wǎng)絡(luò)T-net,預(yù)測出3× 3 的轉(zhuǎn)換矩陣,將輸入數(shù)據(jù)與轉(zhuǎn)換矩陣相乘,獲得蛋白質(zhì)整體旋轉(zhuǎn)后的坐標(biāo)。
b.根據(jù)疏水性[15]和帶電荷[16]情況將氨基酸分為4類,分別是非極性、極性不帶電、極性帶正電以及極性帶負(fù)電。與氨基酸的20個種類相串聯(lián),形成一個24 維的特征向量,對提取的特征使用one-hot 編碼將其映射到歐式空間,使模型能夠更好地識別特征。將第一步變換后的坐標(biāo)數(shù)據(jù)與24維特征進行串聯(lián),得到大小為N× 27的數(shù)據(jù)。
c.對第2步得到的數(shù)據(jù)通過三層卷積操作使其映射到高維空間,圖中卷積層用Conv 來表示。第一層卷積(Conv1)的卷積核大小為1× 27,其余卷積核大小為1× 1,步長均為1,三層卷積核數(shù)目分別為64、128、128。
d.對第3步得到的數(shù)據(jù)再次通過T-net網(wǎng)絡(luò)進行旋轉(zhuǎn)。
e.將第4步旋轉(zhuǎn)后的數(shù)據(jù)通過兩層卷積操作映射到更高維的空間,卷積核均為1× 1,步長為1,卷積核數(shù)目分別為256、512,最后得到512維的高維特征。
f.對第5 步得到的高維特征進行對稱池化操作,將15個蛋白質(zhì)分開進行最大池化得到512維的全局特征向量。
g.在網(wǎng)絡(luò)中添加跳躍連接[17]來建立層與層之間的關(guān)系,收集不同層中的局部特征,將第6步得到的全局特征復(fù)制N次,得到一個N× 512 的矩陣,將其與第3步和第5步得到的局部特征相串聯(lián),最終得到一個N× 1600的特征矩陣。
h.利 用 一 個 多 層 感 知 機[18]mlp(256,256,128)進行特征降維,其中三層卷積的卷積核大小均為1× 1,步長均為1,并運用dropout(本文設(shè)為0.8)來防止網(wǎng)絡(luò)過擬合,最終得到網(wǎng)絡(luò)預(yù)測的B因子值。
1.2.2 批量化策略
深度學(xué)習(xí)網(wǎng)絡(luò)的優(yōu)化常常采用小批量化策略,需要小批量的大小batch_size 參數(shù)所控制,代表每一次迭代所需的樣本數(shù),合適的batch_size 大小能夠提高網(wǎng)絡(luò)計算效率,減少訓(xùn)練一次全樣本集所需的迭代次數(shù),并且訓(xùn)練速度也可大大提高,同時batch_size 可以確定梯度的下降方向,使模型的收斂更加穩(wěn)定。
本網(wǎng)絡(luò)使用的數(shù)據(jù)集是蛋白質(zhì)結(jié)構(gòu),而蛋白質(zhì)分子大小不一,會導(dǎo)致不同批次的小批量數(shù)據(jù)大小不規(guī)則,為了解決這一問題,本文提出了一種新的批量化策略,實現(xiàn)了輸入蛋白質(zhì)大小不等情形下的小批量迭代訓(xùn)練。本文設(shè)置的batch_size 大小為15,即同一批次放入15 個蛋白質(zhì)數(shù)據(jù)。在網(wǎng)絡(luò)的卷積運算過程中,當(dāng)運行轉(zhuǎn)換矩陣操作、使用對稱池化操作來提取全局特征以及計算損失函數(shù)的時候是需要對同一批次的不同蛋白質(zhì)體系進行區(qū)分?;谠摼W(wǎng)絡(luò)結(jié)構(gòu),為了能夠使15 個訓(xùn)練樣本中的所有殘基點一起進行訓(xùn)練,本研究將15 個樣本進行串連,得到一個M× 3 的矩陣,M=N1+N2+N3+ …+N15,其中N1,N2…N15分別為15個樣本中每個樣本的殘基個數(shù),M為15 個樣本殘基個數(shù)的總和,將這個矩陣作為一次迭代的輸入,用于網(wǎng)絡(luò)第3 步與第5 步的卷積操作中,以提取每個殘基的局部特征。
在應(yīng)用變換矩陣、進行對稱池化操作以及計算損失函數(shù)的時候,需將15 個蛋白質(zhì)分開訓(xùn)練,因此本文使用tensorflow 框架下的數(shù)組拆分函數(shù)——tf.dynamic_partition 函數(shù),將15 個樣本進行分離。首先對M× 3 矩陣中的每一個殘基都生成一個標(biāo)簽,這個標(biāo)簽代表這個殘基所屬哪一個蛋白質(zhì)樣本,最終得到一個M維的向量,形式如下:
接著使用數(shù)組拆分函數(shù),操作效果如圖2所示。
圖中第一行表示每個元素的標(biāo)簽,第二行表示不同樣本的點,第一行相同的數(shù)字表示它們屬于同一個樣本(圖2),tf.dynamic_partition 函數(shù)可以通過標(biāo)簽將每一個樣本都提取出來,即把15 個蛋白質(zhì)分開,方便應(yīng)用變換矩陣、進行對稱池化操作以及計算損失函數(shù),最終整體實現(xiàn)小批量化。
Fig.2 TF.Dynamic_Partition function renderings
1.2.3 模型的改進
為保持點云的置換不變形,在本文所建立的基于PointNet 的CNN 模型中,采用了最大池化操作來提取蛋白質(zhì)體系的整體特征,最大池化操作與殘基的排列次序無關(guān),具有點云的置換不變性。除了最大池化外,平均池化也具有點云的置換不變性,為此,為了進一步提高網(wǎng)絡(luò)的預(yù)測性能,在改進的模型中,同時考慮最大池化和平均池化,通過添加平均池化與最大池化串聯(lián)的操作方法,將最大池化和平均池化提取的兩種全局特征進行串聯(lián),得到包含更多蛋白質(zhì)數(shù)據(jù)信息的全局特征向量,既保證了對蛋白質(zhì)數(shù)據(jù)或特征排列的不變性,又增加了全局特征的信息量,使得模型更加穩(wěn)定,具體結(jié)構(gòu)如圖3所示。
Fig.3 Improved symmetric pooling operation
1.2.4 評價指標(biāo)
本文使用Pearson 相關(guān)系數(shù)作為評價指標(biāo),其計算表達式如下:
其中N代表蛋白質(zhì)中氨基酸的個數(shù),xi表示由本文網(wǎng)絡(luò)預(yù)測出的B 因子值,i= 1,2,…。yi,i=1,2,…,i表示蛋白質(zhì)PDB文件中的實驗B 因子值,分別代表xi、yi的算術(shù)平均值。
1.2.5 損失函數(shù)
損失函數(shù)是深度學(xué)習(xí)中一個至關(guān)重要的結(jié)構(gòu),網(wǎng)絡(luò)優(yōu)化的過程,就是最小化損失函數(shù)的過程。Pearson相關(guān)系數(shù)的輸出范圍為[-1,+1],相關(guān)系數(shù)越大,則相關(guān)性越強,0 代表無相關(guān)性。因此,將1-ρ作為損失函數(shù),ρ為Pearson 相關(guān)系數(shù)表達式,損失函數(shù)表達式為:
其中,N為向量中元素個數(shù),xi與yi分別表示理論和實驗B因子值,i= 1,2,…,分別代表xi、yi的算術(shù)平均值。
在深度學(xué)習(xí)中,調(diào)整超參數(shù)是優(yōu)化網(wǎng)絡(luò)的常用方法,通過觀察本文網(wǎng)絡(luò)的評價指標(biāo)即Pearson 相關(guān)系數(shù),可以判斷當(dāng)前網(wǎng)絡(luò)處于什么樣的狀態(tài),及時調(diào)整超參數(shù)可以科學(xué)有效的訓(xùn)練模型,節(jié)約大部分時間。針對蛋白質(zhì)數(shù)據(jù)大小不等的特殊性,本文設(shè)計了新的小批量(mini-batch)優(yōu)化策略,設(shè)置每一批的batch-size 為15,網(wǎng)絡(luò)的優(yōu)化過程采用動量(momentum)優(yōu)化算法,訓(xùn)練輪數(shù)(epoch)為20,為防止過擬合,在最后利用多層感知機進行降維時設(shè)置丟棄率(dropout)為0.8。本文對學(xué)習(xí)率(learning rate)和動量兩個超參數(shù)進行了調(diào)整優(yōu)化,使得網(wǎng)絡(luò)預(yù)測值與實驗值的Pearson 相關(guān)系數(shù)達到最優(yōu),表1和表2顯示了預(yù)測精度隨超參數(shù)的變化情況。
Table 1 Optimization of the super-parameter learning rate
表1固定動量不變,調(diào)整學(xué)習(xí)率的大小,學(xué)習(xí)率是指在優(yōu)化算法中更新網(wǎng)絡(luò)權(quán)重的幅度大小,學(xué)習(xí)率過大可能會使模型不收斂,出現(xiàn)nan 的情況(nan 表示一些特殊數(shù)值,用于處理計算中出現(xiàn)的錯誤情況);學(xué)習(xí)率過小則導(dǎo)致模型收斂速度偏慢,訓(xùn)練時間較長。通常學(xué)習(xí)率有4個常用值,即0.000 1、0.001、0.01、0.1[19],本文在這4 個常用值附近進行調(diào)整優(yōu)化獲得最優(yōu)的學(xué)習(xí)率參數(shù)值。由表1 可以看出當(dāng)以0.000 1 作為初始值,優(yōu)化到取0.000 3 時,Pearson 相關(guān)系數(shù)不再變化,則開始下一個取值點0.001 作為初始值進行優(yōu)化。按照此規(guī)律調(diào)整至0.03 和0.1 時,相關(guān)系數(shù)出現(xiàn)了nan 的情況,這表明學(xué)習(xí)率太大導(dǎo)致模型不收斂。
表1 數(shù)據(jù)顯示當(dāng)學(xué)習(xí)率為0.002 時,相關(guān)系數(shù)達到最大,因此本文固定學(xué)習(xí)率為0.002 再進行動量的調(diào)整,結(jié)果如表2 所示。通常會嘗試在0.9 到0.99 范圍內(nèi)設(shè)定動量值[19],并從中選擇一個表現(xiàn)最佳值。由表2 可以看出當(dāng)學(xué)習(xí)率取0.002、動量取0.97時,Pearson相關(guān)系數(shù)值達到最高。
Table 2 Optimization of the super-parameter momentum
GNM[20]是分析蛋白質(zhì)結(jié)構(gòu)固有柔性的有效方法,在蛋白質(zhì)動力學(xué)性質(zhì)分析以及蛋白質(zhì)結(jié)構(gòu)-功能關(guān)系研究中得到了廣泛應(yīng)用。在GNM 方法中,蛋白質(zhì)的三維結(jié)構(gòu)被簡化為一個由大量節(jié)點和彈簧所構(gòu)成的彈性網(wǎng)絡(luò),用蛋白質(zhì)中氨基酸的Cα原子來代替每個氨基酸并以此為網(wǎng)絡(luò)節(jié)點,當(dāng)兩個Cα原子之間距離小于截斷半徑時(本文取7.3 ?),節(jié)點之間用彈簧連接,模型中所有彈簧的彈性系數(shù)均相同。通過簡正模式分析可以獲得蛋白質(zhì)體系的固有運動模式。大量的研究表明,目前GNM方法已經(jīng)成為蛋白質(zhì)B因子計算的主要理論方法之一,且預(yù)測結(jié)果較好,因此將本文方法的預(yù)測結(jié)果與GNM 計算方法的結(jié)果進行對比,驗證該網(wǎng)絡(luò)模型的有效性。在243 個數(shù)據(jù)集中隨機選取210 個文件作為訓(xùn)練集,剩余33 個最為測試集。利用訓(xùn)練集對本文所搭建的網(wǎng)絡(luò)模型以及改進的網(wǎng)絡(luò)模型進行了訓(xùn)練,并利用訓(xùn)練好的模型對測試集中33 個蛋白質(zhì)的B因子進行預(yù)測。大量的研究表明,蛋白質(zhì)的柔性運動主要由其天然拓?fù)浣Y(jié)構(gòu)所決定[21]。同時,為了將本文模型的預(yù)測結(jié)果與GNM方法的計算結(jié)果進行比較,類似于GNM的做法,在本文模型中,對蛋白質(zhì)體系進行了粗粒化處理,每一個氨基酸僅保留其Cα原子,其他原子均忽略。本文所構(gòu)建的網(wǎng)絡(luò)模型以及改進的網(wǎng)絡(luò)模型的預(yù)測結(jié)果見表3和表4。作為對比,利用GNM方法對測試集中的33 個蛋白質(zhì)體系的B 因子進行了計算。利用GNM方法進行計算時發(fā)現(xiàn)1ob4的第二個本征值為0,故排除。最終使用測試集中其余的32個蛋白質(zhì)體系對三種模型的預(yù)測精度進行了對比(表3、4)。
Table 3 Pearson correlation coefficient of the B-factors for each protein in the test dataset predicted by our models compared with those predicted by GNM
表3 為32 個測試集中每個蛋白質(zhì)B 因子的Pearson 相關(guān)系數(shù),可以看出部分蛋白質(zhì)基于PointNet模型和改進模型的預(yù)測結(jié)果要優(yōu)于GNM,部分蛋白質(zhì)比GNM差。經(jīng)過對比測試集中各個蛋白質(zhì)的結(jié)構(gòu)發(fā)現(xiàn),對于結(jié)構(gòu)較為松散或N端和C端loop區(qū)較長的蛋白質(zhì)來說,本文模型預(yù)測結(jié)果優(yōu)于GNM,對于結(jié)構(gòu)較為緊湊的部分蛋白質(zhì),本文模型略差于GNM。據(jù)統(tǒng)計,基于PointNet 模型和改進模型B因子預(yù)測結(jié)果高于GNM模型的蛋白質(zhì)數(shù)量占比均為62.5%,改進模型預(yù)測結(jié)果高于基于PointNet 模型的蛋白質(zhì)數(shù)量占比為53%。考慮到GNM 模型需要基于簡正模分析理論,進行較復(fù)雜的物理計算,理論復(fù)雜,計算量大。而本文方法利用卷積神經(jīng)網(wǎng)絡(luò)直接提取蛋白質(zhì)結(jié)構(gòu)所固有的柔性特征,不需要復(fù)雜的理論分析,訓(xùn)練完成的網(wǎng)絡(luò)模型可以方便的用于其他蛋白質(zhì)體系的預(yù)測,計算簡單快速,適用性好,并且預(yù)測效果略好于GNM方法。
Table 4 Mean Pearson correlation coefficient between the predicted and experimental B-factors for our proposed models compared with the results of GNM
表4 為32 個測試集中B 因子預(yù)測的平均Pearson相關(guān)系數(shù),由表4可以看出相較于GNM網(wǎng)絡(luò),基于PointNet 模型的平均Pearson 相關(guān)系數(shù)提高了6.7%,改進后的模型平均Pearson相關(guān)系數(shù)提高了8.3%。由此可見,本文網(wǎng)絡(luò)在預(yù)測蛋白質(zhì)柔性方面效果較好。
為進一步說明本文網(wǎng)絡(luò)的準(zhǔn)確性,利用本文所提出的基于PointNet的卷積神經(jīng)網(wǎng)絡(luò)模型以及改進的模型對大蠟螟絲蛋白酶抑制2(PDB 代碼4hgu)的B 因子進行預(yù)測,并與GNM 方法的計算結(jié)果進行比較。大蠟螟絲蛋白酶抑制2的三維結(jié)構(gòu)見圖4。該蛋白質(zhì)整體是較為致密的球形結(jié)構(gòu),它由一個三股β片、一個α螺旋以及N端較長的loop結(jié)構(gòu)所構(gòu)成。本文所提出的基于PointNet的卷積神經(jīng)網(wǎng)絡(luò)模型以及改進的模型預(yù)測得到的B因子與實驗B因子的Pearson 相關(guān)系數(shù)分別為0.80、0.85,而GNM 方法計算得到的B 因子與實驗B 因子的Pearson 相關(guān)系數(shù)為0.69(圖5)。
Fig.4 The tertiary structure of Galleria mellonella silk protease inhibitor 2
Fig.5 The B-factors of Galleria mellonella silk protease inhibitor 2 predicted by our PointNet-based model,the improved model and the GNM,respectively,compared with the experimental data
圖5a為GNM模型預(yù)測得到的B因子與實驗值的擬合曲線,可看出GNM模型對于大蠟螟絲蛋白酶抑制2 的N 端和C 端區(qū)域的柔性預(yù)測效果較差;圖5b 為基于PointNet 的CNN 模型預(yù)測結(jié)果,圖5c為改進模型的預(yù)測結(jié)果,可以看出基于PointNet的CNN 模型和改進模型的預(yù)測結(jié)果相差不大,二者略好于GNM網(wǎng)絡(luò)模型。
GNM 模型對于結(jié)構(gòu)緊密的蛋白質(zhì)體系柔性預(yù)測效果較好,而對于結(jié)構(gòu)松散的蛋白質(zhì)體系,預(yù)測效果較差[22]。本文所構(gòu)建的CNN模型對于結(jié)構(gòu)緊密和松散的蛋白質(zhì)體系均有較好的預(yù)測效果,尤其對于結(jié)構(gòu)松散的蛋白質(zhì)體系,本文模型的預(yù)測效果優(yōu)于GNM模型。為了進一步驗證這一點,本文利用所構(gòu)建的模型對結(jié)構(gòu)松散的天然無序蛋白質(zhì)的B因子進行預(yù)測,并與GNM模型進行對比。從PDB數(shù)據(jù)庫下載DisBind 網(wǎng)站[23]中無序蛋白質(zhì)的PDB文件,去掉冗余蛋白以及在整個蛋白質(zhì)中無序區(qū)域占比小于1%的蛋白質(zhì)后,最終得到74個無序蛋白質(zhì),提取74 個蛋白質(zhì)的無序區(qū)域作為數(shù)據(jù)集,按照本文方法隨機選取60 個蛋白質(zhì)作為訓(xùn)練集,14個作為測試集。訓(xùn)練集的60 個蛋白質(zhì)列在了附件表S2 中,測試集的14 個蛋白質(zhì)PDB 代碼分別為
1jsu、1jwl、1l3l、1uad、2c1t、2f6a、3cxd、3hqr、3kz8、3m91、3pow、4jeh、4nm0、5hf7。利 用GNM模型對測試集的14個蛋白質(zhì)進行B因子計算時,發(fā)現(xiàn)8 個蛋白質(zhì)體系由于結(jié)構(gòu)過于松散,GNM 計算得到的零本征值多于1 個,無法計算獲得B因子結(jié)果。對于剩余的6個蛋白質(zhì)體系,GNM模型和本文模型的預(yù)測結(jié)果列在了表5中。這里設(shè)置學(xué)習(xí)率為0.000 1、動量為0.97。
Table 5 Pearson correlation coefficient of the B-factors for each protein in the test dataset of disordered proteins predicted by our models compared with those predicted by GNM
表5為6個天然無序蛋白質(zhì)B因子的Pearson相關(guān)系數(shù)以及平均Pearson 相關(guān)系數(shù),可以看出相較于GNM模型,基于PointNet模型的平均Pearson相關(guān)系數(shù)提高了87.9%,改進后的模型平均Pearson相關(guān)系數(shù)提高了93.9%,由此可見,本文方法對結(jié)構(gòu)較為松散的無序蛋白質(zhì)預(yù)測效果明顯優(yōu)于GNM。
本文提出了一種基于PointNet網(wǎng)絡(luò)的蛋白質(zhì)柔性預(yù)測模型,此模型不需要對不規(guī)則的點云數(shù)據(jù)做任何處理,每個點僅由其三維坐標(biāo)(x,y,z)表示,并作為輸入數(shù)據(jù)直接傳入網(wǎng)絡(luò),經(jīng)過模型處理后即可輸出蛋白質(zhì)的B因子值,并計算出預(yù)測結(jié)果與實驗結(jié)果的Pearson 相關(guān)系數(shù)。針對點云的排列不變性和空間旋轉(zhuǎn)不變性,網(wǎng)絡(luò)采用了對稱池化操作和空間轉(zhuǎn)換網(wǎng)絡(luò)進行了有效處理,進而,改進的模型又在對稱池化操作部分做了優(yōu)化,有效控制了一些極端情況,使得預(yù)測結(jié)果更加準(zhǔn)確。本文網(wǎng)絡(luò)的基本架構(gòu)非常簡單,在保證一定準(zhǔn)確率的基礎(chǔ)上,減少了參數(shù)和計算量,有著較高的效率,提升了模型的穩(wěn)定性。研究結(jié)果表明,在只考慮Cα原子的情況下,本文基于PointNet網(wǎng)絡(luò)的模型和改進的模型得到的Pearson相關(guān)系數(shù)略好于廣泛應(yīng)用的GNM模型。尤其對于結(jié)構(gòu)比較松散的天然無序蛋白質(zhì)體系,本文方法預(yù)測結(jié)果明顯優(yōu)于GNM模型。
附件PⅠBB20200383_表S1-S2.pdf 見本文網(wǎng)絡(luò)版(http://www.pibb.ac.cn或http://www.cnki.net)。