張居曉 殷濤 孟朝暉
摘要:提出了一種新的蛋白質結構預測模型——圖值神經網絡。該模型以半邊圖理論為依據,用可結合半邊圖模型表示原子間和原子團間相互的結合作用,從而將對蛋白質的正確折疊起關鍵作用的大分子相互作用因素和環(huán)境融合進圖值神經網絡預測模型。此外,針對全原子計算量大的缺點,在圖值神經網絡中引入基團,從而在一定程度上減小了計算量。通過對模擬蛋白質折疊過程中能量變化的分析,實驗表明這種融合了原子間以及原子團間作用力的模型是完全可行的。
關鍵詞:蛋白質結構預測;圖值神經網絡;半邊圖;基團
中圖分類號:TP393文獻標識碼:A文章編號:1009-3044(2012)01-0112-04
Architecture of Graph-valued Neural Network and its Application in the Protein Folding Prediction
ZHANG Ju-xiao1,YIN Tao2,MENG Zhao-hui2
(1.Nanjing Technical College of Special Education, Nanjing 210038, China; 2.Computer & Information College of Hohai University , Nanjing 210098, China)
Abstract: Graph-Valued Neural Network is based on the theory of half-link graph, it can not only be used to represent the force be? tween the atoms, but also the force between the atomic groups. Thus, the factors which play a key role in protein folding can be taken into Graph-Valued Neural Network. In addition, given the massive amount of calculation, we also bring“Group”into Graph-Valued Neural Network to reduce the amount of calculation to some extend. After analyzing changes of energy in the process of protein folding simula? tion, we come to a conclusion that the prediction model which combined with the force between the atoms and the force between the atomic groups is feasible.
Key words: Protein Structure Prediction; Graph-Valued Neural Network; Half-Link Graph; Group
僅依賴于蛋白質的一級結構(氨基酸序列)即可預測其二級甚至三級結構的傳統(tǒng)觀念。這一觀念來源于諾獎得主Anfinsen[1]提出的蛋白質的一級結構決定其高級結構的學說。我們目前所見的大多數(shù)蛋白質結構預測的經典計算模型皆是建立在此學說的基礎上。簡單說,就是計算模型的輸入數(shù)據僅僅為蛋白質的一級結構,經過模型的計算,輸出為預測出的蛋白質的高級結構(二級結構和部分三級結構的關鍵部位構型)。但是分子生物學實驗的研究成果早已表明,有許多蛋白質并不能自發(fā)折疊成正確的立體結構,需要在各種特定的細胞環(huán)境下并依靠其它生物大分子(包括蛋白質)的輔助才能形成正確的三級結構。在蛋白質結構預測的各種模型中,以(數(shù)值型)神經網絡方法為主,這種模型雖然很成熟,但是不適合表達蛋白質中各原子相互作用,只能用來預測二級結構,并且二級結構的預測正確率也不高。在這時,α螺旋或β折疊二級結構只是被視為附加在一級結構上每個氨基酸的某種結構特征標記,并不考慮氨基酸鏈之間的相互作用關系及更復雜的立體相互作用,也就不能表示出蛋白質的三級結構。因此,目前尚缺乏一種合適的計算模型用于模擬考慮融合折疊環(huán)境的蛋白質三級結構的預測。
如果能夠將蛋白質的真實折疊環(huán)境融合進預測計算模型,一定能夠提高蛋白質結構預測的正確率,對蛋白質而言,其真實折疊環(huán)境就是異構酶、分子伴侶等因素。抽象而言,所謂蛋白質折疊的真實環(huán)境,實質就是大分子相互作用的環(huán)境。
綜上所述,我們需要一種新的預測模型,該預測模型要設計得適于表現(xiàn)原子之間和原子團之間的相互結合作用,則該模型就能夠模擬大分子相互作用的蛋白質真實折疊環(huán)境,并且該模型以不同層次、不同尺度的原子團為計算單元,則新模型也能夠預測蛋白質的三級結構。
1圖值神經網絡模型
與神經網絡模型類似,本文所提出的計算模型也具有輸入、輸出以及學習過程三種要素,但該模型與傳統(tǒng)的神經網絡卻有很大的不同,即網絡中傳遞的信息類型不同。原有的神經網絡的輸入、輸出包括在其中傳遞的都是數(shù)值類型的信息,這種神經網絡模型既無法考慮原子之間跟原子團之間的相互作用,也無法考慮異構酶、分子伴侶這些大分子對蛋白質的正確折疊所起的作用,而恰恰正好是這些作用,才是影響預測正確率的真正因素,因此,本文設計了一種圖值信息,該信息能夠較真實的模擬蛋白質的折疊環(huán)境,而傳遞這種信息的網絡模型稱之為圖值神經網絡。
除了網絡中信息類型不同之外,兩者神經元也有一定區(qū)別。一般的,神經網絡其每層中的神經元個數(shù)在進行學習前都是已經確定好了的,但是圖值神經網絡中神經元是以原子為基礎的,也即底層的神經元與蛋白質中的原子是一一對應的,考慮到每種蛋白質所包含的原子數(shù)目不同,因此,圖值神經網絡在數(shù)據輸入前每層中的神經元個數(shù)是不確定的。
1.1輸入預處理
對用作生物序列分析的神經網絡而言,數(shù)據輸入的預處理就是確定采用何種編碼序列的方法把序列(字符串)轉換成網絡的輸入向量,以便適合問題的解釋。常用的編碼方式為21位的二進制數(shù)表示的正交編碼[2],其中20位用于表示20種氨基酸,每種氨基酸都對應了其中某一位為1其它位為0的情況。圖值神經網絡則跟傳統(tǒng)的神經網絡不同,其所需的輸入將不再是數(shù)值型的,而是用半邊圖表示的圖值。
1.1.1半邊圖模型
半邊圖模型[3]主要由三個要素組成:半邊、頂點和邊。半邊是組成頂點的基本元素,一個半邊屬于某個頂點且分為不同的半邊類型,半邊與其它的半邊可以相結合。頂點是組成圖的基本元素,頂點本身由有序的若干個半邊組成,具有n個半邊的頂點,稱為n度頂點。若兩個頂點的兩個半邊的類型對是半邊結合類型,則這兩個半邊就可以相結合,若兩個半邊已結合在一起,則兩個半邊合起來稱為一個邊。圖1左半部分顯示了兩個一度頂點的半邊結合過程。
在實際的大分子結構中,不同的原子可以跟一個或多個原子相結合,用半邊圖模型表示這種關系就是n度頂點,如上圖右半部分所示,中心頂點表示了一個碳原子,其四個半邊分別與不同原子結合形成四條邊。按照上述規(guī)則,將丙氨酸殘基表示成的半邊圖如圖2所示。
1.1.2基團、扭轉角
基團是由一系列原子構成的結構穩(wěn)定的原子團。基團內部原子相對位置不變,而基團間原子相對位置是變化的。丙氨酸殘基可以劃分為4個基團,在圖3中用虛線框表示,由于殘基兩端的基團由兩個相鄰殘基中原子構成,這里分別用SUC、PRE表示后繼、前驅殘基部分。
扭轉角由四個相鄰原子構成,例如上圖中的N-C-C-N構成扭轉角ψ,C-C-N-C構成扭轉角φ。扭轉角按照其可以旋轉的范圍又分為廣義扭轉角和狹義扭轉角。廣義扭轉角位于基團間,其取值范圍較大,比如圖3中的φ、ψ、χ1。有些廣義扭轉角如果排除受位阻限制以及位置重疊兩種情況的話,可以自由旋轉。狹義扭轉角則位于基團中,取值范圍較小,例如ω,其取值范圍在180°范圍內。
本文設想通過調整扭轉角來模擬蛋白質的折疊過程,而有些原子團間的結構是穩(wěn)定的,其形成的扭轉角是固定的,我們將這些原子團劃分為基團,這就是基團中的扭轉角為狹義扭轉角的原因。這樣一來,模擬折疊只需調整廣義扭轉角,即基團間的扭轉角。
1.2計算模型
計算模型中主要包括建立力場、扭轉角、立體坐標、空間碰撞關系模型,而這些模型之間的關系如下:
1)扭轉角、立體坐標:兩者是互相確定的關系。
2)力場、立體坐標:吸力和斥力的計算依賴于立體坐標。
3)空間碰撞、立體坐標:空間碰撞的計算依賴于立體坐標。4)力場、扭轉角:吸力或斥力推動扭轉角的調整需求。
5)空間碰撞、扭轉角:空間碰撞約束制約扭轉角的調整。
其中,立體坐標是這些關系的紐帶,但立體坐標不唯一,同樣構型的蛋白質經過平移旋轉后立體坐標就不一樣,而扭轉角能夠唯一確定蛋白質的構型,這也是選擇對扭轉角進行調整的原因;空間碰撞模型根據立體位阻、空間重疊以及共價鍵旋轉能障等建立;力場模型由電荷分布模型確定。
計算模型模擬蛋白質折疊的動態(tài)聚合過程,總體可以分為模擬折疊系統(tǒng)、構型比較系統(tǒng)、學習和修正系統(tǒng)三部分,三者間關系如圖所示。
1.2.1模擬折疊系統(tǒng)
模擬折疊系統(tǒng),將不含立體坐標信息的蛋白質序列折疊成具有合適空間結構的蛋白質。初始輸入為一個長棍模型,所有的主鏈扭轉角(φ、ψ、ω)為180°,其它的側鏈扭轉角(χ1、χ2、etc)從初始庫中提取,然后按照吸力或斥力推動扭轉角的調整,逐漸折疊為一個合適的立體構型,圖5為模擬折疊計算流程。
1)根據長棍模型賦予扭轉角初始值;
2)根據扭轉角初值計算初始立體坐標;3)根據當前立體坐標計算吸力與斥力;
4)根據吸力與斥力推算出需要調整的扭轉角并更新扭轉角;
5)根據調整過的扭轉角求出新的立體坐標;
6)判斷新立體坐標是否滿足碰撞模型約束,滿足轉8),不滿足轉7);7)根據碰撞模型約束微調扭轉角,轉5);
8)判斷立體結構是否夠緊密或者不用再調整,是就停止,否則繼續(xù)轉3)。
扭轉角更新系統(tǒng):是模擬折疊系統(tǒng)中的關鍵部分,該系統(tǒng)根據當前的吸力和斥力推算出需要調整的扭轉角,并給出調整量。
對于小的、球型蛋白質,基本上是自發(fā)折疊的,而較大的蛋白質和膜蛋白質則需要其它蛋白質(折疊伴侶)和折疊環(huán)境的輔助。
每一個扭轉角由其一定距離范圍內的若干原子間吸力和斥力決定,反過來,每一對原子間吸力和斥力均推動一系列的扭轉角的調整,扭轉角和原子間力之間是多對多的關系,折疊伴侶和折疊環(huán)境的力關系也可以體現(xiàn)在其中,這里有很多種變化和選擇,我們要嘗試各種方案,這里是科研的重點。
1.2.2構型比較系統(tǒng)
構型比較系統(tǒng),模擬折疊出的蛋白質與真實蛋白質(從PDB數(shù)據庫中選?。胁煌?,將模擬折疊出的構型與實際的構型進行比較,得出比較結果。這種比較是結構的比較,需要系統(tǒng)化的方法。
1.2.3學習與修正系統(tǒng)
神經網絡方法在蛋白質二級結構預測中應用最廣的是BP神經網絡。這種網絡模型使用的BP算法其主要思想是將學習過程分為3部分:
1)正向傳播,該部分是輸入信號從輸入層經過隱含層傳向輸出層的過程;
2)反向傳播,該部分是根據期望輸出與實際輸出的誤差信號從輸出層經隱含層向輸入層逐層修正連接權值的過程;
3)正向傳播和反向傳播反復交替直至網絡最終趨于收斂。
圖值神經網絡中的學習和修正系統(tǒng)可以借鑒BP算法中正向與反向傳播這種思想,用構型比較的結果來調整模擬折疊的過程和參數(shù),調整的目標有參數(shù)模型(比如電荷分布模型)和非參數(shù)模型(比如聚合方式模型,即吸引排斥方式模型)。
2實驗與分析
這里選擇1VII蛋白質[4]作為實驗樣本,首先,是因為該蛋白質有完整的從核磁共振實驗獲得的全部原子坐標數(shù)據,主要是包含所有的氫原子,其次,1VII的氨基酸殘基數(shù)不太大,但卻是一個相對完整的子域,能夠做完整的力場分析。
將1VII蛋白質從自然折疊狀態(tài)(即從PDB數(shù)據庫下載的1VII的原子坐標數(shù)據),逐漸解開成伸展狀態(tài)(即最終主鏈上所有的扭轉角φ為135°,ψ為225°),得到伸展狀態(tài)的蛋白質結構,并且獲取9個中間狀態(tài),加上初始的自然折疊狀態(tài)共11個狀態(tài),對應得到11組立體結構數(shù)據,分別用1VII_0到1VII_10表示。
這里對于扭轉角有三點需要注意的:
1)在生物化學領域,扭轉角φ和ψ的取值范圍為[-180,180],正方向為順時針;而在我們的系統(tǒng)中,為了計算表示的方便,扭轉角φ和ψ的取值范圍定為[0,360],正方向為逆時針。所以在其它文獻中,對應的伸展狀態(tài),扭轉角φ為-135°,ψ為135°。
2)對伸展狀態(tài)而言,也并非所有的扭轉角φ均為135°,如果有脯氨酸的話,其扭轉角φ受脯氨酸環(huán)形結構的制約,達不到135°,本實驗中,21號脯氨酸殘基的φ和ψ均不改變,所以,最終的伸展狀態(tài)并不完全是一個長棍型,在脯氨酸的位置有彎折。
3)其它所有的扭轉角φ和ψ按均等過渡的方法,計算出中間的9個狀態(tài),側鏈的各個扭轉角保持不變。
計算部分的總能量并非蛋白質結構中所有勢能的總和,只是有變化的勢能分量的總和,其它比如同一個基團中的各個原子之間也有勢能,還有共價鍵能,等等,但是同一個基團中的各個原子之間的相對位置在折疊過程中沒有變化或只有微小變化,這部分能量在折疊過程中沒有實質性變化,而基團之間的位置關系在折疊過程中有顯著變化,所以我們只考慮基團之間的總能量及其變化。
每個蛋白質結構都可以計算出其總能量,總能量為所有的兩兩基團之間的能量的總合。蛋白質1VII共有176個基團,則兩兩基團之間的能量值的數(shù)量為176*175/2 = 15400個,將這15400個能量值求和即為該蛋白質結構的總能量。
總能量的意義:這個值越小,表示蛋白質結構的總吸引力(負數(shù))越大,總排斥力(正數(shù))越小,可以比較的是,伸展狀態(tài)1VII_10的總能量為1139,自然折疊狀態(tài)1VII_0的總能量為987,這中間減小的差值152就是蛋白質折疊的目標。這個差值152是由15400個兩兩基團之間能量對的變化所貢獻的。
圖6基團總能量變化
折線圖展示了從自然折疊狀態(tài)在去折疊到達最伸展狀態(tài)過程中,各種中間狀態(tài)中能量的變化情況。除了1VII_2、1VII_3狀態(tài)相較于其他狀態(tài)明顯偏大,其他狀態(tài)基本呈現(xiàn)的是一個上升的趨勢,也即該過程的逆過程(蛋白質折疊)中,各狀態(tài)的能量是下降的趨勢,這點符合蛋白質折疊過程的能量變化規(guī)律。從另一方面,也印證了本文引入基團這種思想是可行的。
注意,這里對于出現(xiàn)狀態(tài)1VII_2這種情況需要說明一下,產生這種情況的原因是某些原子過于靠近導致的,當原子間距離過近時無法進行調整,使得計算出的斥力(正數(shù))過大。解決該問題的方法是在模擬折疊系統(tǒng)中引入碰撞檢測功能,當原子間出現(xiàn)像位置重疊這種情況時就可以對其進行一定調整。
3結束語
該文提出的圖值神經網絡是一個全新的概念,完全不同于先前的神經網絡,是對蛋白質結構用全新方法進行預測的一次大膽嘗試。其在繼承神經網絡方法優(yōu)點的基礎上,考慮了原子間的作用力因素,理論上必然可以提高蛋白質結構預測的正確率。目前,已經實現(xiàn)了圖值神經網絡的基本框架,并通過模擬蛋白質折疊過程對基團間能量變化進行初步分析,取得了比較理想的結果,證明這種引入基團并對扭轉角進行調整的方案是完全可行的。雖然本次實驗取得初步的成功,但整個體系還有待完善,比如在模擬折疊系統(tǒng)中加入碰撞檢測機制,從而更加真實的模擬蛋白質折疊環(huán)境。
參考文獻:
[1] Anfinsen C B. Principles that Govern the Folding of Protein Chains[J]. Science,1973,181: 223-230.
[2] Qian N,Sejnowski T J. Predicting the secondary structure of globular proteins using neural network models[J]. J Mol Bio,1988,202(4): 865-884.
[3]孟朝暉.半邊圖模型之多層次認知系統(tǒng)[J].計算機工程與應用,2006,42(30): 28-34.
[4] McKnight C J,Matsudaira P T,Kim P S. NMR structure of the 35-residue villin headpiece subdomain[J]. Nat Struct Biol,1997,4: 180-184.