梁 凡,董 宇,李正夫*,李姣姣,紀兆輝
(1.淮海工學(xué)院 計算機工程學(xué)院,江蘇 連云港 222005;2. 淮海工學(xué)院 藥學(xué)院,江蘇 連云港 222005)
蛋白質(zhì)折疊預(yù)測問題[1]是在已知蛋白質(zhì)氨基酸序列的情況下,直接通過序列順序求解出蛋白質(zhì)的三維空間結(jié)構(gòu),即求解蛋白質(zhì)的最小能量。結(jié)構(gòu)生物學(xué)研究已經(jīng)驗證,蛋白質(zhì)的空間結(jié)構(gòu)決定了蛋白質(zhì)的特定功能[2]。蛋白質(zhì)的氨基酸序列直接決定了其在三維空間中的結(jié)構(gòu),而蛋白質(zhì)的結(jié)構(gòu)又決定了其特殊的生物功能,因此蛋白質(zhì)折疊問題的研究在生物學(xué)中具有及其重要意的義[3]。蛋白質(zhì)折疊問題已成為生物信息學(xué)領(lǐng)域中的核心研究問題之一,對其求解是后基因時代蛋白質(zhì)研究的一項重要任務(wù)[4]。雖然通過特殊的技術(shù)手段方法可以得到一部分蛋白質(zhì)的三維空間中的結(jié)構(gòu),但卻極其耗時,并且還需要收到較多限制。目前為止,還有大部分的蛋白質(zhì)沒有得到有效的三維構(gòu)想,因此通過理論方法,從蛋白質(zhì)氨基酸序列入手預(yù)測其三維空間結(jié)構(gòu)已成為分子生物學(xué)研究中的一個迫切需求。
蛋白質(zhì)折疊預(yù)測是一個典型的非確定性NP困難問題,隨著蛋白質(zhì)中氨基酸序列的增多,其計算量呈指數(shù)級增加。在蛋白質(zhì)折疊預(yù)測主要即為對蛋白質(zhì)最小能量進行求解也稱為蛋白質(zhì)能量優(yōu)化,所以蛋白質(zhì)折疊預(yù)測問題的核心是使用全局優(yōu)化算法進行蛋白質(zhì)能量優(yōu)化?;贖P(Hydrophobie-Polar)網(wǎng)格的蛋白質(zhì)折疊預(yù)測模型[5],通過逐步減少固定蛋白質(zhì)內(nèi)部氨基酸位置從而可以使連續(xù)的序列進行離散化,可以有效地對蛋白質(zhì)折疊方式進行探索和解讀。盡管基于HP模型蛋白質(zhì)折疊已經(jīng)是一個去掉較多約束的簡化預(yù)測模型,但仍然是NP 困難問題,難以建立精確的數(shù)學(xué)模型對其進行高效而準確的求解。近些年來,研究人員使用了多種優(yōu)化算法對其進行分析求解,如模擬退火算法、遺傳算法、人工神經(jīng)網(wǎng)絡(luò)和蟻群算法等[6-10],這些不同的方法與算法推動了蛋白質(zhì)折疊預(yù)測研究,并取得了一定的進展。
Cannabinoid receptor Type 2(簡稱CB2)是大麻素受體的一種亞型,由360個氨基酸組成。其受體分布表達造成了其獨特的生理藥理作用,如免疫抑制作用、抑制腫瘤細胞生長、促進骨生成[11]、鎮(zhèn)痛、抗肝纖維化、抗神經(jīng)損傷[12-13]、促神經(jīng)生長[14]等作用。除此之外,大麻素Ⅱ型受體(CB2)的激活可促進干細胞(如造血干/祖細胞和神經(jīng)祖細胞)的增殖.心臟祖細胞激活和增殖在心肌梗死(心梗)后心肌內(nèi)源性再生和修復(fù)中發(fā)揮重要作用[15],并且,CB2 選擇性激動劑 AM1241 可激活原位 CPCs,促進心肌梗死后心肌組織內(nèi)源性再生,輕心梗后心肌組織纖維,改善心臟功能[16]。CB2受體的生理藥理作用表明其是十分重要的藥物靶標,特別在止疼、抗炎和抑制咳嗽方面,因為其無中樞神經(jīng)副作用,不會產(chǎn)生成癮性及耐受性,顯示出了非常好的開發(fā)前景和潛在的應(yīng)用價值。更不要說其作為免疫調(diào)節(jié)劑、神經(jīng)保護劑和抗癌藥的巨大市場價值。因此開發(fā)適合于人體用藥的選擇性CB2受體激動劑、反向激動劑及拮抗劑,是一件非常有意義的探索。目前,CB2蛋白的空間結(jié)構(gòu)還未被測定出來,對于CB2的折疊問題研究也開展的較少,針對此問題本文進行了一定的探索工作。
蛋白質(zhì)折疊研究的主要目標是根據(jù)蛋白質(zhì)的氨基酸序列(也稱一級序列),推測出蛋白質(zhì)在空間中的折疊形式,從而最終確定在三維空間中的具有特定功能的蛋白質(zhì)構(gòu)象。Anfinsen等在對牛胰核糖核酸酶的復(fù)性實驗研究中發(fā)現(xiàn),蛋白質(zhì)的氨基酸序列唯一確定了其在三維空間中構(gòu)象,并依此提出了蛋白質(zhì)的自由能最小構(gòu)象即應(yīng)為其自然構(gòu)象的這一著名熱力學(xué)假說。目前的各種蛋白質(zhì)折疊結(jié)構(gòu)預(yù)測的理論與方法都是基于此假說。蛋白質(zhì)折疊問題自20世紀中期就被廣泛研究,但到目前尚無滿意的解決方法。如果通過計算機枚舉方法進行搜索蛋白質(zhì)的自由能最小構(gòu)象,則對其求解的計算時間耗費將變得不可承受。因此,蛋白質(zhì)折疊問題的研究無論是在計算機模擬還是實驗研究上,仍然是非常困難的事情[17]。
蛋白質(zhì)內(nèi)部的疏水作用力是促使其折疊的主要因素,球狀蛋白質(zhì)折疊結(jié)構(gòu)通常是由一個疏水核心緊密堆積而形成特定的空間結(jié)構(gòu)[18]。基于HP的折疊模型,由于只在在二維空間中進行蛋白質(zhì)的折疊進行研究,保證了相對的折疊精度下又可有效的提高求解速度,在計算機模擬方法研究中獲得了研究人員的廣泛關(guān)注。
在HP模型中,蛋白質(zhì)序列中的氨基酸被分為疏水性(H)和親水性(P)兩類氨基酸。對于蛋白質(zhì)序列中的多種氨基酸,可分別使用字母 H和P進行代表,從而把蛋白質(zhì)序列形成簡化的表示形式?;贖P折疊模型,蛋白質(zhì)折疊問題可簡化為:將二維空間劃分等距的網(wǎng)格空間,將每個氨基酸簡化成一個節(jié)點放入網(wǎng)格之中。一個合法的蛋白質(zhì)序列的空間構(gòu)象需要同時滿足以下三個條件[19]:
1)任一氨基酸(H或P)必須放在排放在二維空間整數(shù)點坐標上;
2)鏈序列中相鄰的結(jié)點在擺放后仍相鄰(距離為1);
3)二維坐標任一格點上最多只能放一個氨基酸節(jié)點。
基于HP的蛋白質(zhì)折疊模型中,其氨基酸序列所對應(yīng)的能量函數(shù)可表示為:
當氨基酸序列上第j個結(jié)點rj與其之前的第i個節(jié)點ri同為H型氨基酸,他們在一級序列中并不相連而在二維格點空間中ri與rj相鄰,則計EσiσjΔ(ri-rj)=-1;否則記EσiσjΔ(ri-rj)=0。通過將蛋白質(zhì)序列進行HP模型表示,可以較為簡單的計算得到某二維構(gòu)想所對應(yīng)的能量值。
Cannabinoid receptor Type 2(簡稱CB2)是大麻素受體的一種亞型,共有360個氨基酸組成。氨基酸序列分析顯示CB2受體的結(jié)構(gòu)中包括7次親酯跨膜α螺旋結(jié)構(gòu)[20],是典型的G蛋白耦聯(lián)受體。1993年Munro等用PCR技術(shù)首次克隆出CB2的基因,并發(fā)現(xiàn)其對Δ9-四氫大麻酚具有高親和力。CB2受體有兩個同種型,分別命名為CB2A和CB2B[21-22]。
CB2受體則主要分布于外周免疫系統(tǒng)[23]。研究表明,健康的腦細胞中沒有CB2受體的表達,只有具有活性炎癥和變性的腦區(qū)才有CB2受體的遷移和滲透[24]。大麻素受體除了在上述組織中存在外,在其他病變的組織如腫瘤中也有表達[25-26]。
蒙特卡羅方法是一種隨機模擬方法,也稱統(tǒng)計模擬或隨機抽樣方法。它是以概率論和數(shù)理統(tǒng)計等理論為基礎(chǔ),通過隨機產(chǎn)生的隨機數(shù)來解決具體計算問題的一種方法。蒙特卡羅方法興起的背景是由于科學(xué)技術(shù)的發(fā)展特別是電子計算機的發(fā)明,是一類非常重要的數(shù)值計算方法。通常需要使用某一概率模型來描述具體需要解決的問題,在得到與所求問題同解的概率模型以后,通過隨機實驗方式對此概率模型進行模擬和計算,實驗最后所得的統(tǒng)計值即所求問題的近似可行解[27]。
近些年來,隨著計算機技術(shù)的飛速發(fā)展,在計算機的幫助下很多實驗過程可以進行模擬,變成了簡單快速的計算機計算,這為蒙特卡羅方法的發(fā)展提供了基礎(chǔ)。目前,蒙特卡羅方法在多個研究領(lǐng)域得到了廣泛的應(yīng)用,取得了較好的研究成果,包括計算生物學(xué)、生物醫(yī)學(xué)、計算物理學(xué)等研究領(lǐng)域。特別是此方法能很好地用來對于問題的維數(shù)并不敏感,該方法的計算復(fù)雜性也不再依賴于維數(shù),所以一些無法計算的問題現(xiàn)在也可以計量。在具體應(yīng)用時,對于一些復(fù)雜繁瑣問題,如果直接求解變得幾乎不可行,那么可采用蒙特卡羅方法從其他角度進行有效求解。在本文中,使用了蒙特卡羅方法對于優(yōu)化問題進行求解,取得了很好的效果。
創(chuàng)建CB2氨基酸序列空間格點位置時,先將空間中原有信息清空,固定第一個氨基酸的位置(格點空間的中央);其次,將后續(xù)氨基酸的位置分為:上擺放、右擺放、下擺放、左擺放四種情況并編號。在擺放氨基酸位置時,除第一個氨基酸,所有的氨基酸的擺放位置都是隨機產(chǎn)生的。通過不斷循環(huán),將所需排列的氨基酸依次排列,并將其相對于上一個氨基酸擺放的位置記錄在一個特定的數(shù)組中(當向上移動一個位置時,數(shù)組存數(shù)值1;當向右移動一個位置時,數(shù)組存數(shù)值2;當向下移動一個位置時,數(shù)組存數(shù)值3;當向左移動一個位置時,數(shù)組存數(shù)值4)。當所有氨基酸都已經(jīng)擺放完畢后,即創(chuàng)建出一個合法的CB2空間排放序列。
在順序排列氨基酸序列時,會出現(xiàn)序列后方的氨基酸重疊在之前已經(jīng)拜訪了氨基酸的情況,從而導(dǎo)致序列排放非法。隨著氨基酸序列的增長,發(fā)生前述沖突的幾率也會變大。為了防止這種情況發(fā)生,本文采取回溯機制[28]。當出現(xiàn)氨基酸重疊的情況時,將退回到此氨基酸的上一個氨基酸的擺放位置,由存放氨基酸擺放位置的數(shù)組可知此氨基酸的擺放位置,通過此擺放位置返回到上一個氨基酸的位置,并重新選擇位置,同時記錄不能擺放的位置和能夠擺放氨基酸的位置。若所有位置都已驗證是不可以擺放,那么將會再向上退回前一個氨基酸的位置。若可以擺放的位置剩下兩個,則在剩下的兩個位置中隨機選一個;若可以擺放的位置剩下三個,則在剩下的三個位置中隨機選一個。
回溯可以較好的解決了沖突,但是如果不限制回溯次數(shù),極端情況下將會退化到初始氨基酸,將會極大的限制算法的執(zhí)行效率。對于10 000個隨機序列進行回溯次數(shù)的測定,實驗結(jié)果如表1所示。
表1 回溯次數(shù)比較Table 1 Comparison of backtracking times
評估(計算)氨基酸能量的方法:從第一個氨基酸開始判斷,當氨基酸不為H型氨基酸(疏水性氨基酸)時,則繼續(xù)判斷下一個氨基酸是否為H型氨基酸,當氨基酸為H型氨基酸(疏水性氨基酸)時,讓此H型氨基酸的位置固定,通過存放氨基酸擺放位置的數(shù)組對后面的氨基酸進行擺放,同時對其后面的所有氨基酸(保證兩個氨基酸在序列中不相連)判斷是否同為H,當有后續(xù)氨基酸為H型氨基酸時,再判斷此后續(xù)氨基酸與位置固定的第一個氨基酸的距離是否為1(即兩個氨基酸在X軸上的坐標相同,在Y軸上的坐標相差1或者在Y軸上的坐標相同,在X軸上的坐標相差1),這是即可得到一個單位的能量值。通過遍歷序列中的所有氨基酸,最后即可得到某個排放方式下CB2所對應(yīng)的能量。
本文中使用了蒙特卡羅算法,具體流程圖見圖1。
圖1 蒙特卡羅流程圖Fig.1 Monte Carlo flowchart
實驗計算機配置為:處理器:Intel 64位CPU,2.53 GHz;內(nèi)存,4 GB;硬盤空間,128 GB。Windows 7(64位)操作系統(tǒng),軟件開發(fā)平臺為Microsoft Visual C++ 6.0。項目代碼為獨立開發(fā),源代碼下載網(wǎng)址為:https://github.com/niceliangfan/CB2-Folding-Based-on-HP-Model-and-Monte-Carlo-Method/blob/master/Source%20Code。
通過對于大麻素受體CB2的HP折疊模型表達,使用帶有回溯機制的蒙特卡羅方法進行求解。對本方法取得的三種最優(yōu)值(E=-67)和其他較好結(jié)果的空間折疊構(gòu)象排列表達如圖2所示。在圖2中,使用實心點表示H型氨基酸,空心表示P型氨基酸,加粗實心表示此處有能量累計。由圖直觀可知,節(jié)點排列越緊密,氨基酸的能量值就越??;反之,能量值越大。
由圖2可知,對于CB2序列而言,即使能量最低的三種折疊排列形式(見圖2中的(a)、(b)、(c),在空間表達上相互差別較大,且這三種折疊方式對于其他隨機選取的折疊方式(見圖2中的(d)、(e)而言同樣差比較大。這說明使用蒙特卡羅方法可以完全跳出多數(shù)智能優(yōu)化算法的局部最優(yōu)困擾,可以在全局范圍內(nèi)進行最優(yōu)求解。
圖2 CB2的空間折疊結(jié)果Fig.2 Spatial folding results for CB2
目前,以HP模型為基礎(chǔ)的大麻素受體CB2的二維空間結(jié)構(gòu)測定的研究較少,對于CB2的二維折疊問題研究也開展的較少。本文工作對于CB2的空間構(gòu)象研究具有一定的指導(dǎo)意義,對后續(xù)的分子對接和虛擬篩選等工作提供了很好的支撐。
在本文中使用了HP折疊預(yù)測模型對于大麻素受體的亞型CB2蛋白的折疊情況進行了研究,并使用了蒙特卡羅方法進行全局優(yōu)化求解,取得了較好的折疊排列結(jié)果。
本文中使用的蒙特卡羅方法雖然具有全局尋優(yōu)能力,但也存在收斂速度慢等問題,且在對大量的數(shù)據(jù)進行篩選時沒有一定的針對性,既浪費了大量的計算時間又存在較多的偶然性因素,導(dǎo)致實驗結(jié)果還有進一步的提升空間。在接下來的工作中,將引入遺傳算法等對序列排放方法進行進一步優(yōu)化,以期得到CB2更好的折疊構(gòu)象能量值。
蛋白質(zhì)在體內(nèi)是在三維空間中進行折疊的,因此在二維空間研究蛋白質(zhì)折疊具有局限性。在接下來的工作中,將對序列排放方法進行進一步優(yōu)化并嘗試將把CB2放在三維空間中進行折疊研究,以期得到CB2的更為準確的符合實際生活的三維空間折疊構(gòu)象能量值。