王人福,王 星,章社生
(武漢理工大學(xué) 統(tǒng)計(jì)系,湖北 武漢 430070)
蛋白質(zhì)修正卡方分布函數(shù)
王人福,王 星,章社生
(武漢理工大學(xué) 統(tǒng)計(jì)系,湖北 武漢 430070)
利用統(tǒng)計(jì)分析和數(shù)據(jù)挖掘的知識(shí),給出了蛋白質(zhì)殘基原子與其他原子的接觸距離和接觸數(shù)的定義,并根據(jù)蛋白質(zhì)的種類的不同,計(jì)算了接觸距離的數(shù)學(xué)期望和標(biāo)準(zhǔn)差,得到血紅蛋白、激素和肌蛋白殘基的概率分布,構(gòu)造出類蛋白質(zhì)ASP殘基接觸數(shù)的修正卡方分布函數(shù).
蛋白質(zhì);殘基;接觸數(shù);卡方分布
研究生命科學(xué)離不開蛋白質(zhì),DNA的生理功能是以蛋白質(zhì)的形式表達(dá),研究DNA必需研究蛋白質(zhì).在新藥物的深入開發(fā),蛋白質(zhì)工程中,人們經(jīng)常用統(tǒng)計(jì)的方法挖掘蛋白質(zhì)等生命分子的信息特征. 國(guó)內(nèi)外學(xué)者從試驗(yàn)、理論和計(jì)算等方面對(duì)蛋白質(zhì)進(jìn)行了大量的研究. 文獻(xiàn)[1]對(duì)SO2對(duì)小鼠肝組織蛋白質(zhì)的氧化損傷作用及其分子機(jī)制進(jìn)行了實(shí)驗(yàn),得到了蛋白質(zhì)生命功能的實(shí)驗(yàn)數(shù)據(jù). 文獻(xiàn)[2]根據(jù)α-氨基酸和Cα原子的理化特性,研究蛋白質(zhì)中Cα原子空間拓?fù)浣Y(jié)構(gòu),引入Cα原子接觸數(shù)的概念,討論了蛋白中Cα原子數(shù)目比重、平均接觸數(shù)以及平均接觸數(shù)變化率. 文獻(xiàn)[3]用數(shù)學(xué)統(tǒng)計(jì)方法計(jì)算了兩原子之間距離,從蛋白質(zhì)的數(shù)學(xué)特征入手,討論了五類蛋白質(zhì)的數(shù)學(xué)特征的分布,指出有進(jìn)一步研究的必要. 文獻(xiàn)[4]通過(guò)蛋白質(zhì)分子內(nèi)兩殘基間距的概率分布函數(shù)()P r,計(jì)算了641個(gè)蛋白質(zhì)分子近程和遠(yuǎn)程緊密接觸對(duì)的形成速率,分析了不同蛋白質(zhì)結(jié)構(gòu),不同緊密接觸對(duì)半徑以及DNA的綁定時(shí)速率的影響. 該文的概率分布函數(shù)()P r是半經(jīng)驗(yàn)的數(shù)值計(jì)算式,具有構(gòu)造理論概率分布函數(shù)的參考價(jià)值. Zhou研究了蛋白質(zhì)中兩原子之間距離的概率分布,在理想氣體參考態(tài)下,優(yōu)化出指數(shù)為1.61的DFIR函數(shù),其算例表明,DFIR函數(shù)有助于構(gòu)造人工統(tǒng)計(jì)能量函數(shù),提高蛋白質(zhì)設(shè)計(jì)精度[5]. 在DFIR函數(shù)公布以后,有許多文獻(xiàn)應(yīng)用DFIR函數(shù)研究蛋白質(zhì)折疊和設(shè)計(jì),以及蛋白質(zhì)變異等等問(wèn)題,得到了大量的研究成果. 文獻(xiàn)[6-7]應(yīng)用DFIR函數(shù)研究了蛋白質(zhì)變異和折疊,得到了較好的計(jì)算結(jié)果. Xu應(yīng)用DFIR函數(shù)預(yù)報(bào)了DNA核酸類型,其預(yù)報(bào)精度只有40%,應(yīng)該有提高的空間[8]. 由于DFIR為指數(shù)函數(shù),只用于兩原子間距小于20au的工況. 對(duì)于更大的間距,需要進(jìn)一步研究類似于DFIR的概率分布函數(shù).
在文獻(xiàn)[2-3]的基礎(chǔ)上,本文研究蛋白質(zhì)原子相互作用,用統(tǒng)計(jì)方法研究原子間的距離.
從RCSB公共數(shù)據(jù)庫(kù)中PDB數(shù)據(jù)庫(kù)中按蛋白質(zhì)的種類不同隨機(jī)選取了三種蛋白質(zhì),分別為血紅蛋白、激素、肌蛋白. 通過(guò)每個(gè)蛋白質(zhì)PDB文件中含有的關(guān)于原子名稱、原子的坐標(biāo)以及相對(duì)應(yīng)的殘基類型的等信息進(jìn)行了統(tǒng)計(jì)分析.
原子空間位置分布能揭示生命分子中原子的相互作用機(jī)理. 在PDB文件中,每一個(gè)原子都有空間坐標(biāo)值. 設(shè)第i個(gè)原子的空間坐標(biāo)表示為(xi,yi,zi),第i個(gè)原子和第j個(gè)原子的空間距離為dij,給定r值,對(duì)j求和所得到的值稱為第i個(gè)原子的接觸數(shù):式中,當(dāng)x<0時(shí),函數(shù)δ(x)=1,否則δ(x)=0;ni(r)表示在蛋白質(zhì)中,所有與第i個(gè)原子距離小于r的個(gè)數(shù). 給定步長(zhǎng)h,ni(kh)表示與第i個(gè)原子距離小于kh的原子個(gè)數(shù). ni(kh)的差分為d(ni(kh)),對(duì)下標(biāo)i求和,整個(gè)蛋白質(zhì)的接觸數(shù)
上面給出了一個(gè)蛋白質(zhì)的接觸數(shù)的計(jì)算公式,則對(duì)于任一蛋白質(zhì),定義接觸數(shù)概率:
式中,P(kh)表示在所有蛋白質(zhì)分子中,兩原子相距離r落入?yún)^(qū)間(kh,kh+h)的頻率.
若第i個(gè)原子限定取蛋白質(zhì)中殘基類型為T的原子,第j個(gè)原子遍取蛋白質(zhì)中的所有原子,則計(jì)算出的概率為殘基類型為T的接觸數(shù)概率為P(kh,T,s),s為第s個(gè)蛋白質(zhì). 于是對(duì)于M個(gè)蛋白質(zhì),殘基類型為T的平均接觸數(shù)概率:
按原子接觸數(shù)概率隨接觸距離的分布,不同殘基原子的接觸距離的數(shù)學(xué)期望雖然各不相同,但差異很小,大致在31左右波動(dòng);并且離散程度即接觸距離的標(biāo)準(zhǔn)差也無(wú)明顯差異,主要集中在17附近. 同時(shí),每種殘基對(duì)應(yīng)的接觸數(shù)概率最大的接觸距離也很集中,都在23上下浮. ,可以看出各種殘基的接觸數(shù)隨距離分布比較集中,盡管殘基中有些原子之間的接觸距離超過(guò)100,但是總的來(lái)說(shuō)每種殘基都有將近91%—94%(具體因殘基不同有細(xì)微的差異)的原子的接觸數(shù)的接觸距離主要集中在5—60之間. 而且每種殘基的接觸數(shù)的距離分布都非常類似.
按原子接觸數(shù)概率隨接觸距離的分布,不同殘基原子的接觸距離的數(shù)學(xué)期望差異較小,大致在29附近,只是殘基PRO的接觸距離的數(shù)學(xué)期望值達(dá)35.23與其他殘基有較大的差距. 同時(shí)不同殘基的距離分布的離散程度與很相近. 可以看出各種殘基的接觸數(shù)隨距離分布比較集中,盡管殘基中有些原子之間的接觸距離甚至達(dá)到100及以上,但是總的來(lái)說(shuō)每種殘基都有將近88%—92%(具體因殘基不同有細(xì)微的差異)的原子的接觸數(shù)的接觸距離主要集中在5—60之間.
根據(jù)原子接觸數(shù)概率隨接觸距離的分布,不同殘基原子的接觸距離的數(shù)學(xué)期望相差較小,主要集中在29.6附近. 而且離散程度的差異性也不明顯,主要聚集在27附近. 而且每種殘基有93%的原子的接觸數(shù)的接觸距離集中在5—60之間,可見各種殘基的距離分布不僅很類似而且很集中.
下面開始討論接觸數(shù)的卡方分布,殘基GLU的概率分布見圖1
我們知道自由度為n的卡方分布密度為
設(shè)修正卡方分布函數(shù)(,)f r n有如下表達(dá)式:
圖1 三種蛋白質(zhì)中殘基GLU的概率分布
式中有7個(gè)未知參數(shù),利用最小二乘思想分段擬合. 先給定卡方分布中的自由度n值;再根據(jù)概率密度PT(r)的最大值(此時(shí)r=r1)與修正卡方分布函數(shù)最大值相等,由此計(jì)算出比例值c;再利用最優(yōu)化的方法擬合得到最優(yōu)的a和b. 然后計(jì)算當(dāng)r>r1時(shí),第一次實(shí)現(xiàn)|f(r,n)?PT(r)|<0.001的坐標(biāo)r0值. 余下只有三個(gè)參數(shù),很容易用最優(yōu)化方法求出a1,a2和a3的值. 再改變n值,用上面方法重新計(jì)算,選取對(duì)坐標(biāo)r=2-120計(jì)算誤差error=∑|f(r,n)?PT(r )|最小的自由度n的值.
利用以上方法可以分別求出殘基為ASP的三種蛋白質(zhì)的修正卡方分布密度函數(shù):
根據(jù)蛋白質(zhì)中的原子坐標(biāo)空間分布,針對(duì)血紅蛋白、激素和肌蛋白,計(jì)算了蛋白質(zhì)中的原子之間的距離,依據(jù)距離的大小值定義了原子接觸數(shù),利用PDB文件中的原子坐標(biāo)數(shù)據(jù),計(jì)算出接觸數(shù)的頻率及分布,由此構(gòu)造了修正卡方分布函數(shù),給出了該分布函數(shù)的快速優(yōu)化計(jì)算方法. 以ASP殘基為例,討論了血紅蛋白、激素、肌蛋白的修正卡方分布函數(shù).
[1] 解靜芳, 王學(xué)峰, 孟紫強(qiáng), 等. 1SO2致小鼠肝蛋白質(zhì)氧化損傷和DNA-蛋白質(zhì)交聯(lián)作用[J]. 中國(guó)環(huán)境科學(xué), 2007(3): 400-403.
[2] 范 寧. 蛋白質(zhì)Cα原子接觸數(shù)統(tǒng)計(jì)分析及應(yīng)用[J]. 數(shù)字技術(shù)與應(yīng)用, 2010(4): 91-93.
[3] 章社生, 何 康, 范 寧, 等. 蛋白空間結(jié)構(gòu)數(shù)字特征統(tǒng)計(jì)分析及應(yīng)用[J]. 武漢工程大學(xué)學(xué)報(bào), 2010(5): 74-77.
[4] 王向紅, 官鉻剛. 蛋白質(zhì)三級(jí)結(jié)構(gòu)對(duì)蛋白質(zhì)內(nèi)部形成緊密接觸對(duì)速率的影響[J]. 浙江大學(xué)學(xué)報(bào): 理學(xué)版, 2008(4): 400-405.
[5] ZHOU H, ZHOU Y. Distance-scaled, finite ideal-gas reference state improves structure-derived potentials of mean force for structure selection and stability prediction[J]. Protein Science, 2002, 11: 2714-2726.
[6] ZHANG CHI, LIU SONG, ZHOU YAO-QI. Docking prediction using biological information, ZDOCK sampling technique and clustering guided by the DFIRE statistical energy function[J]. Proteins: Structure, Function, and Bioinformatics, 2005, 60: 314-318.
[7] YANG YUE-DONG, ZHOU YAO-QI. Ab initio folding of terminal segments with secondary structures reveals the fine difference between two closely-related all-atom statistical energy functions[J]. Protein Science, 2008, 17: 1212-1219.
[8] XU B S, YANG Y D, LIANG H J, et al. An all-atom know ledge-based energy function for protein-DNA threading, decoy discrim ination, and prediction of transcription-factor binding profiles[J]. Proteins-structure function and bioinformatics, 76: 718-730.
Protein M odified Chi-square Distribution Function
WANG Ren-fu, WANG Xing, ZHANG She-sheng
(Department of statistics, Wuhan University of Technology, Wuhan 430070, China)
Using statistical analysis and data m ining, the definition of contact distance and contact number between residue atoms is given in proteins. According to the different types of protein, the mathematical expectation, standard deviation, and probability distributions of proteins residues are discussed. With least square fitting method, a modified chi-square distribution function of ASP residue is constructed.
Protein;Residue;Contact number;Chi-square distribution
O213
A
1009-2854(2010)11-0024-03
(責(zé)任編輯:饒 超)
2010-11-20
王人福 (1991— ), 男, 浙江省衢州市人, 武漢理工大學(xué)統(tǒng)計(jì)系助理研究員.
王 星(1988— ) , 男, 湖北省荊州市監(jiān)利縣人,武漢理工大學(xué)統(tǒng)計(jì)系助理研究員.