• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      蛋白質(zhì)序列的混合特征值對折疊速率的影響

      2014-11-14 07:11:06李欣穎白鳳蘭
      生物信息學(xué) 2014年3期
      關(guān)鍵詞:回歸方程特征值預(yù)測值

      李欣穎,白鳳蘭

      (大連交通大學(xué)理學(xué)院,遼寧 大連116028)

      1 材料和方法

      1.1 數(shù)據(jù)

      本文從文獻[15-18]中選取了83個蛋白質(zhì),氨基酸序列從PDB庫取得[19]。在選取44個蛋白質(zhì)中包括13個全α類蛋白質(zhì),18個全β類蛋白質(zhì)和13個混合類蛋白質(zhì),以及39個未分類蛋白質(zhì)。

      1.2 蛋白質(zhì)編碼序列的特征值提取

      氨基酸的標(biāo)準(zhǔn)化屬性Pnorm(i)的計算公式為:

      其中,Pnorm(i)是氨基酸的標(biāo)準(zhǔn)化屬性,P(i)是氨基酸序列中第i個殘基的屬性,Pmax和Pmin分別表示氨基酸屬性中的最大值和最小值。

      蛋白質(zhì)序列中氨基酸的平均屬性Pave的計算公式:

      其中,Pave是蛋白質(zhì)的氨基酸平均屬性,P(j)是氨基酸序列中第j個殘基的屬性,N是氨基酸序列的殘基數(shù)。

      蛋白質(zhì)序列的復(fù)雜度LZc計算公式:

      蒙牛在2012年的經(jīng)營活動中發(fā)現(xiàn)到自己在乳制品方面最大的短板就是嬰幼兒奶粉,在2012年中國嬰幼兒奶粉的市場里,雅士利排第七名,在2012年雅士利擁有5.8%的市場份額,嬰幼兒奶粉產(chǎn)品發(fā)展已經(jīng)非常成熟,擁有成熟的技術(shù)、產(chǎn)品和市場,蒙牛在擴大自己經(jīng)營規(guī)模的時候,打開了自己在奶粉產(chǎn)品的市場,基本上把自己的缺陷彌補了,同時蒙牛又可以彌補雅士利在企業(yè)管理上的不足。蒙牛與雅士利的合并控股是一個雙贏的局面,整體的價值都得到了提升。

      其中,S表示的是序列,c(S)是序列S的復(fù)雜度[11]。

      20 個氨基酸 αc、Cα、K0、Pβ、Ra、ΔASA、PI、ΔGhD、Nm、Mu、El屬性利用公式(1)計算出標(biāo)準(zhǔn)化后的值。

      其中,αc是 α 螺旋的 C 端動力[20-21],Cα是 α螺旋接觸面積[15],K0是可壓縮性[22-23],Pβ是 β 折疊趨勢[21],Ra是在溶劑中的收縮率[24],ΔASA 是溶劑可及表面積[25],PI(at 25℃)表示氨基酸的等電點[26],ΔGhD是吉布斯自由能變性蛋白水化的變化Nm是平均中程接觸,Mu是折射率,EL是長距離的非鍵能[15]。

      利用20個氨基酸標(biāo)準(zhǔn)化后的值和公式(2)、(3)計算了13個全α類蛋白質(zhì),18個全β類蛋白質(zhì)和 13 個混合類蛋白質(zhì) αc、Cα、K0、Pβ、Ra、ΔASA、PI、ΔGhD、Nm、LZc、Mu、EL 的特征值,以及 39 個蛋白質(zhì)的 K0、Rα、ΔASA、Mu、El的特征值,由于數(shù)據(jù)多沒列在文章里。

      2 結(jié)果與討論

      首先,利用多元線性回歸函數(shù)分別計算了13個全α類蛋白質(zhì)、18個全β類蛋白質(zhì)、13個混合類蛋白質(zhì)和未分類的39個蛋白質(zhì)的12種特征值與折疊速率之間的相關(guān)性,實驗值與預(yù)測值之間的相關(guān)系數(shù)分別達到了 0.99、0.96、0.99、0.865,但是用 Jackknife方法檢驗,都得出p>0.05。由此可知,12種特征值當(dāng)中某些特征值對蛋白質(zhì)的折疊速率沒有影響,這樣經(jīng)過多次試驗,對于全α類蛋白質(zhì)選取有效特征值Cα、Ra、LZc,對于全 β 類蛋白質(zhì)選取有效特征值 K0、Pβ、Ra、ΔASA、Nm,對于混合類蛋白質(zhì)選取有效特征值K0、ΔASA、PI,對于未分類的蛋白質(zhì)選取有效特征值 K0、Rα、ΔASA、Mu、El,計算這些特征值與折疊速率ln(kf)之間的相關(guān)性。

      其次,分別對全α類蛋白質(zhì)、全β類蛋白質(zhì)、混合類蛋白質(zhì)和未分類的蛋白質(zhì)的有效特征值與折疊速率做相關(guān)性分析,并與其它方法進行比較。

      選取13個全α類蛋白質(zhì)Cα、Ra、LZc3個特征值與折疊速率ln(kf)做回歸方程:

      用p值檢驗了方程(4)每一項特征值,每一特征值對應(yīng)的p值都小于0.05。實驗值與預(yù)測值之間的相關(guān)系數(shù)R=0.89。用Jack-knife方法檢驗,得出R=0.77、t=4.04、p <0.05。

      Gromiha文章中選取了6個全α類蛋白質(zhì)的1個特征值αc作線性回歸,本文在6個數(shù)據(jù)的基礎(chǔ)上增加到13個全α類蛋白質(zhì),用特征值αc作線性回歸,得到回歸方程:

      本文用p值檢驗了得到的方程(5),p>0.05。實驗值與預(yù)測值之間的相關(guān)系數(shù)R=0.03,t=-0.097。在選取13個全α類蛋白質(zhì)的Cα、Ra、LZc3個特征值中,得到回歸方程的相關(guān)系數(shù)為0.89,說明選取的特征值Cα、Ra、LZc對全α類蛋白質(zhì)有影響。對比結(jié)果見表1。

      表1 全α類蛋白質(zhì)回歸分析結(jié)果Table 1 The results of all-α proteins regression analysis

      選取 18 個全 β 類蛋白質(zhì)的 K0、Pβ、Ra、ΔASA、Nm5個特征值與折疊速率ln(kf)做回歸方程:

      用p值檢驗了以上方程的每一項特征值,每一特征值對應(yīng)的p值都小于0.05。實驗值與預(yù)測值之間的相關(guān)系數(shù)R=0.93。用Jack-knife方法檢驗,得出 R=0.78、t=4.93、p <0.001。

      同樣18個全β類蛋白質(zhì),選取Gromiha文章中的 K0、Pβ、Ra、ΔASA4 個特征值作線性回歸,得到方程:

      用p值檢驗了以上方程的每一項特征值,其對應(yīng)的p值都小于0.05。實驗值與預(yù)測值之間的相關(guān)系數(shù)R=0.89。用Jack-knife方法檢驗,得出R=0.73、t=4.28、p < 0.001。這說明本文選取的特征值 K0、Pβ、Ra、ΔASA、Nm對全 β 類蛋白質(zhì)有影響。對比結(jié)果見表2.

      表2 全β類蛋白質(zhì)回歸分析結(jié)果Table 2 The results of all-β proteins regression analysis

      選取13個混合類蛋白質(zhì) K0、ΔASA、PI三個特征值與折疊速率ln(kf)做回歸方程:

      用p值檢驗了以上方程的每一項特征值,每一特征值對應(yīng)的p值都小于0.05。實驗值與預(yù)測值之間的相關(guān)系數(shù)R=0.98。用Jack-knife方法檢驗,得出R=0.97、t=13.46、p <0.001。

      同樣的13個混合類蛋白質(zhì),選取Gromiha文章中的 K0、Ra、ΔASA、ΔGhD4 個特征值作線性回歸,得到方程:

      用p值檢驗了以上方程的每一項特征值,每一特征值對應(yīng)的p值都小于0.05。實驗值與預(yù)測值之間的相關(guān)系數(shù)R=0.96。用Jack-knife方法檢驗,得出 R=0.91、t=7.07、p <0.001。這說明本文選取的特征值K0、ΔASA、PI對混合類蛋白質(zhì)有影響。對比結(jié)果見表3。

      表3 混合類蛋白質(zhì)回歸分析結(jié)果Table 3 The results of mixed class proteins regression analysis

      對于未分類的39個蛋白質(zhì),選取5個特征值K0、Rα、ΔASA、Mu、El與折疊速率 ln(kf)作回歸方程:

      用p值檢驗了以上方程的每一項特征值,每一特征值對應(yīng)的p值都小于0.05。實驗值與預(yù)測值之間的相關(guān)系數(shù)R=0.86,用 Jack-knife 方法檢驗,得出 R=0.81、t=8.32、p<0.001。

      同樣的39個未分類蛋白質(zhì),選取Gromiha文章中的K0、Ra、ΔASA、ΔGhD4 個特征值作線性回歸,得到方程:

      用p值檢驗了以上方程的每一項特征值,其對應(yīng)的p值都大于0.05。實驗值與預(yù)測值之間的相關(guān)系數(shù)R=0.697。用 Jack-knife 方法檢驗,得出 R=0.48、t=3.37、p > 0.001。這說明選取的特征值 K0、Rα、ΔASA、Mu、El對未分類蛋白質(zhì)有影響。對比結(jié)果見表4。

      表4 未分類蛋白質(zhì)回歸分析結(jié)果Table 4 The results of unclassified proteins regression analysis

      通過實驗計算得出,對于未分類蛋白質(zhì)選取5個特征值 K0、Rα、ΔASA、Mu、El計算蛋白質(zhì)折疊速率預(yù)測值,與ln(kf)有良好的相關(guān)性。

      對于不同類別的蛋白質(zhì),其折疊速率有很大的區(qū)別。本文研究不同的特征值對不同類別的蛋白質(zhì)折疊速率的影響,以及特征值對未分類蛋白質(zhì)折疊速率的影響。從本文的實驗結(jié)果發(fā)現(xiàn),Cα、Ra、LZc3個特征值對全α類蛋白質(zhì)折疊有一定的影響,對于全β類蛋白質(zhì),在Gromiha文章選取的4個特征值基礎(chǔ)上增加了Nm特征值,使得全β類蛋白質(zhì)的折疊速率有所提高,相關(guān)系數(shù)達到0.93。為了說明Nm特征值對全β類蛋白質(zhì)的折疊速率有影響,本文又選取了13個數(shù)據(jù)進行驗證。由實驗結(jié)果可知,在增加Nm特征值后全β類蛋白質(zhì)的折疊速率確實有所提高(見表2)。由此可見,增加的特征值是有效特征值。對于混合類蛋白質(zhì),本文選取了3個特征值K0、ΔASA、PI其相關(guān)系數(shù)比Gromiha文章選取特征值得到的相關(guān)系數(shù)要高(見表3)。由研究結(jié)果發(fā)現(xiàn),特征值K0、ΔASA對全β類蛋白質(zhì)和混合類蛋白質(zhì)的折疊速率都有影響。選取 K0、Rα、ΔASA、Mu、El5個特征值對未分類的蛋白質(zhì)的折疊有一定的影響。

      3 結(jié)論

      蛋白質(zhì)在生物體內(nèi)占有重要的地位,是一個生物大分子,由20個氨基酸以肽鍵的形式形成肽鏈。肽鏈在空間結(jié)構(gòu)中通過卷曲形成特定的空間結(jié)構(gòu),如二級結(jié)構(gòu)和三級結(jié)構(gòu)。氨基酸殘基及周圍介質(zhì)之間的相互作用決定了蛋白質(zhì)的結(jié)構(gòu)和折疊速率。由于蛋白質(zhì)折疊速率對蛋白質(zhì)功能有一定的影響,近些年來,已有很多方法來預(yù)測蛋白質(zhì)折疊速率。有很多研究工作者從蛋白質(zhì)的二級結(jié)構(gòu)和三級結(jié)構(gòu)來進行預(yù)測蛋白質(zhì)的折疊速率,但是由于蛋白質(zhì)的二級結(jié)構(gòu)和三級結(jié)構(gòu)影響因子單一,結(jié)構(gòu)復(fù)雜,因此越來越多的研究工作者們開始從蛋白質(zhì)的一級結(jié)構(gòu)來預(yù)測蛋白質(zhì)的折疊速率。本文就是研究蛋白質(zhì)的一級結(jié)構(gòu)信息對蛋白質(zhì)折疊速率的影響,運用生物統(tǒng)計學(xué)和生物信息學(xué)的方法,選取了蛋白質(zhì)編碼序列的一些特征值,通過實驗驗證了這些特征值對不同類別的蛋白質(zhì)折疊速率的影響不同。

      本文對于全α類蛋白質(zhì),全β類蛋白質(zhì),混合類蛋白質(zhì)和未分類蛋白質(zhì)分別得到4個線性回歸方程。利用這些回歸方程研究了所選取的特征值與蛋白質(zhì)折疊速率之間的相關(guān)性,得到了較好的結(jié)果,比Gromiha文章選取的特征值相關(guān)系數(shù)都有所提高。不同的數(shù)據(jù)集對結(jié)果有一定的影響,如何減少數(shù)據(jù)集對結(jié)果的影響會在后續(xù)工作中進行更深入研究。

      References)

      [1] GUO Jianxiu,MA Binguang,ZHANG Hongyu.Progress in protein folding rate prediction[J],Acta Biophysica Sinica,2006,22(2):89 -95.郭建秀,馬彬廣,張紅雨.蛋白質(zhì)折疊速率預(yù)測研究進展[J],生物物理學(xué)報,2006,22(2):89-95.

      [2] GROMIHA M M,SELVARAJ S.Bioinformatics approaches for understanding and predicting protein folding rates[J].Current Bioinformatics,2008,3(1):1-9.

      [3] PLAXCO K W,SIMONS K T,BAKER D.Contact order,transition state placement and the refolding rates of single domain proteins[J].Journal of Molecular Biology,1998,277(4):985-944.

      [4] ZHOU H,ZHOU Y.Folding rate prediction using total contact distance[J].Biophysical Journal,2002,829(1),458-463.

      [5] GONG H,ISOM D G,SRINIVASAN R,et al.Local secondary structure content predicts folding rates for simple two-state proteins[J].J Mol Biol,2003,327(5):1149-1154.

      [6] IVANKOV D N,F(xiàn)INKELSTEIN A V.Prediction of protein folding rates from the amino acid sequence-predicted secondary structure[J].Proc Nat Acad Sci USA,2004,101(24):8942-8944.

      [7] SHAO H,PENG Y,ZENG Z H.A simple parameter relating sequences with folding rates of small helical proteins[J].Protein Pept Lett,2003,10(3):277 -280.

      [8] GALZITSKAYA O V,GARBUZYNSKIY S O,IVANKOV D N,et al.Chain length is the main determinant of the folding rate for proteins with three-state folding kinetics[J].Proteins,2003,51(2):162 -166.

      [9] 徐宏睿,馬彬廣.蛋白質(zhì)折疊速率決定因素與預(yù)測方法的研究進展[J],生物物理學(xué)報,2013,29(3):192-202.XU Hongrui,MA Binguang.Progress in the study on determinants of protein folding rate and method of folding rate prediction[J].Acta Biophysica Sinica,2013,29(3):192-202.

      [10] MA B G,GUO J X,ZHANG H Y.Direct correlation between proteins'folding rates and their amino acid compositions:an ab initio folding rate prediction[J].Proteins,2006,65(2):362 -372.

      [11] HUANG J T,XING D J,HUANG W.Relationship between protein folding kinetics and amino acid properties[J].Amino Acids,2012,43:567 -572.

      [12] GROMIHAM M,THANGAKANI A M,SELVARAJ S.FOLD-RATE:prediction of protein folding rates from amino acid sequence[J].Nucleic Acids Res,2006,34(suppl_2):70-74.

      [13] HUANG L T,GROMIHA M M.Analysis and prediction of protein folding rates using quadratic response surface models[J].J Comput Chem,2008,29(10):1675 -1683.

      [14] GOU J X,RAO N N,LIU G X,et al.Predicting protein folding rate from amino acid sequence[J].Prog Biochem Biophys,2011,37(12):1331 -1338.

      [15] GROMIHA M M.A statistical model for predicting protein folding rates from amino acid sequence with structural class information[J].Chem Inf Model,2005,45(2):494-501.

      [16]于志芬,李瑞芳.同義密碼子的使用偏好性對蛋白質(zhì)折疊速率的影響[J],生物物理學(xué)報,2013,29(8):603-613.YU Zhifen,LI Ruifang.The influence of synonymous codon bias on protein folding rates[J].Acta Biophysica Sinica,2013,29(8):603 -613.

      [17]胡睿,史小紅,李晉惠.基于序列疏水值震蕩的折疊速率預(yù)測[J].生物信息學(xué),2013,11(2):86 -89.HU Rui,SHI Xiaohong,LI Jinhui.Prediction of protein folding-rate based on the hydrophobic value vibration[J].Chinese Journal of Bioinformatics,2013,11(2):86 -89.

      [18]胡睿,史小紅,基于殘基接觸數(shù)的蛋白質(zhì)折疊速率預(yù)測[J].西安工業(yè)大學(xué)學(xué)報,2013,33(2):146 -150.HU Rui,SHI Xiaohong.Prediction of protein folding-rate based on the residues contact numbei[J].Journal of Xi’an Technological University,2013,33(2):146 -150.

      [19] BEMAN H M,WESTBROOK J,F(xiàn)ENG Z,et al.The protein Databank[J].Nucleic Acids Res,2000,28(1):235-242.

      [20]GROMIHA M M,SARAI O A.Important amino acid properties for enhanced thermostability from mesospheric to hemophilic protein[J].Biophys Chem,1999,82:51 -67.

      [21] CHOU P Y,F(xiàn)ASMAN G D.Prediction of the secondary structure of proteins from their amino acid sequence[J].Adv Enzym,1978,47:45 -148.

      [22] IQBAL M,VERRALL R E.Implications of protein folding.Additivity schemes for volumes and compressibilities[J].Biol Chem,1988,263(9):4159 -4165.

      [23]GEKKO K,NOGUCHI H.Compressibility of globular proteins in water at 25 degree C[J].Phys Chem,1979,83(21):2706-2714.

      [24] PONNUSWAMY P K,PRABHAKARAN M,MANAVALAN P.Hydrophobic packing and spatial arrangement of amino acid residues in globular proteins[J].Biochim Biophys Acta,1980,623(2):301 -316.

      [25] OOBATAKE M,OOI T.Hydration and heat stability effects on protein unfolding[J].Prog Biophys Mol Biol,1993,59(3):237 -284.

      [26]李丹,基于蛋白質(zhì)圖形表示的膜蛋白跨膜區(qū)預(yù)測[D].杭州:浙江理工大學(xué),2012.LI Dan.The prediction oftransmembrane domains based on the graphical representation of protein sequences[D].HANG zhou:Zhejiang Sci-Tech University,2012.

      猜你喜歡
      回歸方程特征值預(yù)測值
      IMF上調(diào)今年全球經(jīng)濟增長預(yù)期
      企業(yè)界(2024年8期)2024-07-05 10:59:04
      加拿大農(nóng)業(yè)部下調(diào)2021/22年度油菜籽和小麥產(chǎn)量預(yù)測值
      一類帶強制位勢的p-Laplace特征值問題
      ±800kV直流輸電工程合成電場夏季實測值與預(yù)測值比對分析
      采用直線回歸方程預(yù)測桑癭蚊防治適期
      單圈圖關(guān)聯(lián)矩陣的特征值
      線性回歸方程的求解與應(yīng)用
      線性回歸方程要點導(dǎo)學(xué)
      法電再次修訂2020年核發(fā)電量預(yù)測值
      國外核新聞(2020年8期)2020-03-14 02:09:19
      走進回歸分析,讓回歸方程不再是你高考的絆腳石
      马山县| 聊城市| 海阳市| 和田县| 乐都县| 凉城县| 科尔| 乐东| 赤壁市| 邻水| 东阿县| 馆陶县| 富顺县| 永福县| 临沭县| 通辽市| 子长县| 仁怀市| 屯门区| 黔东| 沾益县| 内江市| 驻马店市| 平湖市| 平远县| 小金县| 白山市| 商南县| 库伦旗| 沈丘县| 丹阳市| 泗阳县| 淳安县| 福海县| 天峨县| 苏尼特右旗| 辽源市| 会理县| 广宗县| 南通市| 东兰县|