黃凱宗,張光亞
(華僑大學(xué)化工學(xué)院,福建泉州 362021)
使用偽氨基酸組成和BP神經(jīng)網(wǎng)絡(luò)預(yù)測類彈性蛋白多肽的相變溫度
黃凱宗,張光亞
(華僑大學(xué)化工學(xué)院,福建泉州 362021)
根據(jù)獲得的16條ELP序列及相變溫度的數(shù)據(jù),利用偽氨基酸組成方法提取其序列特征值.將偽氨基酸組成中的相關(guān)系數(shù)部分作為類彈性蛋白的特征向量,從類彈性蛋白序列出發(fā),利用最小中位方差回歸,找出與其序列相關(guān)系數(shù)的最佳階數(shù).運用均勻設(shè)計法,分別對支持向量機與BP神經(jīng)網(wǎng)絡(luò)參數(shù)進行優(yōu)化.結(jié)果表明:BP神經(jīng)網(wǎng)絡(luò)獲得的預(yù)測模型最佳,相變溫度絕對誤差為0.39℃,均方根誤差為0.89℃.
類彈性蛋白;相變溫度;偽氨基酸組成方法;支持向量機;BP神經(jīng)網(wǎng)絡(luò)
類彈性蛋白多肽(Elastin-Like Polypep tides,ELPs)是一種具有彈性功能且對環(huán)境非常敏感的生物高分子,它由五肽重復(fù)序列單元構(gòu)成.如果環(huán)境溫度低于ELP的相變溫度,則該多肽在水溶液中是高度可溶的,聚合物鏈就保持無序結(jié)構(gòu),且相當(dāng)伸展;反之,當(dāng)環(huán)境溫度高于相變溫度時,這一含水的多肽鏈結(jié)構(gòu)就會瓦解,并開始聚集,形成一個富含 ELPs的聚集物[1].利用類彈性蛋白的可逆相變特性,使其在蛋白純化、藥物載體、組織工程等方面得到廣泛的應(yīng)用[2].U rry等[3]認為,相變溫度是關(guān)于 ELP序列、多肽鏈長度、Xaa種類摩爾分數(shù)的函數(shù).Chilkoti等[4]利用重組基因進行克隆表達,得到了在序列和多肽鏈長均能精確控制的ELP.他們用非線性回歸分析描述了ELP序列鏈長及濃度與相變溫度的關(guān)系,但所得到的模型僅能預(yù)測3種ELP文庫的相變溫度.本文根據(jù)獲得的16條ELP序列及相變溫度的數(shù)據(jù),利用偽氨基酸組成方法提取其序列特征值,采用BP神經(jīng)網(wǎng)絡(luò)、支持向量機方法、最小中位方差回歸預(yù)測ELP的相變溫度值.
1.1 試驗數(shù)據(jù)來源
文中所用的數(shù)據(jù)取自于文獻[5].
1.2 偽氨基酸組成
偽氨基酸組成包含20+λ個變量,最早由Chou等[6]提出.由于文中所涉及的ELP氨基酸組成極為相似,而且種類很少,為了減少輸入變量數(shù)目,對其略作調(diào)整,僅取其后的λ個變量,即氨基酸相關(guān)系數(shù). ELP相關(guān)系數(shù)的階數(shù)λ從1取到10,氨基酸相關(guān)系數(shù)計算參見文獻[7].
1.3 均勻設(shè)計
在運行時,支持向量機(SVM)[8]和BP神經(jīng)網(wǎng)絡(luò)[9]都需要選擇參數(shù),以達到最佳效果.因此,采用均勻設(shè)計法(UD)[10]來選擇適當(dāng)?shù)倪\行參數(shù).定義3個特征指標(biāo)[11],即平均絕對百分比誤差δMPAE、均方根誤差δMSE和平均絕對誤差δMAE.模型預(yù)測的結(jié)果采用常用的“留一法”,即對n組數(shù)據(jù),每次取1組作測試,其他n-1組作為訓(xùn)練樣本,共進行n次循環(huán),使得樣本中所有數(shù)據(jù)都能進行預(yù)測.
2.1 氨基酸相關(guān)系數(shù)的階數(shù)的選擇
根據(jù)文獻[6],氨基酸相關(guān)系數(shù)的階數(shù)(λ)是偽氨基酸組成一重要參數(shù).文獻數(shù)據(jù)的相變溫度呈離散分布,使用最小中位方差回歸會更為精確[11-12],且運行過程中無需調(diào)整參數(shù).
參數(shù)λ經(jīng)最小中位方差(Least Median of Squares Regression,LM SQ)回歸檢測,獲得的平均絕對百分比誤差δMPAE、均方根誤差δMSE和平均絕對誤差δMAE關(guān)系,如表1所示.由表1可知,當(dāng)λ=8時,δMAE為3.04,δMSE為5.73,δMPAE為40.91%.即擬合所得ELP相變溫度準(zhǔn)確率最高,因此取λ=8.
表1 氨基酸相關(guān)系數(shù)的階數(shù)對特征指標(biāo)的影響Tab.1 Effect of the o rder of correlation coefficient for amino acids on characteristic index
當(dāng)λ=8時,執(zhí)行最小中位方差回歸得到ELP的相變溫度擬合模型為
其中:x1~x8分別為偽氨基酸組中相關(guān)系數(shù);x9~x10分別為 ELP的相對分子質(zhì)量、ELP每一單體的Xaa數(shù)量;ELP濃度對ELP相變溫度沒有影響,故為其相關(guān)系數(shù)零.
從模型(1)可見,第1,第4和第6個相關(guān)系數(shù)對相變溫度有較大的負面影響,而第5個相關(guān)系數(shù)則有較大的正面影響;偽氨基酸組的相關(guān)系數(shù)對ELP的相變溫度影響較大.當(dāng)ELP濃度較高時,其濃度在一定范圍變化對相變溫度幾乎不影響.這與Chilkoti等[4]的實驗結(jié)果較為一致.
使用最小中位方差回歸獲得的擬合值與實測值關(guān)系,如圖1所示.由圖1可知,一些擬合值非常好,而另外一些預(yù)測值與實測值差距比較大,從而導(dǎo)致其回歸直線的斜率偏離較大.
表2 支持向量機運行參數(shù)的選擇Tab.2 Selection of running parameters of SVM
2.2 利用支持向量機預(yù)測相變溫度
如前所述,λ=8為氨基酸相關(guān)系數(shù)的階數(shù)最佳運行參數(shù).利用均勻設(shè)計法對支持向量機的運行參數(shù)進行優(yōu)化,交叉驗證后的結(jié)果如表2所示.
由表2可得出,3個誤差特征指標(biāo)在交叉驗證中變化的幅度較小.這說明SVM對運行的參數(shù)不是很敏感.當(dāng)懲罰系數(shù)C=100,ε為1.0×10-5,γ為0.3 (即方案7)時,其δMAE,δMSE和δMPAE值均最小,分別為1.85,3.31和23.39%.即所建立的模型對 ELP相變溫度預(yù)測準(zhǔn)確率最高,故為最佳方案.
在方案7中,使用用支持向量機方法建立相變溫度模型.通過該模型對實際測得的數(shù)據(jù)進行預(yù)測,預(yù)測的效果,如圖2所示.從圖2可知,模型預(yù)測的結(jié)果
與實際測量值的相關(guān)系數(shù)達0.93,模型預(yù)測的結(jié)果較好.
2.3 利用神經(jīng)網(wǎng)絡(luò)預(yù)測相變溫度
對神經(jīng)網(wǎng)絡(luò)而言,由于訓(xùn)練樣本集的大小有限,網(wǎng)絡(luò)訓(xùn)練后對訓(xùn)練集外的輸入的響應(yīng),直接決定網(wǎng)絡(luò)的性能.為了檢驗所建立的神經(jīng)網(wǎng)絡(luò)的可靠性,對其進行3因素9水平交叉驗證,結(jié)果如表3所示.
圖1 利用最小中位方差回歸的擬合值與實測值關(guān)系Fig.1 Relationship between experimental and fitted transition temperature obtained by LM SR
圖2 使用支持向量機獲得的預(yù)測值與實測值關(guān)系 Fig.2 Relationship between experimental and predicted transition temperature obtained by SVM
從表3可知,3個特征值變化幅度較大,神經(jīng)網(wǎng)絡(luò)對運行參數(shù)比較敏感.在9組驗證中,采用默認參數(shù)獲得的特征值最好.即隱含層節(jié)點數(shù)(n)為6,學(xué)習(xí)速率(v)為0.3,動態(tài)參數(shù)(σ)為0.2時,準(zhǔn)確率最高,其δMAE,δMSE和δMPAE值均最小,分別為0.39,0.89和4.86%.
用BP神經(jīng)網(wǎng)絡(luò)建立的相變溫度模型.通過該模型對實際測得的數(shù)據(jù)進行預(yù)測,結(jié)果如圖3所示.從圖3可知,模型預(yù)測的結(jié)果與實際測量值的相關(guān)系數(shù)達0.99.
表3 神經(jīng)網(wǎng)絡(luò)運行參數(shù)的選擇Tab.3 Selection of running parameters of BP neural network
圖3 使用BP神經(jīng)網(wǎng)絡(luò)獲得的預(yù)測值與實測值關(guān)系Fig.3 Relationship between experimental and predicted transition temperature obtained by BP neaural network
由圖1~3可知,BP神經(jīng)網(wǎng)絡(luò)所建立的預(yù)測相變溫度的精度,比使用支持向量機和最小中位方差回歸建立的相變溫度要好,可作為后續(xù)使用的模型.
當(dāng)實測的ELP相變溫度為60℃(此時ELP的序列最短濃度最高),與3種算法所預(yù)測(回歸的結(jié)果是擬合的)出來相變溫度值均差距較大.這可能是因為當(dāng)序列較短時,ELP濃度與長度的變化對相變溫度影響更大[4],而ELP的序列組成對相變溫度影響較小.
與傳統(tǒng)的擬合方法預(yù)測ELP的相變溫度相比,基于支持向量機和神經(jīng)網(wǎng)絡(luò)對相變溫度進行預(yù)測,不用通過預(yù)測相變溫度具體形式,就可以直接從數(shù)據(jù)中得到相變溫度與ELP序列、分子量、Xaa組成、濃度之間的關(guān)系.同時,只要能加以一定的先驗知識,還能夠更大范圍地反映它們之間的關(guān)系,其應(yīng)用的范圍也將更為廣闊.
文中基于Chou等提出的偽氨基酸概念[6],考慮到ELP的氨基酸組成極為相似,構(gòu)造了一種λ維的偽氨基酸組成來表示蛋白質(zhì)序列.采用BP神經(jīng)網(wǎng)絡(luò)、支持向量機方法、最小中位方差回歸預(yù)測ELP的相變溫度值.結(jié)果表明,當(dāng)λ=8為氨基酸相關(guān)系數(shù)的階數(shù)最佳運行參數(shù)時,使用BP神經(jīng)網(wǎng)絡(luò)所建立的相變溫度預(yù)測模型為最佳.
[1]URRYDW.Physical chemistry of biological free energy transduction as demonstrated by elastic protein-based polymers[J].Phys Chem(B),1997,101(51):11007-11028.
[2]CHOW D,NUNALEE M L,CH IL KOTIA,et al.Pep tide-based biopolymers in biomedicine and biotechnology [J].Mater Sci Eng R Rep,2008,62(4):125-155.
[3]URRYD W,LUAN C H,PARKER T M,et al.Temperature of polypep tide inverse temperature transition depends on mean residue hydrophobicity[J].J Am Chem Soc,1991,113(11):4346-4348.
[4]M EYER D E,CH ILKOTIA.Quantification of the effects of chain length and concentration on the thermal behavior of elastin-like polypep tides[J].Biomacromolecules,2004,5(3):846-851.
[5]OlSON SD.Mathematical models for analysisof tissue regeneration in articular cartilage[D].No rth Carolina State: North Carolina State University,2009.
[6]CHOU Kuo-chen.Prediction of protein cellular attributes using pseudo amino acid composition[J].Proteins:Structure,Function,and Bioinfo rmatics,2001,43(3):246-255.
[7]SHEN Hong-bin,CHOU Kuo-chen.PseAAC:A flexible web-server for generating various kinds of protein pseudo amino acid composition[J].Analytical Biochemistry,2008,373(2):386-388.
[8]VANPN IK V N.The nature of statistical learning theory[M].New York:Sp ringer-Verlag,1995.
[9]黃永恒,曹平,汪亦顯.基于BP神經(jīng)網(wǎng)絡(luò)的巖土工程預(yù)測模型研究[J].科技導(dǎo)報,2009,27(6):61-64.
[10]方開泰.均勻設(shè)計:數(shù)論方法在試驗設(shè)計的應(yīng)用[J].應(yīng)用數(shù)學(xué)學(xué)報,1980(3):363-372.
[11]張光亞,葛慧華,方柏山.一種預(yù)測木聚糖酶最適溫度的PCANN模型[J].華僑大學(xué)學(xué)報:自然科學(xué)版,2007,28 (1):55-58.
[12]ROUSSEEUW PJ.Leastmedian of squares regression[J].Journal of the American Statistical Association,1984,79 (388):871-880.
[13]STEELE JM,STEIGERW L.Algorithms and complexity for least median of squares regression[J].Discrete Applied Mathematics,1986,14(1) :93-100.
(責(zé)任編輯:黃曉楠英文審校:劉源崗)
Using Pseudo-Amino Acid Composition and BP Neural Network to Predict the Transition Temperature of Elastin-Like Peptides
HUANG Kai-zong,ZHANG Guang-ya
(College of Chemical Engineering,Huaqiao University,Quanzhou 362021,China)
Elastin-like pep tides(ELP)is one of the multi-pep tides which has been widely used.Transition temperature is the most convenient parameters for quantificational description of the ELP properties.It is of great importance to exp lo re the relationship between the transition temperature and the sequence characteristics,the number of Xaa of each monomer and the concentration of ELP.In this article,the best order of the correlation coefficient for pseudo-amino acid composition was obtained by using Least Median of Squares Regression from sequence.The uniform design was used to optimize the running parameters and leave-oneout cross-validation was carried out to evaluate the model of back propagation neural network(BPNN)and support vector machines,respectively.The results showed that the predicted model obtained by BPNN was the best,of which the mean absolute error and root mean squared error was0.39℃and 0.89℃, respectively.
elastin-like pep tides;transition temperature;pseudo-amino acid composition;support vector machines; back propagation neural network
Q 516.02
A
1000-5013(2011)02-0194-04
2009-09-21
張光亞(1975-),男,副教授,主要從事生物信息與生物化工的研究.E-mail:zhgyghh@hqu.edu.cn.
國家自然科學(xué)基金資助項目(20806031);福建省自然科學(xué)基金資助項目(2009J01030)