許 嘉
(內(nèi)蒙古科技大學(xué)分析測(cè)試中心,內(nèi)蒙古包頭014010)
抗凍蛋白(Antifreeze protein,AFP)是一類能夠特異性結(jié)合冰晶、提高生物抗凍能力的蛋白質(zhì)[1]。這類蛋白最初是在南北極的海洋魚類血清中發(fā)現(xiàn),近年來(lái),在昆蟲、真菌、細(xì)菌和某些植物體內(nèi)也均發(fā)現(xiàn)存在抗凍蛋白。這類蛋白通過(guò)與冰晶的特異性相互作用,阻止生物體內(nèi)冰核的形成與生長(zhǎng),維持生物體內(nèi)的溶液狀態(tài)。因此,對(duì)抗凍蛋白的理論研究有助于揭示抗凍蛋白的活性和抗凍機(jī)理。
正確判斷一條新測(cè)序的蛋白質(zhì)是否為抗凍蛋白對(duì)于生物工程發(fā)展、作物的改造十分重要。然而,利用實(shí)驗(yàn)手段來(lái)判斷是否是抗凍蛋白不但費(fèi)時(shí),而且會(huì)消耗很多資源。隨著大量生物基因組測(cè)序的完成,海量基因組、蛋白質(zhì)組、轉(zhuǎn)錄組數(shù)據(jù)的產(chǎn)生,利用機(jī)器學(xué)習(xí)算法來(lái)預(yù)測(cè)蛋白質(zhì)的類型和功能不僅節(jié)約了實(shí)驗(yàn)成本,而且能夠大大提高實(shí)驗(yàn)效率。后基因組時(shí)代為我們提供了大量蛋白質(zhì)序列和注釋信息,同時(shí)為理論預(yù)測(cè)抗凍蛋白提供了可能性[2]。
目前,已有一些判別方法用于抗凍蛋白的預(yù)測(cè)[3-4],且取得了一定的結(jié)果。然而,仍缺乏對(duì)抗凍蛋白有效的描述。本文利用偽氨基酸組分來(lái)描述抗凍蛋白序列,并利用支持向量機(jī)來(lái)對(duì)抗凍蛋白進(jìn)行預(yù)測(cè)。
抗凍蛋白原始數(shù)據(jù)從 http://www3.ntu.edu.sg/home/EPNSugan/index_files/AFP-Pred.htm[3]下載。該數(shù)據(jù)集包含了481條抗凍蛋白序列和9 193條非抗凍蛋白序列,這些數(shù)據(jù)的序列一致性低于40%。如果正負(fù)數(shù)據(jù)集的數(shù)目偏差過(guò)大,會(huì)導(dǎo)致錯(cuò)誤的評(píng)估預(yù)測(cè)模型。因此,為了平衡正負(fù)集數(shù)據(jù),分別選取400條抗凍蛋白和400條非抗凍蛋白作為基準(zhǔn)數(shù)據(jù)集,并進(jìn)一步將正負(fù)數(shù)據(jù)集隨機(jī)分為訓(xùn)練集和測(cè)試。這兩集合分別包含200條抗凍蛋白和200條非抗凍蛋白。
偽氨基酸組分(PseAAC)[5]是 Chou教授提出的一種能夠很好地表征蛋白質(zhì)序列的信息參數(shù)。它不但能夠描述蛋白質(zhì)序列的氨基酸組成,而且能夠描述蛋白質(zhì)氨基酸序列的物理化學(xué)性質(zhì)的關(guān)聯(lián)。下面對(duì)偽氨基酸組分進(jìn)行描述。
如果將一個(gè)氨基酸殘基數(shù)為L(zhǎng)的蛋白質(zhì)X表示成,R1R2R3…RL那么,這條蛋白質(zhì)序列就可以表示成由20+λ個(gè)離散數(shù)值定義的一個(gè)20+λ維向量,定義形式如下:
這里
其中,fi表示20種不同氨基酸殘基在蛋白質(zhì)X中出現(xiàn)的頻率。ω是蛋白質(zhì)序列關(guān)聯(lián)的權(quán)重因子。通常,權(quán)重因子的選擇范圍定在ω=0.05到0.7之間,這里我們選取ω=0.05。θj是j階序列相關(guān)系數(shù):
公式(3)中相關(guān)性函數(shù)Θ(Ri,Ri+j)是可以由以下公式得出:
其中,k是因子個(gè)數(shù),Hl(Ri)是第i個(gè)氨基酸殘基所具有的任一種物理化學(xué)特征。這些物理化學(xué)特征主要包括親水性,疏水性,側(cè)鏈聚集度,a-COOH基的PK值,α-NH3+基的PK值,溫度為25℃時(shí)的pI值。這些物化性質(zhì)的值需經(jīng)過(guò)標(biāo)準(zhǔn)化處理,公式如下:
這里Hl0(i)是第i個(gè)氨基酸殘基物理化學(xué)特征值的原始值,可從網(wǎng)站 http://chou.med.harvard.edu/bioinf/PseAAC/獲得。
支持向量機(jī)是一種優(yōu)秀的機(jī)器學(xué)習(xí)方法,并已廣泛運(yùn)用于生物信息學(xué)的領(lǐng)域,比如:轉(zhuǎn)錄起始點(diǎn)和蛋白質(zhì)亞細(xì)胞定位等多個(gè)方面。其優(yōu)點(diǎn)在于能夠同時(shí)最小化經(jīng)驗(yàn)誤差與最大化幾何邊緣區(qū),因此支持向量機(jī)也被稱為最大邊緣區(qū)分類器。其基本思想是將向量映射到一個(gè)更高維的空間里,使得不同類型的向量在高維空間中線性可分。對(duì)于待分類樣本,其判別函數(shù)具有如下形式:
其中,k(x,xi)稱為核函數(shù),通過(guò)選取不同的核函數(shù)可以得到不同的支持向量機(jī),常用的核函數(shù)有以下幾種形式:
(6)~(8)式中,d、γ、b和 c分別為三種核函數(shù)的可調(diào)參數(shù)。本文采用由Chang和Lin開發(fā)的LIBSVM軟件包[6],選取徑向基函數(shù)(RBF)作為支持向量機(jī)的核函數(shù),調(diào)整誤差懲罰參數(shù)C及核函數(shù)參數(shù)γ,可得到最佳預(yù)測(cè)模型。這里使用LIBSVM中的gridsearch程序來(lái)優(yōu)化參數(shù)C和γ。
利用敏感性(Sensitivity,Sn)、特異性(Specificity,Sp)和總體準(zhǔn)確率(Overall accuracy,OA)為評(píng)價(jià)指標(biāo)測(cè)試模型的預(yù)測(cè)性能,其定義如下:
其中,TP、TN、FP和FN分別為正確預(yù)測(cè)抗凍蛋白數(shù)目,正確預(yù)測(cè)的非抗凍蛋白,非抗凍蛋白預(yù)測(cè)成為抗凍蛋白的數(shù)目和抗凍蛋白預(yù)測(cè)成非抗凍蛋白的數(shù)目。
以偽氨基酸組分為特征,利用支持向量機(jī)進(jìn)行分類。利用grid方法對(duì)訓(xùn)練集進(jìn)行參數(shù)尋優(yōu),建立最優(yōu)模型。發(fā)現(xiàn)當(dāng)C=32 768且γ=0.001 953 125時(shí),模型的預(yù)測(cè)精度最高,對(duì)訓(xùn)練集預(yù)測(cè)精度達(dá)到91.3%。為檢驗(yàn)?zāi)P偷耐茝V能力,我們利用構(gòu)建好的模型對(duì)400條測(cè)試序列進(jìn)行預(yù)測(cè),結(jié)果表明有78.8%的蛋白質(zhì)被預(yù)測(cè)成功,其中75.1%的抗凍蛋白和83.6%的非抗凍蛋白能夠被正確預(yù)測(cè)。該結(jié)果證明偽氨基酸組分可用于抗凍蛋白的預(yù)測(cè)。
AFP-Pred是第一款用于抗凍蛋白預(yù)測(cè)的軟件[3],其構(gòu)建基于300條抗凍蛋白和300條抗凍蛋白。通過(guò)使用隨機(jī)森林算法對(duì)抗凍蛋白進(jìn)行預(yù)測(cè),對(duì)訓(xùn)練集的預(yù)測(cè)精度達(dá)到81.3%,對(duì)測(cè)試集的預(yù)測(cè)精度達(dá)到 83.4%。最近,Zhao Xiaowei等開發(fā)了AFP_PSSM來(lái)預(yù)測(cè)抗凍蛋白[4],對(duì)訓(xùn)練集的預(yù)測(cè)精度為82.7%,對(duì)測(cè)試集的預(yù)測(cè)精度達(dá)到93.0%。
盡管已有對(duì)測(cè)試集的預(yù)測(cè)精度高于本研究結(jié)果,但對(duì)于訓(xùn)練集,本研究結(jié)果仍具備優(yōu)勢(shì)。此外,這些方法大多使用了蛋白質(zhì)序列的進(jìn)化信息和預(yù)測(cè)的二級(jí)結(jié)構(gòu)信息,這些信息的獲得和提取比本研究使用的偽氨基酸組分要更加復(fù)雜。特別是當(dāng)查詢的數(shù)據(jù)庫(kù)中沒(méi)有待查詢序列的同源序列時(shí),進(jìn)化信息將不可用;當(dāng)二級(jí)結(jié)構(gòu)預(yù)測(cè)軟件錯(cuò)誤的預(yù)測(cè)了蛋白質(zhì)結(jié)構(gòu)時(shí),那么提取的二級(jí)結(jié)構(gòu)信息也不可信。因此,只從蛋白質(zhì)一級(jí)序列出發(fā)來(lái)預(yù)測(cè)抗凍蛋白,能夠避免以上問(wèn)題的出現(xiàn)。
盡管目前的研究結(jié)果還不十分令人滿意,但隨著蛋白質(zhì)序列數(shù)據(jù)庫(kù)的不斷充實(shí),將考慮更多的信息,如寡肽頻率、氨基酸約化等信息,以期提高分類模型的預(yù)測(cè)準(zhǔn)確率。
References)
[1] Carvajal-Rondanelli PA,Marshall SH,Guzman F.Antifreeze glycoprotein agents:structural requirements for activity[J].Journal Science Food Agricuture,2011,91(14):2507-2510.
[2] Garner J,Harding MM.Design and synthesis of antifreeze glycoproteins and mimics[J].Chembiochem,2010,11(18):2489-2498.
[3] Kandaswamy KK,Chou KC,Martinetz T,M?ller S,Suganthan PN,Sridharan S,Pugalenthi G.AFP-Pred:A random forest approach for predicting antifreeze proteins from sequence-derived properties[J].Journal of Theoretical Biology,2011,270(1):56-62.
[4] Zhao Xiaowei,Ma Zhiqiang,Yin Minghao.Using support vector machine and evolutionary profiles to predict antifreeze protein sequences[J].Interntional Journal of Molecular Science,2012,13(2):2196-2207.
[5] Chou KC.Prediction of protein cellular attributes using pseudo-amino acid composition[J].Proteins,2001,43(3):246-255.
[6] Fan RE,Chen PH,Lin CJ.Working set selection using the second order information for training SVM[J].Journal of Multivariate Analysis,2005,6:1889-1918.