王 偉,何華勤
(福建農林大學,福建 福州 350002)
基于SVM的氨基酸頻率計算預測水稻蛋白質磷酸化位點
王 偉,何華勤
(福建農林大學,福建 福州 350002)
本文從swiss-prot中選取經過試驗驗證的水稻蛋白質磷酸化位點數據作為訓練集合,應用蛋白質序列的氨基酸頻率計算方法來進行特征提取,再利用SVM算法構建專門針對水稻蛋白質磷酸化位點的預測新工具.氨基酸頻率算法指的是計算出相應待預測磷酸化位點附近氨基酸的出現頻率,進一步反映了殘基之間的相關性.本文利用LibSVM軟件包對已通過氨基酸頻率算法特征提取出來的數值特征對磷酸化位點進行預測,從而為之后構建水稻蛋白質磷酸化位點的預測工具做準備.結果表明,本文基于SVM和氨基酸頻率方法的水稻蛋白質磷酸化位點預測在絲氨酸,蘇氨酸和酪氨酸的平均預測準確性為77.665%,馬修斯系數為0.571.與Plant Phos和Musite的預測性能的對比結果顯示,在磷酸化蘇氨酸位點的預測性能顯著高于Plant Phos及Musite.
LIBSVM;SVM;氨基酸頻率計算;磷酸化位點
由于蛋白質領域研究的日益進步以及基因測序、編碼技術的普及,各大數據庫中已經大量收集了各種蛋白質的氨基酸序列.因為蛋白質組學研究的重要領域是蛋白質功能,因此研究蛋白質序列已經成為生物信息學中不可或缺的部分[1][3].Vapnik和Cortes于1995年首先提出支持向量機(全名Support Vector Machine)這一概念,它的基本原理是在線性可分的基礎上,通過自身的算法將線性可分變?yōu)榫€性不可分[2].通過此轉變我們可以在非線性函數中進行使用和計算,這種分類算法被稱為支持向量機,即SVM.將支持向量機算法應用到水稻蛋白質磷酸化位點的預測當中去,是現在研究水稻蛋白質磷酸化的一個重要方向.
研究水稻蛋白質磷酸化的三個主要目的:
(1)對位于某一特定狀態(tài)下水稻細胞內磷酸化蛋白質的序列及磷酸化氨基酸殘基定位;
(2)鑒定與磷酸化過程有關的激酶;
(3)分析所觀察到的磷酸化現象對功能的影響.其中,第一個目的是磷酸化研究的主要任務和基礎.
所以研究蛋白質序列已經成為生物信息學中一個重要的、不可或缺的部分.
支持向量機在應對高維模式識別、非線性及小樣本中展現出了它的不可比擬的優(yōu)勢,并在其他機器學習問題、函數擬合等問題中都能夠得到很好的應用.
SVM方法是在統(tǒng)計學理論中的VC維理論以及結構風險最小原理的基礎上建立的,根據有限的樣本信息在模型的復雜性,即對以經過選定的訓練樣本的學習精度,準確度以及學習能力,即無錯誤地識別任意樣本的能力,之間尋找到最合理和最穩(wěn)定的方案,從而能夠有機會獲得最好的推廣能力,也可稱作泛化能力[5].
LIBSVM是一款涉及回歸算法與模式識別的軟件包,并具有高效快捷、簡單易用等特點,該軟件由臺灣大學林智仁副教授等研制開發(fā)的.由于LIBSVM中對SVM的參數篩選方面的支持較少,因此使用了經過大量驗證的默認參數進行替代,而大多數相關問題都可以通過這些默認參數進行解決;交叉檢驗(Cross-Validation)功能還被該軟件包集成在其中.同時還可以解決包括基于1對1算法的多類模式識別問題,以及c-SVM、V-SVM、ε-SVR和V-SVR等問題.
首先我們將所獲得的數據集進行excel表格化整理,把蛋白質序列一一存儲到表格中.在正樣本中每一行必須標有已被磷酸化的位點信息,即已被磷酸化的位點在序列中的位置.通過編程寫出函數,該函數的功能是截取該序列的25個殘基.即以磷酸化位點為中心截取該片段的上游和下游各12個氨基酸,此片段包括磷酸化位點共計25個氨基酸.到此為止我們擁有了計算過程中所要的重要數據.
然后將這包含有25個氨基酸的殘基片段放進一個數組中,該數組放在單獨計算頻率的子函數中,為后面算出每段包含有25個氨基酸殘基的氨基酸頻率作準備.最終經由以上過程,可算出該殘基序列中的上游和下游各12個氨基酸出現的頻率,并將這25個所提取出來的特征數值作為后面將要預測磷酸化位點的特征值.
本文用到的SVM核類型為RBF,并且使用的SVM類型為C-SVC[5].
RBF的核函數為:
σ代表串口的寬度
(2)C-SVC即C-支持向量分類.給定(xi,xj), i=1,2,…,L,y∈{1,-1}.SVM需要以上優(yōu)化問題的解決方法,其中ξi≥0
更高維空間中具有最大化邊緣的線性分離超平面我們使用SVM算法可以找到.錯誤項的懲罰函數我們用C<0來表示[5].決策功能為:
首先我們從已獲得數據集合中提取一部分作為測試集,也就是選取部分數據來進行訓練.對于要進行預測的數據,為了避免人為干擾,我們分別從總數據集合的數據中隨機抽取十次正負樣本,選取的正負樣本比例為1:1.
在利用libSVM進行預測之前,使用交叉驗證對所提取的特征值進行評估和測試,得到不同的Cost值和Gamma值后,從中選取模型所需的最優(yōu)參數.通過比對我們選取rbf核類型和c-svc類型來創(chuàng)建模型.SVM中模型是通過正負樣本集來構建的,并且正負樣本比例為1:1.對于易為磷酸化的S(絲氨酸)、T(蘇氨酸)和Y(酪氨酸)的子集,分別從相應總訓練集的正負位點數據中隨機抽取十次正負樣本[7].
分別對每個序列子集的10個SVM模型進行交叉驗證,通過對結果的比對和分析分別從中選取交叉驗證性能最高的模型作為SVM的子模型.通過libsvm中的grid.py進行參數優(yōu)選得出最優(yōu)參數訓練出最終模型.再通過此模型,應用svm_predict進行預測.
預測結果:
雖然參數優(yōu)選中的最佳準確率accuracy=76.965%,但實際中預測的準確率為accuracy=77.665%.
通過Sn(靈敏度)、Sp(特異性)、ACC(準確度)和MCC(馬修斯系數)對該算法的性能進行評價.
其中,TN表示的是實際為負樣本的序列數目在預測結果中也為負樣本.TP表示實際為正樣本的序列數目在預測結果中也為正樣本.FP表示實際為負樣本的序列數目卻在預測結果中為正樣本.FN表示實際為正樣本的序列數目卻在預測結果中為負樣本[7].MCC的值越大表示預測結果越好,其取值范圍為-1至1.
通過在Python編程環(huán)境下,自己編寫的評價指標函數得出個評價參數
該方法的各評價指標:SN=0.789,SP=0.761,ACC=77.6%,MCC=0.495
磷酸化位點預測工具有很多,但正式的專門針對水稻蛋白質磷酸化位點的預測工具和方法卻是空白,而前人開發(fā)了針對植物蛋白質的磷酸化位點的預測工具,然而如phosPhAT以及2008年才研制的Gaoetal工具.它是一款基于SVM的蛋白質磷酸化位點預測工具,該工具是整合K近鄰信息(KNN)、蛋白質序列信息和蛋白質無序區(qū)域而構建的.然而唯獨phosPhAt提供可靠并且較為穩(wěn)定的在線預測服務.數據測試方面,本文使用的是自己構建的獨立測試集來,使用此數據來測試本文方法與Plantphos和Musite的預測性能.
Plantphos:
Plantphos應用MDD,即最大依賴性分解方法,把所有的磷酸化片段進行聚類,形成具有顯著位點特異性的磷酸化片段子集.為了搜索HMM的采樣數,HMMER會返回一個HMMER值和期望值,即E值[8-10].
Musite:
Musite是一款幾乎適合于所有或特定激激酶的磷酸化位點的預測工具.它能夠將磷酸化位點的預測作為為一個失衡的分類問題來看待,使用的是機器學習的方法.該工具收集了多種生物體磷酸化蛋白質組的可靠實驗數據,用這些數據來訓練磷酸化位點的預測模型.Musite工具中使用到了k最近鄰方法(KNN)和蛋白質無序區(qū)域特征提取的方法.所謂無序區(qū)域,即缺乏一個穩(wěn)定的第三結構蛋白質的部分[11].
依照上述,本文應用自己構建的測試數據集來與Plant Phos和Musite的預測性能進行對比.我們將本文的預測方法和Plant Phos、Musite對同一測試集數據進行預測,首先將數據分成1:1的正負樣本集,即磷酸化和非磷酸化位點.然后算出這三種方法的Sn(靈敏度)、Sp(特異性)、ACC(準確度)和MCC (馬修斯系數)來比較各自的預測性能,結果見表1.
表1 為本文方法和各方法對獨立測試數據集的預測結果
由表可知,本文的預測工具對絲氨酸預測的準確性ACC和馬修斯系數MCC分別為75.6%和0.509,plantPhos的準確性ACC為61.2%和馬修斯系數MCC為0.311,而Musite預測的準確性ACC和馬修斯系數MCC分別為72.1%和0.426.表明本文的預測工具對磷酸化絲氨酸位點的預測性能高于PlantPhos及Musite.
而本文的預測工具對酪氨酸位點預測的準確性ACC和馬修斯系數MCC分別為71.8%和0.406,plantPhos的準確性ACC為57.0%和馬修斯系數MCC為0.182,而Musite預測的準確性ACC為50%,而馬修斯系數MCC卻為0.表明本文的預測工具對磷酸化蘇氨酸位點的預測性能高于PlantPhos及Musite.
本文的預測方法在預測蘇氨酸位點的準確性ACC和馬修斯系數MCC分別為77.6%和0.495,顯著高于PlantPhos的準確性ACC為59.3%和馬修斯系數MCC為0.276,以及Musite的準確性ACC為60.2%和馬修斯系數MCC為0.206.說明本文的預測工具對磷酸化蘇氨酸位點的預測性能顯著高于PlantPhos及Musite.
〔1〕張穎,羅遼復,呂軍.使用多樣性增量預測磷酸化位點.內蒙古大學學報(自然科學報)2008(1).
〔2〕朱玉賢,李毅,鄭曉峰.現代分子生物學(第三版).
〔3〕蔡津津.蛋白質磷酸化位點預測與規(guī)則抽取方法研究.中國科學院計算技術研究所.
〔4〕姜錚,王芳,何湘,等.蛋白質磷酸化修飾的研究進展.中國人民解放軍疾病預防控制研究所,2009.
〔5〕趙凌志,劉穎,等.WeightedSVM在蛋白質磷酸化位點預測中的應用.清華大學軟件學院,2006.
〔6〕白海燕,呂軍,張穎,等.蛋白質磷酸化位點的識別.內蒙古工業(yè)大學學報,2011(2).
〔7〕Koenig M ,Grade N.Highly specific prediction of phosphorylation sites in proteins [J].Bioinformatics, 2004.
〔8〕Lee TY, Lin ZQ, Hsieh SJ, Bretana NA, Lu CT: Exploiting maximal dependence decomposition to identify conserved motifs from a group of aligned signal sequences.Bioinformatics 2011, 27(13):1780-7, 1.
〔9〕Burge C, Karlin S: Prediction of complete gene structures in human genomic DNA.J Mol Biol 1997, 268(1):78-94.
〔10〕Diella F, Gould CM, Chica C, Via A, Gibson TJ: Phospho.ELM: a database of phosphorylation sites-update 2008.Nucleic Acids Res 2008, 36 Database: D240-244.
〔11〕Jianjiong Gao, Jay J.Thelen, A.Keith Dunker and Dong Xu.Musite, a Tool for Global Prediction of General and Kinase-specific Phosphorylation Sites.Molecular & Cellular Proteomics 2010, 9: 2586 –2600.
S511
A
1673-260X(2014)03-0011-03