摘要:凋亡蛋白對于物種發(fā)育和生物體內(nèi)平衡的維持發(fā)揮著非常重要的作用。對凋亡蛋白的亞細胞位點的準確預測有利于理解細胞程序性死亡的機理和其生物學功能。本文利用SignalP得到的裂解位點將肽鏈分成N-端信號序列和成熟端序列。通過提取兩端序列的氨基酸組分(ACC)、偽氨基酸組分(Pse-AAC)和整個鏈的立體化學特性來描述一條蛋白質(zhì)序列。最后將得到的特征向量輸入到支持向量機(SVM)中來預測其亞細胞位置。對三個凋亡蛋白基準數(shù)據(jù)集進行Jackknife驗證,得到的總體精度分別為93.9%,87.6%,91.5%。此外我們還利用了由Reinhardt和Hubbard構建的非凋亡蛋白基準測試數(shù)據(jù)集(NNPSL數(shù)據(jù)集)來驗證本文的方法,對于真核和原核蛋白的預測準確度分別達到87.7%和94.8%。
關鍵詞:凋亡蛋白;SingalP;偽氨基酸組分;立體化學特性;Jackknife檢驗
中圖分類號:Q26 文獻標識碼:A 文章編號:1007-9599 (2012) 17-0000-02
1 介紹
細胞凋亡,或者稱為細胞程序性死亡,在控制細胞增殖和死亡的平衡中起著非?;A的作用。在一些重要的生物過程中,比如形態(tài)發(fā)生,組織內(nèi)平衡,死亡或病毒感染細胞清除,自身反應性細胞系的免疫去除,凋亡蛋白都起了核心的作用。凋亡蛋白對多細胞生物的健康和正常發(fā)育很重要。它的異常激活會導致獲得性免疫缺陷綜合癥(艾滋?。?,中樞神經(jīng)系統(tǒng)退行性疾病,缺血性損傷等等。因此,理解細胞的凋亡機制對于這些疾病的臨床治療和藥物研究都有很重要的意義。為了理解蛋白質(zhì)的結構和功能,一個重要的方法是確定其所處的亞細胞位置。確定蛋白質(zhì)亞細胞位置的方法可以分兩類,一種是基于蛋白質(zhì)信號肽的方法。Nakai和Kanehisa最早發(fā)展了一個專家系統(tǒng)和知識庫用N-末端分選信號來預測蛋白質(zhì)亞細胞的位置。第二種方法是Nakashima和Nishikawa提出的基于蛋白質(zhì)序列和結構特征的方法,即利用蛋白質(zhì)氨基酸組分來區(qū)分細胞內(nèi)和細胞外蛋白質(zhì)。這些方法都取得了不錯的效果,但是忽視了蛋白質(zhì)中各種分選信號生物信息。實際上新生蛋白質(zhì)上都存在著信號肽,決定了蛋白質(zhì)分子在細胞內(nèi)的去向。如果合理利用蛋白質(zhì)信號肽就能預測蛋白質(zhì)亞細胞的定位。鑒于此,本文根據(jù)蛋白質(zhì)信號肽和蛋白質(zhì)序列特征提出了一種新的方法。首先使用SingalP將每一個序列分成N-末端信號和成熟端序列,然后提取出每一個序列的特征。引入偽氨基酸組分的目的是避免丟掉一些序列順序信息。而氨基酸的立體化學特性(SP)則是子序列特性,引入這個特性的目的是提高預測質(zhì)量。將Pse-AAC和SP通過SignalP算法得出一個公式(表示為PSSP)?;跀?shù)據(jù)集ZD98、ZW225、CL317,用jackknife檢驗總體預測精度分別達到了93.9%、87.6%、91.5% ,為了使結果更具有普遍性,基于NNPSL數(shù)據(jù)集,用PSSP測驗得到的總體預測精度分別是94.8%、87.7%。
2 方法和工具
本文研究采用三種使用廣泛的基準測試數(shù)據(jù)集:ZD98、ZW225、CL317數(shù)據(jù)集。ZD98數(shù)據(jù)集包括了43個細胞質(zhì)蛋白,13個線粒體蛋白,12種 其他的蛋白和30個等離子體的膜結合蛋白。ZW225數(shù)據(jù)集包括了70種細胞質(zhì)蛋白,89種質(zhì)膜蛋白質(zhì),25種線粒體蛋白和41種核酸蛋白質(zhì)。CL317數(shù)據(jù)集包括了6個亞細胞的定位,112種細胞質(zhì)蛋白,55種質(zhì)膜蛋白質(zhì),34種線粒體蛋白質(zhì),17種分泌蛋白和52種核酸蛋白和47種面內(nèi)質(zhì)網(wǎng)蛋白質(zhì)。這三個數(shù)據(jù)集的序列分布是由PISCES軟件計算出來的。
蛋白質(zhì)序列包含的基本信息包括氨基酸組分。氨基酸組分是20個氨基酸在序列中的出現(xiàn)頻率,通常用一個20維的特征向量表示。
這里的 、 表示信號肽區(qū)域和成熟蛋白區(qū)域的氨基酸組分特性, 是兩種序列中的氨基酸 的出現(xiàn)頻率??紤]到N-末端信號肽區(qū)域和成熟蛋白質(zhì)區(qū)域做出的不同貢獻,這里引入一個參數(shù) 作為這兩個區(qū)域的加權值,其中的 的最優(yōu)值就是以0.1為間隔在0 ~10之內(nèi)搜索得到。偽氨基酸組分(PseAAC)特征提取方法是由Chou提出的,假設有一個含有L個氨基酸殘基的蛋白質(zhì)鏈L: ,根據(jù)Chou的PseAAC(偽氨基酸組分)離散模型,這里的蛋白質(zhì)樣本S可以表示成一個(20+ )維的空間向量:
前20個組分是20種氨基酸在序列中出現(xiàn)的頻率,也就是傳統(tǒng)的氨基酸組分。后λ維表示序列的附加特征,這里選擇蛋白質(zhì)序列的近似熵作為附加特征。
這里的 是蛋白質(zhì)出現(xiàn) 的20個氨基酸的標準化出現(xiàn)頻率。 是第j層序列相關因子。 為 的權重因子,用于調(diào)節(jié)氨基酸序列次序信息對分類系統(tǒng)的影響程度,本文設定為0.05。
本文最后一個特征采用的是泰勒提出的氨基酸的立體化學特性。將20種氨基酸的立體化學性質(zhì)特征用10維向量來表示: ,其中 (i=1,2,…,10是20種氨基酸中特性是i的氨基酸出現(xiàn)的頻率)。
將以上提出的特征組合成一個向量來表示整個蛋白質(zhì)鏈特征, 維向量:
這里的 是N-末端的信號肽和成熟蛋白序列的權重。 是PseAAC(偽氨基酸組分)的 層相關因子。本文中檢驗了在不同的加權值 (0~10)和相關因子 中,測試結果的不同,對于不同的數(shù)據(jù)集ZD98、ZW225、CL317分別得到了最佳的 值1.3、6.8和3.9,最佳的 值8、6和2。
3 結果和討論
在支持向量機處理過程中,分別對于數(shù)據(jù)集ZD98、ZW225和CL317選定參數(shù)c=8.0、g=8.0,c=8.0、g=2.0和c=8.0、g=8.0。為了評價PSSP模型的效果,對相同的數(shù)據(jù)集用現(xiàn)有的方法進行比較,選取定位精度和總體精度作為比較項。根據(jù)測驗結果,對于數(shù)據(jù)集ZD98,本文方法的精度達到93.9%,這跟DF_SVM方法的精度一樣,比Covariant方法的精度提高了20%。而且,本文對Mito(線粒體)蛋白質(zhì)的精度達到了100%,這比Covariant方法的精度提高了70%。使用提供方法的ZW225的總預測精度達到了87.6%。這是上述方法中的最高值。Mito(線粒體)蛋白和Nucl(核蛋白)的定位精度是95.5%、80.5%,這明顯比其他方法的精度要高。CL317數(shù)據(jù)集的分泌蛋白并沒有達到令人滿意的精度,本文的方法仍然比其他的方法要好,總體精度達到了91. 5%。特別是Cyto(細胞色素氧化酶)和Mito(線粒體)蛋白,本文的工作相對來說達到了很高的精度。
4 總結和討論
根據(jù)信號肽的理論,本文用SignalP將每個序列分成N-末端信號肽部分和成熟蛋白部分。然后從每個序列中提取出包含序列信息的PseAAC特征作為特征描述。通過Jackknife 檢驗,在三種凋亡蛋白數(shù)據(jù)集和NNPSL 數(shù)據(jù)集都得到了令人滿意的結果。蛋白質(zhì)內(nèi)含有的固有的信號控制它們在細胞內(nèi)的運輸和定位。本文研究遵照了現(xiàn)實中的生物現(xiàn)象,但是,盡管研究得到了更好的精度,本文的目的仍然是融合分選信號和蛋白質(zhì)結構的特征來得到關于凋亡蛋白亞細胞定位的更多信息。為了更好地了解不同的裂解部分對亞細胞定位的貢獻,需要研究更多的序列特征和更大的數(shù)據(jù)集。
參考文獻:
[1]Zhou,G.P. and K. Doctor,Subcellular location prediction of apoptosis proteins. Proteins,2003. 50(1):p.44-8.
[2]Steller,H.,Mechanisms and genes of cellular suicide.Science,1995. 267(5203): p.1445-9.