董晴晴, 趙亞偉, 袁 增, 于家峰, 王芳華, 唐胡成
(1. 德州學院 生物物理研究院 山東省生物物理重點實驗室, 德州 253023; 2. 淄博市第四人民醫(yī)院, 淄博 255067)
近年來,人們發(fā)現(xiàn)許多具有重要功能的天然蛋白質在生理條件下并沒有穩(wěn)定三級結構,這類特殊蛋白質通常被稱為固有無序蛋白(IDPs,Intrinsically disordered proteins)[1-2]。目前已有大量的研究表明,IDPs普遍存在于自然界中[3-4]。固有無序蛋白根據(jù)其結構特征以兩種形式存在,一種是完全無序蛋白(IDPs),另一種是序列中交替存在結構有序區(qū)和固有無序區(qū)(IDRs)的蛋白質。IDPs可以通過與多種分子類型結合、磷酸化等形式獲取不同結構來發(fā)揮多種生物學功能,因而被認為是蛋白質功能多樣化的重要原因[5]。IDPs通常是蛋白質作用網(wǎng)絡中的核心蛋白,在包括信號傳導、分子識別、細胞周期性調節(jié)等各種生命活動中扮演了極為重要的角色,與人類重大疾病密切相關[6-7],因而固有無序蛋白已成為蛋白質科學增長最快的研究領域之一[8]。IDPs的柔性結構特征對傳統(tǒng)的“序列→結構→功能”研究模式提出巨大挑戰(zhàn),也為實驗上研究該類蛋白提供了科學難題[9-10]。盡管通過NMR、X射線等多種實驗手段已經(jīng)獲得了部分IDPs的序列結構數(shù)據(jù)[11],但與自然界中蛋白質存在的廣泛程度和數(shù)量相比,對這類蛋白質的認識還相差甚遠,人們對此類蛋白的認識還極為有限,其實驗研究也存在很大難度,能夠實驗證實的IDPs數(shù)據(jù)少之又少。在這種情況下,通過計算方法精準預測IDPs就成為研究此類蛋白質的重要途徑[12],也是進一步認識蛋白質功能機制的必要先決條件,對了解相關疾病的致病機制、發(fā)現(xiàn)新抑制劑、開發(fā)新藥均有重要的理論意義和應用價值。然而,盡管近幾年研究人員相繼提出一批基于不同原理的IDPs預測方法,但預測算法所需訓練數(shù)據(jù)集來源有限,因此預測結果可靠性不高,且不同預測算法之間的結果也具有較為顯著的差異[13-15]。因此,如何設計有效方法來對現(xiàn)有IDPs預測算法進行客觀評價分析,進而提高IDPs預測效率是IDPs研究的重要工作基礎。在此背景下,本文通過人工設計隨機蛋白序列作為測試集,對不同類型IDPs預測算法進行系統(tǒng)對比分析,更客觀地刻畫各算法預測結果差異特征,為今后IDPs研究提供可靠的理論支持。
Disprot數(shù)據(jù)庫[11]是目前IDPs的主要數(shù)據(jù)來源,該數(shù)據(jù)庫最新版本中提供了800余條經(jīng)過實驗驗證的IDPs,已廣泛應用于IDPs預測算法的數(shù)據(jù)集中。此外,許多預測算法還會通過PDB數(shù)據(jù)庫提取IDPs相關數(shù)據(jù)作為訓練集和測試集,然而這些數(shù)據(jù)集存在明顯的傾向性而無法客觀刻畫IDPs特征[14-15]。本文通過產(chǎn)生隨機序列作為獨立數(shù)據(jù)集來完善對不同IDPs預測算法的比較分析,這樣可以有效避免所使用數(shù)據(jù)集已在IDPs預測算法訓練集中使用,這些沒有刻意的有序區(qū)/無序區(qū)人為設計偏好的序列可以相對更為客觀地展現(xiàn)不同算法的預測結果。從隨機角度來講,有3種常用的產(chǎn)生隨機序列的基本策略,一種是各氨基酸在序列中平均使用而排列順序隨機;另一種是完全隨機抽取氨基酸,因而各序列中氨基酸組成不同;第3種是基于天然蛋白隨機打亂進而得到隨機序列。作者近期從二級結構和動力學模擬等角度對多種策略得到的隨機序列數(shù)據(jù)集及由天然蛋白打亂得到的隨機數(shù)據(jù)集進行了研究[16],其結果表明各種隨機序列對該論文最終的研究目的影響不大??紤]到第一種策略產(chǎn)生的隨機序列中各序列氨基酸百分含量一致,整體上沒有任何氨基酸偏好特性,而序列局部區(qū)域會有不同的氨基酸使用偏好,會更好地避免數(shù)據(jù)集設計偏好帶來的預測結果偏差,因而本文就以第一種策略得到的隨機序列為例進行了研究。通過等比例隨機取樣的策略從固定的20種氨基酸殘基的組合(A、R、N、D、C、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y和V)中隨機生成10 000條長度均為60個殘基的隨機蛋白序列。為了去除數(shù)據(jù)集中可能的冗余序列,利用CD-HIT程序[17]對隨機生成的蛋白序列進行去冗余操作,相似度閾值設為30%,結果顯示10 000條隨機生成的蛋白序列沒有冗余序列存在。
目前實驗研究IDPs難度大,因而針對IDPs的預測算法非常多,但由于缺少公平、可靠的獨立IDPs數(shù)據(jù)集,對這些算法預測效率的有效評價是當前IDPs研究遇到的重要問題。在MobiDB等IDPs數(shù)據(jù)庫中通過采用多種IDPs預測算法來共同判斷無序區(qū)/有序區(qū),但從結果來看,各算法預測差異很大,最終反而會導致一些真正的無序區(qū)被排除掉,保留下來的IDRs區(qū)域很少,因此對IDPs預測算法的預測結果進行對比分析來指導IDPs預測算法的合理應用具有重要參考意義。在諸多IDPs預測算法中,IUPred[18]是一款較為經(jīng)典的基于序列特征的IDPs預測算法,在許多研究中具有廣泛應用,而SPINE-D[19]充分考慮了序列保守性特征,在近幾年CASP比賽中取得了不錯的預測成績,因而兩種算法具有一定的代表性,本文采用了IUPred和SPINE-D算法來完成對比分析工作。其中SPINE-D算法需要調用PSI-BLAST程序對nr(非冗余)數(shù)據(jù)庫進行同源搜索,所以該算法耗時長。
我們通過定義AAP值來表示IDPs中各種氨基酸的使用偏好,其計算方法如下:
(1)
(2)
為了比較各種IDPs預測算法預測結果的相似程度,我們定義了公式(3):
(3)
公式(3)中,SI+S、SI和SS分別表示兩種算法共同預測得到的無序區(qū)氨基酸數(shù)目(要具體對應到每個殘基位點)、IUPred得到的無序區(qū)殘基數(shù)目和SPINE-D得到的無序區(qū)殘基數(shù)目。顯然,0≤K≤1,K=0時表示兩種預測算法得到的結果完全不同,K=1時表示兩種算法得到的結果完全一致,值越大相符程度越高。
利用IUPred和SPINE-D程序對10 000條隨機蛋白序列分別進行了預測。利用IUPred算法預測時,全部序列均能夠返回預測結果;而利用SPINE-D算法時,有7013條序列能夠返回預測結果,造成SPINE-D不能預測的原因主要是由于該算法需調用PSI-BLAST程序對nr數(shù)據(jù)庫進行同源搜索,當查詢序列在nr數(shù)據(jù)庫中沒有同源序列時,就不能生成位置特異性得分矩陣(PSSM),因而無法完成預測。表1中,我們對兩種程序的預測結果進行了統(tǒng)計。IUPred預測的10 000條隨機序列中,并未發(fā)現(xiàn)有無序殘基連續(xù)長度超過30的序列;然而,SPINE-D有預測結果返回的7013條隨機蛋白序列中,總的無序殘基個數(shù)超過30的有333條(4.75%),無序殘基連續(xù)長度超過30的有87條(1.24%),并未存在全無序的序列。
圖1分析了兩種預測軟件對每條序列預測得到的無序區(qū)堿基數(shù)目,其中橫坐標表示各隨機蛋白序列,縱坐標表示每條序列中預測得到的無序區(qū)殘基個數(shù)。為了便于比較,圖1-a中豎線左邊的區(qū)域是SPINE-D程序能給出預測結果的7013條序列,可見由IUPred得到的預測結果中所有序列的無序區(qū)殘基個數(shù)都在30以下,主要集中在5~12之間;而SPINE-D預測大部分的無序殘基數(shù)在10~25之間,有333條序列的無序殘基數(shù)超過30(圖1-b)。盡管如此,圖1表明隨機產(chǎn)生的蛋白序列中有序區(qū)要多于無序區(qū)。為了進一步說明隨機序列中預測得到的無序區(qū)殘基與天然蛋白中無序區(qū)殘基的異同情況,對兩種程序預測得到的無序區(qū)和有序區(qū)進行了氨基酸偏好分析(圖2)。
表1 IDPs預測結果統(tǒng)計
注:Ⅰ表示統(tǒng)計的隨機序列數(shù)目;Ⅱ表示兩種預測軟件成功預測的序列數(shù)目;Ⅲ表示預測結果中無序區(qū)殘基總數(shù)大于30個氨基酸的序列數(shù)目;Ⅳ表示預測結果中無序區(qū)連續(xù)長度超過30個氨基酸的序列數(shù)目;Ⅴ表示是預測為全無序的序列數(shù)目
圖1各程序預測結果中無序殘基數(shù)量分布
圖2中對兩種預測軟件預測得到的有序區(qū)和無序區(qū)計算了相應的AAP值,通過比較分析,可以發(fā)現(xiàn)兩種預測方法得到的結果在氨基酸的使用偏好方面是一致的:A、R、N、D、Q、E、G、H、K、P、S和T均偏好出現(xiàn)在無序區(qū)域,C、I、L、M、F、W、Y及V均偏好出現(xiàn)在有序區(qū)域。在最近工作中[20],作者對基于Disprot數(shù)據(jù)庫構建的一個較大的、實驗驗證的IDPs數(shù)據(jù)集進行了深入的有序區(qū)/無序區(qū)氨基酸使用偏好分析。結果研究表明無序區(qū)偏好的氨基酸A、D、E、G、K、P、Q、S及T,有序區(qū)偏好的氨基酸是C、F、H、I、L、M、N、R、V、W和Y,這與圖2得到的結果是相符的。因此,基于這些隨機序列得到的無序區(qū)信息與天然蛋白中氨基酸組成相近。
圖2 IUPred(a)和SPINE-D(b)預測結果有序區(qū)/無序區(qū)氨基酸偏好分析
通常情況下,許多文獻中將IDPs中序列長度超過30個連續(xù)氨基酸的區(qū)域稱為固有無序區(qū)。根據(jù)表1的統(tǒng)計結果,SPINE-D程序預測到了87條連續(xù)長度超過30個氨基酸的無序區(qū)。為此,圖3進一步計算了這些連續(xù)長度超過30個氨基酸的無序區(qū)的氨基酸使用頻率。由圖3可見,SPINE-D預測結果中A、R、N、D、Q、E、G、H、K、P、S及T的頻率均超過5%,而C、I、L、M、F、W、Y和V的使用頻率均小于5%。本文所生成的每條隨機序列中各氨基酸頻率均為5%(1/20),無序區(qū)中氨基酸的使用概率若超過5%,則表明該種氨基酸偏好在無序區(qū)出現(xiàn)。圖3的預測結果與圖2是一致的,進一步表明隨機序列預測出的有序區(qū)/無序區(qū)氨基酸使用偏好與天然蛋白是相符的。
圖3 SPINE-D預測結果中連續(xù)長度超過30個氨基酸的固有無序區(qū)的氨基酸使用頻率
上述分析表明兩種預測程序得到的具體無序區(qū)殘基數(shù)目具有一定差別。為了進一步分析各預測算法得到的無序區(qū)殘基在各序列中的位置分布特征,我們將每條序列分為6個區(qū)域,每個區(qū)域長度為10個氨基酸,各區(qū)域無序區(qū)殘基所占比例表示該區(qū)域無序化程度,具體結果見表2??梢钥闯鰞煞N軟件預測得到的無序殘基主要分布于序列兩端,而中間無序殘基相對較少。相比之下,SPINE-D預測得到的無序區(qū)殘基要明顯多于IUPred得到的結果。
表2 各序列分布區(qū)間無序區(qū)殘基比例
為了更加準確地分析兩種IDPS預測軟件的預測結果異同特征,圖4給出了基于公式3得到的預測結果對比情況。需要說明的是該圖分析了兩種軟件共同預測的7013條序列,橫坐標表示K值的分布區(qū)間,縱坐標表示各K值分布區(qū)間對應的序列數(shù)目所占全部序列的百分比??梢钥闯?,兩種程序預測相似度對應的K值主要集中在0.65~0.80之間,峰值坐落在0.7附近,而兩種預測軟件得到的預測結果完全一致的情況很少,這進一步表明IUPred和SPINE-D預測結果具有不同程度區(qū)別。
圖4 預測結果的相似度情況
對IDPs的理論及實驗研究還有較大難度,本文基于隨機蛋白序列比較系統(tǒng)地對比分析了兩種IDPs預測算法的預測結果。預測結果表明,就兩種預測算法預測得到的無序殘基在序列中位置而言,具有一致性,無序殘基大都分布于序列的兩端,而具體的對比分析表明這兩種預測軟件預測結果依然存在較大差異。因此,在今后的實際應用中研究人員還需要進一步整合多種預測算法來評估預測結果的可靠性。