蔚德睿,馬潔,解增言,白明澤,朱云平,舒坤賢
1重慶郵電大學(xué) 生物信息學(xué)研究所,重慶 400065
2軍事醫(yī)學(xué)科學(xué)院放射與輻射醫(yī)學(xué)研究所 蛋白質(zhì)藥物國家工程研究中心 北京蛋白質(zhì)組研究中心 蛋白質(zhì)組學(xué)國家重點(diǎn)實(shí)驗(yàn)室 國家蛋白質(zhì)科學(xué)中心 (北京),北京 102206
蛋白質(zhì)組學(xué)旨在鑒定出一個細(xì)胞、組織、器官或個體全部的蛋白質(zhì)信息[1],而如何快速、準(zhǔn)確地鑒定出樣本中的蛋白質(zhì)信息又是其最重要的研究內(nèi)容。隨著質(zhì)譜技術(shù)的發(fā)展,鳥槍法目前已成為最主要的蛋白質(zhì)鑒定方法[2-3]。該方法首先把蛋白酶解為短的肽片段,再用質(zhì)譜儀對這些短的肽片段進(jìn)行裂解和分析,最后用一系列信息學(xué)方法鑒定出這些圖譜文件對應(yīng)的肽段離子及其含量。鳥槍法蛋白質(zhì)鑒定的信息學(xué)方法主要分為三大類:第一類為序列數(shù)據(jù)庫搜索,該策略根據(jù)樣本中可能存在的蛋白質(zhì)序列以一定的酶解和碎裂模式碎裂得到理論圖譜,把待鑒定圖譜與理論圖譜比對,得到可能的 肽段-譜圖對 (Peptide-spectrum matches,PSMs)。另一類是從頭測序 (de-novosequencing),該策略不利用蛋白質(zhì)序列數(shù)據(jù)庫,直接根據(jù)二級譜圖,利用圖論和動態(tài)規(guī)劃等算法推導(dǎo)得到可能的肽段序列。第三類是譜圖庫搜索,該策略基于已經(jīng)被鑒定實(shí)驗(yàn)圖譜構(gòu)建譜圖庫,將待鑒定圖譜與譜圖庫中的譜圖比對得到可能的PSMs。
序列數(shù)據(jù)庫搜索策略是目前應(yīng)用最廣泛的蛋白質(zhì)鑒定方法,譜圖庫搜索策略原理與其類似,都是將待鑒定的實(shí)驗(yàn)圖譜與參考圖譜比對,得到鑒定結(jié)果。但不同之處在于,譜圖庫搜索策略中的參考譜圖庫基于實(shí)際譜圖構(gòu)建,與序列數(shù)據(jù)庫搜索相比具有搜索速度快、鑒定精度高及鑒定率高的優(yōu)點(diǎn)。首先,譜圖庫搜索策略只搜索譜圖庫中包含的譜圖,不需要窮盡所有可能的碎裂模式,搜索空間更小,搜索速度也相應(yīng)的更快。Lam等分別用SpectraST和SEQUEST搜索鑒定同一批數(shù)據(jù),前者在1個CPU的機(jī)器上運(yùn)行一天完成搜索,而后者則在80個CPU的集群上運(yùn)行超過一周[4]。其次,序列數(shù)據(jù)庫搜索策略在生成理論圖譜時需要人為設(shè)定其碎裂模式,然而到目前為止,人們掌握的肽段的碎裂模式非常有限,因此遺漏了很多不常見的碎裂方式;同時,生成的理論圖譜只考慮了離子的質(zhì)荷比信息,而譜圖庫中的參考圖譜來源于已經(jīng)被鑒定的真實(shí)圖譜,包含了具體的峰強(qiáng)度信息以及非常規(guī)碎裂模式等,增加了搜索的靈敏度和準(zhǔn)確度,有效地提高了譜圖的鑒定率。有研究表明譜圖庫搜索方法相比序列庫搜索方法可以將譜圖鑒定率提高25%?156%[5]。也有研究表明由于譜圖庫中的譜圖包含更多的信息,使其相似度的計(jì)算更加精確[6]。因此在定量蛋白質(zhì)組學(xué)的研究中,譜圖庫搜索策略可以替代序列數(shù)據(jù)庫搜索策略,且在修飾和共碎裂肽的鑒定方面具有明顯優(yōu)勢,可以看作是對序列數(shù)據(jù)庫方法的補(bǔ)充[7-8]。但其只能識別譜圖庫中包含的肽和蛋白,因此不適用于新蛋白的鑒定。
本文將從以下幾個方面介紹基于譜圖庫搜索的蛋白質(zhì)鑒定策略:首先介紹基于譜圖庫搜索的質(zhì)譜數(shù)據(jù)蛋白質(zhì)鑒定流程;接著介紹了公開發(fā)表的主要譜圖庫構(gòu)建和譜圖庫搜索工具并闡明了其特點(diǎn);最后分析譜圖庫搜索策略存在的問題與挑戰(zhàn)。
基于譜圖庫的蛋白質(zhì)鑒定策略的通用流程如圖1所示,首先根據(jù)待鑒定的實(shí)驗(yàn)數(shù)據(jù)構(gòu)建搜庫需要的參考譜圖庫,譜圖庫可以從公共數(shù)據(jù)庫中下載,也可以根據(jù)研究需求構(gòu)建自定義的譜圖庫;然后選擇合適譜圖庫的搜索工具進(jìn)行搜庫,最后對搜庫結(jié)果進(jìn)行質(zhì)控[9],得到可靠鑒定結(jié)果。
譜圖庫的獲取有兩種途徑,從公共數(shù)據(jù)庫中下載或構(gòu)建自定義譜圖庫。
目前,譜圖庫在蛋白質(zhì)組學(xué)領(lǐng)域的應(yīng)用還比較有限,但其在揮發(fā)性化學(xué)小分子領(lǐng)域的應(yīng)用十分廣泛[10]。隨著質(zhì)譜技術(shù)的發(fā)展,譜圖數(shù)據(jù)爆炸式增長,肽譜圖數(shù)據(jù)庫也發(fā)展了統(tǒng)一的國際標(biāo)準(zhǔn)[11-12],許多蛋白質(zhì)組數(shù)據(jù)庫根據(jù)數(shù)據(jù)庫中收集的譜圖數(shù)據(jù)構(gòu)建了不同類型的譜圖庫,可供下載使用。目前可使用的主要公共譜圖庫見表1。
圖1 蛋白質(zhì)組質(zhì)譜數(shù)據(jù)譜圖庫鑒定策略的實(shí)施流程Fig.1 Workflow chart of the spectra library searching strategy for proteomics mass spectrometry data.
表1 公共圖譜庫數(shù)據(jù)庫資源Table 1 List of spectral library sources
NIST (National Institute of Standards and Technology)是全球公認(rèn)的串聯(lián)質(zhì)譜譜圖庫的黃金準(zhǔn)則[10],共收錄了380萬張譜圖,構(gòu)建了9種不同物種的譜圖庫,每個物種的譜圖庫的大小差異很大。NIST在構(gòu)建譜圖庫時使用了多種序列庫搜索軟件進(jìn)行搜庫,再綜合其搜庫結(jié)果以保證用于構(gòu)庫的PSMs準(zhǔn)確可靠。
GPM(Global Proteome Machine)數(shù)據(jù)庫[13]是第二大譜圖數(shù)據(jù)庫,也是物種覆蓋最廣泛的譜圖數(shù)據(jù)庫,包含了28個真核生物、115個原核生物和7個病毒,此外,還提供了常見污染蛋白譜圖庫 (Common repository of adventitious proteins,cRAP)。GPM構(gòu)建譜圖庫時利用X!Tandem搜索鑒定GPMDB數(shù)據(jù)庫中的譜圖數(shù)據(jù),篩選出可信的PSM,再通過X!Hunter構(gòu)建譜圖庫。因此,GPM提供的譜圖庫中的所有譜圖均只保留了豐度強(qiáng)度最大的20個峰。
PeptideAtlas[14]數(shù)據(jù)庫包含了17個不同的物種,有些物種還針對特定的組織或磷酸化肽段構(gòu)建了特殊的譜圖庫。PeptideAtlas構(gòu)建譜圖庫時整合了多種蛋白質(zhì)組學(xué)分析流程,并通過使用SpectraST構(gòu)建一致性譜圖庫為NIST提供數(shù)據(jù)支持。
2013年P(guān)RIDE[8-15]開始利用譜圖聚類的方法構(gòu)建譜圖庫,截至目前,PRIDE構(gòu)建的譜圖庫包含了16個物種以及一個包含54000譜圖的污染物譜圖庫,雖然譜圖數(shù)不及GPM的多,但是PRIDE沒有限制譜圖中離子峰的數(shù)量,提高了譜圖搜索的靈敏度。且PRIDE構(gòu)建的譜圖庫利用了部分未鑒定譜圖的信息,在一定程度上校正了僅基于正確鑒定譜圖構(gòu)建譜圖庫的偏性。
除了上述4個譜圖庫外,還有一些實(shí)驗(yàn)室構(gòu)建了特殊的譜圖庫。Raught等[16]使用SpectraST構(gòu)建了Ubiquitin、NEDD8、SUMO-1、SUMO-2和SUMO-3蛋白的譜圖庫;Lee等[17]構(gòu)建了成年斑馬魚器官和組織的譜圖庫;Gunaratne等[18]構(gòu)建了磷酸肽譜圖庫;Hu等建立了人類和4種模式生物 (釀酒酵母、黑腹果蠅、秀麗隱桿線蟲和小鼠)中磷酸化肽譜圖庫[19]。
如果公共可獲得的譜圖庫不能滿足研究需求,還可以構(gòu)建自定義譜圖庫。構(gòu)建自定義譜圖庫是根據(jù)已經(jīng)被可靠鑒定的自產(chǎn)或者公共質(zhì)譜數(shù)據(jù)構(gòu)建參考譜圖庫。譜圖庫的構(gòu)建一般分為3個步驟:一、原始譜圖數(shù)據(jù)初步篩選;二、生成特征譜圖;三、譜圖庫加工和質(zhì)量控制。
原始譜圖數(shù)據(jù)初篩指在構(gòu)建譜圖庫之前需要對譜圖數(shù)據(jù)進(jìn)行初步篩選。原始質(zhì)譜數(shù)據(jù)來源于公共數(shù)據(jù)庫中收集的或自產(chǎn)的已被鑒定的質(zhì)譜數(shù)據(jù),這些質(zhì)譜數(shù)據(jù)含有儀器、樣本、操作人員等帶來的實(shí)驗(yàn)誤差,以及數(shù)據(jù)分析過程中引入的錯誤鑒定。低質(zhì)量或未被正確鑒定的譜圖會降低譜圖庫的精確度,從而增加譜圖庫搜索的錯誤率,因此在構(gòu)建譜圖庫時,需要通過設(shè)置嚴(yán)格的置信閾值篩選出高可信的譜圖,再根據(jù)信噪比去除低質(zhì)量的譜圖。
生成特征譜圖是指用一張標(biāo)志性譜圖代表同一肽段離子對應(yīng)的多張譜圖。當(dāng)某一個肽段離子對應(yīng)多張譜圖時,需要定義一張?zhí)卣髯V唯一對應(yīng)該肽段離子。特征譜圖可以通過尋找最優(yōu)替代譜圖和生成一致性譜圖兩種方式獲得。尋找最優(yōu)替代譜圖是指從來源于同一肽段離子的一組譜圖中挑選出最具代表性的譜圖作為該肽段離子的特征譜圖;生成一致性譜圖是指從該組譜圖中產(chǎn)生新的譜圖作為該肽段離子的特征譜。
譜圖庫加工和質(zhì)量控制。譜圖庫加工指在生成譜圖庫中加入實(shí)驗(yàn)元信息和譜圖注釋信息,使之成為完整的試驗(yàn)記錄,可以根據(jù)其信息進(jìn)行重復(fù)驗(yàn)證;然后根據(jù)注釋離子數(shù)量、信噪比卡值去除部分低質(zhì)量譜圖以及特征譜中的部分背景峰,從而減小搜索空間,提高搜索速度,同時也增加了搜索的準(zhǔn)確度[20-21]。
誘餌譜圖庫是根據(jù)目標(biāo)譜圖庫生成的一種虛假的譜圖庫。目標(biāo)-誘餌策略是應(yīng)用最廣泛的質(zhì)控方法,通過數(shù)據(jù)整體置信水平來評估匹配的可信度。其原理是同時搜索目標(biāo)和誘餌譜圖庫,假設(shè)目標(biāo)數(shù)據(jù)庫中錯誤匹配的數(shù)目與誘餌數(shù)據(jù)庫中正確匹配的數(shù)目相等,從而估計(jì)數(shù)據(jù)集的假陽性率[22,23],因此需要根據(jù)目標(biāo)數(shù)據(jù)庫構(gòu)建合適的誘餌庫。也有研究指出實(shí)際的錯誤發(fā)現(xiàn)率 (False discovery rates,F(xiàn)DR)是不可知的,所有的計(jì)算FDR的方法都是建立在一定的假設(shè)的基礎(chǔ)之上。因此,許多譜圖庫搜索工具改進(jìn)了譜圖相似性的計(jì)算方法,使得其分值可以很好地反映譜圖匹配的可信度,而不需要加入誘餌譜圖庫計(jì)算FDR[24]。因此,構(gòu)建誘餌譜圖庫不是譜圖庫搜索策略的必需步驟。
譜圖庫搜索是指以待鑒定譜圖搜索參考譜圖庫進(jìn)行圖譜鑒定。搜索過程中直接把實(shí)驗(yàn)圖譜與譜圖庫中的參考譜圖進(jìn)行對齊比對,計(jì)算譜圖之間的相似度與該匹配統(tǒng)計(jì)學(xué)可信度,并對這一匹配進(jìn)行綜合打分,得分高的高質(zhì)量譜圖被認(rèn)為是最佳匹配。譜圖庫搜索一般分為3個步驟:首先對實(shí)驗(yàn)譜圖和譜圖庫中的譜圖進(jìn)行預(yù)處理,去除噪音和區(qū)分度低的離子,降低可能干擾匹配打分的因素,并根據(jù)某一函數(shù)轉(zhuǎn)化實(shí)際峰強(qiáng)度值以降低豐度值對打分的影響;然后根據(jù)實(shí)驗(yàn)譜圖從譜圖庫中篩選出一組候選譜圖,比較實(shí)驗(yàn)譜圖與候選集中的每一張譜圖,計(jì)算實(shí)驗(yàn)譜圖與譜圖庫中的譜圖之間的相似度;最后根據(jù)匹配的相似度計(jì)算每一對匹配的綜合分值,作為判斷鑒定結(jié)果是否正確的依據(jù)。
與序列庫鑒定策略相同,譜圖庫搜庫結(jié)果并非完全準(zhǔn)確,因此需要篩選搜索結(jié)果,保證輸出的PSMs是可信的匹配。最常用的方法是根據(jù)肽段匹配數(shù)目計(jì)算FDR,當(dāng)FDR在一定的閾值內(nèi),則認(rèn)為PSM可信;也存在一些軟件根據(jù)一定的模型對PSM重新評估,計(jì)算某一PSM可能是隨機(jī)匹配的概率,隨機(jī)匹配概率小于一定的分值則為可信的PSM。
譜圖庫可以看作是已經(jīng)可靠鑒定的譜圖的索引,從而可以通過搜索譜圖庫找到與實(shí)驗(yàn)譜圖匹配的參考譜圖及其鑒定信息。在譜圖庫搜索策略中存在目標(biāo)譜圖庫和誘餌譜圖庫兩種譜圖庫,其構(gòu)建方法很多,下面將介紹幾種常見的譜圖庫構(gòu)建的工具及其實(shí)現(xiàn)方法,見表2。
Bibliospec[25]工具包是通過其中的BlibBuild和BlibFilter根據(jù)序列數(shù)據(jù)庫搜庫結(jié)果構(gòu)建譜圖庫。BlibBuild從鑒定結(jié)果中獲取譜圖及其鑒定信息,構(gòu)建肽段與譜圖的索引,并以二進(jìn)制格式存儲;譜圖庫中存在一個肽段離子對應(yīng)多張譜圖,BlibFilter通過計(jì)算同一肽段離子對應(yīng)的多張譜圖兩兩之間的相似度,并求其平均相似度,用平均相似度最高的譜圖作為該肽段離子的特征譜圖,并刪除其他重復(fù)的譜圖,使得譜圖庫中的肽段離子唯一對應(yīng)一張譜圖,同時刪除平均相似度都很低的所有肽段離子及其對應(yīng)的譜圖,以保證譜圖庫中的PSMs都是可信的。
2009年Lam等發(fā)表的SpectraST[26]可以根據(jù)已有的譜圖庫或序列數(shù)據(jù)庫搜索結(jié)果構(gòu)建譜圖庫,與Bibliospec不同的是SpectraST采用了通過生成一致性譜圖的方式構(gòu)建譜圖庫。但SpectraST要求序列數(shù)據(jù)庫搜索結(jié)果必須經(jīng)過PeptideProphet驗(yàn)證,從而根據(jù)PeptideProphet的分值篩選PSMs。生成一致性譜圖的方法是通過對齊的方法篩選出穩(wěn)定出現(xiàn)的離子組成新的譜圖。SpectraST首先計(jì)算所有重復(fù)譜圖間的相似度,過濾掉與其他譜圖相似度都低的譜圖,保留下的譜圖按信噪比降序排列,為每一個碎片離子在一定的誤差范圍內(nèi)統(tǒng)計(jì)其出現(xiàn)次數(shù),保留下出現(xiàn)次數(shù)超過譜圖數(shù)60%的離子作為一致性譜圖中的離子,計(jì)算質(zhì)荷比和豐度的加權(quán)平均值作為特征譜中離子的質(zhì)荷比和豐度,且碎片離子質(zhì)量誤差范圍隨著離子豐度變化,每一個碎片離子具有不同的誤差范圍,以優(yōu)化豐度對鑒定的影響。生成的特征譜更具有代表性。SpectraST同時嚴(yán)格控制譜圖庫的質(zhì)量,每張一致性譜僅保留豐度最大的20個離子,并通過自搜索的方法排除具有爭議的譜圖。
表2 譜圖庫構(gòu)建工具Table 2 List and availability of spectrum library building engines
2010年Ye等發(fā)表了pMatch[27],同樣通過生成一致性譜圖的方式構(gòu)建譜圖庫,但其充分利用譜圖原始信息和序列信息生成優(yōu)化的一致性譜。生成一致性譜的同時根據(jù)序列產(chǎn)生該肽段離子的理論譜圖,結(jié)合一致性譜與理論譜生成優(yōu)化的一致性譜,一致性譜中的離子豐度值歸一化后乘以1?θ(0≤θ≤1),理論譜中相應(yīng)離子豐度乘以θ(0≤θ≤1),兩者求和作為優(yōu)化后的一致性譜的豐度值。pMatch可以更好地識別由于修飾引起的未知肽碎裂模式,能夠識別大量非常規(guī)修飾信息。pMatch同時產(chǎn)生與目標(biāo)譜圖庫大小相同的誘餌譜圖庫用于后續(xù)的質(zhì)量控制。
2012年Oliver Horlacher等發(fā)表了Liberator工具構(gòu)建譜圖庫,并于2015年更新至Licerator2.0[28]。Liberator以輸入的鑒定結(jié)果中分值的高低排序,再計(jì)算譜圖間的余弦距離,生成最小生成樹,只保留最高層的譜圖,保留每張譜圖中在該分支中20%的譜圖中都出現(xiàn)了的離子峰或具有B、Y離子峰注釋的離子作為一致性譜圖中的離子峰,最后篩除與豐度最高的離子質(zhì)量誤差超過10 Da的離子以縮小譜圖庫,同時用平方根替換原始豐度值。
2013年 Griss等發(fā)表了PRIDE Cluster[8,15]工具用于譜圖聚類,改善了MS-Cluster算法[29],每一個類生成可以代表該類的一致性譜圖,結(jié)合序列數(shù)據(jù)庫搜索結(jié)果構(gòu)建譜圖庫。該方法生成的一致性譜是通過對原始譜圖聚類實(shí)現(xiàn)的,其中包含了很多未鑒定的譜圖,而這一部分譜圖中含有部分高質(zhì)量的譜圖,PRIDE Cluster利用了這部分有意義數(shù)據(jù),對只依賴于具有鑒定結(jié)果的譜圖構(gòu)建的譜圖庫具有一定的修正和補(bǔ)充作用,也使得未鑒定的譜圖得到重新的鑒定。
SpectraST是最早出現(xiàn)的也是運(yùn)用最廣泛的生成誘餌庫的工具[30]。其原理是使用“隨機(jī)-重定位”的方法,在不改變背景噪音的情況下把匹配到的峰進(jìn)行重新定位。這一方法的問題是,生成的誘餌譜圖庫與實(shí)驗(yàn)譜圖庫相似,然而誘餌庫與目標(biāo)庫過于相似不利于譜圖鑒定,基于這一問題,Ahrne等[31]對這一方法進(jìn)行改進(jìn),DeLiberator比較了生成的誘餌譜圖庫與實(shí)驗(yàn)譜圖庫的相似度,如果相似度過高則不斷循環(huán)“隨機(jī)-重定位”的方法。
Precursor-Swap-Decoy-Generation(PSDG)[32]生成誘餌譜圖庫的原理則與前面介紹的兩個軟件不同,PSDG不生成誘餌序列,使用precursor-swap方法交換兩個譜圖的前體離子質(zhì)量值直接根據(jù)實(shí)驗(yàn)譜圖生成誘餌譜圖。這一方法不需要任何鑒定信息,不需要考慮離子類型、碎裂方式以及未匹配上的離子,而保留了大量的譜圖的特性,生成的誘餌譜圖更接近真實(shí)的譜圖。
譜圖庫搜索是該策略中至關(guān)重要的一步,其性能直接影響鑒定結(jié)果的優(yōu)劣。譜圖庫搜索是將待檢測的實(shí)驗(yàn)譜圖與譜圖庫中的候選譜圖一一比較,搜索引擎根據(jù)一定的評分方法對每對譜圖-譜圖對 (SSM)評估。點(diǎn)積(Dot-product,DP)是譜圖庫搜索算法的基礎(chǔ)。點(diǎn)積計(jì)算中把每個圖譜根據(jù)質(zhì)荷比分為n個單元,每個單元賦予一個權(quán)重值,從而轉(zhuǎn)化成一個n維向量。其中,n可以根據(jù)碎片離子的質(zhì)量誤差范圍設(shè)定,權(quán)重值根據(jù)該單元內(nèi)的分值強(qiáng)度設(shè)定。但對于譜峰密集譜圖或者當(dāng)譜圖被少數(shù)高豐度譜峰主導(dǎo)時,點(diǎn)積的結(jié)果將不準(zhǔn)確[33-34]。因此,很多研究團(tuán)隊(duì)基于點(diǎn)積法進(jìn)行修改和改進(jìn),發(fā)展了大量的譜圖庫搜索算法和工具,常見的工具見表3。
表3 譜圖庫搜索工具Table 3 List and availability of spectrum library search engines
Frewen團(tuán)隊(duì)發(fā)表的Bibliospec工具和Stephen E.Steind等發(fā)表的MSPepSearch[35]都是典型的基于點(diǎn)積的譜圖搜索工具,以點(diǎn)積的結(jié)果作為評判依據(jù),通過以豐度值的平方根置換原始豐度值降低豐度對點(diǎn)積的影響。隨后NIST更新了算法,譜圖庫中具有修飾的譜圖根據(jù)質(zhì)荷比 移位,從而增加了MSPepSearch檢索修飾肽的 精確度[36]。
Craig團(tuán)隊(duì)發(fā)表的X!Hunter[37]以平方根置換原始豐度值,并根據(jù)點(diǎn)積的分?jǐn)?shù)計(jì)算期望值表征SSM的可信度。
Lam團(tuán)隊(duì)2007年發(fā)布的SpectraST[4]是目前最流行的譜圖庫搜索工具。SpectraST對離子豐度取平方根,譜圖庫中未匹配的離子的豐度乘0.2,以此突出主要離子的貢獻(xiàn)。并應(yīng)用點(diǎn)偏差表征SSM的特異性。為了避免譜圖本身質(zhì)量對結(jié)果的影響,最新版本的SpectraST在搜索時為每一對譜圖都建立一個不同的相似度分布模型,最終轉(zhuǎn)換為SSM的概率。為了增加搜索速度,SpectraST推出基于GPU的版本 (FastPaSS)[38],該版本要比基于CPU的版本要快得多。另外,Mohammed等開發(fā)了云計(jì)算環(huán)境的SpectraST[39]。2014年Manson等又提出了分層打分的方法[40],對每對匹配在不同的電荷狀態(tài)進(jìn)行獨(dú)立打分,最后的結(jié)果綜合各層打分結(jié)果來識別修飾。
Haomin Li等發(fā)表的COPaKBClient[41]對點(diǎn)積進(jìn)行了改進(jìn),引入了滑動點(diǎn)積和噪音點(diǎn)積的概念,計(jì)算相鄰單元和噪音數(shù)據(jù)的點(diǎn)積,使得COPaKBClient可以適用于所有的儀器類型的數(shù)據(jù),并反應(yīng)了噪音數(shù)據(jù)對整體結(jié)果的影響。作者表明其打分值還可以用來判斷譜圖是否被正確鑒定。
Wang等2010年發(fā)表的M-SPLIT[2,42-43]使用修正的點(diǎn)積的方法計(jì)算譜圖的相似度,即余弦距離。其特點(diǎn)是通過把混合光譜看作多個獨(dú)立的光譜的線性組合以識別混合光譜。
Oliver Horlacher等2015年發(fā)表了MzMod[28],基于MzJava庫[44]和Apache Spark框架實(shí)現(xiàn)為大規(guī)模的譜圖庫構(gòu)建OMS(Open modification searche)工作流,為肽段離子的每一個修飾分別計(jì)算FDR,過濾所有的匹配結(jié)果,從而識別蛋白質(zhì)修飾。
2010年Ye等發(fā)表的pMatch[27]是出現(xiàn)最早的可以識別未知修飾的譜圖庫搜索算法。pMatch同樣用豐度的平方根代替豐度值,但其打分系統(tǒng)結(jié)合了點(diǎn)積和概率函數(shù),以所有候選匹配為背景來評估特定匹配的顯著性。Yen等發(fā)表的Spec2Spec[45]使用豐度的排序代替離子的真實(shí)豐度,并應(yīng)用了一種類似于MyriMatch的基于概率的算法修正點(diǎn)積的結(jié)果,為實(shí)驗(yàn)譜圖與參考譜圖隨機(jī)匹配建立超幾何分布模型。這一算法較點(diǎn)積算法更適合于大規(guī)模的蛋白質(zhì)組數(shù)據(jù)的譜圖庫搜索。Cannon等發(fā)表的MR-MSPolygraph[46-47]則采用了MSPolygraph算法進(jìn)行修正。2013年Wang等發(fā)表的Tremolo[48]則把點(diǎn)積的結(jié)果轉(zhuǎn)換為期望值作為譜圖匹配的評估,以譜圖匹配低得分的概率來代替在隨機(jī)匹配高得分的概率。
2012年Dasari等發(fā)表的Pepitome[49]應(yīng)用了一種完全基于概率打分的方法,該方法綜合了3種分值:運(yùn)用超幾何檢驗(yàn)計(jì)算在隨機(jī)匹配零假設(shè)下給定匹配的最終概率、匹配峰之間的Kendall-Tau秩相關(guān)系數(shù)和誤差來源于儀器精度的概率。用Fisher的方法綜合前兩種分值得到譜圖匹配的P值,同時對質(zhì)量誤差進(jìn)行評估用于當(dāng)P值相同時選取最佳匹配依據(jù)。
除了傳統(tǒng)的計(jì)算譜圖相似度的方法評估譜圖的匹配,一些機(jī)器學(xué)習(xí)的方法同樣被應(yīng)用到譜圖分析中。2007年Wu等發(fā)表的HMMatch[50]是出現(xiàn)最早的不基于點(diǎn)積的譜圖庫搜索工具,HMMatch利用圖譜中質(zhì)荷比的分布及其峰值強(qiáng)度訓(xùn)練隱馬爾科夫模型,用于對實(shí)驗(yàn)譜圖的分析。2011年Ahrne等發(fā)表的QuickMod[51]使用支持向量機(jī) (Support vector machine,SVM)對實(shí)驗(yàn)圖譜盡可能地利用圖譜的所有信息進(jìn)行分析,并使用了一種特殊的算法獲取翻譯后修飾的位置信息,而且QuickMod可以識別未知的修飾。
譜圖庫搜索策略相較于序列數(shù)據(jù)庫搜索策略,速度更快,準(zhǔn)確度更高。但是譜圖庫搜索策略本身仍然存在很多問題和挑戰(zhàn)。
基于譜圖庫搜索的蛋白質(zhì)策略逐漸興起并流行,且發(fā)展了許多譜圖庫搜索工具,但是這些工具多數(shù)只有命令行版本,缺乏友好的使用界面,有些甚至需要用戶進(jìn)行編譯和編程,這不便于大多數(shù)用戶的使用。
目前出現(xiàn)的譜圖庫搜索相關(guān)的工具都是各實(shí)驗(yàn)室獨(dú)立開發(fā)的,其輸入與輸出文件格式各異,沒有統(tǒng)一的標(biāo)準(zhǔn),使得工具間的銜接差。目前,蛋白質(zhì)組標(biāo)準(zhǔn)組織 (Proteomics standards initiative,PSI)正在積極準(zhǔn)備構(gòu)建譜圖庫的標(biāo)準(zhǔn)格式,該問題有望解決。
截至2017年7月,本文所調(diào)研的譜圖庫構(gòu)建方法均不能支持增量式更新,譜圖庫的更新只能通過重新構(gòu)建來實(shí)現(xiàn),對時間和資源造成不必要的浪費(fèi),同時限制了用戶構(gòu)建特殊的譜圖庫用于個人研究。
使用譜圖庫搜索策略需要有比較完整的譜圖庫作為參考譜圖庫,才能盡可能多地檢索到樣本中的蛋白;可供下載的公共譜圖庫一般基于某一蛋白質(zhì)數(shù)據(jù)庫的資源構(gòu)建,蛋白覆蓋率仍有待提高,例如NIST最新版 (2016-9-23)的人類譜圖庫蛋白質(zhì)組的覆蓋率僅有27.51%[52];因此,整合多平臺數(shù)據(jù),構(gòu)建較完整的譜圖庫是譜圖庫構(gòu)建的一大挑戰(zhàn)。也有研究表明通過整合譜圖庫和序列庫可以在一定程度上緩解譜圖庫覆蓋度低的問題[53]。
譜圖庫構(gòu)建方法需要序列數(shù)據(jù)庫搜索結(jié)果作為基礎(chǔ),因此為譜圖庫引入了一定的錯誤鑒定結(jié)果,同時忽略了許多未被鑒定的高質(zhì)量譜圖。近年來有研究采用譜圖聚類的方法構(gòu)建譜圖庫,考慮到錯誤鑒定和未被鑒定譜圖,從而增加譜圖庫的準(zhǔn)確度。因此,如何改進(jìn)譜圖庫構(gòu)建的方法,進(jìn)一步提高譜圖聚類準(zhǔn)確率是一重大挑戰(zhàn)。
質(zhì)譜技術(shù)是蛋白質(zhì)組學(xué)的最主要的研究方法,但有研究指出質(zhì)譜的鑒定效率仍然較低[54],因此提高譜圖的鑒定率是蛋白質(zhì)組學(xué)的重要研究方向。而譜圖庫搜索策略可以有效地提高譜圖的鑒定率,近年來發(fā)展迅速,已經(jīng)成為蛋白質(zhì)鑒定領(lǐng)域最重要的方法之一。
譜圖庫中特定肽段離子唯一對應(yīng)一張譜圖,搜索譜圖庫時僅搜索譜圖庫中包含的譜圖,而不需要窮盡某一肽段的所有碎裂模式,搜索速度快;譜圖庫中的譜圖包含了實(shí)際離子豐度等信息,使得搜索更加靈敏,打分算法也更加可信;譜圖庫構(gòu)建時結(jié)合了多個實(shí)驗(yàn)數(shù)據(jù),庫中的譜圖可靠且含有許多非常規(guī)的碎裂模式及修飾,鑒定結(jié)果更加準(zhǔn)確,且在共碎裂肽的鑒定方面也具有優(yōu)勢。但目前譜圖庫搜索相關(guān)的工具多數(shù)缺乏友好的操作界面和統(tǒng)一的文件格式,需要發(fā)展譜圖庫相關(guān)文件格式的國際標(biāo)準(zhǔn)以及格式轉(zhuǎn)換工具,開發(fā)蛋白質(zhì)分析工具框?qū)ψV圖庫搜索相關(guān)工具進(jìn)行包裝。譜圖庫相關(guān)算法眾多,需要對其進(jìn)行統(tǒng)一的測試評估并不斷改進(jìn),以最大程度地提高譜圖的鑒定效率。
[1]Aebersold R,Mann M.Mass spectrometry-based proteomics.Nature,2003,422(6928):198–207.
[2]Edwards NJ.Protein identification from tandem mass spectra by database searching//Wu C,Arighi C,Ross K,Eds.Protein Bioinformatics.New York:Humana Press,2017,1558:357–380.
[3]Wither MJ, Hansen KC, Reisz JA. Mass spectrometry-based bottom-up proteomics:sample preparation,LC-MS/MS analysis,and database query strategies.Curr Protoc Protein Sci,2016,86:16.4.1–16.4.20.
[4]Lam H,Deutsch EW,Eddes JS,et al.Development and validation of a spectral library searching method for peptide identification from MS/MS.Proteomics,2007,7(5):655–667.
[5]Ahrné E,Masselot A,Binz PA,et al.A simple workflow to increase MS2 identification rate by subsequent spectral library search.Proteomics,2009,9(6):1731–1736.
[6]Zhang X,Li YZ,Shao WG,et al.Understanding the improved sensitivity of spectral library searching over sequence database searching in proteomics data analysis.Proteomics,2011,11(6):1075–1085.
[7]Yilmaz S,Vandermarliere E,Martens L.Methods to calculate spectrum similarity//Keerthikumar S,Mathivanan S,Eds.Proteome Bioinformatics.New York:Humana Press,2017,1549:75–100.
[8]Griss J,Perez-Riverol Y,Lewis S,et al.Recognizing millions of consistently unidentified spectra across hundreds of shotgun proteomics datasets.Nat Methods,2016,13(8):651-656.
[9]Elias JE,Gygi SP.Target-decoy search strategy for increased confidence in large-scale protein identifications by mass spectrometry.Nat Methods,2007,4(3):207–214.
[10]NIST Atomic Spectra Database(Version 3.1.0).[EB/OL].[2017-05-20].http://physics.nist.gov/asd3.
[11]Vizcaíno JA,Deutsch EW,Wang R,etal.ProteomeXchange provides globally coordinated proteomics data submission and dissemination.Nat Biotechnol,2014,32(3):223–226.
[12]Hoopmann MR,Mendoza L,Deutsch EW,et al.An open data format for visualization and analysis of cross-linked mass spectrometry results.J Am Soc Mass Spectrom,2016,27(11):1728–1734.
[13]Craig R,Cortens JP,Beavis RC.Open source system for analyzing, validating, and storing protein identification data.JProteome Res,2004,3(6):1234–1242.
[14]Deutsch EW.The peptideatlas project//Hubbard S,Jones A,Eds.Proteome Bioinformatics.New York:Humana Press,2010,604:285–296.
[15]Griss J,Foster JM,Hermjakob H,et al.PRIDE Cluster:building a consensus of proteomics data.Nat Methods,2013,10(2):95–96.
[16]Srikumar T,Jeram SM,Lam H,et al.A ubiquitin and ubiquitin-like protein spectral library.Proteomics,2010,10(2):337–342.
[17]van Steendam K,de Wulf O,Dhaenens M,et al.Species identification from hair by means of spectral library searches.Int J Legal Med,2014,128(5):873–878.
[18]Gunaratne J,Schmidt A,Quandt A,et al.Extensive mass spectrometry-based analysis of the fission yeast proteome: theSchizosaccharomycespombePeptideAtlas.Mol Cell Proteomics,2013,12(6):1741–1751.
[19]Hu YW,Lam H.Expanding tandem mass spectral libraries of phosphorylated peptides:advances and applications.J Proteome Res,2013,12(12):5971–5977.
[20]Yang XY,Neta P,Stein SE.Quality control for building libraries from electrospray ionization tandem mass spectra.Anal Chem,2014,86(13):6393–6400.
[21]Haynes PA,Stein SE,Washburn MP.Data quality issues in proteomics-there are many paths to enlightenment. Proteomics, 2016, 16(18):2433–2434.
[22]Feng XD,Li LW,Zhang JH,et al.Using the entrapmentsequence method asa standard to evaluatekey stepsofproteomicsdataanalysis process.BMC Genomics,2017,18(Suppl 2):143.
[23]Feng XD,Ma J,Chang C,et al.The application and progress of target-decoy database search strategy in identification and quality control of tandem mass spectrometry data in shotgun proteomics.Prog Biochem Biophys,2016,43(7):661–672(in Chinese).馮曉東,馬潔,常乘,等.目標(biāo)-誘餌庫搜索策略在蛋白質(zhì)組質(zhì)譜鑒定和質(zhì)控中的應(yīng)用及研究進(jìn)展.生物化學(xué)與生物物理進(jìn)展,2016,43(7):661–672.
[24]Shao WG,Zhu K,Lam H.Refining similarity scoring to enable decoy-free validation in spectral library searching. Proteomics, 2013, 13(22):3273–3283.
[25]Frewen BE,Merrihew GE,Wu CC,et al.Analysis of peptide MS/MS spectra from large-scale proteomics experiments using spectrum libraries.Anal Chem,2006,78(16):5678–5684.
[26]Lam H,Deutsch EW,Eddes JS,et al.Building consensus spectral libraries for peptide identification in proteomics.Nat Methods,2008,5(10):873–875.
[27]Ye D,Fu Y,Sun RX,et al.Open MS/MS spectral library search to identify unanticipated post-translational modifications and increase spectral identification rate.Bioinformatics,2010,26(12):i399–i406.
[28]Horlacher O,Lisacek F,Müller M.Mining large scale tandem mass spectrometry data for protein modifications using spectral libraries.J Proteome Res,2016,15(3):721–731.
[29]Frank AM,Monroe ME,Shah AR,et al.Spectral archives:extending spectral libraries to analyze both identified and unidentified spectra.Nat Methods,2011,8(7):587–591.
[30]Lam H,Deutsch EW,Aebersold R.Artificial decoy spectral libraries for false discovery rate estimation in spectrallibrary searching in proteomics.J Proteome Res,2010,9(1):605–610.
[31]Ahrné E,Ohta Y,Nikitin F,et al.An improved method for the construction of decoy peptide MS/MS spectra suitable for the accurate estimation of false discovery rates. Proteomics, 2011, 11(20):4085–4095.
[32]Cheng CY,Tsai CF,Chen YJ,et al.Spectrum-based method to generate good decoy libraries for spectral library searching in peptide identifications. J Proteome Res,2013,12(5):2305–2310.
[33]Shao WG,Lam H.Tandem mass spectral libraries of peptides and their roles in proteomics research.Mass Spectrom Rev,2017,36(5):634–648.
[34]Lee S,Kwon MS,Lee HJ,et al.Enhanced peptide quantification using spectral count clustering and cluster abundance.BMC Bioinform,2011,12:423.
[35]Stein SE,Scott DR.Optimization and testing of mass spectral library search algorithms for compound identification.J Am Soc Mass Spectrom,1994,5(9):859–866.
[36]Burke MC,Mirokhin YA,Tchekhovskoi DV,et al.The hybrid search:a mass spectral library search method for discovery of modifications in proteomics.J Proteome Res,2017,16(5):1924–1935.
[37]Craig R,Cortens JC,Fenyo D,et al.Using annotated peptide mass spectrum libraries for protein identification.J Proteome Res,2006,5(8):1843–1849.
[38]Baumgardner LA,Shanmugam AK,Lam H,et al.Fast parallel tandem mass spectral library searching using GPU hardware acceleration.J Proteome Res,2011,10(6):2882–2888.
[39]Mohammed Y,Mostovenko E,Henneman AA,et al.Cloud parallel processing of tandem mass spectrometry based proteomics data.J Proteome Res,2012,11(10):5101–5108.
[40]MaCWM,Lam H.Hunting forunexpected post-translational modifications by spectral library searching with tier-wise scoring.J Proteome Res,2014,13(5):2262–2271.
[41]Li HM,Zong NC,Liang XB,et al.A novel spectral library workflow to enhance protein identifications.J Proteomics,2013,81:173–184.
[42]Edwards NJ.Protein identification from tandem mass spectra by database searching//Wu C,Chen C,Eds.Bioinformatics for Comparative Proteomics.New York:Humana Press,2011,694:119–138.
[43]Wang J,Tucholska M,KnightJDR,etal.MSPLIT-DIA:sensitive peptide identification for data-independent acquisition.Nat Methods,2015,12(12):1106–1108.
[44]Horlacher O,Nikitin F,Alocci D,et al.MzJava:an open source library for mass spectrometry data processing.J Proteomics,2015,129:63–70.
[45]Yen CY, Houel S, Ahn NG, et al.Spectrum-to-spectrum searching using a proteome-wide spectral library.Mol Cell Proteomics,2011,10(7):M111.007666.
[46]Kalyanaraman A,Cannon WR,LattB,etal.MapReduceimplementation of ahybrid spectral library-database search method for large-scale peptide identification. Bioinformatics, 2011, 27(21):3072–3073.
[47]Cannon WR,Rawlins MM,Baxter DJ,et al.Large improvements in MS/MS-based peptide identification rates using a hybrid analysis.J Proteome Res,2011,10(5):2306–2317.
[48]Wang MX,Bandeira N.Spectral library generating function forassessing spectrum-spectrum match significance.J Proteome Res,2013,12(9):3944–3951.
[49]Dasari S,Chambers MC,Martinez MA,et al.Pepitome:evaluating improved spectrallibrary search for identification complementarity and quality assessment.J Proteome Res,2012,11(3):1686–1695.
[50]Wu X,Tseng CW,Edwards N.HMMatch:peptide identification by spectral matching of tandem mass spectra using hidden Markov models.J Comput Biol:A J Comput Mol Cell Biol,2007,14(8):1025–1043.
[51]Ahrné E,Nikitin F,Lisacek F,et al.QuickMod:a tool for open modification spectrum library searches.J Proteome Res,2011,10(7):2913–2921.
[52]Cho JY,Lee HJ,Jeong SK,et al.Epsilon-Q:an automated analyzer interface for mass spectral library search and label-free protein quantification.J Proteome Res,2017,doi:10.1021/acs.jproteome.6b01019.
[53]Cho JY,Lee HJ,Jeong SK,et al.Combination of multiple spectrallibraries improves the current search methods used to identify missing proteins in the chromosome-centric human proteome project.J Proteome Res,2015,14(12):4959–4966.
[54]Kimhofer T,Fye H,Taylor-Robinson S,et al.Proteomic and metabonomic biomarkers for hepatocellular carcinoma:a comprehensive review.Br J Cancer,2015,112(7):1141–1156.