馬海濱,張紀(jì)陽,2,劉 輝,2,孫漢昌,2,謝紅衛(wèi)
(1.國防科學(xué)技術(shù)大學(xué),機(jī)電工程與自動化學(xué)院自動控制系,湖南長沙 410073;2.軍事醫(yī)學(xué)科學(xué)院,放射與輻射醫(yī)學(xué)研究所,北京蛋白質(zhì)組研究中心,蛋白質(zhì)組學(xué)國家重點(diǎn)實(shí)驗(yàn)室,北京 102206)
在后基因組時代,蛋白質(zhì)組學(xué)(proteomics)成為生命科學(xué)研究中的一個熱點(diǎn)[1]。由于缺乏類似基因組 PCR(polymerase chain reaction)擴(kuò)增的樣品倍增方法,蛋白質(zhì)組學(xué)研究對實(shí)驗(yàn)技術(shù)的要求更高,因此,重復(fù)實(shí)驗(yàn)、多實(shí)驗(yàn)平臺互補(bǔ)、多策略互補(bǔ)等方法在蛋白質(zhì)組學(xué)中更加重要。這些方法是提高蛋白質(zhì)鑒定和定量結(jié)果覆蓋率及重復(fù)性的重要手段。目前,蛋白質(zhì)組學(xué)中使用的主要研究策略大都基于質(zhì)譜實(shí)驗(yàn)與分析。質(zhì)譜方法具有高通量和高靈敏度的特點(diǎn),是蛋白質(zhì)組學(xué)研究的一項(xiàng)支撐技術(shù)[2-3]。
由于質(zhì)譜儀種類繁多,精度和性能差異較大,實(shí)驗(yàn)產(chǎn)出數(shù)據(jù)格式多樣,實(shí)驗(yàn)數(shù)據(jù)難以整合[4],而后續(xù)質(zhì)譜數(shù)據(jù)處理的目的卻是要從實(shí)驗(yàn)產(chǎn)出的海量數(shù)據(jù)中完成數(shù)據(jù)的獲取、處理、存儲和解釋。在目前的研究發(fā)展階段,實(shí)驗(yàn)策略和數(shù)據(jù)分析方法種類繁多,而且還在不斷提出新的數(shù)據(jù)分析方法,在不同分析策略中使用的算法也不盡相同,在不同分析流程中使用的數(shù)據(jù)格式繁多且大多互不兼容,部分質(zhì)譜數(shù)據(jù)文件格式列于表1。這些因素給數(shù)據(jù)共享和交換帶來困難,不利于分析結(jié)果的整合,與數(shù)據(jù)處理的目標(biāo)背道而馳。因此,有必要對質(zhì)譜數(shù)據(jù)處理中的數(shù)據(jù)格式問題進(jìn)行研究。2004年以來,相繼提出了多種開放式數(shù)據(jù)標(biāo)準(zhǔn)并得到不同程度的應(yīng)用,初步緩解了目前面臨的質(zhì)譜數(shù)據(jù)格式兼容性的問題。
本工作對目前已有的質(zhì)譜數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行綜述,介紹質(zhì)譜數(shù)據(jù)標(biāo)準(zhǔn)的研究現(xiàn)狀,比較各種數(shù)據(jù)標(biāo)準(zhǔn)的特點(diǎn)與優(yōu)缺點(diǎn),并展望質(zhì)譜數(shù)據(jù)標(biāo)準(zhǔn)可能的發(fā)展方向。
目前,蛋白質(zhì)組學(xué)中質(zhì)譜數(shù)據(jù)標(biāo)準(zhǔn)的主要制定組織是HUPO-PSI(Human Proteome Organization-Proteomics Standards Initiative)[5],此外系統(tǒng)生物學(xué)研究所(Institute for System Biology,ISB)[6]和歐洲生物信息學(xué)研究所(European Bioinformatics Institute,EBI)[7]也參與了質(zhì)譜數(shù)據(jù)標(biāo)準(zhǔn)的制定。
2002年,在華盛頓召開的 HUPO會議上成立了PSI,其主要目標(biāo)就是要在蛋白質(zhì)組學(xué)領(lǐng)域中為數(shù)據(jù)表示定義公共數(shù)據(jù)標(biāo)準(zhǔn),以解決蛋白質(zhì)組學(xué)研究中數(shù)據(jù)格式不統(tǒng)一的問題,實(shí)現(xiàn)數(shù)據(jù)的比較、交換和驗(yàn)證[8]。質(zhì)譜數(shù)據(jù)公共標(biāo)準(zhǔn)和控制字(controlled vocabulary)的制定工作主要由PSI的MS(mass spectrometry)組織完成。由于可擴(kuò)展標(biāo)記語言[9](extensible markup language,XML)是一種與平臺無關(guān)的結(jié)構(gòu)性信息表示方法,因此當(dāng)時以及后來制定的數(shù)據(jù)標(biāo)準(zhǔn)主要是基于XML格式的[10]。數(shù)據(jù)標(biāo)準(zhǔn)不僅要支持多種質(zhì)譜實(shí)驗(yàn)技術(shù),還必須能夠存儲與質(zhì)譜實(shí)驗(yàn)有關(guān)的MIAPE[11-12](the minimum information about a proteomics experiment)信息。
表1 質(zhì)譜數(shù)據(jù)文件格式Table 1 File type of mass spectrometry data
2004年至2008年,用于存儲和交換原始數(shù)據(jù)的標(biāo)準(zhǔn)主要有mzData與mzXML。2008年,PSI主持發(fā)布了 mzML,試圖完全取代 mzData與mzXML。2003年,在蒙特利爾(Montreal)召開的 HUPO大會上,PSI-MS發(fā)布了 mzData 1.0版[13],目前使用的是2006年發(fā)布的mzData 1.05版。因其自身存在不足,該數(shù)據(jù)標(biāo)準(zhǔn)的應(yīng)用相對比較有限。相對于mzData,ISB開發(fā)制定的數(shù)據(jù)標(biāo)準(zhǔn) mzXML[14]得到了更廣泛的應(yīng)用。而在SPC(seattle proteome center)開發(fā)的數(shù)據(jù)分析平臺 TPP(the trans-proteomic pipeline)中,使用的數(shù)據(jù)標(biāo)準(zhǔn)是 mzXML、pepXML和protXML,并試圖兼容 mzML。2009年,PSI將AnalysisXML[15]中蛋白質(zhì)鑒定部分的數(shù)據(jù)標(biāo)準(zhǔn)更名為mzIdentML,作為一個獨(dú)立的數(shù)據(jù)標(biāo)準(zhǔn)發(fā)布,而關(guān)于蛋白質(zhì)定量部分的數(shù)據(jù)標(biāo)準(zhǔn)暫時命名為mzQuantML[16]。另外,EBI在開發(fā)和維護(hù)數(shù)據(jù)庫PRIDE(PRoteomics IDEntifications database)時,為其中的數(shù)據(jù)提供了一個專門的數(shù)據(jù)標(biāo)準(zhǔn) Pride XML,該格式將 mzData整合其中,作為其保存質(zhì)譜數(shù)據(jù)的數(shù)據(jù)格式,其余部分實(shí)現(xiàn)對搜庫結(jié)果與實(shí)驗(yàn)信息的存儲。表2列出了常用的數(shù)據(jù)標(biāo)準(zhǔn)及其制定組織,其中的數(shù)據(jù)分析階段參照TPP中的劃分。典型蛋白質(zhì)鑒定流程示于圖1。
表2 現(xiàn)有質(zhì)譜數(shù)據(jù)標(biāo)準(zhǔn)及其制定組織Table 2 Proteomics data format standards and corresponding organizations
圖1 典型蛋白質(zhì)鑒定流程Fig.1 Typical workflow of protein identification
蛋白質(zhì)組學(xué)研究的一個重要工作就是蛋白質(zhì)鑒定。在從質(zhì)譜實(shí)驗(yàn)獲得質(zhì)譜數(shù)據(jù),直到獲得蛋白質(zhì)鑒定結(jié)果的整個過程中,需要對不同格式的數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換和數(shù)據(jù)整合,以滿足不同數(shù)據(jù)分析軟件的輸入要求。在沒有制定統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)之前,不統(tǒng)一的數(shù)據(jù)格式極大的限制了蛋白質(zhì)組學(xué)數(shù)據(jù)的共享和發(fā)表,制約了相關(guān)數(shù)據(jù)庫的開發(fā),不利于研究人員對已有的研究成果進(jìn)行再分析、整合和總結(jié),導(dǎo)致不斷的重復(fù)鑒定。隨著研究工作的不斷深入和研究成果的不斷發(fā)表,構(gòu)建蛋白質(zhì)組學(xué)數(shù)據(jù)庫就顯得極為重要,而在整理數(shù)據(jù)時更需要一個統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)來對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行管理[14,23-25]。
下面介紹基于質(zhì)譜技術(shù)的蛋白質(zhì)組學(xué)中常用的數(shù)據(jù)標(biāo)準(zhǔn)。在 TPP中,將數(shù)據(jù)處理過程劃分為3個階段:原始數(shù)據(jù)階段、肽段水平分析階段和蛋白質(zhì)水平分析階段[26]。本節(jié)將按照這3個階段分別介紹各種數(shù)據(jù)標(biāo)準(zhǔn)。
該階段數(shù)據(jù)標(biāo)準(zhǔn)的主要作用是將質(zhì)譜儀生產(chǎn)商的原始數(shù)據(jù)格式轉(zhuǎn)換為開放結(jié)構(gòu)數(shù)據(jù),以方便研究人員對數(shù)據(jù)的再次分析和對現(xiàn)有算法做出改進(jìn)。這一階段目前使用的數(shù)據(jù)標(biāo)準(zhǔn)主要有mzData,mzXML和mzML。其中,mzML是針對原始數(shù)據(jù)階段最新制定的數(shù)據(jù)標(biāo)準(zhǔn),它結(jié)合了前兩種標(biāo)準(zhǔn)的優(yōu)點(diǎn)。
2.1.1 mzData數(shù)據(jù)格式的特點(diǎn) mzData的最大特點(diǎn)是使用XML模型外的控制字來描述與設(shè)備和實(shí)驗(yàn)設(shè)計(jì)等有關(guān)的參數(shù)。當(dāng)采用新型儀器或新的實(shí)驗(yàn)方案時,這些參數(shù)能夠以一個統(tǒng)一的數(shù)據(jù)格式存儲在數(shù)據(jù)文件中??刂谱挚煞殖煽刂谱謪?shù)(cvParam)和用戶參數(shù)(userParam)兩種??刂谱謪?shù)具有一定的固定性,用戶自定義的控制字可以放在用戶參數(shù)中。使用控制字既保證了數(shù)據(jù)格式的可擴(kuò)展性,又保證了數(shù)據(jù)格式的靈活性。但是,由于沒有采取一定的機(jī)制限制用不同的方式編碼本質(zhì)相同的信息,導(dǎo)致同一版本之間控制字的不一致,嚴(yán)重影響了數(shù)據(jù)的共享以及讀寫軟件的通用性。而且mzData中沒有使用索引,不能實(shí)現(xiàn)對數(shù)據(jù)文件中質(zhì)譜圖的快速隨機(jī)讀取。
2.1.2 mzXML數(shù)據(jù)格式的特點(diǎn) mzXML是用于存儲和交換質(zhì)譜數(shù)據(jù)的開放數(shù)據(jù)格式,具有很高的靈活性,且能存放多種類型的數(shù)據(jù)——從未經(jīng)任何處理的數(shù)據(jù)到經(jīng)過深度數(shù)據(jù)處理的數(shù)據(jù)(如質(zhì)心化、峰檢測等)。
在質(zhì)譜實(shí)驗(yàn)分析中,使用統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)可以方便地將新型質(zhì)譜儀加入到數(shù)據(jù)分析平臺中,便于實(shí)驗(yàn)數(shù)據(jù)的交換和發(fā)表,能為新的數(shù)據(jù)分析工具的開發(fā)提供統(tǒng)一平臺,因此mzXML從發(fā)布至今,已經(jīng)得到廣泛的應(yīng)用。但相對于二進(jìn)制文件而言,基于XML的數(shù)據(jù)文件還存在一些不足,主要有兩點(diǎn):一是將原始文件轉(zhuǎn)換成基于XML的數(shù)據(jù)文件,文件容量會增加?,F(xiàn)在高精度質(zhì)譜儀在1 h內(nèi)的數(shù)據(jù)產(chǎn)出量會超過1 GB,數(shù)據(jù)經(jīng)轉(zhuǎn)換后會帶來一定的存儲問題。而且,在XML文件中不能直接包含二進(jìn)制數(shù)據(jù),需要轉(zhuǎn)換成人工可閱讀的數(shù)據(jù)文件,這就不可避免地造成文件容量的增加;二是降低了數(shù)據(jù)文件中信息的讀取速度[14]。雖然在mzXML文件中使用了索引,避免了數(shù)據(jù)文件必須從開始讀到結(jié)尾的弊端,但還不能實(shí)現(xiàn)按條件對圖譜和數(shù)據(jù)信息進(jìn)行讀取。分析mzXML文件結(jié)構(gòu)還可以得出:該數(shù)據(jù)文件并不適合于計(jì)算,而且也沒有存儲與實(shí)驗(yàn)設(shè)計(jì)有關(guān)的參數(shù)信息[17]。
2.1.3 mzML的發(fā)展進(jìn)程 2008年以前,主要有兩大開放數(shù)據(jù)標(biāo)準(zhǔn):mzData和 mzXML。兩種標(biāo)準(zhǔn)處理的是相同的數(shù)據(jù)信息,這勢必增加軟件開發(fā)人員的負(fù)擔(dān)。因此,mzData和mzXML的制定組織聯(lián)合儀器生產(chǎn)廠商、數(shù)據(jù)分析人員和一些終端用戶,在 HUPO-PSI的贊助下[27],開發(fā)了新的數(shù)據(jù)標(biāo)準(zhǔn)——mzML,最初定名為“dataXML”,其目的是要完全的取代前兩種數(shù)據(jù)標(biāo)準(zhǔn)。
制定mzML的最初設(shè)計(jì)方案是,讓mzML繼承mzData和mzXML各自的優(yōu)點(diǎn),并借鑒這兩種標(biāo)準(zhǔn)在實(shí)際使用時積累的經(jīng)驗(yàn)。在實(shí)現(xiàn)之初,開發(fā)人員遵從下面的設(shè)計(jì)原則:1)保持?jǐn)?shù)據(jù)標(biāo)準(zhǔn)的簡潔;2)避免用不同的方法對同一信息進(jìn)行編碼;3)為了可編碼一些新的重要信息,數(shù)據(jù)標(biāo)準(zhǔn)可以有一定的靈活性,但要保證標(biāo)準(zhǔn)的穩(wěn)定性;4)繼承 mzData和mzXML的特色,但在最初版本中不需要太多體現(xiàn);5)利用現(xiàn)有資源盡快完成初始版本(mzML 1.0);6)編寫讀、寫軟件驗(yàn)證數(shù)據(jù)標(biāo)準(zhǔn)[28]。已發(fā)布的mzML主框架圖示于圖2。為了保證mzML能立即被廣泛應(yīng)用,2008年6月發(fā)布mzML1.0時即向用戶提供了可以讀、寫和驗(yàn)證的軟件。目前最新版本是2010年6月發(fā)布的mzML1.1.1。
2.1.4 3種數(shù)據(jù)標(biāo)準(zhǔn)的比較 mzData和mzXML最大的區(qū)別是數(shù)據(jù)文件靈活性的設(shè)計(jì)理念不同。mzData通過使用主體模型外部的控制字實(shí)現(xiàn)數(shù)據(jù)靈活性,這樣可以保證實(shí)際的xsd模型在幾年內(nèi)保持不變。隨著設(shè)備和軟件的升級,只需不斷地更新控制字即可實(shí)現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)的升級,也無需過多修改后續(xù)的分析軟件。mzXML有一個嚴(yán)格的數(shù)據(jù)模型,大多數(shù)的數(shù)據(jù)信息都已被列舉在模型中,當(dāng)需要支持新的數(shù)據(jù)特征時,即使添加一個屬性,均需要對數(shù)據(jù)模型進(jìn)行修訂,也要對分析軟件進(jìn)行相應(yīng)的修改,造成連續(xù)發(fā)布的mzXML版本間多是相近的。但是,使用這種模型的優(yōu)點(diǎn)是數(shù)據(jù)模型穩(wěn)定性高,便于軟件的實(shí)現(xiàn)和數(shù)據(jù)文檔的驗(yàn)證[20]。
圖2 mzML結(jié)構(gòu)主框圖Fig.2 The schema of mzML
mzML繼承了上述兩種格式各自的優(yōu)點(diǎn),使用控制字實(shí)現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)的靈活性,并使用控制字語法驗(yàn)證器,避免用不同的方法編碼本質(zhì)上相同的信息,以及各種版本間的不一致性,使mzML成為新一代基于 XML的開放式數(shù)據(jù)標(biāo)準(zhǔn)。
與mzXML相似,mzML使用索引來嘗試解決質(zhì)譜圖隨機(jī)讀取的問題,但是該方法存在一定的風(fēng)險(xiǎn)。從mzXML多年的使用經(jīng)驗(yàn)可以得出,索引技術(shù)帶來的技術(shù)優(yōu)勢要遠(yuǎn)大于其帶來的風(fēng)險(xiǎn),但研究人員對在XML文件中引入索引方法褒貶不一。因此,一個*.mzML文件中可能會包含一個無索引的mzML文檔或是帶索引的mzML文檔。
在蛋白質(zhì)鑒定流程中,一個典型的肽段匹配策略是數(shù)據(jù)庫搜索[29],簡稱搜庫。目前 TPP中支持的搜庫工具有X!Tandem[30]、ProbID[31]、Mascot[32]、SEQUEST[33]、Phenyx[34]等 ,其中 ,X!Tandem和 ProbID是開源搜庫軟件。每個軟件都有各自的數(shù)據(jù)輸入輸出文件格式,而且在實(shí)際分析中,需要用不同的軟件對同一批數(shù)據(jù)進(jìn)行搜庫,不同格式的輸出文件會對結(jié)果的比較、整合帶來一定困難,不利于大規(guī)模的數(shù)據(jù)分析。因此,研究人員在這一階段開發(fā)出的數(shù)據(jù)標(biāo)準(zhǔn)主要有:mzIdentML、pepXML和 Pride XML。其中,mzIdentML是針對該分析階段最新制定的數(shù)據(jù)標(biāo)準(zhǔn),適用于搜庫后的數(shù)據(jù)分析流程。
2.2.1 mzIdentML的發(fā)展進(jìn)程 2006年,PSIPI(proteomics informatics standards group)開始著手制定AnalysisXML的UML模型(unified modeling language model)[35]。隨后在2008年的 PSI春季會議上,決定從 AnalysisXML中去除與定量有關(guān)的部分,主要是因?yàn)槎恐惺褂玫牟煌呗?有標(biāo)定量和無標(biāo)定量)以及新技術(shù)的不斷更新,導(dǎo)致AnalysisXML1.0的發(fā)布一再推遲。2009年P(guān)SI的春季會議正式?jīng)Q定將AnalysisXML分成兩部分:蛋白質(zhì)鑒定數(shù)據(jù)標(biāo)準(zhǔn)——mzIdentML和蛋白質(zhì)定量數(shù)據(jù)標(biāo)準(zhǔn)——mzQuantML[16]。mzIdentML繼承了AnalysisXML的大部分內(nèi)容,而mzQuantML還需要單獨(dú)開發(fā),但仍期望在開發(fā)時使其具有與mzIdentML高度相似的上層結(jié)構(gòu)。2009年 8月,mzIdentML1.0版正式發(fā)布,而 mzQuant-ML仍在制定中。
mzIdentML主要包含 pepXML和protXML中的數(shù)據(jù)信息,以及其他一些相關(guān)信息(與定量無關(guān)的)。pepXML是 TPP在肽段水平數(shù)據(jù)分析中使用的數(shù)據(jù)標(biāo)準(zhǔn);protXML是TPP在蛋白質(zhì)水平數(shù)據(jù)分析中使用的數(shù)據(jù)標(biāo)準(zhǔn)。因此,在基于質(zhì)譜的蛋白質(zhì)鑒定中,mzI-dentML是搜庫后結(jié)果的一個公共數(shù)據(jù)標(biāo)準(zhǔn)。TPP目前默認(rèn)的數(shù)據(jù)標(biāo)準(zhǔn)還是pepXML,但在mzIdentML成熟后,TPP將會把最后的分析結(jié)果轉(zhuǎn)化成mzIdentML格式數(shù)據(jù)[36]。
2.2.2 mzIdentML的結(jié)構(gòu)特點(diǎn) mzIdentML是對 FuGE(functional genomics experiment)對象模型的延伸,可以應(yīng)用于 MS、MS/MS、MSn數(shù)據(jù)的搜庫結(jié)果,比pepXML的適用性要廣。
mzIdentML同樣使用控制字來實(shí)現(xiàn)數(shù)據(jù)格式的靈活性,節(jié)點(diǎn)cvList中包含文件使用的控制字列表。節(jié)點(diǎn)Analysis Sample Collection使用控制字術(shù)語對試驗(yàn)中質(zhì)譜儀分析的樣本進(jìn)行描述,若樣本是混合樣本,還需要定義其父樣本。Sequence Collection分為DBSequence和Peptide兩個子節(jié)點(diǎn),前者為特定搜索數(shù)據(jù)庫(核酸或氨基酸)中的一個數(shù)據(jù)庫序列,后者為肽段序列(或修飾后序列),這兩個序列作為搜索結(jié)果的參考序列集。對數(shù)據(jù)集進(jìn)行圖譜鑒定分析和蛋白質(zhì)檢測所需要的參數(shù)和設(shè)置均存放在子節(jié)點(diǎn)Analysis Protocol Collection中,而分析過程中得到的數(shù)據(jù)結(jié)果存儲在 AnalysisData中。mzIdentML支持對數(shù)據(jù)的多次搜索,搜索結(jié)果可以存儲在同一個數(shù)據(jù)文件中。
mzIdentML數(shù)據(jù)標(biāo)準(zhǔn)適用于肽段水平分析和蛋白質(zhì)水平分析,為整個蛋白質(zhì)鑒定過程減輕了工作量,有效地避免了在分析中對不同數(shù)據(jù)格式進(jìn)行轉(zhuǎn)換。
2.2.3 pepXML的結(jié)構(gòu)特點(diǎn) pepXML是ISB開發(fā)的用來存儲、交換和處理肽段序列匹配數(shù)據(jù)的數(shù)據(jù)標(biāo)準(zhǔn),僅適用于MS/MS的搜庫結(jié)果。
在pepXML模型中,有相應(yīng)的節(jié)點(diǎn)保證模型能支持搜庫、結(jié)果驗(yàn)證和定量分析。其中,msms_pipeline_analysis存儲與搜庫有關(guān)的信息及搜庫結(jié)果;peptideprophet_summary和peptideprophet_result存儲與搜庫結(jié)果驗(yàn)證有關(guān)的信息;asapratio_summary和asapratio_result存儲與ASAPRatio有關(guān)的定量信息。
pepXML支持在單文檔中存儲多次搜庫結(jié)果。每一次搜庫的結(jié)果都放在msms_run_summary中,其中包含原mzXML文件的信息和從mzXML文件得到質(zhì)譜儀的詳細(xì)描述以及在試驗(yàn)中使用的水解酶信息。此外還包含一個search_summary子節(jié)點(diǎn),其中存儲與搜索引擎和搜索數(shù)據(jù)庫、肽段修飾、酶和序列搜索限制配置有關(guān)的信息,并將圖譜名、母離子電荷和質(zhì)量以及節(jié)點(diǎn)search_result放在其子節(jié)點(diǎn)spectrum_query中。在對同一數(shù)據(jù)集做多次搜索時,每個search_result通過唯一的search_id與其對應(yīng)的search_summary相連接,以實(shí)現(xiàn)在單文件中存儲多次搜索結(jié)果。
pepXML中還包含搜庫結(jié)果驗(yàn)證和定量的模塊,如 TPP中使用的結(jié)果驗(yàn)證軟件 PeptideProphet和定量軟件 XPRESS[37]、ASAPRatio[38],在pepXML中均有對應(yīng)的數(shù)據(jù)模塊。
與SEQUEST的輸出文件SQL相比,pep-XML是一個有嚴(yán)格模型的XML文件格式,便于數(shù)據(jù)使用者驗(yàn)證數(shù)據(jù)文件格式是否正確,保證分析軟件能有一個可靠的輸入數(shù)據(jù)。
2.2.4 Pride XML的結(jié)構(gòu)特點(diǎn) Pride XML是 EBI為數(shù)據(jù)庫PRIDE[39-41]專門開發(fā)的一個數(shù)據(jù)格式,其中包含了完整的圖譜數(shù)據(jù)以及搜庫結(jié)果。該標(biāo)準(zhǔn)在圖譜數(shù)據(jù)方面完全使用了mzData數(shù)據(jù)標(biāo)準(zhǔn),將其作為一個節(jié)點(diǎn) mzData。Pride XML中可以不包含mzData格式的圖譜數(shù)據(jù),但在mzData節(jié)點(diǎn)中必須要對實(shí)驗(yàn)樣品、儀器設(shè)備和數(shù)據(jù)處理軟件等參數(shù)進(jìn)行詳細(xì)的描述。
Pride XML將基于不同實(shí)驗(yàn)的搜庫結(jié)果分別存放在不同的節(jié)點(diǎn)中,二維凝膠電泳的搜庫結(jié)果存儲在 TwoDimensionalIdentification中,其它方法的搜庫結(jié)果存儲在 GelFreeIdentification中。同一肽段序列(或是重疊序列)的搜索結(jié)果存放在節(jié)點(diǎn) GelFreeIdentification中,其中還需要包含的信息有搜索數(shù)據(jù)庫的名稱及版本、搜索引擎名稱及版本、相關(guān)圖譜ID、各項(xiàng)搜庫結(jié)果值以及修飾屬性等。
Pride XML同樣利用控制字來實(shí)現(xiàn)數(shù)據(jù)格式的靈活性,用戶可以在PRIDE的網(wǎng)站上對自己的XML文件進(jìn)行驗(yàn)證。
蛋白質(zhì)鑒定過程的最后一步是通過搜庫中獲得的肽段結(jié)果推斷出樣品中含有的蛋白質(zhì)。這一階段中已有的數(shù)據(jù)標(biāo)準(zhǔn)有mzIdentML和protXML,前者已在上一節(jié)做了介紹。
從得到的肽段序列推斷出蛋白質(zhì)序列的方法有多種,不同的方法有不同格式的結(jié)果文件。protXML即是一個用于存儲、交換和處理基于串聯(lián)質(zhì)譜的蛋白質(zhì)鑒定結(jié)果的開放式數(shù)據(jù)標(biāo)準(zhǔn)。
protXML的節(jié)點(diǎn)protein_summary_header包含與肽段鑒定相關(guān)的信息,一個包含蛋白質(zhì)鑒定方法信息的子節(jié)點(diǎn)program_details和一個包含該方法細(xì)節(jié)信息的通配符。蛋白質(zhì)鑒定結(jié)果存放在protein_group中,可以有多組,每組中均有一個編號group_number,每組中還可以包含一個或多個protein節(jié)點(diǎn)。protXML也適用于鑒定結(jié)果的后續(xù)蛋白質(zhì)水平上的分析,如XPRESS和 ASAPRatio蛋白質(zhì)定量。protXML文件還分別設(shè)有對應(yīng)的節(jié)點(diǎn)存儲相應(yīng)的分析結(jié)果,如ASAPRatio的定量結(jié)果存儲在節(jié)點(diǎn)ASAPRatio中。
上述數(shù)據(jù)標(biāo)準(zhǔn)自發(fā)布之日起便逐步得到了應(yīng)用,常用的蛋白質(zhì)組質(zhì)譜分析軟件通常都支持多種數(shù)據(jù)標(biāo)準(zhǔn),表3給出了常用軟件對數(shù)據(jù)標(biāo)準(zhǔn)的支持情況。
表3 常用支持?jǐn)?shù)據(jù)標(biāo)準(zhǔn)的軟件列表Table 3 Widely-used softwares and their support for the XML-based data format standards
基于XML的質(zhì)譜數(shù)據(jù)標(biāo)準(zhǔn)在質(zhì)譜數(shù)據(jù)分析中發(fā)揮了極大的作用,減輕了分析人員在數(shù)據(jù)分析中對不同格式的數(shù)據(jù)進(jìn)行轉(zhuǎn)換的工作,有利于大規(guī)模數(shù)據(jù)分析平臺的建設(shè)。但這些數(shù)據(jù)標(biāo)準(zhǔn)還存在一定的問題,需要不斷的完善和發(fā)展。
首先,已有標(biāo)準(zhǔn)對原始數(shù)據(jù)共享的支持力度比較大,但是對數(shù)據(jù)分析結(jié)果的支持有限。ISB制定的pepXML和protXML,以及 EBI的Pride XML雖然提供了部分對搜庫結(jié)果存儲的支持,但是還不能兼容所有出現(xiàn)的、典型的數(shù)據(jù)分析流程。
其次,這些數(shù)據(jù)標(biāo)準(zhǔn)多以靈活的XML格式實(shí)現(xiàn),其中大量的數(shù)據(jù)標(biāo)簽使容量本已足夠龐大的高通量質(zhì)譜數(shù)據(jù)文件更加龐大,數(shù)據(jù)壓縮雖然可以部分解決這個問題[42-43],但是不能兼顧數(shù)據(jù)的訪問速度。
最后,XML平坦式的存儲方式給數(shù)據(jù)的高效訪問帶來了一定負(fù)擔(dān),通過建立額外的索引雖可以部分解決這一問題,但是直接的索引式存儲效率應(yīng)更加高效。
質(zhì)譜數(shù)據(jù)具有數(shù)據(jù)量大和數(shù)據(jù)格式不統(tǒng)一的特點(diǎn),研究工作的需求,牽引和推動了數(shù)據(jù)標(biāo)準(zhǔn)的發(fā)展,但目前數(shù)據(jù)標(biāo)準(zhǔn)的制定仍然落后于數(shù)據(jù)的發(fā)展。通過比較目前已有的數(shù)據(jù)標(biāo)準(zhǔn)并結(jié)合實(shí)際數(shù)據(jù)處理的諸多經(jīng)驗(yàn),建議從兩個不同的層面關(guān)注和推動今后數(shù)據(jù)標(biāo)準(zhǔn)的發(fā)展:
1)對數(shù)據(jù)標(biāo)準(zhǔn)的制定組織,仍需繼續(xù)完善和發(fā)展蛋白質(zhì)組學(xué)中所需數(shù)據(jù)標(biāo)準(zhǔn)。上文介紹的很多數(shù)據(jù)標(biāo)準(zhǔn)僅僅適用于蛋白質(zhì)鑒定的典型流程,使用范圍有限。因此,數(shù)據(jù)標(biāo)準(zhǔn)的制定還需要不斷完善。從各數(shù)據(jù)標(biāo)準(zhǔn)的發(fā)展過程以及mzML與mzIdentML的制定過程可以推斷出質(zhì)譜數(shù)據(jù)標(biāo)準(zhǔn)在向一個可以支持所有蛋白質(zhì)組學(xué)典型分析流程的方向發(fā)展。由于蛋白質(zhì)組學(xué)自身的特點(diǎn),如實(shí)驗(yàn)策略多、分析步驟復(fù)雜以及數(shù)據(jù)分析算法繁多等,使得這一發(fā)展過程困難重重。
2)對數(shù)據(jù)分析人員,在目前數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一的狀況下,可開發(fā)基于已有數(shù)據(jù)標(biāo)準(zhǔn)的適用于典型蛋白質(zhì)鑒定流程的數(shù)據(jù)格式,并充分利用已有的開源數(shù)據(jù)格式轉(zhuǎn)換工具,將當(dāng)前各種不同數(shù)據(jù)標(biāo)準(zhǔn)的數(shù)據(jù)信息合理地整合到一個統(tǒng)一的數(shù)據(jù)格式中,以簡化數(shù)據(jù)分析流程。在此實(shí)踐過程中,可以向數(shù)據(jù)標(biāo)準(zhǔn)制定組織及時反饋使用經(jīng)驗(yàn),共同推動蛋白質(zhì)組學(xué)中數(shù)據(jù)標(biāo)準(zhǔn)的發(fā)展。
[1]Science Editor.Breakthrough of the year.Peering into 2002[J].Science,2001,294(5 551):2 444.
[2]AEBERSOLD R,MANN M.Mass spectrometrybased proteomics[J].Nature,2003,422(6 928):198-207.
[3]ONG S E,MANN M.Mass spectrometry-based proteomics turns quantitative[J].Nat Chem Biol,2005,1(5):252-262.
[4]STATES D J,OMENN G S,BLACKWELL T W,et al.Challenges in deriving high-confidence protein identifications from data gathered by a HUPO plasma proteome collaborative study[J].Nat Biotechnol,2006,24(3):333-338.
[5]The HUPO Proteomics Standards Initiative[OL][2010].http://www.psidev.info/.
[6]Institute for System Biology[OL][2010].http://www.systemsbiology.org/.
[7]European Bioinformatics Institute[OL][2010].http://www.ebi.ac.uk/.
[8]KA ISER J.Proteomics:Public-private group maps outinitiatives[J]. Science,2002,296(5 569):827.
[9]ACHARD F,VAYSSEIX G,BARILLOT E.XML,bioinformatics and data integration[J].Bioinformatics,2001,17(2):115-125.
[10]BRAY T,PAOLI J,SPERBERG-MCQUEEN C M,et al.Extensible Markup Language(XML)1.0(Second Edition),2000.
[11]TAYLOR C F,PATON N W,LILLEY KS,et al.The minimum information about a proteomics experiment(MIAPE)[J].Nat Biotechnol,2007,25(8):887-893.
[12]TAYLOR C F,BINZ P A,AEBERSOLD R,et al.Guidelines for reporting the use of mass spectrometry in proteomics[J]. NatBiotechnol,2008,26(8):860-861.
[13]ORCHARD S,TAYLOR C F,HERMJAKOB H,et al.Advances in the development of common interchange standards for proteomic data[J].Proteomics,2004,4(8):2 363-2 365.
[14]PEDRIOLI P G,ENGJ K,HUBLEY R,et al.A common open representation of mass spectrometry data and its application to proteomics research[J].Nat Biotechnol,2004,22(11):1 459-1 466.
[15]VIZCAINO J A,MARTENS L,HERMJAKOB H,et al.The PSI formal document process and its implementation on the PSI website[J].Proteomics,2007,7(14):2 355-2 357.
[16]ORCHARD S,DEUTSCH E W,BINZ P A,et al.Annual spring meeting of the Proteomics Standards Initiative[J].Proteomics,2009,9(19):4 429-4 432.
[17]LIN S M,ZHU L,WINTER A Q,et al.What is mzXML good for?[J].ExpertRev Proteomics,2005,2(6):839-845.
[18]PSI-MS:Mass Spectrometry Standards Working Group[OL][2010].http://www.psidev.info/index.php?q=node/80.
[19]ORCHARD S,MONTECHI-PALAZZIL,DEUTSCH E W,et al.Five years of progress in the standardization of proteomics data 4th annual spring workshop of the HUPO-proteomics standards initiative April 23-25,2007 ecolenationalesuperieure(ENS),Lyon,France[J].Proteomics,2007,7(19):3 436-3 440.
[20]DEU TSCH E.mzML:A single,unifying data format for mass spectrometer output[J].Proteomics,2008,8(14):2 776-2 777.
[21]PRoteomics IDEntifications database(PRIDE)[J/OL][2010].http://www.ebi.ac.uk/pride/.
[22]Seattle proteome center(SPC)-Proteomics Tools[EB/OL].http://tools.proteomecenter.org/software.php.
[23]PRINCE J T,CARL SON M W,WAN G R,et al.The need for a public proteomics repository[J].Nat Biotechnol,2004,22(4):471-472.
[24]CARR S,A EBERSOLD R,BALDWIN M,et al.The need for guidelines in publication of peptide and protein identification data:Working group on publication guidelines for peptide and protein identification data[J].Mol Cell Proteomics,2004,3(6):531-533.
[25]ORCHARD S,HERMJAKOB H,JULIAN R K,et al.Common interchange standards for proteomics data:Public availability oftools and schema[J].Proteomics,2004,4(2):490-491.
[26]KELL ER A,ENGJ,ZHANG N,et al.A uniform proteomics MS/MS analysis platform utilizing open XML file formats[J].Mol Syst Biol,2005:0017.
[27]ORCHARD S,HERMJAKOB H.The HUPO proteomics standards initiative-easing communication and minimizing data loss in a changing world[J].Brief Bioinform,2008,9(2):166-173.
[28]DEUTSCH E W.Mass spectrometer output file format mzML[J].Methods Mol Biol,2010,604:319-331.
[29]XU C,MA B.Software for computational peptide identification from MS-MS data[J].Drug Discov Today,2006,11(13/14):595-600.
[30]CRAIG R,BEAVIS R C.TANDEM:Matching proteins with tandem mass spectra[J].Bioinformatics,2004,20(9):1 466-1 467.
[31]ZHANG N,AEBERSOLD R,SCHWIKOWSKI B.ProbID:A probabilistic algorithm to identify peptides through sequence database searching using tandem mass spectral data[J].Proteomics,2002,2(10):1 406-1 412.
[32]PERKINS D N,PAPPIN D J,CREASY D M,et al.Probability-based protein identification by searching sequence databases using mass spectrometry data[J]. Electrophoresis,1999,20(18):3 551-3 567.
[33]ENGJ K,MCCORMACK A L,IIIJRY.An approach to correlate tandem mass spectral data of peptides with amino acid sequences in a protein database[J].Journal of the American Society for Mass Spectrometry,1994,5(11):976-989.
[34]COLINGE J,MASSELOT A,GIRON M,et al.OLAV:Towards high-throughput tandem mass spectrometry data identification[J].Proteomics,2003,3(8):1 454-1 463.
[35]ORCHARD S,APWEILER R,BARKOVICH R,et al.Proteomics and Beyond:A report on the 3rd annual spring workshop of the HUPO-PSI 21-23 April 2006,San Francisco,CA,USA[J].Proteomics,2006,6(16):4 439-4 443.
[36]DEUTSCH E W,MENDOZA L,SHTEYNBERG D,et al.A guided tour of the trans-proteomic pipeline[J].Proteomics,2010,10(6):1 150-1 159.
[37]HAN D K,ENGJ,ZHOU H,et al.Quantitative profiling of differentiation-induced microsomal proteins using isotope-coded affinity tags and mass spectrometry[J].Nat Biotechnol,2001,19(10):946-951.
[38]LI XJ,ZHANG H,RANISH J A,et al.Automated statistical analysis of protein abundance ratios from data generated by stable-isotope dilution and tandem mass spectrometry[J].Anal Chem,2003,75(23):6 648-6 657.
[39]MARTENS L,HERMJA KOB H,JONES P,et al.PRIDE:The proteomics identifications database[J].Proteomics,2005,5(13):3 537-3 545.
[40]JONES P,COTE R G,MARTENS L,et al.PRIDE:A public repository of protein and peptide identifications for the proteomics community[J].Nucleic Acids Res,2006,34(suppl 1):D659-D663.
[41]JONES P,COTE RG,CHO S Y,et al.PRIDE:New developments and new datasets[J].Nucleic Acids Res,2008,36(suppl 1):D878-D883.
[42]MIGUEL A C,KEANE J F,WHITEAKER J,et al.Compression of LC/MS Proteomic data[C].19th IEEE Symposium on Computer-Based Medical Systems, Salt Lake City, 2006:925-930.
[43]MIGUEL A C,KEARNEY-FISCHER M,KEANE J F,et al.Near-lossless compression of mass spectra for proteomics[C].Acoustics,Speech,and Signal Processing,Honolulu,2007:1 369-1 372.