馬駿駿,王旭初,聶小軍
(1.海南師范大學 生命科學學院,???570100;2.西北農林科技大學 農學院,陜西 楊凌 712100)
生物信息學是隨著人類基因組計劃(Human Genome Project,HGP)啟動而興起的一門新興學科,它是由數(shù)學、計算機科學、信息學和生物學產生的一門交叉學科。從廣義上說,生物信息學是應用信息科學的方法和技術,研究生物體系和生物過程中信息的存貯、信息的內涵和信息的傳遞,研究和分析生物體細胞、組織、器官的生理、病理、藥理過程中的各種生物信息[1]。狹義上講,生物信息學就是生命科學中的信息科學,就是應用信息科學的理論、方法和技術,管理、分析和利用生物分子數(shù)據(jù),或者是一門利用計算機技術研究生物系統(tǒng)之規(guī)律的學科[2]。生物信息學的研究內容主要包括以發(fā)展新的數(shù)理和信息科學的技術和方法,用于管理和分析生物數(shù)據(jù)的算法開發(fā)和以收集、整理、儲存、加工、發(fā)布、分析及解釋生物學數(shù)據(jù)的數(shù)據(jù)挖掘與運用兩個方面。伴隨著人類基因組計劃的完成,生命科學研究進入了后基因組時代(Post-genome area),在此過程中產生了大量的蛋白序列、結構、功能以及互作的數(shù)據(jù),相比于基因組時代,蛋白質組更加龐大且復雜,僅僅依靠傳統(tǒng)的生物手段無法解決問題,必須借助生物信息學技術全方位的處理所產生的生物學數(shù)據(jù)。因此,面對海量蛋白質組數(shù)據(jù)的獲取、整理、注釋、處理、存儲以及蛋白質組數(shù)據(jù)信息的挖掘及數(shù)據(jù)的可視化,生物信息學技術成為蛋白質組學研究中不可或缺的重要工具和手段。現(xiàn)就簡要綜述一下生物信息學技術在蛋白質組學研究中的應用并初步展望了其未來的發(fā)展趨勢。
蛋白質組(Proteome)源于蛋白質(Protein)與基因組(Genome)兩個詞的組合,意指“一種基因組所表達的全套蛋白質”[1],即包括一種細胞乃至一種生物所表達的全部蛋白質。蛋白質組學(Proteomics)從整體的角度分析細胞內動態(tài)變化的蛋白質組成成分、表達水平與修飾狀態(tài),了解蛋白質之間的相互作用與聯(lián)系,從而揭示蛋白質功能與細胞生命活動規(guī)律,其逐漸成為當前生物學研究的熱點和突破最快的領域。自2014年人類蛋白質組草圖發(fā)表后多種蛋白質組學相關研究陸續(xù)公布,蛋白質組研究取得了大量重要成果。
蛋白質組學研究是不斷發(fā)展完善的。初期,主要以2-DIGE及SDS-PAGE為主,這種方法通量較低,靈敏度不高。隨著高效液相色譜技術(HPLC)和質譜技術的發(fā)展,基于液相色譜+質譜(LC-MS/MS)的3D蛋白質組學研究逐漸成為本領域的主流方法;在此基礎上,伴隨著各種定量技術(如SILAC、iTRAQ、SWATH和Label-Free等)的不斷出現(xiàn)和高精密質譜儀器的成功應用,離子淌度(mobility)的引入,使得蛋白質組學研究進入了4D的高通量時代(見圖1)。
圖1 蛋白質組研究的簡要發(fā)展歷程Fig.1 Development history of proteome research
蛋白質組學研究的基本策略主要包括定性和定量研究,其中定性檢測主要有兩種策略:自底向上(Bottom-up)和自頂向下(Top-down)(見圖2)。其中Bottom-up應用的較為廣泛,其中“bottom”指的是肽段,“up”是指由肽段推理為蛋白的過程,即先將蛋白酶解成肽段,然后通過色譜分離肽段混合物,再用質譜技術將肽段碎裂,根據(jù)碎裂譜圖的離子峰信息進行數(shù)據(jù)庫搜索來鑒定肽段,最后將鑒定的肽段進行組裝、重新歸并為蛋白質。Top-down的“top”指的是完整蛋白質分子的質量測定,“down”則是指對完整蛋白的碎裂。這種方法無需酶解,通過完整蛋白質的質量及其碎裂譜圖信息可以實現(xiàn)蛋白質鑒定,序列覆蓋度較高,能保留多種翻譯后修飾之間的關聯(lián)信息。
圖2 蛋白質組學定性分析流程Fig.2 Qualitative analysis process of proteomics
2 生物信息學在蛋白質組學上的應用進展
針對蛋白質組學研究的不同的策略、不同對象、不同方法,需要應用不同的軟件和工具來進行數(shù)據(jù)的挖掘、處理和分析。現(xiàn)就生物信息學技術在蛋白質譜數(shù)據(jù)處理、蛋白質鑒定及蛋白質翻譯后修飾以等方面的應用進展做一簡要介紹。
質譜技術已成為蛋白質組學研究的核心技術之一,也是開展蛋白鑒定與分析的主要手段。一臺質譜儀可以在幾天內產生數(shù)百萬張的圖譜。如此龐大的信息需要利用高效、易學易用的軟件工具來進行質譜數(shù)據(jù)的收集、保存、搜索、鑒定與分析。主要的質譜數(shù)據(jù)分析工具包括以下幾類。
2.1.1 質譜數(shù)據(jù)處理工具
質譜數(shù)據(jù)搜索軟件有Mascot、SEQUEST、Lutkefish、Proteome software、Profound和PepSea等(見表1)。Mascot是質譜數(shù)據(jù)搜索的常用軟件,它是英國Matrix Sciences公司開發(fā)的產品,利用分子序列數(shù)椐檢索的方法,鑒定樣本中蛋白質的組成以及翻譯后修飾。該軟件整合了先進的統(tǒng)計學算法,能快速,準確的得到分析結果[3]。Mascot可以進行在線檢索和本地檢索。在線檢索免費,檢索速度快,操作簡單,只需將peak list文件導入即可,但文件大小受限制;而本地檢索需要購買軟件及安裝數(shù)據(jù)庫,使用方便、可以進行大規(guī)模的數(shù)據(jù)檢索分析和數(shù)據(jù)庫配置,功能更加強大[4]。
SEQUEST是Thermo Electron開發(fā)的基于串聯(lián)質譜數(shù)據(jù)(MS/MS)的搜索軟件。它將串聯(lián)質譜數(shù)據(jù)與蛋白質數(shù)據(jù)庫序列相聯(lián)系,使研究者的質譜數(shù)據(jù)蛋白質鑒定,從費時的工作中解放出來,而且SEQUEST軟件適合混合蛋白質的質譜鑒定[5-6]。
pFind(http://pfind.ict.ac.cn)是中國科學院計算技術研究所李德泉、賀思敏等開發(fā),我國有自主知識產權的串聯(lián)質譜數(shù)據(jù)搜索軟件。相比Mascot、SEQUEST,它的改進是在匹配打分過程中,考慮了相關離子的匹配程度,引入了核譜向量點積(kernel spectrum dot product,KSDP)算法,通過對普通打分算法譜向量點積(SDP)的擴展,借助機器學習領域中的核函數(shù)技術,利用連續(xù)離子匹配信息進行匹配打分,很好地降低了質譜數(shù)據(jù)搜索的假陽性結果。
2.1.2 定量蛋白質分析工具
質譜技術作為蛋白質組學研究的關鍵技術,在定量蛋白質組學分析中起著十分重要的作用。非標定量法(Label-free)就是通過液質聯(lián)用技術對蛋白質酶解肽段進行質譜分析,然后比較質譜分析次數(shù)或質譜峰強度,分析不同來源樣品蛋白的數(shù)量變化,肽段在質譜中被捕獲檢測的頻率與其在混合物中的豐度成正相關,通過適當?shù)臄?shù)學公式可以將質譜檢測技術與蛋白質的量聯(lián)系起來,從而對蛋白質進行定量。目前基于生物質譜的定量蛋白質組學分析策略主要分為相對定量和絕對定量,相對定量蛋白質組是指對不同生理狀態(tài)下的細胞、組織或體液蛋白質表達量的相對變化進行比較分析;絕對定量蛋白質組是測定細胞、組織或體液蛋白質組中每種蛋白質的絕對量或濃度?;谫|譜數(shù)據(jù)的定量蛋白質分析軟件很多,主要包括DeCyder MS、MaXIC-Q、MSQuant等(見表1)。其中,DeCyder MSTM軟件是GE公司開發(fā)的商業(yè)化軟件,是運用于蛋白質非標記定量(Label-free)的主要工具;而MaXIC-Q是高通量定量蛋白質組學的通用計算平臺,可用于大規(guī)模穩(wěn)定同位素標記定量和液相色譜串聯(lián)質譜數(shù)據(jù)的高通量、高精度定量分析;MSQuant是一款常用的定量蛋白質組學/質譜分析工具,主要用于對蛋白質和肽進行定量[7]。
表1 用于質譜蛋白鑒定與分析工具Table 1 Tools for protein identification and analysis by mass spectrometry
2.1.3 質譜數(shù)據(jù)的de novo鑒定工具
蛋白質從頭測序(De novo sequencing),又叫全新蛋白測序,這項技術根據(jù)肽段與惰性氣體相碰撞產生的一系列的有規(guī)律的片段離子之間的質量差來推斷氨基酸序列。de novo測序方法不依賴于數(shù)據(jù)庫,能明確解釋串聯(lián)質譜(Tandem mass spectrometry,MS/MS)圖譜,對鑒定新的蛋白質和提高圖譜的利用率具有重要的作用。De novo蛋白質鑒定軟件有很多,包括MSNovo、Lutefisk、PEAKS、NovoHMM等(見表1)。MSNovo是一款新的多肽denovo測序軟件,不支持在線模式,但它支持多種類型儀器產出的數(shù)據(jù),能夠支持+1、+2和+3價的母離子;Lutefisk是應用于開放資源肽CID圖譜從頭解析的工具;PEAKS是一個綜合性肽圖譜分析軟件包,不僅可以用于蛋白從頭測序,而且可以進行蛋白質鑒定、蛋白序列同源性搜索以及標記和非標記定性、定量分析等[8];NovoHMM將隱馬爾可夫模型引入蛋白序列解析中,提供了一種比其他從頭測序更準確的鑒定方法[9]。
蛋白質的翻譯后修飾(Post-translational modification,PTM)是指對翻譯后的蛋白質進行共價加工的過程,通過在一個或多個氨基酸殘基加上修飾基團,可以改變蛋白質的理化性質,進而影響蛋白質的空間構象和活性狀態(tài)、亞細胞定位、折疊及其穩(wěn)定性以及蛋白質-蛋白質相互作用,是調節(jié)蛋白質功能的重要方式。許多至關重要的生命進程不僅由蛋白質的相對豐度控制,更重要的是受到時空特異性和翻譯后修飾的調控。對蛋白質翻譯后修飾的研究可以幫助闡明和了解蛋白質功能及其功能變化,翻譯后修飾的預測和分析也日漸成為生物信息學蛋白質序列分析中的重要的研究內容。其主要包括磷酸化、糖基化、甲基化、乙基化(如組蛋白質)、泛素化和羥基化等。
質譜是鑒定蛋白質翻譯后修飾的重要方法,其原理是利用蛋白質發(fā)生修飾后的質量偏移來實現(xiàn)翻譯后修飾位點的鑒定;同時,由于翻譯后修飾的蛋白質在樣本中含量低且動態(tài)范圍廣,檢測前需要對發(fā)生修飾的蛋白質或肽段進行富集,然后再進行質譜鑒定。翻譯后修飾的生物信息分析通常采用數(shù)據(jù)庫檢索和預測工具來進行。常見的蛋白翻譯后修飾數(shù)據(jù)庫主要有Swiss-Prot、Phospho.ELM、dbPTM、O-GlycBase以及RESID等數(shù)據(jù)庫(見表2)。其中,Swiss-Prot數(shù)據(jù)庫世界兩大蛋白序列數(shù)據(jù)庫之一,收錄了經(jīng)實驗驗證的真實存在的蛋白信息資源,包括序列、功能、結構以及翻譯后修飾信息;PROSITE數(shù)據(jù)庫,又叫蛋白質結構分類數(shù)據(jù)庫,它收錄了蛋白質家族保守結構域(Domains)、包含重要生物學意義的位點(sites)、模式(Patterns)、輪廓(Profiles)和翻譯后修飾位點等。Swiss-Prot和PROSITE數(shù)據(jù)庫均已整合到了ExPASy數(shù)據(jù)庫中。而Phospho.ELM是收錄了不同生物體S/T/Y磷酸化位點的數(shù)據(jù)庫,主要用于S/T/Y磷酸化位點的檢索和預測;dbPTM和 RESID數(shù)據(jù)庫是均為綜合性蛋白翻譯后修飾數(shù)據(jù)庫,收錄了不同物種、各種不同修飾類型的修飾位點及其生物學功能,是翻譯后修飾位點鑒定的重要工具;O-GlycBase是O-糖基化數(shù)據(jù)庫,是糖基化預測和鑒定的重要數(shù)據(jù)庫。鑒于蛋白翻譯后修飾在調節(jié)蛋白質功能上的重要作用,大量的翻譯后修飾工具也被開發(fā)出來,包括預測黏菌蛋白的O-糖基化位點的DictyOGlyc工具,預測哺乳動物蛋白的O-GalNAc糖基化位點的NetOGlyc工具,預測人類蛋白中的N-糖基化位點NetNGlyc工具,預測植物甲基化位點的CyMATE工具以及預測磷酸化位點的DISPHOS和Kinase Phos工具等(見表3)。
表2 翻譯后修飾數(shù)據(jù)庫Table 2 Protein post-translational modification databases
表3 翻譯后修飾預測工具Table 3 Prediction tools for protein post-translational modification
當前,生命科學已步入了后基因組時代。蛋白質組學研究是后基因組研究的重要部分,即將基因組靜態(tài)的堿基序列清楚后,轉而對基因組進行動態(tài)的生物學功能的研究。隨著蛋白質組學研究的不斷發(fā)展和深入,對生物信息學技術也提出了更高的要求,除了服務如今的蛋白質組數(shù)據(jù)的產生、處理、搜索、存儲和信息挖掘,未來還需要在蛋白質從頭測序(De novo sequencing)、蛋白質全譜分析、定量蛋白質組數(shù)據(jù)分析、目標蛋白質的功能預測以及蛋白修飾分析等方面逐步發(fā)展成熟。同時,還需要提高質譜數(shù)據(jù)的解析率和搜索正確率、跨平臺質譜數(shù)據(jù)標準的建立(如基于XML等格式、大數(shù)據(jù)整合上有更大發(fā)展),推進蛋白質組數(shù)據(jù)分析的標準化。
同時,利用生物信息學解決蛋白質組學問題的挑戰(zhàn)不僅僅在于數(shù)據(jù)存儲分析的硬件條件,還在于運算法則(算法)和分析軟件,因此開發(fā)新的更適合蛋白質組學分析的算法以及對使用者編程能力要求不高的分析軟件顯得十分重要。隨著學科交叉的不斷深入,生物信息學也在飛速發(fā)展。生物信息學技術在未來蛋白質組研究中重點包括:
(1)物種全蛋白質組圖譜繪制 大規(guī)模整體性的分析蛋白質在某一個細胞、組織或個體中的含量、修飾以及動態(tài)表達。當前,在人類、小鼠以及模式植物擬南芥中取得了重要進展。2014人類蛋白質組草圖由兩個團隊分別發(fā)表在Nature雜志上[16-17],兩項研究具有互補性,可以互相印證。為了產生生物學價值,需要對各個組織的蛋白質進行精確定量,因此全世界各個國家的科研工作者啟動了人體體液蛋白質組計劃[18]、人類肝臟蛋白質組計劃[19]、人類腦蛋白質組計劃、人的糖蛋白質組計劃、人類抗體組計劃[20]、人類疾病小鼠模型蛋白質組計劃[21-23]、人類腎臟蛋白質組計劃、人類心血管蛋白質組計劃、干細胞生物蛋白質組計劃、疾病蛋白標志物計劃、人類染色體蛋白質組計劃和模式生物蛋白質組計劃等,為人類蛋白質組學的研究成果在闡釋生理與病理過程的分子機制的研究中發(fā)揮更加積極的作用,并為人類的健康事業(yè)和生命科學的發(fā)展奠定基礎。2020年3月基于質譜的擬南芥蛋白質組草圖發(fā)表[24],這是目前最全面的擬南芥蛋白修飾與互作圖譜其對擬南芥的30種組織進行蛋白質組、磷酸化修飾組以及轉錄組的定量分析,系統(tǒng)地揭示了蛋白質復合體的組織特異性和磷酸化調控的信號通路,是目前擬南芥蛋白質表達豐度與磷酸化翻譯后修飾最為系統(tǒng)全面的研究。
(2)大規(guī)模的蛋白質功能研究 蛋白互作,包括有蛋白分子和亞基的聚合,蛋白分子雜交,蛋白分子識別,蛋白分子自組裝,以及蛋白質復合體的形成等形式。通過分析一個蛋白質是否能和功能已知的蛋白質相互作用可得到揭示其功能的線索。蛋白質研究最大的挑戰(zhàn)是鑒定每一個蛋白質以及它們的異構體的功能,如何系統(tǒng)整體性研究蛋白質與蛋白質之間的相互作用。2020年4月,蛋白質互作圖繪制完成[25],這份蛋白互作組數(shù)據(jù)包含了約53 000種不同的蛋白互作信息,涉及超過8 000種蛋白質,雖然僅占到了所有人類蛋白質相互作用中的2%~11%,但仍然是世界上最大的互作圖繪,這份圖譜無論是對理解基礎的生物學進程,還是對理解疾病的發(fā)生,都有著極為重要的意義。日后科研工作者將會通過更為深入的研究來擴展該蛋白質互作圖譜,從而為研究人類疾病等多個領域提供重要線索和信息。
(3)蛋白質調控網(wǎng)絡 建立蛋白質調控網(wǎng),不僅可以提供蛋白質之間的相互關系的信息,而且還可以和基因組學、轉錄組學、代謝組學、表型組學等信息聯(lián)系起來。2018年1月,發(fā)表的番茄代謝組研究論文[26]。該研究利用多重組學的大數(shù)據(jù),揭示了在馴化和育種過程中番茄果實的營養(yǎng)和風味物質發(fā)生的變化,并發(fā)現(xiàn)了調控這些物質的重要遺傳位點,為植物代謝物的分子機理研究提供了源頭大數(shù)據(jù)和方法創(chuàng)新。近年來,隨著基因組學,轉錄組學和蛋白質組學的發(fā)展,聯(lián)合代謝物進行分析已經(jīng)成為流行的趨勢,不僅從現(xiàn)象中檢測出差異的代謝物,更從基因層面解釋了代謝物變化的原因,反之基因層面變化,導致的代謝物變化。