鄭乃仁+單亦初+鄧玉林+張玉奎
摘 要 等質(zhì)量肽段末端標(biāo)記(Isobaric peptide termini labeling,IPTL)是一種使用輕、重同位素分別對(duì)肽段的C端和N端進(jìn)行等重標(biāo)記的技術(shù)。在對(duì)使用這種標(biāo)記技術(shù)得到的數(shù)據(jù)進(jìn)行一級(jí)譜分析時(shí),由于肽段的質(zhì)量相同,不會(huì)增加樣本的復(fù)雜性,而在處理二級(jí)譜的數(shù)據(jù)時(shí),可利用成對(duì)的b、y離子進(jìn)行分析。本研究利用IPTL方法得到的實(shí)驗(yàn)數(shù)據(jù)設(shè)計(jì)了一種新的打分算法: 全部離子打分算法(All ions scoring algorithm, AISA)。AISA在對(duì)數(shù)據(jù)進(jìn)行處理時(shí),可以同時(shí)得到定性和定量信息。在QExactive HeLa和HumanHCCHL數(shù)據(jù)集上的蛋白定量覆蓋率分別達(dá)到99%和100%。在QExactive HeLa 2D RPLC數(shù)據(jù)集上,AISA算法鑒定到的PSM、唯一肽段和蛋白質(zhì)分別比Morpheus高15%、26%和22%。在HumanHCCHL數(shù)據(jù)集上,AISA算法鑒定到的PSM、唯一肽段和蛋白質(zhì)分別比Morpheus高24%、39%和27%。在QExactive HeLa和HumanHCCHL數(shù)據(jù)集上蛋白質(zhì)定量比值的平均值非常接近1,分別為1.18和0.90; 在0.5~2.0區(qū)間內(nèi)的定量比值分別為91%和94%。
1 引 言
與幾乎處于靜態(tài)的基因組不同,細(xì)胞的蛋白質(zhì)組會(huì)隨外部刺激及內(nèi)部反應(yīng)而持續(xù)變化[1,2]。使用基于穩(wěn)定同位素稀釋技術(shù)的相對(duì)定量方法,可以對(duì)蛋白質(zhì)表達(dá)譜的變化進(jìn)行研究[3,4]。通過(guò)對(duì)細(xì)胞間差異進(jìn)行蛋白質(zhì)表達(dá)及修飾層面上的定量描述,能為理解復(fù)雜的生物現(xiàn)象提供關(guān)鍵信息[5,6]。為引入不同質(zhì)量數(shù)的穩(wěn)定同位素至肽段的特定位點(diǎn),可采用多種方式,最常見(jiàn)的是化學(xué)標(biāo)記、酶解標(biāo)記和代謝標(biāo)記3種方法[7~10]。使用質(zhì)譜檢測(cè)輕、重穩(wěn)定同位素標(biāo)記的等量蛋白質(zhì),通過(guò)比較相應(yīng)肽段的峰面積,即可對(duì)其進(jìn)行相對(duì)定量研究[11]。
在采用鳥(niǎo)槍法(Shotgun)的蛋白質(zhì)組學(xué)研究中,常使用數(shù)據(jù)依賴(lài)采集(Data dependent acquisition,DDA)模式來(lái)獲取二級(jí)質(zhì)譜數(shù)據(jù)。其基本策略為: 選擇一級(jí)譜中豐度最高的母離子進(jìn)行二級(jí)碎裂,并將其加入臨時(shí)排除名單,在一段時(shí)間內(nèi)不再進(jìn)行采集。如果共洗脫的母離子較多,將沒(méi)有足夠的時(shí)間對(duì)所有母離子進(jìn)行二級(jí)碎裂,可檢測(cè)的動(dòng)態(tài)范圍不可避免地受到限制,高豐度蛋白更容易被鑒定,而低豐度蛋白很難被鑒定。在常規(guī)的DDA模式鳥(niǎo)槍法蛋白質(zhì)組學(xué)實(shí)驗(yàn)中,只有約16%會(huì)被選取進(jìn)行二級(jí)碎裂[12]。
樣本復(fù)雜性的增加是同位素標(biāo)記方法的主要缺陷。通常,使用同位素標(biāo)記的方法會(huì)使一級(jí)譜中峰的數(shù)量至少增加一倍,這也將進(jìn)一步加劇對(duì)低豐度蛋白質(zhì)母離子采樣不足的缺陷,降低蛋白質(zhì)定量分析的精確性。使用等質(zhì)量標(biāo)記策略可以克服這一缺陷[9,13,14]。因?yàn)閷?duì)等質(zhì)量標(biāo)記實(shí)驗(yàn)的定量是在二級(jí)譜層面進(jìn)行的,化學(xué)干擾影響降低,使其具有更高的信噪比。
等質(zhì)量標(biāo)記方法主要有相對(duì)與絕對(duì)定量等質(zhì)量標(biāo)簽(Isobaric tags for relative and absolute quantitation, iTRAQ)、串聯(lián)質(zhì)量標(biāo)簽(Tandem mass tags, TMT)、可裂解等質(zhì)量標(biāo)記親和標(biāo)簽(Cleavable isobaric labeled affinity tag, CILAT)、N,N二甲基化亮氨酸(N,NDimethyl leucine, DiLeu)和等質(zhì)量肽段末端標(biāo)記(Isobaric peptide termini labeling, IPTL)等[15~20]。其中,iTRAQ、TMT、CILAT和DiLeu等都屬于基于報(bào)告離子的定量方法,報(bào)告基團(tuán)、平衡基團(tuán)和反應(yīng)基團(tuán)組合在一起形成標(biāo)記試劑。其中,報(bào)告基團(tuán)和平衡基團(tuán)有多種質(zhì)量,但是它們的質(zhì)量總和相等。因此,當(dāng)標(biāo)記試劑通過(guò)化學(xué)反應(yīng)與肽段連接后,不同樣品中相同蛋白質(zhì)所對(duì)應(yīng)的相同肽段的質(zhì)量是相等的。但在進(jìn)行二級(jí)譜分析時(shí),報(bào)告基團(tuán)會(huì)斷裂下來(lái)。因此,根據(jù)質(zhì)量不同的報(bào)告基團(tuán)的豐度,就可以對(duì)不同樣品中的蛋白質(zhì)進(jìn)行相對(duì)定量分析[21~24]。
IPTL方法采用蛋白內(nèi)切酶LysC消化蛋白質(zhì),生成C端為賴(lài)氨酸的肽段; 分別使用含有輕、重同位素的試劑對(duì)這些賴(lài)氨酸殘基進(jìn)行選擇性修飾; 進(jìn)一步在N端使用含有輕、重同位素的試劑對(duì)肽段進(jìn)行相反于C端的修飾,最終得到等質(zhì)量的肽段混合物。同時(shí)對(duì)這些肽段進(jìn)行質(zhì)譜分析,在進(jìn)行一級(jí)譜分析時(shí),由于肽段的質(zhì)量相同,不會(huì)增加樣本的復(fù)雜性。然而在處理二級(jí)譜的數(shù)據(jù)時(shí),則可利用成對(duì)的b、y離子進(jìn)行分析[9]。在AISA算法中,同時(shí)搜索成對(duì)離子與非成對(duì)離子的信息; 可以有更多的肽段被識(shí)別與利用,極大地改善了定量覆蓋度和定量結(jié)果的準(zhǔn)確度。
IPTL方法在很大程度上增加了二級(jí)譜中的定量信息。Matrix Science公司的Mascot搜索引擎,在處理非同位素標(biāo)記的肽段數(shù)據(jù)時(shí)可以獲得很好的匹配結(jié)果。但是由于Mascot在對(duì)肽段數(shù)據(jù)打分時(shí),會(huì)考慮匹配到的肽段的峰強(qiáng)度。從而使用IPTL方法取得的二級(jí)數(shù)據(jù)中,有大量因使用了同位素對(duì)稱(chēng)修飾而無(wú)法被Mascot匹配到的肽段存在,導(dǎo)致匹配到的肽段的相對(duì)峰強(qiáng)度降低,繼而影響了Mascot對(duì)相應(yīng)肽段的打分及鑒定結(jié)果[25]。
專(zhuān)門(mén)針對(duì)高分辨率串聯(lián)質(zhì)譜數(shù)據(jù)開(kāi)發(fā)的數(shù)據(jù)庫(kù)搜索軟件Morpheus在一定程度上解決了Mascot所遇到的困難。Morpheus使用如下算法來(lái)計(jì)算肽段圖譜匹配(Peptide spectrum matches,PSMs)的得分: 將二級(jí)譜中匹配的離子數(shù)量之和作為得分的整數(shù)部分,而所有匹配的離子對(duì)應(yīng)的圖譜豐度之和作為得分的小數(shù)部分。使用這種打分方式,雖然未被匹配的對(duì)稱(chēng)同位素標(biāo)記的肽段離子仍大量存在,但并不會(huì)對(duì)最終打分造成太大影響。由于對(duì)稱(chēng)同位素標(biāo)記的肽段離子信息未被有效利用,因此仍有部分肽段無(wú)法鑒定。如何有效利用這些信息,已成為一項(xiàng)新的需求。endprint
本研究專(zhuān)門(mén)針對(duì)IPTL方法的特點(diǎn),為利用IPTL方法得到的實(shí)驗(yàn)數(shù)據(jù)設(shè)計(jì)了一種新的打分算法: 全部離子打分算法(All ions scoring algorithm, AISA)。AISA在對(duì)使用IPTL方法得到的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行處理時(shí),可以同時(shí)得到定性和定量信息。通過(guò)對(duì)數(shù)據(jù)集進(jìn)行處理分析,發(fā)現(xiàn)AISA算法能得到比Mascot和Morpheus更多的鑒定結(jié)果,且在QExactive HeLa和humanHCCHL數(shù)據(jù)集上的蛋白定量覆蓋率分別達(dá)到99%和100%。
2 實(shí)驗(yàn)部分
2.1 儀器與試劑
利用Ultimate 3000色譜系統(tǒng)(美國(guó)Dionex公司)與QExactive質(zhì)譜儀(美國(guó)賽默飛世爾公司)構(gòu)建一維納升系統(tǒng)(1DnanoRPLCESIMS/MS); BioSpec Tissue Tearor組織勻漿儀(美國(guó)Biospec Products公司); CPX130超聲破碎儀(美國(guó)ColeParmer公司); CentriVap真空濃縮儀(美國(guó)LABCONCO公司)。
去除賴(lài)氨酸的DMEM培養(yǎng)基(美國(guó)Thermo公司); d(2),13C甲醛和d(0),12C甲醛(美國(guó)Cambridge Isotope公司); 蛋白內(nèi)切酶LysC(日本W(wǎng)AKO公司); 尿素、蛋白酶抑制劑、甲酸(FA)、甲醛(38%水溶液)和o甲基異脲(美國(guó)SigmaAldrich公司); 碘乙酰銨(IAA)和二硫蘇糖醇(DTT)(美國(guó)Acros公司); BCA法蛋白濃度測(cè)定試劑盒(中國(guó)碧云天生物科技研究所); 乙腈(ACN)(色譜純,德國(guó)Merck公司); 實(shí)驗(yàn)用水為經(jīng)過(guò)MilliQ系統(tǒng)(美國(guó)Millipore公司)處理的超純水; 其它試劑均至少為分析純。Daiso C18填料(5 μm,120 ,日本Daiso公司); 熔融石英毛細(xì)管(75 μm i.d. × 375 μm o.d.; 150 μm i.d. × 375 μm o.d.,中國(guó)鑫諾光纖色譜有限公司); 人肝癌高低轉(zhuǎn)移株細(xì)胞株由復(fù)旦大學(xué)劉銀坤教授惠贈(zèng)。
2.2 實(shí)驗(yàn)方法
2.2.1 HeLa細(xì)胞樣品的制備 HeLa細(xì)胞樣品參考文獻(xiàn)[26]的方法制備。首先是代謝標(biāo)記。先將HeLa細(xì)胞分為兩份,在37℃、5% CO2的環(huán)境下,分別使用加入13C6 L賴(lài)氨酸和12C6L賴(lài)氨酸的DMEM培養(yǎng)基進(jìn)行培養(yǎng),標(biāo)記為第一代。每5天傳代一次,每份樣品傳5代。培養(yǎng)好的細(xì)胞加入適量1×磷酸鹽緩沖生理鹽水(Phosphate buffered saline,PBS)清洗,用胰蛋白酶消化。細(xì)胞從培養(yǎng)皿上脫離后,加入含有血清的培養(yǎng)基終止消化,收集細(xì)胞懸液,離心,收集細(xì)胞。
蛋白的提取和酶解: 分別將收集所得的兩份細(xì)胞懸浮在裂解液(含8 mol/L尿素和1%(V/V)蛋白酶抑制劑)中, 10000 r/min勻漿1 min,然后在冰浴中超聲破碎100 s, 25000 r/min離心40 min,取上清待用,并用BCA試劑盒分別測(cè)定兩份蛋白濃度。提取得到的兩份蛋白分別溶解于50 mmol/L NaHCO3(pH 7.5), 在90℃下熱變性20min,冷卻至室溫后還原(10 mmol/L DTT,56℃,2 h)并烷基化(25 mmol/L IAA,室溫避光,40 min),隨后以酶/蛋白質(zhì)為1∶25 (w/w)的比例加入胞內(nèi)蛋白酶賴(lài)氨酸C,并在37℃水浴中反應(yīng)16 h。
肽段的等重標(biāo)記: 先將賴(lài)氨酸胍基化: 向肽段中加入40 μL 2 mol/L o甲基異脲(溶解于100 mmol/L NaHCO3),然后用2 mol/L NaOH調(diào)節(jié)至pH 11,并在37℃下孵育2 h,接著加入10%三氟乙酸(Trifluoroacetic Acid,TFA)調(diào)節(jié)至pH 8終止反應(yīng)。采用d(0)、12C甲醛和d(2)、13C甲醛分別還原代謝標(biāo)記中重標(biāo)和輕標(biāo)的肽段: 先向胍基化的兩份肽段中分別加入16 μL 0.6 mol/L氰基硼氫化鈉,然后在振蕩條件下向代謝標(biāo)記的重標(biāo)肽段中加入16 μL d(0)、12C甲醛溶液(4%,V/V),向代謝標(biāo)記的輕標(biāo)肽段中加入16 mL d(2)、 13C甲醛溶液(4%,V/V)。將它們分別在37℃下孵育1 h。將兩部分肽段1∶1(w/w)混合, 待用。
2.2.2 HeLa細(xì)胞樣品的2D LCMS/MS分析 對(duì)HeLa細(xì)胞樣品的2D LCMS/MS實(shí)驗(yàn)條件進(jìn)行優(yōu)化?;旌系碾亩问紫冗M(jìn)行高pH反相液相色譜分析,采用的分離體系由Agilent 1290 Infinity液相色譜系統(tǒng)(Santa Clara,CA,USA)結(jié)合ZORBAX ExtendedC18分離柱(50 mm×2.1 mm,1.8 μm,Agilent,USA)組成。流動(dòng)相為A: 25 mmol/L HCOONH4,pH 10; B: 25 mmol/L HCOONH4溶于90% (V/V)ACN,pH 10。洗脫梯度為: 0~40 min,20% B; 40~50 min,30% B; 50~60 min,80% B。每3 min收集1個(gè)餾分,共收集20個(gè)餾分。再將20個(gè)餾分以等間距的收集時(shí)間混合成10份,例如餾分1與餾分11混合,餾分10與餾分20混合。將最終得到的10個(gè)樣品真空干燥,重溶在1% 甲酸(FA)中,
80℃保存待用。
第二維色譜分離系統(tǒng)為基于QExactive和Ultimate 3000液相色譜系統(tǒng)結(jié)合構(gòu)建的nanoRPLCESIMS/MS分析系統(tǒng)。NanoRPLC的分離條件為: 流動(dòng)相A: 97.9% H2O+2% ACN+ 0.1% FA; 流動(dòng)相B: 97.9% ACN+2% H2O+0.1%FA; 首先用100% A在8 μL/min的流速下將樣品上樣到DaisoC18預(yù)柱(3 cm×150 μm i.d.)上,再在DaisoC18毛細(xì)管分離柱(15 cm×75 μm i.d.)上以350 nL/min的流速分離肽段,梯度洗脫程序?yàn)椋?0~60 min,20% B; 60~75 min, 30% B; 75~90 min, 80% B; 90~95 min,80% B。endprint
QExactive質(zhì)譜參數(shù)參考相關(guān)文獻(xiàn)的條件,優(yōu)經(jīng)化后的參數(shù)為: 正離子模式; 噴霧電壓為2.2 kV; MS掃描范圍為300~1850 amu,分辨率設(shè)為70,000,自動(dòng)增益控制(Automatic gain control,AGC)設(shè)為1000000,離子最大累積時(shí)間設(shè)為120 ms。12個(gè)最強(qiáng)的母離子用高能碰撞碎裂模式(Higherenergy collisional dissociation, HCD)進(jìn)行二級(jí)碎裂。MS/MS的分辨率設(shè)為35000,AGC設(shè)為500000,離子最大累積時(shí)間設(shè)為120 ms。動(dòng)態(tài)排除功能開(kāi)啟,母離子被選中一次即排除30 s,排除列表的大小為500。
2.2.3 人肝癌高低轉(zhuǎn)移細(xì)胞株的樣品制備 人肝癌高轉(zhuǎn)移細(xì)胞株(MHCC97H)和低轉(zhuǎn)移細(xì)胞株(MHCC97L)的樣品制備過(guò)程與HeLa細(xì)胞相同。高轉(zhuǎn)移細(xì)胞株在代謝標(biāo)記時(shí)采用重標(biāo)標(biāo)記賴(lài)氨酸,在化學(xué)標(biāo)記時(shí)采用輕標(biāo)標(biāo)記肽段的N末端; 低轉(zhuǎn)移細(xì)胞株在代謝標(biāo)記時(shí)采用輕標(biāo)標(biāo)記賴(lài)氨酸,在化學(xué)標(biāo)記時(shí)采用重標(biāo)標(biāo)記肽段的N末端。兩份肽段1∶1(V/V)混合備用。
2.2.4 人肝癌高低轉(zhuǎn)移細(xì)胞株樣品的2D LCMS/MS分析 HumanHCCH/L樣品的高pH分級(jí)實(shí)驗(yàn)流程與HeLa細(xì)胞一致。對(duì)10個(gè)餾分采用基于TripleTOF 5600+的nanoRPLCESIMS/MS系統(tǒng)進(jìn)行分析。優(yōu)化的nanoRPLC的分離條件為流動(dòng)相A: 97.9% H2O+2% ACN+0.1% FA; 流動(dòng)相B: 97.9% ACN+2% H2O+0.1% FA; 首先用100% A在4 μL/min的流速下將樣品上樣到DaisoC18預(yù)柱(3 cm ×150 μm i.d.),然后在DaisoC18毛細(xì)管分離柱(15 cm×75 μm i.d.)上以300 nL/min的流速以如下梯度分離肽段: 0~45 min,5% B; 45~60 min,22% B; 60~65 min,35% B; 65~70 min,80% B。
參考相關(guān)文獻(xiàn)的實(shí)驗(yàn)條件,經(jīng)優(yōu)化的TripleTOF 5600+的質(zhì)譜參數(shù)為: 質(zhì)譜分析在DDA的正離子模式下進(jìn)行; 噴霧電壓為2.6 kV; MS的掃描范圍為350~1250 amu,考慮的價(jià)態(tài)為+2~+5價(jià),cps>80,離子的累積時(shí)間0.25 s; 取最強(qiáng)的60個(gè)母離子做MS/MS碎裂,掃描范圍為100~1500 amu,離子的累積時(shí)間0.04 s; 動(dòng)態(tài)排除功能開(kāi)啟,母離子被選中一次就將其排除22 s。
2.2.5 數(shù)據(jù)庫(kù)搜索和搜庫(kù)結(jié)果的后處理 使用Morpheus和Mascot兩種數(shù)據(jù)庫(kù)搜索引擎與AISA算法進(jìn)行對(duì)照。測(cè)試數(shù)據(jù)集為QExactive HeLa 2D RPLC和humanHCCH/F。并針對(duì)humanHCCH/F數(shù)據(jù)集尋找差異蛋白。采用的數(shù)據(jù)庫(kù)為IPI human (版本3.87)。3種搜索算法均會(huì)在搜索前將數(shù)據(jù)庫(kù)轉(zhuǎn)換為正反庫(kù)的形式。
HumanHCCH/L樣品數(shù)據(jù)在Triple TOF 5600 plus質(zhì)譜儀上采集得到,其格式為.wiff。使用AB SCIEX MS Data Converter轉(zhuǎn)換為Mascot通用格式(Mascot Generic Format,MGF)文件。HeLa 2D RPLC樣品數(shù)據(jù)從QExactive質(zhì)譜儀采集得到,其格式為.raw。使用Proteome Discoverer轉(zhuǎn)換為MGF文件。然后使用前述3種搜索算法進(jìn)行搜庫(kù)。
搜庫(kù)時(shí)采用的通用參數(shù)如下: 酶切類(lèi)型設(shè)為蛋白內(nèi)切酶LysC特異性酶切; 允許最多2個(gè)漏切位點(diǎn); 可變修飾設(shè)為甲硫氨酸的氧化(+16 Da); 固定修飾設(shè)為賴(lài)氨酸的胍基化(+42 Da)和半胱氨酸的烷基化(+57 Da); 因?yàn)樵趯?shí)驗(yàn)結(jié)果存在干擾的情況下,被選取做二級(jí)檢測(cè)的母離子有可能是第一或第二同位素,而不是單同位素峰,所以,對(duì)于實(shí)驗(yàn)結(jié)果中的母離子質(zhì)量允許1或2 Da的單同位素質(zhì)量偏離。
非通用參數(shù)為: 對(duì)QExactive HeLa 2D RPLC數(shù)據(jù)集,一級(jí)和二級(jí)的質(zhì)量容忍度分別設(shè)置為20 ppm和0.01 Da; 對(duì)于HumanHCCH/L數(shù)據(jù)集,一級(jí)和二級(jí)的質(zhì)量容忍度分別設(shè)置為20 ppm和0.025 Da。在使用AISA算法搜索時(shí),需要設(shè)置2個(gè)可變修飾: 肽段N末端的重標(biāo)二甲基化(+34 Da)和賴(lài)氨酸的13C0輕標(biāo)。在使用Mascot或Morpheus搜索引擎時(shí),需要設(shè)置3個(gè)可變修飾: 肽段N末端的輕標(biāo)二甲基化(+28 Da)、肽段N末端的重標(biāo)二甲基化(+34 Da)和賴(lài)氨酸的13C6重標(biāo)。
所有搜索結(jié)果的PSM的錯(cuò)誤發(fā)現(xiàn)率(False discovery rate,F(xiàn)DR)控制在1%以下。根據(jù)來(lái)源于正序列和反序列的PSM計(jì)數(shù)對(duì)每個(gè)PSM計(jì)算q值,q≤1%,則接受。
3 結(jié)果與討論
3.1 AISA算法的設(shè)計(jì)與實(shí)現(xiàn)
AISA算法中首先根據(jù)母離子的質(zhì)量從蛋白質(zhì)數(shù)據(jù)庫(kù)中檢索候選肽段,并根據(jù)相應(yīng)的肽段序列生成理論的b離子和y離子,然后與實(shí)際的二級(jí)譜圖進(jìn)行匹配。將匹配到的離子總數(shù)加上這些匹配到的離子的峰強(qiáng)度之和占所有離子峰強(qiáng)度之和的比值,作為AISA算法對(duì)一個(gè)肽段的打分值。
AISA算法的實(shí)現(xiàn)以Morpheus的源程序?yàn)榛A(chǔ),添加了對(duì)Mascot通用格式(MGF)文件的讀取功能,并按照AISA算法重寫(xiě)了其打分函數(shù)。整個(gè)系統(tǒng)開(kāi)發(fā)在微軟Visual Studio Community 2015集成開(kāi)發(fā)環(huán)境下完成。
測(cè)試使用的數(shù)據(jù)集分別是HeLa細(xì)胞和人肝癌高低轉(zhuǎn)移細(xì)胞株。首先使用細(xì)胞培養(yǎng)氨基酸穩(wěn)定同位素標(biāo)記(Stable isotope labelling by amino acid in cell culture,SILAC)方法和化學(xué)標(biāo)記相結(jié)合對(duì)HeLa細(xì)胞進(jìn)行等質(zhì)量同位素標(biāo)記,1∶1(V/V)混合后用高pH反相液相色譜分級(jí),并用基于QExactive質(zhì)譜構(gòu)建的低pH RPLCMS/MS平臺(tái)進(jìn)行分析。使用相同方法對(duì)人肝癌高低轉(zhuǎn)移細(xì)胞株進(jìn)行處理,得到的數(shù)據(jù)分別命名為QExactive HeLa 2D RPLC和humanHCCH/L。endprint
3.2 不同算法對(duì)數(shù)據(jù)集的鑒定結(jié)果比較
使用AISA算法對(duì)QExactive HeLa 2D RPLC和humanHCCHL數(shù)據(jù)集進(jìn)行鑒定時(shí), PSM的FDR在1%以下。并與分別使用Mascot和Morpheus兩種搜庫(kù)方法所得到的鑒定結(jié)果進(jìn)行對(duì)比,其差異分別如圖 1和圖2所示,縱坐標(biāo)為3次平行實(shí)驗(yàn)所得鑒定數(shù)量的平均值,誤差線為3次平行實(shí)驗(yàn)所得鑒定數(shù)量的標(biāo)準(zhǔn)差。每個(gè)子圖中3個(gè)分組分別為鑒定到的PSM、唯一肽段數(shù)和蛋白質(zhì)數(shù)量。
從圖1和圖2可見(jiàn),對(duì)于兩個(gè)數(shù)據(jù)集,AISA算法鑒定所得的各項(xiàng)指標(biāo)均高于Mascot或Morpheus。在QExactive HeLa 2D RPLC數(shù)據(jù)集上,AISA算法鑒定到的PSM、唯一肽段和蛋白質(zhì)分別比Morpheus高15%、26%和22%。在HumanHCCHL數(shù)據(jù)集上,AISA算法鑒定到的PSM、唯一肽段和蛋白質(zhì)分別比Morpheus高24%、39%和27%。
之間,在QExactive HeLa 2D RPLC數(shù)據(jù)集和HumanHCCHL數(shù)據(jù)集上,分別僅有182個(gè)和74個(gè)蛋白質(zhì)的定量比值在此區(qū)間外,落在區(qū)間內(nèi)的蛋白質(zhì)定量比值分別約占總體的91%和94%。蛋白質(zhì)定量比值的平均值在QExactive HeLa 2D RPLC數(shù)據(jù)集和humanHCCHL數(shù)據(jù)集上分別為1.18和0.90,均接近1,說(shuō)明AISA算法的定量準(zhǔn)確度非常好。在錯(cuò)誤發(fā)現(xiàn)率<1%的條件下,AISA算法的打分最低值為16.1008,即每個(gè)鑒定到的PSM中至少含有16個(gè)碎片離子信息。由于所有鑒定到的PSM都有定量信息,使得算法的定量覆蓋率達(dá)到了100%。在此基礎(chǔ)上,因每個(gè)二級(jí)譜都包含不只一個(gè)定量比值,定量分析的準(zhǔn)確度也得到了較大提升。
4 結(jié) 論
本研究設(shè)計(jì)的AISA算法可以對(duì)基于IPTL策略的實(shí)驗(yàn)鑒定出比已有的商品化軟件Mascot和開(kāi)源Morpheus軟件更多的蛋白質(zhì)信息,同時(shí)通過(guò)識(shí)別成對(duì)出現(xiàn)的碎片離子強(qiáng)度,可以實(shí)現(xiàn)對(duì)IPTL策略數(shù)據(jù)的定量分析,定量覆蓋率在QExactive HeLa和HumanHCCHL數(shù)據(jù)集中分別達(dá)到了99%和100%。此功能將極大地拓寬其在相關(guān)領(lǐng)域的應(yīng)用空間,使得對(duì)于復(fù)雜蛋白質(zhì)組體系中特定蛋白質(zhì)的定性與定量分析可同時(shí)完成,在蛋白質(zhì)組學(xué)研究、疾病標(biāo)志物的篩選等方面有著重要的潛在應(yīng)用價(jià)值。endprint