劉扣龍 鄭浩然
近年來(lái)隨著質(zhì)譜技術(shù)的發(fā)展,以及儀器精度的提高,主要采用液相色譜-串聯(lián)質(zhì)譜技術(shù)(liquid chromatography-tandem mass spectrometry,LC-MS/MS)對(duì)大規(guī)模蛋白質(zhì)組進(jìn)行分析[1]。蛋白質(zhì)組數(shù)據(jù)采集策略主要有兩種,一種是數(shù)據(jù)依賴(lài)性采集(data dependent acquisition,DDA)[2],另一種是數(shù)據(jù)非依賴(lài)性采集(data independent acquisition,DIA)[3]。在DIA中,將質(zhì)譜整個(gè)掃描范圍分為若干個(gè)窗口,循環(huán)地對(duì)每個(gè)窗口中的所有離子進(jìn)行碎裂,而不是選擇具有特定質(zhì)荷比的離子,具有高通量、可重復(fù)性高的優(yōu)點(diǎn)[4]。但采用DIA方法進(jìn)行碎裂,會(huì)導(dǎo)致二級(jí)質(zhì)譜是由多個(gè)母離子同時(shí)碎裂產(chǎn)生的混合質(zhì)譜,母離子與碎裂子離子之間不存在對(duì)應(yīng)關(guān)系,顯著增加了肽段定性和定量的復(fù)雜度。
目前在DIA數(shù)據(jù)的蛋白質(zhì)組分析中,主要都是基于提取離子色譜圖(extracted ion chromatogram,XIC)的方法[5]。例如,OpenSWATH[6]通過(guò)集成各種軟件工具來(lái)輔助DIA分析,提取目標(biāo)肽的色譜圖,對(duì)碎片離子的共洗脫峰進(jìn)行評(píng)分,最后進(jìn)行統(tǒng)計(jì)分析,其在數(shù)據(jù)處理方面較繁瑣。Wang等[7-8]計(jì)算了實(shí)驗(yàn)質(zhì)譜與理論質(zhì)譜之間的余弦相似度,針對(duì)兩個(gè)肽段構(gòu)成的混合質(zhì)譜的情況進(jìn)行求解,并給出非混合質(zhì)譜與混合質(zhì)譜的區(qū)分方法,提高了搜索質(zhì)譜庫(kù)的靈敏度。MSPLIT-DIA[9]計(jì)算歸一化點(diǎn)積,作為圖譜之間的相似度,結(jié)合色譜峰形、保留時(shí)間等相關(guān)特征來(lái)鑒定肽段。Specter[10]是在上述工作上進(jìn)行了擴(kuò)展,將DIA中混合二級(jí)質(zhì)譜的強(qiáng)度看作是不同肽段碎片離子強(qiáng)度的線性疊加,將混合二級(jí)質(zhì)譜和匹配到的肽段質(zhì)譜進(jìn)行線性擬合,再將求解的肽段系數(shù)構(gòu)建色譜峰,提取峰特征,可以準(zhǔn)確地鑒定出相應(yīng)的肽段并進(jìn)行定量分析,但線性求解過(guò)程中并不能完全擬合,存在很多誤差。使用神經(jīng)網(wǎng)絡(luò)提高定性效果的研究,例如DIA-NN[11]在定性時(shí)先構(gòu)建色譜峰,提取色譜峰相關(guān)的特征,用神經(jīng)網(wǎng)絡(luò)迭代尋找最佳的洗脫峰,從而獲取定性結(jié)果;定量時(shí)使用洗脫峰的積分結(jié)果,再進(jìn)行校正處理,增加了定性和定量的肽段數(shù)量。但該方法在定性和定量時(shí)依然基于離子色譜圖的方式,流程復(fù)雜,結(jié)果會(huì)受到色譜圖復(fù)雜度和色譜時(shí)間的影響。FIGS[12]利用不同肽段質(zhì)譜中特有的峰對(duì)混合二級(jí)質(zhì)譜進(jìn)行線性擬合,迭代求解每個(gè)肽段的系數(shù),再構(gòu)建色譜峰,進(jìn)行定性和定量,顯著提高了肽段定性和定量的準(zhǔn)確度,但該方法同樣存在求解時(shí)不能完全擬合,以及構(gòu)建色譜峰時(shí)存在誤差等問(wèn)題。
這些基于離子色譜圖的方法都需要構(gòu)建離子色譜峰,經(jīng)過(guò)特征提取、積分等操作,會(huì)受到色譜維度的影響。色譜復(fù)雜度不同會(huì)對(duì)離子匹配和構(gòu)建出的色譜峰形產(chǎn)生影響;而色譜時(shí)間的長(zhǎng)度和偏移會(huì)對(duì)離子間的色譜峰相關(guān)性產(chǎn)生影響,這些復(fù)雜流程中存在很多誤差,導(dǎo)致定性和定量結(jié)果不準(zhǔn)確。針對(duì)該方法存在的問(wèn)題,課題組沒(méi)有使用色譜維度的信息,不需要構(gòu)建離子色譜峰,結(jié)合深度學(xué)習(xí)在分類(lèi)和預(yù)測(cè)問(wèn)題上的優(yōu)勢(shì),提出了基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的定性和定量模型,通過(guò)二分類(lèi)和回歸預(yù)測(cè)的方式,直接獲取肽段的定性和定量結(jié)果,從而在減少色譜維度信息影響的同時(shí),有效地進(jìn)行蛋白質(zhì)組分析。
混合二級(jí)質(zhì)譜和肽段的質(zhì)譜數(shù)據(jù)特征如圖1所示,橫軸為m/z,縱軸為峰強(qiáng)度。將肽段對(duì)應(yīng)的質(zhì)譜峰強(qiáng)度,轉(zhuǎn)換成一維向量形式,同時(shí)將肽段和多個(gè)混合二級(jí)質(zhì)譜進(jìn)行峰匹配,將匹配后的峰強(qiáng)度轉(zhuǎn)換成多個(gè)一維向量形式,然后,經(jīng)過(guò)預(yù)處理和特征提取后輸入到CNN中。
圖1 質(zhì)譜數(shù)據(jù)示意圖Figure 1 Schematic diagram of mass spectrometry data
對(duì)于質(zhì)譜庫(kù)中的每個(gè)肽段母離子,記為L(zhǎng)ibi,在不同掃描時(shí)間點(diǎn),都可能參與構(gòu)成其所在掃描窗口對(duì)應(yīng)的每個(gè)混合二級(jí)質(zhì)譜,為了找到和Libi最相關(guān)的混合二級(jí)質(zhì)譜,采用兩個(gè)條件進(jìn)行過(guò)濾。
(1) 對(duì)于Libi的每個(gè)峰對(duì)應(yīng)的m/z值,匹配掃描窗口內(nèi)的每個(gè)混合二級(jí)質(zhì)譜,找到有峰重合的,并且重合數(shù)量大于5個(gè)的混合二級(jí)質(zhì)譜,僅保留混合二級(jí)質(zhì)譜中與Libi重合的峰。
(2) 將過(guò)濾后的每個(gè)混合二級(jí)質(zhì)譜,計(jì)算其和Libi的相關(guān)度,保留相關(guān)度最高的s個(gè)混合二級(jí)質(zhì)譜(不夠s個(gè)則用0填充)。使用2個(gè)信息進(jìn)行相關(guān)度計(jì)算。
第1個(gè)信息:計(jì)算Libi和匹配到的混合二級(jí)質(zhì)譜的相似度。每個(gè)肽段母離子對(duì)應(yīng)質(zhì)譜的峰強(qiáng)度經(jīng)過(guò)歸一化(強(qiáng)度和為1),先對(duì)匹配到的混合二級(jí)質(zhì)譜的峰強(qiáng)度做同樣的歸一化,記為MS2k。這樣二者的峰強(qiáng)度就都處于0到1之間了。理論上,對(duì)于其中一個(gè)混合二級(jí)質(zhì)譜MS2k,如果完全由肽段母離子Libi碎裂形成,即沒(méi)有其他肽段母離子的成分,則MS2k和Libi對(duì)應(yīng)m/z位置的歸一化后的峰強(qiáng)度應(yīng)該相同。所以計(jì)算Libi和MS2k的質(zhì)譜峰強(qiáng)度差的絕對(duì)值,然后求和作為二者間的距離,即:
(1)
第2個(gè)信息:肽段母離子Libi和匹配到的混合二級(jí)質(zhì)譜MS2k,理論上二者越相關(guān),即如果該混合二級(jí)質(zhì)譜MS2k完全由肽段母離子Libi碎裂形成,則MS2k中和Libi對(duì)應(yīng)的峰的強(qiáng)度之和應(yīng)該越大。所以計(jì)算MS2k中和Libi對(duì)應(yīng)的質(zhì)譜峰的強(qiáng)度之和,作為二者間的距離,即:
(2)
為了同時(shí)使用這2個(gè)信息,對(duì)第2個(gè)信息進(jìn)行處理,把Libi匹配到的混合二級(jí)質(zhì)譜計(jì)算得到的PeakSum,除以其中的最大值,這樣范圍處于0到1之間,與第1個(gè)信息的量級(jí)一樣,然后取負(fù)值和第1個(gè)信息相加。這樣得到的值越小,說(shuō)明肽段母離子Libi和混合二級(jí)質(zhì)譜MS2k越相關(guān)。最后選擇最相關(guān)的s個(gè)混合二級(jí)質(zhì)譜保留下來(lái)。
肽段定性需要使用前面預(yù)處理后的數(shù)據(jù),利用肽段母離子的質(zhì)譜和該肽段匹配到的混合二級(jí)質(zhì)譜來(lái)判定該肽段母離子是否在實(shí)驗(yàn)樣品中。設(shè)計(jì)1個(gè)基于CNN的二分類(lèi)模型,若肽段屬于該樣品,則模型輸出的分?jǐn)?shù)接近于1,否則接近于0。這里采用CNN模型,是考慮到輸入的質(zhì)譜數(shù)據(jù)類(lèi)似于彩色圖片的多通道,并且相鄰質(zhì)譜峰之間存在相關(guān)性。而傳統(tǒng)的機(jī)器學(xué)習(xí)模型需要提取大量相關(guān)的特征,并且會(huì)損失原始數(shù)據(jù)的信息,所以使用CNN,可以更好地提取深度特征。
利用前面預(yù)處理后的數(shù)據(jù),進(jìn)行特征提取。主要提取了2個(gè)特征,與預(yù)處理的相似度類(lèi)似,但提取的是m/z維度的特征,沒(méi)有構(gòu)建色譜峰特征。
(1) 計(jì)算肽段匹配到的混合二級(jí)質(zhì)譜的m/z維度的峰強(qiáng)度的和,即將這些匹配到的混合二級(jí)質(zhì)譜合并為1個(gè)。
(3)
式中:s表示Libi匹配到的混合二級(jí)質(zhì)譜的個(gè)數(shù);j表示Libi和MS2k對(duì)應(yīng)的第j個(gè)峰。
(2) 計(jì)算Libi和MS2k的質(zhì)譜峰強(qiáng)度差的絕對(duì)值。
(4)
模型結(jié)構(gòu)如圖2所示,首先將提取的特征輸入到CNN中去,再將提取的深度特征拼接到一起,然后經(jīng)過(guò)全連接層處理,最后經(jīng)過(guò)Sigmoid函數(shù),獲取分類(lèi)屬于正樣本的概率。使用二元交叉熵作為損失函數(shù):
Loss=-[ylog2p+(1-y)log2(1-p)]
(5)
式中:y為真實(shí)標(biāo)簽,值為0或1;p為預(yù)測(cè)值,范圍是(0,1)。
網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)如表1所示。卷積層的輸出維度為:[batch size,卷積核個(gè)數(shù),峰個(gè)數(shù)],卷積層的參數(shù)個(gè)數(shù)等于卷積核的個(gè)數(shù)乘以核的大小。使用Adam算法優(yōu)化網(wǎng)絡(luò)參數(shù)。
表1 定性模型網(wǎng)絡(luò)參數(shù)Table 1 Network parameters of qualitative model
定量模型的流程和定性模型類(lèi)似,但是每一步的處理方式不同。肽段定量同樣利用前面預(yù)處理后的數(shù)據(jù),這里不對(duì)該數(shù)據(jù)做其他處理,使用原始數(shù)據(jù)不會(huì)損失任何重要的信息,這樣能保證定量預(yù)測(cè)結(jié)果的準(zhǔn)確性。設(shè)計(jì)一個(gè)基于CNN的回歸模型,直接預(yù)測(cè)輸出該肽段的定量值。
模型結(jié)構(gòu)如圖3所示,將肽段質(zhì)譜和預(yù)處理后匹配到的混合二級(jí)質(zhì)譜分別輸入到CNN中去,將提取的特征拼接到一起,再經(jīng)過(guò)第二層CNN和全連接層處理,最后輸出一個(gè)值,作為肽段的定量值。使用均方誤差作為損失函數(shù),即:
(6)
圖2 深度學(xué)習(xí)定性模型結(jié)構(gòu)圖Figure 2 Structure diagram of deep learning qualitative model
圖3 深度學(xué)習(xí)定量模型結(jié)構(gòu)圖Figure 3 Structure diagram of deep learning quantitative model
式中:y為肽段的定量值;y′i為預(yù)測(cè)值。
網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)如表2所示,表示方法與前面的定性模型相同。
表2 定量模型網(wǎng)絡(luò)參數(shù)Table 2 Network parameters of quantitative model
在LFQbench[13]論文中提供了很多DIA質(zhì)譜數(shù)據(jù)集,是專(zhuān)門(mén)用來(lái)評(píng)估蛋白質(zhì)組定性和定量準(zhǔn)確度而做的實(shí)驗(yàn)數(shù)據(jù)集。質(zhì)譜數(shù)據(jù)由3個(gè)物種的蛋白質(zhì)酶解后的肽段,以2種比例分別混合后各進(jìn)行3次重復(fù)SWATH-DIA[14]實(shí)驗(yàn)采集得到(人類(lèi):[1∶1];酵母:[2∶1];大腸桿菌:[1∶4])。在不同窗口和儀器上進(jìn)行實(shí)驗(yàn),得到不同的質(zhì)譜數(shù)據(jù)。選擇其中一個(gè)固定窗口的數(shù)據(jù)作為訓(xùn)練集,另一個(gè)可變窗口的數(shù)據(jù)作為測(cè)試集。
為了獲取訓(xùn)練數(shù)據(jù)集的標(biāo)簽,使用蛋白質(zhì)組定性和定量準(zhǔn)確度比較高的方法FIGS[12],在訓(xùn)練集上計(jì)算得到定性和定量結(jié)果。對(duì)于定性模型,將FIGS定性到的肽段作為正樣本,將生成的decoy庫(kù)中的肽段作為負(fù)樣本(decoy庫(kù)中的質(zhì)譜不真實(shí)存在,用來(lái)混淆target庫(kù)中的質(zhì)譜,采用母離子交換-離子峰偏移的方式生成decoy[15])。對(duì)于定量模型,將FIGS得到的定量結(jié)果,選擇比較可靠且準(zhǔn)確的定量值作為訓(xùn)練目標(biāo)。使用LFQbench[13]論文中采用的定量精度評(píng)估指標(biāo)進(jìn)行過(guò)濾,即先使用3次重復(fù)實(shí)驗(yàn)的定量值計(jì)算變異系數(shù)(coefficient of variation,cv),再使用cv<0.1過(guò)濾,選擇A樣品和B樣品中肽段定量比值比較好的結(jié)果。
在肽段定性研究中,為了獲取比較可靠的定性肽段,需要同時(shí)對(duì)decoy庫(kù)中的肽段進(jìn)行定性,通過(guò)控制錯(cuò)誤發(fā)現(xiàn)率(false discovery rate,FDR)來(lái)獲取最終定性到的肽段。使用深度學(xué)習(xí)定性模型在訓(xùn)練集上優(yōu)化網(wǎng)絡(luò)參數(shù)后,對(duì)測(cè)試集進(jìn)行預(yù)測(cè)。target和decoy庫(kù)中的每個(gè)肽段都會(huì)預(yù)測(cè)得到一個(gè)概率分?jǐn)?shù),然后計(jì)算FDR使其小于0.01。
為了驗(yàn)證模型的準(zhǔn)確性,將模型最終定性到的肽段和FIGS定性到的肽段進(jìn)行對(duì)比,如圖4所示??梢钥吹剑瑑煞N方法定性到的肽段的交集數(shù)量為27 788,占深度學(xué)習(xí)定性肽段的比例為27 788/28 354=98.00%。這說(shuō)明深度學(xué)習(xí)模型的定性結(jié)果比較可靠。
圖4 定性結(jié)果對(duì)比Figure 4 Comparison of qualitative results
同時(shí),統(tǒng)計(jì)兩種方法在6個(gè)樣品中均定性到的肽段。FIGS定性交集為18 294個(gè)肽段,占總量的比例為18 294/40 978=44.64%;深度學(xué)習(xí)定性交集為13 680個(gè)肽段,占總量的比例為13 680/28 354=48.25%。統(tǒng)計(jì)FIGS在6個(gè)樣品中定性重復(fù)率均值為0.578 6;深度學(xué)習(xí)在6個(gè)樣品中定性重復(fù)率均值為0.662 9。說(shuō)明深度學(xué)習(xí)在定性上的重復(fù)性很好,因此定性準(zhǔn)確度較高。
在肽段定量研究中,為了證明定量方法的準(zhǔn)確性和可靠性,通常對(duì)重復(fù)實(shí)驗(yàn)的數(shù)據(jù)集和不同比例混合肽段進(jìn)行定量,查看比值結(jié)果。目前還沒(méi)有基于CNN利用DIA色譜信息直接進(jìn)行肽段定量的研究工作,而FIGS論文使用肽段特有的離子構(gòu)建色譜峰,該方法的定量準(zhǔn)確度很高。所以為了評(píng)估深度學(xué)習(xí)定量模型的效果,使用深度學(xué)習(xí)模型和FIGS在測(cè)試集上分別進(jìn)行定量。測(cè)試集一共有6個(gè)文件,包括A樣本和B樣本的3次重復(fù)實(shí)驗(yàn)。先獲取A樣本和B樣本3次重復(fù)實(shí)驗(yàn)均定性到的肽段的定量值,計(jì)算cv,保留cv<0.1的肽段,然后取均值作為該肽段的定量值。再計(jì)算A樣本和B樣本中同時(shí)出現(xiàn)的肽段的定量值比值,然后與FIGS進(jìn)行對(duì)比,如圖5所示。
圖5 定量結(jié)果對(duì)比Figure 5 Comparison of quantitative results
FIGS在其論文中與主流DIA定量軟件進(jìn)行了準(zhǔn)確度對(duì)比,包括Skyline[16]、OpenSWATH[6]、Spectronaut[17]、DIA-Umpire[18]和 Specter[10]。采用計(jì)算絕對(duì)中位差(median absolute deviation,MAD)的方式對(duì)比準(zhǔn)確度,效果明顯優(yōu)于主流軟件。本文采用同樣的方式與FIGS進(jìn)行對(duì)比,將肽段在B樣品中的豐度等分為3部分,計(jì)算MAD。如圖5(a)所示,本文的深度學(xué)習(xí)模型與FIGS相比在定量準(zhǔn)確度上基本相當(dāng)。在圖5(b)和圖5(c)中繪制了肽段在A樣品和B樣品中的定量值的比值,虛線代表理論比值。從圖5(b)和圖5(c)中可以看到,深度學(xué)習(xí)模型定量準(zhǔn)確度高的肽段的數(shù)量比FIGS明顯增多,提高了19.33%[(5 290-4 433)/4 433]。說(shuō)明與FIGS相比,深度學(xué)習(xí)能夠提高不同豐度下的肽段定量數(shù)量。
由于DIA數(shù)據(jù)是多個(gè)肽段同時(shí)碎裂產(chǎn)生的混合二級(jí)質(zhì)譜,比較復(fù)雜,給肽段定性和定量帶來(lái)了困難。目前主要基于提取離子色譜圖的方法進(jìn)行定性和定量,但這種方法流程復(fù)雜,中間存在誤差,色譜圖復(fù)雜度和色譜時(shí)間的不同會(huì)導(dǎo)致定性和定量結(jié)果不準(zhǔn)確。針對(duì)該方法存在的問(wèn)題,本文提出了一種新的肽段定性和定量方法,沒(méi)有使用色譜維度的信息。利用兩個(gè)基于CNN的深度學(xué)習(xí)模型(一個(gè)通過(guò)二分類(lèi)的方式進(jìn)行定性,另一個(gè)通過(guò)回歸預(yù)測(cè)的方式進(jìn)行定量),不需要構(gòu)建色譜峰,也沒(méi)有提取色譜峰相關(guān)的特征,從而減小復(fù)雜流程中存在的誤差,不受色譜相關(guān)因素的影響。本研究在公開(kāi)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),與FIGS對(duì)比表明,本文的模型能夠提高定性的準(zhǔn)確度,經(jīng)過(guò)cv過(guò)濾后,絕對(duì)中位差指標(biāo)與FIGS相當(dāng)?shù)耐瑫r(shí),能夠顯著提高肽段定量的數(shù)量,比FIGS提高了約19%,可以有效地對(duì)肽段進(jìn)行定性和定量。
本研究目前在公開(kāi)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),結(jié)果表明了方法的有效性,但沒(méi)有在更廣泛的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),因此本研究存在一定的局限性,需要對(duì)模型的泛化能力進(jìn)一步測(cè)試研究。
在未來(lái)的工作中,課題組將進(jìn)一步提高深度學(xué)習(xí)定性和定量模型的準(zhǔn)確度,同時(shí)擴(kuò)展模型的適用性場(chǎng)景,解決更廣泛的蛋白質(zhì)組定性和定量問(wèn)題。