哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計學(xué)教研室(150081)
張 薇 張秋菊 王玉鵬 謝 彪 孫 琳 高 兵 葉 倩 田 偉 侯小文 劉美娜△
【提 要】 目的 探索基于壓縮感知理論變量篩選方法在小樣本量蛋白質(zhì)組學(xué)研究中應(yīng)用的效果和特點,為小樣本量的蛋白質(zhì)組學(xué)的變量篩選提供更靈敏、可靠的方法。方法 模擬實驗比較基于CS理論的變量篩選方法與偏最小二乘(PLS)及隨機森林(RF)篩選變量的能力,通過靈敏度、特異度及平衡準(zhǔn)確度評價其變量篩選效果;利用CS變量篩選方法篩選非小細(xì)胞肺癌兩亞型組(腺癌和鱗狀細(xì)胞癌)的差異蛋白。結(jié)果 模擬實驗表明,CS理論的變量篩選方法在樣本量較小時具有較好的變量篩選效果,靈敏度、特異度及平衡準(zhǔn)確度均較高;利用基于CS理論的變量篩選方法篩選,獲得肺腺癌和鱗狀細(xì)胞癌間差異表達(dá)蛋白22種,被證明是肺腺癌和鱗狀細(xì)胞癌間有差異的蛋白為:Cytokeratin 6A、Cytokeratin 6B、Cytokeratin 6C、PKP1、P63、MCT1。結(jié)論 基于CS理論的變量篩選方法在樣本量特別少時,篩選變量的效果優(yōu)于PLS和RF,更適用于小樣本蛋白質(zhì)組學(xué)數(shù)據(jù)變量篩選研究。
目前使用的蛋白質(zhì)組學(xué)定量技術(shù)多以質(zhì)譜為基礎(chǔ),主要分成兩類:第一種是穩(wěn)定同位素標(biāo)記的定量蛋白質(zhì)組學(xué)(如iTRAQ、TMT);第二種是非標(biāo)記的定量蛋白質(zhì)組學(xué)技術(shù)即label-free。通過質(zhì)譜技術(shù)獲得高維的蛋白質(zhì)組學(xué)數(shù)據(jù),可利用單變量或多變量等統(tǒng)計學(xué)分析方法篩選患者和健康對照之間的差異蛋白質(zhì)。由于蛋白質(zhì)之間的相互作用,單變量特征篩選方法(如t檢驗、ANOVA等)會忽略變量之間的相關(guān)性,損失重要的生物學(xué)信息,同時存在多重比較問題;目前常用的多變量特征篩選方法有偏最小二乘(PLS)、隨機森林(RF)等,能夠考慮到變量之間的多重相關(guān)性,但蛋白質(zhì)組學(xué)的檢測費用昂貴,尤其是當(dāng)研究某些罕見疾病時,樣本量通常很小 (有時樣本量不足10),此時PLS、RF等方法篩選差異變量的能力可能受到限制[1]。因此本研究介紹一種基于壓縮感知(compressive sensing,CS)理論變量篩選方法,通過模擬實驗,比較基于CS的變量篩選方法和PLS、RF在小樣本蛋白質(zhì)組學(xué)數(shù)據(jù)變量篩選研究中的效果;并將該方法應(yīng)用于實際數(shù)據(jù),進(jìn)行肺腺癌和鱗狀細(xì)胞癌差異蛋白篩選。
1.CS理論簡介
Candés和Donoho在相關(guān)研究的基礎(chǔ)上于2006年正式提出了壓縮感知的概念,為信號采集技術(shù)帶來了革命性的突破[2]。CS理論的主要原理是只要信號在某個變換域是稀疏的,就可以用一個與變換基無關(guān)的測量矩陣將稀疏的高維變換域信號投影到低維空間,通過優(yōu)化求解從低維空間以高概率重構(gòu)出原信號,極大地降低了存儲空間和計算復(fù)雜度。
CS理論將信號采樣與壓縮相結(jié)合,在信號處理領(lǐng)域應(yīng)用廣泛。Wang A等人將可配置的節(jié)能壓縮感知結(jié)構(gòu)應(yīng)用于人體傳感網(wǎng)絡(luò),解決了人體傳感網(wǎng)絡(luò)應(yīng)用中無線電通訊部分耗能大的問題[3];在雷達(dá)信號處理方面,Tivive FHC等人提出了一種基于多重測量向量壓縮感知模型的復(fù)值信號壓縮感知方法,并將其應(yīng)用于壓縮傳感穿墻雷達(dá)成像問題[4];在醫(yī)學(xué)上壓縮感知理論用于核磁共振成像,降低噪聲信號干擾[5],也用于CT斷層掃描以縮短掃描時間,降低輻射劑量[6]。
2.基于CS理論的變量篩選方法
(1)基于CS理論變量篩選的基本思想
CS的主要思想是從線性測量y=Aω中重構(gòu)未知向量ω,在高維蛋白質(zhì)組學(xué)中,A∈Rn×d是由包含n個樣本和d個變量的高維蛋白質(zhì)組學(xué)質(zhì)譜數(shù)據(jù)構(gòu)成的測量矩陣,y∈Rn為由n個樣本的應(yīng)變量測量值組成的向量,通過測量矩陣A和測量值y重構(gòu)向量ω。
現(xiàn)階段CS的重構(gòu)算法大致可以分為以下幾類:第一類是貪婪迭代算法,該類算法基本原則就是通過迭代的方式尋找稀疏向量的支撐集,并使用受限支撐最小二乘估計來重構(gòu)信號,計算速度快但是需要的測量數(shù)據(jù)多且精度低;第二類是凸優(yōu)化算法,這類方法通過將非凸問題轉(zhuǎn)化為凸問題求解找到信號的逼近,其中最常用的方法為基追蹤算法,該類算法計算速度慢,但需要的測量數(shù)據(jù)少且精度高;第三類算法是基于貝葉斯框架提出的重構(gòu)算法,該類算法考慮到了信號的時間相關(guān)性,特別是當(dāng)信號具有較強的時間相關(guān)性時,能夠提供比其他重構(gòu)算法更優(yōu)越的重構(gòu)精度[7]。本研究的目的是利用CS理論篩選兩組之間差異表達(dá)的蛋白質(zhì),未涉及時間相關(guān)性問題,且蛋白質(zhì)組學(xué)研究中樣本量通常是非常小的,所以選擇凸優(yōu)化基追蹤算法作為本研究的CS重構(gòu)方法。
CS方法的先驗信息是假設(shè)向量ω是稀疏的,即其中大部分元素值為0,或者特別小,當(dāng)樣本量n遠(yuǎn)小于變量數(shù)d時,用基追蹤方法求y=Aω的最稀疏解ω:
(1)
隨著CS及其相關(guān)領(lǐng)域研究的發(fā)展,新的算法如核范數(shù)最小化、1-bit壓縮感知等相繼被提出,這些方法在理論研究和真實數(shù)據(jù)研究方面效果都非常好。其中1-bit壓縮感知將測量值y進(jìn)行分類化,研究應(yīng)變量為二分類的問題,只保留其符號信息:
yi=sign(〈ai,ω〉),i=1,…,n
(2)
其中a1,…,an∈Rd是測量矩陣A∈Rn×d每一個樣本的各變量值組成的向量。
(2)基于CS理論篩選變量的步驟
原始數(shù)據(jù)的樣本量為n,每個樣本預(yù)處理后蛋白質(zhì)組學(xué)質(zhì)譜數(shù)據(jù)xi∈Rd,i=1,…,n由其d個變量相應(yīng)的強度值組成的向量進(jìn)行歸一化、平滑化及標(biāo)準(zhǔn)化得到,已知每個樣本的分類標(biāo)簽yi∈{-1,+1},i=1,…,n?;贑S的變量篩選方法實際上就是要重構(gòu)出能夠?qū)山M正確分開的稀疏向量ω,并找到其中非零元素所在位置的集合。
①對原始質(zhì)譜數(shù)據(jù)進(jìn)行預(yù)處理,包括歸一化、平滑化及標(biāo)準(zhǔn)化,得到預(yù)處理后蛋白質(zhì)組學(xué)數(shù)據(jù)xi∈Rd,i=1,…,n;
(3)
上述過程可以用Matlab軟件實現(xiàn)。
構(gòu)建具有相關(guān)性的差異變量,加入一定數(shù)目的噪聲變量,設(shè)置不同的樣本數(shù),考察基于壓縮感知理論變量篩選方法的篩選效果,同時與常用方法PLS及RF進(jìn)行比較,因為這兩種方法是目前高維組學(xué)進(jìn)行變量篩選常用的方法,篩選出的變量有重要性排序[8],在與本研究的變量篩選方法利用平衡準(zhǔn)確度比較篩選變量的效果時更有可比性。
1.模擬實驗條件設(shè)置
設(shè)置模擬數(shù)據(jù)的總樣本數(shù)分別為N=6,8,10,12,18,24,30,病例組和對照組的樣本量相等;樣本中總變量數(shù)為1000,差異變量比例設(shè)為3%、5%、8%、10%;變量之間的相關(guān)性設(shè)為0.2、0.4、0.6、0.8。不同差異變量比例及變量之間相關(guān)性進(jìn)行組合,抽取符合多元正態(tài)分布的數(shù)據(jù)組成模擬數(shù)據(jù),每種情況重復(fù)100次,分別利用基于CS的變量篩選方法、PLS和RF進(jìn)行變量篩選,計算每種方法在各種差異變量比例與變量相關(guān)性組合的情況下篩選變量的平均平衡準(zhǔn)確度(平衡準(zhǔn)確度=(靈敏度+特異度)/2)。
2.模擬實驗結(jié)果
不同差異變量比例與相關(guān)系數(shù)的組合有很多,以p=50為例,不同相關(guān)系數(shù)條件下三種方法篩選變量的效果比較(圖1)和以r=0.4為例,不同差異變量比例條件下三種方法篩選變量的效果比較(圖2)如圖所示。結(jié)果顯示:在樣本量較小時,基于CS理論的變量篩選方法篩選變量的效果均為三種方法中最優(yōu),其次為PLS,RF最差,不同差異變量比例以及相關(guān)系數(shù)條件下均得到同樣結(jié)果;尤其是當(dāng)樣本量N≤12時,基于CS理論的變量篩選方法優(yōu)勢更為明顯;隨著樣本量增加,其變量篩選效果與PLS越來越接近。
圖1 p=50為例,不同相關(guān)系數(shù)條件下三種方法篩選變量的效果比較
圖2 r=0.4為例,不同差異變量比例條件下三種方法篩選變量的效果比較
實例數(shù)據(jù)分析中,使用的是ProteomeXchange數(shù)據(jù)庫中的PXD002622數(shù)據(jù)集,用于非小細(xì)胞肺癌的兩種亞型(腺癌和鱗狀細(xì)胞癌)間的差異蛋白質(zhì)篩選研究。其中腺癌(ADC)和鱗狀細(xì)胞癌(SCC)患者各3例,采集患者組織學(xué)樣本,利用TMT標(biāo)記定量蛋白質(zhì)組學(xué)技術(shù)及MaxQuant軟件,鑒定出51001個多肽和7241個蛋白質(zhì)。將基于CS理論的變量篩選方法應(yīng)用于上述數(shù)據(jù),閾值設(shè)為0.09,篩選出22個ADC和SCC之間的差異蛋白質(zhì),表1為其相對應(yīng)的蛋白質(zhì)名稱。
表1 篩選出的22個差異蛋白質(zhì)鑒定結(jié)果
P63是一種腫瘤蛋白,在Terry J等[9]的研究中,用單個生物標(biāo)志物區(qū)分ADC和SCC時,P63是最有意義的(靈敏度為84%,特異度為85%);PKP1為血小板親和蛋白1,Schwarz J等[10]認(rèn)為它是SCC中的特異表達(dá)標(biāo)志物,其表達(dá)水平與癌癥的惡性程度成反比;Cytokeratin 6A、Cytokeratin 6B、Cytokeratin 6C是常用的腫瘤免疫組織化學(xué)標(biāo)記物,在本研究中ADC和SCC之間的表達(dá)差異與Terry J等[9,11-13]研究的結(jié)果一致;MCT1為單羧酸轉(zhuǎn)運蛋白1,是一類跨膜轉(zhuǎn)運蛋白,涉及多種生物學(xué)功能,包括促進(jìn)營養(yǎng)物質(zhì)吸收、影響代謝動態(tài)平衡、調(diào)節(jié)胞內(nèi)pH值以及參與藥物輸送等,Stewart PA等[14]認(rèn)為MCT1可能是腺癌和鱗狀細(xì)胞癌的潛在診斷標(biāo)志物及藥物治療靶向蛋白。
本方法不僅能應(yīng)用于蛋白質(zhì)組學(xué)數(shù)據(jù),對于具有相似數(shù)據(jù)結(jié)構(gòu)的其他具有小樣本量(尤其是N≤12當(dāng)時)的高維組學(xué)數(shù)據(jù)(如轉(zhuǎn)錄組學(xué)、代謝組學(xué)等)的差異變量篩選也具有一定的應(yīng)用意義,為小樣本量高維組學(xué)數(shù)據(jù)的研究提供了新思路。
本研究基于CS理論的變量篩選方法的核心是解決一個有約束的最優(yōu)化問題,本文的約束條件使用的是L2范數(shù),實際上也可以根據(jù)分析需要,使用L1范數(shù)或L1范數(shù)與L2范數(shù)結(jié)合的約束條件對本方法進(jìn)行優(yōu)化。
本文模擬小樣本量蛋白質(zhì)組學(xué)變量篩選研究,在樣本量小時(尤其是當(dāng)N≤12時),基于CS的變量篩選方法篩選差異變量的能力優(yōu)于PLS和RF,隨著樣本量增加,其變量篩選效果逼近PLS,在不同的差異變量比例及相關(guān)系數(shù)條件下結(jié)果一致。模擬實驗為了驗證小樣本量時三種變量篩選方法的效果,設(shè)置的最大樣本量為30,所以當(dāng)繼續(xù)增大樣本量時本方法與PLS的優(yōu)劣還需要進(jìn)一步研究。
本文用基于CS理論的變量篩選方法分析了非小細(xì)胞肺癌數(shù)據(jù),篩選出的差異蛋白集合中變量數(shù)目少,同時又包含了Cytokeratin 6A、Cytokeratin 6B、Cytokeratin 6C、PKP1、P63、MCT1等已經(jīng)被驗證是ADC與SCC之間差異表達(dá)的蛋白質(zhì)。其中Cytokeratin 6系列是常用的腫瘤免疫組織化學(xué)標(biāo)記物;PKP1為血小板親和蛋白,與表皮的形態(tài)形成有關(guān);P63是腫瘤蛋白63,由一段結(jié)合轉(zhuǎn)錄激活劑或抑制劑的特異DNA序列翻譯而來;MCT1為單羧酸轉(zhuǎn)運蛋白1,是一類跨膜轉(zhuǎn)運蛋白,涉及多種生物學(xué)功能,包括促進(jìn)營養(yǎng)物質(zhì)吸收、影響代謝動態(tài)平衡、調(diào)節(jié)胞內(nèi)pH值以及參與藥物輸送等。