余慶邦,范明,王曉稼,鄭智國,許沈華,陳占紅,厲力華△
(1.杭州電子科技大學(xué)生命信息與儀器工程學(xué)院,杭州 310018;2.浙江省腫瘤研究所, 杭州 310022)
癌癥由人類基因中的原癌基因決定,而基因通過蛋白質(zhì)進(jìn)行表達(dá)。研究顯示,癌癥早期患者的蛋白質(zhì)水平已經(jīng)表現(xiàn)出一系列和細(xì)胞癌變相關(guān)的變化[1]。隨著蛋白質(zhì)組學(xué)和質(zhì)譜技術(shù)的發(fā)展,大部分國內(nèi)外研究者采用公共數(shù)據(jù)集,將蛋白質(zhì)質(zhì)譜分析技術(shù)運(yùn)用于乳腺癌早期診斷方面[2]。然而,這些研究著重于設(shè)計(jì)分析算法的框架,對(duì)進(jìn)一步尋找影響腫瘤特性的生物標(biāo)志物輔助治療方面鮮有嘗試。TNM分期很好地描述了腫瘤的大小和淋巴結(jié)受累情況,而這兩個(gè)因素都屬于預(yù)后指標(biāo)證據(jù)分級(jí)中的A類證據(jù)[3],對(duì)于乳腺癌的治療評(píng)估非常重要。本研究運(yùn)用浙江省腫瘤醫(yī)院提供的乳腺癌臨床SELDI-TOF質(zhì)譜數(shù)據(jù),采用成熟的算法框架,依據(jù)臨床TNM分期,探索腫瘤大小、淋巴結(jié)受累情況在蛋白質(zhì)質(zhì)譜中的表達(dá)差異,通過數(shù)據(jù)分析尋找相關(guān)生物標(biāo)志物,為乳腺癌靶向治療提供蛋白質(zhì)水平的參考,對(duì)實(shí)現(xiàn)乳腺癌個(gè)體化治療有促進(jìn)作用。
本研究所用樣本的臨床TNM分期依據(jù)《AJCC癌癥分期手冊(cè)》簡單概括為:T指腫瘤原發(fā)灶的情況,無原發(fā)腫瘤證據(jù)用T0表示,隨著腫瘤體積的增加和鄰近組織受累范圍的增加,依次用T1~T4來表示; N指區(qū)域淋巴結(jié)(regional lymph node)受累情況,無區(qū)域淋巴結(jié)轉(zhuǎn)移用N0表示,隨著淋巴結(jié)受累程度和范圍的增加,依次用N1~N3表示;M指遠(yuǎn)處轉(zhuǎn)移情況,無遠(yuǎn)處轉(zhuǎn)移者用M0表示,有遠(yuǎn)處轉(zhuǎn)移者用M1表示[3]。
浙江省腫瘤醫(yī)院提供2006年8月至2009年7月間住院214例乳腺癌患者的血清蛋白質(zhì)質(zhì)譜樣本,每例樣本約有65536維蛋白特征。各病例樣本均從手術(shù)日起,采用電話和門診復(fù)診等形式進(jìn)行跟蹤隨訪,隨訪日期截止到患者死亡或滿5年,包括血清蛋白質(zhì)檢測(cè)時(shí)間、臨床TNM分期、免疫組化信息和病理類型等重要信息。仔細(xì)篩查病理信息,本研究選取的病例樣本均為女性,單側(cè)乳腺癌;為防止相關(guān)治療引起生物標(biāo)志物的變化干擾實(shí)驗(yàn),蛋白質(zhì)質(zhì)譜檢測(cè)時(shí)間為化療和手術(shù)等治療之前;病理類型選為乳腺癌中常見的浸潤性導(dǎo)管癌。篩選之后,有102例病例供本實(shí)驗(yàn)使用,統(tǒng)計(jì)具體TNM分期數(shù)量用以分組對(duì)照實(shí)驗(yàn),見表1。
表1 102例病例中具體的TNM分期對(duì)應(yīng)的病例數(shù)量
本研究通過使用特征選擇、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)分析方法,分析SELDI-TOF蛋白質(zhì)譜數(shù)據(jù),挑選出有價(jià)值的蛋白質(zhì)位點(diǎn)。具體實(shí)驗(yàn)流程見圖1。
圖1 實(shí)驗(yàn)流程圖
3.2.1數(shù)據(jù)預(yù)處理 對(duì)于SELDI-TOF質(zhì)譜儀獲得的原始質(zhì)譜數(shù)據(jù),除了真實(shí)的質(zhì)譜信號(hào)還包含大量的噪聲,主要是低頻基線信號(hào)、高頻信號(hào)以及實(shí)驗(yàn)儀器自身系統(tǒng)誤差。因此,在分析質(zhì)譜數(shù)據(jù)之前對(duì)數(shù)據(jù)進(jìn)行預(yù)處理是十分必要的。本研究采用文獻(xiàn)[4]中所述的預(yù)處理方法,進(jìn)行譜峰校正,修正m/z值的偏差;重采樣,統(tǒng)一m/z值;基線去除,使樣本基線靠近水平線;標(biāo)準(zhǔn)化,規(guī)范每個(gè)蛋白位點(diǎn)的強(qiáng)度值便于計(jì)算分析;譜線平滑,過濾高頻噪聲。
3.2.2蛋白質(zhì)特征選擇 第一步,經(jīng)過數(shù)據(jù)預(yù)處理后,依據(jù)腫瘤大小以及淋巴結(jié)受累情況對(duì)樣本分組,運(yùn)用t-test對(duì)每組質(zhì)譜數(shù)據(jù)根據(jù)t值進(jìn)行排序,選擇3 000個(gè)排名靠前的特征位點(diǎn),初步減小特征維數(shù),降低了后續(xù)步驟計(jì)算復(fù)雜度以便特征挑選。
第二步,經(jīng)過初篩之后仍然存在高維度的特征,運(yùn)用近鄰傳播聚類算法(affinity propagation clustering,AP)[5]進(jìn)一步提取特征。AP算法首先將數(shù)據(jù)集的所有特征位點(diǎn)都視為候選的聚類中心,并計(jì)算各個(gè)位點(diǎn)間的負(fù)歐幾里得距離s(i,k)如下式:
s(i,k)=-‖xi-xk‖2
(1)
式中,xi和xk表示任意兩個(gè)蛋白質(zhì)位點(diǎn)。將負(fù)歐幾里得距離組成的矩陣稱為每個(gè)特征位點(diǎn)間的相似度矩陣SN×N。假設(shè)每個(gè)特征為點(diǎn)成為類代表點(diǎn)的可能性相同,并設(shè)置聚類偏向函數(shù)P值為通用的相似矩陣中位值。該算法迭代過程中,不斷更新可信度r(i,k)和可用度a(i,k)這兩個(gè)重要參數(shù),從而得到對(duì)應(yīng)的聚類中心,最后進(jìn)一步分配相關(guān)位點(diǎn)獲得聚類結(jié)果。
第三步,數(shù)據(jù)經(jīng)過聚類之后,特征維數(shù)仍然遠(yuǎn)大于樣本數(shù),再通過零空間LDA算法提取有效特征。經(jīng)典LDA(linear discriminant analysis,LDA)算法在“小樣本”的情況下,其類內(nèi)散布矩陣奇異,將導(dǎo)致算法失效。而零空間LDA算法有效克服了上述缺陷,去除了類內(nèi)散布矩陣和類間散布矩陣中的零空間部分,獲得最優(yōu)投影方向系數(shù)??傮w散布矩陣ST以及最優(yōu)投影方向Wopt公式如下:
(2)
(3)
第四步,通過上述兩個(gè)步驟的處理,數(shù)據(jù)集不僅在維度上有了很大的降低,而且數(shù)據(jù)特征間的相關(guān)性也進(jìn)一步減小,但是并不是剩下的特征對(duì)分類器來說都具有判別意義。支持向量機(jī)遞歸特征去除算法(support vector machine recursive feature elimination, SVM-RFE)結(jié)合SVM分類器,對(duì)特征進(jìn)行選擇。使用SVM分類器訓(xùn)練剩余的特征位點(diǎn),得到訓(xùn)練后的SVM參數(shù);通過特征權(quán)重計(jì)算排序,剔除排列靠后權(quán)重低的特征。其中,排序準(zhǔn)則如下式:
RC=W2-W-(-P)2
(4)
式中,W2和W-(-P)2分別表示完整SVM的權(quán)重和假設(shè)剔除第P個(gè)特征后SVM的權(quán)重。
第五步,為結(jié)合SVM分類模型,在特征選擇的過程中使用留一法交叉驗(yàn)證,每組數(shù)據(jù)不斷循環(huán)迭代,集合每次排名前五的特征位點(diǎn),剔除相同特征,最后每組統(tǒng)一選擇35個(gè)特征的特征子集用于SVM分類,獲得分類結(jié)果并統(tǒng)計(jì)分析。
根據(jù)TNM分期統(tǒng)計(jì)的樣本,分兩個(gè)部分分組實(shí)驗(yàn)。
(1) 選擇不同腫瘤大小,相同區(qū)域淋巴結(jié)受累情況,無遠(yuǎn)處轉(zhuǎn)移的樣本進(jìn)行對(duì)照實(shí)驗(yàn),即TNM分期為T1N0M0(14例)與T2N0M0(22例)組,尋找腫瘤大小差異樣本的相關(guān)生物標(biāo)志物。
(2) 選擇同腫瘤大小,不同區(qū)域淋巴結(jié)受累情況,無遠(yuǎn)處轉(zhuǎn)移的三個(gè)分組進(jìn)行對(duì)照實(shí)驗(yàn),即TNM分期為T2N0M0(22例)與T2N3M0(17例)組、T2N1M0(26例)與T2N3M0(17例)組和T2N0M0(22例)與T2N2M0(23例)組。尋找區(qū)域淋巴結(jié)受累情況差異樣本的相關(guān)生物標(biāo)志物。
將每個(gè)分組統(tǒng)一挑選出35個(gè)排名靠前的生物標(biāo)志物作為一個(gè)特征集用于分類測(cè)試,通過分類準(zhǔn)確度、敏感性和特異性三個(gè)參數(shù)來評(píng)價(jià)挑選結(jié)果。并對(duì)每組挑選出的蛋白位點(diǎn)使用T檢驗(yàn),P<0.05具有顯著差異的位點(diǎn)個(gè)數(shù)。
表2 具體TNM分期分組分類結(jié)果及P值
如表2所示,四個(gè)組均表現(xiàn)出了較好的分類效果,說明腫瘤大小和淋巴結(jié)受累轉(zhuǎn)移情況的差異可以在蛋白質(zhì)質(zhì)譜中體現(xiàn),挑選出的生物標(biāo)志物具有參考價(jià)值。雖然由于生物標(biāo)志物在腫瘤患者間并不如患者與健康人間表現(xiàn)得那么敏感易區(qū)分,在數(shù)據(jù)上并不如早期發(fā)現(xiàn)研究中那樣具有高的分類率,但是本文數(shù)據(jù)建立在一定的乳腺癌的樣本之上,所得結(jié)果具有一定價(jià)值。
通過t檢驗(yàn)統(tǒng)計(jì)顯示,所挑選的部分生物標(biāo)志物具有統(tǒng)計(jì)學(xué)意義。但仍有部分位點(diǎn)存在無統(tǒng)計(jì)意義上的顯著差異或生物學(xué)意義,這是因?yàn)門檢驗(yàn)比較的是兩個(gè)分組在該位點(diǎn)的均值差異是否顯著。限于篇幅,僅選擇兩個(gè)位點(diǎn),通過樣本均值圖來觀察挑選出的生物標(biāo)志物。圖2(a)是T1N0M0與T2N0M0組中P值為0.018的MZ9323.006點(diǎn),體現(xiàn)了不同腫瘤大小的分組樣本在生物標(biāo)志物上的差異;圖2(b)是T2N1M0與T2N3M0組中P值為0.020的MZ8710.061點(diǎn),體現(xiàn)了同腫瘤大小,不同淋巴結(jié)情況的分組樣本在生物標(biāo)志物上的差異。從圖中可以看出,所挑選的生物標(biāo)志物均在波峰或者波谷附近,具有較好的區(qū)分度。
(a)MZ9323.006點(diǎn)
(b)MZ8710.061點(diǎn)
本研究運(yùn)用浙江省腫瘤醫(yī)院提供的乳腺癌臨床SELDI-TOF質(zhì)譜數(shù)據(jù),依據(jù)臨床TNM分期,采用特征選擇、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)分析方法,探索影響腫瘤大小、淋巴結(jié)受累情況的差異。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),腫瘤大小和淋巴結(jié)受累情況的差異在蛋白質(zhì)水平表達(dá),可以通過分組對(duì)比質(zhì)譜數(shù)據(jù)分析獲得相關(guān)差異結(jié)果,并挑選出有代表性的特征位點(diǎn)。在實(shí)際臨床應(yīng)用中,可通過檢測(cè)相關(guān)生物標(biāo)志物在化療等治療過程中的變化,作為評(píng)價(jià)治療效果的參考,或者監(jiān)測(cè)相關(guān)標(biāo)志物進(jìn)行靶向治療。因此,對(duì)比不同病例樣本,挑選出有價(jià)值的蛋白質(zhì)位點(diǎn),對(duì)療效評(píng)價(jià)、個(gè)體化治療等都有重要意義。