李肅義,嵇夢(mèng)穎,徐 壯,王躍洋,申博文,熊文激
(1.吉林大學(xué) 儀器科學(xué)與電氣工程學(xué)院,吉林 長(zhǎng)春 130061;2.吉林大學(xué) 化學(xué)學(xué)院,吉林 長(zhǎng)春 130012;
3.吉林大學(xué)第一醫(yī)院,吉林 長(zhǎng)春 130021)
?
概率主成分分析聯(lián)合支持向量機(jī)的前列腺SELDI-TOF質(zhì)譜數(shù)據(jù)分析方法研究
李肅義1,嵇夢(mèng)穎1,徐壯1,王躍洋1,申博文2,熊文激3*
(1.吉林大學(xué)儀器科學(xué)與電氣工程學(xué)院,吉林長(zhǎng)春130061;2.吉林大學(xué)化學(xué)學(xué)院,吉林長(zhǎng)春130012;
3.吉林大學(xué)第一醫(yī)院,吉林長(zhǎng)春130021)
摘要:基于前列腺癌檢測(cè)中獲取的表面增強(qiáng)激光解吸/離子化飛行時(shí)間質(zhì)譜 (SELDI-TOF-MS)數(shù)據(jù),提出一種概率主成分分析(PPCA)聯(lián)合支持向量機(jī)(SVM)的分類方法。對(duì)臨床322例血清樣本的質(zhì)譜數(shù)據(jù)進(jìn)行特征提取,以隨機(jī)選取訓(xùn)練樣本集(225例)構(gòu)造SVM判別模型,對(duì)剩余樣本集(97例)進(jìn)行測(cè)試。采用均方根誤差、識(shí)別率與預(yù)測(cè)率指標(biāo),將所構(gòu)造的PPCA-SVM模型分別與偏最小二乘(Partial least squares,PLS)和PCA-SVM模型進(jìn)行比較,發(fā)現(xiàn)PLS模型的識(shí)別率和預(yù)測(cè)率分別為90.92%和76.38%,PCA-SVM模型分別為99.23%和 84.63%,而PPCA-SVM模型分別為99.01%和90.41%。因此SELDI-TOF-MS技術(shù)結(jié)合PPCA-SVM在樣品分類中具有準(zhǔn)確、重復(fù)性好等優(yōu)點(diǎn),為前列腺癌早期診斷提供了一種新方法。
關(guān)鍵詞:前列腺癌;概率主成分分析;支持向量機(jī);SELDI-TOF-MS
前列腺癌是威脅男性生命和健康的重大疾病,在全世界范圍內(nèi)具有較高的發(fā)病率與死亡率[1]。早期的及時(shí)、準(zhǔn)確診斷是前列腺癌控制及治療的關(guān)鍵。近年來,SELDI-TOF-MS技術(shù)通過探察生命復(fù)雜體內(nèi)蛋白質(zhì)分子,分析癌癥細(xì)胞相對(duì)于正常細(xì)胞中蛋白質(zhì)豐度表達(dá)的差異,篩查出與癌癥相關(guān)的生物標(biāo)記物,為實(shí)現(xiàn)癌癥的早期檢測(cè)提供了新的技術(shù)和平臺(tái)[2-6]。然而利用SELDI-TOF-MS技術(shù)產(chǎn)生的質(zhì)譜數(shù)據(jù)海量、信息冗余,尤其患者多時(shí),海量數(shù)據(jù)會(huì)嚴(yán)重影響對(duì)患病程度的判斷。因此,如何有效提取與疾病相關(guān)的特征參數(shù),準(zhǔn)確建立特征參數(shù)與患病程度之間的映射關(guān)系是SELDI-TOF-MS技術(shù)檢測(cè)早期癌癥的關(guān)鍵問題。
Lamberto等[7]提出了基于PCA的食用油甘油三酯質(zhì)譜分析方法,作為常見的提取特征方法,降低了模型多參數(shù)計(jì)算量和分析問題的復(fù)雜性;徐琨等[8]利用偏最小二乘法(PLS)建立了健康者與乙肝患者的血清蛋白質(zhì)圖譜數(shù)據(jù)分類模型,但當(dāng)數(shù)據(jù)類別增多時(shí),質(zhì)譜數(shù)據(jù)和樣本類別之間非線性因素會(huì)隨之變大,從而影響PLS的預(yù)測(cè)效果,產(chǎn)生較大的檢測(cè)誤差[9];Miller等[10],余小蘭等[11],曹素梅等[12]分別提出基于人工神經(jīng)網(wǎng)絡(luò)的質(zhì)譜數(shù)據(jù)分類方法,但人工神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)目標(biāo)為訓(xùn)練誤差最小化,導(dǎo)致所建模型的泛化能力較低;為了改善人工神經(jīng)網(wǎng)絡(luò)分析質(zhì)譜數(shù)據(jù)存在的不足,Marchiori等[13]利用支持向量機(jī)SVM構(gòu)建質(zhì)譜數(shù)據(jù)分析判別模型,預(yù)測(cè)率較人工神經(jīng)網(wǎng)絡(luò)得到顯著提高;張玉璽等[14]通過比較K最鄰近法、助推法、分類回歸樹與支持向量機(jī)幾種方法構(gòu)建的質(zhì)譜數(shù)據(jù)分析模型,進(jìn)一步證明了SVM的預(yù)測(cè)結(jié)果更優(yōu);Suarez 等[15],Lokhov等[16],王春艷等[17]分別將PCA聯(lián)合SVM方法用于質(zhì)譜和光譜數(shù)據(jù)分析,取得了較好效果。但由于PCA基于重建方差最小投影原理,具有缺少概率模型結(jié)構(gòu)和缺失高階統(tǒng)計(jì)量信息的不足[18]。概率主成分分析(PPCA)則將傳統(tǒng)PCA中丟棄的非主成分因子以噪聲方差估計(jì)的形式對(duì)因子載荷矩陣進(jìn)行約束[19],然后通過最大期望算法估計(jì)參數(shù)而得到最佳概率模型,因此PPCA可以更有效地從高維數(shù)據(jù)中尋找到主成分方向,取得較PCA更優(yōu)的特征提取效果。
綜上分析,本文提出了一種PPCA聯(lián)合SVM的前列腺SELDI-TOF-MS數(shù)據(jù)分類方法。通過PPCA技術(shù)挖掘與提取前列腺癌、前列腺炎患者以及健康者的特征參數(shù);再通過SVM方法建立預(yù)測(cè)模型;并且利用識(shí)別率與預(yù)測(cè)率指標(biāo),將該方法與傳統(tǒng)的PLS、PCA-SVM方法進(jìn)行比較,以驗(yàn)證PPCA聯(lián)合SVM分類方法的有效性。
1實(shí)驗(yàn)部分
實(shí)驗(yàn)部分包括實(shí)驗(yàn)數(shù)據(jù)的獲取及預(yù)處理、PPCA-SVM分類方法的建立與方法評(píng)估。程序編寫基于MATLAB2013a及臺(tái)灣大學(xué)林智仁等開發(fā)的LIBSVM工具箱[20]。
1.1實(shí)驗(yàn)數(shù)據(jù)
FDA-NCI Clinical Proteomics Program Website是由美國(guó)國(guó)立衛(wèi)生研究院NIH聯(lián)合美國(guó)食品和藥物管理局FDA共同創(chuàng)建的臨床蛋白質(zhì)研究資源網(wǎng)站[21],可提供利用h1蛋白質(zhì)芯片(Ciphergen Biosystems,Inc.,Palo Alto,CA,USA)結(jié)合Ciphergen PBS1 SELDI-TOF質(zhì)譜技術(shù)分析血清樣本獲取的前列腺癌數(shù)據(jù)。該數(shù)據(jù)集共包含322例血清樣本的質(zhì)譜數(shù)據(jù),其中包括63例健康者、190例前列腺炎患者與69例前列腺癌患者(43例晚期癌癥患者,26例早期癌癥患者);每組數(shù)據(jù)中包含15 154個(gè)蛋白質(zhì)表達(dá)豐度值,圖1為從SELDI-TOF-MS中任選的3類代表性蛋白質(zhì)表達(dá)豐度圖譜。
322個(gè)樣本隨機(jī)分為訓(xùn)練樣本集(70%)和測(cè)試樣本集(30%),每組包含健康者、前列腺炎患者和前列腺癌患者,表1為每組中的具體樣本數(shù)。
表1 訓(xùn)練組與測(cè)試組中包含的具體樣本數(shù)
從圖1可看出,原始圖譜中含有基線漂移、隨機(jī)噪聲和高頻化學(xué)噪聲,并且有效信號(hào)大多集中在1 000≤m/z≤10 000區(qū)間。本實(shí)驗(yàn)根據(jù)質(zhì)譜噪聲與有效信號(hào)的主要特征,通過適當(dāng)?shù)念A(yù)處理,降低各種非目標(biāo)因素對(duì)質(zhì)譜的影響,凈化圖譜信息,避免噪聲與基線漂移等引起的特征參數(shù)計(jì)算誤差。預(yù)處理的具體步驟如下:信號(hào)截?。河蓤D1可看到,m/z<1 000主要被高頻化學(xué)噪聲所污染,m/z>10 000特征的差異不顯著,因此,截取1 000≤m/z≤10 000之間的數(shù)據(jù)進(jìn)行后續(xù)分析?;€校正:通過做遞歸直方圖估計(jì)基線,窗口長(zhǎng)度為200,對(duì)質(zhì)譜信號(hào)進(jìn)行基線校正。譜線平滑:利用局部加權(quán)回歸散點(diǎn)平滑法對(duì)質(zhì)譜信號(hào)中引入的電子噪聲與隨機(jī)噪聲進(jìn)行平滑濾波。
1.2PPCA-SVM分類方法
1.2.1數(shù)據(jù)集前列腺癌檢測(cè)質(zhì)譜樣本集{sn,n=1,2,……,N},其中N為322,代表樣本個(gè)數(shù)。每個(gè)樣本的輸入向量為xn,p,其中p代表維數(shù),由預(yù)處理后的7 327維的質(zhì)譜表達(dá)豐度值組成;輸出向量{Yn=-1,0,1}對(duì)應(yīng)分類結(jié)果,1代表前列腺癌患者,0代表前列腺炎患者,-1代表健康者。隨機(jī)選取225(70%)例質(zhì)譜數(shù)據(jù)作為訓(xùn)練集,97(30%)例質(zhì)譜數(shù)據(jù)作為測(cè)試集。
1.2.2特征提取預(yù)處理后的SELDI-TOF-MS數(shù)據(jù)具有高維特性,采用降維技術(shù)進(jìn)行特征提取不僅可以簡(jiǎn)化模型結(jié)構(gòu),還可提高訓(xùn)練與檢測(cè)速度。本文利用PPCA對(duì)訓(xùn)練集樣本預(yù)處理后的質(zhì)譜數(shù)據(jù)進(jìn)行降維與特征提取。主要實(shí)現(xiàn)步驟如下:
利用高斯噪聲ε~N(0,σ2I)描述特征空間的非主成分因子,建立隱變量模型映射d維質(zhì)譜數(shù)據(jù)s與其q維特征矩陣x之間的關(guān)系:s=Wx+μ+ε,其中W為d×q維因子載荷矩陣,μ為s的非零均值。
在以上隱變量模型下,建立特征矩陣條件下質(zhì)譜數(shù)據(jù)的概率分布,依據(jù)貝葉斯概率公式,推導(dǎo)出特征矩陣關(guān)于質(zhì)譜數(shù)據(jù)的后驗(yàn)概率密度分布。
1.2.3SVM建模近年來SVM在臨床醫(yī)學(xué)的疾病診斷、預(yù)測(cè)以及篩查等方面得到廣泛應(yīng)用[22]。
核函數(shù)選取及模型參數(shù)估計(jì):SVM核函數(shù)選用較穩(wěn)定的RBF核函數(shù),在訓(xùn)練前給定正則化參數(shù)和核函數(shù)參數(shù)的范圍,即c∈[-10,10],g∈[-10,10],使c和g在這個(gè)范圍內(nèi)遍歷取值,每個(gè)子集驗(yàn)證1次,對(duì)每一個(gè)組合參數(shù)均進(jìn)行交叉驗(yàn)證求取SVM模型參數(shù)。
模型訓(xùn)練及測(cè)試:隨機(jī)選取225例樣本建立PPCA-SVM訓(xùn)練模型,利用剩余的樣本作為測(cè)試集對(duì)模型進(jìn)行檢驗(yàn),重復(fù)進(jìn)行10次實(shí)驗(yàn)。
1.3模型性能評(píng)價(jià)
為了評(píng)價(jià)模型的分類效果,利用隨機(jī)選取的訓(xùn)練樣本集與測(cè)試樣本集,通過比較識(shí)別率與預(yù)測(cè)率,對(duì)PLS模型、PCA-SVM與PPCA-SVM3種模型進(jìn)行了分類準(zhǔn)確率的評(píng)估,同時(shí),為驗(yàn)證模型的穩(wěn)定性,避免實(shí)驗(yàn)的隨機(jī)性,將此過程重復(fù)10次,最后通過平均識(shí)別率與預(yù)測(cè)率來評(píng)價(jià)模型性能。
2結(jié)果與討論
2.1預(yù)處理結(jié)果
原始圖譜中含有基線漂移、隨機(jī)噪聲和高頻化學(xué)噪聲,通過有效信號(hào)截取,基線校正與譜線平滑等預(yù)處理降低各種噪聲對(duì)有效信號(hào)的影響,避免后續(xù)的特征參數(shù)計(jì)算誤差。任意選取某一正常血清樣本的原始質(zhì)譜數(shù)據(jù)(如圖2A),預(yù)處理后的譜線如圖2B所示。由圖可知,預(yù)處理后的信號(hào)較為有效地校正了原始信號(hào)中的基線漂移(8 500≤m/z≤10 000區(qū)間較為明顯),抑制了部分電子噪聲與隨機(jī)噪聲(1 000≤m/z≤4 000區(qū)間)。
2.2質(zhì)譜數(shù)據(jù)特征提取結(jié)果
2.3模型對(duì)比結(jié)果
通過交叉驗(yàn)證法求得PPCA-SVM模型參數(shù),然后對(duì)PLS,PCA-SVM與PPCA-SVM 3種模型的識(shí)別率及預(yù)測(cè)率進(jìn)行評(píng)估。表2分別給出了PLS,PCA-SVM,PPCA-SVM模型的10次平均識(shí)別率與預(yù)測(cè)率,PLS模型的平均值分別為90.92%和76.38%,PCA-SVM模型的平均值分別為99.23%和84.63%,PPCA-SVM模型的平均值分別為99.01%和90.41%。
表2 PLS,PCA-SVM,PPCA-SVM模型的平均識(shí)別率與預(yù)測(cè)率
(續(xù)表2)
PLS模型集主成分分析與多元線性回歸為一體,但其訓(xùn)練目標(biāo)為經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化,主要適用于小樣本事件,而SVM模型的訓(xùn)練目標(biāo)則為結(jié)構(gòu)風(fēng)險(xiǎn)最小化。因此,SVM的預(yù)測(cè)效果更優(yōu),其中以PPCA-SVM模型的預(yù)測(cè)效果最優(yōu)。
3結(jié)論
研究結(jié)果表明,3種模型在利用訓(xùn)練集時(shí),識(shí)別率均高于90%,但在利用測(cè)試集時(shí),PPCA-SVM模型的預(yù)測(cè)效果最好,其原因主要是由于:①傳統(tǒng)PLS模型的學(xué)習(xí)目標(biāo)為經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化,而SVM模型的學(xué)習(xí)目標(biāo)則為結(jié)構(gòu)風(fēng)險(xiǎn)最小化,即同時(shí)考慮了經(jīng)驗(yàn)風(fēng)險(xiǎn)與置信誤差,因此SVM模型的泛化能力較好,預(yù)測(cè)效果最優(yōu)。②PCA與PPCA雖然降低了數(shù)據(jù)的維度,但PPCA通過最佳概率模型可以更為有效地從高維數(shù)據(jù)中尋找到主成分方向,更加有效地提取特征參數(shù),因此PPCA-SVM模型的性能優(yōu)于PCA-SVM模型?;谝陨戏治雠c實(shí)驗(yàn)驗(yàn)證,本文提出的PPCA-SVM模型優(yōu)于傳統(tǒng)的PLS與PCA-SVM檢測(cè)模型,具有預(yù)測(cè)準(zhǔn)確率高與穩(wěn)定性好等特點(diǎn),為其應(yīng)用于臨床前列腺癌的早期診斷奠定了理論與實(shí)驗(yàn)基礎(chǔ)。
參考文獻(xiàn):
[1]American Cancer Society.Cancer Facts and Figures 2015[M/OL].Atlanta:American Cancer Society,2015.
[2]CHO W C S.Chin.J.Biotechnol.(曹志成.生物工程學(xué)報(bào)),2006,22(6):872-876.
[3]Xu C M,Zhang W,Zhang J Y,Liu H,Sun H C,Ma H B,Zhu Y P,Xie H W.Prog.Biochem.Biophys.(徐長(zhǎng)明,張偉,張紀(jì)陽,劉輝,孫漢昌,馬海濱,朱云平,謝紅衛(wèi).生物化學(xué)與生物物理進(jìn)展),2011,38(6):506-518.
[4]Petricoin E F,Ardekani A M,Hitt B A,Levine P J,Fusaro V A,Steinberg S M,Mills G B,Simone C,Fishman D A,Kohn E C,Liotta L A.Obstetrical&GynecologicalSurvey,2002,57(6):572-577.
[5]Cazares L H,Adam B L,Ward M D,Nasim S,Schellhammer P F,Semmes O J.Clin.CancerRes.,2002,8(8):2541-2552.
[6]Conrads T P,Fusaro V A,Ross S,Johann D,Rajapakse V,Hitt B A,Steinberg S M,Kohn E C,Fishman D A,Whitely G,Barrett J C,Liotta L A,Petricoin E F,Veenstra T D.Endocrine-relatedCancer,2004,11(2):163-178.
[7]Lamberto M,Saitta M.J.Am.OilChem.Soc.,1995,72(8):867-871.
[8]Xu K,Zhu E Y,Yang P Y,Liu Y K.Chin.J.Anal.Chem.(徐琨,朱爾一,楊芃原,劉銀坤.分析化學(xué)),2009,37(2):211-215.
[9]Bai Y K,Meng X J,Ding D,Shen X G.Spectrosc.SpectralAnal.(白英奎,孟憲江,丁東,申鉉國(guó).光譜學(xué)與光譜分析),2005,25(3):381-383.
[10]Miller J H,Schrom B T,Kangas L J.MethodsMol.Biol.,2015,1260:89-100.
[11]Yu X L,Yao Y Z.Mod.Med.J.(余小蘭,姚永忠.現(xiàn)代醫(yī)學(xué)),2012,40(2):241-244.
[12]Cao S M,Gou X,Chen F J,Yang A K,Chen W K,Li N W.Chin.J.Cancer(曹素梅,郭翔,陳福進(jìn),楊安奎,陳文寬,李寧煒.癌癥雜志),2007,26 (7):767-770.
[13]Marchiori E,Jimenez C R,West-Nielsen M,Heegaard N H.LectureNotesinComputerScience,2006,3907:79-90.
[14]Zhang Y X,Xiong Q,Yang G,Li M L.Chin.J.Anal.Chem.(張玉璽,熊慶,楊剛,李夢(mèng)龍.分析化學(xué)),2007,35(10):1449-1454.
[15]Suarez E,Hien P N,Israel P O,Lee K J,Kim S B,Jaroslaw K,Kevin A S.Anal.Chim.Acta,2011,706(1):157-163.
[16]Lokhov P G,Kharybin O N,Archakov A I.Int.J.MassSpectrom.,2012,309:200-205.
[17]Wang C Y,Shi X F,Li W D,Ren W W,Zhang J L.J.Instrum.Anal.( 王春艷,史曉鳳,李文東,任偉偉,張金亮.分析測(cè)試學(xué)報(bào)),2014,33(3):289-294.
[18]Jolliffe I T.PrincipalComponentAnalysis.Second Edition:Springer Series in Statistics.New York:Springer,2002:1-27.
[19]Tipping M E,Bishop C M.J.RoyalStat.Soc.B,1999,61(3):611-622.
[20]Chang C C,Lin C J.ACMTrans.Intell.Syst.Technol.,2011,2(27):1-27.
[21]http://home.ccr.cancer.gov/ncifdaproteomics/.
[22]Suykens J A K,Vandewalle J.NeuralProcess.Lett.,1999,9(3):293-300.
A SELDI-TOF-MS Data Classification Method for Prostate Based on Probabilistic Principal Components Analysis and Support Vector MachineLI Su-yi1,JI Meng-ying1,XU Zhuang1,WANG Yue-yang1,SHEN Bo-wen2,XIONG Wen-ji3*
(1.College of Electrical Engineering and Instrumentation,Jilin University,Changchun130061,China;2.College
of Chemistry,Jilin University,Changchun130012,China;3.The First Clinical Hospital of Jilin University,
Changchun130021,China)
Abstract:A method combined probabilistic principal components analysis(PPCA) with support vector machine(SVM) was presented for analyzing SELDI-TOF-MS data generated from clinical proteomic study.Using PPCA for feature extraction on 322 MS data set,225 MS data set were randomly selected as learning set for establish SVM model,and the remaining 97 data set were selected as a testing set for prediction and verification.Root mean square error,recognition rate and predictive rate were used to evaluate the model′s classification performance,respectively.To verify the PPCA-SVM model′s classification performance further,the proposed model with partial least squares (PLS) model and PCA-SVM model were compared.The results showed that the recognition rates for PLS,PCA-SVM and PPCA-SVM were 90.92%, 99.23%and 99.01%,respectively,the predictive rates for PLS,PCA-SVM and PPCA-SVM were 76.38%,84.63% and 90.41%,respetively.Experimental results showed that proposed PPCA-SVM model was an accurate and repeatable method for automatically detecting prostate cancer.The method provides a new approach for early diagnosis of prostate cancer in clinic.
Key words:prostate cancer;probabilistic principal components analysis;support vector machines;SELDI-TOF-MS
中圖分類號(hào):O657.63;Q461
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1004-4957(2016)01-0091-05
doi:10.3969/j.issn.1004-4957.2016.01.015
通訊作者:*熊文激,博士,教授,研究方向:醫(yī)學(xué)信號(hào)處理與腫瘤早期檢測(cè)技術(shù),Tel:0431-88502382,E-mail:450331530@qq.com
基金項(xiàng)目:國(guó)家自然科學(xué)基金(201101071);吉林省自然科學(xué)基金(20140101063JC)
收稿日期:2015-07-06;修回日期:2015-08-04