武振宇 賈慧珣 朱 驥△
Boosting算法對卵巢癌代謝組數(shù)據(jù)的應(yīng)用研究*
武振宇1賈慧珣2朱 驥2△
目的 應(yīng)用Boosting算法建立模型,對卵巢癌和非卵巢癌(卵巢囊腫和子宮肌瘤)患者的尿液代謝組數(shù)據(jù)進(jìn)行分析,提取出具有生物學(xué)意義的代謝組分,為卵巢癌的早期診斷及疾病機(jī)理提供線索。方法 將決策樹與Boosting算法相結(jié)合,對患者的臨床樣品代謝組數(shù)據(jù)進(jìn)行分析,并對代謝組分進(jìn)行逐步篩選,得到鑒別卵巢癌患者的重要代謝組分。結(jié)果 由Boosting模型得到的排序靠前的10個差異代謝組分,能夠?qū)⒙殉舶┡c對照組患者進(jìn)行較好的判別分類,其ROC曲線下面積達(dá)到了0.944。結(jié)論 Boosting模型可以有效地應(yīng)用于卵巢癌代謝組數(shù)據(jù),在保證較高的分類正確率的同時可以得到對分類起作用的重要的代謝組分。
代謝組學(xué) Boosting 特征篩選
*:國家青年科學(xué)基金項目資助(81001286);“中央高?;究蒲袠I(yè)務(wù)費(fèi)專項資金”資助
1.復(fù)旦大學(xué)公共衛(wèi)生學(xué)院衛(wèi)生統(tǒng)計教研室(200032)
2.復(fù)旦大學(xué)附屬腫瘤醫(yī)院臨床資料統(tǒng)計室
△通訊作者:朱驥
卵巢癌是婦科常見的惡性腫瘤之一,大約有1.4%的女性會患病,其病死率很高,對婦女生命造成嚴(yán)重威脅,國內(nèi)外臨床資料統(tǒng)計顯示其五年生存率僅25% ~30%。如果發(fā)現(xiàn)及時,90%的病人都能存活;若發(fā)現(xiàn)晚,癌細(xì)胞擴(kuò)散到卵巢,存活率就低于30%。所以早期診斷治療對于卵巢癌患者提高5年生存率具有十分重要的意義。
代謝組學(xué)研究研究特點(diǎn)是采用高通量檢測技術(shù),對生物體代謝情況進(jìn)行整體的測量。圖1是一種代謝產(chǎn)物的總離子色譜圖和相應(yīng)的量化表,上半部分是代謝組研究中檢測得到的代謝產(chǎn)物離子色譜圖,每一個峰代表某一保留時間上的一組代謝產(chǎn)物。下半部分是由色譜圖得到的代謝產(chǎn)物的量化結(jié)果。每一列代表一個觀測對象,每一行代表一個保留時間上測得的代謝產(chǎn)物。
圖1 代謝產(chǎn)物的總離子色譜圖和相應(yīng)的量化表
利用代謝物(如尿液、血液)進(jìn)行疾病的診斷,方法簡便、無創(chuàng)、患者易于接受。生物體的代謝物可能包含幾千甚至幾萬個生物特征的信息,但限于研究成本,樣本例數(shù)通常只有數(shù)十例。因此具有生物學(xué)意義的特征篩選對于高維代謝組學(xué)數(shù)據(jù)分析來說顯得尤為重要。Boosting方法作為集成算法中的一員,一直以其優(yōu)異的性能吸引著廣大研究者。本研究的目的是對卵巢癌患者的代謝產(chǎn)物(尿液)的分析,其主要目的是篩選出能夠區(qū)分卵巢癌病人與非卵巢癌病人的生物標(biāo)志物以及對樣本進(jìn)行分類,通過比較正常和疾病狀態(tài)下代謝產(chǎn)物譜的差異,研究疾病的發(fā)生機(jī)理,為卵巢癌的臨床早期診斷、治療以及預(yù)后判斷提供重要依據(jù)和支持。
本資料來源于2009年7月至2009年12月在哈爾濱醫(yī)科大學(xué)附屬腫瘤醫(yī)院收集37例首次發(fā)現(xiàn)并經(jīng)病理確診為卵巢癌患者(病例組)的尿樣(10ml),同時收集患有卵巢囊腫和子宮肌瘤患者(對照組)共51例的尿樣。將所有尿樣(共88例)進(jìn)行預(yù)處理后,應(yīng)用高效液質(zhì)聯(lián)用儀進(jìn)行分析,得到23447個代謝組分。
(1)研究目的
①卵巢癌分類模型的建立,即采用機(jī)器學(xué)習(xí)的方法從已知的數(shù)據(jù)集中抽象出一個分類模型,使該模型能夠很好地擬合當(dāng)前分類結(jié)果并能解釋其意義,對疾病的預(yù)測具有指導(dǎo)意義。② 對卵巢癌患者代謝產(chǎn)物的組分進(jìn)行分析,即從患者尿液分離出的23447個代謝組分中篩選出對疾病分類起重要作用的重要組分,為卵巢癌的研究打下基礎(chǔ),使模型能夠?qū)εR床的診斷、治療及預(yù)后等實踐工作進(jìn)行指導(dǎo)并具有解釋意義。
(2)研究方法—Boosting方法
Boosting算法〔2-3〕基于其他機(jī)器學(xué)習(xí)算法之上的用來提高算法精度和性能的方法。起初并不需要構(gòu)造一個擬合精度高、預(yù)測能力好的算法,只要一個效果比隨機(jī)猜測略好的粗糙算法即可。通過不斷調(diào)用這個基算法來改變樣本分布和賦予判別模型不同的權(quán)重得以實現(xiàn),最終獲得一個擬合和預(yù)測誤差都相當(dāng)好的組合預(yù)測模型。
Boosting嚴(yán)格意義上不是一個具體的學(xué)習(xí)算法,它需要給定一個弱學(xué)習(xí)算法和一個訓(xùn)練序列。初始化時給每個訓(xùn)練例賦權(quán)重為1/N。然后用選定的弱學(xué)習(xí)算法進(jìn)行第一次訓(xùn)練,給訓(xùn)練失敗的訓(xùn)練例賦以更大的權(quán)重,也就意味著在后面的學(xué)習(xí)中集中對此類訓(xùn)練例進(jìn)行學(xué)習(xí)。經(jīng)過T次訓(xùn)練后得到一個訓(xùn)練序列h1,h2,…,hT,其中hi有權(quán)重,預(yù)測效果好的預(yù)測函數(shù)權(quán)重較大,反之較小。最終的預(yù)測函數(shù)H采用有權(quán)重的投票方式產(chǎn)生。
Adaboost算法〔3-4〕
假定具有N個帶分類標(biāo)簽的樣品序列<(x1,y1),…,(xn,yN)>,其中xi∈X,yi∈{-1,+1},N個樣品點(diǎn)權(quán)重的分布為D,基礎(chǔ)弱學(xué)習(xí)算法記為Weaklearner,迭代次數(shù)為T。
① 初始化:D1(i)=1/N,其中i=1,2,…,N,對t=1,…,T循環(huán)執(zhí)行:
②用分布Dt訓(xùn)練基礎(chǔ)學(xué)習(xí)器;
③得到弱分類器ht;
④計算ht訓(xùn)練誤差εt,
⑥重新計算樣品的權(quán)重:
其中Zt=∑Dt(i)exp(-atyihi(xi))是歸一化因子(Dt+1為分布);
圖2 使用簡單的線性模型作為弱分類器的Boosting算法運(yùn)算過程
Boosting算法進(jìn)行變量重要性評價原理〔5-6〕
由于決策樹具有能預(yù)測變量的重要性的優(yōu)點(diǎn),可以對分類起作用的變量進(jìn)行重要性評價,因此考慮使用決策樹作為基函數(shù)。對于Boosting算法,在給定訓(xùn)練樣本和損失函數(shù)L(y,H)的前提下,其目的是找到一個決策樹模型的線性組合,使得該組合可以對損失函數(shù)進(jìn)行極小化優(yōu)化,即H(X)=argH(x)minEy,xL(y,H(x)),優(yōu)化的過程一般沿著目標(biāo)函數(shù)的梯度最速下降方向。最終得到的H(X)實際上是多個決策樹的線性組合。單個決策樹的變量重要性評分為由節(jié)點(diǎn)到分裂后的節(jié)點(diǎn)間誤差平方和的減少量,推廣到多個決策樹的問題上,即可以把每顆樹中該變量的重要性評分求均值。
按代謝組數(shù)據(jù)的特點(diǎn)構(gòu)造類似的數(shù)據(jù),考察Boosting算法與決策樹結(jié)合后的判別分類模型對此類數(shù)據(jù)變量重要性度量的效果,設(shè)定5個對分類有作用的差異變量X1,X2,X3,X4,X5,兩組樣本含量設(shè)為n1=n2=30,兩類真實的區(qū)分度用ROC曲線下面積θ衡量,分別設(shè)置為θ=0.85,0.95,0.99。根據(jù)類間區(qū)分度來確定差異變量的均數(shù),為簡單起見,方差均設(shè)為==1,其中X1與X2兩個變量的相關(guān)系數(shù)設(shè)為ρ=0.5。加入1000個無差異的正態(tài)變量作為干擾,產(chǎn)生混合樣本。應(yīng)用Boosting方法構(gòu)建的模型對變量重要性進(jìn)行度量。重復(fù)上述步驟500次,表1給出的是預(yù)先設(shè)置的差異變量的頻數(shù)分布情況。結(jié)果顯示,θ=0.85在時獲得的結(jié)果不夠理想,而在兩種較高的區(qū)分度下,正確地將差異變量篩選到前10位的百分率分別達(dá)到了98.6%甚至于100.0%,結(jié)果令人滿意。
表1 設(shè)定的5個差異變量在變量重要性評價分析中的頻數(shù)分布
病例入選標(biāo)準(zhǔn),納入病例應(yīng)為無代謝疾病(糖尿病、高血脂、甲亢、甲減等)的卵巢癌、良性卵巢囊腫和無癌癥及卵巢疾病的對照女性。
由于在Windows操作系統(tǒng)下,使用R語言構(gòu)建BTS對變量的個數(shù)有一定的限制,因此首先應(yīng)用單變量分析方法(SAM)做預(yù)處理后,然后再用BTS模型進(jìn)行分析。經(jīng)過SAM方法分析后,選取SAM得分排在前2000的代謝組分進(jìn)行分析,應(yīng)用Boosting組合模型對經(jīng)過預(yù)處理的卵巢癌代謝組數(shù)據(jù)進(jìn)行了分析,利用無放回的隨機(jī)抽樣方法,將樣本分成兩部分,其中2/3為訓(xùn)練樣本,1/3為測試樣本,按此方法隨機(jī)組成1000個訓(xùn)練樣本和1000個測試樣本,建立組合分類器,最后綜合評價分類效果。評價采用靈敏度(Se)、特異度(Sp)、和ROC曲線下面積(AUC)三種指標(biāo),其中AUC值為主要評價指標(biāo)。
圖3 在保留了2000個代謝組分的情況下Boosting模型對卵巢癌數(shù)據(jù)分類的ROC曲線
預(yù)測效果的ROC曲線見圖3??梢钥闯?,在保留了2000個代謝組分的情況下,對外部測試集獲得了較為理想的判別分類結(jié)果,其靈敏度(Se)和特異度(Sp)分別為0.733和0.724,而ROC曲線下面積(AUC)則達(dá)到0.801。判別分類效果不甚理想,可能是由于噪聲變量(或?qū)Ψ诸悷o作用的代謝組分)太多引起的。
應(yīng)用Boosting模型進(jìn)行分類的同時,篩選出排序靠前的對分類起作用的變量。篩選標(biāo)準(zhǔn)是將1000次分類中篩選進(jìn)來的變量出現(xiàn)的概率≥80% 的變量提取出來,共提出30個變量。將篩選出的這30個變量對卵巢癌數(shù)據(jù)的外部驗證集進(jìn)行1000次分類判別,得到的分類結(jié)果(AUC值)的頻數(shù)圖如下,由圖4可以看出分類能力顯著提高。可見這30個變量中一定存在對分類起作用的信息。
圖4 應(yīng)用篩選出的30個變量進(jìn)行1000次分類得到的AUC值的頻數(shù)圖
為了篩選出最佳對分類起作用的變量,進(jìn)行了進(jìn)一步的變量提取工作。將30個變量按照變量重要性評分逐漸遞減,并用分類結(jié)果作驗證。從表2和圖5可以看出,當(dāng)截取到10個變量的時候,分類判別能力達(dá)到理想的效果??梢娺@10個代謝組分可能是區(qū)分卵巢癌患者與對照組患者的重要標(biāo)志物。
表2 隨著變量數(shù)目的減少分類結(jié)果AUC值的變化
圖5 隨著變量數(shù)目的減少分類結(jié)果AUC值的變化
1.卵巢癌的早期診斷與早期治療是改善預(yù)后的關(guān)鍵。在疾病早期腫瘤僅局限于卵巢時難以診斷,所以尋找有實用價值的診斷方法成了近年來的研究熱點(diǎn)。代謝組學(xué)的研究近年來蓬勃發(fā)展,如果我們僅通過患者的代謝物(血液或尿液)即能夠做出正確的診斷,不僅給臨床的診斷工作帶來極大的便利,也為患者減輕做病理所帶來的痛苦。所以運(yùn)用代謝物來鑒別腫瘤的良惡性將是一件很有意義的工作。
2.本研究采用分類決策樹作為基礎(chǔ)算法,應(yīng)用Boosting方法建模,在模擬數(shù)據(jù)和實際數(shù)據(jù)的應(yīng)用中均取得了理想的結(jié)果。在對卵巢癌代謝組實際數(shù)據(jù)的分析中,該模型能夠在分類的同時給出差異表達(dá)代謝組分的變量重要性評分,并由進(jìn)一步的分類驗證可以看出,該模型預(yù)測的準(zhǔn)確性也能夠令人滿意,為臨床上對卵巢癌患者的診斷和治療提供了一定的依據(jù)。
3.此方法篩選出的10個代謝組分,通過HMDB數(shù)據(jù)庫的查詢,多數(shù)可能為磷脂類的物質(zhì),但由于大量同分異構(gòu)體的存在,為了確保究竟是何種代謝組分,應(yīng)該將物質(zhì)打碎進(jìn)一步做二級質(zhì)譜以確定是何種代謝組分,這部分試驗尚在進(jìn)行之中。
1.Jerome F,Trevor H,Robert T.Additive logistic regression:a statistical view of Boosting.The annals of Statistics,2000,28:337-407.
2.Schwenk H,Bengio Y.Boosting networks and neural computation,2000,12(8):1869-1887.
3.Servane Gey,Jean-Michel Poggi.Boosting and instability for regression trees.Computational Statistics& Data Analysis,2006,50:533-550.
4.Freund Y,Schapire R.Decision theoretic generalization of on-line learning and an application to boosting.Journal of Computer and System Science,1995,55(1):119-139.
5.李霞,何麗云,劉超.Boosting算法及其在中醫(yī)亞健康數(shù)據(jù)分類中的應(yīng)用.中國衛(wèi)生統(tǒng)計,2008,25(2):158-161.
6.Dao Li-li,Hu ke-yun,Lu Yu-chang.Improved stumps combined by boosting for text categorization.Journal of Software,2002,13(8):1361-1367.
The Study of Boosting Algorithm Applied to Ovarian Cancer Metabonomics Data
Wu Zhenyu,Jia Huixun,Zhu Ji.Department of Biostatistics,F(xiàn)udan University(200032),Shanghai
ObjectiveBoosting model was built to analyze the metabonomics data from ovarian cancer and ovarian cyst patients urine.Some biological metabolites were also extracted from the data,which would provide some clues to the early diagnosis.MethodsBoosting and decision tress were combined to analyze the metabnomics data and the important metabolites were achieved according to their importance scores.ResultsThe top ten metabolites were extracted and the area under ROC curve was 0.944,which provided a better classification results than the original dataset.ConclusionBoosting could be effectively applied to the classification of ovarian cancer metabnomics data,important features could also be extracted at the same time.
Metabnomics data;Boosting;Feature selection