賀立強(qiáng),王玉娟,林和平
(東北師范大學(xué) 計(jì)算機(jī)科學(xué)與信息技術(shù)學(xué)院,吉林 長春 130117)
基于支持向量機(jī)的乳腺癌化療預(yù)后狀態(tài)預(yù)測
賀立強(qiáng),王玉娟,林和平
(東北師范大學(xué) 計(jì)算機(jī)科學(xué)與信息技術(shù)學(xué)院,吉林 長春 130117)
乳腺癌是危害女性生命的一種惡性腫瘤。目前,在乳腺癌治療方面,新輔助化療獲得了良好的成果,使眾多女性恢復(fù)了健康。支持向量機(jī)在實(shí)際應(yīng)用中有著良好的泛化和學(xué)習(xí)能力,并在商業(yè)、經(jīng)濟(jì)以及醫(yī)療等領(lǐng)域有所應(yīng)用。采用決策樹分類器和支持向量機(jī)分類器,結(jié)合乳腺癌新輔助化療隨訪記錄數(shù)據(jù),預(yù)測乳腺癌患者新輔助化療的預(yù)后狀態(tài),實(shí)驗(yàn)結(jié)果表明使用支持向量機(jī)的效果好于使用決策樹的效果,在支持向量機(jī)中使用徑向基核函數(shù)時(shí)獲得了最高的準(zhǔn)確率,達(dá)到了84.08%,由此可見,該分類方法可能成為一種乳腺癌新輔助化療的預(yù)后狀態(tài)的有效預(yù)測工具。
乳腺癌;新輔助化療;預(yù)后;支持向量機(jī);分類
女性的乳房是其美麗的代言,是母性的傳承,同時(shí)也是疾病的侵?jǐn)_對象。乳腺癌是女性最常見的惡性腫瘤之一,發(fā)病率正在逐年上升,且趨于年輕化,是危害女性健康的主要?dú)⑹郑?]。我國乳腺癌疾病也有著不好的趨勢,其發(fā)病率和死亡率正在逐年攀升。由于受中國傳統(tǒng)因素的影響,婦女很少去醫(yī)院定期檢查,羞于關(guān)注乳房的健康,女性一旦發(fā)現(xiàn)患有乳腺腫瘤,多數(shù)已經(jīng)開始轉(zhuǎn)移。由于患者的體質(zhì)不同,各項(xiàng)指標(biāo)亦不相同,如何在患者進(jìn)行新輔助化療之前預(yù)測到患者的化療療效,使能進(jìn)行化療的患者得到最大的受益,就變得尤為重要。本文將依據(jù)患者隨訪記錄信息,通過數(shù)據(jù)挖掘技術(shù),對患者化療療效進(jìn)行預(yù)測,為乳腺癌患者的治療提供可靠的幫助。
伴隨著社會(huì)經(jīng)濟(jì)水平的逐漸提高,乳腺癌逐漸被人們重視起來,國內(nèi)外學(xué)者和醫(yī)療工作者對計(jì)算機(jī)輔助治療做了大量的研究工作,并取得了一定的研究成果。然而伴隨著研究人員對乳腺癌的深入鉆研,大量的研究數(shù)據(jù)不斷涌現(xiàn),臨床病例每一位患者都有著大量的檢測、治療和預(yù)后數(shù)據(jù)。患者的醫(yī)療數(shù)據(jù)信息量很大,相互之間聯(lián)系復(fù)雜,想要提取有用的信息數(shù)據(jù),進(jìn)而從信息中提取出有用的知識(shí)更是難上加難。目前我國人民思想比較傳統(tǒng),乳腺癌治療與預(yù)測相對落后,計(jì)算機(jī)醫(yī)療輔助治療遠(yuǎn)遠(yuǎn)不如發(fā)達(dá)國家,為此,需要進(jìn)一步提升我國的醫(yī)療水平。
支持向量機(jī)是一個(gè)被大量使用的分類技術(shù)。其具有堅(jiān)實(shí)的統(tǒng)計(jì)學(xué)理論基礎(chǔ),在商業(yè)領(lǐng)域、經(jīng)濟(jì)領(lǐng)域以及醫(yī)療領(lǐng)域等具有很好的應(yīng)用效果。支持向量機(jī)分為兩種模型,第一種是線性可分,第二種是線性不可分,第一種模型其實(shí)是第二種模型的特例[2]。
提高線性分類器的學(xué)習(xí)能力是通過核函數(shù)實(shí)現(xiàn)的。采用將數(shù)據(jù)映射高維空間的辦法,使線性不可分變?yōu)榭煞帧3S玫暮撕瘮?shù)有以下幾種:
(1)線性核函數(shù)
(2)徑向基核函數(shù)
(3)多項(xiàng)式核函數(shù)
(4)Sigmoid核函數(shù)
在實(shí)際應(yīng)用中,核函數(shù)的選擇尤為重要,對于同一數(shù)據(jù),不同的核函數(shù)所得到的分類準(zhǔn)確率大不相同,所以核函數(shù)的優(yōu)選在支持向量機(jī)分類中顯得尤為重要。
3.1 數(shù)據(jù)預(yù)處理
本文所用數(shù)據(jù)來源于吉林大學(xué)附屬醫(yī)院,該數(shù)據(jù)集是依據(jù)乳腺癌化療隨訪記錄表所獲,包含 2009年~2013年所有數(shù)據(jù)。經(jīng)過與醫(yī)生的共同探討,從眾多數(shù)據(jù)中選取了 245名患者隨訪記錄,其中 180個(gè)是具有良好治療效果的記錄,65個(gè)是治療效果不理想的記錄。在新輔助化療治療下有良好效果的乳腺癌患者被定義為正樣本,在新輔助化療治療下效果不理想的患者,則定義為負(fù)樣本。所屬的分類標(biāo)簽分別制定為+1和-1。每個(gè)樣本對應(yīng)一個(gè)患者的醫(yī)療特征,其中每一維的特征都是根據(jù)有經(jīng)驗(yàn)的醫(yī)生從中提取,是能夠表現(xiàn)出其病情的重要特征。
考慮到支持向量機(jī)處理的數(shù)據(jù)都是實(shí)數(shù),本文對非數(shù)值屬性進(jìn)行了轉(zhuǎn)換。轉(zhuǎn)換后的數(shù)據(jù)同樣適用于本文將要對比的決策樹算法。比如患者特征中 Echogenic Halo特征包含的特征值為3個(gè),分別為Yes,No,Unknown,則對應(yīng)的數(shù)值分別為 1,2,3,但是為了防止較大數(shù)值獲得最大權(quán)重,采取了如下所示的編碼機(jī)制:
Yes(1,0,0)
No(0,1,0)
Unknown(0,0,1)
3.2 分類結(jié)果
為了使分類效果得到更好的評估,引入靈敏度(Sen)、特異度(Spe)和準(zhǔn)確率(Q)來評價(jià)本文所使用分類器的性能,分別給出評價(jià)指標(biāo)的公式如式(5)~式(7)[3]。
其中 TP是指在工作集中實(shí)際是正樣本,預(yù)測結(jié)果為正樣本的數(shù)目;FN是指在工作集中實(shí)際是正樣本,預(yù)測結(jié)果為負(fù)樣本的數(shù)目;TN是指在工作集中實(shí)際是負(fù)樣本,預(yù)測結(jié)果為負(fù)樣本的數(shù)目;FP是在工作集中實(shí)際是負(fù)樣本,預(yù)測結(jié)果為正樣本的數(shù)目[4]。
本文中所使用的數(shù)據(jù)均來自醫(yī)院真實(shí)數(shù)據(jù),正負(fù)樣本不均衡,為了更好地評價(jià)分類器的性能,故而引入Matthews相關(guān)系數(shù)MCC。計(jì)算公式如下:
MCC的取值范圍在[-1,1]之間,取值越小說明該分類器性能越不好,反之則分類效果越好。
本文使用決策樹 C4.5算法和支持向量機(jī)算法,并結(jié)合五次交叉驗(yàn)證方法來進(jìn)行乳腺癌新輔助化療預(yù)后狀態(tài)的預(yù)測。預(yù)測效果如表1所示。由表1得知,使用支持向量機(jī)比使用 C4.5分類效果要好。本文還分別對比了支持向量機(jī)的三種核函數(shù),所體現(xiàn)的準(zhǔn)確率均高于決策樹的 73.47%。從中可以看出,對于本數(shù)據(jù)來說,支持向量機(jī)分類效果要明顯好于決策樹。據(jù)表中數(shù)據(jù)顯示,靈敏度明顯高于特異度,說明正樣本學(xué)習(xí)效果比負(fù)樣本學(xué)習(xí)效果要好。
本文分別對比了支持向量機(jī)的三種核函數(shù),對于本實(shí)驗(yàn)中所使用的該乳腺癌患者數(shù)據(jù),其準(zhǔn)確率均高于75%。支持向量機(jī)的最佳準(zhǔn)確率為84.08%,是使用徑向基核函數(shù)得到的,明顯高于其他兩種。由此得知,對于同一數(shù)據(jù)集而言,核函數(shù)不一樣,其準(zhǔn)確率也不一樣。想要得到高效的分類效果,必須選擇合適的核函數(shù)[5]。
本文所使用的數(shù)據(jù)集,數(shù)目有限,眾多數(shù)據(jù)中能夠起到支持向量的數(shù)據(jù)不夠充分。通過增加訓(xùn)練數(shù)據(jù),可找到更多的支持向量,進(jìn)而提高分類的準(zhǔn)確率,所以本文所采用的支持向量機(jī)方法有望成為新輔助乳腺癌患者預(yù)后預(yù)測的有效工具。
本文使用兩種分類算法,并對其結(jié)果進(jìn)行了對比,從實(shí)驗(yàn)結(jié)果中可以看到,支持向量機(jī)在處理乳腺癌新輔助化療預(yù)后狀態(tài)預(yù)測方面的分類效果好于決策樹分類效果。分別比較了支持向量機(jī)三種核函數(shù),從結(jié)果數(shù)據(jù)中可以看出,使用徑向基核函數(shù)可使分類器獲得最佳分類效果。所以在使用支持向量機(jī)進(jìn)行分類的同時(shí),選擇哪一種核函數(shù)是至關(guān)重要的。支持向量機(jī)應(yīng)用于乳腺癌治療,會(huì)給乳腺癌患者帶來很大的幫助,使乳腺癌的治療越來越高效,降低死亡率,增加保乳機(jī)會(huì),使患者早日脫離疾病的折磨,恢復(fù)健康。
表1 決策樹與支持向量機(jī)五次交叉驗(yàn)證結(jié)果
[1]臧丹丹,崔穎,師建國,等.中國西部地區(qū)乳腺癌診斷年齡的抽樣分析及中美對比研究 [J].現(xiàn)代腫瘤醫(yī)學(xué),2010,18(3):571-573.
[2]王平,王文劍.基于時(shí)序核函數(shù)的支持向量回歸機(jī)[J].計(jì)算機(jī)輔助工程,2006,15(3):35-38.
[3]袁前飛,蔡從中,肖漢光,等.基于支持向量機(jī)的乳腺癌預(yù)后狀態(tài)預(yù)測和療效評估 [J].北京生物醫(yī)學(xué)工程,2007,26(4):372-376.
[4]馬勝祥,馬建慶,楊明.基于核函數(shù)擬合的非平衡數(shù)據(jù)分類方法[J].計(jì)算機(jī)應(yīng)用與軟件,2010,27(4):177-179.
[5]崔炳德.支持向量機(jī)分類器遙感圖像分類研究[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(27):189-191.
Prediction of prognosis for breast cancer based on support vector machine
He Liqiang,Wang Yujuan,Lin Heping
(School of Computer Science and Information Technology,Northeast Normal University,Changchun 130117,China)
Mammary cancer is a malignant tumor of the harm of women′s life.At present,in the treatment of mammary cancer,neo-adjuvant chemotherapy achieved good results,so that many women back to health.Support vector machine has a good generalization and learning ability in practical application,and has been applied in the commercial,economic,medical and other fields.According to Neo-adjuvant chemotherapy in mammary cancer follow-up record data,using decision tree classifier and SVM classifier,predict the prognosis of neo-adjuvant chemotherapy for mammary cancer patients,the experimental results show that the use of support vector machine is better than the effect of using decision tree,using RBF kernel function in support vector machines have the highest accuracy,reached 84.08%。Thus,the classification method,may be an effective tool to predict prognosis for mammary cancer neo-adjuvant chemotherapy.
breast cancer;neo-adjuvant chemotherapy;prognosis;support vector machine;classification
TP399
A
1674-7720(2015)23-0048-03
賀立強(qiáng),王玉娟,林和平.基于支持向量機(jī)的乳腺癌化療預(yù)后狀態(tài)預(yù)測[J].微型機(jī)與應(yīng)用,2015,34(23):48-50.
2015-07-15)
賀立強(qiáng)(1992-),男,碩士研究生,主要研究方向:人工智能、數(shù)據(jù)挖掘。
王玉娟(1987-),女,碩士研究生,主要研究方向:信息技術(shù)教學(xué)論。
林和平(1956-),男,碩士,教授,主要研究方向:人工智能、數(shù)據(jù)挖掘。