摘要:乳腺癌的早期診斷與治療有著重要的作用,已有多種分類方法應(yīng)用于此種診斷。本文分別對(duì)C4.5決策樹算法、樸素貝葉斯算法,支持向量機(jī),KNN的原理進(jìn)行論述,并基于乳腺癌數(shù)據(jù)運(yùn)用上述分類方法進(jìn)行模型構(gòu)建,分析比較各模型性能,其中支持向量機(jī)性能較優(yōu)。
關(guān)鍵詞:乳腺癌;分類方法;C4.5決策樹;樸素貝葉斯;支持向量機(jī);KNN
乳腺癌是女性常見的癌癥,據(jù)統(tǒng)計(jì),乳腺癌是世界上第二大最常見的癌癥,也有著較高的致死率。歷年來,已有不少分類算法應(yīng)用于癌癥的輔助診斷。C4.5決策樹算法,樸素貝葉斯算法,支持向量機(jī)算法都屬于分類方法中的經(jīng)典算法,它們基于不同的原理,對(duì)乳腺癌數(shù)據(jù)的分類性能上也存在些微的差異。
1 方法
1.1 C4.5分類器 C4.5是一種經(jīng)典的決策樹算法。是昆蘭早期ID3算法的擴(kuò)展版本。ID3主要基于信息增益來進(jìn)行屬性分裂,而C4.5不同于ID3,其屬性選擇度量基于信息增益率。即
其中splitInfoA(D)代表由訓(xùn)練數(shù)據(jù)集D劃分成對(duì)應(yīng)于屬性A測試的v個(gè)輸出的v個(gè)分區(qū)所產(chǎn)生的信息;Grain(A)表示基于按A屬性劃分的所獲得信息增益。
1.2樸素貝葉斯分類 樸素貝葉斯同時(shí)具有類條件獨(dú)立的強(qiáng)假設(shè),即一個(gè)屬性值對(duì)給定類的影響?yīng)毩⒂谄渌麑傩灾?。針?duì)離散變量與連續(xù)變量,樸素貝葉斯處理方式不同。對(duì)于離散變量,常用比例表示概率;對(duì)于連續(xù)變量,且通常假設(shè)其報(bào)從高斯分布或其它連續(xù)性分布。其原理如下:
假設(shè)C為與隨機(jī)變量相關(guān)聯(lián)的類,X為觀察值的一組隨機(jī)變量的向量。C表示某一具體類標(biāo),x表示某一具體隨機(jī)變量值。假設(shè)測試集中某一測試數(shù)據(jù)x來進(jìn)行分類,則其概率可基于貝葉斯概率來得到,然后基于此來預(yù)測最有可能的類。
1.3支持向量機(jī) 支持向量機(jī)是一種可對(duì)線性及非線性數(shù)據(jù)進(jìn)行分類的方法,其基礎(chǔ)建立在VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化理論之上,具有堅(jiān)實(shí)的統(tǒng)計(jì)學(xué)理論基礎(chǔ)。針對(duì)醫(yī)學(xué)數(shù)據(jù)復(fù)雜的非線性邊界,支持向量機(jī)有著強(qiáng)大的建模能力,同時(shí)通邊間隔參數(shù)的設(shè)定也可有效的抑制過擬合。其常用的核函數(shù)有如下幾種:
1.4 KNN 最近鄰分類器是一種常用的基于相似度的分類器,其在訓(xùn)練時(shí)僅僅會(huì)在訓(xùn)練時(shí)僅僅儲(chǔ)存訓(xùn)練數(shù)據(jù)集作為知識(shí)庫而不建立分類模型,在分類時(shí)根據(jù)知識(shí)庫中與新數(shù)據(jù)點(diǎn)最相似的若干個(gè)數(shù)據(jù)點(diǎn)的類別來預(yù)測新數(shù)據(jù)點(diǎn)的類別。在對(duì)新數(shù)據(jù)點(diǎn)X分類時(shí),k NN分類器首先從知識(shí)庫D中搜索與X相似度最高(的k個(gè)數(shù)據(jù)點(diǎn),稱為最近的k個(gè)鄰居,然后返回k個(gè)鄰居中出現(xiàn)次數(shù)最多的類別作為對(duì)X所屬類別的預(yù)測。
數(shù)據(jù)點(diǎn)之間的相似度通常用歐幾里德距離表示。假設(shè)數(shù)據(jù)點(diǎn)除類別屬性外有n個(gè)屬性,則X1=(x11,x12,……x1n)與X2=(x21,x22,……x2n)之間的距離定義為:
2基于乳腺癌數(shù)據(jù)的方法比較
2.1數(shù)據(jù) 本文所用的癌癥數(shù)據(jù)來自加州大學(xué)歐文分校機(jī)器學(xué)習(xí)數(shù)據(jù)集倉庫中的威斯康辛州乳腺癌數(shù)據(jù)集[1]。該數(shù)據(jù)集據(jù)集共有569個(gè)數(shù)據(jù)點(diǎn),每個(gè)數(shù)據(jù)點(diǎn)有32個(gè)屬性,其中第一個(gè)屬性為患者ID號(hào),第二屬性為診斷結(jié)果(“M”表示惡性,“B”表示良性)。剩余的30個(gè)屬性來源于乳房硬塊的細(xì)針抽吸(FNA)數(shù)字影像,分別是影像中細(xì)胞核的10種特征的最大值、平均值、方差。這10種特征包括半徑、周長、面積、質(zhì)地、致密性、平滑度、凹度、凹點(diǎn)數(shù)、對(duì)稱性、分形維度等。
2.2分類結(jié)果 為保證實(shí)驗(yàn)結(jié)果的可靠性,本論文采用10折交叉驗(yàn)證(10-Fold Cross Validation)的方法來進(jìn)行模型構(gòu)建,并基于準(zhǔn)確率,靈敏度,特異性,F(xiàn)1度量,加權(quán)準(zhǔn)確率,ROC面積等多維度評(píng)價(jià)各模型性能,所得結(jié)果,見表1。
通過表1可看出支持向量機(jī)在準(zhǔn)確率、靈敏度、特異性上皆優(yōu)于其它三種方法,可看出支持向量機(jī)方法在小樣本學(xué)習(xí)中較優(yōu)的預(yù)報(bào)能力。而在F1度量、加權(quán)準(zhǔn)確率與ROC面積三個(gè)維度上,KNN方法表現(xiàn)較優(yōu)
3 結(jié)論
C4.5決策樹方法是一種構(gòu)建分類模型的非參數(shù)方法,即無需任何先驗(yàn)假設(shè),亦無需假定類和其他屬性服從一定的概率分布,亦很難找到最佳的決策樹;但同時(shí)模型易于解釋,便于提取規(guī)則,同時(shí)對(duì)噪聲干擾及冗余屬性也有著相當(dāng)好的魯棒性。樸素貝葉斯分類算法基于貝葉斯定理,對(duì)于孤立的噪聲點(diǎn)、無關(guān)的屬性、遺漏屬性值,分類模型都具有較好的魯棒性;但同時(shí)相關(guān)屬性可能會(huì)降低樸素貝葉斯分類器的性能,故在使用時(shí)亦須滿足屬性間互相獨(dú)立前提條件。支持向量機(jī)可有效調(diào)節(jié)算法復(fù)雜度與泛化能力之間的矛盾,其在小樣本學(xué)習(xí)領(lǐng)域中有著優(yōu)于傳統(tǒng)模式識(shí)別方法的推廣能力,然而在處理較大規(guī)模數(shù)據(jù)集時(shí),往往需要較長的訓(xùn)練時(shí)間。KNN方法是一種基于實(shí)例的學(xué)習(xí),可生成任意形狀的決策邊界,無需建立模型,但其分類中開銷很大,需逐個(gè)計(jì)算相似度,此外,當(dāng)k取值較小時(shí),對(duì)噪聲也很敏感[2]。
針對(duì)上述不足,國內(nèi)外研究者們也已做出相應(yīng)的改進(jìn),但尚未有一個(gè)能同時(shí)實(shí)現(xiàn)訓(xùn)練時(shí)間短,預(yù)測能力強(qiáng),規(guī)則提取簡易且適應(yīng)性強(qiáng)的分類方法[3]。從目前的發(fā)展趨勢來看,分類方法將側(cè)重于多種策略與技術(shù)的組合及多學(xué)科的交叉應(yīng)用。另一方面,針對(duì)多種特定的癌癥數(shù)據(jù)類型,分析比較各分類方法的差異,建立方法和數(shù)據(jù)類型的適用性對(duì)應(yīng)關(guān)系也是一個(gè)值得研究的發(fā)展方向。
參考文獻(xiàn):
[1]加州大學(xué)歐文分校機(jī)器學(xué)習(xí)數(shù)據(jù)集倉庫中的威斯康辛州乳腺癌數(shù)據(jù)集(UCI).
[2]Jiawei Han,Micheline Kamber.Data Mining:Concepts and Techniques Second Edition[M].San Francisco:Morgan Kaufmann Publishers,2006:225-243.
[3]J.R.Quinlan.An empirical comparison of genetic and decision-tree classifiers.in Proc.1988 Int.Conf.Machine Learning(ICML’88),1998:135-141.
編輯/肖慧