賴碟
摘要:由于電子的醫(yī)療數(shù)據(jù)爆發(fā)式地增長(zhǎng)和現(xiàn)今的機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘技術(shù)的演進(jìn),深度學(xué)習(xí)方法在醫(yī)療行業(yè)的分量也越來越重。人們利用數(shù)據(jù)對(duì)患者的病情進(jìn)行預(yù)測(cè)、檢測(cè)不良藥物、檢測(cè)不良反應(yīng)等等,通過挖掘的數(shù)據(jù)源、方法和案例研究,來進(jìn)行知識(shí)發(fā)現(xiàn),并將挖掘出的知識(shí)呈現(xiàn)給醫(yī)學(xué)專家,從而進(jìn)行更加快速準(zhǔn)確的判斷。醫(yī)學(xué)數(shù)據(jù)挖掘是提高醫(yī)療信息管理水平,為疾病的診斷和治療提供科學(xué),準(zhǔn)確的決策,促進(jìn)醫(yī)療事業(yè)的發(fā)展。本文使用了一些數(shù)據(jù)集,基于WEKA數(shù)據(jù)挖掘平臺(tái),簡(jiǎn)單分析了乳腺癌數(shù)據(jù)的分類并比較了不同挖掘算法的分類準(zhǔn)確性。目的是基于WEKA數(shù)據(jù)挖掘平臺(tái)尋找最適合乳腺癌診斷和醫(yī)學(xué)數(shù)據(jù)早期預(yù)測(cè)的算法,為后期醫(yī)療行業(yè)的大數(shù)據(jù)分析和挖掘提供新思路。
關(guān)鍵詞:數(shù)據(jù)挖掘;WEKA平臺(tái);乳腺癌;預(yù)測(cè);分類器比較
研究背景
隨著電子信息技術(shù)的發(fā)展,以及“互聯(lián)網(wǎng)+”的廣泛應(yīng)用,電子病歷和醫(yī)療記錄、醫(yī)療設(shè)備和儀器也實(shí)現(xiàn)了數(shù)字化,大多醫(yī)院在自己的數(shù)據(jù)庫(kù)系統(tǒng)中積累了大量的有關(guān)患者病例,診斷,檢查和治療的臨床信息。通過大量文獻(xiàn)調(diào)查,發(fā)現(xiàn)數(shù)據(jù)挖掘技術(shù)可以應(yīng)用于預(yù)測(cè)與心臟,癌癥和腎臟相關(guān)的一些主要身體疾病。數(shù)據(jù)挖掘技術(shù)是指利用一種或多種計(jì)算機(jī)學(xué)習(xí)技術(shù),從數(shù)據(jù)中自動(dòng)分析并提供信息的過程。目的是尋找和發(fā)現(xiàn)數(shù)據(jù)中潛在的有價(jià)值的信息、知識(shí)、規(guī)律、聯(lián)系和模式。數(shù)據(jù)挖掘與計(jì)算機(jī)科學(xué)有關(guān),通常使用機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、聯(lián)機(jī)分析處理、專家系統(tǒng)和模式識(shí)別等多種方式來實(shí)現(xiàn)。醫(yī)學(xué)數(shù)據(jù)挖掘是提高醫(yī)學(xué)信息管理水平,為疾病的診斷和治療提供科學(xué)準(zhǔn)確的決策,促進(jìn)醫(yī)療發(fā)展的需要。
近年乳腺癌的發(fā)病率在不斷升高,中國(guó)更是乳腺癌發(fā)病率增長(zhǎng)最快的國(guó)家之一,但總體死亡率有不斷下降的趨勢(shì),這離不開乳腺癌的早期診斷、預(yù)防工作以及乳腺癌綜合治療的進(jìn)步。在乳腺癌危險(xiǎn)因素研究的基礎(chǔ)上,很多國(guó)家和醫(yī)學(xué)組織都在構(gòu)建風(fēng)險(xiǎn)評(píng)估模型,旨在確定高危人群范圍,以便采取更為積極的篩查或預(yù)防措施。乳腺癌的風(fēng)險(xiǎn)評(píng)估模型是建立在不同國(guó)家和學(xué)術(shù)組織的研究基礎(chǔ)上的,所以適用的人群不同,側(cè)重基因檢測(cè)及流行病學(xué)資料也各有不同。
因此,掌握醫(yī)學(xué)數(shù)據(jù)挖掘的能力越成為開展基礎(chǔ)醫(yī)學(xué)和臨床醫(yī)學(xué)等醫(yī)學(xué)課題的先決條件。本文在WEKA數(shù)據(jù)挖掘平臺(tái)的基礎(chǔ)上,對(duì)乳腺癌數(shù)據(jù)進(jìn)行挖掘分析,并比較不同挖掘算法的分類準(zhǔn)確性。旨在基于WEKA數(shù)據(jù)挖掘平臺(tái)尋找最適合醫(yī)學(xué)數(shù)據(jù)乳腺癌診斷和早期預(yù)測(cè)的算法,為后期醫(yī)療行業(yè)的大數(shù)據(jù)分析及挖掘提供新思路。
1 確定KDD目標(biāo)
使用以下流程,通過構(gòu)建幾種不同乳腺癌分類模型,對(duì)病人的病情分別進(jìn)行評(píng)估預(yù)測(cè),判斷是否患有乳腺癌,并分析模型的好壞。
2 數(shù)據(jù)準(zhǔn)備
2.1獲取數(shù)據(jù)
通過http://archive.ics.uci.edu/獲取數(shù)據(jù)集
2.2數(shù)據(jù)信息
本實(shí)驗(yàn)是針對(duì)威斯康辛州(原始)的乳腺癌數(shù)據(jù)集進(jìn)行分類,該數(shù)據(jù)集共有699個(gè)數(shù)據(jù)實(shí)例,其中類分布:良性458個(gè),惡性241個(gè)。
該數(shù)據(jù)集的數(shù)據(jù)屬性如下:
attribute? domain
Sample code number(樣本代碼)?????? id number
Clump Thickness(叢厚度) 1-10
Uniformity of Cell Size(均勻的細(xì)胞大?。?1-10
Uniformity of Cell Shape(均勻的細(xì)胞形狀)????? 1-10
Single Epithelial Cell Size(單個(gè)上皮細(xì)胞大小) 1-10
Bare Nuclei(裸核)????? 1-10
Normal Nucleoli(正常核仁)??? ?? 1-10
Mitoses(有絲分裂)?? 1-10
Class(類型)???????? 良性2個(gè),惡性4個(gè)
2.3數(shù)據(jù)預(yù)處理
數(shù)據(jù)集中有16條缺失數(shù)據(jù),這里我們直接將16條數(shù)據(jù)刪除,由于總共有699個(gè)實(shí)例,占比十分小,所以刪除的實(shí)例對(duì)結(jié)果不會(huì)有太大的影響。
對(duì)于有指導(dǎo)學(xué)習(xí),刪除缺失后的數(shù)據(jù)總共683條數(shù)據(jù),我們這里將前400個(gè)實(shí)例作為訓(xùn)練數(shù)據(jù)集,后283個(gè)實(shí)例作為測(cè)試數(shù)據(jù)集。
3 確定KDD模型及評(píng)估指標(biāo)
3.1分類器
使用WEKA數(shù)據(jù)挖掘工具實(shí)現(xiàn)了各種算法,用于實(shí)驗(yàn)分析,選取的算法介紹如下。
J48:用于對(duì)數(shù)據(jù)進(jìn)行分類的簡(jiǎn)單決策樹算法。J48是以分類為目的的監(jiān)督學(xué)習(xí)方法。它是基于分而治之的方法。它將整個(gè)數(shù)據(jù)分成一個(gè)子范圍,是基于樣本訓(xùn)練數(shù)據(jù)集中已經(jīng)可用的值的當(dāng)前屬性值
基本思想是選擇具有最大增益率的屬性作為分支節(jié)點(diǎn)來分類實(shí)例數(shù)據(jù)。信息增益表示當(dāng)x取屬性x_i值時(shí),其對(duì)降低x的熵的貢獻(xiàn)大小。信息增益越大,越適宜對(duì)x進(jìn)行分類。計(jì)算屬性A的增益率公式如下:
根據(jù)信息熵的公式,可以很容易得出 。 為當(dāng)前數(shù)據(jù)集所有實(shí)例所表達(dá)的信息量, 為根據(jù)屬性A的k個(gè)可能取值分類I中實(shí)例之后所表達(dá)的信息量。計(jì)算 和 的公式如下所示:
其中,n為實(shí)例集合I被分為可能的類的個(gè)數(shù),k為屬性A具有k個(gè)輸出結(jié)果。
最后, 是對(duì)A屬性的增益值的標(biāo)準(zhǔn)化,目的是消除屬性選擇上的偏差,即在所有實(shí)例的屬性A的取值只有一個(gè)時(shí),該屬性總被優(yōu)先選取的情況。計(jì)算 的公式如下:
隨機(jī)樹:是指隨機(jī)過程建立的樹或者樹狀圖,是一種隨機(jī)決策樹。
隨機(jī)森林(RF):RF是一種通常適用于隨機(jī)樹的集成方法。在數(shù)據(jù)集的基礎(chǔ)上形成許多分類樹,根據(jù)分類樹每個(gè)輸入向量,最終分類一個(gè)新對(duì)象。介紹RF之前,我們需要了解一下Bagging思想。
Bagging是bootstrap aggregating。就是從總體樣本當(dāng)中隨機(jī)取一部分樣本進(jìn)行訓(xùn)練,通過多次這樣的結(jié)果,進(jìn)行投票獲取平均值作為結(jié)果輸出,這就極大可能的避免了不好的樣本數(shù)據(jù),從而提高準(zhǔn)確度。因?yàn)橛行┦遣缓玫臉颖?,相?dāng)于噪聲,模型學(xué)入噪聲后會(huì)使準(zhǔn)確度不高。RandomForest(隨機(jī)森林)是一種基于樹模型的Bagging的優(yōu)化版本,一棵樹的生成肯定還是不如多棵樹,因此就有了隨機(jī)森林,解決決策樹泛化能力弱的特點(diǎn)。同一批數(shù)據(jù),用同樣的算法只能產(chǎn)生一棵樹,這時(shí)Bagging策略可以幫助我們產(chǎn)生不同的數(shù)據(jù)集,從樣本集(假設(shè)樣本集N個(gè)數(shù)據(jù)點(diǎn))中重采樣選出N個(gè)樣本(有放回的采樣,樣本數(shù)據(jù)點(diǎn)個(gè)數(shù)仍然不變?yōu)镹),在所有樣本上,對(duì)這n個(gè)樣本建立分類器,重復(fù)以上兩步m次,獲得m個(gè)分類器,最后根據(jù)這m個(gè)分類器的投票結(jié)果,決定數(shù)據(jù)屬于哪一類。
總的來說就是隨機(jī)選擇樣本數(shù),隨機(jī)選取特征,隨機(jī)選擇分類器,建立多顆這樣的決策樹,然后通過這幾課決策樹來投票,決定數(shù)據(jù)屬于哪一類。
K-Means:隨機(jī)選擇一個(gè)K值,用來確定簇的總數(shù),在數(shù)據(jù)集中任意選擇K個(gè)實(shí)例,將他們作為初始的簇中心,計(jì)算在K個(gè)簇中心與其他剩余實(shí)例的簡(jiǎn)單歐式距離,用這個(gè)距離作為實(shí)例之間相似性的度量,將與某個(gè)簇相似度高實(shí)例劃分到該簇中,成為其成員之一。使用每個(gè)簇中的實(shí)例來計(jì)算該簇新的簇中心。如果計(jì)算得到新的簇中心等于上次迭代的簇中心,終止算法過程。否則用新的簇中心作為簇中心并重復(fù)步驟。
神經(jīng)網(wǎng)絡(luò): 本文使用weka中的BP神經(jīng)網(wǎng)絡(luò)模型。反向傳播學(xué)習(xí)(Backpropagation Learning)是前饋神經(jīng)網(wǎng)絡(luò)的有指導(dǎo)學(xué)習(xí)方法,和所有的有指導(dǎo)學(xué)習(xí)過程一樣,它包括訓(xùn)練和檢驗(yàn)兩個(gè)階段。在訓(xùn)練階段中,訓(xùn)練實(shí)例重復(fù)通過網(wǎng)絡(luò),對(duì)于每個(gè)訓(xùn)練實(shí)例,計(jì)算網(wǎng)絡(luò)輸出值,根據(jù)輸出值修改各個(gè)權(quán)值。這個(gè)權(quán)值的修改方向是從輸出層開始,反向移動(dòng)到隱層。改變連接權(quán)值的目的是最小化訓(xùn)練集錯(cuò)誤率。訓(xùn)練過程是個(gè)迭代過程,網(wǎng)絡(luò)訓(xùn)練直到滿足一個(gè)特定的終止條件為止,終止條件可以是網(wǎng)絡(luò)收斂到最小的錯(cuò)誤值,可以是一個(gè)訓(xùn)練時(shí)間標(biāo)準(zhǔn),也可以是最大迭代次數(shù)。
貝葉斯分類器:貝葉斯分類器時(shí)一種簡(jiǎn)單,但功能強(qiáng)大的有指導(dǎo)分類技術(shù)。模型假定所有輸入屬性的重要性相等,且彼此是獨(dú)立的。盡管這些假定很可能是假的,但貝葉斯分類器實(shí)際上仍然可以工作的很好。分類器是基于貝葉斯定理的,其定義如下:
其中:H為要檢驗(yàn)的假設(shè);E為與假設(shè)相關(guān)的數(shù)據(jù)樣本
從分類的角度考察,假設(shè)H就是因變量,代表著預(yù)測(cè)類;數(shù)據(jù)樣本E是輸入實(shí)例屬性值的集合:P(H|E)是給定數(shù)據(jù)樣本E時(shí),假設(shè)H為真的條件概率;P(H)為先驗(yàn)概率,表示在任何數(shù)據(jù)樣本E出現(xiàn)之前假設(shè)的概率。條件概率和先驗(yàn)概率可以通過訓(xùn)練數(shù)據(jù)計(jì)算出來。
3.2性能指標(biāo)
這里我們使用分類正確度和混淆矩陣確定模型的正確度:
分類準(zhǔn)確度=正確預(yù)測(cè)的實(shí)例/測(cè)試總實(shí)例數(shù)
通過混淆矩陣進(jìn)行正確度分析:
其中,i為矩陣行數(shù),j為矩陣列數(shù)。
4 分類器結(jié)果的比較
綜合以上分類器,使用weka數(shù)據(jù)挖掘平臺(tái)進(jìn)行分析,得出了乳腺癌數(shù)據(jù)集的分類模型正確度如下:
5 結(jié)論
為了實(shí)現(xiàn)基于WEKA數(shù)據(jù)挖掘平臺(tái)的醫(yī)學(xué)數(shù)據(jù)分類及乳腺癌的早期預(yù)測(cè),使用六種分類器進(jìn)行WEKA數(shù)據(jù)挖掘工具的實(shí)驗(yàn)。通過對(duì)分類器進(jìn)行比較,并利用模型分類正確度來確定各模型分類精度。對(duì)比實(shí)驗(yàn)結(jié)果表明,較于其他分類器,Random Forest分類器對(duì)乳腺癌數(shù)據(jù)集具有較好的分類準(zhǔn)確性。隨機(jī)森林建立了多個(gè)決策樹,并將它們合并在一起能獲得更準(zhǔn)確和穩(wěn)定的預(yù)測(cè)。隨機(jī)森林的一大優(yōu)勢(shì)在于它既可用于分類,也可用于回歸問題,這兩類問題恰好構(gòu)成了當(dāng)前的大多數(shù)機(jī)器學(xué)習(xí)系統(tǒng)所需要面對(duì)的。未來,通過在分類器精度性能調(diào)整方面的優(yōu)化,包括應(yīng)用裝袋(Bagging)、提升(Lift)和參數(shù)優(yōu)化等技術(shù),以及特定疾病的測(cè)試數(shù)據(jù)的加入,可以開發(fā)更準(zhǔn)確的預(yù)測(cè)模型。