李 勇,陳思萱,賈 海,王 霞
(1.西北師范大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,甘肅 蘭州 730070;2.甘肅省人民醫(yī)院藥劑科,甘肅 蘭州 730000)
健康是人類全面發(fā)展的基礎(chǔ)。全球乳腺癌的發(fā)病率自20世紀(jì)70年代末開始呈上升趨勢,乳腺癌在女性患者中的發(fā)病趨勢更為突出。美國一項(xiàng)調(diào)查顯示,2016年有1 685 210例新癌癥病例和595 690例癌癥死亡,其中乳腺癌是20~59歲女性的主要癌癥死亡原因[1]。近年,我國乳腺癌發(fā)病率的增長速度高于發(fā)達(dá)國家的,嚴(yán)重影響婦女健康,為此中華全國婦女聯(lián)合會(huì)、衛(wèi)生部于2009年開始積極實(shí)施與推廣全國農(nóng)村婦女“兩癌”篩查項(xiàng)目,并于2016年全面鋪開,幫助婦女提高保健、預(yù)防意識,降低乳腺癌發(fā)病率[2]。
在進(jìn)行檢查時(shí),細(xì)胞的大小、形狀、腫塊厚度等特征被認(rèn)為是區(qū)分腫瘤良性或惡性的標(biāo)準(zhǔn),而年齡、腫瘤大小、絕經(jīng)情況、受侵淋巴結(jié)數(shù)、是否放療等特征被認(rèn)為是影響乳腺癌是否復(fù)發(fā)的因素。醫(yī)生很難根據(jù)復(fù)雜的特征數(shù)據(jù)人工地確定乳腺癌是否為良性以及乳腺癌復(fù)發(fā)情況,但計(jì)算機(jī)技術(shù)可以對現(xiàn)有數(shù)據(jù)進(jìn)行分析和預(yù)測?,F(xiàn)有機(jī)器學(xué)習(xí)方法在醫(yī)學(xué)領(lǐng)域的應(yīng)用幫助醫(yī)務(wù)工作者提高了工作效率,減輕了工作負(fù)擔(dān)。人們在將計(jì)算機(jī)技術(shù)應(yīng)用到醫(yī)學(xué)領(lǐng)域的同時(shí)也在不斷嘗試對傳統(tǒng)的算法進(jìn)行改進(jìn)。集成策略[3]將傳統(tǒng)單一算法訓(xùn)練器進(jìn)行整合,從而達(dá)到更好的效果。
在已有研究中,Latha等人[4]使用多種特征的組合作為訓(xùn)練集,采用集成策略對心臟病發(fā)病率進(jìn)行預(yù)測,該方法將弱分類器的預(yù)測準(zhǔn)確率提高了7%,實(shí)驗(yàn)準(zhǔn)確率在84%左右,但沒有對算法參數(shù)進(jìn)行優(yōu)化。Bennett等人[5]提出一種自適應(yīng)的半監(jiān)督集成方法,該方法可與Cost-Sensitive分類算法結(jié)合進(jìn)行二分類或多分類任務(wù)。Street等人[6]在大規(guī)模數(shù)據(jù)上使用啟發(fā)式替換策略組合多個(gè)弱分類器,建立針對大型流數(shù)據(jù)分類的快速算法,效果較好。Muzammal等人[7]將無線人體穿戴式網(wǎng)絡(luò)BSN(Body Sensor Network)中獲取的數(shù)據(jù)輸入Ensemble分類器中,以進(jìn)行早期心臟病的預(yù)測,實(shí)驗(yàn)達(dá)到了較高準(zhǔn)確率。Fitriyani等人[8]提出了一種基于集成學(xué)習(xí)的疾病預(yù)測模型DPM(Disease Prediction Model)對糖尿病和高血壓進(jìn)行監(jiān)測,以降低疾病突發(fā)帶來的風(fēng)險(xiǎn)。
目前研究者們已經(jīng)使用深度學(xué)習(xí)或機(jī)器學(xué)習(xí)方法對不同的乳腺癌數(shù)據(jù)進(jìn)行研究,但還未將多個(gè)機(jī)器學(xué)習(xí)分類器進(jìn)行結(jié)合,達(dá)到強(qiáng)分類的效果。Khan等人[9]使用遷移學(xué)習(xí)和深度學(xué)習(xí)相結(jié)合的方法對乳腺癌細(xì)胞進(jìn)行檢測和分類,達(dá)到了較高的準(zhǔn)確率。Abbass等人[10]提出基于微分進(jìn)化算法和局部搜索的神經(jīng)網(wǎng)絡(luò)方法進(jìn)行乳腺癌的預(yù)測,其測試準(zhǔn)確率的標(biāo)準(zhǔn)差比Fogel等人[11]的降低了0.459。Abdikenov等人[12]使用進(jìn)化算法NSGA III(Non-dominated Sorting Genetic Algorithm-Ⅲ)初始化深度神經(jīng)網(wǎng)絡(luò)并優(yōu)化其超參數(shù)后,用于乳腺癌預(yù)后。Liu等人[13]提出端到端的深度學(xué)習(xí)系統(tǒng),結(jié)合全卷積網(wǎng)絡(luò)提取乳腺區(qū)域數(shù)據(jù),其結(jié)果與病理學(xué)家所做的診斷有較高的相關(guān)性。Lu等人[14]提出一種新穎的基于遺傳算法的在線梯度增強(qiáng)GAOGB(Genetic Algorithm-based Online Gradient Boosting)模型,通過在線學(xué)習(xí)[15]技術(shù),實(shí)時(shí)預(yù)測乳腺癌的診斷和預(yù)后。以上研究表明,將人工智能應(yīng)用于醫(yī)療領(lǐng)域是實(shí)用且行之有效的。
本文基于C-AdaBoost模型對乳腺癌疾病數(shù)據(jù)進(jìn)行分析,主要研究成果如下:
(1)通過大量乳腺癌相關(guān)數(shù)據(jù)分析發(fā)現(xiàn),集成學(xué)習(xí)模型的預(yù)測準(zhǔn)確率明顯優(yōu)于SVM、KNN等機(jī)器學(xué)習(xí)模型的預(yù)測準(zhǔn)確率;
(2)使用逐步回歸法發(fā)現(xiàn)了乳腺癌數(shù)據(jù)集最優(yōu)特征組合;
(3)使用C-AdaBoost找到模型最優(yōu)學(xué)習(xí)率,實(shí)驗(yàn)準(zhǔn)確率較傳統(tǒng)機(jī)器學(xué)習(xí)以及常用集成優(yōu)化組合模型的準(zhǔn)確率提高至多19.5%。
根據(jù)數(shù)據(jù)集特征,本文在數(shù)據(jù)預(yù)處理階段使用SQL腳本和歸一化方法對數(shù)據(jù)進(jìn)行處理,然后使用C-AdaBoost模型對多個(gè)弱分類器進(jìn)行訓(xùn)練,以達(dá)到最終分類效果,本文實(shí)驗(yàn)的總體思路如圖1所示。
Figure 1 Overall framework of the experiment圖1 本文實(shí)驗(yàn)總體思路框架
數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)所能取得效果的上限,而模型和算法只是使效果逼近這個(gè)上限[16]。逐步回歸[17]是一種使用線性回歸模型選擇自變量的方法,其基本思想是將變量逐個(gè)引入模型,每引入一個(gè)變量后都要進(jìn)行F檢驗(yàn),并對已選入的變量逐個(gè)進(jìn)行t檢驗(yàn)。當(dāng)引入的變量對當(dāng)前結(jié)果影響不顯著時(shí),剔除該變量,以確保最后得到最優(yōu)的變量集合。逐步回歸法中,前向法選擇變量的具體步驟如算法1所示。
算法1逐步回歸前向算法
輸入:特征自變量X1,X2,…,Xp,i∈{1,…,p},回歸系數(shù)βi,偏置ε,顯著性水平α,最優(yōu)屬性集合Attribute。
輸出:回歸方程Y。
步驟1建立一元回歸模型。
fori∈{1,2,…,p}do
Y=β0+βiXi+ε
(1)
endfor
步驟2計(jì)算變量Xi相應(yīng)回歸系數(shù)的F檢驗(yàn)的值,并求最大值。
fori∈{1,2,…,p}do
(2)
endfor
步驟3對給定的顯著性水平α,記相應(yīng)的臨界值為F(1)。
Attribute={Xi1}
fori∈{2,…,p}do
(3)
endfor
步驟5對給定的顯著性水平α,記相應(yīng)的臨界值為F(2)。
Attribute={Xi1,Xi2}
步驟6考慮因變量子集(Xi1,Xi2,Xk)的回歸,其中,Xk∈Attribute,k∈{1,…,p},重復(fù)步驟4和步驟5,最終得到特征回歸方程:
Y=βiAttribute+ε
(4)
集成策略從概念上講并非是單個(gè)的機(jī)器學(xué)習(xí)算法,而是通過結(jié)合多個(gè)機(jī)器學(xué)習(xí)器來完成學(xué)習(xí)任務(wù),主要思想是利用多個(gè)訓(xùn)練器進(jìn)行訓(xùn)練,并要求這些訓(xùn)練器都是弱訓(xùn)練器,然后將這些訓(xùn)練器進(jìn)行組合,生成一個(gè)強(qiáng)訓(xùn)練器,進(jìn)而達(dá)到比弱訓(xùn)練器更好的預(yù)測效果。
2.3.1 Bagging算法描述
Bagging算法[18]又稱袋裝算法,該算法中各個(gè)弱訓(xùn)練器之間不存在強(qiáng)依賴關(guān)系,可并行化地執(zhí)行訓(xùn)練,其主要思想是分別訓(xùn)練多個(gè)不同的模型,然后使用投票法、平均法等對各個(gè)模型的輸出進(jìn)行綜合決策。算法流程如圖2所示。
Figure 2 Process of Bagging algorithm圖2 Bagging算法流程
Bagging算法中,已知原始數(shù)據(jù)集D={(x1,y1),(x2,y2),…,(xd,yd)},訓(xùn)練集數(shù)據(jù)T={(x1,y1),(x2,y2),…,(xn,yn)},x為樣本特征,y為樣本標(biāo)簽,xi=(X1,X2,…,Xp),ξ為弱訓(xùn)練器,執(zhí)行K輪抽樣。Bagging算法如算法2所示。
算法2Bagging算法
輸入:執(zhí)行輪次K,數(shù)據(jù)集D={(x1,y1),(x2,y2),(x3,y3),…,(xd,yd)}。
輸出:集成分類器G。
步驟1數(shù)據(jù)集采樣,使用Boostrap從數(shù)據(jù)集中抽樣K個(gè)大小為M的訓(xùn)練集Di={(x1,y1),(x2,y2),…,(xM,yM)}。
fori∈{1,2,…,K}do
Boostrap(Di)
endfor
步驟2訓(xùn)練模型hi。
fori∈{1,2,…,K}do
hi=ξ(Di)
endfor
步驟3將測試數(shù)據(jù)集T輸入至已訓(xùn)練好的模型hi中,采用投票法對測試結(jié)果進(jìn)行匯總,得到最終分類結(jié)果Pmax。
Pmax=argmax ∑ξ(T)
(5)
2.3.2 Boosting算法描述
Boosting算法是一種集成算法[19],該算法中各個(gè)弱分類器之間存在強(qiáng)依賴關(guān)系,需串行地執(zhí)行訓(xùn)練,其主要思想是從初始訓(xùn)練集中訓(xùn)練一個(gè)弱訓(xùn)練器,隨后根據(jù)弱訓(xùn)練器的表現(xiàn)調(diào)整初始訓(xùn)練樣本的分布,將調(diào)整后的樣本輸入到下一個(gè)弱訓(xùn)練器,最后將所有的弱訓(xùn)練器進(jìn)行結(jié)合,得到強(qiáng)訓(xùn)練器。算法流程如圖3所示。
Figure 3 Process of Boosting algorithm圖3 Boosting算法流程圖
AdaBoost是Boosting集成策略中的代表性算法,在該算法中,已知原始數(shù)據(jù)集D={(x1,y1),(x2,y2),…,(xn,yn)},執(zhí)行m輪抽樣,I為指示函數(shù),當(dāng)I函數(shù)括號內(nèi)的表達(dá)式為真時(shí),函數(shù)取值為1,否則取值為0。算法步驟如算法3所示。
算法3AdaBoost算法
輸入:數(shù)據(jù)集D={(x1,y1),(x2,y2),…,(xn,yn)},L個(gè)基本分類器Gm,m∈{1,…,L},權(quán)值W1=(w1,1,w1,2,…,w1,i,…,w1,n)。
輸出:集成分類器G。
步驟1初始化訓(xùn)練數(shù)據(jù)的權(quán)值分布。
fori∈{1,2,…,n}do
(6)
endfor
步驟2使用具有權(quán)值分布的訓(xùn)練集Dm,訓(xùn)練弱分類器Gm。Gm(xi)是Gm對xi預(yù)測的標(biāo)簽。
form∈{1,2,…,L}do
Gm(xi)
endfor
步驟3計(jì)算弱分類器Gm在訓(xùn)練集上的分類誤差率,計(jì)算Gm的系數(shù)αm。
fori∈{1,2,…,n}do
(7)
(8)
endfor
步驟4更新訓(xùn)練數(shù)據(jù)的權(quán)值分布。
fori∈{1,2,…,n}do
(9)
(10)
endfor
步驟5構(gòu)建基本分類器的線性組合。
fori∈{1,2,…,n}do
(11)
endfor
步驟6根據(jù)結(jié)合策略,最終得到強(qiáng)分類器。
fori∈{1,2,…,n}do
G(xi)=sign(f(xi))=
(12)
endfor
本文使用AdaBoost集成策略的同時(shí),使用函數(shù)C對算法進(jìn)行循環(huán)迭代,找到每個(gè)集成分類器下最優(yōu)的學(xué)習(xí)率,進(jìn)而使得訓(xùn)練器達(dá)到最優(yōu)的預(yù)測效果。C-AdaBoost的核心思想就是通過集成算法尋找最佳準(zhǔn)確率對應(yīng)的最優(yōu)學(xué)習(xí)率。具體過程如算法4所示。
算法4C-AdaBoost算法
輸入:訓(xùn)練集D={(x1,y1),(x2,y2),…,(xn,yn)},xi是特征,yi是類別,特征數(shù)為p,測試集Test={(x1,y1),(x2,y2),…,(xn,yn)},優(yōu)化函數(shù)C,參數(shù)γj,1≤j≤100。
輸出:分類結(jié)果Ypre,集成分類器G。
步驟1數(shù)據(jù)預(yù)處理。
fori∈{1,2,…,p}do
根據(jù)式(1)~式(3)得到最優(yōu)特征組合方程Y=βiAttribute+ε
endfor
fori∈{1,2,…,p}do
endfor
步驟2權(quán)重處理。
fori,j∈{1,2,…,n}do
Initwi,j=1/n
根據(jù)式(6)和式(7)更新權(quán)重。
endfor
步驟3生成線性組合。
fori∈{1,2,…,n}do
f(xi)=sum(αmGm(xi))
endfor
步驟4在函數(shù)C下執(zhí)行分類器,得最優(yōu)解。
G(xi)=signC(f(xi))
(14)
步驟5輸入測試集數(shù)據(jù)進(jìn)行分類。
Ypre=G(Test)
對于最終的分類結(jié)果,本文采用準(zhǔn)確率(Accu)、精確率(Precise)、召回率(Recall)和F1值(F1)4個(gè)指標(biāo)進(jìn)行評估。定義如下:
設(shè)乳腺癌疾病的二標(biāo)簽數(shù)據(jù)集,包含n個(gè)樣本(xi,yi),i=1,2,…,n,yi∈Y,Y={0,1}是標(biāo)簽集合。設(shè)G是分類器,G(xi)是G對樣本xi預(yù)測的標(biāo)簽,則4個(gè)評估指標(biāo)的計(jì)算公式如式(15)~式(18)所示:
(15)
(16)
(17)
(18)
本文使用加州大學(xué)UCI數(shù)據(jù)庫中乳腺癌復(fù)發(fā)數(shù)據(jù)集(DataSet1)和乳腺癌腫瘤數(shù)據(jù)集(DataSet2)對模型進(jìn)行訓(xùn)練和測試。DataSet1數(shù)據(jù)集中有9個(gè)特征,DataSet2數(shù)據(jù)集中有10個(gè)特征,數(shù)據(jù)集的特征中包括數(shù)值型數(shù)據(jù)和類別型數(shù)據(jù)。具體的特征表述信息如表1所示。
Table 1 Description of characteristic information表1 特征信息描述
本文在選擇數(shù)據(jù)的特征時(shí),希望挑選出更為重要的特征的組合作為最終特征集,因此使用了2.2節(jié)提出的逐步回歸算法對3.1節(jié)中所描述的特征進(jìn)行二次選取。最終選取的特征和回歸系數(shù)如表2所示。
Table 2 Optimal feature combinations and regression coefficients表2 最優(yōu)特征組合及回歸系數(shù)
由表2可知,在DataSet1數(shù)據(jù)集中,通過逐步回歸方法,從原始的9個(gè)特征中選取了deg-malig、node-caps、inv-nodes、tumor-size和irradiat作為最終的特征組合;同理,在DataSet2數(shù)據(jù)集中選取BareNuclei、 CellSize 、 ClumpThickness等8個(gè)特征作為二次特征選取的結(jié)果。
用βi表示特征的回歸系數(shù),Attribute表示特征集合。在DataSet1中,回歸方程的截距為0.985 365,則回歸方程如式(19)所示:
(19)
在DataSet2中,回歸方程的截距為1.505 412,則回歸方程如式(20)所示:
(20)
集成模型訓(xùn)練過程中,為使AdaBoost訓(xùn)練器盡可能達(dá)到相對理想的效果,本文使用優(yōu)化函數(shù)C對算法進(jìn)行迭代優(yōu)化,以得到不同參數(shù)值下的訓(xùn)練準(zhǔn)確率,進(jìn)而得到最優(yōu)訓(xùn)練結(jié)果。本文使用NB(Navie Bayes)[20]、RandomForest[21]、SVM[22]3組弱分類器進(jìn)行C-AdaBoost集成,使用DataSet1和DataSet2 2個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練和測試,詳細(xì)結(jié)果如圖4和圖5所示。
Figure 4 Comparison of model’s accuracy under different parameters (DataSet1)圖4 不同參數(shù)下模型的準(zhǔn)確率(DataSet1)
Figure 5 Comparison of model’s accuracy under different parameters (DataSet2)圖5 不同參數(shù)下模型的準(zhǔn)確率(DataSet2)
由圖4可以看出,使用SVM作為弱分類器,并且C-AdaBoost模型的參數(shù)γj=0.08時(shí),乳腺癌復(fù)發(fā)預(yù)測準(zhǔn)確率最高,達(dá)到90.1%。
由圖5可以看出,使用NB作為弱分類器,并且C-AdaBoost模型的參數(shù)γj=0.04時(shí),乳腺癌復(fù)發(fā)預(yù)測準(zhǔn)確率最高,達(dá)到99%。
結(jié)合圖4和圖5可以發(fā)現(xiàn),在使用NB作為弱分類器執(zhí)行C-Boosting集成策略時(shí),參數(shù)的變化會(huì)對實(shí)驗(yàn)結(jié)果產(chǎn)生較大的影響,而隨著參數(shù)的不斷變化,RandomForest和SVM的訓(xùn)練器相對穩(wěn)定。
本文將數(shù)據(jù)集的70%作為訓(xùn)練集,30%作為測試集進(jìn)行實(shí)驗(yàn),進(jìn)行如下的實(shí)驗(yàn)對比:
實(shí)驗(yàn)1使用KNN[23]、NB、RandomForest、SVM和MLP[24]5種機(jī)器學(xué)習(xí)算法作為弱分類器進(jìn)行Bagging[18]和Boosting算法的集成。
實(shí)驗(yàn)2基于實(shí)驗(yàn)1的結(jié)果,選取Boosting集成算法中的GBDT、XGBoost和 AdaBoost 3種常用的集成策略作為對比模型,進(jìn)行對比實(shí)驗(yàn)。
3.4.1 不同弱分類器下的集成模型對比
使用KNN、NB、RandomForest、SVM和MLP[24]5種機(jī)器學(xué)習(xí)算法作為弱分類器進(jìn)行Bagging和Boosting算法集成。由于Boosting算法中AdaBoost可進(jìn)行多種弱分類器的集成,因此選取AdaBoost模型作為Boosting算法的代表模型。實(shí)驗(yàn)的準(zhǔn)確率、精確率、召回率和F1值4個(gè)指標(biāo)的結(jié)果對比分別如表3和表4所示。
表3中的結(jié)果表明,DataSet1數(shù)據(jù)集上使用SVM作為弱分類器的C-AdaBoost模型判斷乳腺癌是否復(fù)發(fā)的F1=0.945,同時(shí)召回率達(dá)到0.984。
表4中的結(jié)果表明,DataSet2數(shù)據(jù)集在集成策略下的Precise、Recall和F1值整體優(yōu)于弱分類器。其中,以NB為基本分類器的C-AdaBoost模型的預(yù)測效果最好,最高F1值達(dá)到0.986。
由表3和表4可得,常用的3種集成方法的實(shí)驗(yàn)準(zhǔn)確率都明顯高于使用單一分類器的準(zhǔn)確率。其中,在DataSet1數(shù)據(jù)集上,準(zhǔn)確率最優(yōu)達(dá)到90.1%,在DataSet2數(shù)據(jù)集上,集成方法的準(zhǔn)確率最高達(dá)到99%。綜上,使用C-AdaBoost模型的準(zhǔn)確率最優(yōu),能將準(zhǔn)確率最多提高19.5%。
Table 3 Comparison of accuracy, Precise,Recall and F1 (DataSet1)表3 準(zhǔn)確率、精確率、召回率和F1值對比(DataSet1)
Table 4 Comparison of accuracy, precise,recall and F1 (DataSet2)表4 準(zhǔn)確率、精確率、召回率和F1值對比(DataSet2)
3.4.2 集成優(yōu)化模型對比
由實(shí)驗(yàn)1得出,在本文實(shí)驗(yàn)數(shù)據(jù)集上,Boos-ting集成算法的實(shí)驗(yàn)結(jié)果優(yōu)于弱分類和Bagging集成算法。本節(jié)實(shí)驗(yàn)選取Boosting集成策略常用的GBDT、XGBoost和AdaBoost 3種集成優(yōu)化模型與本文提出的C-AdaBoost模型進(jìn)行對比,具體實(shí)驗(yàn)結(jié)果如表5所示。
由表5可知,基于C-AdaBoost的集成模型在乳腺癌數(shù)據(jù)集上的實(shí)驗(yàn)效果明顯優(yōu)于其他3種常用集成優(yōu)化模型的實(shí)驗(yàn)效果。
Table 5 Comparison of integrated optimization models表5 集成優(yōu)化模型對比
常用集成模型的準(zhǔn)確率的柱狀圖如圖6所示,圖示可清晰呈現(xiàn)使用C-AdaBoost集成模型的實(shí)驗(yàn)準(zhǔn)確率最優(yōu),最優(yōu)可達(dá)到99%。
Figure 6 Accuracy comparison of ensemble optimization models圖6 集成優(yōu)化模型準(zhǔn)確率對比
本文使用C-AdaBoost模型分別對乳腺癌復(fù)發(fā)和乳腺癌腫瘤預(yù)測進(jìn)行分析,結(jié)果表明C- AdaBoost模型對于不同的乳腺癌數(shù)據(jù)集均具有較高的預(yù)測性能。
本文使用集成策略將不同傳統(tǒng)機(jī)器學(xué)習(xí)算法進(jìn)行結(jié)合,基于乳腺癌數(shù)據(jù)集進(jìn)行訓(xùn)練和測試,將機(jī)器學(xué)習(xí)和數(shù)據(jù)分析技術(shù)應(yīng)用于醫(yī)學(xué)領(lǐng)域,提高了疾病預(yù)測的準(zhǔn)確率,從而可以更好地輔助醫(yī)生進(jìn)行診斷,提高工作效率。
本文的貢獻(xiàn)主要有:(1)通過大量實(shí)驗(yàn)發(fā)現(xiàn),使用集成算法替代單個(gè)機(jī)器學(xué)習(xí)分類器,可在疾病預(yù)測問題上得到更高的預(yù)測準(zhǔn)確率;(2)使用逐步回歸算法可得到數(shù)據(jù)中最優(yōu)的特征組合,實(shí)驗(yàn)發(fā)現(xiàn)惡性腫瘤程度、腫塊所在象限、絕經(jīng)情況等特征對預(yù)測乳腺癌復(fù)發(fā)數(shù)據(jù)集的純度影響較大,細(xì)胞大小、染色體數(shù)量、細(xì)胞形狀是判斷腫瘤是否為良性的重要屬性;(3)找到了最優(yōu)學(xué)習(xí)率,使得預(yù)測準(zhǔn)確率最佳,大量實(shí)驗(yàn)發(fā)現(xiàn),采用C-AdaBoost模型能將預(yù)測準(zhǔn)確率最高提高19.5%。這些發(fā)現(xiàn)可以輔助醫(yī)生進(jìn)行更有針對性的檢查,并做出準(zhǔn)確診斷。
本文采用的數(shù)據(jù)是UCI數(shù)據(jù)庫中已經(jīng)打好標(biāo)簽的乳腺癌數(shù)據(jù)集,在以后的研究中,可考慮將電子病歷EMR(Electronic Medical Record)等文本數(shù)據(jù)輸入至BERT(Bidirectional Encoder Representations from Transformers)模型[25]進(jìn)行訓(xùn)練,在非結(jié)構(gòu)化的文本數(shù)據(jù)中自動(dòng)訓(xùn)練并抽取較為重要的臨床特征信息、語義信息,減少人工標(biāo)注。在算法上,使用C-AdaBoost模型還可更加詳細(xì)地呈現(xiàn)不同參數(shù)下的訓(xùn)練結(jié)果,以促進(jìn)開展后續(xù)與醫(yī)學(xué)信息數(shù)據(jù)挖掘相關(guān)的研究。