劉 軍,彭慧嫻,黃 斌,托尼·謝伊
(1.佛山科學技術學院機電工程與自動化學院,廣東 佛山 528225; 2.東密歇根大學工程技術學院,密歇根 伊普西蘭蒂 MI 48197)
根據(jù)國際癌癥研究機構(IARC)統(tǒng)計報告發(fā)現(xiàn),乳腺癌仍然是導致全世界女性死亡的主要原因之一,據(jù)統(tǒng)計每年新增病例有近210萬例[1]。經(jīng)研究發(fā)現(xiàn),如果在早期階段能檢測出乳腺癌,就能在癌癥擴散前成功治療局部腫瘤[2]。因此,乳腺癌腫瘤的早期準確診斷是醫(yī)學診斷中的一項重要任務。針對傳統(tǒng)乳腺癌診斷方式可能存在誤診、診斷耗時耗力等問題,智能輔助診斷成為近年醫(yī)療診斷領域的熱點。隨著數(shù)據(jù)挖掘與機器學習從各種數(shù)據(jù)集中提取模式和規(guī)則這一技術的成熟[3],使其在研究分類問題上有了很好的進展。受Fuzzy Min-Max(FMM)網(wǎng)絡[4]的啟發(fā),Kumar等人[5]提出一種改進后的FMM網(wǎng)絡用于數(shù)據(jù)分類;Bellazzi等人[6]提出一個框架來解決在臨床醫(yī)學中構建、評估和開發(fā)數(shù)據(jù)挖掘模型的問題。同時,在這樣的發(fā)展背景下,分類模型不僅可以輔助醫(yī)生進行疾病的識別和診斷,也為減少診斷錯誤的智能輔助診斷系統(tǒng)的建立提供了可能性。
據(jù)了解在機器學習領域,乳腺癌診斷一直被認為是一個分類問題。近年來,隨著人工智能的發(fā)展,越來越多的智能分類方法已經(jīng)應用于乳腺癌的診斷中。例如Singh等人[7]利用BP(Back Propagation)神經(jīng)網(wǎng)絡對乳腺癌組織病理學圖像進行分類;George等人[8]開發(fā)了一種基于BP算法的多層感知器、概率神經(jīng)網(wǎng)絡(PNN)、學習矢量量化和支持向量機(SVM)[9]的智能乳腺癌分類系統(tǒng);Nahato等人[10]使用粗糙集不可分辨關系的方法和反向傳播神經(jīng)網(wǎng)絡(RS-BPNN)進行乳腺癌檢測;Abdel-Zaher等人[11]提出了一種基于深度信念網(wǎng)絡的無監(jiān)督路徑和反向傳播監(jiān)督路徑相結合的乳腺癌檢測計算機輔助診斷方案;Kaymak等人[12]通過BP神經(jīng)網(wǎng)絡[13]實現(xiàn)對乳腺癌圖像的自動分類。基于以上用于乳腺癌診斷的分類器,不難看出BP算法在乳腺癌診斷中應用十分廣泛。
當前,在醫(yī)療診斷過程中,信息、數(shù)據(jù)與知識間的關聯(lián)表現(xiàn)出了一定的復雜性和模糊性[14],各種癥狀與其診斷結果之間的映射呈現(xiàn)出非線性關系。雖然在相比之下,人工神經(jīng)網(wǎng)絡中的BP神經(jīng)網(wǎng)絡能夠更好地處理這種非線性關系,但它所存在過擬合和易陷入局部最優(yōu)的問題也是不容忽視的。針對這一問題,人們通常借助遺傳算法(GA)全局尋優(yōu)和快速收斂的能力進行改善[15]。但遺傳算法仍然容易陷入局部最優(yōu),于是引入模擬退火(SA)算法[16]對遺傳算法進行改進,從而更好地避免陷入局部最優(yōu)。對于大多數(shù)不平衡數(shù)據(jù)的分類,Adaboost算法[17]可直接作用于不平衡數(shù)據(jù)集的分類,但在乳腺癌數(shù)據(jù)分類中,Adaboost算法所采用增大錯分樣本權值的策略,忽略了樣本不平衡帶來的影響,從而容易造成漏診現(xiàn)象。此外,在乳腺癌診斷中,僅靠Adaboost算法集成神經(jīng)網(wǎng)絡并不能提高分類問題的精度和準確性。為此,本文提出BP-GamysBoost算法,在標準的Adaboost算法基礎上,建立BP神經(jīng)網(wǎng)絡模型,然后借助模擬退火遺傳算法來優(yōu)化BP神經(jīng)網(wǎng)絡的初始權值和閾值,使優(yōu)化后的閾值和權值能更好地預測其輸出,最后得到由BP弱分類器組成的強分類器,即BP-GamysBoost模型。本文選取權威數(shù)據(jù)庫UCI的威斯康星乳腺癌數(shù)據(jù)集作為應用案例,采用與多個模型的多項性能指標進行評估對比的方法,驗證BP-GamysBoost算法模型的合理性和有效性。
乳腺癌數(shù)據(jù)集存在冗余現(xiàn)象。為了減少冗余信息所造成的誤差,減少計算量,提高醫(yī)療診斷效率,需要對數(shù)據(jù)樣本進行降維處理。本文采用逐步回歸分析法(Stepwise Regression)[18]對輸入變量進行篩選,主要是以自變量對因變量作用程度作為變量選取的依據(jù),從而保留作用程度大的變量,剔除作用小的變量。通常在計算過程中,變量的引入與剔除是在兩端同時進行的,基本步驟如圖1所示。通過MATLAB軟件的stepwise的過程,在剔除p-val的值大于0.05的變量后,如圖2所示,最終得到13個變量,具體標號為6、8、11、14、15、17、21、22、24、27、28、29、30。
圖1 逐步回歸分析法基本步驟
圖2 逐步回歸法變量篩選結果
逐步回歸分析算法流程如下:
3)考慮因變量對變量子集{{Xi1,Xi2,Xk}|k?{i1,i2}}的回歸,重復步驟2。
重復上述步驟,直至經(jīng)F檢驗后沒有自變量引入。
BP算法在誤差反向傳播時,通常是通過計算輸出層與期望值之間的誤差來調(diào)整網(wǎng)絡參數(shù),從而使誤差變小。對于每個訓練樣本,BP算法的基本流程為:1)將輸入樣本提供給輸入神經(jīng)元,使信號逐層傳遞至產(chǎn)生輸出層結果;2)將計算出的誤差信號反向傳播至隱藏層單元;3)通過隱藏層神經(jīng)元的誤差修改權值;4)循環(huán)迭代至滿足停止條件為止。BP算法通常采用梯度下降法來進行參數(shù)尋優(yōu),當誤差函數(shù)具有多個局部最優(yōu)時,則無法保證所找到的解是全局最優(yōu)解。
遺傳算法因其全局搜索能力而在特征選擇方面應用廣泛[19-21]。由于遺傳算法對底層搜索空間大小和多元分布的魯棒性,所以在對高維空間進行特征選擇時能提供有效策略。遺傳算法的基本流程為:1)編碼和產(chǎn)生初始種群;2)給定適應度函數(shù),從而計算每個個體的適用度值;3)經(jīng)過選擇、交叉、變異等一系列操作產(chǎn)生新的種群;4)判斷所得到的個體的最大適應度是否是最優(yōu)解,如果是,則結束,反之則返回步驟2。
模擬退火算法是一種啟發(fā)式的全局優(yōu)化方法[16],SA算法的基本思想是從一個初始的解決方案開始,然后與Metropolis Monte Carlo過程集成。SA的第一個迭代過程是生成新的解,然后判斷其是否符合Metropolis準則,如果符合則接受,否則放棄。
Adaboost作為一種迭代算法,其核心思想是對同一個訓練集訓練多個分類器(弱分類器),并將這些弱分類器組成強分類器。其算法本身是通過不斷地改變權重來實現(xiàn)的,然后將更新后的權重作為下一個分類器的權重進行訓練,最后將得到的多個弱分類器組成強分類器。而BP-Adaboost算法便是以BP神經(jīng)網(wǎng)絡為基礎,即將BP神經(jīng)網(wǎng)絡模型作為弱分類器,通過不斷地訓練預測樣本的輸出,并結合Adaboost算法,最終得到所需要的強分類器。
本文提出的BP-GamysBoost算法是一種混合算法,是在BP-Adaboost算法的基礎上進行優(yōu)化。首先,因為BP-Adaboost中的BP神經(jīng)網(wǎng)絡擁有強大的表示能力,因此它容易陷入局部最優(yōu),從而導致其訓練誤差持續(xù)降低,但測試誤差卻可能上升的現(xiàn)象。故本文采用模擬退火遺傳算法來克服這一缺點,即首先通過遺傳算法生成適應度值較高的種群,然后通過SA操作對新種群的每個個體進行退火,不斷循環(huán)重復,直到滿足收斂準則為止[22],以此來得到最優(yōu)的閾值和權值。流程框圖如圖3所示。
圖3 BP-SAGA算法流程框圖
該算法的核心流程為:先以種群中的個體代表BP神經(jīng)網(wǎng)絡的初始閾值和權值,其次將BP神經(jīng)網(wǎng)絡的預測誤差作為個體初始化時的適應度值,最后通過一系列(選擇、交叉、變異、退火)的操作流程,所得到的最優(yōu)個體,即為BP神經(jīng)網(wǎng)絡的初始權值,從而克服單一BP神經(jīng)網(wǎng)絡的缺點,提高了BP神經(jīng)網(wǎng)絡的預測精度。標準的BP-Adaboost算法在每次迭代過程中更新權重時,主要是以錯分的樣本為基礎,但在乳腺癌的醫(yī)療診斷的實際應用中,因醫(yī)療數(shù)據(jù)集分布不平衡的問題,所以需要更加注意漏診現(xiàn)象,因此本文所提出的算法在迭代過程中是根據(jù)乳腺癌樣本特點進行權重的改變,對于醫(yī)療診斷過程中出現(xiàn)的將患病樣本錯分為健康樣本現(xiàn)象,分配更大的權重。本文算法流程如圖4所示。
圖4 BP-GamysBoost算法流程圖
BP-GamysBoost算法流程如下:
1)從樣本空間隨機選擇m組訓練數(shù)據(jù),初始化訓練樣本權重Dt(i),使得Dt(i)=1/m,根據(jù)樣本輸入輸出維數(shù)確定神經(jīng)網(wǎng)絡結構,初始化BP神經(jīng)網(wǎng)絡的權值和閾值。
2)訓練第t個弱分類器,用訓練數(shù)據(jù)訓練被遺傳算法優(yōu)化過的BP神經(jīng)網(wǎng)絡,并預測訓練數(shù)據(jù)輸出,得到預測序列g(t)的預測誤差et,其計算公式為:
式中y為預期分類結果,g(t)為預測結果。
3)根據(jù)預測序列g(t)的預測誤差et,調(diào)整下一輪訓練數(shù)據(jù)的權重αt,權重計算公式為:
4)根據(jù)預測序列權重αt,對下一輪訓練樣本的權重進行調(diào)整,調(diào)整策略為:
IF(模型輸出≠期望輸出) and (期望輸出為患病類別) THEN
IF (模型輸出≠期望輸出) and (期望輸出為健康類別) THEN
ELSE
Dt+1(i)=Dt(i)
其中,Bi為歸一化因子,i=1,2,…,m。
5)訓練T輪后得到T組弱分類函數(shù)f(gt,αt),由T組弱分類函數(shù)組合構成強分類函數(shù)h(x):
本文實驗是基于UCI機器學習庫的WBCD數(shù)據(jù)集進行研究的,該實驗數(shù)據(jù)中共包括569個病例,其中顯示非癌癥的樣本數(shù)量為357個,顯示癌癥的樣本數(shù)量為212個,即良性357例,惡性212例。WBCD數(shù)據(jù)集中每個樣本所包含的變量如表1所示。
表1 WBCD數(shù)據(jù)集屬性
本文以模型的穩(wěn)定性(Stability)、準確率(Accuracy)、漏診率(MDR)、靈敏度(Sensitivity)、特異度(Specificity)和Youden值作為評價指標來檢驗該模型的有效性。穩(wěn)定性主要是通過模型的標準差和100次實驗的散點圖來評估,另5個指標的計算公式如下:
其中TPR和TNR的計算基于混淆矩陣,如表2所示。對于以良/惡性乳腺癌腫瘤預測的二分類問題,可將樣本根據(jù)其真實類別與機器學習預測類別的組合分為真陽性、假陽性、假陰性與真陰性4種情況。
表2 混淆矩陣
本文為了消除隨機性因素并反映結果的真實性,借助MATLAB平臺,對WBCD數(shù)據(jù)集進行100次實驗,選取實驗結果的平均性能作為研究的最終結果。實驗結果具體分析如下。
4.3.1 穩(wěn)定性
模型的穩(wěn)定性又稱為魯棒性,它是決定模型是否可行的重要因素。由表3可知,4種模型的標準差大小順序為:BP-GamysBoost 表3 4種模型標準差均值比較 (a) BP模型準確率 (b) BP-GA模型準確率 (c) BP-Adaboost模型準確率 (d) BP-GamysBoost模型準確率 4.3.2 準確率 在面對多種分類模型時,準確率是評價分類模型好壞的一個直觀評價指標。由表4可以看出100次實驗后4種分類模型準確率均值大小順序為:BP-GamysBoost>BP-Adaboost>BP-GA>BP,其中BP-GamysBoost的準確率為0.9755,與BP-Adaboost分類模型0.9718的準確率相比,提升了0.38%。從圖6中4種模型準確率盒圖可以得出,BP-GamysBoost分類模型在100次實驗中25%的準確率高于0.97857,50%的準確率集中在0.97321~0.97857區(qū)間,與其他3個模型中準確率較高的BP-Adaboost模型相比,BP-GamysBoost分類模型大部分的準確率明顯地高于BP-Adaboost模型,且準確率更為集中,集中的區(qū)間也優(yōu)于BP-Adaboost模型。此外,BP-Adaboost模型和BP-GA模型還存在低于BP-GamysBoost模型最小準確率0.96607的異常值。 表4 4種模型的準確率均值比較 圖6 4種模型準確率盒圖 4.3.3 其他評估指標 在醫(yī)療診斷過程中,因乳腺癌數(shù)據(jù)存在數(shù)據(jù)分布不平衡現(xiàn)象,故在這種情況下,通常適用的準確率可能無法很直觀地反映該分類器的好壞,簡言之,此時的高準確率可能無法代表分類器的高性能。例如假設某疾病的患病率為1%,那么對于一個不加思考的分類器,它可能達到99%的準確率,但當真正遇到該患病樣本時,這個分類器可能毫無反應,所以即便該分類器準確率如此之高,卻仍然不能滿足人們的要求。故對不同分類模型,還需要從漏診率、靈敏度、特異度和Youden指數(shù)進行評估。 由圖7(a)模型漏診率盒圖可知,BP-GamysBoost分類模型的漏診率最低,說明本文提出的分類模型很好地控制了假陽性率,在乳腺癌疾病診斷中,降低了遺漏一名潛在病人的風險,其價值遠高于誤診一名正常人。由圖7(b)~圖7(d)所示盒圖可以分析出,在4種分類模型中,BP-GamysBoost分類模型在靈敏度、特異度和Youden指數(shù)上都高于其他3種模型。如圖7(b)和圖7(c)所示,BP-GamysBoost分類模型有較好的靈敏度和特異度,說明該網(wǎng)絡能更好地逼近函數(shù)。如圖7(d)所示,4種模型Youden指數(shù)大小順序為:BP-GamysBoost>BP-Adaboost>BP>BP-GA,BP-GamysBoost的中值為0.94408,BP-Adaboost的中值為0.93445,二者相差1.031%,說明本文提出的模型篩查實驗的效果更好,真實性更高。 (a) 4種模型漏診率盒圖 (b) 4種模型靈敏度盒圖 (c) 4種模型特異度盒圖 (d) 4種模型Youden指數(shù)盒圖 本文提出了一種新的乳腺癌智能診斷分類模型BP-GamysBoost,該模型在BP-Adaboost模型基礎上改進,引入改進后的GA算法并進行SA-GA優(yōu)化,在每次迭代中根據(jù)乳腺癌樣本特點對權重進行改變,在保證準確率的情況下盡可能降低漏診率。為了評估性能,引入了BP、BP-GA、BP-Adaboost這3個模型,通過穩(wěn)定性、準確率、漏診率、靈敏度、特異度和Youden值6個評價指標進行對比,實驗結果表明本文提出的集成算法比其他方法具有更好的性能,在臨床乳腺癌診斷系統(tǒng)的應用上,可以協(xié)助醫(yī)生做出正確有效決策。5 結束語