侯珂珂,蔡莉莉
(1.中山大學新華學院健康學院,廣州510520;2.中山大學新華學院生物醫(yī)學工程學院,廣州510520)
乳腺癌是一種影響女性健康和生命的惡性腫瘤。根據2018年國際癌癥研究機構的最新調查結果,在全球女性癌癥中乳腺癌的發(fā)病率為24.2%,居女性惡性腫瘤的首位[1]。近年來,我國每年診斷出的乳腺癌患者達30萬之多,發(fā)病率呈現逐年上升的趨勢。隨著綜合治療手段的開展和普及,全球乳腺癌死亡率呈下降趨勢,但是在中國尤其是廣大農村地區(qū),這一變化并不明顯。而對乳腺腫瘤的早期診斷和治療,可以有效提高乳腺癌患者的存活率和治愈率[2-3]。
隨著計算機技術和人工智能技術的發(fā)展,多種計算機輔助診斷技術已被應用于乳腺腫瘤的早期診斷。劉瓊蓀等人提出了基于徑向基神經網絡的乳腺腫瘤診斷模型,仿真結果表明訓練樣本的平均誤差率為0,100個檢測樣本的平均誤差率為23.5%[4]。王曙燕等人研究了模糊聚類分析在乳腺腫瘤圖像數據分類中的應用,取得了較高的分類準確率[5]。易靜等人利用223例臨床手術患者的11項指標,基于4種決策樹算法,建立了乳腺腫瘤腋窩高位淋巴結分類診斷研究模型,分類模型的準確率為83.79%[6]。金強等人利用附加了動量項和自適應速率的改進BP神經網絡算法對乳腺腫瘤進行診斷,正確識別率達到了91.25%,平均誤識率為8.75%[7]。章永來等人設計的改進的支持向量機分類算法,在乳腺腫瘤的分類診斷中表現了較好的分類效果,分類準確率達98.59%[8]。徐勝舟等人提出融合遺傳算法和支持向量機的乳腺腫瘤分類診斷方法,AUC值達到了0.908[9]。Samala等人利用多任務遷移學習深度卷積神經網絡,實現了對高精度乳腺X線圖像的乳腺腫瘤診斷[10]。Bayramoglu等人采用放大倍數獨立的深度學習分類方法實現乳腺腫瘤組織病理學圖像的分類,準確率達83%[11]。
然而,臨床醫(yī)學數據通常具有明顯的樣本類別不平衡性。不平衡的數據會導致分類器偏向多數類,影響少數類的分類效果。而在醫(yī)學診斷數據中,少數類樣本往往具有至關重要的現實意義,對少數類的錯誤分類可能會導致嚴重的后果。例如,將惡性乳腺腫瘤患者錯誤的分類成良性患者,貽誤治療,將會危及患者的生命健康。決策樹、神經網絡、支持向量機等傳統(tǒng)的分類算法通常假設數據集具有均勻的數據分布和相同的誤分類代價,因此在處理不平衡數據時,不能有效反映數據的分布特征,分類結果出現類別偏置現象,大大減弱算法性能。
隨機森林作為一種性能良好的集成學習算法[12],具有較高的分類性能,能夠很好地規(guī)避過擬合現象,降低分類系統(tǒng)的泛化誤差,已被廣泛應用于眾多領域,尤其是醫(yī)學數據的分類任務中。
本文針對UCI乳腺腫瘤數據集樣本類別存在的不平衡性問題,首先分別基于不同的重采樣策略構建類別平衡的數據集,然后采用隨機森林算法構建乳腺腫瘤數據分類模型,引入醫(yī)學數據分類模型評價指標查全率、查準率、F1-score與未使用采樣策略的構建的分類模型進行比較,同時引入混淆矩陣以直觀評估對少數類的分類效果影響。
隨機森林是一個由多個決策樹分類器構成的集成分類器,每個決策樹分類器通過投票來決定最優(yōu)的分類結果。隨機森林的分類思想為:
(1)利用bootstrap重采樣方法從原始訓練集中隨機抽取k個樣本,形成k個相互獨立的bootstrap子樣本集,每個子樣本集的樣本容量與原始訓練集相同。
(2)每個bootstrap子樣本集利用CART算法生成單棵決策樹。在決策樹的每個節(jié)點分裂時,從全部M個特征中隨機選擇m(m<M)個特征,按照“基尼基數(Gini index)”最小原則,再從m個特征中選擇最優(yōu)特征作為分裂特征進行分支生長。假設當前選取的特征ti中包含K個樣本類別,pk表示第k個類別樣本量占總樣本總量的比例,則ti的基尼值為:
(3)重復步驟(2),針對k個 bootstrap子樣本集,構建k棵決策樹,形成隨機森林。
(4)根據k棵決策樹的投票結果,選出最終分類。
本文選用UCI機器學習庫中的乳腺腫瘤病例樣本數據,該數據由美國威斯康辛大學醫(yī)學院收集和整理。該數據樣本包括569個病例數據,含有357例良性樣本和212例惡性樣本。樣本比例為1.68:1,存在一定的數據不平衡問題。
每個病例樣本為32維數據,包含病例編號、診斷標簽、細胞核10個特征量的平均值、標準差和最壞值。其中,第1個字段為病例編號;第2個字段為診斷類別標簽(B為良性,M為惡性);第3-12個字段為10個特征的平均值;第13-22個字段為10個特征對應的標準差;第23-32個字段為10個特征對應的最壞值。
醫(yī)學數據集分類模型的構建,數據預處理工作十分重要,可能會直接影響到分類的準確率[4]。數據處理中的采樣策略應用較為廣泛的主要有兩種,即過采樣和欠采樣。
(1)過采樣方法
過采樣是一種通過增加少數類別的樣本數量,以平衡數據集的方法。其中,隨機過采樣是通過隨機復制少數類樣本來增加少數類的樣本數量,是最簡單的過采樣方法。但該方法僅是通過簡單復制少數類,沒有增加新的分類信息,容易造成分類過擬合問題。SMOTE算法是比較常用的過采樣方法,并表現了較好的效果。SMOTE算法通過向少數類別樣本數據之間插入人工合成樣本,有利于改善原始樣本數據的不平衡性。
(2)欠采樣方法
與過采樣方法相反,欠采樣是通過減少多數類樣本量,使其與少數類樣本量趨同,以平衡數據分布,例如隨機欠采樣、數據清洗方法等。隨機欠采樣會隨機刪除多數類樣本,減輕數據的不平衡程度。數據清洗法則通過“清洗掉”類間重疊樣本來平衡數據集。
本文分別采用數據處理中的SMOTE過采樣方法和隨機欠采樣方法構建基于不同采樣策略的隨機森林分類模型,探討不同采樣策略對分類模型性能的影響。
準確率(Accuracy)是評價分類器性能的常用指標。然而對于不平衡數據集問題,特別是醫(yī)學臨床問題,準確率不能很好說明分類器的性能。針對本文中的乳腺腫瘤不平衡數據分類問題,我們還引入正向樣本和負向樣本的查全率(又稱召回率,Recall)、查準率(Precision)以及F1-score作為分類效果的評價指標。
定義1準確率正確分類的測試樣本數量占所有測試樣本數量的比例,記為Accuracy,計算公式如式(2)所示:
其中,TP為實際為正樣本,分類器也正確分類為正樣本的樣本量;TN為實際為負樣本,分類器正確分類為負樣本的樣本量;FP為實際為負樣本,分類器錯誤分類為正樣本的樣本量;FN為實際為正樣本,分類器錯誤分類為負樣本的樣本量。
定義2正向查全率正向查全率為正確分類的正樣本數量占正確分類的正樣本和錯誤分類為負樣本的比例,記為Recall_P,計算公式如式(3)所示:
定義3負向查全率負向查全率為正確分類的負樣本數量占正確分類的負樣本和錯誤分類為正樣本的比例,記為Recall_N,計算公式如式(4)所示:
定義4正向查準率正向查準率為正確分類的正樣本數量占正確分類的正樣本和錯誤分類為正樣本的比例,記為Precision_P,計算公式如式(5)所示:
定義5負向查準率負向查準率為正確分類的負樣本數量占正確分類的負樣本和錯誤分類為負樣本的比例,記為Precision_N,計算公式如式(6)所示:
定義6 F1評分F1評分是綜合考慮查全率和查準率計算的結果,記為F1-score,計算公式如式(7)所示:
其中,當計算正向評分時,Precision=Precisionn_P,Recall=Recall_P,當計算負向評分時,Precision=Precision_N,Recall=Recall_N。
實驗中訓練集和測試集的數據比例按照7:3進行劃分,訓練數據為398例,測試數據為171例。以下在數據分析時,用B表示正向樣本,用M表示負向樣本。
(1)決策樹個數對分類性能的影響
為探究決策樹個數對算法分類性能的影響,選取欠采樣策略下,決策樹個數N分別為3、6、9、11時進行實驗,實驗結果如表1所示。
表1 決策樹個數對分類性能的影響
由表1可以看出,當N=9時,分類模型的各性能指標較好。綜合考慮分類效果和時間效率,以下實驗將決策樹個數選定為9,以此分析采樣策略對分類效果的影響。
(2)采樣策略對分類性能的影響
為了探究采樣策略對分類性能的影響,本實驗分別測試了未采樣、欠采樣、過采樣策略下的分類效果,如圖1和表2所示。
圖1 不同采樣策略的混淆矩陣
圖1 (a)顯示,在未采樣策略下,105個正向樣本中有8個被錯誤劃分為負向樣本,66個負向樣本中有4個被錯誤劃分為正向樣本;圖 1(b)(c)結果顯示,在采用欠采樣和過采樣策略后,正向樣本及負向樣本中錯誤劃分的樣本量均有不同程度的減少。
表2 不同采樣策略對分類性能的影響
表2結果表明,在未采樣策略下,負向樣本的分類效果不佳,低于正向樣本的分類效果;相比于未采樣策略,欠采樣和過采樣策略下各性能指標均有不同程度的提升,其中,對負向類的查準率均提高了5%,F1-score分別提高了3%和4%,性能提升明顯。
因此,在該乳腺腫瘤的分類問題中,經欠采樣和過采樣策略處理數據后的分類模型性能均優(yōu)于未作采樣處理后原始數據模型分類效果,而且過采樣策略具有更優(yōu)異的表現,較好地改善了不平衡數據集引起的分類偏置現象。
為了解決乳腺腫瘤數據集類別不平衡的問題,本文基于不同的重采樣策略構建平衡數據集,采用隨機森林算法建立乳腺腫瘤分類模型,探究不同采樣策略對乳腺腫瘤數據集的分類效果的影響。實驗結果表明,對比原始數據集,使用采樣策略后的數據構建的乳腺腫瘤分類器性能有一定提升,且經過采樣處理后構建的分類模型較欠采樣處理后的分類性能更好。