張晉凱,高 翔,王 鵬,白艷萍,梅銀珍
(中北大學(xué) 數(shù)學(xué)學(xué)院,太原 030051)
根據(jù)世界衛(wèi)生組織國際癌癥研究機構(gòu)(IARC)的最新統(tǒng)計數(shù)據(jù)顯示:2021年乳腺癌成為全球發(fā)病率最高的癌癥,其發(fā)病率和死亡率均為女性癌癥首位,并且整體發(fā)病率呈上升和年輕化趨勢[1]。因此,乳腺腫瘤的早期檢測和診斷治療顯得格外重要。目前組織病理學(xué)分析是乳腺癌診斷的主要方法。病理學(xué)家根據(jù)活檢獲得的病理圖像來判斷乳腺癌良惡性[2]。但是由于病理圖像本身的復(fù)雜度會導(dǎo)致病理學(xué)家有細微的診斷分歧進而減緩診斷效率,并且長時間工作也會影響診斷的結(jié)果甚至是誤判,從而需要大量人力物力來分析病理學(xué)圖像。近年來,利用機器學(xué)習(xí)診斷乳腺癌的計算機自動識別技術(shù)愈發(fā)成熟,它通過分析大量的乳腺癌病理圖像數(shù)據(jù)來提高診斷的準(zhǔn)確率與效率。卷積神經(jīng)網(wǎng)絡(luò)提取組織病理學(xué)圖像特征后,利用機器學(xué)習(xí)模型來對乳腺癌圖像進行分析,進行乳腺癌良惡性分類。
Spanhol等[3]利用卷積神經(jīng)網(wǎng)絡(luò)進行特征提取與之前使用手工制作的紋理描述符進行比較,并使用最近鄰算法、支持向量機、決策樹、隨機森林等不同的分類器對乳腺癌病理圖像特征分類,實現(xiàn)了識別率的提高。Hou等[4]采用數(shù)據(jù)增強和遷移學(xué)習(xí)來改進的深度卷積神經(jīng)網(wǎng)絡(luò)模型對乳腺癌病理圖像進行自動分類,既加快了訓(xùn)練速度不需要重新訓(xùn)練初始化權(quán)重又避免訓(xùn)練圖像樣本量少而出現(xiàn)深度學(xué)習(xí)模型過擬合。Hameed等[5]提出一種集成深度學(xué)習(xí)方法來對癌類和非癌類的乳腺癌組織病理學(xué)圖像進行分類,其采用經(jīng)過預(yù)訓(xùn)練微調(diào)的VGG16和VGG19網(wǎng)絡(luò)模型的集合預(yù)測概率的平均值來提升單模型分類的性能指標(biāo)。于凌濤等[6]采用基于Inceptionv3架構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)和圖像分塊化思想對乳腺癌病理圖像數(shù)據(jù)集良惡性分類。Sharma等[7]對比分析了基于手工制作的顏色、紋理等特征與基于預(yù)訓(xùn)練網(wǎng)絡(luò)作為特征提取器分別來訓(xùn)練傳統(tǒng)分類器支持向量機的乳腺癌組織病理學(xué)圖像分類性能,表明使用預(yù)訓(xùn)練網(wǎng)絡(luò)作為特征提取器表現(xiàn)出更好的性能。Yurttakal等[8]采用梯度提升和深度學(xué)習(xí)的堆疊集成模型診斷乳腺癌腫瘤,結(jié)果表明集成模型優(yōu)于一些單一的機器學(xué)習(xí)方法。由于數(shù)據(jù)集訓(xùn)練樣本數(shù)量少以及癌細胞的粘連性和顏色分布不均勻等問題,現(xiàn)階段研究大多是乳腺癌良惡性二元分類,對良惡性子類分類研究較少,為了進一步滿足臨床應(yīng)用的需求,Han等[9]提出了一種結(jié)構(gòu)化深度卷積神經(jīng)網(wǎng)絡(luò)模型,對類內(nèi)和類間分層特征空間自動學(xué)習(xí)低級到高級的語義特征和判別性分層特征,用于對相似度高的不同類別精準(zhǔn)化多分類,實驗表明模型多分類精度較高且具有一定穩(wěn)定性。利用卷積神經(jīng)網(wǎng)絡(luò)可以提取出不同類別病理圖像的局部細節(jié)特征和全局結(jié)構(gòu)特征,但對提取的特征進行分析訓(xùn)練分類器進而準(zhǔn)確的進行圖像分類也是重中之重。
現(xiàn)有的關(guān)于乳腺癌病理圖像分析的模型大多基于單一的模型和集成學(xué)習(xí)[10]模型,單一分類器模型分類精確率不高,集成分類器模型也存在著模型復(fù)雜、參數(shù)量多導(dǎo)致的計算量大和訓(xùn)練時間過長的問題。本文構(gòu)建了聯(lián)合訓(xùn)練的分類器的乳腺癌病理圖像分析模型,通過貝葉斯優(yōu)化對幾種分類器共同訓(xùn)練尋找最優(yōu)超參數(shù)以提升分類器模型的準(zhǔn)確率,來輔助醫(yī)生進行診斷。在提高醫(yī)生的工作效率的同時減少因經(jīng)驗不足而導(dǎo)致的誤診或漏診病例的現(xiàn)象。
卷積神經(jīng)網(wǎng)絡(luò)(CNN,convolutional neural network)的研究始于20世紀(jì)80至90年代,到21世紀(jì)后,隨著深度學(xué)習(xí)理論的提出、數(shù)值計算設(shè)備的改進以及各種標(biāo)準(zhǔn)的數(shù)據(jù)集的出現(xiàn),卷積神經(jīng)網(wǎng)絡(luò)得到了快速發(fā)展,一些卷積神經(jīng)網(wǎng)絡(luò)的經(jīng)典模型層出不窮,比如VGG[11]、ResNet、DenseNet[12]等。
在乳腺癌組織病理學(xué)圖像中,不管是輪廓、邊緣、紋理等局部細節(jié)更豐富的低層特征,還是通過深層卷積網(wǎng)絡(luò)得到的感受野更大的、全局信息更多的高層特征都包含很多的圖像特征信息。在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中,如果有L層,那么有L個連接,基于 DenseNet 的卷積神經(jīng)網(wǎng)絡(luò)將每一層所有的特征圖進行通道拼接,然后作為輸入傳遞給之后所有層,通過建立前面所有層與后面每一層的密集連接來實現(xiàn)特征重用,如果一個DenseNet網(wǎng)絡(luò)有L層,那么其有L(L+1)/2個連接。這種連接方式不僅加強了特征的傳遞,緩解了深層網(wǎng)絡(luò)梯度消失的問題,而且減少了參數(shù)量避免過擬合。這些特點讓DenseNet在參數(shù)和計算成本更少的情形下比其他卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)更優(yōu)的性能。因此本文采用DenseNet201預(yù)訓(xùn)練網(wǎng)絡(luò)來提取乳腺癌圖像卷積特征。如圖1所示,DenseNet201模型包含4個稠密塊,每個稠密塊由多個1×1卷積層,3×3卷積層構(gòu)成的塊(block)組成。各個稠密塊中block的數(shù)量分別為6,12,48,32。稠密塊越多相對應(yīng)通道數(shù)也增加,模型也更加復(fù)雜。所以稠密塊后面是1×1卷積層和步幅為2的2×2平均池化層組成的過渡塊,卷積層用來降低通道數(shù),池化層進一步降低模型復(fù)雜度,最后一個稠密塊后面沒有過渡塊。另外,通過遷移學(xué)習(xí)將在ImageNet數(shù)據(jù)集預(yù)訓(xùn)練好的模型參數(shù)在新的全連接層和輸出層進行訓(xùn)練和微調(diào),加快訓(xùn)練速度。
圖1 包含4個稠密塊的DenseNet201結(jié)構(gòu)圖
分類器[13]是一種機器學(xué)習(xí)技術(shù),它可以用來將輸入數(shù)據(jù)分類到不同的類別中。它的基本原理是,通過學(xué)習(xí)訓(xùn)練數(shù)據(jù),構(gòu)建一個模型,用于將新的輸入數(shù)據(jù)分類到正確的類別中。分類器可以用于許多不同的應(yīng)用,包括文本分類、圖像分類、語音識別等。分類器首先從訓(xùn)練數(shù)據(jù)中提取特征,然后,使用這些特征構(gòu)建一個模型,用于將新的輸入數(shù)據(jù)分類到正確的類別中。分類器可以使用不同的算法,比如支持向量機[14]、K最鄰近法[15]、決策樹、樸素貝葉斯[16]等。這些算法都有自己的優(yōu)點和缺點,因此,在使用分類器時,需要根據(jù)實際情況選擇合適的算法。分類器主要目標(biāo)是盡可能地逼近真正的分類模型,有效地提取輸入數(shù)據(jù)的特征,并且減少參數(shù)的數(shù)量來降低模型的復(fù)雜度,提高模型的泛化能力和可解釋性。
1.2.1 支持向量機
支持向量機(SVM,support vector machine)是一個機器學(xué)習(xí)的過程,一般來講,它是一種二分類模型,其基本模型定義為使特征空間間隔最大的線性分類器,它的學(xué)習(xí)策略是通過在高維空間中尋找一個最大間隔分類超平面,將不同類別的數(shù)據(jù)樣本點分開而使不同類別的點之間的間隔最大,將目標(biāo)函數(shù)優(yōu)化問題最終轉(zhuǎn)化為一個凸二次規(guī)劃問題的求解。由于現(xiàn)實問題中樣本并不總是線性可分的,因此引入核函數(shù)的思想,將樣本從原始空間映射到一個更高維的特征空間,找到合適的超平面,并通過序列最小優(yōu)化算法求解。SVM模型分類性能的好壞很大程度上取決于模型參數(shù)的選擇,SVM中核函數(shù)參數(shù)g和懲罰因子C是決定SVM性能的重要參數(shù)。
1.2.2 其他分類器
K最鄰近法(KNN,k-nearest neighbor)是一種基于距離的分類方法,待求數(shù)據(jù)樣本的類別是根據(jù)特征空間中最鄰近的k個數(shù)據(jù)樣本的類別來決定的。它的基本原理是,首先按照新樣本數(shù)據(jù)特征與訓(xùn)練樣本特征的距離進行排序,然后根據(jù)與其最鄰近的k個樣本類別所屬最多來判定新樣本的類別。如果這k個樣本大多數(shù)屬于某一個類別,則該樣本也屬于這個類別以及具有這個類別上樣本的特性,否則再按照某種判別規(guī)則確定新樣本類別。
決策樹(DT,decision tree)通過構(gòu)建一種樹形結(jié)構(gòu)來描述一系列的決策過程,根據(jù)決策過程將樣本進行分類。它的每個內(nèi)節(jié)點表示一個屬性特征,每個葉節(jié)點代表一個類別輸出,我們希望根據(jù)最少的內(nèi)節(jié)點可以將所有樣本盡可能劃分到同一類別中即葉子節(jié)點上,也就是說最重要一點是選擇最優(yōu)的劃分特征。決策樹模型訓(xùn)練復(fù)雜度低但不夠穩(wěn)定,訓(xùn)練數(shù)據(jù)輕微變化可能導(dǎo)致節(jié)點選擇不同,通過一定剪枝策略來避免數(shù)據(jù)的過擬合。
樸素貝葉斯(NB,naive bayesian)是一種基于貝葉斯定理與特征條件獨立假設(shè)的分類方法,它用后驗概率來判斷樣本類別,樸素貝葉斯模型假設(shè)特征之間相互獨立,首先根據(jù)已知分類的訓(xùn)練樣本集計算在各類別下各個特征屬性的條件概率估計,然后根據(jù)貝葉斯定理和各個類別、特征的概率來判斷樣本最大概率的類別。樸素貝葉斯模型可以處理多類別問題而且泛化能力也較強,在特征獨立假設(shè)的前提下與其他分類方法相比具有最小的誤差率。
集成學(xué)習(xí)通過將多個相同分類器或多個分類性能不同的簡單分類器組合在一起對應(yīng)同一樣本數(shù)據(jù)的判斷結(jié)果來達到學(xué)習(xí)的目的。它不要求每個學(xué)習(xí)器性能最好,但多個學(xué)習(xí)器博采眾長來選擇分類最優(yōu)結(jié)果,其預(yù)測精度和穩(wěn)定性相比較于單一分類器大部分都提到了提升,但本質(zhì)上沒有改變單個分類器分類準(zhǔn)確率,是通過一定的組合策略來提高分類器準(zhǔn)確率。隨機森林就是一種以決策樹作為基預(yù)測器的集成學(xué)習(xí)方法。
1.2.3 貝葉斯優(yōu)化
貝葉斯優(yōu)化[17](BO,bayesian optimisation)是一種利用先驗知識逼近未知目標(biāo)函數(shù)的后驗分布從而調(diào)節(jié)超參數(shù)的超參數(shù)優(yōu)化算法。其通過高斯過程建立目標(biāo)函數(shù)的概率模型,并用它來選擇最優(yōu)的超參數(shù)來評估真實的目標(biāo)函數(shù)。我們的目標(biāo)并不是使用盡可能多的數(shù)據(jù)點完全推斷未知的目標(biāo)函數(shù),而是希望能選取獲得最優(yōu)性能的超參數(shù),即求得最大化目標(biāo)函數(shù)的超參數(shù),因此超參數(shù)選擇就可以看作為一種最優(yōu)化問題。根據(jù)目標(biāo)函數(shù)的初始候選解集合找到下一個最佳觀測點,該點具有高均值或高方差來避免陷入局部最優(yōu),并將該點加入集合中,重復(fù)這一步驟,直至迭代終止,從而最快找到全局最優(yōu)解。網(wǎng)格搜索通過窮舉模型所有超參數(shù)組合來尋找最優(yōu)超參數(shù),當(dāng)模型超參數(shù)多時優(yōu)化速度慢且針對非凸問題容易陷入局部最優(yōu)。隨機搜索通過隨機探索超參數(shù)空間的值,但它求解過程中沒有利用之前已搜索點的信息,因此貝葉斯優(yōu)化比網(wǎng)格搜索和隨機搜索更為有效。
單個分類器都可進行超參數(shù)優(yōu)化來尋找模型性能最佳的超參數(shù),進而減少模型損失提高分類精度。本文使用貝葉斯優(yōu)化的支持向量機(BO-SVM)來進行對比。采用徑向基核函數(shù)訓(xùn)練SVM分類器,并通過使用貝葉斯超參數(shù)優(yōu)化SVM中核函數(shù)參數(shù)g和懲罰因子C,找到最小化五折交叉驗證損失的超參數(shù)。
徑向基核函數(shù):
(1)
加入懲罰因子C后,支持向量機優(yōu)化的目標(biāo)函數(shù)和約束條件:
(2)
1.2.4 聯(lián)合訓(xùn)練的分類器
現(xiàn)有的關(guān)于乳腺癌病理圖像分析的模型大多基于單一分類器模型和集成分類器模型。單一分類器優(yōu)化是對自身超參數(shù)尋找最優(yōu)結(jié)果,當(dāng)單個分類器無法很好地學(xué)習(xí)樣本時,模型的泛化能力會受到影響,分類器在測試集上的表現(xiàn)也會變差。為了提高模型的準(zhǔn)確率,可以使用集成分類器模型,它通過為每種分類器找到最佳超參數(shù),并通過集成學(xué)習(xí)策略構(gòu)建集成分類器來增強泛化能力。總體來說,集成分類器模型是在結(jié)合的多個單分類器模型優(yōu)化結(jié)果中尋找最優(yōu)結(jié)果,其泛化能力是遠大于單個分類器的泛化能力的,但它并不改變單分類器分類準(zhǔn)確率。而且隨著基分類器個數(shù)的增加模型復(fù)雜度變高,訓(xùn)練時間也會變長。
本文針對這些問題提出一種聯(lián)合訓(xùn)練的分類器,不是根據(jù)超參數(shù)優(yōu)化迭代結(jié)果直接優(yōu)化單一分類器,而是先聯(lián)合多個分類器SVM、KNN、決策樹、隨機森林和樸素貝葉斯對超參數(shù)觀測感知域進行擴大以便有損失更小的估計點,再根據(jù)估計點來迭代優(yōu)化超參數(shù)進而聯(lián)合訓(xùn)練出擬合性能較好的分類器。這既汲取不同分類器模型的可取之處來增強泛化能力又加大了模型觀測域,在避免陷入局部最優(yōu)的同時提升分類準(zhǔn)確率。圖2為尋找觀測最小值與估計最小值的優(yōu)化過程,根據(jù)最小觀測值找到損失最小的估計點方向,下一輪迭代繼續(xù)朝這個方向?qū)ふ易钚」烙孅c,如果使損失降低,根據(jù)找到的估計點更新擬合函數(shù),如果到某一個值優(yōu)化梯度成負方向則到達局部最優(yōu),通過增加隨機數(shù)擾動跳出局部最優(yōu)找到下一個梯度變正的點,直到迭代結(jié)束。那么損失最小的觀測點和估計點也就找到了。表1為高斯擬合目標(biāo)函數(shù)迭代步驟。
表1 高斯過程擬合目標(biāo)函數(shù)步驟
圖2 尋找觀測值與估計值的優(yōu)化過程
表2為某一組數(shù)據(jù)聯(lián)合訓(xùn)練的分類器迭代優(yōu)化過程。由表可得出,迭代次數(shù)為13,KNN模型為最佳觀測分類器,其超參數(shù)Num Neighbors為7;迭代次數(shù)為61,KNN模型為最佳估計分類器即返回的模型為KNN模型,其超參數(shù)Num Neighbors為16。
2016年,Spanhol等人[18]發(fā)布了BreakHis乳腺癌組織病理圖像公開數(shù)據(jù)集。該數(shù)據(jù)集包含了來自82位患者的7 909幅乳腺癌良惡性組織病理圖像,其中良性2 480例,惡性5 429例。本文根據(jù)不同放大倍數(shù)40×、100×、200×、400×分為4組數(shù)據(jù),針對每組數(shù)據(jù),隨機將圖像的70%作為訓(xùn)練集,圖像的30%作為測試集,具體分布情況如表3所示。
表3 按放大倍數(shù)的良惡性分類圖片數(shù)目
良性和惡性乳腺腫瘤又各包括4種子類,良性子類包括腺病(A)、纖維腺瘤(F)、葉狀腫瘤(PT)、管狀腺瘤(TA);惡性子類包括導(dǎo)管癌(DC)、小葉癌(LC)、粘液癌(MC)、乳頭狀癌(PC)。
本文主要的評價指標(biāo)是圖像級準(zhǔn)確率,令Nrec_I為分類正確的圖片數(shù)量,N為測試集樣本的數(shù)量,則圖像級準(zhǔn)確率定義為:
(3)
為了更直觀的反映真實的良惡性樣本與預(yù)測的良惡性樣本的差異,進一步評估本文方法的乳腺癌圖像識別性能,本文采用混淆矩陣來對分類結(jié)果進行分析,以及敏感性,特異性,精確率和F1_score四種評價指標(biāo)。敏感性表示在所有惡性樣本中惡性樣本被診斷正確的概率,特異性表示在所有良性樣本中良性樣本被診斷正確的概率,精確率表示被診斷為惡性的樣本中診斷正確的概率,F(xiàn)1_score是敏感性和精確率的調(diào)和平均數(shù),來平衡兩者使其同時達到最高。
根據(jù)單一分類器與本文所提出的聯(lián)合訓(xùn)練的分類器的比較,實驗結(jié)果如表4所示??梢钥闯鰺o論是對單一分類器SVM,還是對超參數(shù)優(yōu)化后的BO-SVM,聯(lián)合訓(xùn)練的分類器對不同放大倍數(shù)的圖像分類準(zhǔn)確率都得到了提升,在40×、100×、200×、400×下得到的準(zhǔn)確率分別為99.67%、98.08%、99.01%、96.34%。結(jié)果表明本文提出的聯(lián)合訓(xùn)練的分類器一定程度上能有效提高乳腺癌病理圖像識別準(zhǔn)確率。
表4 圖像層面的準(zhǔn)確率
圖3為不同放大倍數(shù)下的混淆矩陣。橫坐標(biāo)表示樣本的預(yù)測標(biāo)簽,縱坐標(biāo)表示樣本的真實標(biāo)簽。從圖3可以看出,良性樣本被誤判為惡性樣本的數(shù)量并不多,反而400倍數(shù)惡性樣本被誤判為良性樣本的數(shù)量比較多,說明樣本不均衡對該模型二分類的影響并不大。但是由于400倍數(shù)圖像放大倍數(shù)過大,圖像中包含更多精確的病灶位置局部信息,缺少了全局信息,導(dǎo)致識別準(zhǔn)確率較低。
圖3 二分類不同放大倍數(shù)的混淆矩陣
乳腺癌組織病理圖像良惡性分類是為了更好的幫助病理學(xué)家來對患者進行檢測。將良性誤分類為惡性可能會花費一定時間來重新檢測,而將惡性誤分類為良性則可能導(dǎo)致患者錯失最佳治療時間。則敏感性越高,可以越快讓病人得到及時治療,表5中4種放大倍數(shù)的敏感性分別為99.51%,97.91%,99.28%,93.24%,很大程度上避免了乳腺癌惡性被漏診的情況。F1_score分別為99.22%,97.16%,98.84%,95.94%,也說明了惡性樣本在不漏診的同時也有較高的精確率。
表5 不同放大倍數(shù)下的良惡性識別結(jié)果
表6為與文獻中幾種方法的比較,文獻[19-21]以Protocol原則劃分?jǐn)?shù)據(jù)集,文獻[21-22]以圖像為單位劃分?jǐn)?shù)據(jù)集,所用數(shù)據(jù)集和數(shù)據(jù)集劃分比例均與本文一致,其中訓(xùn)練集70%,測試集30%。對比圖像級準(zhǔn)確率可以看出,在40×和200×的放大倍數(shù)上,本文方法的識別準(zhǔn)確率均高于文獻中方法的識別準(zhǔn)確率。在100×和400×放大倍數(shù)上,文獻[21]的識別準(zhǔn)確率略高于本文方法,而其他文獻的識別準(zhǔn)確率均比本文的較低??梢钥闯鱿噍^于文獻中提出的方法,本文方法在乳腺癌組織病理學(xué)圖像識別問題中是有效的,但依然有提升的空間。
表6 與其他方法的圖像級準(zhǔn)確率對比
為了更好的評估實驗結(jié)果,我們又對不同的子類準(zhǔn)確率進行了比較,圖4是其對應(yīng)的混淆矩陣。A表示腺病,F(xiàn)表示纖維腺瘤,PT表示葉狀腫瘤,TA表示管狀腺瘤,DC表示導(dǎo)管癌,LC表示小葉癌,MC表示粘液癌,PC表示乳頭狀癌??梢钥闯?,由于導(dǎo)管癌的樣本數(shù)量遠遠超過其他子類,樣本嚴(yán)重不均衡導(dǎo)致識別結(jié)果偏向于樣本多的類,子類圖像的準(zhǔn)確率還有待提升。
圖4 八分類不同放大倍數(shù)的混淆矩陣
本文針對單一分類器超參數(shù)觀測域小提出了一種聯(lián)合訓(xùn)練的分類器。通過聯(lián)合幾種分類器擴大其觀測域來迭代優(yōu)化超參數(shù)進而聯(lián)合訓(xùn)練出擬合性能較好的分類器。在BreakHis數(shù)據(jù)集的實驗結(jié)果表明提出的聯(lián)合訓(xùn)練的分類器可以有效提高乳腺癌病理圖像識別準(zhǔn)確率。對不平衡樣本數(shù)據(jù)的問題未來可以通過數(shù)據(jù)擴充與增強方法進一步提高不同放大倍數(shù)的圖像及子類的識別準(zhǔn)確率。