李廣麗,袁 天,李傳秀,鄔任重,卓建武,張紅斌+
1.華東交通大學(xué) 信息工程學(xué)院,南昌330013
2.華東交通大學(xué) 軟件學(xué)院,南昌330013
權(quán)威報(bào)告顯示:乳腺癌是女性中最常見的癌癥,也是女性第二大致命性疾病。故乳腺腫塊是一種令人擔(dān)憂的乳腺異常,約90%的乳腺腫塊屬于癌變。乳腺腫塊多隱藏于乳腺組織中且邊緣不清晰,醫(yī)生需結(jié)合扎實(shí)的專業(yè)知識和豐富的診斷經(jīng)驗(yàn)完成準(zhǔn)確的人工篩查。但醫(yī)生診斷水平參差不齊,人工篩查繁瑣,主觀性大,易導(dǎo)致較高的錯診率或漏診率,計(jì)算機(jī)輔助乳腺腫塊識別模型能有效地輔助醫(yī)生的臨床診斷工作。眾所周知,絕大多數(shù)醫(yī)學(xué)圖像處理應(yīng)用領(lǐng)域都面臨樣本稀缺難題,而造成該問題的主要因素是:(1)醫(yī)學(xué)圖像的標(biāo)注代價太大,需花費(fèi)非常大的人力、物力,才能獲取一定數(shù)量的高質(zhì)量樣本;(2)由于涉及倫理?xiàng)l款,大量醫(yī)學(xué)圖像樣本存在個人隱私,而無法正常獲取,極大地限制了可用的樣本數(shù);(3)由于所涉及的專業(yè)背景差異性較大,故醫(yī)(醫(yī)學(xué))工(計(jì)算機(jī))合作之間存在一定“鴻溝”,進(jìn)而制約了高質(zhì)量樣本的生成。醫(yī)學(xué)圖像樣本稀缺容易導(dǎo)致識別模型出現(xiàn)過擬合。綜上所述,如何應(yīng)對醫(yī)學(xué)圖像樣本稀缺問題已變得尤為重要。針對該問題,有學(xué)者提出采用GAN(generative adversarial networks)模型生成新樣本,以擴(kuò)充數(shù)據(jù)集,然而新樣本的真實(shí)性受到一定質(zhì)疑;有學(xué)者構(gòu)建多任務(wù)學(xué)習(xí)框架(如復(fù)合分割和識別),即通過不同任務(wù)之間的信息共享來應(yīng)對樣本稀缺,但多任務(wù)學(xué)習(xí)框架的設(shè)計(jì)及訓(xùn)練難度均較大。
深層病理信息是一種經(jīng)過多次挖掘的低維特征,它的判別性更高,且維度較低,能更好地匹配樣本數(shù)量,降低模型過擬合風(fēng)險(xiǎn),進(jìn)而在一定程度上應(yīng)對醫(yī)學(xué)圖像樣本稀缺問題。相比于上述兩類方法,它無需生成新樣本且模型訓(xùn)練難度不大,故“性價比”更高。提出“融入深層病理信息挖掘的乳腺腫塊識別模型”:在樣本精選基礎(chǔ)上,由淺入深地挖掘有限標(biāo)注樣本中的深層病理信息,以訓(xùn)練優(yōu)質(zhì)、高效的乳腺腫塊識別模型。本文貢獻(xiàn):
(1)設(shè)計(jì)樣本精選算法,跨越不同的乳腺造影圖像數(shù)據(jù)集,精選優(yōu)質(zhì)樣本,為訓(xùn)練魯棒的乳腺腫塊識別模型奠定數(shù)據(jù)基礎(chǔ),從數(shù)據(jù)增強(qiáng)角度應(yīng)對樣本稀缺問題;
(2)設(shè)計(jì)多視角有效區(qū)域基因優(yōu)選(multi-view efficient range-based gene selection,MvERGS)算法,精化原始圖像特征,并執(zhí)行判別相關(guān)分析(discriminant correlation analysis,DCA),獲取特征間的跨模態(tài)相關(guān)性,其判別性更強(qiáng)且維度更低,以匹配樣本數(shù)量,降低模型過擬合風(fēng)險(xiǎn),進(jìn)而應(yīng)對樣本稀缺問題。
圖像特征是乳腺腫塊識別的重要前提。尺度不變特征變換(scale-invariant feature transform,SIFT)、方向梯度直方圖(histogram of oriented gradients,HOG)等特征在乳腺腫塊識別中發(fā)揮了重要作用。Li提取圖像內(nèi)部及其邊緣紋理基元,采用線性判別分析(linear discriminant analysis,LDA)完成乳腺腫塊識別。Liu 等基于互信息模型優(yōu)選關(guān)鍵特征,采用支撐向量機(jī)(support vector machine,SVM)訓(xùn)練乳腺腫塊識別模型。此外,完全局部二值模式(completed local binary pattern,CLBP)、灰度共生矩陣(grey-level cooccurrence matrix,GLCM)等特征也被用于乳腺腫塊識別。
由于特征維度高且包含噪聲,故需對原始圖像特征執(zhí)行特征優(yōu)選,改善其判別性并壓縮特征維度,更好地匹配醫(yī)學(xué)圖像樣本數(shù)。特征優(yōu)選方法分為單模態(tài)特征優(yōu)選和多模態(tài)特征優(yōu)選,具體如下:
(1)單模態(tài)特征優(yōu)選
Ji 等從光學(xué)斷層掃描圖像中提取光學(xué)系數(shù)作為特征,基于最大相關(guān)和最小冗余算法優(yōu)選特征,完成類風(fēng)濕關(guān)節(jié)炎檢測。Veeramuthu 等采用空間灰度差特征提取算法和基于相關(guān)性的特征選擇方法,完成腦圖像分類。Kumar等基于粒子群優(yōu)化(particle swarm optimization,PSO)算法進(jìn)行特征優(yōu)選。Sudha等改良獅子算法,從乳腺圖像的紋理、強(qiáng)度直方圖和形狀等特征中優(yōu)選子集。Zhu 等綜合LDA 和局部保留投影法優(yōu)選神經(jīng)影像學(xué)特征。單模態(tài)特征優(yōu)選法可精化原始特征,提升識別精度。
(2)多模態(tài)特征優(yōu)選
由于包含正電子發(fā)射斷層掃描(positron emission tomography,PET)、磁共振成像(magnetic resonance imaging,MRI)、計(jì)算機(jī)斷層掃描(computed tomography,CT)等圖像,故可圍繞它們展開多模態(tài)特征優(yōu)選。Zhang等提出多模態(tài)多任務(wù)學(xué)習(xí)框架,實(shí)現(xiàn)多模態(tài)特征融合,完成阿爾茨海默?。ˋlzheimer's disease,AD)診斷。Zhou 等對不同模態(tài)執(zhí)行隱特征學(xué)習(xí),將特征映射到標(biāo)簽空間完成AD 診斷。Zheng等利用稀疏深度多項(xiàng)式網(wǎng)絡(luò)(sparse deep polynomial network,S-DPN)完成多模態(tài)數(shù)據(jù)融合,獲取判別性更強(qiáng)的新特征。也有學(xué)者采用超圖完成多模態(tài)數(shù)據(jù)間的高階相關(guān)性分析,生成高質(zhì)量特征。多模態(tài)特征優(yōu)選法充分利用特征間的互補(bǔ)性來改善識別精度。
近年來,深度學(xué)習(xí)模型在乳腺腫塊識別中扮演了重要角色。相關(guān)工作可分為四類:微調(diào)模型法、集成深度學(xué)習(xí)法、遷移學(xué)習(xí)法和多任務(wù)協(xié)同學(xué)習(xí)法。微調(diào)模型法微調(diào)預(yù)訓(xùn)練之后的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)完成識別任務(wù)。該方法簡單、易用,但受樣本數(shù)制約。Ragab等將預(yù)訓(xùn)練后的AlexNet模型的全連接層接入SVM,訓(xùn)練識別模型;集成深度學(xué)習(xí)法利用多個模型之間的互補(bǔ)性提升識別精度,故該方法需大量計(jì)算資源。Dhungel 等采 用DCNN(deep convolutional neural network)和深度置信網(wǎng)絡(luò)(deep belief network,DBN)分別構(gòu)建兩個預(yù)測模型,然后集成它們的結(jié)果,實(shí)現(xiàn)乳腺腫塊識別;遷移學(xué)習(xí)法通過知識遷移實(shí)現(xiàn)識別任務(wù)。Khan 等使用預(yù)訓(xùn)練的GoogLeNet、VGGNet和ResNet 模型提取圖像特征,將特征接入全連接層,對其池化并完成乳腺腫塊分類。Shen 等先訓(xùn)練塊級別(patch-level)識別模型,然后去掉全連接層,添加新卷積層,訓(xùn)練面向整幅造影圖像的識別模型。多任務(wù)協(xié)同學(xué)習(xí)法指診斷模型包含多個相關(guān)子任務(wù),如病灶分割、腫瘤識別、病灶定位等,它們相輔相成、互為補(bǔ)充,通過協(xié)同學(xué)習(xí)來改善識別精度,同時降低對樣本數(shù)的依賴。
綜上,乳腺造影圖像偏少使乳腺腫塊識別任務(wù)更具挑戰(zhàn),特征優(yōu)選算法能精化原始圖像特征,更好地匹配樣本數(shù),進(jìn)而改善模型識別性能。提出“融入深層病理信息挖掘的乳腺腫塊識別模型”,從多個角度積極應(yīng)對醫(yī)學(xué)圖像樣本稀缺問題:
(1)跨越不同的乳腺造影圖像數(shù)據(jù)集精選優(yōu)質(zhì)樣本,為訓(xùn)練魯棒的識別模型奠定數(shù)據(jù)基礎(chǔ)。
(2)充分挖掘有限標(biāo)注樣本中的深層病理信息,進(jìn)一步緩解模型過擬合問題:設(shè)計(jì)MvERGS 算法,降低噪聲干擾并提升特征判別性;深入分析特征間的典型相關(guān)性,采用跨模態(tài)特征來刻畫病灶區(qū)域。
綜上,本文模型稱為RMD,“R”表示樣本精選策略(sample refinement),“M”表示特征優(yōu)選算法MvERGS,“D”表示跨模態(tài)分析DCA。它們有機(jī)地結(jié)合在一起,以改善乳腺腫塊識別性能。
RMD 模型的框架如圖1 所示,包括:樣本精選、特征優(yōu)選、跨模態(tài)分析及乳腺腫塊識別。首先,設(shè)計(jì)樣本精選策略,篩選優(yōu)質(zhì)乳腺造影圖像樣本;其次,從形狀、紋理、深度學(xué)習(xí)等角度提取SIFT(S)、Gist(G)、HOG(H)、LBP(L)、DENSENET161(D)、
圖1 RMD 模型框架Fig.1 Framework of RMD model
圖像特征應(yīng)準(zhǔn)確刻畫乳腺腫塊視覺特性,且兼顧互補(bǔ)性,為跨模態(tài)分析做好準(zhǔn)備。SIFT 定位多變的腫塊形狀;Gist 從全局視角刻畫腫塊紋理特性;HOG 捕獲腫塊邊緣信息,進(jìn)而描述腫塊表象和形狀;LBP從局部視角刻畫腫塊紋理變化。DENSENET161、RESNET50 和VGG16 等深度學(xué)習(xí)特征是對傳統(tǒng)特征的有益補(bǔ)充。實(shí)驗(yàn)中嘗試了上述深度學(xué)習(xí)模型的同源網(wǎng)絡(luò)結(jié)構(gòu),但效果略差。
乳腺腫塊識別面臨樣本稀缺問題,考慮到隨機(jī)選取樣本以擴(kuò)充數(shù)據(jù)集會引入更多噪聲信息,進(jìn)而影響模型識別性能,盡量挑選置信度高的樣本來擴(kuò)展現(xiàn)有數(shù)據(jù)集,降低噪聲對識別的影響。因而,本文設(shè)計(jì)了一個更有針對性的樣本精選策略,它跨越不同的乳腺造影圖像數(shù)據(jù)集,篩選優(yōu)質(zhì)樣本(由一組分類器共同置信)并充分利用新樣本所蘊(yùn)含的病理學(xué)知識,訓(xùn)練出更有效且魯棒的識別模型。綜上,在RMD 模型中,樣本精選算法的基本思想:選取表現(xiàn)最優(yōu)異的一組分類器,采用硬投票機(jī)制從源數(shù)據(jù)集中優(yōu)選出樣本,即將源數(shù)據(jù)集中能被這組分類器正確分類的樣本選出,與目標(biāo)數(shù)據(jù)集合并,訓(xùn)練新的分類模型。該思想簡單、易行,既關(guān)注置信度更高的源樣本,又能充分利用不同分類器在決策時的互補(bǔ)性,最終為訓(xùn)練高質(zhì)量的分類模型奠定數(shù)據(jù)基礎(chǔ)。樣本精選算法如下所示:
算法1 樣本精選算法
2.2 節(jié)精選出的樣本非常有限且受個體差異影響,充分挖掘有限標(biāo)注樣本中的病理信息是應(yīng)對樣本稀缺問題的一種更為有效的方法。本節(jié)從特征優(yōu)選角度挖掘乳腺造影圖像病理特征。原始圖像特征維度偏高且存在噪聲,會影響識別精度并制約識別效率。設(shè)計(jì)MvERGS 算法,從兩個視角精化原始特征并提升其判別性,以應(yīng)對樣本稀缺導(dǎo)致的模型過擬合問題(特征優(yōu)選后維度將大幅降低,從而更好地匹配樣本數(shù))。同時,該算法具有良好的拓展性,可引入更多視角,從互補(bǔ)的角度更全面、細(xì)致地刻畫乳腺造影圖像中的病灶區(qū)域,并進(jìn)一步完善特征表示,不斷增強(qiáng)特征的判別性,從而提升模型識別精準(zhǔn)度。其次,算法具有一定魯棒性,即它僅處理最底層的特征分量,并不依賴于特征所描述的視覺內(nèi)容。
設(shè)乳腺造影圖像數(shù)據(jù)集={,,…,x},包含個樣本,特征集={,,…,f},特征維度,類標(biāo)簽集合={,}。 μ和σ表示特征f在c類樣本上的均值和標(biāo)準(zhǔn)差。特征f在c類樣本上的有效區(qū)間為:
MvERGS 算法視角1:考慮特征重疊區(qū)域在有效區(qū)間上的占比,它是衡量特征優(yōu)劣的相對值,不受樣本數(shù)、有效區(qū)間絕對大小影響,具有較強(qiáng)魯棒性和穩(wěn)定性。該占比越小,則特征的判別性更強(qiáng),它能將異類樣本有效地區(qū)分開。相反,占比越大,則特征判別性較弱,異類樣本間的混淆度偏高,識別精度較低。計(jì)算特征在所有類別樣本上的重疊程度-OAR:
對每個特征f的-OAR進(jìn)行標(biāo)準(zhǔn)化并計(jì)算它在所有類別樣本上的權(quán)重Ew:
DifLab(x)={x|x∈-NN(x)∧(x)≠(x)}表示樣本x在特征f上與樣本x類別標(biāo)簽(x)不同的樣本集合,-NN(x)指樣本x在特征f處的近鄰,采用式(5)計(jì)算樣本x在特征f處基于近鄰中異類樣本所占比的重疊區(qū)域:
計(jì)算特征f基于近鄰中異類樣本所占比的平均重疊區(qū)域并對其標(biāo)準(zhǔn)化:
-OAR越大,特征混淆度越大,特征區(qū)分能力越弱。計(jì)算特征f基于-OAR權(quán)重Kw:
綜合考慮式(4)、式(7)兩種權(quán)重,用調(diào)制它們,∈[0,1],故新特征權(quán)重如下:
根據(jù)式(9)和參數(shù)(閾值)執(zhí)行特征優(yōu)選,-Fw權(quán)值大小與對應(yīng)特征重要性成正比,若大于則優(yōu)選該權(quán)重并構(gòu)造權(quán)重隊(duì)列,基于生成特征。
MvERGS 算法視角2:考慮特征在有效區(qū)間上的重疊區(qū)域,它是衡量特征優(yōu)劣的絕對值。重疊區(qū)域越小,即異類樣本的混淆度較低,特征判別性越強(qiáng),它是對MvERGS 算法視角1 的有益補(bǔ)充。鑒于傳統(tǒng)的ERGS 算法能在一定程度上有效地提純特征,故基于該算法中特征f的權(quán)重w,得到權(quán)重矩陣。使用式(10)對權(quán)重矩陣進(jìn)行標(biāo)準(zhǔn)化,生成-:
基于參數(shù)執(zhí)行特征優(yōu)選,與類似,生成特征。拼接特征和獲得新特征。新特征從兩個視角刻畫原始特征中各分量重要性,不同視角能形成一定互補(bǔ)并增強(qiáng)特征判別性。特征優(yōu)選是對原始特征的精化,能改善識別精度。雖然維度更低,但其僅保留原始特征中的核心部分,在一定程度上確保了特征中有效信息的完整性。故能提升實(shí)時運(yùn)行效率并為跨模態(tài)相關(guān)性挖掘做好準(zhǔn)備。同時,特征降維后還能更好地匹配樣本數(shù),緩解樣本稀缺導(dǎo)致的模型過擬合。
MvERGS 算法精化原始特征,所生成的新特征中蘊(yùn)含淺層病理信息,應(yīng)進(jìn)一步提取標(biāo)注樣本中深層病理信息,更好地應(yīng)對樣本稀缺。同類乳腺腫塊的紋理、形狀、顏色、邊緣等視覺表象指向相同或相似的病灶區(qū)域,即圖像特征間蘊(yùn)含豐富的跨模態(tài)相關(guān)性,這對于改善識別性能具有非常重要的意義。故在MvERGS 特征優(yōu)選基礎(chǔ)上,繼續(xù)挖掘新特征之間的跨模態(tài)相關(guān)性,不斷優(yōu)化識別精度。
式(12)對角化類間散度矩陣S:
單位化協(xié)方差矩陣′,將原特征、映射到中間空間:
選取公開數(shù)據(jù)集CBIS-DDSM(從鏈接https://wiki.cancerimagingarchive.net/display/Public/CBIS-DDSM中獲?。Nbreast(從鏈接http://medicalresearch.inescporto.pt/breastresearch/index.php/Get_INbreast_Database 中獲?。┻M(jìn)行實(shí)驗(yàn)比較,它們的相關(guān)信息如表1 所示。
表1 CBIS-DDSM 和INbreast數(shù)據(jù)集的相關(guān)信息Table 1 Detailed information about CBIS-DDSM and INbreast datasets
對于INbreast 數(shù)據(jù)集,參照文獻(xiàn)[29]將BI-RADS中標(biāo)注1 和2 的圖像歸為陰性樣本,將標(biāo)注4、5、6 的圖像歸為陽性樣本。采用PCA 算法將SIFT 和HOG降成500 維和300 維。在提取深度學(xué)習(xí)特征時,由于分辨率較大,對圖像執(zhí)行中央裁剪操作,使輸入圖像變?yōu)?24×224。VGG16 選取第一個全連接層,特征維度4 096。DENSENET161 和RESNET50 均選取最后一個平均池化層,特征維度分別為2 208 和2 048。
RMD 模型包括:RMD-NN、RMD-LR、RMD-RF、RMD-DT、RMD-SVM、RMD-NB、RMD-Adaboost、RMD-GBDT 和RMD-XGBoost。對比基線有五類,具體如下所示:
(1)主流特征優(yōu)選算法:GS-XGBoost、ERGS、Fisher Score、PSO、HGSCCA。
(2)基于MvERGS算法(M)的識別模型:M-NN、M-LR、M-RF、M-DT、M-SVM、M-NB、M-Adaboost、M-GBDT 和M-XGBoost。
(3)基于MvERGS 算法(M)與跨模態(tài)相關(guān)性挖掘(D)的識別模型:MD-NN、MD-LR、MD-RF、MDDT、MD-SVM、MD-NB、MD-Adaboost、MD-GBDT 和MD-XGBoost。
(4)遷移學(xué)習(xí)類模型:DenseNet121、ResNet152、VGG16和Shen 等的模型。
(5)基于感興趣區(qū)域(ROI)的識別模型:Tsochatzidis等的模型、Rampun等的模型、Zhu等的模型、Carneiro 等的模型及Dhungel等的模型。
其中,第(2)、(3)類基線的實(shí)驗(yàn)結(jié)果可視為對RMD 模型執(zhí)行了消融分析。由于第(5)類基線基于ROI,與這些模型進(jìn)行間接比較。
采用精準(zhǔn)度(Accuracy,Acc)、AUC、敏感度(Sensitivity,Sen)、特異性(Specificity,Spe)和準(zhǔn)確率(Precision,Pre)等指標(biāo)評判乳腺腫塊識別性能。精準(zhǔn)度、AUC 越高,識別效果越好;敏感度越高,假陰率越低,漏診越少;特異性越高,假陽率越低,確診概率越高。
選取多個主流基線與RMD 模型進(jìn)行識別性能對比,實(shí)驗(yàn)結(jié)果如表2 和表3 所示。為了與Shen 等進(jìn)行比較,添加被忽略的BI-RADS=3 的乳腺造影圖像,重新訓(xùn)練識別模型。對于本文所提3 類模型M、MD 和RMD,選取每類模型中Acc、AUC 的最優(yōu)值進(jìn)行展示。如表2 左半部分所示,在CBIS-DDSM 數(shù)據(jù)集中,MD-XGBoost 模型的Acc 最優(yōu)值是77.75%,而MD-LR 的AUC 最優(yōu)值是85.16%。選取識別精準(zhǔn)度最優(yōu)的模型完成樣本精選,如執(zhí)行“INbreast?DDSM”樣本精選時:考慮到INbreast 中樣本偏少,采用“精選樣本數(shù)=最優(yōu)分類器精準(zhǔn)度×測試樣本數(shù)”的方式,共精選出23 個樣本。執(zhí)行“DDSM?INbreast”樣本精選時,采用算法1,即選取精準(zhǔn)度Top 3 的分類器對樣本執(zhí)行硬投票,共精選出706 個樣本。調(diào)制MvERGS算法的參數(shù)=0.5 和=9,采用串接融合方法生成跨模態(tài)特征。
表2 在CBIS-DDSM 數(shù)據(jù)集上RMD 與基線的對比Table 2 Comparison of RMD and baselines on CBIS-DDSM dataset
表3 在INbreast數(shù)據(jù)集上RMD 與基線的對比Table 3 Comparison of RMD and baselines on INbreast dataset
如表2 所示:選85-15 劃分比時,RMD 類模型精準(zhǔn)度優(yōu)于基線,相比M 類模型,MD、RMD 類模型精準(zhǔn)度更優(yōu),樣本精選策略、跨模態(tài)相關(guān)性挖掘發(fā)揮重要作用。作為變種,M-LR 模型的AUC 值超過Shen的VGG-VGG 模型,即MvERGS 算法較好地抑制了原始圖像特征中的噪聲干擾;選70-30劃分比時,RMD類模型精準(zhǔn)度優(yōu)于基線。作為變種,MD-GBDT 模型的精準(zhǔn)度最優(yōu),較最強(qiáng)基線提升10.89 個百分點(diǎn)。M-SVM、MD-NB 等模型AUC 表現(xiàn)突出,優(yōu)于Shen 的Model Averaging 模型。主要原因:相比于傳統(tǒng)ERGS模型僅從單個視角提純特征,MvERGS 算法從兩個互補(bǔ)的視角來精化原始圖像特征,確保了原始特征中有效信息的完整性,為訓(xùn)練識別模型奠定重要基礎(chǔ)。此外,實(shí)驗(yàn)結(jié)果也驗(yàn)證了在MvERGS 算法中增加新視角的必要性;同時,RMD 模型運(yùn)用DCA 算法深入挖掘異構(gòu)特征間的典型相關(guān)性,生成跨模態(tài)特征,即位于異構(gòu)特征間的具有相同或相似語義的潛在相關(guān)性。因此,它具有更強(qiáng)的判別性,能更精準(zhǔn)地刻畫病灶區(qū)域,并訓(xùn)練高效的識別模型。顯然,RMD模型有效緩解了因樣本稀缺導(dǎo)致的模型過擬合(表2中VGG16、ResNet152 等深度學(xué)習(xí)模型的結(jié)果存在一定過擬合)。MD-GBDT 模型獲得最優(yōu)的整體識別性能,而Shen 未公開精準(zhǔn)度數(shù)值。相比Shen 集成4個深度學(xué)習(xí)模型,MD-GBDT、MD-NB 等模型的訓(xùn)練過程更為簡單,也更易于復(fù)現(xiàn)。此外,相比于PSO、HGSCCA(hyper-graph based sparse canonical correlation analysis)、Fisher Score 等主流特征選擇算法,RMD 是一種多階段的、逐層精化的特征選擇算法,它能由淺入深地挖掘有限標(biāo)注樣本中所蘊(yùn)涵的深層病理信息。該信息維度更低但判別性更強(qiáng),基于它可以訓(xùn)練出高質(zhì)量的乳腺腫塊識別模型,從而更好地應(yīng)對樣本稀缺問題。最后,對比基于ROI 的識別模型,RMD 模型也有較強(qiáng)競爭力,且具備如下優(yōu)勢:AUC、Acc 等關(guān)鍵指標(biāo)更優(yōu)且不依賴人工標(biāo)注ROI;貼近真實(shí)診斷過程。綜上,RMD 類模型在CBIS-DDSM 數(shù)據(jù)集上表現(xiàn)較優(yōu)。
如表3 所示:使用70-30 劃分比時,變種模型MD表現(xiàn)更優(yōu),其中MD-LR 模型精準(zhǔn)度最優(yōu),較最強(qiáng)基線提升4.31 個百分點(diǎn),MD-GBDT 模型AUC 值逼近最優(yōu)單模型(95%)。顯然基于MvERGS 算法的特征優(yōu)選、基于DCA 法的跨模態(tài)相關(guān)性挖掘等在乳腺腫塊識別中均發(fā)揮重要作用。這也從另一個側(cè)面驗(yàn)證了MvERGS 算法的魯棒性、特征中有效信息的完整性及增加新視角的必要性。同時,跨模態(tài)相關(guān)性挖掘在保留特征判別性的基礎(chǔ)上,進(jìn)一步壓縮特征維度,既增強(qiáng)了識別模型的性能,又較好地匹配了樣本數(shù),以應(yīng)對樣本稀缺問題。其次,由于AUC 值偏低,深度學(xué)習(xí)模型VGG16、ResNet152 及DenseNet121 出現(xiàn)了過擬合(由于“DDSM?INbreast”遷移的樣本更多,故相比表2,這些模型的過擬合有所緩解),主要原因:醫(yī)學(xué)圖像樣本稀缺使得這些模型學(xué)不到關(guān)鍵特征。相反,RMD 類模型卻能獲取較好的AUC 值,且整體識別性能更優(yōu)。相比于PSO、HGSCCA、Fisher Score 等主流特征選擇算法,RMD 是一種多階段的、逐層精化的特征選擇算法,它通過MvERGS、DCA 等算法由淺入深地挖掘有限標(biāo)注樣本中所蘊(yùn)涵的深層病理信息,即取維度更低且判別性更強(qiáng)的新特征,從而積極應(yīng)對因樣本稀缺或模型復(fù)雜所導(dǎo)致的過擬合問題。最后,相比基于ROI的識別模型,RMD 模型在AUC 指標(biāo)上更有優(yōu)勢。綜上,RMD 模型在INbreast數(shù)據(jù)集上表現(xiàn)尚優(yōu),但優(yōu)勢不顯著。
提取單類別特征“S”“G”“H”“L”“D”“R”“V”,基于傳統(tǒng)分類器完成識別任務(wù),取每個特征在分類器上最優(yōu)結(jié)果做展示,實(shí)驗(yàn)結(jié)果如表4 所示。
表4 原圖像特征的識別性能Table 4 Recognition performance of original image features
在CBIS-DDSM 數(shù)據(jù)集中,S 特征表現(xiàn)優(yōu)異,其假陽率僅為1.39%,S 特征可減少形態(tài)、視角等變化帶來的噪聲,幫助模型準(zhǔn)確鎖定乳腺腫塊形狀。G 特征次之,它從全局角度捕獲紋理異常的乳腺腫塊。TP ?TN,模型存在過擬合傾向。在INbreast 數(shù)據(jù)集中,D特征和V 特征表現(xiàn)優(yōu)異。陽性預(yù)測樣本數(shù)遠(yuǎn)小于陰性預(yù)測樣本數(shù)(TP+FP ?TN+FN)或陽性樣本預(yù)測概率為0(Pre=0),識別模型出現(xiàn)了較嚴(yán)重的過擬合,而樣本稀缺是導(dǎo)致這一結(jié)果的最重要因素。因此,采用高維度的原始特征進(jìn)行乳腺腫塊識別,由于出現(xiàn)過擬合,整體識別性能并不好。這就需要充分挖掘原始圖像特征中所蘊(yùn)含的低維、深層病理信息,更準(zhǔn)確地刻畫乳腺造影圖像的病灶區(qū)域,并匹配樣本數(shù),降低模型過擬合風(fēng)險(xiǎn)。因此,本文所提RMD模型能由淺入深地挖掘有價值的病理信息,進(jìn)而改善識別性能,積極應(yīng)對樣本稀缺問題。
表5 基于MvERGS 算法的識別性能Table 5 Recognition performance based on MvERGS algorithm
綜上所述,MvERGS 特征優(yōu)選后兩個數(shù)據(jù)集上的識別性能都有提升,過擬合得到一定緩解。當(dāng)然,兩個數(shù)據(jù)集上的敏感度、精準(zhǔn)度等指標(biāo)還偏低,需要繼續(xù)執(zhí)行跨模態(tài)相關(guān)性挖掘,以改善這些指標(biāo)。
圖2 MD 類模型在兩個數(shù)據(jù)集上的精準(zhǔn)度和AUC 值Fig.2 Accuracy and AUC values of MD model on two datasets
綜上所述,在MvERGS 特征優(yōu)選基礎(chǔ)上,繼續(xù)執(zhí)行跨模態(tài)相關(guān)性挖掘,不但能從深層角度挖掘出不同模態(tài)特征間的互補(bǔ)信息,以豐富特征語義內(nèi)涵,還能在保證有效信息完整的情形下極大地降低特征維度,為應(yīng)對數(shù)據(jù)稀缺和提升識別模型的實(shí)時性能奠定重要基礎(chǔ)。
圖3 MD 模型中部分特征的t-SNE 可視化Fig.3 t-SNE visualization of some features in MD model
在臨床診斷中,特異性和敏感度也非常重要。特異性越高,假陽率越低,確診概率越高;敏感度越高,假陰率越低,漏診減少,真實(shí)患者可以得到及時治療,后者相對前者付出更大代價。特異性和敏感度從不同角度評估模型實(shí)用性。繪制如圖4 所示RMD 模型特異性均值、敏感度均值變化圖,橙色柱體表示增加量,綠色柱體表示減少量,藍(lán)色柱體表示均值,若含橙色柱體,則藍(lán)色柱體和橙色柱體高度之和為相應(yīng)指標(biāo)均值。藍(lán)色柱體表示引入樣本精選策略后對應(yīng)指標(biāo)均值。
圖4 樣本精選前后RMD 模型特異性和敏感度變化Fig.4 Variations of specificity and sensitivity of RMD model after using sample refinement strategy
選取均值能從統(tǒng)計(jì)角度發(fā)現(xiàn)真實(shí)的變化趨勢。“INbreast?DDSM”表示樣本精選方向,即從INbreast數(shù)據(jù)集中精選樣本,以補(bǔ)充DDSM 數(shù)據(jù)集?!癉DSM?INbreast”的含義剛好相反。
綜上所述,對于樣本更均衡的數(shù)據(jù)集,RMD 模型能獲取更優(yōu)的特異性,這有助于降低診斷的假陽率,提高確診率。而對于樣本相對稀缺的數(shù)據(jù)集,RMD模型能獲取更優(yōu)的敏感度,這有助于降低漏診現(xiàn)象,減少病人所付代價。顯然,引入樣本精選策略后,識別模型的特異性和敏感度均呈現(xiàn)積極變化,這在一定程度上增強(qiáng)了模型的實(shí)用性。
乳腺腫塊識別模型能輔助醫(yī)生的臨床診斷工作,但樣本稀缺會制約識別精度,進(jìn)而影響模型的實(shí)用性。提出融入深層病理信息挖掘的乳腺腫塊識別模型RMD,它從樣本精選、特征優(yōu)選、跨模態(tài)相關(guān)性挖掘等角度積極應(yīng)對樣本稀缺問題。實(shí)驗(yàn)表明:RMD 模型在兩個通用乳腺造影圖像數(shù)據(jù)集上均取得了較好的識別精度,且構(gòu)成模型的各個部分(R、M、D)均是有效的。RMD 模型的最大特點(diǎn):執(zhí)行多階段、逐層精化的特征選擇,以獲取判別性更強(qiáng)且維度更低的新特征。當(dāng)然,RMD 模型是非端到端的,為此,圍繞該模型,開發(fā)出基于Web 的乳腺癌診斷平臺并完成內(nèi)部測試,該平臺將特征提取、樣本精選、特征優(yōu)選、跨模態(tài)相關(guān)性挖掘、腫瘤識別等集于一體,期望該平臺有助于加速模型真正落地,從而更好地輔助醫(yī)生的臨床診斷工作。未來擬引入Non-Local Block模型,在乳腺腫塊識別基礎(chǔ)上完成病灶定位;此外,期望將RMD 模型應(yīng)用到新冠肺炎檢測中。
感謝Lee 等人及癌癥影像檔案公開數(shù)據(jù)庫(cancer imaging archive public access,TCIA)收集、整理CBIS-DDSM 數(shù)據(jù)集。感謝Breast Research Group及Hospital de S?o Jo?o,Breast Centre,Porto,Portugal提供、整理、標(biāo)注了INbreast 數(shù)據(jù)集。這兩個數(shù)據(jù)集是本項(xiàng)研究得以順利開展的最重要基礎(chǔ)。感謝南昌大學(xué)醫(yī)學(xué)院周穎老師在病理學(xué)方面提供的指導(dǎo)。