周天奕 丁衛(wèi)平 黃嘉爽 鞠恒榮 姜 舒 王海鵬
組織病理圖像在醫(yī)療診斷中起著至關(guān)重要的作用,在疾病的分期和治療計(jì)劃中都不可或缺.近幾年,越來(lái)越多的研究者開(kāi)始將深度學(xué)習(xí)模型應(yīng)用于組織病理圖像分類任務(wù)中.Yang等[1]實(shí)現(xiàn)基于閾值的腫瘤優(yōu)先聚合方法,用于WSIs(Whole Slide Images)標(biāo)簽推斷,并開(kāi)發(fā)基于深度學(xué)習(xí)的肺部病變分類器,用于識(shí)別肺癌亞型.Wang等[2]利用全卷積神經(jīng)網(wǎng)絡(luò)提取有用的深度特征并進(jìn)行有效預(yù)測(cè),用于肺癌組織病理學(xué)圖像分類.因此,在深度神經(jīng)網(wǎng)絡(luò)輔助下,應(yīng)用組織病理圖像可大幅提升病理診斷的精確性和效率,也開(kāi)始支持早期干預(yù)和治療的策略.
組織病理學(xué)圖像的形態(tài)特征通常包括細(xì)胞大小、形狀、顏色、細(xì)胞內(nèi)核的大小和形狀、染色質(zhì)的分布等.這些特征的變化表明細(xì)胞或組織的病理改變,因此準(zhǔn)確提取特征至關(guān)重要.目前常見(jiàn)的特征提取方法有卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)和注意力機(jī)制[3].CNN是深度學(xué)習(xí)中成功方法之一,通過(guò)卷積核在圖像上滑動(dòng)的同時(shí)對(duì)覆蓋區(qū)域進(jìn)行非線性變換,提取不同級(jí)別的特征.Wahab等[4]集成策略兩階CNN,提出Hybrid-CNN(HC-NN),實(shí)現(xiàn)有絲分裂和非有絲分裂的分類.另一方面,注意力機(jī)制也廣泛應(yīng)用于病理圖像分類任務(wù)中.不同于CNN,注意力機(jī)制關(guān)注輸入序列的所有元素,捕獲全局依賴關(guān)系,并加權(quán)聚合這些特征,形成更高層次的表示.Sadafi等[5]將注意力機(jī)制用于遺傳性血液疾病的分類任務(wù)中,能更好地關(guān)注疾病樣本細(xì)胞,提升分類的準(zhǔn)確率.Valanarasu等[6]提出MedT(Medical Transformer),在自注意力模塊中引入額外的控制機(jī)制,擴(kuò)展現(xiàn)有架構(gòu).MedT的全局分支建模遠(yuǎn)程依賴關(guān)系,學(xué)習(xí)全局上下文特征,同時(shí)局部分支操作補(bǔ)丁,關(guān)注更精細(xì)的特征.MebT在醫(yī)學(xué)圖像中取得較優(yōu)結(jié)果.
值得注意的是,上述方法忽略組織病理圖像在不同粒度級(jí)別上的特征,僅在單一粒度進(jìn)行特征提取,不能完整獲取細(xì)胞之間蘊(yùn)含的特征信息.為了解決這一問(wèn)題,Li等[7]在提取過(guò)程中嵌入不同粒度大小的特征,能有效克服病理圖像類間方差小、類內(nèi)方差大的難題,降低圖像放大的敏感性.Hashimoto等[8]證明,在不同尺度下,存在不同類別的特異性特征,并將此用于腫瘤亞型分類,識(shí)別準(zhǔn)確率優(yōu)于專業(yè)病理學(xué)專家.因此,在組織病理圖像分類過(guò)程中,采用多粒度方法劃分組織病理圖像,提取不同粒度下的醫(yī)學(xué)病理特征,能有效提升分類的準(zhǔn)確率.
與此同時(shí),融合多粒度特征時(shí)還會(huì)出現(xiàn)信息冗余的問(wèn)題.Sinha等[9]在醫(yī)學(xué)圖像中使用基于引導(dǎo)的注意力機(jī)制,克服信息冗余,通過(guò)不同模塊間的額外損失,引導(dǎo)注意力機(jī)制忽略不相關(guān)的信息,并強(qiáng)調(diào)相關(guān)特征關(guān)聯(lián)以關(guān)注圖像中更具辨別力的區(qū)域.Xue等[10]提出GG-Net(Global Guidance Network),利用多層集成特征圖作為指導(dǎo)信息學(xué)習(xí)空間域和通道域的遠(yuǎn)程非局部依賴關(guān)系,在乳腺超聲病變檢測(cè)方面優(yōu)于其它醫(yī)學(xué)圖像方法.
學(xué)者們現(xiàn)也開(kāi)始使用模糊集理論引導(dǎo)特征.模糊集理論中引入隸屬函數(shù),描述元素對(duì)于模糊程度的歸屬度量.在醫(yī)學(xué)圖像中,這種歸屬程度可用來(lái)表達(dá)像素的不確定性與模糊性[11].模糊集理論設(shè)置隸屬函數(shù),使每個(gè)像素點(diǎn)能靈活表達(dá)對(duì)不同組織和結(jié)構(gòu)的隸屬程度,較好地捕捉圖像中的重疊區(qū)域以及模糊邊界,解決通用特征可能受到噪聲、偽影和光線變化干擾的問(wèn)題.Ding等[12]結(jié)合區(qū)間2型模糊聚類與超像素概念和元啟發(fā)式方法,改進(jìn)傳統(tǒng)的模糊c-mean聚類算法的目標(biāo)函數(shù),使其融入基于超像素鄰近局部窗口的空間信息,實(shí)現(xiàn)對(duì)放射圖像的有效分割.Murugesan等[13]結(jié)合Mamdani模糊模型和自適應(yīng)神經(jīng)模糊模型,構(gòu)建基于模糊邏輯理論的慢性腎臟疾病診斷系統(tǒng),取得優(yōu)異結(jié)果.由此可見(jiàn),基于模糊集的醫(yī)學(xué)圖像領(lǐng)域已取得一定成果,為臨床診斷和治療提供有力支持[14].
因此,本文提出模糊邏輯引導(dǎo)的多粒度深度神經(jīng)網(wǎng)絡(luò)(Fuzzy Logic Guided Deep Neural Network with Multi-granularity, FGDNN).在組織病理圖像特征提取時(shí)考慮細(xì)胞的醫(yī)學(xué)構(gòu)造屬性,分別提取粗粒度(Coarse Granularity)、中粒度(Medium Granularity)和細(xì)粒度(Fine Granularity)下的組織醫(yī)學(xué)特征,提高特征信息空間的豐富程度,同時(shí)引入經(jīng)典的模糊邏輯,通過(guò)模糊運(yùn)算提取的通用特征引導(dǎo)模型的學(xué)習(xí).為了充分利用這些特征,本文設(shè)計(jì)模糊邏輯引導(dǎo)的交叉注意力機(jī)制模塊(Fuzzy Logic Guided Cross Attention, FGCA),通過(guò)改進(jìn)的交叉注意力機(jī)制,將模糊通用特征融入補(bǔ)丁令牌中,達(dá)到對(duì)不同粒度特征的引導(dǎo).最終輸出分類令牌,得到分類結(jié)果.在多個(gè)不同的組織病理圖像分類數(shù)據(jù)集上的大量實(shí)驗(yàn)表明,FGDNN表現(xiàn)出較優(yōu)性能,充分驗(yàn)證其有效性和實(shí)際應(yīng)用潛力,為組織病理圖像分析領(lǐng)域提供一種解決方案.
CNN和注意力機(jī)制已成功應(yīng)用于圖像分類任務(wù)中[15].目前,這些方法大致分為3類:基于多輸入特征模型的方法[16-17]、基于不同注意力機(jī)制的方法、基于其它功能模塊的方法.
在基于多輸入特征的方法中,Wang等[18]提出PVT(Pyramid Vision Transformer),能像CNN一樣產(chǎn)生特征金字塔,實(shí)現(xiàn)對(duì)多尺度特征的集成,性能較優(yōu).Zheng等[19]逐漸降低圖像的空間分辨率,利用Transformer框架,通過(guò)串行化圖像,實(shí)現(xiàn)純自注意力的特征表示編碼器,取得有競(jìng)爭(zhēng)力的結(jié)果.Han等[20]提出TNT(Transformer-in-Transformer),將輸入圖像拆分為視覺(jué)句子和視覺(jué)單詞,挖掘較小的特征和細(xì)節(jié),增強(qiáng)特征表示能力.Dai等[21]提出Trans-Med,結(jié)合CNN和Transformer的優(yōu)勢(shì),捕獲低級(jí)特征和跨模態(tài)高級(jí)信息,將多模態(tài)圖像串行處理,并發(fā)送到CNN后,使用Transformer學(xué)習(xí)串行之間的關(guān)系并進(jìn)行預(yù)測(cè).TransMed在參數(shù)、速度和準(zhǔn)確性方面較優(yōu).Tang等[22]提出MATR(Multiscale Adaptive Transformer),采用多尺度,設(shè)計(jì)基于全局互補(bǔ)上下文自適應(yīng)調(diào)制卷積核的自適應(yīng)卷積,從不同尺度上充分獲取有用的多模態(tài)信息.
在基于不同注意力機(jī)制的方法中,Wang等[23]證明使用低秩矩陣近似,可在降低復(fù)雜度的同時(shí)保持與原始自注意力相當(dāng)?shù)男阅?并且具有更高的內(nèi)存和時(shí)間效率.Yuan等[24]提出VOLO(Vision Out-looker),可有效將精細(xì)級(jí)特征編碼為ViT(Vision Transformer)令牌表示,從而提升分類性能.Chu等[25]提出Twins,引入空間可分的自注意力機(jī)制,主要采用矩陣乘法運(yùn)算,從而優(yōu)化和加速深度學(xué)習(xí)模型的計(jì)算過(guò)程.Chen等[26]提出CrossViT(Cross-Attention Multi-scale Vision Transformer),改進(jìn)交叉注意力機(jī)制,在平衡復(fù)雜性的同時(shí)利用更細(xì)粒度的補(bǔ)丁,獲取更豐富的信息.
在基于其它功能模塊的方法中,Touvron等[27]提出針對(duì)ViT的教師-學(xué)生蒸餾訓(xùn)練策略,并使用基于令牌蒸餾的方法,僅使用ImageNet且無(wú)需使用任何外部數(shù)據(jù)進(jìn)行訓(xùn)練,就能達(dá)到SOTA(State of the Art)水平.Chen等[28]利用記憶驅(qū)動(dòng)的Transfor-mer生成醫(yī)療報(bào)告,設(shè)計(jì)相關(guān)記憶驅(qū)動(dòng)模塊,用于記錄生成的關(guān)鍵信息,設(shè)計(jì)記憶驅(qū)動(dòng)條件層歸一化,用于整合相關(guān)記憶到Transformer的解碼器中.
模糊集理論是一種數(shù)學(xué)工具,用于處理不確定性和模糊性的問(wèn)題[29].它提供一種描述模糊概念的數(shù)學(xué)框架,可用于圖像特征的建模和表示.與傳統(tǒng)的布爾邏輯不同,模糊邏輯允許一個(gè)元素同時(shí)屬于多個(gè)集合,并為其分配一個(gè)介于0和1之間的隸屬度值.對(duì)于任意元素x,在模糊集合A中的隸屬度可以表示為μA(x)∈[0,1].這種靈活性使模糊邏輯在處理含有模糊性和不確定性的問(wèn)題時(shí)具有出色表現(xiàn).
針對(duì)模糊集與圖像結(jié)合,通常有如下方法:1)以機(jī)器學(xué)習(xí)為主的模糊算法;2)以深度神經(jīng)網(wǎng)絡(luò)為主的模糊特征處理.Wan等[30]為了減少圖像中變化、重疊(異常值)和稀疏點(diǎn)的影響,提出SF2DDLPP(Sparse Fuzzy Two-Dimensional Discriminant Local Pre-serving Projection),通過(guò)彈性網(wǎng)絡(luò)回歸降低對(duì)數(shù)據(jù)稀疏點(diǎn)的敏感性,增強(qiáng)圖像特征提取和識(shí)別算法的魯棒性.Bhalla等[31]提出FCNN(Hybrid Fuzzy CNN),其中模糊集已用于自動(dòng)消除圖像中呈現(xiàn)的各種不確定性,通過(guò)聚焦測(cè)量生成決策圖,提供給定輸入圖像的聚焦區(qū)域,并在融合圖像中保留這些關(guān)鍵區(qū)域以提升效果.
對(duì)于醫(yī)學(xué)圖像的處理,模糊邏輯具有更優(yōu)的適用性,這是因?yàn)獒t(yī)學(xué)圖像中的結(jié)構(gòu)和病變通常具有模糊的邊界,模糊集方法可以更好地處理這種模糊性[32].Ding等[33]提出FTransCNN,基于模糊融合策略,通過(guò)模糊融合模塊,聯(lián)合利用CNN和Transfor-mer提取特征,在醫(yī)學(xué)圖像分割任務(wù)上性能較優(yōu).Hu等[34]為了解決腦圖像中不同程度的噪聲、弱邊界和偽影,設(shè)計(jì)基于改進(jìn)模糊聚類和HPU-Net(Hybrid Pyramid U-Net Model for Brain Tumor Segmentation)的腦圖像處理和腦疾病診斷預(yù)測(cè)模型,仿真實(shí)驗(yàn)表明算法具有較高的特征提取精度.
模糊集方法還被用于多模態(tài)醫(yī)學(xué)圖像的融合,通過(guò)定義多個(gè)隸屬函數(shù)和模糊規(guī)則,融合多個(gè)模態(tài)的信息,從而提升分類和診斷的準(zhǔn)確性.Wang等[35]提出基于多CNN組合和模糊神經(jīng)網(wǎng)絡(luò)Gabor表示方法,通過(guò)一組不同比例和方向的Gabor濾波器組對(duì)CT(Computed Tomography)和MR(Magnetic Reso-nance)圖像集進(jìn)行濾波,得到不同的表示對(duì),充分表征融合圖像中病灶復(fù)雜紋理和邊緣信息.模糊集方法還應(yīng)用于醫(yī)學(xué)圖像的分類和診斷任務(wù)中.通過(guò)合適的特征提取和建立模糊集分類器,可以根據(jù)醫(yī)學(xué)圖像的特征和屬性進(jìn)行分類和診斷.Das等[36]提出LNF-FE(Linguistic Neuro-Fuzzy with Feature Extrac-tion),用于醫(yī)學(xué)數(shù)據(jù)的疾病分類分析,使用語(yǔ)言模糊化過(guò)程生成處理不確定性問(wèn)題的隸屬度值,同時(shí)在模糊神經(jīng)模型中混合特征提取算法,提取重要特征.
盡管模糊集理論存在很多優(yōu)勢(shì),但模糊集合的隸屬函數(shù)設(shè)置較復(fù)雜,需要根據(jù)具體的任務(wù)進(jìn)行調(diào)整,參數(shù)的合適與否會(huì)極大影響模型性能,且其計(jì)算過(guò)程會(huì)消耗較多的計(jì)算資源與時(shí)間.在大規(guī)模醫(yī)學(xué)圖像的深度神經(jīng)網(wǎng)絡(luò)分類任務(wù)中,時(shí)間復(fù)雜度會(huì)呈指數(shù)級(jí)上升.目前,將模糊集理論應(yīng)用于醫(yī)學(xué)圖像領(lǐng)域還在不斷探索中[37-38].
本文提出基于模糊邏輯引導(dǎo)的多粒度深度神經(jīng)網(wǎng)絡(luò)(FGDNN),具體流程圖如圖1所示.FGDNN主要包含3個(gè)模塊:多粒度特征提取模塊、模糊通用特征模塊、模糊邏輯引導(dǎo)的交叉注意力機(jī)制模塊.
圖1 FGDNN流程圖
在特征提取時(shí),僅提取單一的特征并不能很好地適用于醫(yī)學(xué)圖像,Zhang等[39]將醫(yī)學(xué)圖像分解成多個(gè)尺度層,可從不同的尺度層中提取不同的視覺(jué)特征.因?yàn)獒t(yī)學(xué)圖像的診斷和分析需要考慮多個(gè)方面的信息,這些信息處于不同的粒度級(jí)別中.Lin等[40]提出DS-TransUNet(Dual Swin Transformer U-Net),提取不同語(yǔ)義尺度的粗粒度特征表示和細(xì)粒度特征表示,用于醫(yī)學(xué)圖像分割任務(wù).Kong等[41]使用4幅不同縮放的組織病理學(xué)圖像,分別生成4個(gè)不同大小的語(yǔ)義特征圖,使模型從組織類型到細(xì)胞類型都具有較強(qiáng)的泛化能力.
由于組織病理圖像的特殊性,病理醫(yī)生在分類組織病理圖像時(shí),通常會(huì)采用多粒度的方式進(jìn)行判斷:在低放大倍率觀察組織的整體形態(tài),這有助于確定是否存在明顯的異常區(qū)域,如腫瘤或炎癥、病變;在中等放大倍率觀察細(xì)胞排列、核的形態(tài)以及細(xì)胞間的關(guān)系,這有助于確定異常區(qū)域的性質(zhì),如腫瘤的類型和分級(jí);在高放大倍率檢查細(xì)胞的核仁特征、胞漿內(nèi)的器官以及細(xì)胞邊界的清晰度.微觀層面的觀察可以提供更多細(xì)節(jié),幫助確定病變的性質(zhì)和嚴(yán)重程度[42-44].
圖2 多粒度特征提取模塊結(jié)構(gòu)圖
x=(xFine,xMedium,xCoarse),
其中,xFine表示細(xì)粒度特征,xMedium表示中粒度特征,xCoarse表示粗粒度特征.
然后,將多粒度特征xFine、xMedium和xCoarse重新塑形成一系列扁平化的二維特征塊:
其中,(H,W)表示原始特征的分辨率,C表示通道數(shù),(P,P)表示每個(gè)特征塊的分辨率,N表示生成的特征塊數(shù)量,同時(shí)也作為與模糊特征融合的有效輸入序列長(zhǎng)度.通過(guò)設(shè)計(jì),使N的維度能匹配在不同粒度,這在與模糊特征融合時(shí)可大幅降低計(jì)算復(fù)雜度.與ViT的[class]標(biāo)記類似,對(duì)每個(gè)嵌入特征塊序列添加可學(xué)習(xí)的嵌入,最后的輸出為:
本文選取模糊集理論,用于解決多粒度特征提取時(shí)出現(xiàn)的信息冗余問(wèn)題,這是因?yàn)槟:碚撛趫D像處理中是將圖像的像素值視為元素,并通過(guò)隸屬函數(shù)描述元素對(duì)模糊概念的隸屬程度.這種方法的優(yōu)勢(shì)在于:能夠捕捉圖像中的不確定性和模糊性,通過(guò)設(shè)置不同的隸屬函數(shù)以及臨界值,可以準(zhǔn)確提取惡性細(xì)胞的通用特征,提供更準(zhǔn)確的信息用于圖像分類.
模糊通用特征提取算法如算法1所示.給定一個(gè)圖像I,首先,將I轉(zhuǎn)化為灰度圖,并歸一化到[0,1]范圍內(nèi),在提取圖像的模糊特征時(shí)將每個(gè)像素點(diǎn)Ix視為一個(gè)模糊集合,每幅圖像分別經(jīng)過(guò)不同的隸屬函數(shù).本文提取3個(gè)模糊特征Iμ,Iσ和IT,得到的模糊通用特征集合表示為{Iμ,Iσ,IT},這個(gè)模糊集合的定義取決于隸屬函數(shù),描述每個(gè)像素點(diǎn)對(duì)于某個(gè)模糊概念的隸屬程度.最后通過(guò)模糊運(yùn)算得到模糊通用特征zFuzzy.
在模型學(xué)習(xí)過(guò)程中,隸屬函數(shù)可幫助模型更好地理解每個(gè)像素點(diǎn)的含義,包括它可能的歸屬類別以及歸屬程度.這種多角度、多層次的特征表達(dá)方式可提供更多的信息,幫助模型捕捉到更豐富、復(fù)雜的特征,也能提升模型對(duì)于噪聲和不確定性的魯棒性.
算法1模糊通用特征提取算法
輸入待提取模糊通用特征的圖像I,
模糊隸屬函數(shù)μx(·),σx(·),T(·),
隸屬函數(shù)形狀位置超參數(shù)α,β,
上升下降斜率a,b,c,d.
輸出模糊通用特征
for each image do
//對(duì)每幅圖像的像素點(diǎn)計(jì)算隸屬度
for each pixel in image do
//設(shè)置模糊隸屬函數(shù)參數(shù)
//定義模糊隸屬函數(shù)并計(jì)算隸屬度
Iμ=μx(I,μ,σ)
Iσ=σx(I,α,β)
IT=T(I;a,b,c,d)
end
//得到模糊特征矩陣
SetI= (Iμ,Iσ,IT,E)
SetW= (wμ,wσ,wT,B)T
//通過(guò)模糊計(jì)算得到模糊通用特征
zFuzzy=I·W
end
//對(duì)每幅圖像的像素點(diǎn)計(jì)算隸屬度
為了提取圖像的多種特征,本文使用多個(gè)隸屬函數(shù),每個(gè)隸屬函數(shù)都對(duì)應(yīng)一種特定的特征描述方法.選取Gaussian函數(shù)、Sigmoid函數(shù)和Trapezoidal函數(shù)作為隸屬函數(shù),分別將組織病理圖像模糊化,使模糊通用特征能夠更有效地引導(dǎo)模型學(xué)習(xí)關(guān)鍵特征.這些特征用于構(gòu)建模糊集合,通過(guò)模糊集交運(yùn)算,提取圖像的通用特征.選擇Gaussian函數(shù)定義第一個(gè)隸屬函數(shù),是因?yàn)镚aussian函數(shù)具有較好的平滑性和對(duì)稱性,將每個(gè)像素點(diǎn)的灰度值與隸屬函數(shù)進(jìn)行運(yùn)算,得出每個(gè)像素點(diǎn)的隸屬度:
其中,μ表示Gaussian分布均值,σ表示標(biāo)準(zhǔn)差,x表示像素點(diǎn)的灰度值.
下面定義Sigmoid隸屬函數(shù):
其中,Ix表示像素點(diǎn)xi的亮度值,α、β表示Sigmoid函數(shù)的參數(shù),用于調(diào)節(jié)函數(shù)的形狀和位置.
最后,定義Trapezoidal隸屬函數(shù):
該函數(shù)左右兩端分別由上升斜率a和下降斜率b控制,中間部分為1,其中,a、d表示函數(shù)的左右端點(diǎn),b表示函數(shù)的上升拐點(diǎn),c表示函數(shù)的下降拐點(diǎn).當(dāng)像素點(diǎn)灰度數(shù)值小于a或大于d時(shí),隸屬度為0,即完全不屬于該模糊屬性;當(dāng)數(shù)值介于a、b之間時(shí),隸屬度逐漸增加,當(dāng)數(shù)值達(dá)到b時(shí),隸屬度達(dá)到1,即完全屬于該模糊屬性;當(dāng)數(shù)值介于b、c之間時(shí),隸屬度一直為1,即完全屬于該模糊屬性;當(dāng)數(shù)值介于c、d之間時(shí),隸屬度逐漸減小,當(dāng)數(shù)值達(dá)到d時(shí),隸屬度為0,即完全不屬于該模糊屬性.
通過(guò)模糊集理論,將各種隸屬函數(shù)提取的特征進(jìn)行有效融合,形成一個(gè)更全面、準(zhǔn)確的通用特征.這個(gè)通用特征能夠反映更多的信息,也能更好地引導(dǎo)模型的學(xué)習(xí).
為了得到圖像的模糊通用特征,本文還引入模糊加權(quán)策略,融合不確定性數(shù)據(jù),以便整合這3個(gè)特征并形成一個(gè)更全面的特征描述.具體來(lái)說(shuō),通過(guò)每個(gè)模糊特征設(shè)置一個(gè)權(quán)重,分別為wμ、wσ、wT,這些權(quán)重反映每個(gè)特征對(duì)于總體描述的重要性,并且滿足wμ+wσ+wT=1.此外,引入一個(gè)偏置B,調(diào)整模糊特征融合的基線水平,提高模型的靈活性.
通過(guò)上述的變量和參數(shù)得到模糊通用特征:
zFuzzy=wμIμ+wσIσ+wTIT+B.
在模糊融合中,數(shù)據(jù)點(diǎn)的隸屬度決定其對(duì)平均值的貢獻(xiàn)程度,這種方法能夠有效整合多個(gè)隸屬函數(shù)提取的特征,從而得到一個(gè)更全面的圖像表示.通過(guò)這種方式,可從圖像中提取豐富的模糊特征,同時(shí)可用于后續(xù)的深度學(xué)習(xí)模型.
融合的過(guò)程通常采用加權(quán)平均,即將模糊特征矩陣xFuzzy歸一化后,直接加入Transformer編碼器中,或使用其它的一些融合模塊[46].然而,這種方法會(huì)給所有模型賦予相同的權(quán)重,未考慮不同模型的貢獻(xiàn)度.如果將模型融合后的輸出作為輸入,雖然可以增強(qiáng)模型的表達(dá)能力和泛化性能,但同時(shí)也可能會(huì)丟失一部分粒度上的信息.Zhang等[47]針對(duì)醫(yī)學(xué)圖像數(shù)據(jù)集,使用EGM(Edge Guidance Module)學(xué)習(xí)邊緣注意表示,并在早期編碼層中保留局部邊緣特征,以此指導(dǎo)分割期間的特征提取;使用WAM(Weighted Aggregation Module)進(jìn)行特征的融合,取得較好效果.
因此,本文提出模糊邏輯引導(dǎo)的交叉注意力機(jī)制模塊(FGCA),結(jié)構(gòu)圖如圖3所示.在模塊中,作為引導(dǎo)信息的模糊特征不再采用簡(jiǎn)單的加法進(jìn)行融合,而是通過(guò)交叉注意力機(jī)制與不同粒度的特征進(jìn)行更深層次的融合,這個(gè)過(guò)程的特點(diǎn)是可以不斷使用模糊通用特征進(jìn)行像素級(jí)引導(dǎo),防止在3個(gè)單一粒度上不斷學(xué)習(xí)時(shí)出現(xiàn)過(guò)擬合的情況.在與模糊補(bǔ)丁令牌交互后,通過(guò)Transformer編碼器將分類器中的引導(dǎo)信息散布到其補(bǔ)丁令牌中,以此不斷引導(dǎo)多粒度特征學(xué)習(xí).粒度特征和模糊通用特征經(jīng)過(guò)FGCA后的輸出結(jié)果為:
圖3 FGCA流程圖
這種交互能夠促進(jìn)引導(dǎo)信息的傳遞,豐富每個(gè)圖像塊的表示,提高整體模型的準(zhǔn)確性和魯棒性.最終,經(jīng)過(guò)多個(gè)Transformer編碼器處理后,得到最終的分類結(jié)果:
值得注意的是,本文未采用傳統(tǒng)的交叉注意力機(jī)制,即只是簡(jiǎn)單改變Q、K、V的來(lái)源.類似于CrossViT[26],本文將模糊特征中的補(bǔ)丁令牌作為引導(dǎo)信息與多粒度補(bǔ)丁令牌進(jìn)行交互,以此進(jìn)行深層次的引導(dǎo).
FGCA的實(shí)現(xiàn)細(xì)節(jié)如下:
其中,
Chen等[26]的實(shí)驗(yàn)表明,多粒度分支主要用于提取特征,而模糊特征分支僅提供附加信息.因此,僅需要一個(gè)輕量級(jí)的模糊特征分支就足夠引導(dǎo)多粒度分支.本文將交叉注意力機(jī)制用于多粒度特征和模糊通用特征融合,將模糊通用特征作為附加信息,將3個(gè)多粒度特征作為主要信息,獲得較好的準(zhǔn)確性.
FGDNN總體實(shí)現(xiàn)方案如圖4所示.首先,使用多粒度卷積,從原始圖像中提取不同粒度下的特征,并使用CNN協(xié)調(diào)各特征之間的維度.與此同時(shí),使用多個(gè)經(jīng)典模糊隸屬函數(shù),通過(guò)各個(gè)針對(duì)不同特征點(diǎn)的隸屬函數(shù)的融合,提取原始圖像的通用特征.然后,分別將提取的多粒度特征和通用模糊特征進(jìn)行多粒度下的補(bǔ)丁嵌入,進(jìn)行維度的統(tǒng)一,減少后續(xù)進(jìn)程的算法復(fù)雜度.
圖4 FGDNN總體實(shí)現(xiàn)方案
至此,可以定義模糊邏輯引導(dǎo)的交叉注意力機(jī)制模塊,以此將模糊通用特征用于引導(dǎo)不同粒度下的訓(xùn)練.利用多粒度分類器作為代理,分別將不同粒度下的特征和模糊通用特征融合后學(xué)習(xí)特征信息,再將其反向投影到自己的分支中.
具體來(lái)說(shuō),每組訓(xùn)練都包含一個(gè)粒度特征和一個(gè)模糊特征,在每次訓(xùn)練時(shí),多粒度分類令牌會(huì)與作為引導(dǎo)信息的模糊補(bǔ)丁令牌交互,與引導(dǎo)信息融合后,多粒度分類令牌在下一個(gè)Transformer編碼器中會(huì)再次與自己的補(bǔ)丁令牌交互,將學(xué)到的引導(dǎo)信息傳遞給自己的補(bǔ)丁,豐富每個(gè)圖像塊的表示.
最后,通過(guò)Wx矩陣將分類令牌特征向量映射到一個(gè)新的特征空間中,拼接用于預(yù)測(cè)的基于模糊引導(dǎo)的多粒度分類器,以便更好地捕獲和表示輸入數(shù)據(jù)的模式和相關(guān)性.
實(shí)驗(yàn)中選擇如下公開(kāi)數(shù)據(jù)集進(jìn)行性能評(píng)估.
1)Lung and Colon Cancer Histopathological Images(LC25000)數(shù)據(jù)集[48].包含25 000幅肺和結(jié)腸癌的組織病理學(xué)圖像,分為5類:肺良性組織、肺腺癌、肺鱗狀細(xì)胞癌、結(jié)腸腺癌和結(jié)腸良性組織,每類都有5 000幅768×768的彩色圖像.
2)NCT-CRC-HE-100K(NCT)數(shù)據(jù)集.包含100 000個(gè)非重疊圖像塊的集合,圖像來(lái)自86幅蘇木精和伊紅染色的人類癌癥和正常組織切片,用于癌癥檢測(cè)和分析的機(jī)器學(xué)習(xí)研究,包含9個(gè)組織類別.
3)APTOS 2019 Blindness Detection(Bl)數(shù)據(jù)集.包含在印度農(nóng)村地區(qū)收集的5 590幅眼睛圖像,這些圖像在各種成像條件下使用眼底攝影技術(shù)拍攝,每幅圖像都由臨床醫(yī)生根據(jù)糖尿病視網(wǎng)膜病變的嚴(yán)重程度在0~4范圍內(nèi)進(jìn)行評(píng)級(jí),0表示無(wú)糖尿病視網(wǎng)膜病變,1表示輕度糖尿病視網(wǎng)膜病變,2表示中度糖尿病視網(wǎng)膜病變,3表示重度糖尿病視網(wǎng)膜病變,4表示增殖性糖尿病視網(wǎng)膜病變.
網(wǎng)絡(luò)中設(shè)置不同大小的粒度塊,分別為224×224×3,112×112×12,56×56×48.在訓(xùn)練過(guò)程中,將所有的數(shù)據(jù)集分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,比例為70∶15∶15,并使用數(shù)據(jù)增強(qiáng)技術(shù),如隨機(jī)裁剪、水平翻轉(zhuǎn)和旋轉(zhuǎn),增加模型的泛化能力.同時(shí)使用交叉熵作為損失函數(shù),通過(guò)隨機(jī)梯度下降優(yōu)化算法進(jìn)行訓(xùn)練,設(shè)置批尺寸大小為64,學(xué)習(xí)率為0.001,學(xué)習(xí)率衰減因子為0.01.
實(shí)驗(yàn)平臺(tái)為PC(13th Gen Intel?CoreTMi9-13900K@3.00 GHz,NVIDIA?GeForce RTXTM4090,RAM:64 GB),Windows11操作系統(tǒng),開(kāi)發(fā)工具為JetBrains PyCharm 2021.2.3專業(yè)版,使用Python語(yǔ)言實(shí)現(xiàn)實(shí)驗(yàn)中相關(guān)算法.
實(shí)驗(yàn)采用準(zhǔn)確率(Accuracy)、召回率(Re-call)、精確度(Precision)、F1值(F1-score)評(píng)價(jià)模型.
準(zhǔn)確率是常見(jiàn)的分類性能評(píng)估指標(biāo)之一,衡量模型在所有類別上正確分類樣本的百分比,計(jì)算公式如下:
其中:TP(True Positives)為真陽(yáng)性,表示模型正確預(yù)測(cè)為目標(biāo)類別的樣本數(shù)量;TN(True Negatives)為真陰性,表示模型正確預(yù)測(cè)非目標(biāo)類別的樣本數(shù)量;FP(False Positives)為假陽(yáng)性,表示模型錯(cuò)誤地將非目標(biāo)類別預(yù)測(cè)為目標(biāo)類別的樣本數(shù)量;FN(False Negatives)為假陰性,表示模型錯(cuò)誤將目標(biāo)類別預(yù)測(cè)為非目標(biāo)類別的樣本數(shù)量.
召回率表示模型正確預(yù)測(cè)為該類別的樣本數(shù)量占該類別實(shí)際總樣本數(shù)的比例.在醫(yī)學(xué)圖像分類中,表示對(duì)于病例的檢測(cè)準(zhǔn)確率,計(jì)算公式如下:
在醫(yī)學(xué)圖像多分類中,精確度用于衡量模型在某個(gè)特定類別上的預(yù)測(cè)準(zhǔn)確性,即模型正確預(yù)測(cè)為該類別的樣本數(shù)量占所有被模型預(yù)測(cè)為該類別的樣本數(shù)量的比例,計(jì)算公式如下:
F1值綜合考慮精確度和召回率,提供一個(gè)全面的評(píng)估值,計(jì)算公式如下:
本文選擇如下對(duì)比方法:
1)Resnet50_pre.經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)Resnet50,使用ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的權(quán)重,使用殘差連接構(gòu)建深層卷積神經(jīng)網(wǎng)絡(luò).
2)ViT_pre.通過(guò)自注意力機(jī)制學(xué)習(xí)各圖像塊之間全局關(guān)系的ViT[49],使用ImageNet-21k數(shù)據(jù)集上預(yù)訓(xùn)練的權(quán)重.
3)HiFuse(Three-Branch Hierarchical Multi-scale Feature Fusion Network)[50].通過(guò)特征塊并行框架,同時(shí)關(guān)注全局-局部特征.
4)MLP-Mixer[51].完全基于多層感知器MLP(Multilayer Perceptron)結(jié)構(gòu),沒(méi)有卷積或注意力機(jī)制.
各算法在LC25000、NCT、Bl數(shù)據(jù)集上的指標(biāo)值對(duì)比如表1~表3所示,表中黑體數(shù)字表示最優(yōu)值.由表1可見(jiàn),在LC25000數(shù)據(jù)集上,MLP-Mixer和ViT_pre的分類性能有限,分類準(zhǔn)確率為93.1%和94.8%,這是因?yàn)镸LP-Mixer通過(guò)全連接捕獲圖像的特征,ViT_pre通過(guò)注意力機(jī)制捕獲全局圖像的上下文信息,并未注意圖像關(guān)鍵信息分布不均的特點(diǎn),容易過(guò)多捕獲健康細(xì)胞的特征,從而忽視關(guān)鍵特征.FGDNN的分類準(zhǔn)確率、召回率、精確度分別為99.2%、98.7%、99.4%,分別超過(guò)次優(yōu)方法1.6%,1.7%,0.9%.
表1 各方法在LC25000數(shù)據(jù)集上的指標(biāo)值對(duì)比
由表2可以看到,隨著數(shù)據(jù)集類別的增加,ViT_pre面對(duì)類別數(shù)量較多的多分類任務(wù)性能有限,準(zhǔn)確率僅為90.8%,這說(shuō)明使用傳統(tǒng)的注意力機(jī)制在任務(wù)量增大時(shí)并不能得到較好的結(jié)果.而通過(guò)模糊邏輯引導(dǎo)的FGDNN的指標(biāo)值均超過(guò)其它方法.
表2 各方法在NCT數(shù)據(jù)集上的指標(biāo)值對(duì)比
由表3可知,FGDNN取得最高準(zhǔn)確率,為88.2%,遠(yuǎn)超其它方法;在精確度上,FGDNN為80.6%,同樣為最高值.基于細(xì)胞圖像的醫(yī)學(xué)知識(shí),相比其它細(xì)胞組織,眼底細(xì)胞通常較小、數(shù)量較多,包含較豐富的血管網(wǎng)絡(luò),這對(duì)模型的泛化能力提出較高要求.采用多粒度(全局-局部)特征的HiFuse也取得較優(yōu)結(jié)果,這表明面對(duì)復(fù)雜任務(wù)時(shí),多粒度屬性在醫(yī)學(xué)圖像領(lǐng)域尤其是組織病理圖像分類領(lǐng)域具有重要作用.但FGDNN還進(jìn)一步通過(guò)模糊通用特征分類關(guān)鍵特征的標(biāo)記,避免注意力機(jī)制過(guò)度學(xué)習(xí)非相關(guān)特征的問(wèn)題,這些機(jī)制決定FGDNN在眼底圖像這類特征不明顯的復(fù)雜分類任務(wù)中表現(xiàn)出較優(yōu)性能.
表3 各方法在Bl數(shù)據(jù)集上的指標(biāo)值對(duì)比
由F1值可清晰看出,FGDNN通過(guò)模糊引導(dǎo)的交叉注意力機(jī)制,使用模糊通用特征,不斷引導(dǎo)多粒度特征完成引導(dǎo),從而提升分類性能.
通過(guò)對(duì)比注意到,盡管在LC25000、NCT數(shù)據(jù)集上,FGDNN達(dá)到最優(yōu)值,但在Bl數(shù)據(jù)集上,分類準(zhǔn)確率明顯低于預(yù)期.這一現(xiàn)象的主要原因在于Bl數(shù)據(jù)集本身的特點(diǎn).與其它數(shù)據(jù)集不同,視網(wǎng)膜血管分布密集而無(wú)規(guī)律,存在大量易與背景混淆、對(duì)比度較低的細(xì)小血管,血管邊界模糊不清,同時(shí)容易受采集設(shè)備和光照以及病變組織的影響.因此Bl數(shù)據(jù)集的多粒度屬性不明顯,這意味著多粒度特征提取方法在這個(gè)特定數(shù)據(jù)集上無(wú)法充分發(fā)揮作用.
與此同時(shí),本文還將FGDNN與如下在LC25000、NCT、Bl數(shù)據(jù)集上SOTA方法進(jìn)行對(duì)比.1)在LC25000數(shù)據(jù)集上,選擇文獻(xiàn)[52]方法、文獻(xiàn)[53]方法.2)在NCT數(shù)據(jù)集上,選擇DiRA[54]、文獻(xiàn)[55]方法、文獻(xiàn)[56]方法、文獻(xiàn)[57]方法、文獻(xiàn)[58]方法.3)在Bl數(shù)據(jù)集上,選擇文獻(xiàn)[59]方法、文獻(xiàn)[60]方法.
各方法的準(zhǔn)確率和F1值對(duì)比如表4所示,表中黑體數(shù)字表示最優(yōu)值.由表可見(jiàn),FGDNN取得大部分的最優(yōu)值.
表4 FGDNN與3個(gè)數(shù)據(jù)集上的SOTA方法指標(biāo)值對(duì)比
綜上所述,今后可考慮調(diào)整特征提取的分辨率,使算法更好地適應(yīng)不同類型的數(shù)據(jù)集,尤其是那些多粒度屬性不明顯的數(shù)據(jù)集.這將有助于提高算法的通用性和適應(yīng)性,使其應(yīng)用于更廣泛的實(shí)際場(chǎng)景中.
為了驗(yàn)證FGDNN中各模塊的有效性,進(jìn)行如下改動(dòng).
1)w/o MG.將多粒度特征提取改為僅使用單一粒度的CNN進(jìn)行特征提取.
2)w/o C.剔除粗粒度.
3)w/o M.剔除中粒度.
4)w/o F.剔除細(xì)粒度.
5)w/o Fuzzy.更換作為引導(dǎo)信息的模糊特征,使用普通的CNN提取的特征用于引導(dǎo)模型的訓(xùn)練.
6)M-ADD.將FGCA替換為普通的加法融合.
7)M-CA.將FGCA替換為普通的交叉注意力機(jī)制.
各模塊的消融實(shí)驗(yàn)結(jié)果如表5所示,表中黑體數(shù)字表示最優(yōu)值.由表可見(jiàn),相比w/o MG,在LC25000、NCT數(shù)據(jù)集上,FGDNN的準(zhǔn)確率分別提高5.0%和5.7%,召回率分別提高5.1%和5.9%,精確度分別提高6.7%和5.6%,由此說(shuō)明相比單一粒度特征,多粒度特征提取能使模型學(xué)習(xí)到更多的特征信息,提升模型的性能.
在使用兩種粒度下特征進(jìn)行訓(xùn)練時(shí),指標(biāo)值普遍高于單一粒度的特征,尤其是w/o C和w/o M.經(jīng)過(guò)分析認(rèn)為,細(xì)粒度特征學(xué)習(xí)到更多的局部信息,使模型能夠更好地捕捉數(shù)據(jù)中的細(xì)微變化,提升模型性能.
在刪除模糊通用特征引導(dǎo)后(即w/o Fuzzy),在LC25000、NCT數(shù)據(jù)集上,準(zhǔn)確率下降6.0%和6.0%,召回率下降4.6%和6.2%,精確度下降6.4%和6.3%.對(duì)此,本文認(rèn)為模糊通用特征比多粒度特征更重要,在組織病理圖像中,通常存在大量正常細(xì)胞的干擾以及其它組織的影響,模糊通用特征能更好地在復(fù)雜的組織病理圖像中過(guò)濾關(guān)鍵特征信息,抗干擾能力較優(yōu).
此外,本文還對(duì)比3種融合方法,M-ADD使用普通的加法融合,對(duì)性能并未起到效果.采用普通交叉注意力機(jī)制后,M-CA性能略優(yōu).由此可以看出,直接使用相加的融合方法將取得較差的結(jié)果,而FGCA能有效引導(dǎo)模型學(xué)習(xí),將模糊通用特征融入分類令牌,再通過(guò)編碼器散布至所有的補(bǔ)丁令牌中,以此作為引導(dǎo),不斷學(xué)習(xí)圖像中的關(guān)鍵信息,解決多粒度特征提取時(shí)出現(xiàn)的信息冗余問(wèn)題.
為了進(jìn)一步驗(yàn)證多粒度特征提取的有效性,本文采用特征可視化方法,增強(qiáng)模型的可解釋性.使用熱力圖和類激活圖CAM(Class Activation Map),可視化模型學(xué)習(xí)到的關(guān)鍵特征信息.
通過(guò)熱力圖可以直觀觀察方法在不同空間位置的關(guān)注程度.本文針對(duì)細(xì)粒度特征、中粒度特征、粗粒度特征分別生成熱力圖,并與EfficientNet[61]和AlexNet[62]進(jìn)行對(duì)比,顯示不同特征提取方法提取特征之間的差異.
CAM圖能夠準(zhǔn)確定位模型對(duì)于輸入圖像中不同區(qū)域的關(guān)注程度,將CAM圖與原始圖像疊加,可有效驗(yàn)證模型在目標(biāo)檢測(cè)和定位任務(wù)中的有效性與可靠性.本文提取模型末層預(yù)測(cè)結(jié)果中的類別權(quán)重,并與特征圖進(jìn)行逐通道相乘,得到加權(quán)特征圖,最后歸一化疊加至原圖,得到CAM圖.
本文選取分類標(biāo)簽為colonca和lungaca的病理圖像作為分析對(duì)象,EfficientNet、AlexNet、FGDNN提取特征熱力圖和CAM圖如圖5和圖6所示.
(a)原始圖像 (b1)特征熱力圖 (b2)CAM圖 (c1)特征熱力圖 (c2)CAM圖
(a)原始圖像 (b1)特征熱力圖 (b2)CAM圖 (c1)特征熱力圖 (c2)CAM圖
觀察EfficientNet生成的熱力圖可知,Efficient-Net提取的特征細(xì)胞之間分界不明顯,由于其復(fù)雜的網(wǎng)絡(luò)設(shè)計(jì),在細(xì)粒度和相似類別或較小差異的任務(wù)中的可解釋性有限.CAM圖也顯示,Efficient-Net關(guān)注的區(qū)域呈片狀,并對(duì)圖像邊緣區(qū)域特征關(guān)注偏少.
觀察AlexNet生成的熱力圖可知,細(xì)胞之間分界不明顯,可分性不強(qiáng).這是因?yàn)锳lexNet采用較大的卷積核,因此在檢測(cè)分類較小粒度的目標(biāo)中表現(xiàn)得不敏感,又因?yàn)榧?xì)胞具有多粒度屬性,導(dǎo)致只能在一個(gè)粒度上提取特征,準(zhǔn)確率下降,可解釋性較弱.從CAM圖中也可看出,AlexNet對(duì)特征圖的關(guān)注區(qū)域較大,容易受到非關(guān)鍵特征的干擾.
觀察不同粒度下FGDNN提取的特征熱力圖可發(fā)現(xiàn),FGDNN能較好地提取細(xì)胞的多粒度特征.這一現(xiàn)象在圖5(d)中更明顯,由FGDNN提取的多粒度特征熱力圖,對(duì)于細(xì)胞的多粒度屬性具有更強(qiáng)的解釋.FGDNN能較好地關(guān)注粗粒度、中粒度、細(xì)粒度上的特征,并通過(guò)模糊通用特征引導(dǎo),全面學(xué)習(xí)關(guān)鍵特征,有效提升分類的準(zhǔn)確率.同時(shí),從CAM圖中可直觀看出FGDNN在圖像中的激活區(qū)域.因此,FGD-NN能有效、準(zhǔn)確地捕獲病理圖像中的特征,大幅提升分類的各項(xiàng)評(píng)價(jià)指標(biāo).
本文提出模糊邏輯引導(dǎo)的多粒度深度神經(jīng)網(wǎng)絡(luò)(FGDNN),根據(jù)細(xì)胞特有的多粒度屬性,提取組織病理圖像的多粒度特征,獲得更好的信息表示.同時(shí)為了解決多輸入時(shí)的信息冗余問(wèn)題,引入經(jīng)典的模糊集理論,通過(guò)模糊隸屬函數(shù),提取病理組織圖像的通用特征.最后通過(guò)模糊邏輯引導(dǎo)的交叉注意力機(jī)制,融合關(guān)鍵特征信息,通過(guò)模糊通用特征不斷引導(dǎo),使模型具有較強(qiáng)的泛化性和魯棒性.在3個(gè)公開(kāi)數(shù)據(jù)集上的實(shí)驗(yàn)表明,FGDNN具有較好的分類準(zhǔn)確率,尤其是在大量細(xì)胞干擾和不明顯特征任務(wù)中.
組織病理學(xué)圖像數(shù)據(jù)集相對(duì)較小,這與大模型需要大量數(shù)據(jù)以獲得良好性能的需求矛盾.今后可考慮使用對(duì)抗學(xué)習(xí)或遷移學(xué)習(xí),不斷提升大模型應(yīng)用于醫(yī)學(xué)數(shù)據(jù)集上的性能.同時(shí)還可結(jié)合多模態(tài)數(shù)據(jù),構(gòu)建具有更強(qiáng)泛化能力的模型.