徐威,付曉薇*,李曦,汪堯坤
(1.武漢科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,湖北武漢 430065;2.智能信息處理與實(shí)時(shí)工業(yè)系統(tǒng)湖北省重點(diǎn)實(shí)驗(yàn)室,湖北武漢 430065;3.華中科技大學(xué)人工智能與自動(dòng)化學(xué)院,湖北 武漢 430074)
氮氧傳感器是用于檢測(cè)汽車尾氣中氧氣和氮氧化物濃度的部件[1-2],其測(cè)量結(jié)果被反饋給汽車后處理系統(tǒng),用于控制尿素溶液噴射量、中和氮氧化物、減少尾氣中氮氧化物的排放[3-4]。氮氧傳感器主要由探頭實(shí)體和控制器構(gòu)成,探頭實(shí)體內(nèi)的陶瓷芯片與尾氣接觸以測(cè)量氣體濃度,控制器控制陶瓷芯片工作并精確控制和測(cè)量探頭中的電信號(hào)。陶瓷芯片由鉑(Pt)電極、參雜氧化釔(Y2O3)的氧化鋯(ZrO2)基體(稱為YSZ)制成[5-6]。當(dāng)?shù)鮽鞲衅髋c尾氣接觸時(shí),在Pt、YSZ、氣體相互接觸的三相界面將發(fā)生電化學(xué)反應(yīng)[1,6]。因此,Pt、YSZ 占比和孔隙率等特性對(duì)氧分子在界面上的擴(kuò)散、吸附以及在YSZ 中的傳遞會(huì)產(chǎn)生重要影響[5-7],其決定了電化學(xué)反應(yīng)性能與泵氧性能,影響傳感器測(cè)量準(zhǔn)確度和電極使用壽命。目前,對(duì)氮氧傳感器電極微觀圖像三相界面特性的分析主要通過(guò)經(jīng)驗(yàn)觀察來(lái)進(jìn)行定性分析,缺少具體方法進(jìn)行定量分析。因此,對(duì)電極微觀圖像相關(guān)特性進(jìn)行研究具有重要的實(shí)際意義。
微觀圖像相關(guān)特性可通過(guò)聚焦離子束掃描電子顯微鏡(FIB-SEM)[8-9]、X 射線計(jì)算機(jī)斷層掃描(XCT)[10]和掃描電子顯微鏡(SEM)[11-13]采集圖像進(jìn)行分析。然而,F(xiàn)IB-SEM 和XCT 具有一定的破壞性,操作過(guò)程復(fù)雜且耗時(shí)。SEM 圖像分析技術(shù)不具有破壞性且易于操作,因此,其可用于電極金屬陶瓷復(fù)合材料的分析研究。但是,通過(guò)SEM 采集的電極微觀圖像存在邊緣模糊、物質(zhì)偽影、灰度不均等問(wèn)題,同時(shí),電極表面難免會(huì)受到物理磨損,提高了分割難度,給圖像相關(guān)特性分析帶來(lái)了巨大挑戰(zhàn)。
具有對(duì)稱編-解碼結(jié)構(gòu)的U-Net[14]在含有較少數(shù)據(jù)樣本時(shí)依然能實(shí)現(xiàn)模型訓(xùn)練與分割,鑒于微觀圖像數(shù)據(jù)量較少以及存在難以分割的復(fù)雜區(qū)域等問(wèn)題,本文基于U-Net,結(jié)合多尺度特征和注意力機(jī)制,提出一種融合多層感知注意力的深度學(xué)習(xí)方法,以實(shí)現(xiàn)微觀圖像的自適應(yīng)語(yǔ)義分割。借鑒深度學(xué)習(xí)特征融合的思想,利用多尺度特征融合(MSFF)模塊從U-Net 編碼層獲取不同尺度的特征圖并進(jìn)行融合,以彌補(bǔ)編碼過(guò)程中的特征損失。針對(duì)邊緣模糊、物質(zhì)偽影等問(wèn)題,提出多層感知注意力(MLPA)模塊。聯(lián)合使用感知位置注意力(PPA)與感知通道注意力(PCA)分別捕獲空間位置依賴和通道依賴。在此基礎(chǔ)上,計(jì)算不同特征圖的空間相似性,提出具有像素級(jí)監(jiān)督的損失函數(shù)對(duì)關(guān)鍵特征進(jìn)行監(jiān)督,以學(xué)習(xí)分割目標(biāo)的細(xì)節(jié)特征。
以往的復(fù)合材料圖像相關(guān)研究通常使用閾值、聚類、種子區(qū)域生長(zhǎng)[15-17]等傳統(tǒng)方法進(jìn)行分析,但是,傳統(tǒng)方法容易受初始參數(shù)設(shè)置的影響,對(duì)灰度不均圖像的分割效果不理想,因此,傳統(tǒng)方法用于電極圖像分割時(shí)具有較大難度。
隨著人工智能技術(shù)的快速發(fā)展,計(jì)算機(jī)科學(xué)和材料學(xué)的交叉應(yīng)用成為研究熱點(diǎn)。相比傳統(tǒng)圖像分割方法,深度學(xué)習(xí)方法能提取圖像深層次的空間特征信息,完成復(fù)合材料圖像分割任務(wù)。文獻(xiàn)[10]引入全卷積網(wǎng)絡(luò),實(shí)現(xiàn)了碳纖維X 射線圖像切片分割。文獻(xiàn)[18]利用DeepLabV3+[19]實(shí)現(xiàn)了SOFC 電極微觀圖像三相分割,但是其不能有效消除物質(zhì)邊界偽影的影響。文獻(xiàn)[20]通過(guò)CIELab 計(jì)算歐幾里得距離實(shí)現(xiàn)顏色空間映射并抑制物質(zhì)偽影,同時(shí)使用SegNet[21]實(shí)現(xiàn)分割,但是其影響了邊緣區(qū)域的分割效果。文獻(xiàn)[9]通過(guò)設(shè)計(jì)參數(shù)量較少的Patch-CNN,消除了部分物理磨損的影響,但受采集圖片分辨率的影響,其邊緣也存在誤分割問(wèn)題,需要通過(guò)其他方法進(jìn)行后處理。文獻(xiàn)[22]使用結(jié)合U-Net 的超分辨率生成對(duì)抗網(wǎng)絡(luò)合成高分辨率掃描電鏡圖像,用于輔助分割,雖然其改善了分辨率因素的影響,但是對(duì)灰度不均區(qū)域的分割效果不理想。上述研究將深度學(xué)習(xí)應(yīng)用于復(fù)合材料圖像分割任務(wù),實(shí)現(xiàn)物質(zhì)的表征。但是,對(duì)于存在灰度不均、邊緣模糊且分割難度較高區(qū)域的復(fù)合材料圖像,上述方法難以取得理想的分割結(jié)果。
注意力機(jī)制能使模型動(dòng)態(tài)關(guān)注并學(xué)習(xí)重要區(qū)域特征[23]。針對(duì)難分割區(qū)域,文獻(xiàn)[24-25]在跳躍連接部分引入注意力機(jī)制,使網(wǎng)絡(luò)在推理時(shí)關(guān)注關(guān)鍵局部區(qū)域,文獻(xiàn)[26-27]通過(guò)獲取高低級(jí)特征作為注意力模塊輸入,以捕獲不同特征圖之間的語(yǔ)義相似性,增強(qiáng)難分割區(qū)域的信息提取能力,文獻(xiàn)[28]設(shè)計(jì)位置注意力和通道注意力,對(duì)關(guān)鍵特征建立上下文關(guān)系和通道之間的相互依賴性。總體而言,注意力機(jī)制能夠關(guān)注關(guān)鍵局部特征,對(duì)復(fù)雜難分割區(qū)域的分割效果具有一定的改善作用,但是上述研究未從輸入特征圖中充分獲取多尺度信息,恢復(fù)局部細(xì)節(jié)的能力還有待提升。
本文方法總體結(jié)構(gòu)如圖1 所示,網(wǎng)絡(luò)大致分為3 個(gè)部分:1)由U-Net 組成的主干部分,用于完成特征提取與圖像分割任務(wù);2)輔助主干部分進(jìn)行特征提取的MSFF 模塊,其將主干編碼器每層的輸出特征圖作為輸入,實(shí)現(xiàn)淺層次局部細(xì)節(jié)信息與深層次全局信息的融合;3)細(xì)化分割的MLPA 模塊,其將主干解碼器還原特征圖和MSFF 生成的增強(qiáng)語(yǔ)義特征圖作為輸入,輔助主干網(wǎng)絡(luò)捕獲空間位置依賴關(guān)系并建立通道映射關(guān)聯(lián)。
圖1 本文分割網(wǎng)絡(luò)整體結(jié)構(gòu)Fig.1 The overall structure of the segmentation network in this paper
淺層次特征包含高分辨率的局部細(xì)節(jié)信息,深層次特征包含低分辨率的全局信息。U-Net 通過(guò)下采樣和卷積逐步提取特征,但是難以實(shí)現(xiàn)淺層信息與深層信息的高效融合,且編碼會(huì)丟失細(xì)節(jié)特征。為了減少編碼過(guò)程中的特征丟失,本文利用多尺度特征融合模塊,通過(guò)融合淺層次特征與深層次特征,加強(qiáng)特征在層級(jí)間的傳遞,從而輔助特征提取。
MSFF 模塊先對(duì)U-Net 編碼部分每層輸出的特征圖Fy(y表示主干結(jié)構(gòu)中的層級(jí))進(jìn)行3×3 卷積,通道數(shù)變?yōu)?2。由于不同層級(jí)的特征圖Fy具有不同的分辨率,因此需要使用雙線性插值將特征圖統(tǒng)一上采樣至相同分辨率,將其擴(kuò)大為特征映射F′y,表示為F′y=Bilinear(Conv(Fy))。最后,將所有特征映射拼接融合成張量,并通過(guò)卷積得到語(yǔ)義信息增強(qiáng)的多尺度特征圖B=Conv([F1,F2,F3,F4])。
為了克服圖像邊緣模糊及物質(zhì)偽影等問(wèn)題,本文提出MLPA 模塊,MLPA 總體結(jié)構(gòu)如圖2 所示。MLPA 包含加入空間金字塔池化的 PPA 和加入1×1卷積的PCA??臻g金字塔池化為PPA 提供不同空間尺度的上下文信息,1×1 卷積為PCA 提供不同的通道維度,兩者均能降低維度,解決內(nèi)存消耗問(wèn)題。MLPA 以并行方式將2 種注意力結(jié)合使用,并對(duì)其生成的特征圖進(jìn)行級(jí)聯(lián),從而發(fā)揮綜合優(yōu)勢(shì)。圖2 中分別展示了PPA、PCA 的感知位置和通道權(quán)重過(guò)程,對(duì)于某個(gè)位置或通道,通過(guò)2 個(gè)特征圖間的信息交互,PPA 生成位置注意力圖,PCA 生成通道注意力圖。
圖2 MLPA 總體結(jié)構(gòu)Fig.2 The overall structure of MLPA
PPA 通過(guò)捕獲還原特征圖與語(yǔ)義信息增強(qiáng)特征圖中任意2 個(gè)位置間的空間依賴來(lái)建立上下文關(guān)系,同時(shí)將不同級(jí)別的語(yǔ)義特征圖相融合,恢復(fù)細(xì)節(jié)特征。PCA 利用2 種特征圖通道之間的依賴來(lái)建立任意2 個(gè)通道映射之間的關(guān)聯(lián),經(jīng)過(guò)通道級(jí)融合構(gòu)建高級(jí)語(yǔ)義特征圖。
MLPA 將主干解碼還原特征圖A?RC×H×W和MSFF 生成的語(yǔ)義信息增強(qiáng)的特征圖B?RC×H×W作為2 種注意力的輸入,2 種注意力的輸出通過(guò)級(jí)聯(lián)并與A元素求和后生成感知特征圖Z?RC×H×W:
其中:X、Y分別為PPA 和PCA 的輸出;j表示特征圖中的第j個(gè)像素。
2.2.1 PPA
PPA 結(jié)構(gòu)如圖3 所示,其中空間金字塔池化部分進(jìn)行了簡(jiǎn)化表示。
圖3 PPA 的結(jié)構(gòu)Fig.3 The structure of PPA
首先,對(duì)特征圖A?RC×H×W和B?RC×H×W均進(jìn)行空間金字塔池化,空間金字塔池化通過(guò)1×1 卷積實(shí)現(xiàn)特征降維,以并行采樣方式輸出1×1、2×2、3×3 和6×6 的特征矩陣,捕獲多尺度空間特征,將不同尺寸的特征矩陣展開(kāi)為特征向量{K1,K2} ?RC×K,其中,K與空間金字塔池化過(guò)程相關(guān)。
其次,將K1和K2經(jīng)過(guò)完全連接層后得到{D,G} ?RC×K,同時(shí)對(duì)A進(jìn)行1×1 卷積,生成特征映射E?RC×H×W,并重構(gòu)為RC×N,N=H×W表示像素?cái)?shù)。將特征映射轉(zhuǎn)置并與G進(jìn)行矩陣相關(guān)性運(yùn)算,通過(guò)Softmax 激活函數(shù)計(jì)算出位置注意力特征圖F?RN×K:
其中:Fij表示G中第i個(gè)位置對(duì)特征圖E中第j個(gè)位置的影響,以此體現(xiàn)輸入特征間的語(yǔ)義相似性,將重要特征信息融合至E中。
最后,對(duì)于特征映射D,將其與F進(jìn)行矩陣相關(guān)性運(yùn)算并重構(gòu),與A進(jìn)行元素求和運(yùn)算生成融合特征圖X?RC×H×W:
2.2.2 PCA
PCA 結(jié)構(gòu)如圖4 所示,其計(jì)算過(guò)程與PPA 類似。
圖4 PCA 的結(jié)構(gòu)Fig.4 The structure of PCA
首先,對(duì)輸入特征圖A、B均使用1×1 卷積實(shí)現(xiàn)通道降維,生成通道數(shù)減少的特征圖{U,L} ?RM×H×W,其中,M為新通道數(shù),與卷積過(guò)程相關(guān)。
其次,將A、L分別重構(gòu)為RC×N和RM×N,同樣進(jìn)行矩陣相關(guān)性運(yùn)算,通過(guò)Softmax 激活函數(shù)計(jì)算出通道注意力特征圖V?RC×M:
其中:Vij表示特征圖L中第i個(gè)通道對(duì)特征圖A中第j個(gè)通道的影響,以此體現(xiàn)輸入特征通道之間的關(guān)聯(lián)性,選擇性地將通道信息融合至A中。
最后,將U重構(gòu)為RM×N,同樣與V進(jìn)行矩陣相關(guān)性運(yùn)算并重構(gòu),與A元素求和生成融合特征圖Y?RC×H×W:
損失函數(shù)用于評(píng)估模型預(yù)測(cè)值與樣本真實(shí)值之間的差異程度,對(duì)模型收斂有著重要影響。對(duì)于傳感器電極微觀圖像的三相分割,其圖像存在灰度不均、三相分布不均等問(wèn)題。模型訓(xùn)練時(shí)采用基于分布的損失函數(shù)CE Loss[29]會(huì)使物質(zhì)占比較大的分割類別在分割過(guò)程中占主導(dǎo),導(dǎo)致難以學(xué)習(xí)局部空間特征。CE Loss 計(jì)算公式為:
其中:N為類別數(shù);pi為真實(shí)值;qi為預(yù)測(cè)值。
為了增強(qiáng)網(wǎng)絡(luò)對(duì)局部空間特征的感知能力,本文引入空間相似性損失Lss用于圖像分割任務(wù)??臻g相似性學(xué)習(xí)過(guò)程如圖5 所示。利用MSFF 生成的語(yǔ)義信息增強(qiáng)的特征圖B,引導(dǎo)主干U-Net 輸出特征圖A以學(xué)習(xí)局部空間位置信息。空間相似性損失計(jì)算公式為:
圖5 各損失函數(shù)的使用位置Fig.5 The usage positions of each loss function
其中:H、W是特征圖的空間維度;Sij表示特征圖R?{A,B}中像素i與像素j的相似度關(guān)系;p 為1;q為2。通過(guò)范數(shù)計(jì)算相似性矩陣之間的差異,以縮小特征圖A、B之間的差距。
為了提升分割性能,本文提出使用Lce以及Lss的損失函數(shù)Lseg,利用Lce挖掘全局信息,利用Lss輔助特征圖挖掘局部空間信息,聯(lián)合使用2 種損失,在2 個(gè)維度進(jìn)行監(jiān)督訓(xùn)練,以提升分割效果。由于在訓(xùn)練過(guò)程中中間層特征較大,會(huì)導(dǎo)致空間相似性損失的計(jì)算量過(guò)大,為了減少內(nèi)存消耗,需要對(duì)特征圖進(jìn)行下采樣,將特征大小減半。損失函數(shù)Lseg計(jì)算公式為:
各損失函數(shù)的使用位置如圖5 所示,Lce用于主干U-Net、MSFF 和總網(wǎng)絡(luò)的輸出層,Lss用于主干U-Net、MSFF 的輸出層。
本文實(shí)驗(yàn)數(shù)據(jù)來(lái)源于華中科技大學(xué)常州先進(jìn)陶瓷智能傳感技術(shù)研究院,數(shù)據(jù)是使用SEM 采集的氮氧傳感器電極微觀圖像,圖像均包含鉑、氧化鋯2 種物質(zhì)以及孔隙。原始圖像經(jīng)過(guò)裁剪、更改尺寸大小等處理后,邀請(qǐng)相關(guān)專家根據(jù)已有經(jīng)驗(yàn)知識(shí)判斷三相邊界區(qū)域,并使用Photoshop 等軟件對(duì)三相界面進(jìn)行人工標(biāo)記,將鉑、氧化鋯、孔隙分別標(biāo)記為白色、灰色、黑色,以制作數(shù)據(jù)集。數(shù)據(jù)集含有不同倍率的504 張圖像。由于圖像獲取過(guò)程復(fù)雜,后續(xù)人工標(biāo)記成本較高,導(dǎo)致圖像數(shù)量較少,難以滿足深度學(xué)習(xí)的要求,因此對(duì)部分?jǐn)?shù)據(jù)進(jìn)行水平、垂直翻轉(zhuǎn)等數(shù)據(jù)增強(qiáng)預(yù)處理,以增加訓(xùn)練數(shù)據(jù)量,最終數(shù)據(jù)集共含有1 104 張圖像,圖像分辨率均為160×160 像素,其中,736 張圖像用于訓(xùn)練網(wǎng)絡(luò)模型,368 張圖像用于測(cè)試評(píng)估模型。為了消除可能存在的奇異樣本數(shù)據(jù)并提高模型的收斂速度,實(shí)驗(yàn)對(duì)數(shù)據(jù)進(jìn)行了歸一化處理。
本文實(shí)驗(yàn)使用類別平均像素準(zhǔn)確率(MPA)、平均交并比(MIoU)和微觀F1 分?jǐn)?shù)(Micro-F1),以客觀評(píng)估各方法的分割性能,同時(shí),使用浮點(diǎn)運(yùn)算次數(shù)(FLOPs)及網(wǎng)絡(luò)所含參數(shù)量(Params)客觀評(píng)估模型復(fù)雜度。
MPA 是像素準(zhǔn)確率(PA)的改進(jìn),表示每個(gè)類別預(yù)測(cè)準(zhǔn)確率的算術(shù)平均值,計(jì)算公式為:
其中:k+1 為類別數(shù);pii表示預(yù)測(cè)類i正確的像素?cái)?shù);pij表示類i被錯(cuò)誤預(yù)測(cè)為類j的像素?cái)?shù)。MPA 反映各個(gè)預(yù)測(cè)類別的平均分割效果,MPA 值越大,表明平均類別分割效果越好,類別精度越高。
MIoU 表示每個(gè)類別預(yù)測(cè)值與真實(shí)值的交集和并集比值的算術(shù)平均值,計(jì)算公式為:
其中:pji表示類j被錯(cuò)誤預(yù)測(cè)為類i的像素?cái)?shù)。MIoU能體現(xiàn)出全局預(yù)測(cè)結(jié)果與真實(shí)值的差距,MIoU 值越大,表明分割誤差越小。
精確率(P)表示在預(yù)測(cè)結(jié)果中某個(gè)類別被預(yù)測(cè)正確的比例,召回率(R)則表示在真實(shí)值中某個(gè)類別被預(yù)測(cè)正確的比例,各類別總精確率和總召回率的加權(quán)調(diào)和平均即為Micro-F1(計(jì)算中用F1表示)。相關(guān)計(jì)算公式為:
其中:TP為預(yù)測(cè)正確的正例;FP為預(yù)測(cè)錯(cuò)誤的正例;FN為預(yù)測(cè)錯(cuò)誤的反例。Micro-F1 體現(xiàn)了模型預(yù)測(cè)和對(duì)真實(shí)正類的提取2 個(gè)方面的綜合能力,Micro-F1 值越大,模型綜合能力越強(qiáng)。
FLOPs 表示模型的計(jì)算量或模型的時(shí)間復(fù)雜度。Params 表示模型的大小或空間復(fù)雜度。因此,模型的FLOPs 和Params 值越小,表示模型復(fù)雜度越低。
實(shí)驗(yàn)采用PyTorch 深度學(xué)習(xí)框架進(jìn)行訓(xùn)練和測(cè)試,計(jì)算機(jī)操作系統(tǒng)為Ubuntu,同時(shí)使用Nvidia GeForce RTX 3090 GPU 加速網(wǎng)絡(luò)模型計(jì)算??紤]到計(jì)算資源的局限性,將批大小batch size 設(shè)置為8,每次訓(xùn)練100 輪。在訓(xùn)練時(shí)采用Adam 優(yōu)化器加快模型收斂,有效避免局部最優(yōu)問(wèn)題。初始學(xué)習(xí)率設(shè)置為0.009,同時(shí)采用Ploy 學(xué)習(xí)率衰減策略實(shí)現(xiàn)學(xué)習(xí)率的動(dòng)態(tài)調(diào)整,提高訓(xùn)練效率及其穩(wěn)定性。此外,為了消除數(shù)據(jù)間的相關(guān)性,提高模型的魯棒性,在訓(xùn)練前將訓(xùn)練集中的圖像順序進(jìn)行隨機(jī)調(diào)整。
本文實(shí)驗(yàn)流程如圖6 所示,通過(guò)訓(xùn)練網(wǎng)絡(luò)學(xué)習(xí)類別特征,不斷優(yōu)化網(wǎng)絡(luò)參數(shù),生成分割模型后,將獲得的分割結(jié)果與真實(shí)結(jié)果進(jìn)行比較,以評(píng)估分割準(zhǔn)確率。
圖6 語(yǔ)義分割實(shí)驗(yàn)流程Fig.6 The procedure of semantic segmentation experiment
3.4.1 模型對(duì)比實(shí)驗(yàn)
為了驗(yàn)證本文模型的有效性及優(yōu)越性,選取主流語(yǔ)義分割模型U-Net、SegNet、DeepLabV3+、Attention U-Net[24]、SK-U-Net[30]、DANet[28]、DoubleU-Net[31]、SAUNet[32]和TransUNet[33]進(jìn)行對(duì)比實(shí)驗(yàn),主觀分割結(jié)果如圖7 所示。從圖7 可以看出:對(duì)于首行9 000 倍率的圖像,物質(zhì)細(xì)節(jié)信息較多,TransUNet模型對(duì)孔隙效果較好,而圖7(c)~圖7(j)中的模型受物質(zhì)偽影和灰度不均因素影響,導(dǎo)致孔隙內(nèi)部和邊緣的分割效果不佳;對(duì)于中間行7 000倍率的圖像,Attention U-Net模型結(jié)果較好,而其他主流模型在淺色邊緣和孔隙區(qū)域存在誤分割現(xiàn)象;對(duì)于末行5 000倍率的圖像,分割目標(biāo)較小,存在邊緣模糊問(wèn)題,圖7(c)~圖7(k)中的模型對(duì)小目標(biāo)區(qū)域的分割效果與真實(shí)結(jié)果存在差異;本文模型能克服各種影響因素,對(duì)各倍率圖像的分割細(xì)節(jié)更精確。
圖7 各網(wǎng)絡(luò)模型的分割結(jié)果Fig.7 The segmentation results of each network model
為了客觀評(píng)估各模型的分割性能和復(fù)雜度,使用第3.2 節(jié)中選取的評(píng)估指標(biāo)進(jìn)行定量比較,結(jié)果如表1 所示,最優(yōu)結(jié)果加粗標(biāo)注。從表1 可以看出,對(duì)比原始U-Net,本文模型的FLOPs 和Params 值雖有所增大,但模型復(fù)雜度依然相對(duì)較低,且3 項(xiàng)客觀分割性能評(píng)估指標(biāo)值均有所提升,分別提升2.50、2.51和1.25 個(gè)百分點(diǎn)。此外,SA-UNet 模型復(fù)雜度較低,而分割性能與原始U-Net 差別較小,DoubleU-Net 和TransUNet 分割性能雖然取得了一定提升,但是犧牲了較多的模型復(fù)雜度。因此,相比其他主流語(yǔ)義分割模型,本文模型對(duì)偽影及邊緣模糊區(qū)域的分割有一定的改善作用,能在少量增加模型復(fù)雜度的同時(shí),使分割結(jié)果與真實(shí)結(jié)果差異減小,從而提高客觀分割性能評(píng)估指標(biāo)值。
表1 各網(wǎng)絡(luò)模型的客觀評(píng)估結(jié)果Table 1 The objective evaluation results of each network model
3.4.2 注意力模塊對(duì)比實(shí)驗(yàn)
為驗(yàn)證本文所提注意力模塊的有效性,用注意力門(AG)[24]、全局注意力上采樣(GAU)[25]、深度注意力特征(DAF)[26]、非對(duì)稱融合非局部注意力(AFNB)[27]等4 個(gè)模塊分別替換本文U-Net 網(wǎng)絡(luò)中的MLPA 注意力模塊,以進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如表2所示。AG 和DAF 僅簡(jiǎn)單融合高級(jí)特征與低級(jí)特征,未提取多尺度信息。GAU 和AFNB 考慮了多尺度信息,但是分別缺乏對(duì)低級(jí)語(yǔ)義信息和高級(jí)語(yǔ)義信息的進(jìn)一步利用。因此,受圖像偽影和灰度不均的影響,上述注意力模塊恢復(fù)細(xì)節(jié)信息時(shí)存在一定難度。而MLPA 模塊充分利用2 種語(yǔ)義信息,提取多尺度信息,捕獲空間和通道依賴關(guān)系,能夠精準(zhǔn)恢復(fù)細(xì)節(jié)信息,提升分割性能。由于MLPA 模塊聯(lián)合使用了多層注意力,提高了模型計(jì)算量和參數(shù)量,但是對(duì)比其他注意力模塊,其模型復(fù)雜度相差較小,同時(shí)分割性能得到提升,驗(yàn)證了MLPA 模塊的有效性。
表2 各注意力模塊的比較結(jié)果Table 2 Comparison results of each attention module
3.4.3 損失函數(shù)對(duì)比實(shí)驗(yàn)
為了驗(yàn)證本文所提損失函數(shù)的有效性,以各模塊末端是否使用損失函數(shù)的不同組合來(lái)進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如表3 所示,其中:L1為總網(wǎng)絡(luò)末端使用CE Loss;L2為主干和注意力2 個(gè)模塊末端使用CE Loss;L3為3 個(gè)模塊末端均使用CE Loss。從表3 可以看出,本文提出的損失函數(shù)Lseg通過(guò)增加空間相似性損失,取得了較好的客觀評(píng)價(jià)值,表明本文損失函數(shù)可提升圖像分割性能。
表3 各損失函數(shù)的比較結(jié)果Table 3 Comparison results of each loss function %
3.4.4 消融實(shí)驗(yàn)
本文所提模型由主干U-Net、MSFF 和MLPA 這3 個(gè)模塊組成,圖8 所示為所提網(wǎng)絡(luò)中各模塊輸出的可視化結(jié)果,其中,圖8(c)~圖8(e)分別為主干U-Net 編碼還原、MSFF 和MLPA 輸出的分割結(jié)果。由圖8(e)可見(jiàn),在MSFF 輔助主干U-Net 提取特征的基礎(chǔ)上,經(jīng)過(guò)注意力模塊捕獲豐富的上下文信息之后,雖然仍存在部分誤分割的情況,但是灰度不均的邊緣區(qū)域細(xì)節(jié)有所恢復(fù)。利用各模塊的不同組合方式進(jìn)行比較實(shí)驗(yàn),客觀評(píng)估結(jié)果如表4 所示,其中,在U-Net 的基礎(chǔ)上增加MLPA 時(shí)將主干編碼首層輸出和解碼還原輸出作為MLPA 的輸入。由表4 可見(jiàn),增加MSFF 或MLPA 后評(píng)估指標(biāo)值有所提升,表明這2 個(gè)模塊能改善分割性能,而使用PPA 或PCA 后指標(biāo)值也有一定提升,體現(xiàn)這2 種注意力模塊通過(guò)融合不同級(jí)別的語(yǔ)義信息捕獲依賴關(guān)系能促進(jìn)性能提升。本文通過(guò)聯(lián)合使用MSFF 和MLPA,綜合多尺度特征和2 種注意力的優(yōu)勢(shì),從而改善了分割結(jié)果。
表4 消融實(shí)驗(yàn)結(jié)果Table 4 Results of ablation experiment %
圖8 各模塊的分割結(jié)果Fig.8 Segmentation results of each module
根據(jù)不同模塊組合的訓(xùn)練損失畫(huà)出可視化曲線,如圖9 所示,從中可以看出,本文模型的訓(xùn)練損失收斂速度更快,過(guò)程更加穩(wěn)定,體現(xiàn)了本文模型的優(yōu)越性。
針對(duì)圖像中存在的物質(zhì)邊緣模糊、偽影、灰度不均等問(wèn)題,本文提出一種基于U-Net 的多層感知注意力分割方法,以實(shí)現(xiàn)氮氧傳感器電極微觀圖像的自適應(yīng)語(yǔ)義分割。利用多尺度特征融合模塊獲取不同層級(jí)的特征信息并進(jìn)行融合。提出含有感知位置注意力、感知通道注意力的多層感知注意力模塊建立依賴關(guān)系,恢復(fù)圖像細(xì)節(jié)特征。同時(shí),在訓(xùn)練過(guò)程中采用具有空間相似性計(jì)算能力的損失函數(shù)來(lái)優(yōu)化網(wǎng)絡(luò)參數(shù)。實(shí)驗(yàn)結(jié)果表明,該方法可以在增加少量模型復(fù)雜度的情況下,有效改善物質(zhì)邊緣模糊以及偽影等問(wèn)題,針對(duì)不同倍率圖像和難分割區(qū)域也能取得較好的分割結(jié)果。下一步將從重建邊緣模糊區(qū)域分辨率的角度來(lái)實(shí)現(xiàn)輔助分割,提升淺色灰度不均區(qū)域的分割效果以及網(wǎng)絡(luò)模型的泛化能力。