蔣新輝,李筱林*,韋春苗,覃鎮(zhèn)鋒
(1. 柳州鐵道職業(yè)技術(shù)學(xué)院 通信與物聯(lián)網(wǎng)學(xué)院,廣西 柳州 545616;2. 廣西生態(tài)工程職業(yè)技術(shù)學(xué)院 汽車與信息工程學(xué)院,廣西 柳州 545004)
黑色素瘤是一種常見的皮膚癌,惡性黑色素瘤在皮膚癌中的的致死率占比75%,嚴(yán)重威脅著人類的健康[1-3]。黑色素瘤的早期癥狀不明顯,外觀上與良性痣相似度極高,若能在病發(fā)早期及時確診并接受相關(guān)手術(shù)治療,患者的治愈率極高[4]。安全無創(chuàng)的皮膚鏡技術(shù)能獲取各類皮膚病的皮膚鏡圖像,已漸漸成為臨床中各種皮膚癌早期診斷的重要手段。在臨床診斷中,因病變區(qū)域本身具有一定的復(fù)雜性,如病灶的不良?xì)埩?頭發(fā)、標(biāo)尺標(biāo)記和人造偽影)、對比度低、顏色不均和邊界模糊等因素的影響,皮膚科醫(yī)生對病灶進(jìn)行診斷非常耗時耗力,且存在一定主觀性。得益于計算機(jī)視覺技術(shù)的發(fā)展,圖像處理技術(shù)在醫(yī)學(xué)影像分析中得到廣泛使用。
傳統(tǒng)的皮膚鏡圖像分割方法如閾值分割[5-7]、邊緣檢測[8]和區(qū)域生長等[9-10],主要依賴手工特征,不僅實(shí)現(xiàn)困難、效率低,且分割結(jié)果差強(qiáng)人意,近年來,基于卷積神經(jīng)網(wǎng)絡(luò)的一系列體系架構(gòu)被提出并用于圖像分割,如最為典型的全卷積神經(jīng)網(wǎng)絡(luò)(Full Convolutional Neural Network,FCN)[11-12]和對稱的編解碼網(wǎng)絡(luò)U-Net[13]?;赨-Net的模型架構(gòu)在各種醫(yī)學(xué)影像分割任務(wù)中取得優(yōu)異成績,包括Res-Ne[14]、U-Net++[15]和CE-Net[16]等。隨著學(xué)者的深入研究,卷積分割模型得到不斷地優(yōu)化和改善,如2017年,Bi等[17]采用多階段全卷積網(wǎng)絡(luò)(mFCN)中的并行融合方法實(shí)現(xiàn)了精確的皮損分割;2019年,Tang等[18]開發(fā)了基于深度監(jiān)督學(xué)習(xí)策略的多階段U-Net(MS-U-Net)以進(jìn)一步提高分割性能。這些方法的卷積操作具有很好的平移不變性和局部相關(guān)性,提高了其分割任務(wù)的性能,但是因卷積受限于感受野通常很難捕獲全局上下文信息,而全局上下文信息對于皮膚病變的精確定位具有重要的意義。另一方面,在醫(yī)學(xué)影像語義分割中,像素之間的長程依賴關(guān)系對于準(zhǔn)確定義邊界輪廓像素至關(guān)重要。與卷積神經(jīng)網(wǎng)絡(luò)(CNN)不同的是,在自然語言處理(Na-tural Language Processing, NLP)領(lǐng)域中,Vision Transformer(ViT)[19]結(jié)構(gòu)被認(rèn)為能夠捕獲特征的長程依賴關(guān)系,但ViT是一個用來完成分類任務(wù)的網(wǎng)絡(luò),且需要大規(guī)模的訓(xùn)練數(shù)據(jù)集才能具有較好的分類效果,最重要的是它無法解決語義分割任務(wù)中像素級的密集預(yù)測問題。2021年,一種新型的Transformer——Swin Transformer[20]橫空出世,相對于ViT,Swin Transformer不僅計算復(fù)雜度大大減小,且該層次化結(jié)構(gòu)的網(wǎng)絡(luò)模型可利用滑窗操作進(jìn)行自注意力的計算,它是一種通用的骨干網(wǎng)絡(luò),可用于完成圖像分類、分割和目標(biāo)檢測等任務(wù)。為了同時擁有CNN強(qiáng)大的局部細(xì)節(jié)捕獲能力以及Transformer的全局上下文建模的能力,許多學(xué)者將U-Net和Transformer兩種架構(gòu)進(jìn)行合并研究[21-24],結(jié)果表明這種新穎的架構(gòu)獲得更精準(zhǔn)的醫(yī)學(xué)影像分割。受此啟發(fā),本文針對現(xiàn)有皮膚鏡圖像分割方法存在的局限與不足,從病灶特征提取和上下文信息全局建模2個角度進(jìn)行深入研究,提出了一種基于CNN和Transformer的多尺度皮膚病變分割網(wǎng)絡(luò),主要步驟如下:
①利用ResNet34進(jìn)行局部特征的提取,建立特征多級局部語義相關(guān)性;
②利用Swin Transformer模塊對上下文信息進(jìn)行全局信息建模,捕獲特征的長程依賴關(guān)系;
③提出了多尺度聚合模塊來捕獲皮膚病變的多尺度信息,有效兼顧長短不一、形狀多變的病灶信息,避免了傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)捕獲復(fù)雜病灶特征時信息丟失的問題;
④解碼塊逐步融合來自上下文和跳躍連接2條路徑的多級語義特征,考慮到跳躍連接路徑的特征中夾雜著較多噪聲,為了降低噪聲干擾,在解碼塊采用了高效通道注意力機(jī)制進(jìn)行處理。
本文算法主要分為三部分,總體架構(gòu)如圖1所示。第一部分為編碼模塊,采用ResNet34[25]對輸入圖像進(jìn)行特征提取,在ImageNet數(shù)據(jù)集上經(jīng)過預(yù)訓(xùn)練的ResNet34擁有豐富的自然圖像特征,可以為皮膚分割模型提供較好的初始權(quán)重,有助于模型更好地挖掘病灶特征,其殘差連接可很好地避免因深層卷積而出現(xiàn)的梯度消失或者梯度爆炸現(xiàn)象。ResNet34金字塔結(jié)構(gòu)下采樣方式可以有效改善網(wǎng)絡(luò)的復(fù)雜度和收斂速度,同時可以捕獲局部相關(guān)性。第二部分是上下文模塊,針對CNN的皮膚鏡圖像分割在建立遠(yuǎn)程依賴上的不足,在處理上下文特征中引入Swin Transformer模塊,利用Swin Transformer全局信息交互能力幫助特征提取器快速建立皮膚鏡圖像全局感受野,并采用多尺度聚合模塊捕獲多尺度上下文特征信息,增強(qiáng)網(wǎng)絡(luò)對特征的利用率。第三部分是解碼模塊,逐步聚合低級語義信息和高級語義信息,該解碼塊跳躍連接接口配備了一個輕量級的注意機(jī)制,以緩解皮膚鏡的紋理、對比度和顏色的變化差異帶來的噪聲干擾,通過降低背景噪聲和增強(qiáng)邊界細(xì)節(jié)來促進(jìn)低水平和高水平特征的融合。
圖1 算法總體架構(gòu)Fig.1 Overall algorithm architecture
由于卷積操作受限于感受野,從而導(dǎo)致卷積網(wǎng)絡(luò)很難建立像素之間的長程依賴關(guān)系?;诖?本文采用4個相同Swin Transformer模塊串聯(lián)成一個獨(dú)立的模塊對上下文進(jìn)行全局建模,Swin Transformer使用了基于移位窗口的多頭自注意力機(jī)制來提取上下文特征,從而捕捉不同尺度像素之間的關(guān)系,建立像素之間的長程聯(lián)系,Swin Transformer的標(biāo)準(zhǔn)架構(gòu)如圖2所示。
圖2 Swin Transformer 的標(biāo)準(zhǔn)架構(gòu)Fig.2 Standard architecture for Swin Transformer
編碼塊的操作后得到的像素分辨率圖像首先被轉(zhuǎn)換成多個不重疊的小塊(patchs),每個塊(patch)被看作一個token,再經(jīng)過線性映射(Linear Embedding)將特征塊轉(zhuǎn)換成特征序列,這2個過程均由塊嵌入模塊(Patch Embed)實(shí)現(xiàn),隨后被饋傳送到Transformer的4個標(biāo)準(zhǔn)架構(gòu)單元中進(jìn)行特征提取,一個Swin Transformer 的標(biāo)準(zhǔn)基礎(chǔ)單元(Swin Transformer Block)包括基于窗口的多頭自注意(Window-Multi-head Self Attention,W-MSA)模塊和基于移位窗口的多頭自注意(SW-MSA)模塊。每個塊由層模LayerNorm(LN)層、多頭自注意模塊、殘差連接和2層MLP組成,MLP中間有ReLU非線性激活層。在多頭自注意力機(jī)制中,輸入特征被分成多個頭,每個頭都計算出一個不同的注意力權(quán)重矩陣。這些權(quán)重矩陣被加權(quán)平均以產(chǎn)生最終的輸出特征。這種方法可以更好地捕捉不同尺度之間的關(guān)系,并提高特征表達(dá)能力。在移位自注意力機(jī)制中,它通過引入移位操作來捕捉不同位置之間的關(guān)系。具體來說,它將輸入特征分成多個塊,并且每個塊都與其他塊進(jìn)行交互。在這個過程中,每個塊都會向左和向右移動一個固定的距離,以便與相鄰的塊進(jìn)行交互。這種移位操作可以幫助網(wǎng)絡(luò)更好地理解不同區(qū)域之間的關(guān)系,以此來建立像素之間的長程聯(lián)系。
假設(shè)一張圖片被分成多個尺寸為h×w的塊,塊的數(shù)量為M×M,則普通的多頭自注意力(Multi-head Self Attention,MSA)和W-MSA模塊的計算復(fù)雜度分別如式(1)和式(2)所示:
式中:Ω為計算復(fù)雜度,h、w和c分別為特征圖的高度、寬度和深度。從式中可看出,MSA對輸入圖像塊的大小與計算復(fù)雜度成平方關(guān)系,而W-MSA對于輸入的圖像塊具有線性的計算復(fù)雜度,可見Swin Transformer通過使用W-MSA可有效降低計算的復(fù)雜度,采用SW-MSA來提升感受野從而實(shí)現(xiàn)不同窗口間的信息交互,所以,一般來說Swin Transformer Block是成對出現(xiàn)的。連續(xù)的Swin Transformer Blocks的計算如式(3)~式(6)所示:
(7)
式中:Q,K,V∈RM2,d分別表示查詢、鍵和值矩陣,d表示Q/K維度,M2表示窗口內(nèi)塊的數(shù)量,B的值來自于偏置矩陣。
考慮到皮膚病變的長短不一、形狀多變等問題,上下文特征經(jīng)過Swin Transformer模塊建立全局信息之間的通信后的輸出序列特征重新映射成二維特征,將得到的二維特征輸入至MFAM進(jìn)一步捕獲多尺度信息。
MFAM如圖3所示,其包含兩部分,前半部分用于提取上下文特征的多尺度信息,由3個不同大小的空洞卷積和一個帶有本地標(biāo)識的映射分支組成,經(jīng)過3個膨脹系數(shù)分別為2、4、8的膨脹卷積,相對于普通卷積而言,膨脹卷積在保證網(wǎng)絡(luò)計算參數(shù)不變的情況下能有效地增大卷積核的感受野,有效克服了標(biāo)準(zhǔn)卷積空間信息丟失的問題,經(jīng)3個膨脹卷積處理得到不同的空間特征信息,后與原輸入映射分支輸出特征信息進(jìn)行多尺度融合。
圖3 MFAMFig.3 MFAM
考慮到皮膚鏡圖像存在長條形的病灶,方形池化窗口不能很好地提取長條形目標(biāo)特征,且會造成一定程度的計算浪費(fèi),從而帶入一些來自無關(guān)區(qū)域的噪聲。為進(jìn)一步兼顧長條形的病灶特征的學(xué)習(xí)能力從而增強(qiáng)模型的魯棒性,將前半部分輸出的多尺度特征信息輸送到后半部分,后半部分主要采用垂直池化和水平池化來捕獲上下文特征信息,經(jīng)過水平和豎直池化操作后,特征圖的寬(W)和高(H)變成原來的1/4,為恢復(fù)原輸入特征尺寸,對經(jīng)過2個池化層的特征圖進(jìn)行上采樣和卷積操作,得到40個通道的新特征圖與原始特征輸入在通道維度進(jìn)行特征融合輸出得到(C+40)維度的特征。在多尺度模塊后面增加2個條形池化塊來建模特征之間的長距離依賴關(guān)系,可以有效增大特征的感受野,進(jìn)一步提高網(wǎng)絡(luò)的魯棒性。
本文所提模型的解碼塊如圖4所示。先將跳躍連接低水平特征和逐步上采樣后的高水平特征依次進(jìn)行融合以改善分割結(jié)果;由于低水平特征圖中有很多信息與高水平特征重復(fù),而且低水平特征中很多無用信息(如背景信息、毛發(fā)和人工造影等信息)會影響分割結(jié)果,若直接融合不僅會復(fù)制過多的重復(fù)信息,還會給高水平的特征帶來噪聲從而影響分割結(jié)果。為解決以上問題,更好地利用跳躍連接路徑的特征信息,本文提出以下解碼塊,采用高效通道注意力機(jī)制[26]來調(diào)整跳躍連接路徑的關(guān)注度。首先將每條跳路徑進(jìn)行全局平局池化獲取每個通道之間的全局特征信息,再通過使用1維卷積(其中卷積內(nèi)核設(shè)置為5)來實(shí)現(xiàn)局部跨通道交互來建立通道之間的特征關(guān)系,經(jīng)過Sigmoid對交互信息進(jìn)行評估實(shí)現(xiàn)注意度權(quán)重的分配,增強(qiáng)對分割結(jié)果有用信息的權(quán)重,抑制對分割結(jié)果無用甚至有害的信息;然后將得到權(quán)重和跳躍路徑的輸入原始特征進(jìn)行點(diǎn)積,從而獲得對分割結(jié)果有效的特征集;最后將跳躍連接特征和解碼階段特征進(jìn)行融合以改善分割結(jié)果。
圖4 解碼塊Fig.4 Decoding block
損失函數(shù)在網(wǎng)絡(luò)模型中的作用是計算出模型分割結(jié)果與實(shí)際結(jié)果的誤差,并將計算得到的誤差通過反向傳播的方式反饋給前面的每一層網(wǎng)絡(luò),進(jìn)行參數(shù)更新,參數(shù)更新后模型進(jìn)行重新訓(xùn)練以縮小網(wǎng)絡(luò)訓(xùn)練結(jié)果與真實(shí)標(biāo)簽的差距,使得模型分割精度提高。醫(yī)學(xué)圖像分割是將圖像背景和病灶進(jìn)行分離的二分類任務(wù),所以本研究使用交叉熵?fù)p失函數(shù),其計算如下:
(8)
式中:p為模型預(yù)測的樣本中病灶的概率。
所有實(shí)驗(yàn)都在Windows 10操作系統(tǒng)中進(jìn)行,處理器CPU為Intel(R)i7-11700K,顯卡:GPU為NVIDIA GeForce RTX 3090 顯存容量24 GB,運(yùn)行內(nèi)存32 GB。開發(fā)環(huán)境基于深度學(xué)習(xí)框架Pytorch 1.7,匯編語言為Python 3.7。本文所提模型的訓(xùn)練參數(shù)如表1所示。
表1 實(shí)驗(yàn)超參數(shù)設(shè)置Tab.1 Experimental hyper-parameter settings
實(shí)驗(yàn)數(shù)據(jù)采用國際皮膚成像協(xié)會(The International Skin Imaging Collaboration, ISIC)2017年國際皮膚鏡圖像分割競賽中提供的ISIC 2017分割數(shù)據(jù)集[27],該數(shù)據(jù)集被來自世界各地權(quán)威的醫(yī)生進(jìn)行標(biāo)注,一共2 750張圖片,其中包含2 000張訓(xùn)練集、150張驗(yàn)證集和600張測試集,為了增加數(shù)據(jù)的多樣性,對數(shù)據(jù)進(jìn)行了翻轉(zhuǎn)、旋轉(zhuǎn)、裁剪和縮放等增強(qiáng)操作,最終以224 pixel×224 pixel的分辨率進(jìn)行訓(xùn)練與測試。
為定量評估模型對皮膚鏡圖像的分割性能,本文采用Dice系數(shù)、靈敏度(Sensitivity, SEN)、準(zhǔn)確率(Accuracy, ACC)和Jaccard相似系數(shù)(Jaccard Similarity Index, JSI)這幾個評估指標(biāo)對分割結(jié)果進(jìn)行評估,其定義分別如式(9)~式(12)所示:
(9)
(10)
(11)
(12)
式中:TP為真陽性,表示正確標(biāo)記的病灶像素;TN為真陰性,表示正確標(biāo)記的非病灶像素;FP為假陽性,表示非病變的像素被標(biāo)記為病變;FN為假陰性,表示病變像素被標(biāo)記為非病變。Dice系數(shù)是像素級的,其值越高表示模型分割的病灶區(qū)域與標(biāo)簽的契合度越高 (Dice系數(shù)值在0~1;JSI與Dice系數(shù)類似,是衡量黑色素瘤分割精度的重要評價標(biāo)準(zhǔn),是評判測量結(jié)果與真實(shí)標(biāo)簽相似程度的指標(biāo),其值越高(越接近1),表明網(wǎng)絡(luò)分割性能越好。
在ISIC 2017數(shù)據(jù)集上,將本文提出的算法與在相同配置環(huán)境和相同數(shù)據(jù)增處理下的7種先進(jìn)方法進(jìn)行比較,包括 U-Net、Swin-Unet 、MBDCNN[28]、Ensemble-A[29]、DAGAN[30]、UCTransNet和FAGAN。其中MBDCNN、Ensemble-A、DAGAN、FAGAN(2022)等方法專門用于皮膚病變分割,其他方法則是最先進(jìn)的醫(yī)學(xué)圖像分割網(wǎng)絡(luò)。對比結(jié)果如表2所示;表中粗體表示最優(yōu)值,*表示在相同實(shí)驗(yàn)平臺中的測試結(jié)果。本文模型在Dice系數(shù)、SEN、ACC和JSI上的得分表現(xiàn)分別為89.55%、88.85%、96.21%和84.01%,相對于其他先進(jìn)模型來說,Dice、ACC和JSI三個指標(biāo)獲得了最優(yōu)值,說明本文所提模型相對于其他3種先進(jìn)的黑色素瘤分割模型來說具有更高的分割精度,這表明本文所提算法在準(zhǔn)確性上優(yōu)于其他算法。
表2 不同算法在ISIC 2017數(shù)據(jù)集上的測試結(jié)果對比Tab.2 Comparison of test results of different algorithms onISIC 2017 dataset
圖5為本模型與其他3種先進(jìn)模型在ISIC2017測試集上的描述性統(tǒng)計,其中分別為各模型在ISIC2017測試集上前100個epoch的Dice系數(shù)箱型圖和用來衡量各算法速度FPS-FLOPs散點(diǎn)圖。從圖5(a)可以看出,與其他3種模型對比,本模型的Dice系數(shù)獲得最優(yōu)值,且其上下四分位數(shù)的差值小,異常值要明顯少于其他模型,表明本模型具有很好穩(wěn)健性;從圖5(b)可以看出,本模型的計算量FLOPs是最小的且模型推理速度FPS是最快的。綜上可得,本模型具有較高分割精度的同時保持了較好的穩(wěn)定性以及滿足速度響應(yīng)要求。
(a)各模型在ISIC 2017測試集上的Dice系數(shù)箱型圖
(b)各模型在ISIC 2017驗(yàn)證集上的FPS散點(diǎn)圖
圖6為本模型與U-Net、Swin-Unet和UCTransNet其他3種模型的分割結(jié)果對比圖,其中紅色部分表示預(yù)測欠分割,表明模型擬合目標(biāo)的能力不足;綠色部分表示預(yù)測過分割,把背景預(yù)測為目標(biāo);黃色部分表示模型正確預(yù)測目標(biāo)位置,其區(qū)域占比越大,表明模型與標(biāo)簽的契合度越高,說明模型分割性能越好;黑色代表背景區(qū)域。從圖中可以看出,本模型相對于其他3種模型而言,黃色部分區(qū)域較大,紅色和綠色區(qū)域占比較小,相對而言本模型分割準(zhǔn)確率更高、誤判概論較小,說明本模型具有較好的分割性能。
圖6 各模型的分割結(jié)果對比Fig.6 Comparison of segmentation results of each model
表3展示了在所提算法中逐漸加入各種改進(jìn)手段對ISIC 2017數(shù)據(jù)測試集語義分割的影響,包括Swin transformer、MFAM和Decoding Block。由表3可知,在基線基礎(chǔ)上逐步融合改進(jìn)手段,黑色素瘤分割精度逐步改善,Dice精度基線從82.36%上升到89.55%。初始分割模型的Dice系數(shù)為82.36%,在加入了Swin Transformer后,由于捕獲上下文特征的遠(yuǎn)程依賴關(guān)系,網(wǎng)絡(luò)對特征的全局信息交互能力增強(qiáng),Dice上升至85.24%,后又在此基礎(chǔ)上做出改進(jìn),加入MFAM對條形目標(biāo)進(jìn)行建模,獲取更多特征信息,使得網(wǎng)絡(luò)對背景和條形目標(biāo)鑒別能力進(jìn)一步增強(qiáng),Dice上升至88.28%。在加入解碼塊后,跳躍連接路徑無用特征信息被抑制,跳躍連接路徑有用特征信息被增強(qiáng),實(shí)現(xiàn)了跳躍路徑的通道特征自注意,使得最終的Dice系數(shù)上升至89.55%。綜上,本文的各項改進(jìn)均能有效提高黑色素瘤的分割精度。
表3 本模型在ISIC 2017數(shù)據(jù)集上的消融實(shí)驗(yàn)Tab.3 Ablation experiments of this model on ISIC2017 dataset
本文提出了一種新的基于CNN和Transformer的混合結(jié)構(gòu)網(wǎng)絡(luò)用于皮膚鏡圖像分割,該方法兼顧了CNN結(jié)構(gòu)建模的局部像素相關(guān)性和Transformer建模特征的長程依賴關(guān)系,二者的巧妙結(jié)合有效強(qiáng)化了特征信息的表達(dá),從而提高了分割任務(wù)中的目標(biāo)信息的獲取能力。通過在ISIC 2017數(shù)據(jù)集上進(jìn)行測試,與現(xiàn)存較為典型的模型做實(shí)驗(yàn)對比,并與許多主流模型做引文對比,證明本模型具有一定的優(yōu)勢,在可視化分割結(jié)果對比中,本文分割結(jié)果圖輪廓更加清晰、推理速度更快,在實(shí)際應(yīng)用中具有一定的參考價值。