胡長康,李凱揚(yáng)
武漢大學(xué) 物理科學(xué)與技術(shù)學(xué)院,武漢 430072
醫(yī)學(xué)熱層析技術(shù)通過捕獲人體熱信息分析癌細(xì)胞代謝異常的區(qū)域,以熱圖的形式對人體體內(nèi)的熱源信息進(jìn)行層析分析,已臨床用于乳腺癌的檢測。為了提高臨床醫(yī)生的診斷效率和準(zhǔn)確率,本文通過對熱層析圖像進(jìn)行語義分割,將病變區(qū)域和人體正常組織清晰地分割開來,可以輔助醫(yī)生分析病灶區(qū)域的大小、位置、邊界等信息。然而病變區(qū)域占比很小,而且在熱層析圖像上形態(tài)學(xué)特征不明顯。因此,本文針對小目標(biāo)的細(xì)節(jié)分割展開的研究,有著重要的意義。
近年來,深度學(xué)習(xí)算法的興起使得圖像的語義分割領(lǐng)域得到了蓬勃的發(fā)展。主流上多是通過下采樣進(jìn)行特征提取,獲取圖像的抽象特征。再通過上采樣恢復(fù)圖像的分辨率,還原空間信息,并通過特征融合、模塊優(yōu)化實(shí)現(xiàn)對每一個像素點(diǎn)的分類。
醫(yī)學(xué)圖像分割領(lǐng)域的U-Net[1],通過跳躍連接,實(shí)現(xiàn)了多尺度的特征融合,適合在小樣本上的分割訓(xùn)練。Deeplab 系列[2-4]提出了空洞卷積和空間金子塔池化,實(shí)現(xiàn)了多尺度的特征提取,從而增強(qiáng)全局的語義信息。后續(xù)很多基于這些經(jīng)典模型而改進(jìn)的分割算法,2018年,Dong等人[5]提出了一種U-Net++模型,讓模型能夠在訓(xùn)練過程中能自行選擇下采樣的深度。
2019 年,Zhou 等人[6]提出了基于DenseNet 和U-Net的DenseU-Net網(wǎng)絡(luò),并針對語義分割的類不平衡問題,提出了一種中值頻率平衡的加權(quán)損失函數(shù),實(shí)現(xiàn)對小目標(biāo)的精細(xì)分割。2020 年,Huang 等人[7]在U-Net++的基礎(chǔ)上提出了U-Net3+模型,利用全尺度的跳躍連接和深監(jiān)督的思想,改善了U-Net++沒能從多尺度中提取足夠特征的不足。曹源等人[8]提出了一種基于委員會查詢的自步多樣性學(xué)習(xí)算法。通過委員會查詢的方式實(shí)現(xiàn)數(shù)據(jù)挑選,將訓(xùn)練數(shù)據(jù)按照由易到難的順序?qū)胗?xùn)練,應(yīng)用到肺部器官分割和視網(wǎng)膜分割上取得了較高的Dice指標(biāo)。Qian等人[9]提出了一種編碼/解碼的肺CT圖像分割算法,將多尺度的圖像作為輸入,通過殘差網(wǎng)絡(luò)結(jié)構(gòu)和空洞空間金字塔池化(ASPP)相結(jié)合的方式提取多尺度特征信息。在LUNA16 數(shù)據(jù)集上相似性系數(shù)做到了99.56%。2021 年,Wang 等人[10]在傳統(tǒng)模糊C-均值聚類(FCM)算法基礎(chǔ)上,改進(jìn)了一種快速自適應(yīng)非局部空間加權(quán)與隸屬度鏈接的FCM算法,用于噪聲圖像分割,在分割精度和運(yùn)行時間上均優(yōu)于傳統(tǒng)FCM算法。Zhao等人[11]將半監(jiān)督學(xué)習(xí)和主動學(xué)習(xí)策略相結(jié)合,開發(fā)了一種深度主動半監(jiān)督學(xué)習(xí)框架,依照一定的標(biāo)準(zhǔn)挑選弱標(biāo)記和強(qiáng)標(biāo)記樣本,該算法在多種醫(yī)學(xué)圖像數(shù)據(jù)集上都表現(xiàn)出了良好的性能。Pang 等人[12]提出了一種名為SpineParseNet的兩階段框架,分別由用于二維殘差分割的ResU-Net和用于三維粗分割的三維圖卷積分割網(wǎng)絡(luò)(GCSN)組成。將其用于對體積磁共振圖像的脊柱分割,取得了(87.32±4.75)%的平均Dice相似系數(shù)。
然而,由于醫(yī)學(xué)熱層析技術(shù)尚未廣泛普及,目前針對熱層析圖像的語義分割技術(shù)還沒有得到較好的應(yīng)用。熱層析圖像存在數(shù)據(jù)量匱乏,形態(tài)學(xué)特征不明顯,病灶邊界不清晰等困難。同時,還具有小尺度目標(biāo)帶來的類不平衡問題。上述的經(jīng)典算法很難直接得到較為精細(xì)的分割,不過主流的算法采用的跨層融合的思想對恢復(fù)圖像細(xì)節(jié)很有幫助。深層的特征圖對圖像的抽象信息具有很好的表征能力,但丟失了太多的細(xì)節(jié)信息。將其與淺層的特征融合正好彌補(bǔ)了細(xì)節(jié)的捕捉能力。
在跨層融合的思路上,本文專注于盡量發(fā)揮這種特征融合的思想。即設(shè)計(jì)一個層與層間反復(fù)特征融合的網(wǎng)絡(luò),讓模型在訓(xùn)練過程中可以自行選擇特征融合的程度。Sun 等人[13]提出的高分辨率網(wǎng)絡(luò)(hign resolution network,HRNet)用于人體的姿勢估計(jì),在特征提取端采用了一種并行連接多分辨率子網(wǎng)的結(jié)構(gòu)?;谏鲜鰞煞N思想,本文設(shè)計(jì)了一種并行的多尺度特征融合模型,在U-Net 的基礎(chǔ)上,取代了U-Net 模型串行連接的結(jié)構(gòu)。在整個上采樣和下采樣的過程中,同時保持各個分辨率子網(wǎng)的表示,將多分辨率子網(wǎng)并行連接,通過反復(fù)的特征融合,實(shí)現(xiàn)層間信息不斷的交換。整個過程保持著高分辨率和低分辨率特征的存在,從而提高模型對細(xì)粒度的捕獲能力。
本文的主要貢獻(xiàn)如下:
(1)提出了一種并行的,多尺度特征融合的分割網(wǎng)絡(luò)模型,該模型能讓自身在訓(xùn)練過程中決定特征融合的程度,能夠在保證語義信息準(zhǔn)確的前體下,更好的抓取細(xì)節(jié)特征。
(2)采用一種基于雙重閾值的非線性映射算法,處理原始熱層析光感值數(shù)據(jù)。著重將病灶區(qū)域的溫度細(xì)節(jié)保留,而忽視背景區(qū)域的溫度細(xì)節(jié),生成更易于模型分割訓(xùn)練的灰度圖像數(shù)據(jù)。
考慮到模型深度上的拓展容易導(dǎo)致訓(xùn)練過程中,梯度反向傳播時發(fā)生梯度消失等現(xiàn)象。本文選擇面向?qū)挾确较蛲卣鼓P停贖RNet的多分辨率子網(wǎng)并行的思想,整體上設(shè)計(jì)了一種端到端的并行連接的分割架構(gòu)。為了彌補(bǔ)模型反復(fù)特征融合導(dǎo)致的參數(shù)陡增,修改了一種適用于本模型的瓶頸結(jié)構(gòu)modified bottleneck作為基本單元。選擇最大池化實(shí)現(xiàn)下采樣,采用基于雙線性插值法的上池化操作恢復(fù)特征圖的尺寸,并通過通道拼接Concat 進(jìn)行特征融合。為了更好的應(yīng)對小目標(biāo)分割帶來的類不平衡問題,采用了一種適用于三分類的中值平衡的交叉熵?fù)p失函數(shù)。
特征提取作為卷積神經(jīng)網(wǎng)絡(luò)抓取圖像信息的手段,一直是語義分割算法的重點(diǎn)優(yōu)化對象。除了拓展特征提取的網(wǎng)絡(luò)深度,以捕獲更豐富的語義信息之外。目前很多提升模型寬度的思想,包括InceptionNet 的聚類操作[14],Deeplab系列中的空間金字塔池化模塊等。
本文的網(wǎng)絡(luò)結(jié)構(gòu)整體上采用了對高分辨率特征逐級下采樣,提取到低分辨率的抽象特征之后,再通過逐級上采樣以恢復(fù)圖像的尺寸的思想。然后通過不斷的特征融合以達(dá)到對分割細(xì)節(jié)的把握,如圖1所示。為了避免在特征復(fù)原的過程中極易丟失大量的空間和細(xì)節(jié)信息,造成對分割不連續(xù)或者小目標(biāo)的丟失,本文在模型的架構(gòu)設(shè)計(jì)上,整個特征提取的過稱中,都沒有選擇丟棄高分辨的特征,而是讓各個分辨率的子網(wǎng)并行向前。維持高分辨率的表示,相當(dāng)于維持著細(xì)節(jié)特征。并且可以讓模型有條件進(jìn)行反復(fù)的特征融合。
圖1 并行多尺度特征融合分割模型結(jié)構(gòu)Fig.1 Structure of parallel multi-scale feature fusion segmentation model
模型以高分辨率子網(wǎng)作為第一階段開始,通過一種改進(jìn)的瓶頸結(jié)構(gòu)取代一部分標(biāo)準(zhǔn)的3×3 卷積。這種結(jié)構(gòu)可以使網(wǎng)絡(luò)更加輕量化,彌補(bǔ)并行拓展帶來的參數(shù)消耗。模型共分五層,第一層保持原始圖像的分辨率,特征圖通過瓶頸結(jié)構(gòu)的卷積運(yùn)算后,再通過一個標(biāo)準(zhǔn)的3×3卷積,輸出圖像的特征通道數(shù)維持在32。在經(jīng)過瓶頸結(jié)構(gòu)和標(biāo)準(zhǔn)卷積之后都會與下一層子網(wǎng)的上采樣特征進(jìn)行通道融合,采用的是Concat 的方式對特征圖進(jìn)行通道合并,其中上采樣是通過基于雙線性插值的Unsampling。融合之后再次通過一個瓶頸結(jié)構(gòu)和一個3×3 標(biāo)準(zhǔn)卷積,將特征通道數(shù)維持在32,依次遞推到輸出層。網(wǎng)絡(luò)的第二層以第一層的下采樣開始,通過的是掩膜為2×2 的最大池化,分辨率縮小一倍之后,特征通道數(shù)在通過連續(xù)兩個瓶頸結(jié)構(gòu)的特征提取之后調(diào)整到64。然后與下一層子網(wǎng)的上采樣特征進(jìn)行通道融合,融合之后再次通過一個瓶頸結(jié)構(gòu)和一個標(biāo)準(zhǔn)的3×3卷積,依次遞推到該層子網(wǎng)的末端。每一層都采用這種構(gòu)建思路,第五層的特征通道數(shù)達(dá)到了512,包含著最抽象的特征。
為了減少模型訓(xùn)練過程中過擬合,本文在第一層子網(wǎng)的輸出層之前引入了隨機(jī)失活層(dropout layer),起到正則化的作用。在每一個瓶頸結(jié)構(gòu)之中,都在卷積層和激活函數(shù)之間加入了批量歸一化層(batch normalization,BN)[15],用來加快模型訓(xùn)練收斂的速度。整個結(jié)構(gòu)通過帶修正的線性單元LeakyReLU 函數(shù)作為激活函數(shù),為模型來提供非線性因素,同時可以避免ReLU 函數(shù)導(dǎo)致的靜默神經(jīng)元(dead neuron)。網(wǎng)絡(luò)的輸出通過1×1 的卷積壓縮通道數(shù)至分割的類別數(shù),通過Softmax函數(shù)對每一個像素點(diǎn)進(jìn)行多分類。為了應(yīng)付小目標(biāo)空間占比小,導(dǎo)致的像素級類不平衡問題,本文引入一種中值平衡的交叉熵?fù)p失函數(shù),通過對各個類別交叉熵的系數(shù)進(jìn)行中值平衡,以實(shí)現(xiàn)不同目標(biāo)類別對損失值貢獻(xiàn)的平衡。
本文模型設(shè)計(jì)的初衷,就是提高分割網(wǎng)絡(luò)抓取細(xì)節(jié)特征的能力,這主要得益于的并行多尺度特征融合的思想。本文構(gòu)建了不同分辨率的子網(wǎng),輸入數(shù)據(jù)經(jīng)過卷積層和池化層不斷地特征提取,從高分辨率子網(wǎng)傳遞到深層的低分辨率子網(wǎng)上。因此,低分辨率子網(wǎng)包含著更豐富的抽象語義信息,而高分辨率子網(wǎng)上則維持著空間上的細(xì)節(jié)特征。本文通過設(shè)計(jì)這種并行的網(wǎng)絡(luò)結(jié)構(gòu),始終維持各個分辨率子網(wǎng)的表示,以便在層間進(jìn)行反復(fù)的多尺度特征融合,使空間細(xì)節(jié)信息和抽象的語義信息更好的結(jié)合。模型在做到細(xì)節(jié)分割的同時可以兼顧對語義信息的準(zhǔn)確把握。然而,該算法也伴隨著一定的實(shí)現(xiàn)成本,模型要始終維持高分辨率子網(wǎng)的表示,帶來了復(fù)雜的模型結(jié)構(gòu)和較大的參數(shù)量;同時,反復(fù)的特征融合,使得計(jì)算機(jī)在Concat計(jì)算的過程中,需要不斷開辟新的內(nèi)存來保存中間特征,這會占用更大的顯存,也會增加模型訓(xùn)練的時長。
本文模型設(shè)計(jì)的核心思想是通過反復(fù)的特征融合來提高模型對感興趣區(qū)域的細(xì)節(jié)分割能力。HRNet 為本文提供了一種并行子網(wǎng)連接的思想,來實(shí)現(xiàn)反復(fù)的特征融合。該模型是由微軟亞洲研究院針對人體姿勢估計(jì)所提出。模型從一個高分辨率子網(wǎng)開始,將高分辨率和低分辨率子網(wǎng)逐層增加,形成多分辨率的子網(wǎng)層,然后將這些子網(wǎng)層并行連接,其間進(jìn)行反復(fù)的多尺度特征融合。這使得每個分辨率子網(wǎng)層都可以從上下相鄰的子網(wǎng)層中反復(fù)接受信息,在輸出端保證了信息更豐富的高分辨率表示。這種并行多尺度融合方式的設(shè)計(jì)思路分為三個步驟:
第一階段是構(gòu)建連續(xù)的多分辨率子網(wǎng),現(xiàn)有的姿勢估計(jì)網(wǎng)絡(luò)都是通過將高分辨率和低分辨率子網(wǎng)串聯(lián),每個子網(wǎng)由一系列卷積組成,子網(wǎng)之間通過下采樣層實(shí)現(xiàn)分辨率減半。設(shè)Lsr為第r層第s階段的子網(wǎng)絡(luò),不同的r表示不同的分辨率,則連續(xù)的多分辨率子網(wǎng)結(jié)構(gòu)如圖2所示。
圖2 連續(xù)多分辨率子網(wǎng)Fig.2 Sequential multi-resolution subnetworks
第二階段是構(gòu)建并行的多分辨率子網(wǎng),在第一階段的基礎(chǔ)上,再橫向地拓展每一層子網(wǎng)絡(luò)。各層分辨率子網(wǎng)都從Lii開始,一直往后都保持著本層分辨率的表示,其間通過一些步長為一的卷積保證特征尺寸不受改變。再將各層子網(wǎng)并行連接,形成并行的多分辨率子網(wǎng)絡(luò)結(jié)構(gòu),一個三層的子網(wǎng)絡(luò)結(jié)如圖3所示。
圖3 并行多分辨率子網(wǎng)Fig.3 Parallel multi-resolution subnetworks
第三階段是實(shí)現(xiàn)重復(fù)的多尺度特征融合,HRNet為了實(shí)現(xiàn)每個子網(wǎng)能夠反復(fù)地從其他并行的子網(wǎng)接受信息,引入了特征融合單元,每個特征融合單元由多個交換塊組成,每個交換塊由多個并行的卷積單元Csr,以及一個交換單元組成,如圖4所示。
圖4 反復(fù)的多尺度融合Fig.4 Repeated multi-scale fusion
本文模型在通過淺層和深層之間反復(fù)的特征融合之后,增加了網(wǎng)絡(luò)對細(xì)節(jié)信息的恢復(fù)能力,但同時也導(dǎo)致更為龐大的運(yùn)算量。為了讓模型參數(shù)上更加輕量化,本文修改了一種瓶頸結(jié)構(gòu)Bottleneck 作為基本單元,使得更加適合于本文的網(wǎng)絡(luò)拓?fù)洹?/p>
Howard 等人[16]提出的MobileNet,作為一種輕量化模型。其深度可分離卷積(depthwise convolution,DC)的使用,相比于常規(guī)卷積,參數(shù)量得到了大幅降低,如圖5 所示。它由逐通道卷積(depthwise convolution,DWConv)和逐點(diǎn)卷積(pointwise convolution,PWConv)兩個部分結(jié)合。DW Conv要求卷積核的數(shù)量必須與上一層的通道數(shù)一致,在相應(yīng)的通道上進(jìn)行卷積。一個filter始終是一個二維的卷積核,同時對應(yīng)輸入和輸出特征圖的一個通道,因此,DW Conv無法調(diào)整輸出特征圖的通道數(shù),同時也無法融合相同位置上在不同通道上的空間信息。而PW Conv 是1×1 的標(biāo)準(zhǔn)卷積,正好可以彌補(bǔ)這一點(diǎn)。相比于常規(guī)卷積的每一個filter都要直接提取輸入圖像多通道的空間信息,深度可分離卷積這種分步卷積大大減少了參數(shù)量。
圖5 深度可分離卷積Fig.5 Depthwise separable convolution
既然,1×1 的PW Conv 可以調(diào)整通道數(shù),用于減少參數(shù)量,那么就不妨先將通道數(shù)降低,再結(jié)合深度可分離卷積,將參數(shù)量進(jìn)一步減小。實(shí)際上是兩個1×1 的PW Conv 分別控制特征通道數(shù)的降低和還原,中間采用DWConv連接成一個瓶頸結(jié)構(gòu),如圖6所示。這種深度瓶頸結(jié)構(gòu)(deeper bottleneck architectures,DBA)在Resnet 中融合進(jìn)了殘差模塊[17],其中在旁路的恒等映射,作為殘差學(xué)習(xí)單元的精髓,可以保證Resnet 的網(wǎng)絡(luò)拓?fù)渚退氵_(dá)到很深也容易被訓(xùn)練。考慮到本文的模型結(jié)構(gòu)主要是橫向的擴(kuò)展,而非深度的疊加,所以本文調(diào)整的瓶頸結(jié)構(gòu)舍棄了旁路的恒等映射。
圖6 兩種瓶頸結(jié)構(gòu)Fig.6 Two bottleneck structures
本文研究的任務(wù)是對乳腺癌惡性病例的醫(yī)學(xué)熱層析圖像進(jìn)行語義分割,對我們感興趣的目標(biāo),包括病變區(qū)域的惡性腫塊和惡性血管進(jìn)行精細(xì)化分割。感興趣目標(biāo)連同背景一共可分三個像素類別。因此本文選擇多分類的交叉熵?fù)p失函數(shù),用來面描述每個像素點(diǎn)的類別在概率分布上,預(yù)測結(jié)果與真實(shí)結(jié)果的差異。因?yàn)槎喾诸惖慕徊骒負(fù)p失只用考慮分類正確的情況,并且搭配Softmax 函數(shù)的輸入求導(dǎo)簡單,可以加快權(quán)重更新的速度。多分類交叉熵?fù)p失定義為:
由于醫(yī)學(xué)熱層析圖像上我們感興趣區(qū)域(惡性腫塊和惡性血管)的占比非常小,其類別像素出現(xiàn)的頻數(shù)占比小,就導(dǎo)致在對每個像素的類別進(jìn)行分類的過程中存在嚴(yán)重的類不平衡問題,從而使這種交叉熵?fù)p失基本由背景類別貢獻(xiàn)。為了讓模型損失函數(shù)的注意力集中在我們感興趣的兩個目標(biāo)上面,本文引入了一種平衡交叉熵?fù)p失函數(shù),將每個類別的樣本對損失的貢獻(xiàn)進(jìn)行一個不同系數(shù)的加權(quán)。區(qū)別于加權(quán)交叉熵?fù)p失,本文的損失函數(shù)對每個類別,包括背景也會進(jìn)行系數(shù)限制。這種平衡交叉熵?fù)p失可以定義為:
平衡系數(shù)βi對應(yīng)每個類別的權(quán)重,為了平衡各個類別對損失的貢獻(xiàn),尤其是突出人們感興趣卻又占比小的惡性血管和惡性腫塊部分。本文采用一種中值頻率平衡[18]的算法來確定系數(shù)βi:
其中∑fi是每個包含了第i類的所有圖像在i類上的像素總和,C是類別數(shù)的集合,median()函數(shù)是對各類別像素總和求中位數(shù)。取中位數(shù)與某類像素總和的比值作為該類在交叉熵?fù)p失上的平衡系數(shù),可以保證原本在圖像中占比小的類別對應(yīng)的系數(shù)大于1,而占比大的類別對應(yīng)的系數(shù)小于1,達(dá)到平衡的效果。本文基于中值頻率平衡的交叉熵?fù)p失,有助于提高圖像中占比小的類別對損失值的貢獻(xiàn),可有效防止血管分割不連續(xù),腫塊分割丟失等問題。
為本文算法在實(shí)驗(yàn)上配置的環(huán)境如表1所示。
表1 實(shí)驗(yàn)環(huán)境配置Table 1 Experimental environment configuration
本文使用的熱層析圖像數(shù)據(jù)集,由自主研發(fā)的醫(yī)學(xué)熱層析儀在相關(guān)合作醫(yī)院采集而來。針對女性乳腺癌的檢測,采集到由14 位的感光值描述的人體二維溫度數(shù)據(jù)[19-20]。本文通過數(shù)值轉(zhuǎn)換算法,將其生成更易于網(wǎng)絡(luò)訓(xùn)練的灰度圖像數(shù)據(jù)。從數(shù)據(jù)池中挑選出確診的惡性病例,然后對臟數(shù)據(jù)進(jìn)行清洗,去除掉拍攝角度不佳,環(huán)境噪聲干擾大的樣本。通過降噪和圖像尺寸調(diào)整后,由臨床專業(yè)人員進(jìn)行像素級的手工標(biāo)注,得到936例可供監(jiān)督學(xué)習(xí)的數(shù)據(jù)集。訓(xùn)練數(shù)據(jù)樣本由320×240 大小的灰度圖像數(shù)據(jù)和對應(yīng)的掩模標(biāo)簽組成,標(biāo)簽按像素類別被標(biāo)注為惡性腫塊、惡性血管和背景三類。經(jīng)過數(shù)據(jù)增強(qiáng)后,本文近似于6∶2∶2 的比例劃分了訓(xùn)練集3 370例,驗(yàn)證集1 120例,測試集1 126例。
2.3.1 基于雙重閾值的非線性映射轉(zhuǎn)換策略
熱層析儀采集到的人體乳腺區(qū)域的溫度信息,以14位光感值數(shù)據(jù)表征為二維圖像矩陣。整個光感值數(shù)域范圍在區(qū)間0~214-1,而正常的室溫背景以及人體溫度下,得到的光感值數(shù)據(jù)基本分布在區(qū)間[2 500,4 500]。而且其間包含了大量的環(huán)境溫度噪聲,以及做分割任務(wù)不感興趣的背景低溫區(qū)域。人體乳腺病變區(qū)域會因?yàn)楫惓4x,體現(xiàn)出與周圍組織溫差的異常。如果直接用光感值數(shù)據(jù)進(jìn)行訓(xùn)練,這種溫差異常通過光感值數(shù)據(jù)的反映體現(xiàn)得很微弱,難以被分割模型捕捉到這種病變區(qū)域的特征;此外,大量的背景溫度噪聲也會包含其中,對模型的訓(xùn)練帶來干擾。因此,如圖7 所示,本文采用一種雙重閾值的策略將光感值數(shù)據(jù)映射成0~255 的灰度圖,并維持原始的分辨率大小。其中Tmin和Tmax分別表示低溫閾值和高溫閾值對應(yīng)的光感值。該算法可以盡量保留病灶區(qū)域的溫度細(xì)節(jié)信息,而濾除環(huán)境背景的溫度信息。
圖7 基于雙重閾值的轉(zhuǎn)換示意圖Fig.7 Schematic diagram of transformation based on double threshold
因?yàn)椴≡顓^(qū)域表征為人體高溫區(qū)域,因此,本文算法對兩種閾值選定的敏感度不同。如果兩種閾值沒能準(zhǔn)確擬合到人體的最高和最低溫區(qū)域,Tmax偏高和Tmin偏低都會使人體溫度信息進(jìn)一步壓縮,會導(dǎo)致分割精度降低。若Tmin偏高,則會抹掉了人體低溫區(qū)域的溫度信息,容易導(dǎo)致分割結(jié)果的邊緣信息丟失。而Tmax偏低則會截?cái)嗳梭w高溫病灶的信息,模型將無法捕獲分割目標(biāo)(病灶)的特征??梢姡P蛯Ω邷亻撝涤兄叩拿舾卸?,并且需要盡量準(zhǔn)確設(shè)置兩種閾值。
本文對所有挑選的熱層析光感值數(shù)據(jù)分析光感值的低溫閾值門限和高溫閾值門限。兩種閾值設(shè)定的思路就是盡量不截?cái)嗳梭w溫度信息。由于熱層析圖像統(tǒng)一采集人體正面上半身的溫度信息,而人體的相對低溫區(qū)域主要集中在腹部,即圖像的中部偏下的區(qū)域。因此,選取每份樣例坐標(biāo)為[160,0]的固定像素點(diǎn)作為人體低溫代表點(diǎn),用該點(diǎn)的光感值來擬合人體的低溫區(qū)的光感值,再取所有樣例的低溫代表點(diǎn)對應(yīng)的最小光感值,作為低溫閾值門限。這樣既保證了統(tǒng)一的低溫閾值門限,又不會截?cái)嗳梭w溫度信息。通常熱層析儀檢測人體的時候,都會控制背景溫度低于人體溫度,作為感興趣的人體病變區(qū)域往往因?yàn)榇x異常表征為高溫區(qū)域。所以為了盡量不壓縮人體病變區(qū)域的特征,我們選擇每一份樣例的光感值的最大值作為其高溫閾值門限。所有的樣本享有統(tǒng)一的低溫閾值門限和特有的高溫閾值門限。最后將所有光感值數(shù)據(jù)轉(zhuǎn)化為0~255 的灰度圖像數(shù)據(jù),對于光感值低于低溫閾值門限的像素點(diǎn)映射到灰度值為0,對于高于高溫閾值門限的像素點(diǎn)灰度值映射到255,兩個閾值之間的數(shù)據(jù)按等比例壓縮映射到0~255之間,映射效果如圖8所示。
圖8 光感值數(shù)據(jù)到灰度圖像數(shù)據(jù)的轉(zhuǎn)換效果Fig.8 Renderings of conversion of light sensitivity data to grayscale image data
2.3.2 數(shù)據(jù)增強(qiáng)和數(shù)據(jù)預(yù)處理
為了減小模型訓(xùn)練的結(jié)構(gòu)化風(fēng)險(xiǎn),提升模型的魯棒性,本文對所有樣本進(jìn)行了數(shù)據(jù)增強(qiáng)處理。包括水平方向和垂直方向的鏡像翻轉(zhuǎn),以90°角為單位的隨機(jī)角度旋轉(zhuǎn),以及不同尺度的圖像裁剪。最后針對上文的低溫閾值門限,調(diào)整了適當(dāng)?shù)拈T限高度再做映射變換,作為了一種新的數(shù)據(jù)增強(qiáng)方式。
為了提升模型在梯度下降過程中尋找最優(yōu)解的速率,本文在將數(shù)據(jù)導(dǎo)入訓(xùn)練之前先進(jìn)行零均值化和歸一化處理,通過約束訓(xùn)練數(shù)據(jù)的分布來加快模型的收斂速度。
2.4.1 優(yōu)化策略:
為了較高的計(jì)算效率和較低的內(nèi)存消耗,本文采用帶有動量項(xiàng)的Adam優(yōu)化器[21]。利用梯度的一階矩和二階矩的預(yù)算來計(jì)算出各個參數(shù)學(xué)習(xí)率的更新步長,得到自適應(yīng)的學(xué)習(xí)速率。該算法分別計(jì)算了梯度和梯度平方的指數(shù)衰減平均值,并通過兩個參數(shù)β1和β2調(diào)節(jié)這兩個指數(shù)衰減率:其中θt是網(wǎng)絡(luò)的可訓(xùn)練參數(shù),η為學(xué)習(xí)率,∈是一個很小的參數(shù),可以防止分母被置零。本文算法對上述參數(shù)的設(shè)定為學(xué)習(xí)率η取0.000 1,β1取0.900,β2取0.999,∈為1E-8。
2.4.2 遷移學(xué)習(xí)策略
為了加快并優(yōu)化模型的學(xué)習(xí)效率,本文借助了遷移學(xué)習(xí)的策略,先利用公開數(shù)據(jù)集(ImageNet)對網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練處理,再以預(yù)訓(xùn)練權(quán)重初始化模型權(quán)重可以加快訓(xùn)練速度。對本文應(yīng)用的熱層析小數(shù)據(jù)集來說,可以得到更好的性能。
本文將所有訓(xùn)練數(shù)據(jù)按小批量進(jìn)行訓(xùn)練,每個batch由打亂順序的8張圖片組成,由數(shù)據(jù)生成器不斷地返回8×320×240×1 格式的張量導(dǎo)入模型的輸入。將每個batch 對應(yīng)的標(biāo)簽轉(zhuǎn)化成8×320×240×3 的One-hot 編碼的格式導(dǎo)入模型的輸出,與預(yù)測輸出計(jì)算出平衡交叉熵?fù)p失值。將每個batch的選擇帶動量的Adam優(yōu)化器,初始學(xué)習(xí)率設(shè)為0.000 1,動量為0.900。對所有訓(xùn)練數(shù)據(jù)迭代一輪需要422 iterations,在每一輪迭代結(jié)束后用驗(yàn)證集數(shù)據(jù)對模型進(jìn)行評估,保存表現(xiàn)最佳的權(quán)重參數(shù),并對所有的數(shù)據(jù)迭代120 epochs。訓(xùn)練結(jié)束后加載保存的最佳權(quán)重模型,利用各項(xiàng)評估指標(biāo)在測試集上進(jìn)行評測和分析,得到預(yù)測的分割結(jié)果。為了對比分析本文算法的優(yōu)勢,在相同的實(shí)驗(yàn)條件下,分別對U-Net、DenseUNet、U-Net3+等模型在本文的熱層析數(shù)據(jù)集下進(jìn)行了訓(xùn)練和測試。
本文用作評測模型訓(xùn)練結(jié)果的評估函數(shù)主要包括以下指標(biāo):像素精度(pixel accuracy,PA),用來描述一個batch 內(nèi)分類正確的像素點(diǎn)占所有像素點(diǎn)總和的比重;均交并比(mean intersection over union,MIoU),表征為每一個類別預(yù)測的像素區(qū)域與真實(shí)標(biāo)簽的像素區(qū)域的交集與并集之比,在所有類別上的均值;類別像素準(zhǔn)確率(class pixel accuracy,CPA),針對每個類別,所有分類預(yù)測正確的像素點(diǎn)占所有被預(yù)測為該類的像素點(diǎn)的比例;平均像素準(zhǔn)確率(mean pixel accuracy,MPA),類別像素準(zhǔn)確率在所有類別上的均值;召回率(Recall),也是針對每個類別而言,所有分類預(yù)測正確的像素點(diǎn)占該類在真實(shí)標(biāo)簽上的所有像素點(diǎn)的比重,其計(jì)算公式分別如下:
其中Recalla、CPAa、IoUa分別對應(yīng)類別a的召回率、類別像素準(zhǔn)確率和交并比。Taa、Fab、Fac、Tbb、Fba、Fbc、Tcc、Fca、Fcb分別對應(yīng)圖9的三分類混淆矩陣:
圖9 基于三分類的混淆矩陣Fig.9 Confusion matrix based on tri-classification
3.2.1 模型結(jié)構(gòu)對比實(shí)驗(yàn)
為了驗(yàn)證本文工作的現(xiàn)實(shí)意義,在醫(yī)學(xué)熱層析數(shù)據(jù)測試集上進(jìn)行了多指標(biāo)的評估分析,得到了分割的結(jié)果。同時為了論證本文算法的改進(jìn)點(diǎn),利用相同的訓(xùn)練策略分別對U-Net、DenseU-Net 和U-Net3+等模型在我們的數(shù)據(jù)集上進(jìn)行了訓(xùn)練和測試,得到各評估指標(biāo)的結(jié)果如表2所示。
表2 不同模型在熱層析數(shù)據(jù)集上的測試性能對比Table 2 Comparison of test performance of different models on thermal tomography datasets
其中CPAa、Recalla分別代表實(shí)驗(yàn)中惡性腫塊的類別像素精度和召回率。CPAb、Recallb分別代表實(shí)驗(yàn)中惡性血管的類別像素精度和召回率。相比于經(jīng)典的U-Net模型,本文算法在MIoU上有了5.14個百分點(diǎn)的提升,總體分割效果有了顯著改善。相比于DenseU-Net模型,雖然在惡性血管類別上的召回率要略低,但是在腫塊和血管的類別像素精度等其他指標(biāo)上都要優(yōu)于DenseU-Net,可見在熱層析乳腺腫瘤的分割任務(wù)上,本文算法有著一定的優(yōu)勢。相比于U-Net3+模型,本文算法在像素精度PA和平均像素精度MPA上均不占優(yōu)勢,但是在腫塊和血管的單類別指標(biāo)和MIoU 值上表現(xiàn)更優(yōu)。PA 和MPA 的劣勢應(yīng)該主要體現(xiàn)在背景類別上,背景類別占比大,導(dǎo)致對總體像素精度的統(tǒng)計(jì)上有著更大的貢獻(xiàn)。但本文算法對感興趣的腫塊和血管類別的分割要更加準(zhǔn)確,說明本文的并行多尺度特征融合模型對熱層析數(shù)據(jù)小目標(biāo)的分割精度有著不錯的改善。
為了驗(yàn)證分割算法開發(fā)具有現(xiàn)實(shí)意義,本文將訓(xùn)練好的網(wǎng)絡(luò)模型對熱層析測試集數(shù)據(jù)進(jìn)行預(yù)測。分割結(jié)果可視化可以明了地對比各個模型預(yù)測的精確度。圖10分別展示了原始圖像、標(biāo)簽圖像以及以上4種模型的分割結(jié)果。其中紅色區(qū)域表示惡性腫塊,綠色區(qū)域表示惡性血管,黑色區(qū)域表示背景。
圖10 不同模型在熱層析數(shù)據(jù)集上的分割結(jié)果Fig.10 Segmentation results of different models on thermal tomographic datasets
為了檢驗(yàn)本文分割算法在不同類型的圖像上的分割能力,本文利用DRIVE數(shù)據(jù)集,做視網(wǎng)膜血管圖像的分割任務(wù)。這是由40 張565×584 大小的數(shù)字視網(wǎng)膜圖像組成的數(shù)據(jù)集。并將分割效果和U-Net模型做對比,測試結(jié)果如表3所示。
表3 在DRIVE數(shù)據(jù)集上的性能對比Table 3 Performance comparison on DRIVE dataset
其中Se 表示靈敏度,即分割正確的血管像素點(diǎn)總和占標(biāo)簽圖上血管像素點(diǎn)總和比例;Sp表示特異性,即分割正確的非血管像素點(diǎn)總和占標(biāo)簽圖上非血管像素點(diǎn)總和的比例。實(shí)驗(yàn)分割結(jié)果如圖11所示。
圖11 在DRIVE數(shù)據(jù)集上的分割結(jié)果對比Fig.11 Comparison of segmentation results on DRIVE dataset
相比于U-Net模型,本文算法在Se上的指標(biāo)高出了5.07個百分點(diǎn),說明本文算法血管分割上更為準(zhǔn)確。從分割結(jié)果對比來看,本文算法對細(xì)小血管的分割效果也更好。因此,如果不在意模型計(jì)算成本的增加,同時期望做到對細(xì)微目標(biāo)的分割,那么本文改進(jìn)的分割算法對熱層析以外的醫(yī)學(xué)圖像分割任務(wù)便有著重要的參考價(jià)值。
3.2.2 基于雙重閾值的非線性映射轉(zhuǎn)換策略對比實(shí)驗(yàn)
本文利用雙重閾值策略對原始光感值數(shù)據(jù)進(jìn)行映射,放縮到了8位灰度圖像數(shù)據(jù)。為了驗(yàn)證該算法的實(shí)際意義,用原始光感值數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),與映射后的灰度圖像數(shù)據(jù)進(jìn)行對比實(shí)驗(yàn),在相同的算法和實(shí)驗(yàn)條件下,測試結(jié)果如表4所示。
表4數(shù)據(jù)轉(zhuǎn)換前后測試性能對比Table 4 Comparison of test performance before and after data conversion
實(shí)驗(yàn)說明,基于雙重閾值的非線性映射轉(zhuǎn)換策略對原始光感值數(shù)據(jù)的處理對模型性能有著很大的提升。光感值數(shù)據(jù)雖然能夠準(zhǔn)確的反映人體的溫度信息,但同時也包含很多人體背景和環(huán)境的熱源信息,會對模型的訓(xùn)練造成很大的干擾。我們通過低溫閾值門限閾值的設(shè)定,可以有效地濾除大部分背景噪聲帶來的干擾;通過每個樣本特有的高溫閾值門限的設(shè)定,可以突出人體病灶區(qū)域的溫度特征,而忽略人體其他部位表征的溫差。保證病灶區(qū)域溫度分布的細(xì)節(jié)信息進(jìn)入網(wǎng)絡(luò)訓(xùn)練,更有助于模型對病變區(qū)域的精細(xì)分割。本文分割任務(wù)將背景和人體病灶以外的區(qū)域都?xì)w為一個語義類別(背景類),不存在對背景區(qū)域的精細(xì)化分割。因此,該算法對背景區(qū)域溫度細(xì)節(jié)的忽視對有效信息完整性影響不大。但是一味的忽視背景帶來的干擾,會降低模型的魯棒性,對背景干擾大的測試數(shù)據(jù)泛化能力不強(qiáng)。
熱層析圖像分割技術(shù)的實(shí)現(xiàn)對熱層析應(yīng)用于人體乳腺癌的早期診斷、病情分析和手術(shù)計(jì)劃有著很大幫助?,F(xiàn)階段常用于醫(yī)學(xué)圖像分割的模型對惡性血管和惡性腫塊的分割都存在細(xì)節(jié)信息丟失,分割不精細(xì)等問題。本文設(shè)計(jì)了一種基于HRNet 模型的并行多尺度特征融合的分割網(wǎng)絡(luò),修改Resnet中的瓶頸結(jié)構(gòu)作為基本模塊,并將原始數(shù)據(jù)經(jīng)過雙重閾值的非線性映射轉(zhuǎn)換成更易于訓(xùn)練的灰度圖像數(shù)據(jù)。在熱層析小數(shù)據(jù)集上相比于U-Net 模型有著明顯的提升。相比于U-Net3+和DenseU-Net,本文對惡性腫塊和惡行血管類別的形狀和邊界細(xì)節(jié)上的分割也要更加準(zhǔn)確。
未來的工作可以考慮將條件隨機(jī)場引入模型的后處理,進(jìn)一步提升模型分割的精度,但也會伴隨大量的計(jì)算參數(shù)。此外,訓(xùn)練數(shù)據(jù)的標(biāo)注成本高昂,導(dǎo)致可供訓(xùn)練的數(shù)據(jù)量太小,可以嘗試主動學(xué)習(xí)的方式改善模型對數(shù)據(jù)量的依賴。