王曉茹,田塍,徐培容,張珩
北京郵電大學 計算機學院,北京 100876
如何實現(xiàn)醫(yī)學圖像的自動化分析和處理一直以來都是計算機科學領域中的熱點研究課題,由于醫(yī)療圖像本身的復雜性以及對結果極高精確度的要求,該領域的自動化算法往往不能滿足臨床需要。一方面,醫(yī)學圖像數(shù)據(jù)通常含有較高比例的不規(guī)則小目標,小尺度物體識別精確度往往來說會相對偏低,但往往目標重要性無關乎尺度大小,小尺度物體也是醫(yī)學圖像分析過程中不可忽略的重要部分;另一方面,醫(yī)生在分析醫(yī)學圖像時,對病變的器官組織邊界往往關注更多,如果算法能對目標邊界進行準確的定位,這對于醫(yī)師的輔助作用是顯著的。為了減輕醫(yī)生的工作量,提高工作效率,臨床上也迫切需求一種能精確地自動勾畫出醫(yī)療圖像中感興趣區(qū)域的算法,這就是醫(yī)學圖像分割任務。
本文主要研究如何將淺層特征中豐富的空間信息更有效地融合進解碼過程中,進而恢復深度神經(jīng)網(wǎng)絡下采樣過程中損失的空間細節(jié),從而讓深度神經(jīng)網(wǎng)絡能夠自動學習到更魯棒的特征表示,對各種尺度的目標定位更準,整體的分割性能更強。為此,本文提出了一種空間細節(jié)恢復網(wǎng)絡(SDRNet),設計了一種新穎的空間細節(jié)注意分支(SDAB)和特征強化模塊(FEM)。經(jīng)實驗驗證,通過將2 個新穎的模塊結合在一起,SDRNet被證明可以進一步提高LUNA 數(shù)據(jù)集的整體分割精度。
深度神經(jīng)網(wǎng)絡近幾年大大推動了圖像分割領域的發(fā)展,其使用卷積以及若干非線性變換來對數(shù)據(jù)進行高維抽象,但是由于深度神經(jīng)網(wǎng)絡往往存在下采樣結構,下采樣結構的引入是為了減少計算量,但也同時損失了大量空間信息,尤其是目標邊緣和小尺度物體。針對空間信息損失的問題,多層特征融合是目前恢復空間信息的主要方法,多層特征融合是指將卷積網(wǎng)絡計算過程中不同尺度的特征通過加和,或者連接的形式融合起來,其中高層特征分辨率低,有強的語義信息,但對細節(jié)的感知能力較差;而淺層特征的分辨率更高,包含了更多位置、細節(jié)信息。
因此如何有效且高效地融合淺層特征是解決空間信息損失的重要途徑。FCN[1]最早將深度神經(jīng)網(wǎng)絡引入圖像分割任務,在FCN 架構中,網(wǎng)絡中不同分辨率的各層特征經(jīng)過上采樣到同一尺寸后,連接在一起作為最終的特征,這種融合方式?jīng)]有考慮到多尺度特征,而且淺層特征的選擇也缺乏考慮,是多層特征融合的初步嘗試。UNet[2]在FCN 的基礎上,考慮骨架網(wǎng)絡中不同尺度的層次化特征,提出了U 型結構[3-5],這種結構通過在解碼器中逐級增加特征的空間分辨率的同時,簡單利用連接或者加和的方式融合淺層特征,來填充缺失的空間細節(jié),這種融合方式存在明顯的缺陷:淺層特征沒有經(jīng)過編碼器的有效編碼,其包含的信息是不夠有效的,貿然融合會導致精度提升有限甚至降低最終預測精度,UNet 沒有給出如何有效融合的方法?;谶@個問題,Deeplab[6-7],GCN[8]通過引入空洞卷積以及大卷積核,致力于編碼更豐富的空間信息用于恢復。BiseNet[9-10]提出了解決空間信息損失問題的雙分支模型,其提出的空間分支中低下采樣以及大卷積核編碼了豐富的空間信息,通過特征融合模塊融合特征,在引入很低的計算量的同時改善了空間信息丟失的問題,ET-Net[11]構造了一個邊界信息強化分支用于強化邊界分割效果,優(yōu)化空間定位的精度。
全卷積網(wǎng)絡淺層特征的分辨率更高,包含了更多位置和細節(jié)信息,但這部分信息沒有被有效利用起來,因此本文設計了2 個新結構來更有效地恢復丟失的空間信息。利用SDAB 在淺層高分辨率特征上抽取捕獲空間細節(jié),利用注意力機制,讓解碼器更關注分支引入的空間信息,減少不夠有效的語義信息的引入。同時提出FEM,結合注意力機制選擇性強化特征表達能力,結合輔助損失提升模型對語義信息的表達能力。相對于以前的模型直接融合未經(jīng)處理的淺層特征的做法來說,進一步降低空間信息融合過程中可能對深層語義信息造成的干擾,整體結構示意圖見圖1,其中左側藍色部分為編碼器,右側其余部分為解碼器。
圖1 模型整體結構示意
編碼器選擇以ResNet50 原型為基礎,然后在其基礎上進行了調整,在通道數(shù)與降采樣倍率兩者綜合取舍后,得到以下編碼器設計思路,以更適合醫(yī)學圖像分割的應用場景。相對于ResNet50原型,考慮到醫(yī)學數(shù)據(jù)集多為二分類、語義信息相對較少的特點,故將原型中全部通道數(shù)減半,防止模型過度復雜,降低過擬合的風險。并且改進后的ResNet50 除去了Encode Block 1 中初始降采樣過程,這使得模型的降采樣倍率從16 倍縮減到了8 倍,減少編碼過程中高降采樣倍率導致的空間信息丟失。降采樣步驟采用了步長(stride)為2 的卷積核。
基于以上討論,上采樣后的到的特征分布,其含有強的語義信息用于分類,同時由于空間信息的缺失導致其是模糊的,直接將編碼器中具有強空間信息的淺層特征用傳統(tǒng)的融合方式融合,一方面解碼器無法有效地理解未經(jīng)編碼的空間信息,另一方面會干擾語義信息的表達。為了解決這些問題,本文設計了SDAB 來解決以上2 個困境。
首先,SDAB 利用大卷積核的卷積操作抽取淺層次特征。由于淺層特征通過堆疊的卷積較少,感受野小,所以選擇大尺寸的卷積核盡可能高倍數(shù)的擴大感受野。大尺寸卷積核有利于模型對空間信息進行更有效的編碼,但由于大尺寸卷積核也必然會引入大量計算量,考慮到淺層特征中豐富的空間信息以及更多的通道數(shù)往往僅利于編碼更多語義信息這2 個特點,因此在SDAB 中先利用1×1 卷積對特征分布進行通道數(shù)壓縮,減少計算量,然后再利用大卷積核進行編碼,最后還原通道數(shù),得到特征分布F,用于后續(xù)操作。
本文設計了一種引導空間信息恢復的結構,利用這種結構來將上文提及的編碼后的空間信息融合入上采樣后的深層特征分布中。本文選擇利用注意力的機制來引導:首先將特征分布F與對應層上采樣后的深層特征,利用1×1 卷積與加和的方式簡單融合得到Fa,輸入空間信號模塊提取空間注意向量,在這個模塊中,特征將按像素位置分別執(zhí)行最大池化,與平均池化操作,壓扁成一張空間尺寸不變、通道數(shù)為1 的特征激活分布。然后用連接的方式搭配中等尺寸的卷積核融合這2 個分布,利用sigmoid 操作得到空間激活量,并與Fa相乘來激活感興趣的位置,從而獲得空間激活后的特征分布。最后將該特征分布與Fa融合,每一個位置的通道最大值與平均值表達對應空間位置的重要程度,提取的目的是獲取對應的激活量,更感興趣的位置其空間激活量往往更高,結構示意見圖2,連接表示按通道連接特征,加和表示特征矩陣加法,點乘表示特征矩陣點乘。
圖2 空間細節(jié)注意力分支結構示意
同樣的,基于2.2 節(jié)對關鍵問題的討論,通道往往對應特定的語義響應,因此在通道上可以做相似的處理,減少無效語義信息的引入,強化更有價值的通道,增強模型對語義信息的編碼表達能力,從整體上進一步提升分割性能。因此本文提出了FEM 來實現(xiàn)這個目標。
FEM 由通道強化部分和輔助損失共同構成,利用注意力機制,為每個通道分配不同的自適應權重值,選擇性激活或抑制通道,結構見圖1。
在解碼器上采樣過程中得到的特征分布被通道強化模塊優(yōu)化后,在訓練過程中提前輸出用作分類;然后結合輔助損失函數(shù),增強通道強化模塊對通道的選擇能力;最終增強模型對不同尺度目標的學習能力,能協(xié)同提升整個模型的分割性能。
通道強化部分本模塊選用全局平均池化來抽取全局上下文,得到注意力權重值向量,這個向量表達每個通道的基礎權重值;然后將這個基礎權重向量輸入1×1 卷積與ReLU 激活函數(shù)進行進一步優(yōu)化,最后利softmax 操作獲得最終權重值向量。
輔助損失部分中輔助損失laux1、laux2與主要損失函數(shù)lmain均為交叉熵損失函數(shù),計算公式見式(1),總的損失函數(shù)L計算見式(2)。
式中:p(x)為 真實的概率分布,q(x)為預測的概率分布,交叉熵損失函數(shù)Ecross表達2 個概率分布之間的差異值。訓練過程中通過最小化差異值使得預測精度不斷提高。
式中:輔助損失laux1、laux2用于協(xié)調模型對不同尺度目標的分割能力,通常選取較小比值0.1,即 α和β分別設為0.1 和0.1;而主要損失lmain反映模型最終分割結果與真實值之間的差異,占主導地位,為了平衡兩者,主要損失lmain的 權重 λ取為余下的0.8。即 α, β 與 λ分別設為0.1,0.1 和0.8,他們分別權衡輔助損失laux1、laux2與 主損失lmain的權重。
本文在肺結節(jié)分析比賽(LUNA)數(shù)據(jù)集上評估本文所提出的模型的性能,該數(shù)據(jù)集包含肺部CT 圖像以及對應專業(yè)人員手動分割結果,該比賽任務是在肺部CT 圖像中對肺部進行查找和測量,對胸部X 射線圖像進行分割。整個數(shù)據(jù)集包含267 張圖像,其中訓練圖像214 張,測試圖像53 張。
模型中所有待訓練權重均被隨機初始化。在訓練步驟中,由于GPU 資源的限制,將batch_size設置為1,并使用“poly”學習率調度策略,該策略通過式(3)計算學習率。
式中:lrbase設 置為1 ×10-4,p設定為0.9,itotal設置為1×105。
模型由Adam 優(yōu)化器進行訓練,其動量和權重衰減分別設置為0.9 和0.000 5。利用Tensorflow1.14來構建本文提出的模型,并選擇平均交并比(mean IOU,mIoU)RmIoU作為的評估指標,計算公式為
本文提出SDAB 來優(yōu)化空間信息的抽取與表達,同時降低對語義信息的干擾,提出FEM 來增強模型對語義信息的編碼表達能力,優(yōu)化訓練過程。為了驗證這2 個模塊的性能,本文在LUNA數(shù)據(jù)集上設計了以下消融實驗來進行證明。
定義未嵌入SDAB 和FEM 的SDRNet 為基礎(Base)網(wǎng)絡,實驗結果見表1。SDRNet 在LUNA數(shù)據(jù)集上的mIOU 值為96.44%,而基礎網(wǎng)絡的mIOU值為95.83%,在基礎網(wǎng)絡僅嵌入SDAB 后mIOU值為96.27%,僅嵌入FEM 的mIOU 值為96.09%,可以看出本文提出的2 個模塊能進一步提升分割性能。
表1 模塊分割性能對比 %
圖3 給出了更直觀的圖片對比,對消融實驗中的4 個模型輸出的分割結果可視化后,可以看出SDRNet 對邊緣細節(jié)和小區(qū)塊的處理很好,這表明本文提出的模塊能有效恢復空間信息,優(yōu)化模型對邊緣和小區(qū)塊的分割性能。
圖3 消融實驗分割結果可視化示例
本文設計FEM 來優(yōu)化訓練過程,同時增強模型對語義信息的編碼表達能力。FEM 的加入有利于模型收斂到更優(yōu)的性能,為了驗證它對于訓練過程的作用,設計如下對比實驗:記錄加入FEM模塊前后模型的訓練過程,如圖4 所示,其中沒有嵌入FEM 的最高mIOU 值為95.83%,嵌入后為96.09%??梢钥吹交A網(wǎng)絡嵌入FEM 后,訓練過程更穩(wěn)定,同時也能收斂到更優(yōu)的性能。
圖4 FEM 驗證實驗結果
為了進一步驗證本文提出的SDRNet 的性能,SDRNet 分別與FCN[1]、U-Net[2]、M-Net[12]、ETNet[11]進行了對比,實驗結果見表2??梢钥吹?,本文提出的SDRNet 實現(xiàn)了最優(yōu)的mIOU 值96.44%,超越了其他的模型。
表2 SDRNet 與其他經(jīng)典的模型性能對比實驗結果
本文提出了一種空間細節(jié)恢復網(wǎng)絡SDRNet來解決肺部醫(yī)學圖像分割問題,本文的主要貢獻如下。
1)提出了一種能有效提取、融合空間信息,進一步恢復空間細節(jié)的模型SDRNet。
2)提出了2 個特定的模塊:SDAB 與FEM,2 個模塊的加入?yún)f(xié)同提升了模型的分割性能。
3)LUNA 數(shù)據(jù)集上的對比實驗驗證了本文提出的模型的性能,結果表明本文提出的SDRNet性能超越了對比的經(jīng)典算法。