盧小燕, 袁文昊, 徐 楊
(貴州大學大數(shù)據(jù)與信息工程學院, 貴陽 550025)
目前,在肺部疾病的臨床實踐中,CT 作為一種低成本、準確、高效的診斷工具,可以幫助醫(yī)生診斷病灶區(qū)域[1-2]。 醫(yī)生可通過檢視CT 圖像,判斷患者是否具有肺炎的顯著特征,包括磨玻璃影、肺纖維化和胸腔積液等。 然而,隨著現(xiàn)代工作節(jié)奏的加快,人工篩查病灶區(qū)域成為了一種繁瑣和費時的工作。 為了加速診斷以及提高患者的治愈率,建立快速自動分割肺炎感染區(qū)域的輔助系統(tǒng)對疾病的評估至關重要。
近年來, 許多基于深度學習的人工智能(artificial intelligence, AI)系統(tǒng)已經(jīng)被提出,并且取得了令人滿意的效果。 與傳統(tǒng)的圖像篩查嚴重依賴人力相比,人工智能能夠提供更安全、準確、高效的成像解決方案。 人工智能在肺炎診治中的應用主要包括專用醫(yī)學成像平臺、肺部感染區(qū)域分割、臨床評估和診斷、以及臨床研究。 分割作為預測疾病進化的重要步驟,可以在CT 圖像中標記目標區(qū)域,從而進一步評估和量化。 針對多站點數(shù)據(jù)差異大的問題,周子棋等學者[3]提出了一種基于U-Net 的深度卷積網(wǎng)絡,通過重采樣體素間距和ROI 提取,并且運用了深監(jiān)督和集成分割來提升網(wǎng)絡性能。 Wu 等學者[4]開發(fā)了一種新型的聯(lián)合分類和分割系統(tǒng), 用來完成新冠肺炎肺部CT 的實時和解釋診斷。 Fan等學者[5]提出了邊緣注意模塊和反向注意模塊來增強病灶區(qū)域表示;為了緩解數(shù)據(jù)短缺問題,同時設計了基于隨機選擇傳輸?shù)陌氡O(jiān)督框架。
然而,目前現(xiàn)有的CT 影像病灶分割網(wǎng)絡仍然具有分割準確度不夠高、病灶邊緣不清晰以及誤分割區(qū)域明顯等問題。 并且由于肺部CT 影像組織紋理復雜以及與附近器官之間的對比度較低,完成肺部病灶分割任務異常艱巨。 為此,本文基于U-Net提出了一種注意力特征融合網(wǎng)絡(LG-Net),用于肺部CT 圖像中的肺炎感染區(qū)域分割。 提高在具有復雜紋理的CT 影像下的病灶分割準確度。 本文主要貢獻有以下3 點:
(1)在編碼器中,設計了一種多級連接的殘差卷積結構。 多分支殘差連接的方式顯著提高了網(wǎng)絡在下采樣期間的特征重用頻率,增強網(wǎng)絡對病灶區(qū)域的特征提取性能。
(2)在跳層連接中,設計了一種有效的局部與全局注意力機制。 在多尺度的感知范圍內(nèi),計算像素位置相關性,擴大同類像素的激活區(qū)域。 同時,由跳層連接將此局部與全局融合的像素位置注意力信息傳輸?shù)浇獯a器中,有效修正上采樣時的特征像素值偏差,提高病灶區(qū)域的分割精度。
(3)在解碼器中,設計了一種新穎的特征融合模塊。 該模塊可進一步強化局部與全局注意力機制與各級上采樣輸出的特征像素值,優(yōu)化特征融合效果。
Ronneberger 等學者[6]于2015 年提出了經(jīng)典的醫(yī)學圖像分割算法U-Net 網(wǎng)絡模型。 其整體網(wǎng)絡結構呈現(xiàn)“U”型,左側是編碼器,進行下采樣,完成圖像特征提?。挥疫吺墙獯a器,進行上采樣,完成圖像尺寸恢復。 其中,U-Net 的編碼器和解碼器通過跳躍連接將同層次的特征圖進行融合,從而提高細節(jié)輪廓信息的定位精度。 U-Net 網(wǎng)絡結構如圖1 所示。
圖1 U-Net 網(wǎng)絡結構Fig. 1 U-Net network structure
一般情況下,隨著神經(jīng)網(wǎng)絡深度的增加,提取到的不同層次信息會越多,但是達到某個程度后會出現(xiàn)飽和狀態(tài),隨著深度加深,網(wǎng)絡性能卻在退化。 在2016 年,He 等學者[7]提出了深度殘差的卷積神經(jīng)網(wǎng)絡結構,很好地改善了深度神經(jīng)網(wǎng)絡難以訓練的問題,比如:梯度消失、梯度爆炸的問題。
不同于卷積神經(jīng)網(wǎng)絡,殘差網(wǎng)絡的特殊之處在于多了一個殘差單元,具體結構如圖2 所示。 輸入特征X1,經(jīng)過3× 3 卷積層、批歸一化處理(BN) 和ReLU激活函數(shù)后,得到殘差項X2,然后與殘差分支合并得到殘差結果X。 針對殘差網(wǎng)絡,關鍵是殘差項X2,當殘差項為0 時,相當于恒等映射;當其不為0 時,相當于一個卷積神經(jīng)網(wǎng)絡,有效防止了網(wǎng)絡產(chǎn)生特征退化的現(xiàn)象,獲得更優(yōu)的性能。 殘差項X2和殘差結果X可由如下公式進行計算:
圖2 基本殘差單元Fig. 2 Basic residual unit
其中,f(·) 表示3×3 卷積操作。
圖像分割是一項基本的計算機視覺任務,目的是對原始圖像進行像素級分類。 為了更好利用像素的上下文信息,加強像素關聯(lián)度,Wang 等學者[8]提出了像素關聯(lián)模塊(Pixel Correlation Module,PCM)。 和傳統(tǒng)的自注意力機制相比,PCM 去掉了殘差連接。 其結構是自注意力機制的核心部分,經(jīng)過一定程度的修正,并且通過正則化的監(jiān)督訓練,使用余弦距離來評估像素間的特征相似度,數(shù)學計算公式見如下:
其中,f(·) 可計算像素位置相關性,使用像素間的余弦距離表示。
此外,對于像素間的位置相關性,使用歸一化特征空間的內(nèi)積來計算, 在式(3)上積分并加以修改,從而得到:
其中,ReLU激活函數(shù)有效抑制負值激活相關性;表示輸入xj對應的位置信息;θ(·) 可通過1×1 卷積實現(xiàn)。
本文在U-Net 模型的基礎上構建了自動分割肺部病灶區(qū)域的LG-Net 模型,其整體架構如圖3所示。 該模型保留了U-Net 模型的編碼-解碼結構,具體保留了4 次下采樣和4 次上采樣操作以及4 條跳層連接支路。 與U-Net 模型不同的是,在各級下采樣尾部,LG-Net 增加了提出的多級殘差卷積結構,提高特征提取性能;在各跳層連接支路中,LG-Net 嵌入了一種局部與全局的注意力機制,通過局部與全局的像素位置相關性計算擴大特征感知區(qū)域;在各級上采樣中,傳統(tǒng)的U-Net 模型只是將淺層的特征與上采樣特征按通道維度進行拼接,這樣并不能很好地融合語義特征,從而達到緊耦合的程度。 LG-Net 利用所提出的特征融合模塊首先增強跳層連接支路和上采樣的輸出特征像素顯著性,再進行特征融合,提高低級語義和高級語義特征的融合質量。
圖3 LG-Net 模型的架構圖Fig. 3 The architecture of the LG-Net model
從具體的圖像處理流程來說,首先將CT 影像切片輸入到編碼器中逐級提取肺炎病灶特征;同時,各級跳層連接支路中的局部與全局注意力機制計算像素位置相關性,擴大圖像特征感知區(qū)域;再將編碼器和跳層連接的特征信息輸入到解碼器中,經(jīng)過線性插值和特征融合操作將特征圖逐級恢復到原始輸入圖像尺寸;最后,利用Sigmoid激活函數(shù)計算像素分類得分,得到語義級病灶區(qū)域像素分類。
為了將殘差結構的優(yōu)勢應用到傳統(tǒng)的U-Net模型中,本文對基本殘差單元做了相應的改進,所提出的多級殘差卷積如圖4 所示。 多級殘差卷積設計了3 組基本殘差結構,逐級進行特征提取。 同時,該模塊將各級殘差單元的結果作為輸出,并在模塊的末尾進行融合。 由此強化殘差結構的作用,提高網(wǎng)絡的特征提取性能。 不同于基本殘差單元,多級殘差卷積的主干以卷積、批歸一化、ReLU激活函數(shù)(CONV+BN+ReLU)作為一個處理單元;殘差分支增加了卷積和批歸一化處理(CONV+BN)。 批歸一化和ReLU激活函數(shù)的加入使得網(wǎng)絡利于訓練,并加快收斂速度。
圖4 多級殘差卷積Fig. 4 Multi-level residual convolution
注意力機制可以使得卷積神經(jīng)網(wǎng)絡自適應地關注到圖像中重要的區(qū)域,有效提高網(wǎng)絡的分割性能。而U-Net 模型的跳層連接旨在通過拼接將淺層特征的位置信息與深層的語義信息相融合。 鑒于此,本文將注意力機制與U-Net 模型的跳層連接相結合,捕獲來自淺層特征的位置區(qū)域,增強其特征屬性。
受到PCM 模塊的啟發(fā),本文設計了一種局部與全局的注意力融合模塊(Local and Global Attention Fusion module,LG-Attention)處理不同感知范圍內(nèi)的像素位置相關性,進一步細化病變區(qū)域,如圖5 所示。
圖5 局部與全局注意力融合模塊Fig. 5 Local and global attention fusion module
基于等分的思想,LG-Attention 將通道數(shù)、長和寬分別為C1、H、W的全局特征圖F均分為4 組通道數(shù)、長和寬分別為的局部特征子圖f1、f2、f3、f4。 對于每一個局部特征子圖,首先整形為與的一維形式,再使用PCM 模塊進行上述的像素相似性計算得到尺寸為的局部注意力圖同時,全局特征圖也進行同樣的像素相似性計算得到全局注意力圖F?。 然后,將所有局部注意力圖按原始位置拼接并調整尺寸與f?一致,再與F?進行像素加權聚合得到融合了局部與全局注意力的特征圖。 最后,將得到的注意力特征圖與原始輸入特征圖按元素相乘以達到增強特征區(qū)域的效果。 整體計算過程可用如下公式進行描述:
其中,Split(·) 將輸入特征圖均分為4 組局部特征圖;PCM(·) 表示像素相似性計算;Cat(·) 與Reshape(·) 是局部注意力圖拼接與整形的過程;PWA(·) 表示像素加權聚合。
由于局部注意力與全局注意力的像素相關性計算范圍不同,所以關注到的特征區(qū)域也就不同。 如何將計算出的局部注意力值與全局注意力值進行有效地融合,本文提出了一種像素加權聚合的方法。具體而言,在特征圖的同一位置局部注意力與全局注意力所計算得到的值并非一致,若直接按照對應元素相加會造成錯誤計算的非特征像素值更加顯著的結果。 而像素加權聚合的方法可按照局部與全局注意力計算得到的結果按比例對特征圖的對應像素值加權相乘再聚合,達到能夠自主突顯特征區(qū)域而抑制非特征區(qū)域的效果。 相應數(shù)學公式具體如下:
其中,i是像素索引,xi、yi分別表示局部與全局的注意力特征值。
在傳統(tǒng)的U-Net 模型中,來自跳層連接的淺層特征與上采樣特征直接按照通道維度進行拼接,這使得后面的網(wǎng)絡層能夠在淺層特征與深層特征之間自由選取,有利于完成語義分割任務。 然而,這種簡單的拼接方式只保證了特征信息無障礙傳遞,并不是最好的選擇。
為此,本文設計了一種特征融合模塊(Feature Fusion module, FF),具體結構如圖6 所示。 圖6中,L1、L2分支是該模塊的關鍵部分,淺層特征與深層特征按通道維度拼接后分別輸入到L1、L2分支中進行特征強化。 在L1、L2分支中,首先使用1×1 卷積降低特征圖的通道數(shù);再使用批歸一化和ReLU激活函數(shù)調整元素值大小;然后分別使用3×3 卷積和5×5 卷積在不同感受野下捕捉多尺度的像素特征;最后,采用與SE 模塊[9]相似的通道特征提取模塊RSE 提高特征區(qū)域的顯著性。L1、L2分支的輸出結果可視為淺層特征與深層特征的權重特征圖。 淺層特征與深層特征進行加權融合后再按照通道維度進行拼接,在進行特征傳遞的同時有效地增強了特征表現(xiàn)力。
圖6 特征融合模塊Fig. 6 Feature fusion module
特征融合模塊中的RSE block 結構如圖7 所示。 首先使用1×1 卷積層改變通道維度,接著通過3×3 卷積層獲取通道數(shù)、長和寬為C、H、W的特征圖。 其中,3×3 卷積層后使用Drop out和批歸一化處理。 為了得到全局特征權重,使用全局平均池化操作Fsq,得到維度為1× 1×C的特征映射z,即:
圖7 RSE 模塊Fig. 7 RSE block
然后,通過2 個全連接層捕獲通道依賴關系。為了進一步降低模型的參數(shù)復雜度,第一個全連接層以1 ∶6 的比例降低通道維度,經(jīng)過激活函數(shù)Fex后,第二個全連接層將通道恢復到原始維度,各個通道學習到的激活值可以表示為:
全局平均池化和全連接層重新調整特征圖中各通道的權重,增強病灶區(qū)域相關像素的權重,并抑制噪聲權重。 殘差塊的引入是為了防止梯度加深時,出現(xiàn)模型無法收斂的問題。 RSE block 可以在稍微增加模型復雜度和運算量的同時顯著提高特征融合質量。 RSE block 的函數(shù)表達式為:
其中,x是輸入,y是輸出。
在圖像分割領域,廣泛采用交叉熵損失函數(shù)為主函數(shù)。 為了解決CT 圖像類別不平衡以及難分類樣本的問題, 本文通過結合Dice Loss函數(shù)和Focal Loss函數(shù)來訓練LG-Net 模型。
(1)Dice Loss函數(shù)。 定義見下式:
(2)Focal Loss函數(shù)。 定義見下式:
因此,推得的最終的損失函數(shù)的公式為:
其中,c設為某個特定類;TPp(c),F(xiàn)Np(c),F(xiàn)Pp(c) 為對應的的真陽性率、假陰性率、假陽性率;pn(c) 指像素n為c類時的概率;gn(c) 指像素n為c類的真實情況;C為總類數(shù);N為像素數(shù)量總和;α和β分別為假陰性和假陽性的懲罰權重,均設置為0.5;γ與1-γ為Dice Loss和Focal Loss的權重,γ設置為0.3。
本次實驗所用數(shù)據(jù)集由 COVID - 19 CT segmentation dataset 和COVID-19 CT Segmentation dataset nr. 2 共同組成,總共有6 804 張切片。COVID-19 CT Segmentation dataset 由意大利醫(yī)學和介入放射學會收集的20 名COVID-19 患者的100張軸向CT 圖像組成。 COVID-19 CT Segmentation dataset nr. 2 由Radiopaedia 機構提供。
本實驗基于Nvidia RTX3080TI GPU, 網(wǎng)絡基于Ubuntu20.04 系統(tǒng)的Pytorch 深度學習框架,編程語言為Python。 網(wǎng)絡使用Adam 優(yōu)化器訓練,將數(shù)據(jù)集的批尺寸設置為4,圖片尺寸設置為512×512,初始學習率為0.01,執(zhí)行120 次迭代。
為了評估本文所提模型的分割效果,采用圖像分割中常用的準確度(Accuracy,ACC)、 平均交并比(Mean Intersection over Union,MIoU) 作為評價指標。
(1)ACC。 是被正確判斷的像素占總像素數(shù)的比例,可由下式來求值:
(2)MIoU。 是2 個集合的交并比的平均值,可由下式來求值:
為了評估本文算法的性能,做了3 種主流網(wǎng)絡模型的對比實驗,分別是:所提出的網(wǎng)絡、SegNet 網(wǎng)絡[9]、U2-Net 網(wǎng)絡[10]。 結果見表1,加粗表示最好結果。 通過數(shù)據(jù)分析可知,本文所提出的LG-Net在數(shù)據(jù)集上相較于SegNet 網(wǎng)絡準確度提高了16%,平均交并比提升了17%;相較于U2-Net 網(wǎng)絡準確度提高了12%,平均交并比提升了4%。 結果證實了本文所提網(wǎng)絡的有效性。
表1 不同網(wǎng)絡的病灶分割結果Tab. 1 Lesion segmentation effect of different networks
圖8 展示了各模型在實際訓練中的準確度變化。 可以看出,本文算法相較于SegNet 和U2-Net都有明顯的提升。 在訓練初期相較于其他網(wǎng)絡LGNet 更加穩(wěn)定。 本文提出的多級殘差卷積、注意力模塊和特征融合模塊在特征提取以及信息融合方面獲得了良好的進展。 由此得出,本文模型性能優(yōu)于SegNet 網(wǎng)絡和U2-Net 網(wǎng)絡。
圖8 不同模型下的準確度Fig. 8 Accuracy under different models
圖9 是5 張不同CT 圖像分割結果的可視化圖。從圖9 中可以看出,SegNet 網(wǎng)絡和U2-Net 網(wǎng)絡在一些復雜CT 影像切片中分割不夠準確。 而本文所提出的LG-Net 相比于其他對比網(wǎng)絡,病灶區(qū)域分割更加完整,邊緣輪廓更加清晰。 LG-Net 的分割結果最接近于專家金標準,對肺炎感染區(qū)域的分割能力相較于其他網(wǎng)絡有較強的競爭力。
圖9 部分分割結果可視化Fig. 9 Visualization of segmentation results
為清晰地說明本文提出的多級殘差卷積、局部與全局注意力融合模塊和特征融合模塊的貢獻大小,本節(jié)進行了消融實驗,結果見表2,加粗表示最好結果。 以原始的U-Net 為基準,在加入本文提出的3 種模塊之后,各算法性能指標均有不同的提升。其中,加入局部與全局注意力模塊后的提升最為明顯。 準確度與平均交并比的提升比例分別為18.5%和9%。 本文提出的LG-Net 在分割上的準確度和平均交并比可達到91.5%和80.3%,相較于U-Net分別提升了17.6 和15%。 綜上所述,在肺炎感染區(qū)域分割任務上,LG-Net 分割精度更高,更具有優(yōu)勢。
表2 消融實驗結果Tab. 2 Ablation studies of the proposed method
為直觀地了解各模塊的作用,本文選取了部分分割測試圖進行對比,如圖10 所示,黃色框表示分割不準確的區(qū)域。 圖10(a)表示在U-Net 的基礎上加入多級殘差卷積后的分割結果對比。 得益于多級殘差卷積使得網(wǎng)絡的特征提取能力增強,在紋理較為復雜的CT 影像中,病灶分割區(qū)域明顯更為完整,更加接近于專家金標準。 從圖10(b)中可看出,在跳層連接中嵌入局部與全局注意力模塊后,病灶區(qū)域中的局部微小非感染區(qū)域分割更為準確。 由于像素位置相關性的計算,很好地修正了病灶特征像素值,減少了像素誤分類情況。 最后,加入特征融合模塊的分割結果對比如圖10(c)所示。 可以看出,病灶區(qū)域的邊緣細節(jié)特征分割更為明顯。 特征融合模塊在上采樣過程中增強了病灶特征的表現(xiàn)力。
圖10 分割效果的可視化Fig. 10 Visualization of segmentation effect
基于深度學習的醫(yī)學圖像分割在計算機輔助診斷中具有極其重大的意義。 本文提出了一種針對肺炎病灶區(qū)域的分割模型,首先,基于多級殘差卷積結構和局部與全局注意力融合模塊,能夠有效提高特征提取性能,提高局部細節(jié)特征的表現(xiàn)力。 其次,在解碼分支引入了特征融合模塊,實現(xiàn)特征增強,減少像素誤分類情況。 實驗結果表明,提出的模型優(yōu)于其他醫(yī)學圖像分割模型,能夠得到更精確的分割結果。 在未來工作中,將對網(wǎng)絡進行多方面的優(yōu)化,將2D 與3D 結合,并應用于其他2D 醫(yī)學影像分割任務中。