宮 霞 趙富強 吳衛(wèi)華
在傳統(tǒng)的醫(yī)學影像分析中,超聲具有成本低、輻射小等優(yōu)點,應用廣泛,但其圖像較CT、MRI 圖像的分辨率低,分析相關(guān)醫(yī)療影像較耗時、耗力,且主觀性強。近年來隨著深度學習技術(shù)發(fā)展,使得計算機分析醫(yī)療影像成為可能,大量的圖像分類、圖像分割和目標檢測等試驗[1-4]表明,計算機應用于智能醫(yī)療影像后其分析速度和精度均優(yōu)于臨床醫(yī)師。深度學習中的數(shù)據(jù)增強、遷移學習和對抗網(wǎng)絡等技術(shù)可輔助臨床醫(yī)師進行超聲圖像分析,對提高分析圖像的效率和準確性,尤其在區(qū)分肺癌轉(zhuǎn)移性淋巴結(jié)病變和良惡性病變方面具有重要的臨床研究意義。肺癌轉(zhuǎn)移非常關(guān)鍵的一項鑒別診斷是鎖骨上淋巴結(jié)轉(zhuǎn)移,通過計算機輔助診斷肺癌患者頸部淋巴結(jié)超聲圖像,分割出淋巴結(jié),進而對淋巴結(jié)進行良惡性分類,不但在理論上豐富了現(xiàn)有的研究方法,其在臨床上也有很好的應用前景。
在超聲圖像分割中,應用最廣的深度學習模型是UNet[1]網(wǎng)絡,其變形版本包括:V-Net[2]、mu-Net[3]、M-Net[4]等,但它們均未采用多尺度訓練,在醫(yī)療圖像小目標和小樣本分割上精度較低。 UNet 改進的網(wǎng)絡結(jié)構(gòu)包括:Attention UNet[5]、UNet++[6]、UNet3+[7]等,這些網(wǎng)絡在分割精度上得到了很大提高,注意力機制、多尺度訓練、特征融合和混合損失函數(shù)等技術(shù)值得借鑒。王波等[8]將注意力機制應用于UNet 網(wǎng)絡,提出了一種基于改進UNet 網(wǎng)絡的甲狀腺結(jié)節(jié)超聲圖像分割方法,Attention模塊對邊緣輪廓分割細化;Transformer 在NLP 上取得了很大成功,近期有學者將其引入到目標檢測和圖像分割中,提出了Swin Transformer[9],其結(jié) 合 UNet 提出了 TransUNet[10]和 Swin-UNet[11]。Swin Transformer 根據(jù)網(wǎng)絡大小,可分為 Tiny、Small、Base 和Large 等級別,網(wǎng)絡參數(shù)和結(jié)構(gòu)依次增大,所需訓練硬件資源也相應增加,這使得Transformer 在臨床應用受到限制。為此,本文提出了基于級聯(lián)結(jié)構(gòu)改進注意力UNet 網(wǎng)絡,改進了混合損失函數(shù),圖像多尺度輸入進行訓練和推理,更適合小目標的分割,針對病灶邊緣區(qū)域的分割更加清晰。
超聲圖片輸入UNet 網(wǎng)絡后,先通過左側(cè)的下采樣,即4 組卷積,每次下采樣圖片縮小2 倍;然后特征圖上采樣,對應右側(cè)4 組反卷積,左側(cè)每層特征圖與右側(cè)對應層拼接生成上采樣的輸入,保留了該尺度圖像特征。
深度學習中的Backbone 網(wǎng)絡大多采用ResNet 結(jié)構(gòu),很好地解決了網(wǎng)絡的深度問題,但對網(wǎng)絡的寬度卻無能為力,因此,谷 歌 2019 年 提 出 了 EfficientNet[12]網(wǎng) 絡 。 EfficientNet 包 括B0~B7,訓練的模型也依次增大,該網(wǎng)絡結(jié)構(gòu)能夠兼顧網(wǎng)絡深度、寬度和分辨率,使模型的準確率、魯棒性等相關(guān)指標均得到了很大提高。
Cascade R-CNN[13]是級聯(lián)多個檢測網(wǎng)絡進行模型訓練,檢測的正負樣本通過IOU 值限定,多個網(wǎng)絡級聯(lián)使得網(wǎng)絡的檢測結(jié)果得到優(yōu)化和提高。與Cascade 級聯(lián)不同,本文提出的CAUNet(Cascade Attention UNet)網(wǎng)絡結(jié)構(gòu)是將注意力UNet 與EfficientNet 結(jié)合并進行改進,級聯(lián)結(jié)構(gòu)如圖1 所示。改進的注意力UNet 包括編碼器和解碼器兩部分;其中編碼器采用EfficientNet-B5 作為Backbone,更利于提取超聲圖像病灶區(qū)域特征,第一階段分割網(wǎng)絡和第二階段分割網(wǎng)絡下采樣均采用該編碼器結(jié)構(gòu),上采樣是增加了注意力模塊的解碼器,構(gòu)成二階段級聯(lián)分割網(wǎng)絡。在訓練階段,將采集的超聲圖像數(shù)據(jù)預處理后輸入到第一個分割網(wǎng)絡(級聯(lián)的階段Ⅰ),CAUNet 利用改進的損失函數(shù)對網(wǎng)絡進行訓練,該網(wǎng)絡提供頸部淋巴結(jié)結(jié)節(jié)的粗略分割;在第一階段粗略分割的基礎上,繼續(xù)訓練二次分割網(wǎng)絡(級聯(lián)的階段Ⅱ),該網(wǎng)絡進行頸部淋巴結(jié)結(jié)節(jié)的精細分割。但訓練的輸入數(shù)據(jù)與第一階段不同,首先對一階段訓練的圖像去除非病灶區(qū)域,針對mask 掩碼輪廓取外接矩形,裁剪出該區(qū)域圖像;然后將該圖像尺度放大到512×512(像素),輸入到二階段網(wǎng)絡進行訓練。
在推理階段,圖片多尺度輸入,一階段同樣先進行整張圖片分割,然后將分割病灶區(qū)域放大,再進行二階段的精細分割。推理階段如果使用TTA 技術(shù),病灶區(qū)域分割效果更優(yōu)。注意力UNet 為圖1 網(wǎng)絡結(jié)構(gòu)中“編碼器和解碼器”部分,UNet下采樣部分不變,上采樣部分引入注意力模塊,其詳細結(jié)構(gòu)組成見圖2。輸入編碼器的頸部淋巴結(jié)超聲圖片采用多尺度信息,輸入圖像分為4 個尺度,每個尺度在本層使用EfficientNet-B5作為Backbone,提取的特征分別作為下采樣和右側(cè)注意力門的輸入,將圖像的底層feature map 與高層feature map 融合,即g與xl依次進行加、ReLU、ψ、Sigmod、重采樣、乘等操作,對病灶區(qū)域的邊界分割準確率提高更有效。
圖1 CAUNet網(wǎng)絡結(jié)構(gòu)圖
圖2 注意力UNet網(wǎng)絡結(jié)構(gòu)圖
Dice loss 在評價小目標病灶區(qū)域分割時的誤差較大,原因如下:如模型對超聲圖像中較小的病灶區(qū)域預測錯誤,則Dice loss 值會出現(xiàn)幅度比較大的波動,反向傳播的梯度變化相應增大,致使模型訓練穩(wěn)定差。當超聲圖像病灶分割有多個區(qū)域時,使用Generalized Dice loss計算公式如下:
由于超聲圖像清晰度相對較低,分割頸部淋巴結(jié)病灶區(qū)域的邊界模糊,為了解決該問題,Wang 等[14]提出了多尺度結(jié)構(gòu)相似度損失函數(shù)(Multi-Scale Structural Similarity Index,MSSSIM),模糊邊界的權(quán)重更大。本文級聯(lián)結(jié)構(gòu)模型同樣對模糊邊界更加關(guān)注,如超聲圖像區(qū)域分布差異越大,多尺度結(jié)構(gòu)相似度損失值越大。病灶區(qū)域分割預測結(jié)果p與裁剪了標簽mask g對應病灶區(qū)域的外接正方形(N×N)公式分別表示為:
多尺度結(jié)構(gòu)相似度loss定義如公式(4)所示:
其中,μp為p的均值,μg為g的均值,σp為p的方差,σg為g的方差,σpg為協(xié)方差,M 為尺度數(shù),βm、γm分別為在 m 尺度時p、g的權(quán)重,C1、C2為取值很小的常數(shù)。
結(jié)合 Generalized Dice 損失函數(shù)[15]、正則化損失函數(shù)、MSSSIM 損失函數(shù)Lms-ssim和Focal 損失函數(shù)LFocal[16],定義本文總損失函數(shù)為:
其中,λ為LFocal損失函數(shù)所占權(quán)重,其取值為0、0.1、0.5或1;LRg表示正則化損失函數(shù)。公式(5)損失函數(shù)有效避免在數(shù)據(jù)不平衡時,組合loss 退化為Dice loss,而且對超聲圖像小目標病灶區(qū)域有較好的分割效果,病灶邊界更加清晰[17]。
當收集的肺癌患者淋巴結(jié)超聲圖像數(shù)據(jù)較少時,通常采用數(shù)據(jù)增強(Data Augmentation)技術(shù),該技術(shù)可以有效彌補數(shù)據(jù)不足來訓練模型,防止過擬合。本文采用的數(shù)據(jù)增強方法包括:水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)、隨機剪切、隨機仿射變換、中心裁剪和隨機旋轉(zhuǎn)(<90°、90°、180°和270°);此外,還通過調(diào)整對比度、模糊(高斯、平均值、中值)、高斯噪聲和Cutout 等數(shù)據(jù)增強方法,得到增強后的圖片共4545張。
試驗環(huán)境是基于深度學習Pytorch 框架,GPU 服務器配置為:操作系統(tǒng)為烏班圖18.04,CPU為Intel i7-8700K,內(nèi)存64 GB;顯卡為英偉達RTX 1080Ti、顯卡顯存11 GB。為了提高分割模型的泛化能力,本文采用了TTA技術(shù),包括用于垂直翻轉(zhuǎn)、水平翻轉(zhuǎn)、90°和180°旋轉(zhuǎn)。第60個Epoch訓練和驗證結(jié)果見圖3。
圖3 模型訓練和驗證分割結(jié)果
本文數(shù)據(jù)來源于上海市胸科醫(yī)院超聲科440 例肺癌患者的510 張淋巴結(jié)超聲圖像,其中男240 例,淋巴結(jié)圖像260 張;女200 例,淋巴結(jié)圖像250 張。采集的每張超聲圖像均由專業(yè)超聲醫(yī)師掃描完成,并標注病灶長徑和短徑,用于訓練的超聲圖像病灶區(qū)域由3 名經(jīng)驗豐富的超聲醫(yī)師使用Labelme 共同標注,診斷結(jié)果均與病理結(jié)果相對應,確保數(shù)據(jù)的正確可靠;患者的淋巴結(jié)均進行針吸細胞學檢查及細針穿刺活檢。兩個階段使用的數(shù)據(jù)不同,先去掉參與訓練圖像的不相關(guān)區(qū)域,在第一階段,即上述采集的超聲圖像,原圖和掩碼圖的分辨率均為256×256,三通道讀??;在第二階段,病灶區(qū)域圖像與掩碼圖均相應放大,分辨率為512×512,掩碼圖為二值化圖像,病灶區(qū)域為白色,背景為黑色。
將采集的頸部淋巴結(jié)超聲圖像數(shù)據(jù)集按照8∶1∶1劃分為訓練集、驗證集和測試集,采用Adam 優(yōu)化器。使用Dice系數(shù)對超聲圖像的分割結(jié)果進行評估。通過圖4,5分析發(fā)現(xiàn),UNet++Ⅰ和Ⅱ階段損失函數(shù)收斂較CAUNet 網(wǎng)絡慢,第二階段的loss 值較第一階段更低;由圖6 可知UNet++Dice 系數(shù)低于0.92,本文提出的級聯(lián)二階段CAUNet 網(wǎng)絡Dice 系數(shù)達到了0.95,且第二階段優(yōu)于第一階段,說明第二階段對關(guān)鍵病灶區(qū)域的放大訓練和分割是有效的??梢姡壜?lián)二階段CAUNet 網(wǎng)絡分割效果優(yōu)于UNet++,將提高頸部淋巴結(jié)良惡性分類的準確率。測試集結(jié)果見圖7,從左往右依次為:原圖、預測結(jié)果、標注結(jié)果。與其他UNet 網(wǎng)絡比較見表1,該表列出了不同網(wǎng)絡結(jié)構(gòu)平均交并比(IOU)、Dice 系數(shù)和曲線下面積(AUC)3 個指標比較,驗證了本文提出的方法對病灶區(qū)域分割最優(yōu),上級聯(lián)CAUNet 在TTA 技術(shù)下平均IOU 較UNet 網(wǎng)絡提升了14%,Dice 系數(shù)提升了10%,AUC 提升了3%,而UNet3+和Swin-UNet 的Dice 系數(shù)均為0.93。同樣,與其余對比算法相比,本文的模型在各項指標上也均有較大改進。本文Swin-UNet 采用Base 級網(wǎng)絡結(jié)構(gòu),跳躍連接數(shù)目為3。
圖4 UNet++Ⅰ和Ⅱ階段損失函數(shù)
圖5 CAUNet Ⅰ和Ⅱ損失函數(shù)
圖6 CAUNet與UNet++網(wǎng)絡Ⅰ、Ⅱ階段Dice系數(shù)
圖7 淋巴結(jié)病灶分割
表1 不同網(wǎng)絡結(jié)構(gòu)量化指標比較
工具包torchstat.stat,可以計算訓練模型的算法復雜度、參數(shù)量(可訓練參數(shù)量和總參數(shù)量)、GPU 服務器占用量等,得到的不同網(wǎng)絡結(jié)構(gòu)參數(shù)量見表2。CAUNet 網(wǎng)絡是兩個階段訓練和推理,因此,較UNet和注意力UNet網(wǎng)絡在參數(shù)和計算資源消耗上均要大,如需進一步提高實時性,可通過增加GPU 數(shù)量實現(xiàn)。
表2 不同網(wǎng)絡結(jié)構(gòu)參數(shù)量比較
本文結(jié)果表明,CAUNet 網(wǎng)絡能夠快速、準確分割肺癌患者頸部淋巴結(jié)超聲圖像。圖像分割結(jié)果的敏感性為95%,特異性為96%,準確率為92%,AUC 為0.99,表明本文提出的新模型是有效的,有助于區(qū)分肺癌患者轉(zhuǎn)移性淋巴結(jié)與良性淋巴結(jié)。
本文提出了基于注意力UNet 網(wǎng)絡級聯(lián)EfficientNet-B5 的二階段超聲圖像分割模型,針對頸部淋巴結(jié)超聲圖像進行增強,多尺度訓練;為了提高病灶小目標分割性能和小樣本訓練模型,提出了新的損失函數(shù),有效防止網(wǎng)絡的過擬合,網(wǎng)絡的魯棒性得到提高;采用了數(shù)據(jù)增強擴充訓練數(shù)據(jù),試驗結(jié)果表明該網(wǎng)絡提高了Dice系數(shù)。今后需進一步深入探討的內(nèi)容包括:①對頸部淋巴結(jié)超聲圖像分割出來的區(qū)域,需要分類網(wǎng)絡進一步預測淋巴結(jié)病灶區(qū)域的良惡性;②在本文基礎上,進一步優(yōu)化損失函數(shù)、對DeepLabv3+網(wǎng)絡采用級聯(lián)結(jié)構(gòu)深入研究;③將GAN 和UNet結(jié)合,提出生成對抗UNet,可應用于本文的圖像數(shù)據(jù)增強,改善模型的性能。