摘 要:為提高密集圖像分割訓(xùn)練效率,在深度殘差網(wǎng)絡(luò)、GRU、U Net等網(wǎng)絡(luò)模型基礎(chǔ)上,設(shè)計了一種改進的ResGRUU Net完成密集圖像分割任務(wù)。首先,ResGRUU Net中卷積塊由兩個或三個ResGRU塊組成,可通過多條連通通路從原始信息中提取出不同的特征,從而記憶和消化先前特征中包含的規(guī)律;其次為提高數(shù)據(jù)使用效率,采用隨機切片和Mosaic切片方法對數(shù)據(jù)進行擴增;最后,分別在DRIVE、STARE和CHASE_DB1測試數(shù)據(jù)集上對訓(xùn)練模型進行評估。通過仿真分析,改進后的模型在測試數(shù)據(jù)集上的準確率分別提升了0.28%、0.17%和0.46%,表明改進后的模型相較于改進前的模型在精度和訓(xùn)練速度上有所提高。
關(guān)鍵詞:圖像分割;深度學(xué)習(xí);殘差網(wǎng)絡(luò);門控循環(huán)單元;數(shù)據(jù)增強
中圖分類號:TP393 文獻標識碼:A
Image Segmentation Algorithm Based on ResGRUU Net
DING Xuan
(Shaanxi Police College,Xi’an, Shaanxi 710021,China)
Abstract:In order to improve the training efficiency of dense image segmentation, this paper designs an improved ResGRUU Net based on the research of ResNet, GRU、U net and other network models. Firstly, the convolution block in resgruu net is composed of two or three ResGRU blocks, which can extract different features from the original information through multiple connected paths, so as to memorize and digest the rules contained in the previous features; secondly, in order to improve the efficiency of data utilization, this paper uses random slicing and Mosaic slicing methods to amplify the data; finally, the training model was evaluated in data sets of DRIVE, STARE and CHASE_DB1, respectively. Through the simulation analysis, the accuracy rate of the improved model on the test data set is increased by 0.28%, 0.17% and 0.46%, respectively, which shows that the improved model has higher accuracy and training time than the original model.
Key words: image segmentation;deep learning; residual network; gated recursive unit; data enhancement
隨著深度學(xué)習(xí)(Deep Learning,DL)技術(shù)的廣泛應(yīng)用,圖像分類、分割、檢測和跟蹤等領(lǐng)域迎來了飛速發(fā)展時期,并取得了許多突破性的進展[1]?;谏疃葘W(xué)習(xí)的方法為提高模型性能而提出的改進技巧性方法,如激活函數(shù)[2]、改進的正則化技術(shù)[3]和深度殘差網(wǎng)絡(luò)[4]等方法,為圖像分類、分割和檢測等領(lǐng)域的飛速發(fā)展帶來了契機。
基于全卷積網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN)的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)分割方法[5]為自然圖像分割的發(fā)展發(fā)揮了重要作用。另一種常用的語義圖像分割方法為SegNet[6]。SegNet由編碼和解碼網(wǎng)絡(luò)兩部分組成,編碼網(wǎng)絡(luò)是一個13層的VGG 16網(wǎng)絡(luò),相應(yīng)的解碼網(wǎng)絡(luò)使用像素分類層。SegNet后來也產(chǎn)生了許多衍生網(wǎng)絡(luò),如Bayesian SegNet[7]。這些體系結(jié)構(gòu)中的大多數(shù)都是使用在ImageNet等大規(guī)模數(shù)據(jù)集中。然而,對于密集的輸出預(yù)測任務(wù),如醫(yī)學(xué)圖像分割,上述算法效果不是很理想。因為密集的圖像分割任務(wù)需考慮小樣本和數(shù)據(jù)不均衡等問題。
此外,最早也是最流行的語義醫(yī)學(xué)圖像分割方法之一是U Net[8]。根據(jù)U Net體系結(jié)構(gòu),網(wǎng)絡(luò)主要由兩部分組成:卷積編碼和解碼單元。需注意,每個卷積運算后接ReLU激活函數(shù)。對于編碼單元中的下采樣,執(zhí)行2×2最大池化操作。在解碼階段,執(zhí)行反卷積操作以向上采樣得到特征映射。U Net模型為分段任務(wù)具備幾個優(yōu)點:首先,該模型允許同時使用全局位置和上下文信息;其次,U Net只需要很少的訓(xùn)練樣本即可實現(xiàn)分割任務(wù);最后,U Net可實現(xiàn)端到端的前向過程,即輸入原始圖像并直接輸出分割圖像。然而U Net也有許多可改進之處,如訓(xùn)練時間長,隨機切片裁剪的方法會丟失部分全局信息,導(dǎo)致網(wǎng)絡(luò)無法記憶或?qū)W習(xí)特征之間的關(guān)系等。為此,在U Net網(wǎng)絡(luò)基礎(chǔ)上,許多學(xué)者提出了其衍生網(wǎng)絡(luò)模型,如ResU Net[9],U Net++[10],R2U Net[11]等。
為提高密集圖像分割訓(xùn)練效率,受深度殘差模型、GRU、U Net等模型的啟發(fā),本文提出了一種改進后的ResGRUU Net完成密集圖像分割任務(wù)技術(shù)方法。為了驗證所提出的模型性能,在不同的醫(yī)學(xué)數(shù)據(jù)集上進行了分析與評估。
1 相關(guān)理論
殘差神經(jīng)網(wǎng)絡(luò)(Residual Neural Network,ResNet)可以解決由網(wǎng)絡(luò)深度引起的模型性能退化和不收斂的問題。在ResNet的結(jié)構(gòu)中[如圖1(a)所示],假設(shè)輸入為x,網(wǎng)絡(luò)學(xué)習(xí)的特征為H(x)。通過學(xué)習(xí)殘差F(x)=H(x)-x,使網(wǎng)絡(luò)學(xué)習(xí)特征增加到F(x)+x。當殘差為零時,累加層僅為恒等映射的作用,可用來避免冗余網(wǎng)絡(luò)層產(chǎn)生冗余。對于梯度下降的情況,該網(wǎng)絡(luò)可以有效地處理性能下降的問題。然而,在實際應(yīng)用中,殘差往往不等于零。它將使積累層根據(jù)輸入的特征學(xué)習(xí)新的特征,從而具有更好的性能。
普通GRU可以在很大程度上解決梯度爆炸問題。然而,一旦輸入數(shù)據(jù)量增加,GRU也會在一定程度上引起網(wǎng)絡(luò)性能的退化,導(dǎo)致輸入信息的某些特性的丟失。為了解決這個問題,本文提出了一個ResGRU殘差塊,采用GRU模塊提取特征之間的關(guān)系。ResGRU的結(jié)構(gòu)如圖1(b)所示,虛線表示輸入和輸出的尺寸匹配。在結(jié)構(gòu)上,殘差塊的輸出等于GRU最后一層的輸出與輸入x之和。如圖1(b)所示,假設(shè)GRU的最后一層輸出為y,則殘差塊的輸出yR可以表示為:
yR=ReLUBNγ,β(y)+g(xt,ht)
ht∈H (1)
其中,ReLU(·)表示ReLU激活函數(shù);BN(·)表示batch規(guī)范化函數(shù);γ和β表示函數(shù)中的兩個可學(xué)習(xí)變量;g(·)是調(diào)節(jié)函數(shù),使得輸入xt和殘差ht具有相同的維數(shù)。通過殘差連接,ResGRU網(wǎng)絡(luò)可以更好地記憶數(shù)據(jù)前后信息的相關(guān)性,在保留原始數(shù)據(jù)特征信息的同時,提高網(wǎng)絡(luò)的性能。
2 網(wǎng)絡(luò)結(jié)構(gòu)
網(wǎng)絡(luò)體系結(jié)構(gòu)如圖2所示,ResGRUU Net繼承了U Net網(wǎng)絡(luò)模型中U形結(jié)構(gòu)的特點,包含下采樣和上采樣兩部分。每個綠色/藍色框?qū)?yīng)一個多通道特征圖。白色框表示復(fù)制的特征圖。箭頭與框圖構(gòu)成了不同的操作。與U Net網(wǎng)絡(luò)模型不同之處總結(jié)如下:
(1)ResGRUU Net中卷積塊由兩個或三個ResGRU塊組成,其中應(yīng)用3×3個卷積核,再經(jīng)過ReLU激活層,然后由一個批量歸一化層將數(shù)據(jù)歸一化處理;
(2)對于下采樣,在卷積塊之間使用一個2×2的最大池化層,然后是1×1的卷積層;
(3)對于下采樣,每個卷積塊由一個反卷積層、兩個卷積層和一個融合層(Concatenation操作)組成;
(4)使用1×1卷積核與Sigmoid激活函數(shù)將特征映射為單個輸出。
(5)最后,網(wǎng)絡(luò)輸出時將閾值T設(shè)為0.5,生成分割區(qū)域。
ResGRU塊由兩個GRU模塊組成,如圖1(b)所示。每個GRU模塊完成后,進行批量歸一化處理,使每個GRU模塊具有獨立的參數(shù)調(diào)整能力,從而加快模型收斂速度。此外,第一模塊的批量歸一化以ReLU為激活函數(shù)連接到激活層。
與普通GRU單元相比,ResGRU不僅具有獨立的殘差學(xué)習(xí)功能,而且可通過多條連通通路以原始信息中提取出不同的特征,從而記憶和消化先前特征中包含的規(guī)律。
3 仿真與分析
為了驗證ResGRUU Net網(wǎng)絡(luò)模型的性能,本文在不同的視網(wǎng)膜圖像血管醫(yī)學(xué)影像數(shù)據(jù)集上進行了測試,測試數(shù)據(jù)集包括DRIVE、STARE和CHASE_DB1。模型運行環(huán)境為:軟件由Keras和TensorFlow框架搭建;硬件包括ThinkStation圖行工作站,RAM為32 G,顯卡為NVIDIA GTX 1060,顯存6 G。
3.1 訓(xùn)練過程
3.1.1 數(shù)據(jù)集
DRIVE數(shù)據(jù)集由40幅彩色視網(wǎng)膜圖像組成,其中20幅用于訓(xùn)練,其余20幅用于測試。每個原始圖像的大小為565×584像素。STARE數(shù)據(jù)集包含20個彩色圖像,每個圖像的大小為700×605像素。CHASE_DB1數(shù)據(jù)集包含28幅彩色視網(wǎng)膜圖像,每個圖像的大小為999×960像素。與其他另外兩種數(shù)據(jù)集相比,DRIVE數(shù)據(jù)集多了眼部輪廓圖像集。各數(shù)據(jù)集部分數(shù)據(jù)展示如圖3所示。
3.1.2 數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理包括灰度變換、標準化、對比度受限的自適應(yīng)直方圖均衡化(CLAHE)、伽馬變換、高斯濾波、隨機噪聲等。不同數(shù)據(jù)集數(shù)據(jù)預(yù)處理效果如圖4所示。
3.1.3 數(shù)據(jù)增強
從數(shù)據(jù)集的相關(guān)介紹可知,3種數(shù)據(jù)集本質(zhì)上為小樣本數(shù)據(jù),為提高數(shù)據(jù)使用效率,本文采用兩種切片方法對數(shù)據(jù)進行擴增。其一為隨機切片,另一個為Mosaic切片。兩種切片按概率隨機選取,最終共同完成數(shù)據(jù)增強處理操作。接下來,以DRIVE數(shù)據(jù)集中的20個圖像為例,介紹本文所提數(shù)據(jù)增強方法。
(1)隨機切片
每個圖像內(nèi)以隨機中心隨機切片,且每個切片尺寸為48×48像素。
(2)Mosaic切片
Mosaic切片方法參考了YOLO v4中Mosaic數(shù)據(jù)增強[13]方法。不同之處在于Mosaic數(shù)據(jù)增強主要處理目標檢測,且需要對目標真實框進行處理。本文中的Mosaic切片方法應(yīng)用于圖像分割,且需要對分割后ground_truth標簽圖像進行處理。具體過程總結(jié)如下:1)隨機選取4個48×48像素切片圖像;2)對四個圖像按概率進行翻轉(zhuǎn)、縮放操作,然后將4張圖像按順序擺放;3)將ground_truth標簽圖像與原圖進行相同處理;4)將原圖切片和ground_truth標簽圖像進行組合,形成最終增強圖像。
DRIVE數(shù)據(jù)集下的數(shù)據(jù)增強效果如圖5所示。因每幅圖像選取9500個切片,這樣20幅圖像總共包含190000個切片。訓(xùn)練時隨機選取其中80%切片用于訓(xùn)練,剩下的20%切片用于驗證。
本文使用的切片方法的優(yōu)點總結(jié)如下:1)這些切片允許網(wǎng)絡(luò)訪問有關(guān)像素的本地信息,該信息對整體預(yù)測具有潛在影響;2)確保輸入數(shù)據(jù)平衡;3)在整個圖像上隨機地進行采樣,切片很可能完全在視野(FOV)之外,因此網(wǎng)絡(luò)模型可以有效學(xué)習(xí)分辨FOV邊界與血管的差異;4)利用Mosaic切片可有效豐富數(shù)據(jù)樣本,且網(wǎng)絡(luò)計算時一次性可輸入4張圖像,在一定程度上能夠提升訓(xùn)練效率。
3.2 仿真結(jié)果分析
本文在訓(xùn)練時使用隨機初始化方法和隨機梯度下降優(yōu)化方法,并采用分類交叉熵計算損失。
令訓(xùn)練時批處理量為32,迭代步長為150。圖6所示為使用U Net、ResU Net、R2U Net及本文方法在DRIVE數(shù)據(jù)集訓(xùn)練/驗證準確率及Loss變化曲線,其中圖6(a)、(b)分別為模型訓(xùn)練/驗證準確率變化曲線,圖6(c)、(d)為模型訓(xùn)練/驗證Loss變化曲線??梢钥闯觯隍炞C準確率和Loss變化曲線上,所提方法可以很快收斂,其他方法波動時間較長,表明本文方法在準確率及訓(xùn)練時間上均有所改善。
進一步,在數(shù)據(jù)集DRIVE、STARE和CHASE_DB1下對四種不同的模型進行了定量分析,結(jié)果如表1所示。四個指標分別表示如下:SE為敏感度,SP為特異性,AC為準確率,AUC為ROC曲線下的面積。綜合比較四個指標,其中,U Net性能最低,其次為ResU Net和R2U Net,本文提出的模型在AC和AUC性能更優(yōu)。與U Net相比,準確率分別提升了0.28%、0.17%和0.46%;與R2U Net相比性能提升不明顯,但本文模型訓(xùn)練時間明顯縮短。
4 結(jié) 論
本文對密集圖像分割中常用的卷積神經(jīng)網(wǎng)絡(luò)、U Net等模型進行研究,提出了將ResGRU作為網(wǎng)絡(luò)塊嵌入U Net模型,從而設(shè)計了加快網(wǎng)絡(luò)訓(xùn)練速度的ResGRUU Net網(wǎng)絡(luò)模型。該模型繼承了U Net網(wǎng)絡(luò)模型中U形結(jié)構(gòu)的特點,包含下采樣和上采樣兩部分。ResGRU塊由兩個GRU模塊組成,每個GRU模塊具有獨立的參數(shù)調(diào)整能力,從而加快模型收斂速度。
本文在模型驗證時選取的數(shù)據(jù)集標簽圖主要為黑白圖像,分類為簡單的二分類任務(wù)。未來研究的方向可為多分類任務(wù)及遷移學(xué)習(xí),即將模型應(yīng)用到更多其他類別數(shù)據(jù)集,同時有效減少新數(shù)據(jù)集訓(xùn)練所用時間。
參考文獻
[1] 周飛燕,金林鵬,董軍.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計算機學(xué)報,2017,40(6):1229-1251.
[2] 蔣昂波,王維維.ReLU激活函數(shù)優(yōu)化研究[J].傳感器與微系統(tǒng),2018,37(2):50-52.
[3] 陳杰. 深度學(xué)習(xí)正則化技術(shù)研究及其在駕駛安全風(fēng)險領(lǐng)域的應(yīng)用[D].合肥:中國科學(xué)技術(shù)大學(xué),2019.
[4] 陸永帥,李元祥,劉波,等.基于深度殘差網(wǎng)絡(luò)的高光譜遙感數(shù)據(jù)霾監(jiān)測[J].光學(xué)學(xué)報,2017,37(11):314-324.
[5] 田萱,王亮,丁琪.基于深度學(xué)習(xí)的圖像語義分割方法綜述[J].軟件學(xué)報,2019,30(0):440-468.
[6] BADRINARAYNAN V, KENDALL A, CIPOLLA R. SegNet: a deep convolutional encoder decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481-2495.
[7] PETROV I, SHAKHURO V, KOUNSHIN A. Deep probabilistic human pose estimation[J]. IET Computer Vision, 2018, 12(5): 578-585.
[8] ZHANG Z, LIU Q, WANG Y. Road extraction by deep residual U Net[J]. IEEE Geoscience and Remote Sensing Letters, 2018, 15(5): 749-753.
[9] 楊云,張立澤清,齊勇.結(jié)合優(yōu)化U Net和殘差學(xué)習(xí)的細胞膜分割[J].計算機工程與設(shè)計, 2019, 40(11): 3313-3318.
[10]PENG D, ZHANG Y, GUAN H. End to end change detection for high resolution satellite images using improved UNet++[J]. Remote Sensing, 2019, 11(11): 1382.
[11]劉楷東,謝斌,翟志強,等.基于R2U Net和空洞卷積的羊后腿分割目標肌肉區(qū)識別[J].農(nóng)業(yè)機械學(xué)報,2020,51(S2):507-514.