吳佳麗,畢春躍,王 劍,趙 涵
(浙江萬里學(xué)院 大數(shù)據(jù)與軟件工程學(xué)院,浙江 寧波 315000)
近年來,隨著社會生活水平的提高,汽車的數(shù)量呈現(xiàn)不斷增長的趨勢,極大地方便了人們的出行,但是也間接導(dǎo)致了大量交通事故的發(fā)生。為了保障車輛駕駛?cè)藛T的安全和減少交通事故的發(fā)生,許多研究人員對自動駕駛技術(shù)展開了研究。自動駕駛技術(shù)主要包括三個部分:環(huán)境感知、決策、控制,其中環(huán)境感知的結(jié)果直接影響到后續(xù)模塊,所以環(huán)境感知是整個自動駕駛技術(shù)的核心模塊[1]。自動駕駛的環(huán)境感知一般在不斷變化的道路場景下進行,為了保障自動駕駛的安全,要求盡可能地獲取精準的環(huán)境信息。圖像語義分割通過對道路場景的分割獲取車輛前方道路、車輛等信息,是提高自動駕駛安全性的重要技術(shù)手段[2-3]。
傳統(tǒng)的圖像語義分割過程繁瑣,很難適應(yīng)多目標的分割任務(wù)[4-7];隨著深度技術(shù)的發(fā)展,基于深度學(xué)習(xí)的圖像語義分割開始出現(xiàn),F(xiàn)CN使用端到端的圖像分割[8],卷積神經(jīng)網(wǎng)絡(luò)在圖像分割任務(wù)中的優(yōu)勢開始顯現(xiàn);SegNet池化層能保留記錄信息空間位置[9],進一步提高分割的精度;U-Net在網(wǎng)絡(luò)中使用跳躍連接優(yōu)化了圖像上采樣的信息補充[10]。隨后,一些基于卷積神經(jīng)網(wǎng)絡(luò)的改進圖像語義分割方法不斷涌現(xiàn)[11-14]。DeepLab是由谷歌提出的較成熟的圖像語義分割系列[15-18],DeepLab V1通過結(jié)合空洞卷積增加網(wǎng)絡(luò)的感受野[15],但分割目標邊界模糊;DeepLab V2引入了空洞卷積金字塔模塊(Atrous Spatial Pyramid Pooling, ASPP)實現(xiàn)了多尺度的特征提取[16];DeepLab V3提出了串行卷積和并行兩種卷積的網(wǎng)絡(luò)結(jié)構(gòu)[17];DeepLab V3+采用了編碼-解碼的網(wǎng)絡(luò)結(jié)構(gòu)[18],其語義分割效果更優(yōu)于DeepLab V3。但是直接將DeepLab V3+用于道路場景識別仍存在因細節(jié)信息丟失而導(dǎo)致分割目標區(qū)域模糊的問題。
本文以DeepLab V3+為基本結(jié)構(gòu)網(wǎng)絡(luò),通過在編碼器中進一步優(yōu)化注意力機制,加強底層特征圖與高層特征圖的融合,彌補解碼器模塊大幅上采樣帶來的細節(jié)信息缺失,增強網(wǎng)絡(luò)對目標區(qū)域邊緣的提取能力,實現(xiàn)網(wǎng)絡(luò)對道路場景識別的精細化分割。
本文基于DeepLab V3+構(gòu)建了面向道路場景識別的改進網(wǎng)絡(luò),改進網(wǎng)絡(luò)由編碼器模塊和解碼器模塊兩部分組成,網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 網(wǎng)絡(luò)結(jié)構(gòu)
改進網(wǎng)絡(luò)編碼器模塊的主體為Xception骨干特征提取網(wǎng)絡(luò)和ASPP兩部分。Xception網(wǎng)絡(luò)是Inception和深度可分離卷積融合后的演化網(wǎng)絡(luò),它先對輸入圖像做特征提取工作,特征提取包括四個步長為2的卷積模塊和一個步長為1的模塊,改進網(wǎng)絡(luò)保留對Xception的前兩個卷積Conv1、Conv2提取后的特征圖,并作為解碼器端的底層特征圖;隨后將Xception的輸出作為ASPP模塊的輸入,ASPP模塊并行了一個1×1的卷積、三個空洞速率分別為6、12、18的空洞卷積和一個圖像池化模塊,圖像經(jīng)過并行特征提取后相加融合,使用1×1卷積減少通道數(shù)后輸出。
改進網(wǎng)絡(luò)解碼器模塊的作用是將特征圖逐步恢復(fù)成原輸入圖像大小,將編碼器的輸出經(jīng)過四倍上采樣操作與Conv2輸出的底層特征圖融合,隨后經(jīng)過兩倍上采樣后再與Conv1輸出的底層特征圖融合,經(jīng)過3×3卷積后使用兩倍上采樣恢復(fù)到網(wǎng)絡(luò)輸入圖尺寸,得到最后的圖像語義分割圖。
實驗使用的數(shù)據(jù)是Cityscapes道路場景數(shù)據(jù)集,數(shù)據(jù)集一共設(shè)定了八個大類別標簽:天空、車輛、行人、馬路面、自然、建筑、物體和其他。Cityscapes數(shù)據(jù)集是道路場景中較為權(quán)威的數(shù)據(jù),標注圖像的范圍廣泛,有利于研究算法網(wǎng)絡(luò)的泛化能力。
實驗采用TensorFlow1.14深度學(xué)習(xí)框架和Python語言作為開發(fā)環(huán)境,處理器為E5-2683,顯卡為NVIDIA Tesla P-100,RAM為128 GB,初始學(xué)習(xí)率設(shè)置為0.000 5,batch size為32,訓(xùn)練步數(shù)為10 000次。
將Cityscapes數(shù)據(jù)集輸入原網(wǎng)絡(luò)和改進網(wǎng)絡(luò)進行訓(xùn)練,訓(xùn)練完成后得到模型,將測試集圖片輸入訓(xùn)練好的模型得到道路場景語義分割圖片。為了驗證改進網(wǎng)絡(luò)的有效性,實驗評價指標采用平均交并比(Mean Intersection Over Union,MIOU),計算公式如下:
表1 實驗結(jié)果評價數(shù)據(jù)
實驗結(jié)果對比如圖2所示。由圖可知,在道路場景提取時原網(wǎng)絡(luò)的目標區(qū)域邊緣粗糙;而在加強了底層特征和高層特征融合之后,使用改進算法改善了目標區(qū)域的提取邊緣粗糙的問題,網(wǎng)絡(luò)的道路場景語義分割性能得到了進一步提升。
圖2 實驗結(jié)果對比
考慮到DeepLab網(wǎng)絡(luò)的解碼器模塊使用了大幅上采樣,造成了特征圖的細節(jié)缺失,本文提出了一種加強底層特征圖和高層特征融合的改進網(wǎng)絡(luò),使得網(wǎng)絡(luò)可以保留圖像的更多細節(jié)特征信息,從而改善了道路場景語義分割的邊緣粗糙問題,進一步提高了網(wǎng)絡(luò)的分割性能。