徐征宇 朱宗曉 周康 田微
摘 ?要:目前大多數(shù)的可行駛區(qū)域分割算法,是以網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜化為代價(jià)換取像素級(jí)的精確分割。為了降低訓(xùn)練出的網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜度,較為輕量、快速地實(shí)現(xiàn)可行駛區(qū)域分割,對(duì)基于目標(biāo)檢測(cè)的可行駛區(qū)域分割方法進(jìn)行了研究。該方法把可行駛區(qū)域的像素級(jí)標(biāo)注轉(zhuǎn)換為目標(biāo)檢測(cè)框標(biāo)注,用目標(biāo)檢測(cè)算法實(shí)現(xiàn)可行駛區(qū)域分割。實(shí)驗(yàn)結(jié)果表明,目標(biāo)檢測(cè)方法也能較為準(zhǔn)確地對(duì)可行駛區(qū)域進(jìn)行分割。
關(guān)鍵詞:目標(biāo)檢測(cè);可行駛區(qū)域分割;矩形覆蓋多邊形
中圖分類號(hào):TP391.41 ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2020)23-0106-03
Drivable Area Segmentation Based on Deep Learning Object Detection
XU Zhengyu,ZHU Zongxiao,ZHOU Kang,TIAN Wei
(Computer Science College of South-central University for Nationalities,Wuhan ?430074,China)
Abstract:At present,most of segmentation algorithms for drivable area are pixel level accurate segmentation at the cost of complex network structure. In order to reduce the complexity of the trained network structure,and realize the segmentation of the drivable area quickly and with a little calculation,this paper studies the segmentation ways of drivable area based on object detection. In this method,the pixel level labeling of the drivable area is transformed into the target detection box labeling,and the drivable area is segmented through the target detection algorithm. The experimental results show that the target detection method can also segment the drivable area more accurately.
Keywords:target detection;drivable area segmentation;rectangle overlay polygon
0 ?引 ?言
隨著計(jì)算機(jī)算力的不斷增強(qiáng)和深度學(xué)習(xí)的快速發(fā)展,基于深度學(xué)習(xí)的圖像分割可以達(dá)到像素級(jí)別的精確分割,即把每個(gè)像素點(diǎn)進(jìn)行分類。但面向無(wú)人駕駛的行駛區(qū)域分割時(shí),像素級(jí)的精確分割,本文認(rèn)為是沒有必要的。人類在駕駛汽車時(shí),不可能關(guān)注到每一個(gè)點(diǎn),絕大多數(shù)進(jìn)入視野的細(xì)節(jié)會(huì)被忽略,除非這個(gè)細(xì)節(jié)能在可行駛區(qū)域和非可行駛區(qū)域的相互轉(zhuǎn)換中發(fā)揮作用?;谌祟愒隈{駛的過程中不可能關(guān)注到每一個(gè)點(diǎn)的特點(diǎn),本文提出用目標(biāo)檢測(cè)的方法去實(shí)現(xiàn)可行駛區(qū)域分割,即用若干目標(biāo)檢測(cè)框去框出大致的可行駛區(qū)域,這樣就不需要對(duì)每一個(gè)像素點(diǎn)進(jìn)行分類,既能降低網(wǎng)絡(luò)的復(fù)雜度,又能較快地實(shí)現(xiàn)可行駛區(qū)域的分割。
本文所研究的內(nèi)容,其面向場(chǎng)景是無(wú)人駕駛的可靠環(huán)境感知。其感知內(nèi)容主要包括兩個(gè)方面:一方面是行駛道路上的目標(biāo)檢測(cè),其包含車輛、行人及其他障礙物和交通燈、交通標(biāo)志等檢測(cè);另一方面是可行駛區(qū)域分割。本文主要針對(duì)可行駛區(qū)域分割進(jìn)行研究,采用基于深度學(xué)習(xí)目標(biāo)檢測(cè)的可行駛區(qū)域分割的設(shè)計(jì)思路,該研究是在田微老師和朱宗曉老師的指導(dǎo)下進(jìn)行的,目前只是一個(gè)算法理論的實(shí)現(xiàn),還沒有應(yīng)用到實(shí)際的場(chǎng)景中。本文采用的可行駛區(qū)域分割方法是用目標(biāo)檢測(cè)算法實(shí)現(xiàn)的,本人根據(jù)該思路,先實(shí)現(xiàn)像素級(jí)標(biāo)注轉(zhuǎn)換為目標(biāo)檢測(cè)框標(biāo)注,該過程是一系列矩形框逼近覆蓋不規(guī)則多邊形的數(shù)學(xué)問題,需要編寫相關(guān)代碼,實(shí)現(xiàn)其轉(zhuǎn)換,為了較為準(zhǔn)確地轉(zhuǎn)換標(biāo)注,還根據(jù)BDD100K數(shù)據(jù)集的其他目標(biāo)物的矩形框標(biāo)注的長(zhǎng)寬面積進(jìn)行了統(tǒng)計(jì)分析,設(shè)計(jì)了兩種標(biāo)注轉(zhuǎn)換方案。最后采用深度學(xué)習(xí)的目標(biāo)檢測(cè)算法,進(jìn)行訓(xùn)練,得到訓(xùn)練模型,然后進(jìn)行測(cè)試,保存相關(guān)的測(cè)試結(jié)果數(shù)據(jù),再編寫代碼,對(duì)這些數(shù)據(jù)進(jìn)行處理,從而合成我們所需要的可行駛區(qū)域。
1 ?相關(guān)理論
本文采用了兩種基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法:Faster R-CNN和YOLOv5。Faster R-CNN是兩階段目標(biāo)檢測(cè)的代表算法。第一階段,產(chǎn)生region proposal,第二階段,對(duì)region proposal進(jìn)行分類和位置修正。從最初的R-CNN,再到Fast R-CNN[1]的改進(jìn),最后發(fā)展為將特征抽取、候選區(qū)域提取、位置精修、分類都整合在一個(gè)網(wǎng)絡(luò)中的Faster R-CNN[2],其綜合性能有很大的提升。YOLOv5有四個(gè)網(wǎng)絡(luò)模型,本文采用的是YOLOv5s,其網(wǎng)絡(luò)結(jié)構(gòu)分成了四個(gè)部分。輸入端:采用了Mosaic數(shù)據(jù)增強(qiáng)和自適應(yīng)錨框計(jì)算,前者豐富了檢測(cè)目標(biāo)物的背景,后者針對(duì)不同數(shù)據(jù)集,自動(dòng)計(jì)算最合適的初始設(shè)定長(zhǎng)寬的錨框;Backbone:使用CSPDarknet,從輸入圖像中提取豐富的信息特征;Neck:主要用于生成特征金字塔;Prediction:YOLOv5采用GIOU_Loss做Bounding box的損失函數(shù),其對(duì)常用的目標(biāo)檢測(cè)算法都具體有相當(dāng)?shù)奶嵘饔谩?/p>
圖像分割指根據(jù)灰度、彩色、空間紋理、幾何形狀等特征把圖像劃分成若干個(gè)互不相交的區(qū)域,使得這些特征在同一區(qū)域內(nèi)表現(xiàn)出一致性或相似性,而在不同區(qū)域間表現(xiàn)出明顯的不同[3]。傳統(tǒng)的圖像分割方法有基于閾值的分割方法、基于區(qū)域的圖像分割方法[4]、基于邊緣檢測(cè)的分割方法等[5]。隨著計(jì)算力的不斷增強(qiáng)以及深度學(xué)習(xí)的快速發(fā)展,基于深度學(xué)習(xí)的分割方法取得了較于傳統(tǒng)的分割方法更好的效果。He等在2017年提出的Mask R-CNN算法,實(shí)現(xiàn)了目標(biāo)物的像素級(jí)分割[6]。
2 ?實(shí)驗(yàn)方案
可行駛區(qū)域分割的研究,大多采用的是像素級(jí)的語(yǔ)義分割,本文使用的BDD100K數(shù)據(jù)集的標(biāo)簽文件亦是如此,如圖1所示。其標(biāo)簽文件把可行駛區(qū)域分為了兩類:直接可行駛區(qū)域和間接可行駛區(qū)域。直接可行駛區(qū)域標(biāo)為紅色,表示此路段是當(dāng)前車輛駕駛時(shí)的優(yōu)先選擇,是行駛時(shí)最合理的路段區(qū)域。間接可行駛區(qū)域標(biāo)為藍(lán)色,表明當(dāng)前車輛可以在此路段內(nèi)行駛,但必須謹(jǐn)慎,因?yàn)榇寺范蔚膬?yōu)先級(jí)可能屬于其他車輛。
為了用目標(biāo)檢測(cè)的方法實(shí)現(xiàn)可行駛區(qū)域的分割,首要的問題是如何把像素級(jí)標(biāo)注轉(zhuǎn)換為目標(biāo)檢測(cè)框的標(biāo)注。對(duì)于該問題,采用微積分的思想,用若干小方框框住像素級(jí)的可行駛區(qū)域,盡可能地把可行駛區(qū)域的像素點(diǎn)框進(jìn)來(lái),使其標(biāo)注準(zhǔn)確。當(dāng)轉(zhuǎn)換成功后,投入到深度學(xué)習(xí)網(wǎng)絡(luò)中訓(xùn)練測(cè)試,然后得到的也將會(huì)是一系列小方框框住的可行駛區(qū)域,再把這一系列小方框進(jìn)行合并,重新合成我們需要的可行駛區(qū)域。
本文采用Faster R-CNN和YOLOv5兩種目標(biāo)檢測(cè)算法,實(shí)現(xiàn)可行駛區(qū)域的分割。
2.1 ?區(qū)域像素級(jí)標(biāo)注轉(zhuǎn)換為目標(biāo)檢測(cè)框標(biāo)注的方法
區(qū)域像素級(jí)標(biāo)注轉(zhuǎn)換為目標(biāo)檢測(cè)框標(biāo)注,其基本思想就是用一系列的小矩形框去逼近覆蓋不規(guī)則多邊形區(qū)域,如圖2所示。
首先確定所采矩形框?yàn)?6。在多邊形區(qū)域邊界處找一些點(diǎn),向周圍的領(lǐng)域空間擴(kuò)展到56的長(zhǎng)度,然后以此為寬,再畫此矩形的長(zhǎng),其長(zhǎng)沒有限制長(zhǎng)度,只要不超過多邊形另一邊的邊界即可。如此橫向畫一個(gè)矩形框,再縱向畫一個(gè)矩形框,直到完全覆蓋可行駛區(qū)域多邊形。最后把所有畫出來(lái)的矩形框坐標(biāo)記錄下來(lái)。再按照Faster R-CNN的數(shù)據(jù)集格式和YOLOv5的數(shù)據(jù)集格式進(jìn)行相應(yīng)的數(shù)據(jù)格式轉(zhuǎn)換。
轉(zhuǎn)換好的數(shù)據(jù)標(biāo)簽投入到神經(jīng)網(wǎng)絡(luò)訓(xùn)練之前,我們需要把這些轉(zhuǎn)換好的數(shù)據(jù)標(biāo)簽與原始標(biāo)簽比較,判斷是否準(zhǔn)確。因此,我們還需要把這些轉(zhuǎn)換好的目標(biāo)檢測(cè)框的數(shù)據(jù)集標(biāo)簽重新再合成區(qū)域,如圖3所示。
再用mIOU的指標(biāo)進(jìn)行打分,分?jǐn)?shù)越高,表明轉(zhuǎn)換的目標(biāo)檢測(cè)框的標(biāo)注越準(zhǔn)確。只有轉(zhuǎn)換的標(biāo)注越準(zhǔn)確,我們之后用目標(biāo)檢測(cè)方法實(shí)現(xiàn)的可行駛區(qū)域分割才能越準(zhǔn)確。
為了提高可行駛區(qū)域分割的精確度,本文除了以上的第一種以寬為56,長(zhǎng)不作限制的矩形框覆蓋多邊形的方案外,還設(shè)計(jì)了第二種多個(gè)小矩形框去覆蓋多邊形的方案,其基本思想與第一種方案一樣,只是矩形框?qū)捪拗茷?2,長(zhǎng)限制為512。第二種方案,因?yàn)閯澐值酶蛹?xì)致,其與原始標(biāo)注的比較會(huì)更為準(zhǔn)確,其具體的數(shù)據(jù)會(huì)在下文的實(shí)驗(yàn)結(jié)果中展示。
2.2 ?訓(xùn)練檢測(cè)得到的一系列矩形框進(jìn)行區(qū)域合成
可行駛區(qū)域原始像素級(jí)標(biāo)注全部成功地轉(zhuǎn)換成目標(biāo)檢測(cè)框標(biāo)注后,再把這些目標(biāo)檢測(cè)框標(biāo)注按照兩類目標(biāo)物:直接可行駛區(qū)域和間接可行駛區(qū)域,轉(zhuǎn)換成Faster R-CNN的數(shù)據(jù)集格式和YOLOv5的數(shù)據(jù)集格式。分別投入兩種深度學(xué)習(xí)的目標(biāo)檢測(cè)神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練測(cè)試,無(wú)論哪一種目標(biāo)檢測(cè)方法,最后的測(cè)試結(jié)果都會(huì)在直接可行駛區(qū)域和間接可行駛區(qū)域得到一系列檢測(cè)的矩形方框,如圖4所示。
再把這一系列小方框分別按照直接可行駛區(qū)域矩形框和間接可行駛區(qū)域矩形框進(jìn)行紅色和藍(lán)色的填充,從而實(shí)現(xiàn)可行駛區(qū)域的合成,如圖5所示。
3 ?實(shí)驗(yàn)結(jié)果與分析
3.1 ?實(shí)驗(yàn)設(shè)置
本實(shí)驗(yàn)采用兩種基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法:Faster R-CNN和YOLOv5。分別對(duì)兩種方案的原始區(qū)域像素級(jí)標(biāo)注轉(zhuǎn)換為目標(biāo)檢測(cè)框的標(biāo)注進(jìn)行訓(xùn)練測(cè)試。
兩種標(biāo)注轉(zhuǎn)換方案分別是:第一種,大多數(shù)寬為56,長(zhǎng)不作限制的矩形框區(qū)域標(biāo)注;第二種,大多數(shù)寬為32,長(zhǎng)為512的矩形框區(qū)域標(biāo)注。
首先,對(duì)轉(zhuǎn)換好的這兩種方案的區(qū)域目標(biāo)檢測(cè)框的標(biāo)注與原始標(biāo)注進(jìn)行比較,對(duì)比mIOU得分,看其標(biāo)注得準(zhǔn)不準(zhǔn),轉(zhuǎn)換后的標(biāo)注越準(zhǔn)確,越有利于后續(xù)的訓(xùn)練檢測(cè)。我們需要根據(jù)轉(zhuǎn)換好的矩形框的坐標(biāo)位置數(shù)據(jù),按照區(qū)域合成的方法,進(jìn)行區(qū)域合成,然后與原始標(biāo)注比較并打分。對(duì)這兩種區(qū)域標(biāo)注轉(zhuǎn)換的方案進(jìn)行實(shí)驗(yàn)數(shù)據(jù)結(jié)果的對(duì)比分析。
再把這兩種方案轉(zhuǎn)換的區(qū)域標(biāo)注,每一種也都分別用Faster R-CNN和YOLOv5進(jìn)行訓(xùn)練測(cè)試,也就是總共進(jìn)行四個(gè)實(shí)驗(yàn)。
最后再把這四個(gè)實(shí)驗(yàn)結(jié)果的一系列小方框的坐標(biāo)位置數(shù)據(jù),分別按照區(qū)域合成的方法進(jìn)行合成,得到四個(gè)不同實(shí)驗(yàn)的區(qū)域合成結(jié)果,再與原始區(qū)域標(biāo)注進(jìn)行比較打分,使用的指標(biāo)是IOU,然后對(duì)每個(gè)實(shí)驗(yàn)結(jié)果進(jìn)行分析,兩兩進(jìn)行比較。
3.2 ?實(shí)驗(yàn)結(jié)果與分析
本實(shí)驗(yàn)先對(duì)兩種方案轉(zhuǎn)化的目標(biāo)檢測(cè)框標(biāo)注,與原始標(biāo)注進(jìn)行比較;再對(duì)四個(gè)實(shí)驗(yàn)的區(qū)域合成的結(jié)果,與原始標(biāo)注進(jìn)行比較,其評(píng)價(jià)指標(biāo)為mIOU,如下所示:
(1)兩種方案的原始區(qū)域像素級(jí)標(biāo)注轉(zhuǎn)換為目標(biāo)檢測(cè)框標(biāo)注的準(zhǔn)確性以及對(duì)比,如表1所示。
第一種方案相對(duì)于原始標(biāo)注的準(zhǔn)確度,使用mIOU進(jìn)行評(píng)價(jià),其值為82.9%,從數(shù)值看來(lái)準(zhǔn)確度還是較為準(zhǔn)確的。此種方案只限定了矩形框的寬為56,沒限定矩形框的長(zhǎng),覆蓋的多邊形區(qū)域相對(duì)來(lái)說面積較大,總體數(shù)量也就較少,覆蓋的精確度也就較低。第二種方案的矩形框的寬限定為32,長(zhǎng)限定為512,與第一種方案相比,大多數(shù)矩形框面積較小,數(shù)量增多,總共多了2 258 230個(gè)矩形框,覆蓋的精確度也相對(duì)較高,該方案的mIOU值為87.4%,相比第一種方案提升了4.5%。
(2)將這四種實(shí)驗(yàn)得到的一系列小方框進(jìn)行區(qū)域合成,再把這四個(gè)結(jié)果按照mIOU指標(biāo),與原始像素級(jí)標(biāo)注進(jìn)行比較,其結(jié)果如表2所示。
表2展示了Faster R-CNN和YOLOv5兩種目標(biāo)檢測(cè)算中分別在兩種方案下的實(shí)驗(yàn)測(cè)試結(jié)果。在第一種方案下,可以看出Faster R-CNN的精確度更好,在Faster R-CNN中的mIOU值比YOLOv5的mIOU值高3.6%。但在第二種方案下,YOLOv5的效果更好一點(diǎn),其mIOU值比Faster R-CNN高1.3%。Faster R-CNN在兩種方案下的實(shí)驗(yàn)結(jié)果對(duì)比下,第二種方案確實(shí)能夠提高可行駛區(qū)域分割評(píng)價(jià)指標(biāo)mIOU值,提高了2.2%,可見第二種方案更有利于可行駛區(qū)域的分割。YOLOv5在兩種方案下的實(shí)驗(yàn)結(jié)果對(duì)比下,也證明了第二種方案確實(shí)有效的提高了可行駛區(qū)域分割的準(zhǔn)確率,其mIOU值相比第一種方案提高了7.1%,相比Faster R-CNN提升更明顯。
4 ?結(jié) ?論
本文提出了一種基于深度學(xué)習(xí)目標(biāo)檢測(cè)的可行駛區(qū)域分割方法。首先把BDD100K像素級(jí)區(qū)域標(biāo)注轉(zhuǎn)換為目標(biāo)檢測(cè)框標(biāo)注。為了提高可行駛區(qū)域分割的精確度,設(shè)計(jì)了兩種不同方案的標(biāo)注轉(zhuǎn)換。每一種方案再分別用Faster R-CNN和YOLOv5訓(xùn)練模型,將得到結(jié)果進(jìn)行區(qū)域合成,并進(jìn)行測(cè)試。結(jié)果表明,本文該出的第二種方案的標(biāo)注轉(zhuǎn)換,確實(shí)有效的提高了可行駛區(qū)域分割的精確度,文中四個(gè)實(shí)驗(yàn)的結(jié)果也表明了目標(biāo)檢測(cè)的方法能夠較為準(zhǔn)確地對(duì)可行駛區(qū)域進(jìn)行識(shí)別分割。
參考文獻(xiàn):
[1] GIRSHICK R. Fast R-CNN [C]//2015 IEEE International Conference on Computer Vision(ICCV).Santiago:IEEE,2015:1440-1448.
[2] REN S Q,HE K M,GIRSHICK R,et al. Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[3] 黃鵬,鄭淇,梁超.圖像分割方法綜述 [J].武漢大學(xué)學(xué)報(bào)(理學(xué)版),2020,66(6):519-531.
[4] 王媛媛.圖像區(qū)域分割算法綜述及比較 [J].產(chǎn)業(yè)與科技論壇,2019,18(13):54-55.
[5] 龐明明,安建成.融合模糊LBP和Canny邊緣的圖像分割 [J].計(jì)算機(jī)工程與設(shè)計(jì),2019,40(12):3533-3537.
[6] HE K M,GKIOXARI G,PIOTR D,et al. Mask R-CNN [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,42(2):386-397.
作者簡(jiǎn)介:徐征宇(1995—),男,漢族,重慶人,碩士研究生在讀,研究方向:計(jì)算機(jī)視覺;通訊作者:田微(1979—),男,漢族,湖北荊州人,教授,博士,研究方向:計(jì)算機(jī)系統(tǒng)集成。