孫朝云 裴莉莉 李偉 郝雪麗 陳瑤
(長(zhǎng)安大學(xué) 信息工程學(xué)院,陜西 西安 710064)
近年來,我國(guó)公路已進(jìn)入大面積檢測(cè)與養(yǎng)護(hù)階段,其中路面病害是影響道路使用性能的主要因素[1]。在各種路面病害中路面灌封裂縫的出現(xiàn)會(huì)嚴(yán)重影響路面的使用壽命,增加路面養(yǎng)護(hù)的難度。
國(guó)外對(duì)灌封裂縫已經(jīng)有一定的研究,但參考文獻(xiàn)還是十分有限。Cinbis等[2]提出了一種多目標(biāo)學(xué)習(xí)的方法,該方法可以防止在訓(xùn)練過程中過早鎖定目標(biāo)對(duì)象的錯(cuò)誤位置。Gonzalez-Garcia等[3]提出了一種基于主動(dòng)搜索定位的目標(biāo)檢測(cè)方法。Kamaliardakani等[4]開發(fā)了一種在圖像處理環(huán)境中自動(dòng)檢測(cè)灌封裂縫的方法。以上灌封裂縫的檢測(cè)方法大多仍為傳統(tǒng)的圖像識(shí)別方法,檢測(cè)精度(AP)和檢測(cè)效率較低。為了解決基于窗口滑動(dòng)方法在輸入較大圖像時(shí)檢測(cè)效率低的問題,Zhang 等[5- 6]提出了一種有效的密集擴(kuò)張網(wǎng)絡(luò)(Dense-Dilation Network),并用于檢測(cè)和分離路面的灌封裂縫,該方法雖然提高了檢測(cè)效率,但依然存在目標(biāo)漏檢的情況。
國(guó)內(nèi)對(duì)灌封裂縫檢測(cè)的研究文獻(xiàn)較少,主要原因是由于國(guó)內(nèi)對(duì)路面管理系統(tǒng)的研究還處于路面初始病害檢測(cè)階段。雖然國(guó)內(nèi)外關(guān)于灌封裂縫檢測(cè)方法的研究較少,但對(duì)路面裂縫的檢測(cè)研究已有很多,并且取得了豐碩的成果。鑒于灌封裂縫的檢測(cè)流程和裂縫檢測(cè)的流程相似,并且二者的特征形態(tài)也很相近,因此可以嘗試將檢測(cè)裂縫的方法應(yīng)用到檢測(cè)灌封裂縫上。Sun等[7]提出了一種基于背景的路面裂縫檢測(cè)與分割方法;Yoo等[8]提出了基于人工神經(jīng)網(wǎng)絡(luò)和邏輯回歸的無路徑的路面裂縫圖像識(shí)別方法;Zakeri等[9]設(shè)計(jì)了一種用于QUAV圖像分析的多階段系統(tǒng)進(jìn)行路面裂縫的檢測(cè);Cha等[10]利用深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)裂縫進(jìn)行檢測(cè);Nagahara等[11]利用機(jī)器學(xué)習(xí)及機(jī)器視覺對(duì)瀝青路面裂縫特征進(jìn)行檢測(cè)。以上的裂縫識(shí)別方法結(jié)合人工神經(jīng)網(wǎng)絡(luò)等方法,對(duì)裂縫進(jìn)行快速識(shí)別,為本文研究提供了良好的灌封裂縫識(shí)別思路。
深度學(xué)習(xí)由于其強(qiáng)大的非線性擬合能力,已經(jīng)被廣泛應(yīng)用于圖像分類[12]、自然語言處理[13]等領(lǐng)域,如楊順等[14]在虛擬到現(xiàn)實(shí)的車道保持控制中采用了深度學(xué)習(xí)算法,使控制精度大幅提升。在深度學(xué)習(xí)網(wǎng)絡(luò)框架的改進(jìn)上,Girshick[15]提出了Fast R-CNN方法,結(jié)合R-CNN和SPP的思想,實(shí)現(xiàn)了端到端的目標(biāo)檢測(cè)算法,檢測(cè)速度和精度都比R-CNN有很大的提升;Ren等[16]提出的Faster R-CNN方法,選擇區(qū)域生成網(wǎng)絡(luò)(RPN)代替R-CNN中的候選框(Anchor)提取方法,并且提出了Anchor機(jī)制生成候選框,可以同時(shí)預(yù)測(cè)每個(gè)位置的對(duì)象邊界和對(duì)象得分,與Fast R-CNN相比,極大縮短了訓(xùn)練時(shí)間,檢測(cè)精度并未降低;Han等[17]通過調(diào)整VGG16卷積層及在線案例挖掘,提出了基于改進(jìn)Faster R-CNN的視頻檢測(cè)方法。
綜上所述,國(guó)內(nèi)外關(guān)于檢測(cè)灌封裂縫的研究較少。而基于自主學(xué)習(xí)的深度學(xué)習(xí)技術(shù)發(fā)展成熟,在路面裂縫的檢測(cè)方面也有很好的應(yīng)用。因此,本文將深度學(xué)習(xí)中的目標(biāo)檢測(cè)技術(shù)應(yīng)用到灌封裂縫的檢測(cè)上,利用自主建立的灌封裂縫圖像集,結(jié)合多模型及多尺度定位中增加候選框的方式,提出了用于路面灌封裂縫檢測(cè)的改進(jìn)Faster R-CNN模型。
為了得到可用于深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練的灌封裂縫圖像數(shù)據(jù),需要構(gòu)建灌封裂縫原始圖像數(shù)據(jù)集,并對(duì)其進(jìn)行數(shù)據(jù)增廣處理。本實(shí)驗(yàn)所用的瀝青路面灌封裂縫圖像采用手機(jī)拍攝方式獲取,采集區(qū)域主要是在長(zhǎng)安大學(xué)渭水校區(qū)的河堤路一帶,共拍攝930幅灌封裂縫圖像。
由于灌封裂縫圖像大多取自同一路段,圖像具有相似的特征分布,因此需要對(duì)數(shù)據(jù)集進(jìn)行篩選,首先選擇采用正視角拍攝、清晰度好、分辨率高的700幅圖像,這些圖像具有目標(biāo)明顯、背景均勻的特點(diǎn)。為了提高模型檢測(cè)精度,需要對(duì)訓(xùn)練樣本集進(jìn)行增廣。圖像增廣方式主要有兩類方法:一類為幾何變換方法,如水平翻轉(zhuǎn)、偏移處理、裁剪、旋轉(zhuǎn)等;另一類為像素變換方法,如顏色抖動(dòng)、增加噪聲等。文中主要采用幾何變換的方式進(jìn)行圖像增廣。將采集到的圖像按照一定的角度進(jìn)行旋轉(zhuǎn)(每次旋轉(zhuǎn)45°)。經(jīng)過上述數(shù)據(jù)增廣處理,最終得到7 116幅灌封裂縫圖像。數(shù)據(jù)增廣后的部分灌封裂縫圖像如圖1所示。
圖1 數(shù)據(jù)增廣后的部分灌封裂縫圖像Fig.1 Partial sealed crack images after data enlargement
Faster R-CNN是對(duì)R-CNN和Fast R-CNN網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn),R-CNN、Fast R-CNN、Faster R-CNN在網(wǎng)絡(luò)結(jié)構(gòu)上的主要改進(jìn)及網(wǎng)絡(luò)性能對(duì)比如表1所示。
表1 3種網(wǎng)絡(luò)的性能對(duì)比Table1 Performance comparison among three networks
文中選擇Faster R-CNN作為灌封裂縫檢測(cè)的主要網(wǎng)絡(luò)模型,其結(jié)構(gòu)見圖2,主要包括4部分:
(1)特征提取層。R-CNN網(wǎng)絡(luò)需要對(duì)每個(gè)子圖進(jìn)行卷積層特征提取,而Faster R-CNN只需要對(duì)全圖進(jìn)行一次特征提取,因此大大減少了計(jì)算時(shí)間。
(2)RPN層。Faster R-CNN主要使用RPN訓(xùn)練的方式生成候選框并利用softmax判斷候選框區(qū)域內(nèi)是待檢測(cè)目標(biāo)還是圖像背景,之后采用邊界框回歸方法調(diào)整候選框的位置,得到特征子圖。
(3)ROI池化層。該層可對(duì)尺寸不同的特征子圖進(jìn)行歸一化處理,將尺寸相同的特征子圖送入后續(xù)的全連接層進(jìn)行目標(biāo)分類和位置調(diào)整。
(4)分類回歸層。該層主要利用ROI池化層輸出的特征子圖,判斷其類別,同時(shí)對(duì)邊界框進(jìn)行回歸,從而得到候選框精確的形狀和位置。
文中對(duì)網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)置及調(diào)整主要有:
(1)采用VGG16網(wǎng)絡(luò)模型進(jìn)行特征提取,該模型包含13個(gè)conv-relu層和4個(gè)max-pooling層,具體網(wǎng)絡(luò)層及其參數(shù)設(shè)置如表2所示。將原始圖像統(tǒng)一縮放為M×N=800×600大小,通過卷積后,特征圖的尺寸變?yōu)?M/16)×(N/16)=50×38。
(2)調(diào)整RPN層,以提升候選框的生成速度。RPN和特征子圖結(jié)構(gòu)如圖3所示,RPN使用3×3卷積在最后卷積得到的特征圖上進(jìn)行滑動(dòng)掃描,這個(gè)滑動(dòng)網(wǎng)絡(luò)每次與特征圖上n×n(文中n=3)的窗口全連接,然后映射到一個(gè)低維向量(256維 ZF/512維VGG),最后將這個(gè)低維向量送入到兩個(gè)全連接層,即回歸層和分類層?;瑒?dòng)窗口的處理方式保證回歸層和分類層關(guān)聯(lián)了卷積層的全部特征空間。
圖2 Faster R-CNN的結(jié)構(gòu)Fig.2 Structure of faster R-CNN
圖3 RPN和特征子圖的結(jié)構(gòu)Fig.3 Structure of RPN and proposal layer
表2 VGG16網(wǎng)絡(luò)模型參數(shù)設(shè)置Table 2 Parameter setting of VGG16 network model
由于文中對(duì)網(wǎng)絡(luò)進(jìn)行的改進(jìn)以及漏檢問題的解決主要是通過對(duì)候選框的調(diào)整來解決,因此,這里給出候選框的生成及選擇機(jī)制。
(1)候選框的生成
Anchor通過調(diào)用生成函數(shù),使用3個(gè)ratio(0.5、1.0、2.0)和3個(gè)scale (8、16、32)對(duì)基礎(chǔ)框(0,0,15,15)做變換,得到9種不同的框。因?yàn)樘卣魈崛『蟮玫降奶卣鲌D的尺寸是原圖像通過池化操作將寬、高各縮小16倍得到的,因此特征圖上的每一個(gè)像素點(diǎn)就對(duì)應(yīng)著原圖上同區(qū)域一個(gè)16×16的區(qū)域。Anchor的基礎(chǔ)大小就是根據(jù)這個(gè)基礎(chǔ)大小進(jìn)行變換的。基礎(chǔ)模具的面積為16×16=256,在經(jīng)過比例(0.5、1.0、2.0)的變換后,對(duì)應(yīng)的面積、寬度、高度如表3所示,變換后的結(jié)果如圖4(a)所示。
表3 變換后的Anchor尺寸Table 3 Size of anchor after transformation
之后還要進(jìn)行等比例scale(8,16,32)放縮,就是上面得到的基礎(chǔ)尺寸進(jìn)行8、16、32倍的縮放。以寬高比值1為例,變換后結(jié)果如圖4(b)所示。
(2)Softmax判斷候選區(qū)域類型
通過比較這些候選框和真實(shí)目標(biāo)框之間的重疊情況來判斷候選框的類型(是前景或是背景)。一般認(rèn)為目標(biāo)都在前景中,前景中可能有多種目標(biāo),給每個(gè)候選框打上前景或背景的標(biāo)簽后再進(jìn)行RPN訓(xùn)練。訓(xùn)練時(shí)網(wǎng)絡(luò)正負(fù)樣本總數(shù)為256,其中正負(fù)樣本個(gè)數(shù)各占一半,并且規(guī)定正樣本不足可以用負(fù)樣本填充。
圖4 Anchor的生成示意圖Fig.4 Schematic diagram of anchor generation
(3)確定候選框的位置
RPN的另一個(gè)功能是確定候選框的位置,首先計(jì)算出前景的大致位置,之后在特征子圖上精確計(jì)算候選框的坐標(biāo)值(x,y,w,h)。如圖5所示,最小的框代表當(dāng)前候選框,最大的框代表真實(shí)候選框,因此需要對(duì)生成的候選框進(jìn)行調(diào)整,這個(gè)過程稱為邊界框回歸。Softmax給所有的邊界框回歸打上了標(biāo)簽后,還需要建立候選框和真實(shí)目標(biāo)框的關(guān)系。假設(shè)候選框中心位置坐標(biāo)是(Ax,Ay),寬和高分別為Aw、Ah,對(duì)應(yīng)真實(shí)目標(biāo)框的4個(gè)值為Gx、Gy、Gw、Gh,則兩者之間的關(guān)系為
主要操作為先平移后縮放。dx(A)、dy(A)、dw(A)、dh(A)是這兩者之間的偏移量,即網(wǎng)絡(luò)需要學(xué)習(xí)的4個(gè)變量,由式(1)可推導(dǎo)出式(2)。
圖5 邊框回歸損失函數(shù)的計(jì)算Fig.5 Calculation of frame regression loss function
(1)
(2)
這里用對(duì)數(shù)來表示寬高的差別,是為了在差別大時(shí)能快速收斂、差別小時(shí)能較慢收斂,以保證精度。
(3)
分類損失函數(shù)公式如下:
(4)
邊框回歸公式如下:
(5)
(6)
本實(shí)驗(yàn)數(shù)據(jù)總量為7 116幅,為驗(yàn)證訓(xùn)練集數(shù)量對(duì)實(shí)驗(yàn)的影響,分別隨機(jī)選擇4 375幅和7 116幅灌封裂縫圖像作為子數(shù)據(jù)集進(jìn)行訓(xùn)練。訓(xùn)練集、驗(yàn)證集和測(cè)試集的比例為6∶2∶2,模型的其他訓(xùn)練參數(shù)設(shè)置如表4所示。
表4 模型訓(xùn)練參數(shù)設(shè)置Table 4 Setting of model training parameters
為使學(xué)習(xí)率緩慢變化,訓(xùn)練次數(shù)的設(shè)置要大于50 000,在本實(shí)驗(yàn)中,初始訓(xùn)練次數(shù)使用網(wǎng)絡(luò)默認(rèn)訓(xùn)練次數(shù)70 000。
Faster R-CNN模型對(duì)不同灌封裂縫數(shù)據(jù)集的檢測(cè)結(jié)果如表5所示。從表中可知:基礎(chǔ)學(xué)習(xí)率對(duì)實(shí)驗(yàn)結(jié)果的影響較大,學(xué)習(xí)率由0.001 00降到0.000 10后,灌封裂縫的檢測(cè)精度AP由0.875 4提升至0.899 4,而學(xué)習(xí)率為0.000 01時(shí),灌封裂縫的AP下降為0.882 1,說明該模型在學(xué)習(xí)率為0.000 10時(shí)檢測(cè)效果最好。
當(dāng)灌封裂縫的訓(xùn)練集樣本數(shù)由4 375增加至7 116時(shí),AP值由0.899 4變?yōu)?.903 1,提升了0.4%。此時(shí)灌封裂縫的AP值已經(jīng)達(dá)到了0.9,由于訓(xùn)練集數(shù)據(jù)增加2 282幅后檢測(cè)精度的提升十分有限,因此不再通過增加訓(xùn)練集樣本數(shù)的方式來優(yōu)化網(wǎng)絡(luò)。
表5 Faster R-CNN模型對(duì)不同灌封裂縫數(shù)據(jù)集的檢測(cè)結(jié)果
Table 5 Detection results of faster R-CNN model for different sealed crack datasets
序號(hào)訓(xùn)練樣本數(shù)測(cè)試樣本數(shù)學(xué)習(xí)率AP135008750.001000.8754235008750.000100.8994335008750.000010.88214578213340.000100.9031
當(dāng)學(xué)習(xí)率為0.000 10,訓(xùn)練不同灌封裂縫時(shí)Faster R-CNN損失函數(shù)隨迭代次數(shù)的變化曲線見圖6,對(duì)應(yīng)的準(zhǔn)確率-召回率(P-R)曲線見圖7,不同灌封裂縫訓(xùn)練集的檢測(cè)效果對(duì)比見圖8,訓(xùn)練集為5 782時(shí)模型對(duì)灌封裂縫有代表性的樣例檢測(cè)結(jié)果見圖9。
圖6 不同灌封裂縫訓(xùn)練集時(shí)Faster R-CNN的損失值對(duì)比
Fig.6 Comparison of faster R-CNN loss for different sealed crack training sets
圖7 不同灌封裂縫訓(xùn)練集時(shí)Faster R-CNN的P-R曲線
Fig.7P-Rcurves of faster R-CNN for different sealed crack training sets
圖8 不同灌封裂縫訓(xùn)練集時(shí)Faster R-CNN的檢測(cè)效果對(duì)比
Fig.8 Comparison of detection effects of faster R-CNN for different sealed cracks training sets
Fig.9 Some detection results of faster R-CNN for sealed crack images
從圖6中可知,兩條損失函數(shù)曲線的下降走勢(shì)大致相同,且最終都達(dá)到收斂狀態(tài)。經(jīng)比較發(fā)現(xiàn)訓(xùn)練集樣本量越大,損失值的收斂速度越快。
在P-R圖像做一條y=x的直線,一定與該P(yáng)-R曲線相交,交點(diǎn)大概在點(diǎn)(0.9,0.9)附近,這個(gè)焦點(diǎn)稱為平衡點(diǎn)。從圖7可知,兩條P-R曲線的走勢(shì)相似,都是當(dāng)召回率由0增加到0.9時(shí),準(zhǔn)確率由1.0緩慢下降到0.9,當(dāng)召回率由0.9增加到1.0時(shí),準(zhǔn)確率急劇下降。用P-R圖判斷一個(gè)模型的性能,一般認(rèn)為曲線的平衡點(diǎn)越接近點(diǎn)(1.0,1.0)越好,由此判斷Faster R-CNN模型的檢測(cè)效果較好。
從圖8可知,這兩幅圖像中實(shí)際上均存在3條灌封裂縫,但文中模型都只檢測(cè)出相同的兩個(gè)較大目標(biāo),圖像中右上角的灌封裂縫被漏檢。同時(shí),在訓(xùn)練樣本集樣本較少的情況下,還存在誤檢的情況,即圖8(a)中檢測(cè)框3是較為明顯的誤檢現(xiàn)象,從面積和數(shù)量上都會(huì)嚴(yán)重影響病害程度的評(píng)價(jià)。在增加訓(xùn)練集樣本數(shù)后,從圖8(b)中可以看出,誤檢現(xiàn)象基本解決。從圖9可以看出,該模型對(duì)細(xì)長(zhǎng)的灌封裂縫的檢測(cè)效果較為理想。
前面使用Faster R-CNN訓(xùn)練的模型檢測(cè)灌封裂縫時(shí),雖然檢測(cè)精度為0.903 1,但灌封裂縫位于圖像邊緣時(shí)存在漏檢的情況。因此,需要對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化,以減少漏檢情況并提高檢測(cè)的準(zhǔn)確率。
在進(jìn)行多模型結(jié)合時(shí),文中分別采用VGG16、ZFNet和ResNet網(wǎng)絡(luò)的特征提取層與Faster R-CNN網(wǎng)絡(luò)進(jìn)行結(jié)合,并對(duì)比分析其檢測(cè)結(jié)果。VGG16、ZFNet和ResNet網(wǎng)絡(luò)是深度學(xué)習(xí)中比較常用的模型,特別是ResNet系列模型,在公開數(shù)據(jù)集上具有較高的檢測(cè)精度。因此,文中選擇VGG16、ZFNet和ResNet50網(wǎng)絡(luò)的特征提取層進(jìn)行灌封裂縫的特征提取。具體結(jié)合方法為:在Faster R-CNN的特征提取網(wǎng)絡(luò)分別使用VGG16、ZFNet和ResNet50的特征提取層,并單獨(dú)進(jìn)行特征提取,之后修改特征圖通道數(shù)與RPN網(wǎng)絡(luò)銜接處的通道數(shù)一致,最后利用路面灌封裂縫數(shù)據(jù)進(jìn)行訓(xùn)練測(cè)試,檢測(cè)結(jié)果如表6所示。從表中可知,VGG16模型的檢測(cè)精度最高,比ZFNet和ResNet50的結(jié)果分別高出了8%和4%左右。
表6 Faster R-CNN 結(jié)合不同網(wǎng)絡(luò)特征提取層的檢測(cè)結(jié)果
Table 6 Detection results by faster R-CNN combining with feature extraction layers of different networks
序號(hào)結(jié)合網(wǎng)絡(luò)訓(xùn)練集測(cè)試集AP1VGG16578213340.90732ZFNet578213340.82293ResNet50578213340.8645
鑒于以上檢測(cè)結(jié)果,文中分別將ZFNet和ResNet50的網(wǎng)絡(luò)結(jié)構(gòu)與VGG16進(jìn)行比較分析。
ZFNet和VGG16網(wǎng)絡(luò)的特征提取結(jié)構(gòu)相似,具體的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)比分析見表7。從表中可知:
(1)ZFNet網(wǎng)絡(luò)中用于特征提取的卷積核尺寸是多變的,而VGG16的卷積核尺寸為3×3。ZFNet在原圖像上卷積時(shí)卷積核尺寸為7×7,在第一層卷積層上的卷積核尺寸為5×5,后面的卷積層都是3×3的。剛開始的卷積層得到的是目標(biāo)的物理、邊緣、顏色、紋理等初級(jí)特征。后面的特征提取是基于前一層的卷積結(jié)果進(jìn)行的,ZFNet網(wǎng)絡(luò)前幾層提取的卷積核尺寸有點(diǎn)大,使得卷積得到的初級(jí)特征不夠細(xì)致。
(2)在卷積的第五層特征圖輸出個(gè)數(shù)方面,ZFNet輸出的是256幅特征圖,而VGG16輸出的是512幅特征圖,VGG16的輸出個(gè)數(shù)是ZFNet的2倍,因此VGG16在全連接層的特征組合也比ZFNet更加豐富。綜上所述可知,文中網(wǎng)絡(luò)的特征提取層結(jié)合VGG16后的檢測(cè)效果要比結(jié)合ZFNet的效果好。
表7 ZFNet和VGG16的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)比
Table 7 Network structure comparison between ZFNet and VGG16
網(wǎng)絡(luò)卷積核尺寸特征圖輸出個(gè)數(shù)VGG163×3 512ZFNet7×7,5×5,3×3256
ResNet和VGG16的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)比如表8所示,從表中可知:ResNet網(wǎng)絡(luò)是跨層次結(jié)構(gòu)的訓(xùn)練方式,而VGG16網(wǎng)絡(luò)則是順序?qū)哟谓Y(jié)構(gòu),這種跨層次結(jié)構(gòu)的訓(xùn)練方式理論上能夠在網(wǎng)絡(luò)層數(shù)上進(jìn)行無限制的累加,ResNet模型在公開數(shù)據(jù)集上表現(xiàn)很好,得益于該網(wǎng)絡(luò)的深層次的特征提取層;ResNet網(wǎng)絡(luò)層數(shù)為54,而VGG16為16,但ResNet的檢測(cè)效果不如VGG16,這似乎并不合理。但查閱了公開數(shù)據(jù)集上ResNet和VGG16模型的比較,兩種模型的結(jié)果相近,而在本實(shí)驗(yàn)中兩者的實(shí)驗(yàn)結(jié)果也接近。
表8 ResNet和VGG16的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)比
Table 8 Network structure comparison between ResNet and VGG16
網(wǎng)絡(luò)網(wǎng)絡(luò)結(jié)構(gòu)網(wǎng)絡(luò)層數(shù)VGG16順序?qū)哟谓Y(jié)構(gòu) 16 ResNet跨層次結(jié)構(gòu) 54
由于文中的研究對(duì)象是灌封裂縫,具有寬高比例不協(xié)調(diào)的幾何特性,由此可知圖8中右上角的灌封裂縫被漏檢的原因很可能是由于Anchor比例不協(xié)調(diào)導(dǎo)致的。因此,需要修改寬高比例并通過對(duì)比其定位精度,選擇最佳的寬高比。
由于大部分的Anchor都在圖像外部,然而目標(biāo)一定在圖像內(nèi)部,因此需要先剔除超出圖像范圍的Anchor。這時(shí)Anchor的數(shù)量會(huì)減少三分之二左右。之后對(duì)剩余的Anchors進(jìn)行篩選,篩選規(guī)則是利用交并比(IOU)方法進(jìn)行比較,IOU計(jì)算公式如下:
(7)
式中,S1為Anchor區(qū)域的面積,S2為標(biāo)注的真實(shí)區(qū)域的面積。
將IOU=0.7作為標(biāo)注為前景的閾值,而IOU=0.3作為標(biāo)記為背景的閾值,IOU值在0.3~0.7之間的不參與訓(xùn)練。具體篩選規(guī)則如表9所示。
表9 IOU篩選規(guī)則Table 9 IOU filtering rules
文中在原有Anchor尺寸比例的基礎(chǔ)上加上了一些比例(4∶1,6∶1,8∶1,10∶1),這樣有利于一些寬高比例較大的灌封裂縫的定位與識(shí)別。
Anchor尺寸比例修改前后的對(duì)比如圖10所示。實(shí)驗(yàn)結(jié)果如表10所示,訓(xùn)練次數(shù)為70 000,學(xué)習(xí)率為0.000 10,檢測(cè)效果對(duì)比如圖11所示。
表10 不同Anchor寬高比時(shí)的實(shí)驗(yàn)結(jié)果對(duì)比
Table 10 Comparison of detection results under different Anchor aspect ratios
訓(xùn)練集測(cè)試集Anchor寬高比AP578213341∶1,1∶2,2∶10.9031578213341∶1,1∶2,2∶1,1∶4,1∶6,1∶8,1∶10,10∶1,8∶1,6∶1,4∶10.9070
從圖11可知,在修改候選框Anchor的尺寸比例之后,漏檢問題得到了很好的解決,因此修改候選框比例是解決漏檢問題的有效手段。
為了更好地驗(yàn)證文中提出的模型的有效性,對(duì)改進(jìn)Faster R-CNN模型與其他深度學(xué)習(xí)網(wǎng)絡(luò)YOLOv2進(jìn)行對(duì)比實(shí)驗(yàn)。在訓(xùn)練集和測(cè)試集相同且學(xué)習(xí)率均為0.000 10時(shí),兩個(gè)模型的檢測(cè)性能如表11所示,兩個(gè)模型對(duì)灌封裂縫的定位效果如圖12所示。從表11和圖12可以看出,雖然Faster R-CNN的訓(xùn)練時(shí)間比YOLOv2長(zhǎng),但測(cè)試時(shí)可達(dá)到實(shí)時(shí)檢測(cè)要求,并且檢測(cè)精度和定位效果均優(yōu)于YOLOv2。因此,文中提出的改進(jìn)Faster R-CNN模型對(duì)檢測(cè)路面灌封裂縫的總體性能明顯優(yōu)于YOLOv2模型。
圖10 修改前后的Anchor尺寸比例Fig.10 Anchor aspect ratio modification before and after
圖11 修改Anchor尺寸比例前后的檢測(cè)效果對(duì)比
Fig.11 Comparison of detection effects before and after Anchor aspect ratio modification
表11 改進(jìn)的Faster R-CNN與YOLOv2的檢測(cè)性能對(duì)比
Table 11 Comparison of detection performance between improved faster R-CNN and YOLOv2
模型訓(xùn)練用時(shí)/h測(cè)試用時(shí)/sAPFaster R-CNN27 0.142 0.9073YOLOv214 0.075 0.9019
圖12 改進(jìn)的Faster R-CNN與YOLOv2對(duì)灌封裂縫的檢測(cè)效果對(duì)比
Fig.12 Comparison of detection effects for sealed cracks between improved faster R-CNN and YOLOv2
針對(duì)路面灌封裂縫的精準(zhǔn)檢測(cè)問題,文中提出了一種基于改進(jìn)Faster R-CNN模型的路面灌封裂縫自動(dòng)檢測(cè)方法,主要包括多模型結(jié)合和多尺度定位中增加候選框?qū)捀弑鹊姆椒?,并將改進(jìn)后的Faster R-CNN與YOLOv2模型進(jìn)行了對(duì)比分析。結(jié)果表明:采用Faster R-CNN模型對(duì)灌封裂縫進(jìn)行目標(biāo)檢測(cè),精度為0.903 1,F(xiàn)aster R-CNN模型檢測(cè)灌封裂縫時(shí)定位效果不夠精準(zhǔn)并且存在漏檢等問題;采用多模型組合和增加候選框比例后,VGG16與Faster R-CNN結(jié)合的檢測(cè)精度最高,達(dá)到0.907 3,候選框?qū)捀弑日{(diào)整后的檢測(cè)效果比未調(diào)整時(shí)精準(zhǔn),并且之前被漏檢的目標(biāo)也能被檢測(cè)出來;改進(jìn)Faster R-CNN的檢測(cè)性能明顯優(yōu)于YOLOv2模型。