摘要:針對現(xiàn)有網(wǎng)絡(luò)多尺度特征提取能力不足造成路面病害因尺寸差異難以完全識別的問題,提出了一種多尺度特征增強(qiáng)的路面病害檢測模型。構(gòu)建基于混合空洞卷積的快速空間金字塔池化模塊,通過堆疊不同膨脹系數(shù)的空洞卷積進(jìn)一步擴(kuò)大網(wǎng)絡(luò)感受野,以實現(xiàn)更大范圍上下文信息的捕捉,并保留更多的空間信息;設(shè)計多路徑特征融合網(wǎng)絡(luò),通過多分支和跳躍連接實現(xiàn)跨層級的特征捕捉,并減少特征融合過程中的信息丟失;采用K-means聚類算法結(jié)合交叉比獲得合理的瞄點(diǎn)框;在損失函數(shù)中,設(shè)計一種面積懲罰項并設(shè)置下降梯度,提高預(yù)測框回歸精度與效率;通過引入跨通道交互的高效注意力實現(xiàn)模型重要通道間的交互。實驗結(jié)果表明:所提模型的檢測精度比原模型YOLOv5s提高了4.0%;與Faster R-CNN、CenterNet等經(jīng)典模型和YOLOv8s、YOLOv7n-tiny等先進(jìn)模型相比,檢測精度提高了1.0%~17.9%。模型經(jīng)TensorRT加速引擎優(yōu)化加速后,在NVIDIA Jetson TX2與NVIDIA Jetson Nano平臺上的檢測速率提高近1倍,同時不影響檢測精度。
關(guān)鍵詞:路面病害檢測;多尺度特征增強(qiáng);混合空洞卷積;特征融合網(wǎng)絡(luò);高效通道注意力;嵌入式平臺
中圖分類號:TP277 文獻(xiàn)標(biāo)志碼:A
DOI:10.7652/xjtuxb202502016 文章編號:0253-987X(2025)02-0156-14
Pavement Disease Detection Model Based on Multi-Scale Feature Reinforcement
HU Peng1, XIA Xiaohua1, ZHONG Yuquan1, DUAN Zhiwei1, YAO Yunshi1, CHENG Gaoli1
(1. Key Laboratory of Road Construction Technology and Equipment of MOE, Chang’an University, Xi’an 710064, China;
2. Shaanxi Expressway Mechanization Engineering Co., Ltd., Xi’an 710038, China)
Abstract:To address the difficulty in fully identifying pavement defects of different sizes caused by insufficient multi-scale feature extraction capability of existing networks, a pavement disease detection model based on multi-scale feature reinforcement was proposed in this paper. Firstly, a fast spatial pyramid pooling module based on mixed dilated convolution was constructed, and by stacking dilated convolutions with different dilation coefficients, the network receptive field was further expanded to capture a larger range of contextual information and preserve more spatial information. Next, a multi-path feature fusion network was designed to achieve cross level feature capture and reduce information loss during the feature fusion process through multiple branches and skip connections. The K-means clustering algorithm was used together with the Intersection over Union to obtain reasonable anchor boxes. In addition, a penalty term for area was designed in the loss function and a descent gradient was set up to improve the accuracy and efficiency of the predicted box regression. Finally, efficient attention through cross channel interaction was introduced to achieve interaction between important channels in the model. Experimental results show that in terms of detection accuracy, the proposed model was 4.0% higher than the original model YOLOv5s and 1.0% to 17.9% higher than classical models such as Faster R-CNN and CenterNet and advanced models such as YOLOv8s and YOLOv7n-tiny. After optimization with TensorRT acceleration engine, the detection speed on NVIDIA Jetson TX2 and NVIDIA Jetson Nano embedded platforms nearly doubled without compromising the detection accuracy.
Keywords:pavement disease detection; multi-scale feature reinforcement; mixed dilated convolution; feature fusion network; efficient channel attention; embedded platform
隨著交通運(yùn)輸領(lǐng)域的快速發(fā)展,道路總里程不斷增加,交通安全問題已經(jīng)成為人們關(guān)注的焦點(diǎn)。路面的狀況直接關(guān)系到車輛行駛的安全,而路面病害的存在會導(dǎo)致路面狀況惡化,對車輛行駛安全和路面使用壽命產(chǎn)生不利影響。因此,對路面病害及時檢測并修復(fù)對延長路面使用壽命和保障車輛行駛安全具有重要意義。為及時客觀地檢測到車轍、裂縫、坑槽等路面病害,從而進(jìn)行有效的路面養(yǎng)護(hù),需要采用準(zhǔn)確的病害檢測手段[1]。
目前,路面病害的檢測方法包括人工巡檢、傳統(tǒng)圖像處理算法以及機(jī)器學(xué)習(xí)等。然而,傳統(tǒng)的人工巡檢存在人工疲勞、漏檢和成本高等問題,且易受主觀判斷的影響,存在較大的誤差[2]。由于道路病害形狀各異,且路面存在油斑、路面標(biāo)志等強(qiáng)干擾,傳統(tǒng)圖像處理算法對病害的檢測性能有限[3]。Tang等[4]利用灰度與形態(tài)學(xué)等算法檢測裂縫,存在對噪聲敏感和計算耗時長的問題。Zhao等[5]改進(jìn)Canny算子,并在路面裂縫檢測中成功應(yīng)用,但易受斑馬線等干擾。
隨著信息技術(shù)的發(fā)展和深度學(xué)習(xí)算法的不斷優(yōu)化,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)在圖像識別領(lǐng)域取得了巨大成功[6]。近年來,深度學(xué)習(xí)在道路表觀病害檢測領(lǐng)域被廣泛應(yīng)用。Zhang等[7]首次將深度學(xué)習(xí)算法應(yīng)用于路面裂縫檢測問題的研究中,該方法在裂縫尺寸分布不均勻、背景噪聲復(fù)雜等情況下仍然表現(xiàn)出良好的檢測效果。張偉光等[8]使用三層卷積層和兩層全連接層設(shè)計了一個卷積神經(jīng)網(wǎng)絡(luò)模型,實現(xiàn)了準(zhǔn)確的裂縫識別。王麗蘋等[9]基于AlexNet網(wǎng)絡(luò)架構(gòu)設(shè)計了一種路面裂縫檢測模型,該模型能夠準(zhǔn)確且快速地識別裂縫。但是,上述研究僅判斷圖像中是否存在裂縫,不能對裂縫定位。孫朝云等[10]將VGG16網(wǎng)絡(luò)與Faster R-CNN結(jié)合并改進(jìn)裂縫瞄點(diǎn)框的生成方法,提高了對小尺度裂縫的定位精度,但感受野有限且多尺度特征未得到充分的融合。許貴陽等[11]在Faster R-CNN中引入引導(dǎo)瞄框,在不同尺度上生成區(qū)域建議,提高了裂縫檢測的針對性,但缺乏對多尺度特征進(jìn)行有效融合的機(jī)制。羅暉等[12]設(shè)計了YOLOv4+DC+FL算法,通過引入損失函數(shù)和遷移學(xué)習(xí)策略提高對多尺度路面病害的檢測精度,但未考慮網(wǎng)絡(luò)池化層和特征融合層等方面對多尺度的影響。Roy等[13]在YOLOv5的特征融合階段增加小目標(biāo)檢測層,并結(jié)合了Swin-Transformer模塊,雖然在特征融合階段考慮了多尺度病害特征的增強(qiáng),但忽略了池化階段感受野有限和存在信息損失的問題。Li等[14]基于YOLOv5設(shè)計了一種從邊緣到客戶端的道路損壞檢測系統(tǒng),該系統(tǒng)具有較好的實時性,但沒有針對路面病害多尺度特性去優(yōu)化網(wǎng)絡(luò)。周中等[15]在YOLOX算法的基礎(chǔ)上提出了一種名為YOLOX-G的實時裂縫圖像檢測算法,其特征融合階段采用卷積和上下采樣對多尺度特征進(jìn)行融合,存在信息損失從而不利于多尺度裂縫的檢測。Xiang等[16]通過在YOLOv5s特征融合網(wǎng)絡(luò)中引入Space-to-depth-Conv模塊提高對小尺度病害的檢測精度,但依舊未考慮多尺度信息在融合過程中的損失。盡管上述方法在整體檢測精度或?qū)崟r性方面取得了效果,然而它們通常只關(guān)注單個或少數(shù)病害類別,未充分考慮實際路面病害種類的多樣性和病害在空間上的大小差異。病害在空間上的大小差異導(dǎo)致路面病害特征呈現(xiàn)出多尺度的復(fù)雜性,現(xiàn)有網(wǎng)絡(luò)在應(yīng)對這種多尺度的路面病害特征時,往往會暴露出多尺度特征處理能力不足的問題,造成病害因尺寸差異大而不能實現(xiàn)準(zhǔn)確的識別。
針對上述存在的問題,本文首先優(yōu)選包含7種病害類別的開源數(shù)據(jù)集,相較于以往僅關(guān)注單一或少數(shù)病害類別的研究,更全面地考慮了路面病害類別及尺寸差異。其次,基于YOLOv5s提出多尺度特征增強(qiáng)的路面病害檢測模型,充分提取與融合多尺度特征,以提高不同尺度病害的識別與定位精度。本文的主要創(chuàng)新如下:
(1)針對池化階段感受野有限和不同尺度池化操作導(dǎo)致信息丟失的問題,提出一種基于混合空洞卷積的快速空間金字塔池化模塊(mixed dilated convolution-SPPF,MdC-SPPF),通過混合空洞卷積增強(qiáng)相鄰像素點(diǎn)之間的空間關(guān)系,有效地捕捉更大范圍的上下文信息,同時減少信息丟失,從而使得模型在處理不同尺度的特征時更加魯棒。為進(jìn)一步有效捕捉復(fù)雜的多尺度特征,通過一種不降維跨通道交互的注意力,顯式關(guān)注重要通道間的多尺度目標(biāo)區(qū)域,從而提高模型的魯棒性。
(2)針對多尺度信息融合不充分和原始多尺度特征融合網(wǎng)絡(luò)中存在部分信息損失的問題,設(shè)計一種多路徑特征融合網(wǎng)絡(luò)(multi-path feature fusion,MF-CSP)。通過構(gòu)建多條并行路徑,分別提取并融合不同尺度的特征,從而能夠更全面地捕捉到病害在各個尺度上的信息特征,以提高模型的檢測精度和對各種尺度病害的魯棒性。
(3)針對瞄點(diǎn)框會影響模型對多尺度目標(biāo)的檢測效果,本文改用交叉比(intersection over union,IoU)幫助網(wǎng)絡(luò)更好地學(xué)習(xí)不同尺寸的病害。為進(jìn)一步提高多尺度目標(biāo)檢測的效果和穩(wěn)定性,建立基于面積懲罰項和帶梯度變化的損失函數(shù)(SGCIoU_Loss),提高損失函數(shù)對形狀和尺度差異較大的目標(biāo)的敏感度。
(4)在開源數(shù)據(jù)集上證明本文模型優(yōu)越的多尺度特征處理性能,再將訓(xùn)練好的模型分別部署在NVIDIA Jetson TX2和NVIDIA Jetson Nano兩個不同算力的平臺上進(jìn)行測試,驗證該模型在嵌入式設(shè)備上進(jìn)行病害檢測的性能及在實際工程中應(yīng)用的可行性。
1 病害檢測模型
1.1 YOLOv5s模型
在深度學(xué)習(xí)模型選擇方面,選擇YOLO系列模型[17-18]。其中,YOLOv5[19]作為該系列中典型且成熟的目標(biāo)檢測算法,廣泛應(yīng)用于路面病害檢測領(lǐng)域中。YOLOv5的網(wǎng)絡(luò)結(jié)構(gòu)[16]如圖1所示。YOLOv5包含YOLOv5n、YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x這5種網(wǎng)絡(luò)寬度和深度逐步增大的變體模型以滿足不同檢測任務(wù)的需求。為保證所選取的模型能夠有效地捕捉數(shù)據(jù)特征,同時考慮到實際計算資源有限,本文選用網(wǎng)絡(luò)深度和寬度較適中的YOLOv5s作為基線模型。
1.2 多尺度特征增強(qiáng)的病害檢測模型
本文提出的多尺度特征增強(qiáng)模型如圖2所示,主要結(jié)構(gòu)包括主干網(wǎng)絡(luò)、高效通道注意力、池化結(jié)構(gòu)、多尺度特征融合網(wǎng)絡(luò)及檢測端。該模型以YOLOv5s模型作為主框架,采用本文提出的基于混合空洞卷積的快速空間金字塔池化作為模型的池化結(jié)構(gòu),通過高效通道注意力實現(xiàn)重要通道間的交互,利用所設(shè)計的多路徑特征融合網(wǎng)絡(luò)實現(xiàn)不同層級間多尺度語義信息的融合,K-means聚類算法結(jié)合IoU獲得合理的瞄點(diǎn)框。在損失函數(shù)方面,構(gòu)建基于面積懲罰項和帶梯度變化的損失函數(shù),實現(xiàn)模型權(quán)重的不斷優(yōu)化。
1.2.1 MdC-SPPF模塊
SPPF模塊采用金字塔池化操作,將特征圖經(jīng)過3次池化,得到不同尺度的子特征圖,后經(jīng)連接層拼接成固定長度的特征向量,在保留空間信息的同時實現(xiàn)了多尺度的感受野,從而增強(qiáng)模型的魯棒性和泛化能力。但是,池化窗口大小和感受野仍然是有限的,并且池化運(yùn)算后會造成特征尺度的下降,從而帶來邊界信息的缺失,不利于路面病害的檢測。為此,本文提出基于混合空洞卷積的快速空間金字塔池化模塊,結(jié)構(gòu)如圖3所示。
MdC-SPPF模塊中的具體實現(xiàn)步驟如下:首先,利用3個膨脹系數(shù)不同的標(biāo)準(zhǔn)空洞卷積[20-21]搭建一個混合空洞卷積塊,如圖3(a)所示。其中,為使混合空洞卷積完全覆蓋特征層區(qū)域,充分學(xué)習(xí)輸入的信息,將膨脹系數(shù)設(shè)置為1、2、5。每個標(biāo)準(zhǔn)空洞卷積的卷積核大小、步長分別設(shè)置1×1和1,以高效地關(guān)注局部細(xì)節(jié),并減少細(xì)節(jié)信息損失。接著,將該混合空洞卷積嵌入到每個池化層后,更好地捕捉大范圍的語義信息,提高網(wǎng)絡(luò)在處理多尺度路面病害特征時的性能。
1.2.2 多路徑特征融合網(wǎng)絡(luò)
YOLOv5中的特征融合網(wǎng)絡(luò)由路徑聚合網(wǎng)絡(luò)和特征金字塔網(wǎng)絡(luò)構(gòu)成,通過融合不同尺度的特征,以獲取豐富的語義信息并更好地適應(yīng)多尺度目標(biāo)的檢測任務(wù)。但是,不同尺度的特征在融合過程中會有一定的損失。為盡量減少這種損失,借助殘差網(wǎng)絡(luò)的思想,設(shè)計了一種多路徑特征融合網(wǎng)絡(luò),以改善經(jīng)卷積后可能導(dǎo)致語義信息丟失的問題,其結(jié)構(gòu)如圖4所示。首先,在SPPF結(jié)構(gòu)后新增一個4倍上采樣操作,將其連接到兩個2倍上采樣和卷積操作的支路,以融合高分辨率和更高語義的特征。其次,在特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)中,在每個C3結(jié)構(gòu)處構(gòu)建殘差結(jié)構(gòu),維護(hù)信息的一致性,最小化信息的損失,有助于更好地捕獲和融合不同層級的特征。最后,在SPPF結(jié)構(gòu)后執(zhí)行逐點(diǎn)卷積,將SPPF結(jié)構(gòu)輸出的特征與卷積塊輸出的特征進(jìn)行拼接,增強(qiáng)特征的多樣性,從而在路面病害檢測任務(wù)中獲得更好的性能。
1.2.3 瞄點(diǎn)框獲取
原始算法通過K-means聚類算法和遺傳算法來生成一組瞄點(diǎn)框。瞄點(diǎn)框定義了模型期望檢測到的目標(biāo)形狀和大小,使模型可以更好地適應(yīng)不同尺度的目標(biāo)。然而,路面病害形狀存在尺度變化較大、長寬比顯著不同等特點(diǎn)[22],導(dǎo)致初始聚類算法所采用的歐式距離公式不能很好地聚類出與病害形狀相似的瞄點(diǎn)框,故在K-means聚類算法中結(jié)合IoU聚類出適合本文數(shù)據(jù)集的瞄點(diǎn)框。距離度量的定義如下
d=1-φIoU(g,a)(1)
式中:d表示兩框間的距離;φIoU表示兩框交叉比函數(shù);g、a分別表示真實框、瞄點(diǎn)框。
1.2.4 SGCIoU_Loss損失函數(shù)
損失函數(shù)作為CNN模型訓(xùn)練過程中的目標(biāo)函數(shù),決定模型權(quán)重的優(yōu)化方向。最早使用IoU衡量預(yù)測框與真實框之間的重疊程度,即兩框的交集面積除以它們的并集面積。在YOLOv5中改用回歸性能較好的回歸函數(shù)CIoU[23],綜合考慮了IoU、兩框中心點(diǎn)間的距離與兩框長寬比,使得預(yù)測結(jié)果具有較高的準(zhǔn)確性和穩(wěn)定性。IoU及CIoU的定義如下
RIoU=bpred∩btruebpred∪btrue(2)
RCIoU=RIoU-ρ2(b,bgt)c2-αβ(3)
式中:bpred、btrue為預(yù)測框、真實框面積;b和bgt為預(yù)測框和真實框的中心點(diǎn);c為同時包含病害的預(yù)測框和真實框的最小區(qū)域?qū)蔷€長度;ρ2(b,bgt)為兩框中心點(diǎn)間歐氏距離的平方;αβ為懲罰項,反映了預(yù)測框和真實框之間寬高比的差異。β和α分別為兩框?qū)捀弑纫恢滦詤?shù)和權(quán)衡量,定義如下
β=4π2arctanwAhA-arctanwBhB2
α=β1-RIoU+β
式中:(wA,hA)和(wB,hB)為真實框和預(yù)測框的寬高;β由真實框的寬高和預(yù)測框的寬高動態(tài)調(diào)整,該值越小,表示兩框?qū)捀弑仍浇咏沟媚P透幼⒅仡A(yù)測框的形狀,提升目標(biāo)檢測的精度和魯棒性;α動態(tài)平衡RIoU和β,確保在不同RIoU水平下都有合適的梯度信號,提升模型的檢測精度和可靠性。
病害形狀通常長寬比差異較大,兩框之間的重合度對兩框中心點(diǎn)間歐氏距離較為敏感,不利于預(yù)測框的準(zhǔn)確回歸。為此,本文在CIoU的基礎(chǔ)上新增面積懲罰項,并以此建立新的回歸函數(shù)RSCIoU,定義如下
RSCIoU=RCIoU+s=
RCIoU+2πarctanwAhA+wBhBmax(wA,wB)max(hA,hB)(4)
s=2πarctanwAhA+wBhBmax(wA,wB)max(hA,hB)(5)
式中:s為面積懲罰項。
為提升預(yù)測框回歸精度以及提升模型的收斂速度,設(shè)計了基于面積懲罰項和帶梯度變化的損失函數(shù),定義如下
LSGCIoU=lg2-lg(1+RSCIoU)(6)
1.2.5 高效通道注意力模塊
在卷積神經(jīng)網(wǎng)絡(luò)中,常通過注意力機(jī)制突出目標(biāo)特征。在計算注意力過程中,文獻(xiàn)[24]證明了通道降維不利用通道間的學(xué)習(xí),因此本文通過高效通道注意力模塊[24]對重要的多尺度特征進(jìn)行增強(qiáng)。該模塊通過一維卷積,在不改變通道維度的同時實現(xiàn)跨通道交互,其結(jié)構(gòu)如圖5所示。通過關(guān)注通道間關(guān)系來進(jìn)一步強(qiáng)化模型多尺度能力,而無需引入大量額外參數(shù)。一維卷積根據(jù)輸入通道數(shù)自適應(yīng)地選擇其卷積核大小,確保通道注意力高效有效。
2 實驗驗證與結(jié)果分析
2.1 數(shù)據(jù)集準(zhǔn)備與環(huán)境搭建
為驗證本文改進(jìn)方法的有效性及模型多尺度性能,選取由全球道路損傷檢測挑戰(zhàn)賽提供的開源數(shù)據(jù)集Road Damage Detection Challenge 2020[25],包含捷克、印度和日本這3個國家的道路病害圖像。本文優(yōu)選了日本國家的數(shù)據(jù),稱作RDDJ數(shù)據(jù)集,因為該部分?jǐn)?shù)據(jù)樣本量最大且病害類型豐富,有助于評估模型的性能。RDDJ數(shù)據(jù)集包含10506張分辨率為600×600像素的圖像,含有D20(龜裂,6199張)、D40(坑洞,2243張)、D10(橫向裂縫,3979張)、D00(縱向裂縫,4049張)、D44(白線模糊,3995張)、D43(十字路口模糊,736張)、D50(井蓋,3553張)共7個病害類別。同時,數(shù)據(jù)集按照8∶1∶1的比例隨機(jī)劃分為訓(xùn)練集、驗證集和測試集。
實驗環(huán)境配置如下:操作系統(tǒng)為Windows10專業(yè)版,CPU型號為12th Gen Intel(R) Core(TM) i5-12400F,內(nèi)存為32 GB。加速硬件方面,配備了一塊GeForce RTX 3060 Ti GPU,使用CUDA 11.3和cuDNN 8.2.1進(jìn)行加速。編程語言選用Python 3.8,開發(fā)平臺為Visual Studio Code 2019。此外,網(wǎng)絡(luò)優(yōu)化器為隨機(jī)梯度下降,初始學(xué)習(xí)率為0.001,批次大小設(shè)置為16,訓(xùn)練輪數(shù)設(shè)置為300。
同時,結(jié)合遷移學(xué)習(xí)策略[26]對本文模型進(jìn)行訓(xùn)練,提高模型的泛化能力。將在大型開源數(shù)據(jù)集PASCAL Visual Object Classes Challenge 2007[27]下訓(xùn)練得到的權(quán)重作為初始權(quán)重,并在路面病害數(shù)據(jù)集下對初始權(quán)重微調(diào),最終得到本文的路面病害檢測模型。
2.2 評價指標(biāo)
本文采用在IoU為0.5下的平均精度均值(mean average precision,mAP@0.5)作為模型精度指標(biāo),該指標(biāo)綜合了召回率和準(zhǔn)確率,其定義如下
mAP=1N∫10p(r)dr(7)
式中:N為數(shù)據(jù)中的類別數(shù);p為準(zhǔn)確率;r為召回率。
模型體積、檢測速率常用于衡量模型大小和檢測實時性。為方便全面評價模型在實際應(yīng)用中的可行性,本文使用綜合評價指標(biāo)S對模型進(jìn)行評價,該指標(biāo)綜合考慮了模型體積、檢測速率、mAP@0.5這3個指標(biāo),能夠同時確保每個指標(biāo)的貢獻(xiàn)均衡。先對3個指標(biāo)進(jìn)行歸一化處理,并對歸一化后的結(jié)果求平均值,得到指標(biāo)S,相關(guān)計算方法定義如下
SV=1-V-VminVavgVstd(8)
Sm=mAP-mAP,minmAP,avgmAP,std(9)
SF=F-FminFavgFstd(10)
S=SV+Sm+SF3(11)
式中:SV、Sm、SF分別為模型體積、檢測精度、檢測速率的歸一化結(jié)果;V、mAP、F分別為模型體積、檢測精度、檢測速率;下標(biāo)min、avg、 std分別表示最小值、平均值、標(biāo)準(zhǔn)差。
2.3 消融實驗
為驗證改進(jìn)K-means、SGCIoU_Loss、MdC-SPPF和MF-CSP對病害檢測性能的影響,共設(shè)計了16組消融實驗,結(jié)果如表1所示。
由表1可看出,各改進(jìn)方法均能提升模型的檢測精度。首先,改進(jìn)后的K-means聚類算法能夠生成更符合病害尺度特點(diǎn)的瞄點(diǎn)框,因此提高了模型的魯棒性,mAP@0.5提高了1.9%。其次,SGCIoU_Loss損失函數(shù)有助于提高預(yù)測框回歸的準(zhǔn)確性,從而使模型的mAP@0.5提高了2.1%。引入MdC-SPPF模塊擴(kuò)大了感受野,且有效地改善了因池化導(dǎo)致分辨率減小造成的語義信息丟失問題,提高了模型對多尺度特征的表達(dá)能力,mAP@0.5提高了2.6%。添加MF-CSP后,模型能夠?qū)W習(xí)到更豐富的多尺度語義信息,mAP@0.5提高了2.3%。這些結(jié)果證明了各改進(jìn)方法在提高模型檢測精度方面的有效性。
通過消融實驗結(jié)果可知,改進(jìn)的K-means、SGCIoU_Loss損失函數(shù)、MdC-SPPF和MF-CSP這4種方法組合得到的模型,能夠獲得最高的mAP@0.5,雖然模型的檢測速率有所降低,但依舊達(dá)到了94幀/s,滿足實時性檢測的要求。此外,該模型還獲得最高的S,達(dá)到2.502,較好地兼顧了模型體積、檢測精度與檢測實時性。
為進(jìn)一步驗證消融后的模型對路面病害的多尺度檢測效果,將其與基線模型在測試集上進(jìn)行了對比,其中部分典型結(jié)果如圖6所示??梢钥闯觯噍^于基線模型,消融后的模型在多尺度特征提取方面表現(xiàn)出優(yōu)越的性能,能更準(zhǔn)確地檢測路面病害。如圖6中的示例1所示,基線模型對于遠(yuǎn)處的小尺度病害、與病害特征相近的干擾物(例如圖6示例1中第二行中的落葉)會出現(xiàn)漏檢和誤檢的情況,但消融后的模型在處理類似病害時表現(xiàn)出較高的可靠性。在示例2中,消融后的模型提高了路面病害檢測的置信度,其在多尺度特征提取與融合方面的有效性得到了驗證。綜上可知,經(jīng)消融后獲得的模型在多尺度病害檢測能力方面得到了提升。
2.4 注意力模塊實驗對比
為驗證高效通道注意力模塊對模型多尺度特征的表達(dá)能力,與通道注意力的典型代表壓縮與激勵模塊(squeeze and excitation, SE)和卷積注意力模塊(convolutional block attention module,CBAM)進(jìn)行對比,結(jié)果如表2所示??梢钥闯?,高效通道注意力模塊的檢測精度最高,其次是SE,但添加CBAM降低了模型的檢測精度。
圖7展示了嵌入各注意力模塊后生成的梯度加權(quán)類激活映射(gradient-weighted class activation mapping, Grad CAM)可視化結(jié)果。依據(jù)實驗數(shù)據(jù),并結(jié)合可視化結(jié)果,可進(jìn)一步直觀地分析注意力模塊對多尺度病害區(qū)域的感知能力??梢钥闯?,相比SE和CBAM,高效通道注意力模塊能有效地提高多尺度目標(biāo)區(qū)域的感知效果,同時對背景有一定的抑制的作用。這是因為不降低通道維度更有利于各通道間的交互,進(jìn)而突出多尺度目標(biāo)特征。SE和CBAM因為涉及到通道降維的過程,所以對多尺度特征的關(guān)注和對背景的抑制效果不如高效通道注意力模塊。
2.5 優(yōu)越性檢驗
為進(jìn)一步驗證本文模型的優(yōu)越性,在相同的實驗條件下進(jìn)行對比實驗。對比模型包括Faster R-CNN、SSD等常用模型以及YOLOv8s、YOLOv6n、YOLOv7n-tiny等較新的目標(biāo)檢測模型。此外,還與引言中的文獻(xiàn)[13,15-16]這3個較新的方法進(jìn)行對比,結(jié)果如表3所示。
從表3可知,本文模型的模型體積略大于YOLOv5s、YOLOv7-tiny和文獻(xiàn)[16]中的模型,相較于其他模型仍較小,但mAP@0.5相比于所有模型高出1.0%~17.9%。在檢測速率方面,本文模型雖然略低于YOLOv5s與YOLOv8s和文獻(xiàn)[16]中的模型,但仍能達(dá)到94 幀/s,高于其他模型,滿足實時性的要求。從S來看,本文模型的S最高,表明本文模型在性能綜合考量下兼顧了模型體積、檢測精度以及檢測速率的需求。
為進(jìn)一步直觀地評價本文模型在多尺度特征提取方面的優(yōu)勢,對各模型在測試集上進(jìn)行測試。圖8展示了本文模型、對比模型中最新且精度最高的YOLOv8s及經(jīng)典模型Faster R-CNN的檢測效果。可以看出,F(xiàn)aster R-CNN對小尺度病害或尺度較大但特征不明顯的病害會出現(xiàn)識別不全或漏檢的情況。雖然YOLOv8s相比Faster R-CNN有所改善,但同樣會出現(xiàn)上述漏檢情況。本文模型明顯改善了識別不全和漏檢的情況,證明了本文模型在面對多尺度病害時優(yōu)越的特征提取能力和對實際多尺度路面病害檢測的可靠性。
3 模型的嵌入式移植與推理加速
模型訓(xùn)練在臺式機(jī)上完成,為測試本文模型在實際工程應(yīng)用中的可行性,將其經(jīng)TensorRT優(yōu)化加速后分別在NVIDIA Jetson TX2與NVIDIA Jetson Nano兩個不同算力的嵌入式平臺上部署測試。具體地,在模型推理階段,通過TensorRT加速引擎代替PyTorch引擎,實現(xiàn)對模型的推理加速。
TensorRT是NVIDIA推出的深度學(xué)習(xí)推理加速引擎,原理包括層次優(yōu)化、精度混合等,內(nèi)部程序通過CUDA、C語言編寫[42]。
NVIDIA Jetson TX2與NVIDIA Jetson Nano平臺上的環(huán)境均一致,包括Ubuntu18.04操作系統(tǒng)、Python3.6.9、PyTorch1.10.1深度學(xué)習(xí)框架、CUDA10.2、cuDNN7.6.5以及各種必要的Python庫等。本文模型在不同嵌入式平臺上應(yīng)用不同推理引擎的檢測速率如表4所示。
從表4可知,經(jīng)過TensorRT優(yōu)化加速后,本文模型的檢測速率得到了顯著提升。在NVIDIA Jetson TX2上,檢測速率從8 幀·s-1提高到了13 幀·s-1。在NVIDIA Jetson Nano上,檢測速率從3 幀·s-1提高到了6 幀·s-1。檢測速率在不同邊緣設(shè)備上獲得近1倍的提升。不同模型在不同嵌入式平臺上的檢測效果如圖9所示??梢钥闯?,兩個邊緣設(shè)備推理生成的目標(biāo)檢測框與在Windows10主機(jī)推理生成的幾乎一致,基本沒有精度損失,驗證了本文模型在實際路面病害檢測任務(wù)中的可靠性。
4 結(jié) 論
為實現(xiàn)對實際路面病害準(zhǔn)確地檢測,本文基于YOLOv5s提出多尺度特征增強(qiáng)的路面病害檢測模型,在數(shù)據(jù)集上訓(xùn)練測試并與YOLOv8s、YOLOv7n-tiny、CenterNet等模型及引言中部分較新的方法進(jìn)行對比,最后經(jīng)TensorRT框架分別部署在NVIDIA Jetson TX2與NVIDIA Jetson Nano兩個不同算力的嵌入式平臺上進(jìn)行推理測試。本文結(jié)論如下。
(1)針對病害尺度多元化、背景復(fù)雜及原始池化階段感受野有限等問題,提出嵌有混合空洞卷積的快速空間特征金字塔池化模塊,有效地提高了模型對多尺度特征的提取能力。其次,在路徑聚合網(wǎng)絡(luò)和特征金字塔網(wǎng)絡(luò)的基礎(chǔ)上設(shè)計了多路徑特征融合網(wǎng)絡(luò),獲得了豐富的多尺度語義信息,提高了模型對病害的表征能力。接著,采用K-means聚類算法結(jié)合IoU聚類出適合病害尺度特點(diǎn)的瞄點(diǎn)框,提高了模型的魯棒性。接著,建立了帶面積懲罰項和帶梯度變化的損失函數(shù),提高了模型的檢測性能與收斂速度。通過消融實驗證明了上述改進(jìn)方法的有效性。最后,通過不降維跨通道交互的高效通道注意力強(qiáng)化模型對重要通道間多尺度目標(biāo)區(qū)域的關(guān)注度,進(jìn)一步提高了模型對多尺度特征的感知能力。
(2)在RDDJ數(shù)據(jù)集上進(jìn)行模型性能的評估實驗。結(jié)果表明,本文模型的檢測精度相比原模型YOLOv5s提高了4.0%,并且具有較高的檢測速率,有效地提升了模型在實際場景下對病害的識別效果。并且,在相同的實驗條件下,本文模型相比引言中較新的方法及YOLOv8、YOLOv6等先進(jìn)模型具有最高的檢測精度,并保持一定的實時性,表明本文模型具有優(yōu)越的檢測性能。
(3)本文模型分別在NVIDIA Jetson TX2與NVIDIA Jetson Nano兩個不同算力的嵌入式平臺上部署測試,結(jié)果驗證了其在實際路面病害檢測中的實用性。
(4)盡管本文提出的模型取得了較好的檢測效果,但在模型輕量化方面還不夠先進(jìn)。因此,下一步將結(jié)合結(jié)構(gòu)化剪枝、知識蒸餾等模型壓縮技術(shù)對本文的多尺度特征增強(qiáng)模型進(jìn)行輕量化,使該模型在達(dá)到更高準(zhǔn)確率的同時實現(xiàn)輕量化。然后,將其部署在無人機(jī)平臺上,在線實現(xiàn)準(zhǔn)確的道路病害檢測,為公路管理部門提供路面健康數(shù)據(jù)并及時進(jìn)行修復(fù),防止路面進(jìn)一步惡化,保證路面車輛行駛安全。
參考文獻(xiàn):
[1]何鐵軍, 李華恩. 基于改進(jìn)YOLOv5的路面病害檢測模型 [J]. 土木工程學(xué)報, 2024, 57(2): 96-106.
HE Tiejun, LI Huaen. The pavement damage detection model based on improved YOLOv5 [J]. China Civil Engineering Journal, 2024, 57(2): 96-106.
[2]沙愛民, 童崢, 高杰. 基于卷積神經(jīng)網(wǎng)絡(luò)的路表病害識別與測量 [J]. 中國公路學(xué)報, 2018, 31(1): 1-10.
SHA Aimin, TONG Zheng, GAO Jie. Recognition and measurement of pavement disasters based on convolutional neural networks [J]. China Journal of Highway and Transport, 2018, 31(1): 1-10.
[3]張躍飛, 王敬飛, 陳斌, 等. 基于改進(jìn)的Mask R-CNN的公路裂縫檢測算法 [J]. 計算機(jī)應(yīng)用, 2020, 40(S2): 162-165.
ZHANG Yuefei, WANG Jingfei, CHEN Bin, et al. Pavement crack detection algorithm based on improved Mask R-CNN [J]. Journal of Computer Applications, 2020, 40(S2): 162-165.
[4]TANG Jinshan, GU Yanliang. Automatic crack detection and segmentation using a hybrid algorithm for road distress analysis [C]//2013 IEEE International Conference on Systems, Man, and Cybernetics. Piscataway, NJ, USA: IEEE, 2013: 3026-3030.
[5]ZHAO Huili, QIN Guofeng, WANG Xingjian. Improvement of canny algorithm based on pavement edge detection [C]//Proceedings of the 2010 3rd International Congress on Image and Signal Processing. Piscataway, NJ, USA: IEEE, 2010: 964-967.
[6]LECUN Y, BENGIO Y, HINTON G. Deep learning [J]. Nature, 2015, 521(7553): 436-444.
[7]ZHANG Lei, YANG Fan, ZHANG Yimin, et al. Road crack detection using deep convolutional neural network [C]//2016 IEEE International Conference on Image Processing (ICIP). Piscataway, NJ, USA: IEEE, 2016: 3708-3712.
[8]張偉光, 鐘靖濤, 于建新, 等. 基于機(jī)器學(xué)習(xí)和圖像處理的路面裂縫檢測技術(shù)研究 [J]. 中南大學(xué)學(xué)報(自然科學(xué)版), 2021, 52(7): 2402-2415.
ZHANG Weiguang, ZHONG Jingtao, YU Jianxin, et al. Research on pavement crack detection technology based on convolution neural network [J]. Journal of Central South University(Science and Technology), 2021, 52(7): 2402-2415.
[9]王麗蘋, 高瑞貞, 張京軍, 等. 基于卷積神經(jīng)網(wǎng)絡(luò)的混凝土路面裂縫檢測 [J]. 計算機(jī)科學(xué), 2019, 46(S2): 584-589.
WANG Liping, GAO Ruizhen, ZHANG Jingjun, et al. Crack detection of concrete pavement based on convolutional neural network [J]. Computer Science, 2019, 46(S2): 584-589.
[10]孫朝云, 裴莉莉, 李偉, 等. 基于改進(jìn)Faster R-CNN的路面灌封裂縫檢測方法 [J]. 華南理工大學(xué)學(xué)報(自然科學(xué)版), 2020, 48(2): 84-93.
SUN Zhaoyun, PEI Lili, LI Wei, et al. Pavement sealed crack detection method based on improved Faster R-CNN [J]. Journal of South China University of Technology(Natural Science Edition), 2020, 48(2): 84-93.
[11]許貴陽, 張詩泉, 白堂博. 基于改進(jìn)Faster R-CNN的CRTSⅡ型軌道板裂縫檢測方法 [J]. 中國鐵道科學(xué), 2023, 44(1): 106-113.
XU Guiyang, ZHANG Shiquan, BAI Tangbo. Crack detection method of CRTSⅡ track slab based on Faster R-CNN improvement [J]. China Railway Science, 2023, 44(1): 106-113.
[12]羅暉, 賈晨, 李健. 基于改進(jìn)YOLOv4的公路路面病害檢測算法 [J]. 激光與光電子學(xué)進(jìn)展, 2021, 58(14): 328-336.
LUO Hui, JIA Chen, LI Jian. Road surface disease detection algorithm based on improved YOLOv4 [J]. Laser amp; Optoelectronics Progress, 2021, 58(14): 328-336.
[13]ROY A M, BHADURI J. DenseSPH-YOLOv5: an automated damage detection model based on DenseNet and swin-transformer prediction head-enabled YOLOv5 with attention mechanism [J]. Advanced Engineering Informatics, 2023, 56: 102007.
[14]LI Mingjue, WANG Hao, PENG Yuhang, et al. Edge-to-client real-time road damage detection system based on Yolov5 [C]//2021 China Automation Congress (CAC). Piscataway, NJ, USA: IEEE, 2021: 1221-1226.
[15]周中, 閆龍賓, 張俊杰, 等. 基于YOLOX-G算法的隧道裂縫實時檢測 [J]. 鐵道科學(xué)與工程學(xué)報, 2023, 20(7): 2751-2762.
ZHOU Zhong, YAN Longbin, ZHANG Junjie, et al. Real-time detection of tunnel cracks based on YOLOX-G algorithm [J]. Journal of Railway Science and Engineering, 2023, 20(7): 2751-2762.
[16]XIANG Wanni, WANG Haichen, XU Yuan, et al. Road disease detection algorithm based on YOLOv5s-DSG [J]. Journal of Real-Time Image Processing, 2023, 20(3): 56.
[17]ALFARRARJEH A, TRIVEDI D, KIM S H, et al. A deep learning approach for road damage detection from smartphone images [C]//2018 IEEE International Conference on Big Data (Big Data). Piscataway, NJ, USA: IEEE, 2018: 5201-5204.
[18]MANDAL V, MUSSAH A R, ADU-GYAMFI Y. Deep learning frameworks for pavement distress classification: a comparative analysis [C]//2020 IEEE International Conference on Big Data (Big Data). Piscataway, NJ, USA: IEEE, 2020: 5577-5583.
[19]張凡, 張鵬超, 王磊, 等. 基于YOLOv5s的輕量化朱鹮檢測算法研究 [J]. 西安交通大學(xué)學(xué)報, 2023, 57(1): 110-121.
ZHANG Fan, ZHANG Pengchao, WANG Lei, et al. Research on lightweight crested ibis detection algorithm based on YOLOv5s [J]. Journal of Xi'an Jiaotong University, 2023, 57(1): 110-121.
[20]王保憲, 白少雄, 趙維剛. 基于特征增強(qiáng)學(xué)習(xí)的路面裂縫病害視覺檢測方法 [J]. 鐵道科學(xué)與工程學(xué)報, 2022, 19(7): 1927-1935.
WANG Baoxian, BAI Shaoxiong, ZHAO Weigang. Pavement crack damage visual detection method based on feature reinforcement learning [J]. Journal of Railway Science and Engineering, 2022, 19(7): 1927-1935.
[21]彭雨諾, 劉敏, 萬智, 等. 基于改進(jìn)YOLO的雙網(wǎng)絡(luò)橋梁表觀病害快速檢測算法 [J]. 自動化學(xué)報, 2022, 48(4): 1018-1032.
PENG Yunuo, LIU Min, WAN Zhi, et al. A dual deep net work based on the improved YOLO for fast bridge surface defect detection [J]. Acta Automatica Sinica, 2022, 48(4): 1018-1032.
[22]鄒俊志, 楊建喜, 李昊, 等. 復(fù)雜背景下基于改進(jìn)YOLO v3算法的橋梁表觀病害識別 [J]. 鐵道科學(xué)與工程學(xué)報, 2021, 18(12): 3257-3266.
ZOUJunzhi, YANG Jianxi, LI Hao, et al. Bridge apparent damage detection based on the improved YOLO v3 in complex background [J]. Journal of Railway Science and Engineering, 2021, 18(12): 3257-3266.
[23]ZHENG Zhaohui, WANG Ping, REN Dongwei, et al. Enhancing geometric factors in model learning and inference for object detection and instance segmentation [J]. IEEE Transactions on Cybernetics, 2022, 52(8): 8574-8586.
[24]WANG Qilong, WU Banggu, ZHU Pengfei, et al. ECA-net: efficient channel attention for deep convolutional neural networks [C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ, USA: IEEE, 2020: 11531-11539.
[25]ARYA D, MAEDA H, GHOSH S K, et al. RDD2020: an annotated image dataset for automatic road damage detection using deep learning [J]. Data in Brief, 2021, 36: 107133.
[26]RIBANI R, MARENGONI M. A survey of transfer learning for convolutional neural networks [C]//2019 32nd SIBGRAPI Conference on Graphics, Patterns and Images Tutorials (SIBGRAPI-T). Piscataway, NJ, USA: IEEE, 2019: 47-57.
[27]EVERINGHAM M, VAN GOOL L, WILLIAMS C K I, et al. The PASCAL visual object classes challenge 2007 [EB/OL]. (2007-12-20) [2024-07-25]. http://host.robots.ox.ac.uk/pascal/VOC/voc2007/.
[28]NGUYEN K H, NGUYEN H V N, TRAN H N, et al. Combining autoencoder and Yolov6 model for classification and disease detection in chickens [C]//Proceedings of the 2023 8th International Conference on Intelligent Information Technology. New York, NY, USA: Association for Computing Machinery, 2023: 132-138.
[29]OKRAN A M, ABDEL-NASSER M, RASHWAN H A, et al. Effective deep learning-based ensemble model for road crack detection [C]//2022 IEEE International Conference on Big Data (Big Data). Piscataway, NJ, USA: IEEE, 2022: 6407-6415.
[30]倪昌雙, 李林, 羅文婷, 等. 改進(jìn)YOLOv7的瀝青路面病害檢測 [J]. 計算機(jī)工程與應(yīng)用, 2023, 59(13): 305-316.
NI Changshuang, LI Lin, LUO Wenting, et al. Disease detection of asphalt pavement based on improved YOLOv7 [J]. Computer Engineering and Applications, 2023, 59(13): 305-316.
[31]TAN Mingxing, PANG Ruoming, LE Q V. EfficientDet: scalable and efficient object detection [C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ, USA: IEEE, 2020: 10778-10787.
[32]KLUGER F, REINDERS C, RAETZ K, et al. Region-based cycle-consistent data augmentation for object detection [C]//2018 IEEE International Conference on Big Data (Big Data). Piscataway, NJ, USA: IEEE, 2018: 5205-5211.
[33]WANG Wenzhe, WU Bin, YANG Sixiong, et al. Road damage detection and classification with faster R-CNN [C]//2018 IEEE International Conference on Big Data (Big Data). Piscataway, NJ, USA: IEEE, 2018: 5220-5223.
[34]晏班夫, 徐觀亞, 欒健, 等. 基于Faster R-CNN與形態(tài)法的路面病害識別 [J]. 中國公路學(xué)報, 2021, 34(9): 181-193.
YAN Banfu, XU Guanya, LUAN Jian, et al. Pavement distress detection based on Faster R-CNN and morphological operations [J]. China Journal of Highway and Transport, 2021, 34(9): 181-193.
[35]GE Zheng, LIU Songtao, WANG Feng, et al. YOLOX: exceeding YOLO series in 2021 [EB/OL]. (2021-08-06) [2024-06-01]. https://arxiv.org/abs/2107.08430.
[36]MAEDA H, SEKIMOTO Y, SETO T, et al. Road damage detection and classification using deep neural networks with smartphone images [J]. Computer-Aided Civil and Infrastructure Engineering, 2018, 33(12): 1127-1141.
[37]WANG Yanbo, DING Ming, KAN Shichao, et al. Deep proposal and detection networks for road damage detection and classification [C]//2018 IEEE International Conference on Big Data (Big Data). Piscataway, NJ, USA: IEEE, 2018: 5224-5227.
[38]DUAN Kaiwen, BAI Song, XIE Lingxi, et al. CenterNet: keypoint triplets for object detection [C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). Piscataway, NJ, USA: IEEE, 2019: 6568-6577.
[39]鄭美俊, 田益民, 楊帥. 基于改進(jìn)FCOS網(wǎng)絡(luò)的遙感目標(biāo)檢測 [J]. 航天返回與遙感, 2022, 43(5): 133-141.
ZHENG Meijun, TIAN Yimin, YANG Shuai. Remote sensing target detection based on improved FCOS network [J]. Spacecraft Recovery amp; Remote Sensing, 2022, 43(5): 133-141.
[40]ANGULO A, VEGA-FERNNDEZ J A, AGUILAR-LOBO L M, et al. Road damage detection acquisition system based on deep neural networks for physical asset management [C]//Advances in Soft Computing. Cham: Springer International Publishing, 2019: 3-14.
[41]LI Xiang, LI Li, LIU Zhigui, et al. Dam crack detection studies by UAV based on YOLO algorithm [C]//2023 2nd International Conference on Robotics, Artificial Intelligence and Intelligent Control (RAIIC). Piscataway, NJ, USA: IEEE, 2023: 104-108.
[42]顧德英, 羅聿倫, 李文超. 基于改進(jìn)YOLOv5算法的復(fù)雜場景交通目標(biāo)檢測 [J]. 東北大學(xué)學(xué)報(自然科學(xué)版), 2022, 43(8): 1073-1079.
GU Deying, LUO Yulun, LI Wenchao. Traffic target detection in complex scenes based on improved YOLOv5 algorithm [J]. Journal of Northeastern University(Natural Science), 2022, 43(8): 1073-1079.
(編輯 陶晴)