中圖分類號(hào):TB9;TP391.41;U418.6 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1674-5124(2025)07-0019-11
Abstract: Aiming at the problems of large size differences of existing pavement diseases and the diffculty in extracting the features of fine diseases in the pavement disease detection task,based on the YOLOv9 network model,this paper first introduces the intra-scale feature interaction AIFI module to provide more comprehensive informationunderstandingand deeper feature extraction.Secondly,thecross-scale feature CCFF module is introduced to improve the adaptability ofthe model to the variation of the target size; Finally, the Focaler-IoU boundary regresson loss function is introduced to reduce the influence of the distribution of difficult samples and manageable samples on the bounding box regression. This method conducted multiple sets of experiments on the Chinese regional dataset of RDD2022. The experimental results show that compared with the original YOLOv9 model, the improved model has a 3.3% increase in average accuracy,a 3.5% (204號(hào) increase in accuracy,and a 4.6% increase in recall rate with little frame rate loss.A series of experimental results show that the method proposed in this paper has a beter detection effect in the task of pavement disease detection.
Keywords:pavement distress detection;cross-scale feature;YOLOv9
0 引言
公路是覆蓋范圍最廣且最常見(jiàn)的交通基礎(chǔ)設(shè)施在日常生活中為人們的出行提供了便捷的服務(wù)。2017年至2022年,我國(guó)綜合立體交通網(wǎng)總里程由477萬(wàn)公里增長(zhǎng)至535萬(wàn)公里[1。根據(jù)相關(guān)資料,截至2024年底,這一數(shù)字已突破600萬(wàn)公里,交通網(wǎng)絡(luò)規(guī)模穩(wěn)居世界首位。路面病害作為公路養(yǎng)護(hù)的主要對(duì)象,影響著公路的使用壽命和維護(hù)成本,若不及時(shí)維護(hù)造成路面破損程度增加,將會(huì)成為道路交通中致命的安全隱患。因此,及時(shí)發(fā)現(xiàn)并維護(hù)病害就顯得格外重要。隨著公路里程數(shù)爆發(fā)式增長(zhǎng),公路的養(yǎng)護(hù)問(wèn)題也日益嚴(yán)重,面對(duì)如此龐大數(shù)量的公路里程,若仍使用人工檢測(cè),檢測(cè)過(guò)程不僅費(fèi)時(shí)費(fèi)力,養(yǎng)護(hù)成本也是一筆不小的開(kāi)銷。因此,探索一種自動(dòng)檢測(cè)技術(shù)使其能夠又快又準(zhǔn)地對(duì)病害進(jìn)行檢測(cè),對(duì)后續(xù)的養(yǎng)護(hù)管理、延長(zhǎng)公路使用壽命都具有重要意義[2]
隨著道路服役年限的增長(zhǎng)及外部環(huán)境影響的積累,路面往往會(huì)遭受不同程度的損壞,形成多種類型的病害。常見(jiàn)的路面病害主要包括三大類:裂縫類(如橫向裂縫、縱向裂縫、網(wǎng)狀裂縫)、坑洼類(如坑洞、沉陷)以及表面損傷類(如剝落、修補(bǔ)痕跡、車轍)等。盡管這些病害在外觀形態(tài)上存在顯著差異,但在圖像表現(xiàn)上具有一定的共性特征,如目標(biāo)尺度差異大、邊緣模糊、紋理與背景相似等。這些視覺(jué)特征,加之復(fù)雜的交通環(huán)境與多樣化的圖像采集條件,顯著增加了病害目標(biāo)的檢測(cè)難度,易導(dǎo)致模型出現(xiàn)漏檢或誤檢的現(xiàn)象,尤其對(duì)于裂縫類等尺寸較小的病害目標(biāo)更為明顯。
為了解決路面病害自動(dòng)檢測(cè)的難題,國(guó)內(nèi)外學(xué)者做出了大量研究。李清泉等人采用最小代價(jià)路徑搜索算法進(jìn)行路面病害檢測(cè),盡管在準(zhǔn)確率方面有所提升,但該方法仍易受光照變化的干擾[3]。曹建農(nóng)等人通過(guò)中值轉(zhuǎn)換方法對(duì)路面病害進(jìn)行檢測(cè),但其操作比較繁瑣,處理大批量病害時(shí)面臨難題[4]。李偉等人通過(guò)聚類的方法對(duì)3D路面圖像進(jìn)行識(shí)別,隨后以病害的圓形度來(lái)判斷病害的類別[5。雖然圖像處理技術(shù)相較于人工檢測(cè)具有高效率和低成本的優(yōu)點(diǎn),但面對(duì)復(fù)雜的道路環(huán)境,傳統(tǒng)的圖像處理技術(shù)難以滿足實(shí)際工程中的需求。隨著深度學(xué)習(xí)的迅猛發(fā)展,基于深度學(xué)習(xí)的圖像處理方法已經(jīng)廣泛應(yīng)用于各個(gè)領(lǐng)域。高精度、高效率以及高魯棒性的特點(diǎn)也使其在路面病害檢測(cè)中發(fā)揮出巨大的優(yōu)勢(shì)[6]。
目前,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法可以分為兩種類型:一階段方法和兩階段方法。它們的主要區(qū)別在于是否需要先生成候選區(qū)域。第一類是基于生成候選區(qū)域后分類的兩階段方法,例如:HUYANJ等人[7]基于Fast-RCNN架構(gòu)提出了裂紋深度網(wǎng)絡(luò)CrackDN,通過(guò)嵌人一個(gè)與CNN并行的靈敏度檢測(cè)網(wǎng)絡(luò),使得CrackDN能夠檢測(cè)到具有復(fù)雜背景下的密封和非密封的裂縫。徐康等人[8]提出了一種改進(jìn)Faster-RCNN的裂縫檢測(cè)方法,分別采用VGG16、MobileNet-V2和ResNet50網(wǎng)絡(luò)替換Faster-RCNN模型中的特征提取網(wǎng)絡(luò)對(duì)裂縫進(jìn)行識(shí)別。第二類是基于回歸的一階段方法,例如:LIL等人[9]提出一種改進(jìn)的基于YOLOv4的路面損傷檢測(cè)模型,該模型通過(guò)引入CBAM卷積塊注意模塊來(lái)抑制背景噪聲,進(jìn)而提高了路面損傷的顯著性。XINGJ等人[1o]通過(guò)增加swin變壓器結(jié)構(gòu)和特征金字塔BIFPN對(duì)YOLOv5模型進(jìn)行了改進(jìn),實(shí)現(xiàn)了實(shí)時(shí)像素級(jí)檢測(cè)。倪昌雙等人[11]提出一種基于改進(jìn)YOLOv7的瀝青路面病害檢測(cè)算法。該算法采用組合濾波與三直方圖均衡化技術(shù),有效抑制了背景環(huán)境的干擾,并提出池化多頭自注意力機(jī)制M-MHSA模塊來(lái)提升網(wǎng)絡(luò)對(duì)全劇信息的學(xué)習(xí),進(jìn)而提升網(wǎng)絡(luò)對(duì)路面病害的識(shí)別準(zhǔn)確率。LANZ等人[12]提出了一種名為SG-YOLO的路面病害檢測(cè)算法,該算法基于改進(jìn)YOLOv8模型,該算法為了進(jìn)一步減少模型參數(shù)和計(jì)算量,作者還在頸部部分加入了GSConv來(lái)改進(jìn)瓶頸結(jié)構(gòu)。
相比于兩階段方法,一階段方法具有速度快、實(shí)時(shí)性強(qiáng)的優(yōu)點(diǎn),上述一階段目標(biāo)檢測(cè)模型的研究雖提高了路面病害的檢測(cè)精度和速度,但仍面臨一些難題[13]:1)在光影變化大、背景干擾多的情形下,算法會(huì)將道路信息誤判為病害信息。2)路面病害提供的特征信息弱,且病害尺度往往差異較大,現(xiàn)有的檢測(cè)方法難以取得理想的檢測(cè)效果?;诖耍?jīng)過(guò)對(duì)大量文獻(xiàn)和深度學(xué)習(xí)算法的比較與分析,本研究使用改進(jìn)的YOLOv9模型對(duì)路面病害進(jìn)行檢測(cè)技術(shù)研究,提出一種路面病害檢測(cè)模型I-YOLOv9。主要包括以下幾點(diǎn)貢獻(xiàn):
1)本文將AIFI模塊引入模型中,用來(lái)替換原YOLOv9中的SPPELAN模塊。AIFI模塊是一種基于Transformer的檢測(cè)方法,與傳統(tǒng)卷積檢測(cè)方法不同的是,其能夠提供更全面的信息理解以及更深層次的特征提取。
2)在Neck網(wǎng)絡(luò)中加入CCFF模塊,通過(guò)融合不同尺寸的特征,提升模型對(duì)尺寸變化的適應(yīng)性,并增強(qiáng)其對(duì)小尺寸目標(biāo)的檢測(cè)效果。
3)引人Focaler-IoU邊界回歸損失函數(shù)替換原有的損失函數(shù),該損失函數(shù)利用邊界框之間的幾何關(guān)系來(lái)提高回歸性能,同時(shí)能夠忽視困難樣本和易處理樣本分布對(duì)邊界框回歸的影響,進(jìn)一步提升檢測(cè)性能。
1 YOL0v9結(jié)構(gòu)
YOLOv9[14-15]網(wǎng)絡(luò)在前代版本的基礎(chǔ)上進(jìn)行了進(jìn)一步的優(yōu)化與創(chuàng)新。為了解決前饋過(guò)程中信息丟失的問(wèn)題,YOLOv9引入了可編程梯度信息PGI(ProgrammableGradientInformation)輔助監(jiān)督機(jī)制。
在訓(xùn)練階段,PGI通過(guò)引入輔助可逆分支為主干網(wǎng)絡(luò)提供了增強(qiáng)的梯度信息,從而有效提升了特征學(xué)習(xí)的質(zhì)量。與此同時(shí),為確保推理階段的效率,YOLOv9在推理過(guò)程中移除了輔助分支及相關(guān)檢測(cè)頭,這樣做不僅維持了較高的檢測(cè)精度,還大大降低了計(jì)算量和推理時(shí)間。
YOLOv9網(wǎng)絡(luò)由三個(gè)主要模塊組成:骨干網(wǎng)絡(luò)(Backbone)、頸部網(wǎng)絡(luò)(Neck)和預(yù)測(cè)頭網(wǎng)絡(luò)(Head)。其中骨干網(wǎng)絡(luò)的主要任務(wù)是從輸入圖像中提取重要的特征信息,而頸部網(wǎng)絡(luò)則負(fù)責(zé)將這些特征進(jìn)行融合,并將融合后的結(jié)果傳遞給預(yù)測(cè)頭網(wǎng)絡(luò)。預(yù)測(cè)頭網(wǎng)絡(luò)則利用這些融合特征進(jìn)行目標(biāo)的檢測(cè)和分類。圖1所示為YOLOv9的結(jié)構(gòu)示意圖。YOLOv9模型為了增強(qiáng)特征學(xué)習(xí)采用了多個(gè)高效的模塊,如Silence模塊、CBS模塊和RepNCSPELAN4模塊。其中Silence位于網(wǎng)絡(luò)的首層,其主要作用是傳遞原始輸入圖像。CBS模塊則通過(guò)結(jié)合卷積層、批量歸一化和SiLU激活函數(shù),來(lái)提取圖像的局部特征。RepNCSPELAN4模塊整合了CSPNet和ELAN,進(jìn)一步提升了特征提取能力,尤其在處理長(zhǎng)距離依賴關(guān)系和全局上下文信息時(shí)表現(xiàn)更加優(yōu)越。
此外,YOLOv9還創(chuàng)新性的加入了CBLiner和SPPELAN模塊,以進(jìn)一步提升模型的整體性能CBLiner模塊可以將卷積后的特征分解為多個(gè)部分,從而增強(qiáng)信息流的可逆性。而SPPELAN則結(jié)合了空間金字塔池化(SPP)和ELAN技術(shù),經(jīng)過(guò)多尺度的pooling操作提升模型對(duì)不同尺寸目標(biāo)的適應(yīng)能力。
為了提升檢測(cè)精度和靈活性,YOLOv9在預(yù)測(cè)頭網(wǎng)絡(luò)中采用了解耦頭結(jié)構(gòu),這種設(shè)計(jì)將分類頭和檢測(cè)頭分離,從而便于對(duì)分類和回歸任務(wù)進(jìn)行獨(dú)立優(yōu)化。通過(guò)對(duì)分類和回歸得分進(jìn)行加權(quán),該模型能夠有效區(qū)分正負(fù)樣本,從而提升檢測(cè)精度。此外,為了使模型能夠更好地應(yīng)對(duì)各種尺寸和形狀的目標(biāo)檢測(cè)任務(wù),YOLOv9采用了更加精準(zhǔn)的AnchorFree算法。綜上,YOLOv9網(wǎng)絡(luò)結(jié)構(gòu)展現(xiàn)出了輕巧、快速和準(zhǔn)確的巨大優(yōu)勢(shì)[16]。
2I-YOLOv9跨尺度特征目標(biāo)檢測(cè)算法
盡管YOLOv9在常規(guī)目標(biāo)檢測(cè)任務(wù)中表現(xiàn)出色,但是在復(fù)雜路面背景下,面對(duì)尺度差異較大的路面病害時(shí),其檢測(cè)效果仍然面臨挑戰(zhàn)。尤其是在光照變化、惡劣天氣條件和動(dòng)態(tài)背景的影響下,模型的準(zhǔn)確性容易下降,常常導(dǎo)致漏檢和誤檢的情況發(fā)生[17]。因此,本文將AIFI(attention-based intrascalefeatureinteraction)模塊引入模型中,用來(lái)替換原YOLOv9中的SPPELAN模塊。AIFI模塊是一種基于Transformer的檢測(cè)方法,與傳統(tǒng)卷積檢測(cè)方法不同的是,其能夠提供更全面的信息理解以及更深層次的特征提取。其次,在Neck網(wǎng)絡(luò)中加人CCFF(cross-scalefeaturefusion)模塊,通過(guò)融合不同尺度的特征,提升模型對(duì)尺寸變化的適應(yīng)性,并增強(qiáng)其對(duì)小尺寸目標(biāo)的檢測(cè)能力[18]。最后,引入Focaler-IoU( more focused intersection over unionloss)邊界回歸損失函數(shù)替換原有的損失函數(shù),該損失函數(shù)利用邊界框之間的幾何關(guān)系來(lái)提高回歸性能,同時(shí)能夠忽視困難樣本和易處理樣本分布對(duì)邊界框回歸的影響,進(jìn)一步提升檢測(cè)性能。I-YOLOv9算法如圖2所示,改進(jìn)模塊采用灰色標(biāo)注。
2.1尺度內(nèi)特征交互AIFI模塊
RepNCSPELAN4在YOLOv9中通過(guò)深度特征提取和跨層融合的方式提升了多尺度目標(biāo)的檢測(cè)能力。然而在通道分割過(guò)程中,特征被均勻劃分為兩組,而且劃分后的兩個(gè)組別未能考慮到不同特征通道之間的關(guān)聯(lián)性,進(jìn)而使特征脫節(jié),限制了模型對(duì)關(guān)鍵信息的學(xué)習(xí)和提取。此外,RepNCSPELAN4的特征融合策略僅通過(guò)疊加特征進(jìn)行融合,忽略了不同特征之間的差異,進(jìn)而造成信息冗余并且影響了模型對(duì)細(xì)節(jié)信息的捕捉。YOLOv9這種特殊的特征融合方式使其在處理尺寸變化較大的目標(biāo)病害以及小目標(biāo)檢測(cè)時(shí)出現(xiàn)一定的局限性。
為了克服YOLOv9中的上述問(wèn)題,本文提出引入尺度內(nèi)特征交互AIFI模塊置于RepNCSPELAN4的特征處理階段。通過(guò)引入該模塊,使模型增強(qiáng)了不同特征之間的交互和關(guān)聯(lián),提升對(duì)高級(jí)特征的捕獲。AIFI模塊如圖3所示,其利用自注意力機(jī)制來(lái)處理圖像中的高級(jí)特征,使模型在分析特定數(shù)據(jù)區(qū)域時(shí),能夠同時(shí)關(guān)注其他相關(guān)部分。該模塊特別適用于提取具有豐富路面信息的病害特征。
AIFI模塊聚焦于在高級(jí)特征層進(jìn)行尺度內(nèi)交互,因?yàn)樵搶影S富的語(yǔ)義信息,有助于更有效地捕捉圖像中概念實(shí)體之間的關(guān)聯(lián)。而低級(jí)特征層由于缺乏語(yǔ)義信息,進(jìn)行尺度內(nèi)交互不僅無(wú)益,還可能導(dǎo)致與高級(jí)特征交互的重復(fù)和混淆。該模塊能夠防止在低級(jí)特征層進(jìn)行冗余的交互,防止數(shù)據(jù)處理上的重復(fù)和混淆。面對(duì)復(fù)雜路面中的路面病害檢測(cè)問(wèn)題,AIFI模塊增強(qiáng)對(duì)關(guān)鍵特征的感知能力,提高對(duì)細(xì)節(jié)的捕捉能力,減少了計(jì)算中的冗余信息,從而緩解因路面過(guò)于復(fù)雜等問(wèn)題導(dǎo)致的檢測(cè)困難。
2.2 跨尺度特征CCFF模塊
在目標(biāo)檢測(cè)中,尤其是面對(duì)不同尺寸的目標(biāo)時(shí),YOLOv9通常依賴多個(gè)尺度的特征圖進(jìn)行檢測(cè)。然而,由于尺度之間的特征融合不夠緊密,容易導(dǎo)致小目標(biāo)信息的丟失或大目標(biāo)的定位不精確,進(jìn)而影響檢測(cè)精度。通過(guò)引入CCFF跨尺度特征模塊到原YOLOv9模型中,旨在解決目標(biāo)檢測(cè)任務(wù)中多尺度特征融合不充分、目標(biāo)尺度變化帶來(lái)的檢測(cè)精度降低以及信息丟失等問(wèn)題。
CCFF模塊通過(guò)跨尺度特征融合的機(jī)制,能夠更有效地融合來(lái)自不同尺度的特征信息。具體來(lái)說(shuō),CCFF模塊能夠在多尺度特征圖之間建立更為緊密的聯(lián)系,通過(guò)跨尺度的交互與融合,有效加強(qiáng)不同尺度特征之間的語(yǔ)義關(guān)聯(lián),從而提升對(duì)各個(gè)尺度目標(biāo)的檢測(cè)能力。對(duì)于小目標(biāo)而言,CCFF模塊能夠通過(guò)引入大尺度特征的上下文信息,補(bǔ)充其缺乏的細(xì)節(jié)信息;而對(duì)于大目標(biāo),則通過(guò)整合小尺度的細(xì)粒度特征,使得模型能夠更精確地定位目標(biāo),避免由于過(guò)度依賴大尺度特征而導(dǎo)致的定位誤差。此外,CCFF模塊通過(guò)跨尺度信息的融合,能夠更好地抑制背景噪聲的影響。在復(fù)雜場(chǎng)景下,背景與目標(biāo)之間的對(duì)比度往往較低,傳統(tǒng)的卷積操作可能難以準(zhǔn)確區(qū)分目標(biāo)和背景,從而導(dǎo)致漏檢或誤檢。CCFF模塊通過(guò)增強(qiáng)不同尺度之間的特征交互,幫助模型更加準(zhǔn)確地提取目標(biāo)的關(guān)鍵信息,提高對(duì)目標(biāo)的辨識(shí)能力,尤其是在復(fù)雜背景中。
CCFF的結(jié)構(gòu)示意圖如圖4所示。經(jīng)過(guò)Backbone網(wǎng)絡(luò)進(jìn)行特征提取,并通過(guò)高效混合編碼器處理后,分別得到三個(gè)特征圖: S3,S4 和 F5 。接下來(lái),這些特征圖將與Fusion融合塊在CCFF模塊中進(jìn)行融合,并產(chǎn)生最終輸出。融合后的特征會(huì)在Uncertainty-minimalqueryselection的作用下進(jìn)行query選擇,然后與Encoder的輸出結(jié)合,最終一起輸入到Decoder中,得到最終的檢測(cè)結(jié)果。
CCFF模塊通過(guò)將多個(gè)由卷積層構(gòu)成的融合塊插入到融合路徑中來(lái)實(shí)現(xiàn)不同尺度特征的融合。融合塊的具體結(jié)構(gòu)圖如圖5所示,每個(gè)融合塊包含兩個(gè) 1×1 的卷積操作,用于調(diào)整通道數(shù)量,并且其通過(guò)由RepConv構(gòu)成的多個(gè)RepBlock來(lái)進(jìn)行特征融合。最終兩個(gè)相鄰尺度的特征唄融合塊合并為了一個(gè)新的特征圖。上述過(guò)程的計(jì)算表達(dá)式可以表示為:
Q=K=V=Flatten(S5)
F5=Reshape(AIFI(Q,K,V))
O=CCFF({S3,S4,S5})
其中Reshape表示將扁平特征的形狀恢復(fù)為與 S5 相同的形狀。
其中,F(xiàn)usion的結(jié)構(gòu)采用了CSP的方法,將輸入的特征concat后用 1×1 的卷積分成了兩份,然后一邊經(jīng)過(guò)RepBlock,另一邊與RepBlock 輸出直接concat,最后經(jīng)過(guò)flatten層輸出。其中,RepBlock的具體結(jié)構(gòu)如圖6所示。
2.3 Focaler-IoU損失函數(shù)
YOLOv9原始模型使用的損失函數(shù)是CIoU,盡管CIoU在優(yōu)化目標(biāo)框的回歸性能方面具有明顯的優(yōu)勢(shì),但是在某些場(chǎng)景中,尤其是在面對(duì)極端樣本以及小目標(biāo)檢測(cè)時(shí),CIoU的效果并不理想。其中,YOLOv9中的損失函數(shù)如公式(4)所示:
Lobject=LBCE+LDFL+LCloU
式中:LBCE 二元交叉熵分類損失函數(shù)BCELoss;LDFL 分布損失函數(shù)DFLLoss;LcIoU 定位損失函數(shù)CIoULoss。
在這些損失函數(shù)中,CIoU公式可表示為:
式中: ρ2(b,bgt)? -預(yù)測(cè)框和真實(shí)框中心點(diǎn)之間的歐氏距離;
c 兩框相交部分構(gòu)成的最小外接矩形的對(duì)角線的長(zhǎng)度;
α 用來(lái)調(diào)節(jié)權(quán)重系數(shù);
V- 用來(lái)衡量長(zhǎng)寬比;
ωgt,hgt 和 ω,h? ——真實(shí)框?qū)?、高以及預(yù)測(cè)框?qū)挕⒏遊17]。
當(dāng)預(yù)測(cè)框與真實(shí)框的寬高比完全一致時(shí),CIoU損失函數(shù)中的懲罰項(xiàng) u 為零,這種情況可能導(dǎo)致?lián)p失函數(shù)在某些情況下變得不穩(wěn)定[19],如式 (7)所示。
盡管CIoU在優(yōu)化目標(biāo)框位置、尺度以及橫縱比方面具有優(yōu)勢(shì),但是這種優(yōu)化可能需要較長(zhǎng)的時(shí)間來(lái)收斂,特別是在有很多難以分類的負(fù)樣本時(shí),CIoU會(huì)導(dǎo)致訓(xùn)練過(guò)程中的收斂變緩,此外,其在應(yīng)對(duì)類別不平衡、小目標(biāo)檢測(cè)以及訓(xùn)練過(guò)程中的困難樣本時(shí)也存在一定的局限性。
為了避免CIoU局限性所帶來(lái)的影響,本文提出了采用Focaler-IoU損失函數(shù)[20]。Focaler-IoU通過(guò)線性區(qū)間映射方法來(lái)重建IoU損失,提高了收斂精度和不同檢測(cè)任務(wù)的檢測(cè)器性能,彌補(bǔ)現(xiàn)有邊界框回歸技術(shù)的不足。Focaler-IoU損失函數(shù)的公式如下:
其中IoUfocaler是重構(gòu)的Focaler-IoU,IoU是原始IoU值, [d,u]∈[0,1] 。通過(guò)調(diào)整 d 和 u 的值,可以使IoUfocaler專注于不同的回歸樣本。損失定義如下:
LFocaler-IoU=1-IoUfocaler
Focaler-IoU是一種根據(jù)IoU值動(dòng)態(tài)調(diào)整損失權(quán)重的損失函數(shù),其基本思想是在不同的IoU區(qū)間賦予不同的損失響應(yīng)。設(shè)IoU的下限閾值為 di 上限閾值為 u ,則其損失函數(shù)值的調(diào)整范圍為[d,u]∈[0,1], 。與傳統(tǒng)損失函數(shù)不同,F(xiàn)ocaler-IoU具備樣本難度感知能力。在樣本易于預(yù)測(cè)的任務(wù)場(chǎng)景中,其更傾向于優(yōu)化簡(jiǎn)單樣本,進(jìn)而有助于提升整體檢測(cè)性能;而在包含大量困難樣本的場(chǎng)景中,該損失函數(shù)則將學(xué)習(xí)重心轉(zhuǎn)向這些難檢測(cè)目標(biāo),從而增強(qiáng)模型的回歸能力。
3 實(shí)驗(yàn)與結(jié)果分析
3.1 實(shí)驗(yàn)環(huán)境
本文實(shí)驗(yàn)在Linux服務(wù)器上進(jìn)行,操作系統(tǒng)采用的是CentOS7版本。為了確保實(shí)驗(yàn)的高效執(zhí)行和結(jié)果的可靠性,在實(shí)驗(yàn)前對(duì)實(shí)驗(yàn)環(huán)境進(jìn)行了配置。具體的硬件和軟件環(huán)境設(shè)置如表1所示。
在本實(shí)驗(yàn)的訓(xùn)練過(guò)程中,所有模型均采用了相同的超參數(shù)配置,以確保實(shí)驗(yàn)結(jié)果的可比性和穩(wěn)定性。具體而言,將學(xué)習(xí)速率LearningRate設(shè)置為0.01,圖像輸入尺寸ImageSize設(shè)置為 640×640 ,樣本批量大小BatchSize設(shè)定為16,迭代次數(shù)Epoch則設(shè)定為150次。
3.2 數(shù)據(jù)集選擇與預(yù)處理
在實(shí)際工程應(yīng)用中,路面病害數(shù)據(jù)的提取一般是從道路中獲取圖像或點(diǎn)云信息,并通過(guò)人工或自動(dòng)化手段識(shí)別、標(biāo)注病害區(qū)域,也即數(shù)據(jù)采集、預(yù)處理、標(biāo)注與管理三個(gè)階段。為了更好地模擬復(fù)雜路面病害的道路場(chǎng)景,讓模型能夠更加適配路面病害檢測(cè)的需求,本方法選用由印度理工學(xué)院聯(lián)合京東大學(xué)共同發(fā)布的開(kāi)源路面病害數(shù)據(jù)集RDD2022(roaddefectdetection)[21]作為實(shí)驗(yàn)數(shù)據(jù)基礎(chǔ)。該數(shù)據(jù)集包含來(lái)自日本、印度、捷克共和國(guó)、挪威、美國(guó)和中國(guó)六個(gè)不同國(guó)家或地區(qū)的共47420張道路病害圖像。由于不同國(guó)家地區(qū)的路面情況各有差異,如果直接使用該數(shù)據(jù)集進(jìn)行訓(xùn)練,會(huì)導(dǎo)致訓(xùn)練后無(wú)法取得較好的效果,所以本方法僅使用日常生活中所熟悉的來(lái)自中國(guó)的4478張圖像。
由于該數(shù)據(jù)集中不同類別樣本數(shù)量分布極為不均,存在顯著的類別不平衡現(xiàn)象,本文方法僅選取其中代表性較強(qiáng)的四類病害作為研究對(duì)象,以確保模型訓(xùn)練的穩(wěn)定性與結(jié)果的可靠性。這四類病害分別是:縱向裂縫(類別編號(hào):D00),橫向裂縫(類別編號(hào):D10),網(wǎng)狀裂縫(類別編號(hào):D20)和坑槽(類別編號(hào):D40),數(shù)據(jù)集類別示例如圖7四張圖片所示。經(jīng)過(guò)數(shù)據(jù)清洗,去除未標(biāo)注的圖片以及不含有以上四個(gè)類別的圖片后的有效圖片共3853張。本文將總計(jì)3853張圖像數(shù)據(jù)按7:2:1的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。其中,訓(xùn)練集包含2696張圖像,其余1157張樣本被分配至驗(yàn)證集與測(cè)試集。該劃分策略有助于保障模型訓(xùn)練的充分性及評(píng)估結(jié)果的客觀性。
3.3 評(píng)價(jià)指標(biāo)
為全面、客觀地評(píng)估本文所提出模型在道路病害檢測(cè)任務(wù)中的表現(xiàn),本文選取了包括準(zhǔn)確率、召回率、平均精度均值以及幀率在內(nèi)的多個(gè)指標(biāo)。下面對(duì)這幾種評(píng)估指標(biāo)進(jìn)行介紹:
1)準(zhǔn)確率:準(zhǔn)確率表示被檢測(cè)出的目標(biāo)中,真正為實(shí)際目標(biāo)的比例,其計(jì)算公式為:
式中: TP (true positive)- -正確檢測(cè)為病害的數(shù)量;FP(1 positive)- 錯(cuò)誤檢測(cè)為病害的數(shù)量。
2)召回率:召回率衡量的是所有真實(shí)目標(biāo)中被成功檢測(cè)出來(lái)的比例,其計(jì)算公式為:
其中,F(xiàn)N(1negative)為漏檢的病害數(shù)量。
3)平均精度:平均精度是目標(biāo)檢測(cè)網(wǎng)絡(luò)模型中
用于表示基于某數(shù)據(jù)集中每個(gè)類別目標(biāo)檢測(cè)精確度的平均值,用于衡量模型對(duì)于不同類別目標(biāo)檢測(cè)的能力,其計(jì)算公式為:
4)平均精度均值:平均精度均值是目標(biāo)檢測(cè)中評(píng)估整體性能的綜合指標(biāo),它是多個(gè)類別下平均精度的均值。平均精度均值能夠綜合反映模型在不同類別目標(biāo)檢測(cè)中的整體精度表現(xiàn)。其計(jì)算公式為:
式中: c —類別總數(shù);
APi 第 i 類的平均精度。
5)幀率:幀率表示模型在推理階段每秒處理的圖像幀數(shù),直接反映檢測(cè)算法的實(shí)時(shí)處理能力,其計(jì)算公式為:
式中:Frames- -幀數(shù);Time- -時(shí)間。
3.4 實(shí)驗(yàn)結(jié)果
3.4.1 改進(jìn)算法檢測(cè)結(jié)果
表2展示了改進(jìn)后的I-YOLOv9算法與原始YOLOv9算法在路面病害檢測(cè)任務(wù)中的性能對(duì)比。從表2實(shí)驗(yàn)結(jié)果中可知,改進(jìn)后的I-YOLOv9算法在保證檢測(cè)速度小幅度下降的同時(shí),其平均檢測(cè)精度mAP相較于原算法提高了約3.3個(gè)百分點(diǎn)。對(duì)于每個(gè)類別的病害來(lái)講,改進(jìn)后的I-YOLOv9算法的平均精度AP提升均超過(guò)了2.9個(gè)百分點(diǎn),改進(jìn)效果明顯,驗(yàn)證了其在跨尺度目標(biāo)病害以及小病害識(shí)別方面的優(yōu)越性能。
為了更加全面細(xì)致地評(píng)估改進(jìn)后I-YOLOv9算法與原YOLOv9算法的檢測(cè)性能與效果對(duì)比,在測(cè)試集上對(duì)兩種算法進(jìn)行全方位評(píng)估,并在下方給出了具有代表性的四組檢測(cè)效果圖,具體如圖8所示。圖中 (a)和(e)可見(jiàn),在面對(duì)復(fù)雜路面遮擋情況時(shí),I-YOLOv9算法可以順利檢測(cè)出病害目標(biāo),而原始YOLOv9算法則出現(xiàn)了漏檢的情況,體現(xiàn)了改進(jìn)后算法在面對(duì)復(fù)雜路面時(shí)的優(yōu)勢(shì)。隨后,在圖8(b)和(f)中,兩算法在面對(duì)跨尺度目標(biāo)檢測(cè)時(shí),YOLOv9算法表現(xiàn)出一定的局限性,未能準(zhǔn)確識(shí)別所有目標(biāo),而I-YOLOv9算法通過(guò)優(yōu)化,成功檢測(cè)到了所有病害。類似地,圖8(c)和(g)中,YOLOv9算法在處理尺寸跨度較大的目標(biāo)時(shí)出現(xiàn)了誤檢現(xiàn)象,而I-YOLOv9算法依然能夠正確地識(shí)別目標(biāo),兩組圖片均展現(xiàn)出更高的準(zhǔn)確性。最后,為了評(píng)估改進(jìn)后模型的泛化性和實(shí)用性,利用爬蟲(chóng)技術(shù)從網(wǎng)絡(luò)上爬取了病害圖片進(jìn)行測(cè)試,如圖8(d)和(h)所示,測(cè)試結(jié)果表明I-YOLOv9算法相比于原YOLOv9算法檢測(cè)效果更好,具有更高的泛化性和實(shí)用性。
3.4.2損失函數(shù)對(duì)比實(shí)驗(yàn)
為了驗(yàn)證Focaler-IoU在邊界框回歸中的優(yōu)勢(shì),本文還進(jìn)行了損失函數(shù)的對(duì)比試驗(yàn),在相同數(shù)據(jù)集的條件下,選取Focaler-IoU與多種主流損失函數(shù)進(jìn)行對(duì)比。各方法的實(shí)驗(yàn)結(jié)果如表3所示。實(shí)驗(yàn)結(jié)果表明,采用Focaler-IoU作為損失函數(shù)時(shí), mAP@0.5 相比CIoU提高了1.6個(gè)百分點(diǎn),證明了替換該損失函數(shù)的有效性。
3.4.3 消融實(shí)驗(yàn)
為了評(píng)估不同模塊的引入對(duì)整體檢測(cè)性能的影響,下面對(duì)改進(jìn)后的I-YOLOv9進(jìn)行消融實(shí)驗(yàn)。具體實(shí)驗(yàn)細(xì)節(jié)如表4所示。實(shí)驗(yàn)B在單獨(dú)引入AIFI模塊的情況下,mAP相較于原YOLOv9提升了1.0個(gè)百分點(diǎn)。實(shí)驗(yàn)C在單獨(dú)引人CCFF模塊后,mAP提升至 86.2% 。實(shí)驗(yàn)D當(dāng)僅將損失函數(shù)替換為Focaler-IoU時(shí),mAP達(dá)到 86.8% 。進(jìn)一步,同時(shí)引入AIFI以及CCFF模塊的情況如實(shí)驗(yàn)E所示,效果提升了2.6個(gè)百分點(diǎn)。最終,當(dāng)三項(xiàng)改進(jìn)方案全部整合進(jìn)YOLOv9后,形成的I-YOLOv9模型在mAP方面相較于原模型提升了3.3個(gè)百分點(diǎn)。
注:1)(a)、(b)、(c)、(d)為YOLOv9模型的檢測(cè)結(jié)果,(e)、(f)、(g)、(h)為改進(jìn)YOLOv9模型的檢測(cè)結(jié)果。
圖8檢測(cè)效果對(duì)比1)
表3損失函數(shù)對(duì)比實(shí)驗(yàn)
表4消融實(shí)驗(yàn)1)
消融實(shí)驗(yàn)的結(jié)果充分說(shuō)明,上述模塊不僅能夠有效增強(qiáng)模型的檢測(cè)精度和魯棒性,也驗(yàn)證了其在路面病害檢測(cè)場(chǎng)景中的實(shí)用性與協(xié)同性。
3.4.4 對(duì)比實(shí)驗(yàn)
為了全面評(píng)估I-YOLOv9模型的整體性能,本文將所提出的方法與六種主流目標(biāo)檢測(cè)模型—FasterR-CNN、SSD、YOLOv5s、YOLOv7、YOLOv8s以及YOLOv9進(jìn)行了橫向?qū)Ρ?,性能評(píng)估結(jié)果如表5所示。從表中數(shù)據(jù)可以看出,I-YOLOv9在檢測(cè)精度方面具有明顯優(yōu)勢(shì),其mAP達(dá)到了 88.5% ,在所有參評(píng)模型中表現(xiàn)最為優(yōu)異。與FasterR-CNN、SSD、YOLOv5s、YOLOv7、YOLOv8s以及YOLOv9相比,mAP分別提升了22% , 23.9% , 23.3% , 13.4% , 9.8% 3.3% 。在模型推理速度方面,盡管原YOLOv9算法已經(jīng)表現(xiàn)出較為出色的性能,但本文所提出的I-YOLOv9算法在幀率上依然表現(xiàn)優(yōu)異,達(dá)到了67.5frame/s。這一結(jié)果表明,改進(jìn)后的I-YOLOv9算法不僅在提高檢測(cè)精度的同時(shí),還能夠維持高效的實(shí)時(shí)處理能力,從而有效滿足實(shí)際應(yīng)用中對(duì)實(shí)時(shí)性和檢測(cè)精度的雙重要求。
為了直觀反映各目標(biāo)檢測(cè)模型在同一數(shù)據(jù)集上的表現(xiàn),本文以訓(xùn)練輪數(shù)為橫軸,mAP為縱軸,繪制了不同算法在訓(xùn)練過(guò)程中的mAP變化趨勢(shì)圖,詳見(jiàn)圖9.通過(guò)對(duì)比分析圖中曲線可以觀察到,I-YOLOv9在整個(gè)訓(xùn)練階段均展現(xiàn)出穩(wěn)定且優(yōu)異的精度表現(xiàn),與其他幾個(gè)算法相比,體現(xiàn)出了其在路面病害檢測(cè)任務(wù)中更強(qiáng)的性能。
進(jìn)一步對(duì)比I-YOLOv9與各個(gè)主流模型對(duì)每一類病害的檢測(cè)精度,從表6可以看出,改進(jìn)后的I-YOLOv9在各類病害檢測(cè)中均取得了更高的精度,分別為 86.8% 87.3% , 86.4% 93.1% 。這一結(jié)果進(jìn)一步驗(yàn)證了本文提出的I-YOLOv9算法在路面病害檢測(cè)任務(wù)中的有效性。
4結(jié)束語(yǔ)
針對(duì)路面病害檢測(cè)任務(wù)中存在的病害尺寸差異較大以及細(xì)微病害特征提取困難等問(wèn)題,本文提出了一種改進(jìn)YOLOv9模型用于路面病害檢測(cè)。本方法以YOLOv9網(wǎng)絡(luò)模型為基礎(chǔ),首先,本文引入AIFI模塊替換了原YOLOv9中的SPPELAN模塊。AIFI模塊是一種基于Transformer的檢測(cè)方法,與傳統(tǒng)卷積檢測(cè)方法不同的是,其能夠提供更全面的信息理解以及更深層次的特征提取。其次,在Neck網(wǎng)絡(luò)中引人CCFF模塊,通過(guò)整合不同尺度的特征信息,提高了模型對(duì)目標(biāo)尺寸變化的適應(yīng)性,并增強(qiáng)了其對(duì)小尺寸目標(biāo)的檢測(cè)性能。最后,引入Focaler-IoU邊界回歸損失函數(shù)替換原有損失函數(shù),通過(guò)利用邊界框之間的幾何關(guān)系來(lái)提高回歸性能,同時(shí)能夠忽視困難樣本和易處理樣本分布對(duì)邊界框回歸的影響,進(jìn)一步提升檢測(cè)性能。
本文方法基于YOLOv9模型,構(gòu)建了改進(jìn)版的路面病害檢測(cè)模型I-YOLOv9,并在RDD2022部分?jǐn)?shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果顯示,I-YOLOv9在檢測(cè)性能方面相較于原始YOLOv9以及其他傳統(tǒng)檢測(cè)方法均取得了更優(yōu)異的表現(xiàn)。盡管本文所提出的I-YOLOv9在檢測(cè)精度方面已優(yōu)于現(xiàn)有多種路面病害檢測(cè)方法,但在滿足工程實(shí)際應(yīng)用需求方面仍存在一定差距。后續(xù)研究將進(jìn)一步圍繞算法在多樣化真實(shí)場(chǎng)景中的適應(yīng)性展開(kāi),以全面評(píng)估其泛化性能與應(yīng)用價(jià)值。
參考文獻(xiàn)
[1]交通運(yùn)輸部.2022年交通運(yùn)輸行業(yè)發(fā)展統(tǒng)計(jì)公報(bào)[EB/OL]. [2023-06-20]. https://xxgk.mot.gov.cn/2020/jigou/zhghs/ 202306/t20230615_3847023.html. The Ministry of Transport. 2022 statistical bulletinof transportation industrydevelopment [EB/OL].[2023-06-20]. https://xxgk.mot.gov.cn/2020/jigou/zhghs/202306/ t20230615_3847023.html.
[2]高雪豪,吳建平,韋杰等.基于增強(qiáng)多尺度融合YOLOv8的 道路病害檢測(cè)算法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2024,34(11): 140-147. GAOXH,WUJP,WEIJ,etal.Roaddiseasedetectionbased on multi-scale fusion YOLOv8 enhancement algorithm[J]. Computer technology and development, 2024,34(11): 140- 147.
[3]李清泉,鄒勤,毛慶洲.基于最小代價(jià)路徑搜索的路面裂縫 檢測(cè)[J].中國(guó)公路學(xué)報(bào),2010,23(6):28-33. LIQQ,ZOUQ,MAOQZ.Pavementcrackdetection based on minimum cost path search[J]. Journal of China Highway and Transport, 2010,23(6): 28-33.
[4]曹建農(nóng),張昆,元晨,等.用MeanShift實(shí)現(xiàn)路面裂縫損傷自 動(dòng)識(shí)別與特征測(cè)量[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2014,26(9):1450-1459. CAO J N,ZHANG K,YUAN C,et al.Automatic identification and feature measurement of pavement crack damage using Mean Shift[J]. Journal of Computer-Aided Design and Computer Graphics,2014,26(9): 1450-1459.
[5]李偉,呼延菊,沙愛(ài)民,等.基于3D數(shù)據(jù)和雙尺度聚類算法 的路面裂縫檢測(cè)[J].華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版), 2015,43(8): 99-105. LIW,HUYJ,SHAAM,etal.Pavementcrackdetection based on 3D data and dual-scale clustering algorithm[J]. Journal of South China University of Technology (Natural Science Edition),2015,43(8): 99-105.
[6]MAHENGE SF,WAMBURA S,JIAOL.RCNN-GAN:an enhanced deep learning approach towards detection of road cracks[C]//Proceedingsof the2022 6thInternational Conference on Compute and Data Analysis. 2022: 91-99.
[7]HUYAN J,LI W,TIGHE S,et al. Detection of sealed and unsealed cracks with complex backgrounds using deep convolutionalneuralnetwork[J/OL]. Automation in Construction, 2019: 102946. http://dx.doi.org/10.1016/j.autcon. 2019.102946.
[8]徐康,馬榮貴.基于改進(jìn)Faster-RCNN的瀝青路面裂縫檢 測(cè)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2022,31(7):341-348. XUK,MARG.Crackdetectionofasphaltpavementbased on improved Faster-RCNN[J]. Computer system application, 2022,31(7): 341-348.
[9]LI L,F(xiàn)ANG B, ZHU J.Performance analysis of the YOLOv4 algorithm for pavement damage image detection with different embedding positionsof CBAMmodules[J]. Applied Sciences,2022,12(19): 10180.
[10] XING J,LIU Y, ZHANG G Z. Improved YOLOV5-based UAV pavement crack detection[J]. IEEE Sensors Journal, 2023,23(14): 15901-15909.
[11] 倪昌雙,李林,羅文婷,等.改進(jìn)YOLOv7的瀝青路面病害 檢測(cè)[J].計(jì)算機(jī)工程與應(yīng)用,2023,59(13):305-316. NI C S,LI L,LUO W T,et al. Improvement of asphalt pavement disease detection by YOLOv7[J]. Computer Engineering and Applications, 2023, 59(13): 305-316.
[12] LAN Z,ZHU L. Pavement distress detection based on improved YOLOv8[C]//International Conference on Image, Vision and Intellgent Systems. Singapore:Springer Nature Singapore,2023:513-520.
[13] 張青春,王文聘,張洪源等.改進(jìn)輕量化YOLOv7-tiny 道路 限高障礙物檢測(cè)方法[J].中國(guó)測(cè)試,2024,50(5):186-192. ZHANG Q C,WANG WP, ZHANG HY et al. Improved lightweight YOLOv7-tiny method for road height limitation obstacle detection[J].China Measurementamp; Test,2024, 50(5): 186-192.
[14]WANG C Y,YEHI H, MARK LIAO H Y. YOLOv9: Learning what you want to learn using programmable gradient information[C]//European conference on computer vision. Cham: Springer Nature Switzerland, 2024: 1-21.
[15]李澄非,蔡嘉倫,邱世漢等.基于改進(jìn)YOLOv4的鋁材表面 缺陷檢測(cè)方法[J].中國(guó)測(cè)試,2024,50(5):160-166. LI CF,CAI JL,QIU SH, et al. Defect detection method in aluminum material surface based on improved YOLOv4[J]. China Measurement amp; Test, 2024,50(5): 160-166.
[16]李琳,靳志鑫,俞曉磊,等.Haar小波下采樣優(yōu)化YOLOv9 的道路車輛和行人檢測(cè)[J].計(jì)算機(jī)工程與應(yīng)用,2024, 60(20): 207-214. LI L, JIN Z X, YU XL, et al. Haar wavelet downsampling for optimizing road vehicle and pedestrian detectionin YOLOv9[J]. Computer Engineering and Applications, 2024, 60(20): 207-214.
[17] ZHANG L, YANG F, ZHANG Y D,et al. Road crack detection using deep convolutional neuralnetwork[C]/2016 IEEEinternational conference on image processing (ICIP). IEEE,2016: 3708-3712.
[18] ZHAO Y,LV W,XU S,et al.Detrs beat yoloson real-time object detection[C]//Proceedings of the IEEE/CVF conference on computer vision and pattem recognition. 2024: 16965- 16974.
[19] ZHENG Z, WANG P, LIU W, et al. Distance-IoU Loss: Faster andbetter learning for bounding box regression[J/OL]. Proceedings of the AAAI Conference on ArtificialIntelligence, 2020:12993-13000. http://dx. doi.org/10.1609/aaai.v34i07. 6999.
[20] ZHANG H,ZHANG S. Focaler-iou:More focused intersection overunion loss[J]. arxiv preprintarxiv: 2401.10525,2024.
[21]ARYAD,MAEDA H, GHOSHSK, et al. RDD2022: A multi national image dataset for automatic road damage detection[J].Geoscience Data Journal, 2024,11(4): 846-862.
(編輯:劉楊)