摘要:盡管近年來目標(biāo)檢測(cè)技術(shù)已取得顯著進(jìn)展,但在復(fù)雜環(huán)境中的多目標(biāo)檢測(cè)仍面臨諸多挑戰(zhàn)。為了解決這些問題,文章對(duì)Faster RCNN模型進(jìn)行了改進(jìn)。選擇ResNet101作為特征提取網(wǎng)絡(luò),替代傳統(tǒng)的VGG16,以緩解因網(wǎng)絡(luò)深度增加而引起的信息傳遞衰減問題,提高特征學(xué)習(xí)效率。此外,還引入了多尺度融合模塊,該結(jié)構(gòu)能夠更有效地處理不同尺寸的目標(biāo),從而增強(qiáng)檢測(cè)性能。實(shí)驗(yàn)結(jié)果表明,在橋梁缺陷檢測(cè)任務(wù)中,經(jīng)過這2項(xiàng)改進(jìn)的Faster RCNN模型表現(xiàn)優(yōu)異,準(zhǔn)確率達(dá)到了91.4%,平均準(zhǔn)確率均值達(dá)到了90.6%。這對(duì)于及時(shí)發(fā)現(xiàn)并修復(fù)橋梁結(jié)構(gòu)問題具有重要的實(shí)際應(yīng)用價(jià)值。
關(guān)鍵詞:橋梁缺陷;缺陷檢測(cè);深度學(xué)習(xí)
中圖分類號(hào):TP311" 文獻(xiàn)標(biāo)志碼:A
0 引言
橋梁作為交通運(yùn)輸網(wǎng)絡(luò)中的關(guān)鍵基礎(chǔ)設(shè)施,其結(jié)構(gòu)安全對(duì)于保障社會(huì)經(jīng)濟(jì)活動(dòng)的正常運(yùn)轉(zhuǎn)及人民群眾的生命財(cái)產(chǎn)安全至關(guān)重要。然而,在長(zhǎng)期使用過程中,橋梁結(jié)構(gòu)會(huì)因?yàn)榄h(huán)境侵蝕、材料老化以及荷載作用等多種因素影響而產(chǎn)生各種缺陷。如果不及時(shí)發(fā)現(xiàn)并妥善處理這些缺陷,將會(huì)嚴(yán)重影響橋梁的承載能力和使用壽命。傳統(tǒng)的橋梁檢測(cè)手段主要依賴人工視覺檢查,這種方式不僅效率低下,而且檢查結(jié)果極易受到檢查人員經(jīng)驗(yàn)及主觀判斷的影響,容易導(dǎo)致漏檢和錯(cuò)檢。因此,如何利用現(xiàn)代信息技術(shù)提升橋梁缺陷檢測(cè)的效率與準(zhǔn)確性,已成為當(dāng)前橋梁維護(hù)管理工作中亟待解決的關(guān)鍵問題。
近年來,深度學(xué)習(xí)領(lǐng)域取得了顯著進(jìn)展,在圖像識(shí)別等多個(gè)應(yīng)用領(lǐng)域得到廣泛推廣。其中,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)被認(rèn)為是目前功能強(qiáng)大且應(yīng)用廣泛的深度學(xué)習(xí)方法之一,現(xiàn)已發(fā)展出多種成熟的CNN架構(gòu)可供選擇。1998年,Lecun等[1]設(shè)計(jì)并實(shí)現(xiàn)了第一個(gè)CNN模型,名為L(zhǎng)eNet-5,它成功地實(shí)現(xiàn)了手寫數(shù)字的準(zhǔn)確識(shí)別。2012年,Krizhevsky等[2]引入了AlexNet,這是一個(gè)成功地采用ReLU激活函數(shù)取代Sigmoid函數(shù)的里程碑式的模型,從而取得了更好的訓(xùn)練效果。2015年,微軟研究院的Kaiming He和其團(tuán)隊(duì)提出了ResNet模型,顯著提高了計(jì)算速度和準(zhǔn)確率。同一年,Joseph Redmon和其團(tuán)隊(duì)推出了YOLO(You Only Look Once)模型,這個(gè)模型顯著地提升了計(jì)算速度,計(jì)算幀率已經(jīng)足夠支持對(duì)視頻的實(shí)時(shí)檢測(cè)。
當(dāng)前,眾多研究人員正在開展廣泛而深入的目標(biāo)檢測(cè)算法研究。宋冬梅[3]在其研究中,創(chuàng)新性地提出了一種基于機(jī)器視覺的指針式儀表檢測(cè)模型。對(duì)YOLO v3檢測(cè)方法進(jìn)行優(yōu)化,該模型有效提升了指針儀表的識(shí)別精度。然而,在面對(duì)同一圖像中存在多個(gè)儀表需同時(shí)檢測(cè)的情況時(shí),該算法仍存在一定比例的漏檢問題。
楊彬等[4]對(duì)Mask RCNN焊縫缺陷檢測(cè)模型進(jìn)行了優(yōu)化,研究人員在模型的殘差網(wǎng)絡(luò)后端引入了變形卷積操作,這使得模型能夠更全面地提取各種類型的焊接缺陷信息,從而降低對(duì)微小節(jié)點(diǎn)的遺漏。然而,在這個(gè)過程中,研究人員并未充分考慮目標(biāo)檢測(cè)的實(shí)時(shí)性需求。
趙麟坤等5]為了解決碳纖維編織物的缺陷檢測(cè)難題,提出了一種優(yōu)化過的Faster RCNN檢測(cè)模型。該模型使用ResNet 50作為特征提取網(wǎng)絡(luò),有效地克服了在卷積運(yùn)算過程中小尺寸缺陷特征失真問題。然而,雖然模型有所改進(jìn),但在加快缺陷檢測(cè)速度方面,該模型并未實(shí)現(xiàn)顯著突破。
總體而言,盡管研究者們已在目標(biāo)檢測(cè)算法上取得了顯著進(jìn)展,但在復(fù)雜環(huán)境下的多目標(biāo)檢測(cè)精度方面,仍面臨諸多挑戰(zhàn),需要進(jìn)一步優(yōu)化和突破。
1 Faster RCNN模型
在目標(biāo)檢測(cè)領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)模型的應(yīng)用主要分為2種類型:一種是單階段檢測(cè)算法,例如YOLO(You Only Look Once)、SSD(Single Shot MultiBox Detector)等,這些方法試圖直接從輸入圖像中一次性預(yù)測(cè)出目標(biāo)的類別和邊界框;另一種是雙階段檢測(cè)算法,如RCNN系列(包括RCNN、Fast RCNN等)以及更先進(jìn)的Faster RCNN。
Faster RCNN是一種深度學(xué)習(xí)模型,主要由特征提取網(wǎng)絡(luò)、區(qū)域提議網(wǎng)絡(luò)(Region Proposal Network,RPN)和檢測(cè)網(wǎng)絡(luò)組成。特征提取網(wǎng)絡(luò)通常選擇VGG16作為基礎(chǔ),用于從輸入圖像中提取高級(jí)視覺特征。在預(yù)處理階段,對(duì)圖像數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化處理,然后將其輸入特征提取網(wǎng)絡(luò)中用以提取圖像特征。得到的特征圖將供RPN層和感興趣區(qū)域池化層(Region of Interest Pooling,ROI Pooling)進(jìn)行進(jìn)一步分析。RPN作為一個(gè)子網(wǎng)絡(luò),接收特征圖并生成一組可能包含目標(biāo)對(duì)象的候選區(qū)域。這個(gè)過程的關(guān)鍵是錨框,目的是覆蓋圖像上所有可能的目標(biāo)位置和尺寸。RPN通過卷積運(yùn)算,對(duì)每個(gè)錨框進(jìn)行類別預(yù)測(cè)和邊界框回歸,最終生成一系列精確的候選框。這些候選框在特征圖上的相應(yīng)區(qū)域被ROI Pooling層進(jìn)行池化操作,得到固定尺寸的特征向量。在此步驟之后,局部特征層將通過全連接層進(jìn)行進(jìn)一步處理,包括分類預(yù)測(cè)層和回歸預(yù)測(cè)層,用于確定物體的類別和微調(diào)候選框的坐標(biāo)。
2 改進(jìn) Faster RCNN 模型
Faster RCNN算法在處理圖像中小目標(biāo)和低質(zhì)量圖像時(shí)存在識(shí)別精度下降、檢測(cè)性能不足等問題,該研究提出了針對(duì)性的2項(xiàng)改進(jìn)措施。
該研究選擇了ResNet101網(wǎng)絡(luò)作為替代方案。ResNet101利用殘差塊設(shè)計(jì)有效地緩解了深度網(wǎng)絡(luò)訓(xùn)練中的梯度消失問題,能夠?qū)崿F(xiàn)更深的層次結(jié)構(gòu)和更高的特征學(xué)習(xí)效率,從而有望提升整體檢測(cè)性能并降低存儲(chǔ)需求。
為了有效應(yīng)對(duì)各類尺寸目標(biāo)檢測(cè)任務(wù)中的挑戰(zhàn),該研究引入多尺度融合特征模塊。這一設(shè)計(jì)的核心在于確保無論目標(biāo)物體尺寸大小如何,都能夠充分提煉出詳盡豐富的特征描述,進(jìn)而顯著增強(qiáng)對(duì)多種尺度目標(biāo)的檢測(cè)精確度與魯棒性。
改進(jìn)的Faster RCNN網(wǎng)絡(luò)結(jié)構(gòu)如圖 1所示。
2.1 使用 Resnet101 殘差網(wǎng)絡(luò)
原始的Faster RCNN特征提取網(wǎng)絡(luò)通常使用經(jīng)典的VGG16架構(gòu)。然而,隨著網(wǎng)絡(luò)層數(shù)的增加,梯度在反向傳播過程中會(huì)逐漸減弱,導(dǎo)致梯度消失現(xiàn)象,從而引起細(xì)節(jié)信息丟失,降低網(wǎng)絡(luò)的整體性能。相比之下,ResNet通過引入殘差模塊來進(jìn)行網(wǎng)絡(luò)構(gòu)建,殘差模塊如圖2所示。在這些模塊中,輸入X經(jīng)過一系列變換F(X),通過“短路連接”(即跳躍連接)直接與輸出相連。這種方式使得每一層只需學(xué)習(xí)輸入與輸出之間的殘差部分,從而減少了計(jì)算復(fù)雜度。即使在某些情況下出現(xiàn)了梯度消失,由于短路連接的存在,網(wǎng)絡(luò)仍然能夠保持輸入到輸出的恒等映射,保證后續(xù)的學(xué)習(xí)過程不受影響??紤]到整個(gè)特征提取過程的需求,本研究選擇了 ResNet101作為特征提取網(wǎng)絡(luò)。相較于ResNet18和ResNet34這種淺層網(wǎng)絡(luò)以及ResNet50 這種較為深層的網(wǎng)絡(luò),ResNet101 擁有更多的層次,能夠捕捉更加復(fù)雜的特征,從而提高檢測(cè)的準(zhǔn)確性。與此同時(shí),相比于ResNet152這樣更深的網(wǎng)絡(luò),ResNet101在保持較高檢測(cè)性能的同時(shí),需要的計(jì)算資源較少,可以更快地完成訓(xùn)練和推理過程。因此,ResNet101在特征提取性能、計(jì)算效率以及任務(wù)需求之間實(shí)現(xiàn)了良好的平衡。該網(wǎng)絡(luò)包含卷積層、激活層、池化層以及全連接層,通過堆疊殘差模塊增強(qiáng)了對(duì)橋梁缺陷目標(biāo)圖像中的細(xì)節(jié)信息和深層特征的識(shí)別能力。此外,實(shí)驗(yàn)證明,相比于 VGG16,ResNet101能夠提供更好的目標(biāo)檢測(cè)效果。
2.2 多尺度融合特征模塊
在Faster RCNN中,雖然深層特征包含了豐富的語義信息,但往往忽視了許多重要的細(xì)節(jié)特征。這些細(xì)節(jié)可能對(duì)系統(tǒng)的安全性和穩(wěn)定性產(chǎn)生重大影響。為此,本文使用構(gòu)建特征金字塔的方法,用于融合不同尺度的特征,從而增強(qiáng)目標(biāo)的檢測(cè)和定位精度[6]。特征金字塔通過對(duì)多層次特征進(jìn)行整合,不僅能夠在保留高層語義信息的同時(shí),提取出更多的底層細(xì)節(jié)信息,而且由于其主要涉及卷積等輕量級(jí)運(yùn)算,因此在計(jì)算成本上增加得非常有限。此外,這種方法因其涵蓋了從底層到高層的各種細(xì)節(jié)特征,所以具備較強(qiáng)的泛化能力,進(jìn)一步提升了目標(biāo)檢測(cè)和定位的效果。
3 實(shí)驗(yàn)與結(jié)果
3.1 數(shù)據(jù)集及預(yù)處理
為了增強(qiáng)數(shù)據(jù)集中小目標(biāo)的代表性,該研究使用了多種數(shù)據(jù)增強(qiáng)技術(shù)來顯著增加含有小目標(biāo)的樣本數(shù)量。具體采用的方法有隨機(jī)縮放、隨機(jī)裁剪以及隨機(jī)翻轉(zhuǎn)等。此外,為了確保圖片命名的一致性和標(biāo)準(zhǔn)化,該研究對(duì)所有圖片進(jìn)行了統(tǒng)一的命名處理,使其易于管理及后續(xù)的數(shù)據(jù)處理工作。在準(zhǔn)備訓(xùn)練流程時(shí),采用了常見的80/20數(shù)據(jù)分割策略,即數(shù)據(jù)集的80%作為訓(xùn)練集,用于模型的學(xué)習(xí)和優(yōu)化;剩余的20%則作為驗(yàn)證集,在訓(xùn)練過程中用于定期評(píng)估模型的表現(xiàn),監(jiān)測(cè)其泛化能力,根據(jù)評(píng)估結(jié)果調(diào)整訓(xùn)練策略。
為了增加圖像的語義信息,該研究利用了開源的標(biāo)注工具Labeling來精細(xì)地標(biāo)記每一張圖片中的目標(biāo)物體及其屬性。此標(biāo)注過程不僅包括目標(biāo)物體輪廓的精確勾勒和類別標(biāo)記,還可能包括更為復(fù)雜的屬性標(biāo)注,例如:物體的姿態(tài)和動(dòng)作等。完成標(biāo)注后,Labeling工具會(huì)自動(dòng)生成符合特定標(biāo)準(zhǔn)格式(如PASCAL VOC或YOLO格式)的XML文件。這些文件詳細(xì)記錄了每張圖片中每個(gè)目標(biāo)的位置、類別以及其他相關(guān)信息,形成了與原始圖像配對(duì)存儲(chǔ)的結(jié)構(gòu)化標(biāo)簽數(shù)據(jù)。
3.2 實(shí)驗(yàn)環(huán)境及訓(xùn)練策略
實(shí)驗(yàn)環(huán)境如表1所示。
在訓(xùn)練深度學(xué)習(xí)模型的過程中,該研究對(duì)所使用的神經(jīng)網(wǎng)絡(luò)制定了具體的參數(shù)配置,批量大小設(shè)置為8,迭代次數(shù)設(shè)定為10000次,最大學(xué)習(xí)率設(shè)定為0.001,權(quán)重衰減系數(shù)設(shè)定為0.0002。
在評(píng)價(jià)改進(jìn)后的Faster RCNN檢測(cè)算法應(yīng)用于橋梁缺陷檢測(cè)任務(wù)的實(shí)際效果時(shí),該研究選擇了以下3項(xiàng)關(guān)鍵性能指標(biāo)進(jìn)行全面且精準(zhǔn)的評(píng)估:精確率(Precision, P)、召回率(Recall, R)、平均準(zhǔn)確率均值(Mean Average Precision, mAP)。
精確率P、召回率R計(jì)算如下。
P=TPTP+FP(1)
R=TPTP+FN(2)
其中,TP為圖像中成功檢測(cè)到的有缺陷的圖片數(shù)量;FP為錯(cuò)誤地檢測(cè)出的圖片數(shù)量;FN為圖像中未能檢測(cè)出的有缺陷的圖片數(shù)量。
平均準(zhǔn)確率是Precison-Recall曲線與坐標(biāo)軸所圍成的面積,公式如下:
AP=∫10Prdr(3)
mAP是目標(biāo)檢測(cè)任務(wù)中的常用評(píng)價(jià)指標(biāo),尤其適用于多類別檢測(cè)問題。它綜合考慮了各個(gè)類別在不同閾值下的Precision-Recall曲線,取其平均值。mAP反映了模型在不同類別缺陷檢測(cè)中的總體性能,數(shù)值越高,說明模型在各類別缺陷檢測(cè)中達(dá)到的Precision-Recall平衡越好,整體檢測(cè)性能越優(yōu)秀。公式如下:
mAP=1k∑ki=1APi(4)
3.3 實(shí)驗(yàn)結(jié)果
不同模型算法在數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表2所示。
實(shí)驗(yàn)結(jié)果顯示,將VGG網(wǎng)絡(luò)替換為ResNet101后,模型的準(zhǔn)確率從89.6%提升到了90.8%,mAP從88.8%提升到了89.8%。在改進(jìn)網(wǎng)絡(luò)模型的基礎(chǔ)上進(jìn)一步進(jìn)行多尺度融合,可以使準(zhǔn)確率進(jìn)一步提升至91.4%,mAP提升至90.6%。
4 結(jié)語
該研究通過對(duì)Faster RCNN模型進(jìn)行了一系列改進(jìn),旨在提升橋梁缺陷檢測(cè)的準(zhǔn)確性和效率。實(shí)驗(yàn)結(jié)果表明,采用ResNet101作為特征提取網(wǎng)絡(luò),結(jié)合多尺度融合特征模塊,能夠顯著提高模型的檢測(cè)性能。改進(jìn)后的模型在橋梁缺陷檢測(cè)任務(wù)中展現(xiàn)出了優(yōu)異的準(zhǔn)確率和mAP值,分別為91.4%和90.6%,這表明該模型具有較高的實(shí)際應(yīng)用價(jià)值,能夠?yàn)闃蛄壕S護(hù)工作提供強(qiáng)有力的技術(shù)支持。
未來的研究可以進(jìn)一步探索更多有效的特征融合技術(shù)和優(yōu)化方法,以期在保證高精度的同時(shí),提高檢測(cè)速度,滿足實(shí)時(shí)檢測(cè)的需求。此外,還可以嘗試將更多的數(shù)據(jù)增強(qiáng)技術(shù)和更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)應(yīng)用于橋梁缺陷檢測(cè),進(jìn)一步提升模型的魯棒性和泛化能力。
參考文獻(xiàn)
[1]LECUN Y, BOTTOU L, BENGIYO Y. Gradient-based learning applied to document recognition [J]. Proceedings of the IEEE, 1998(11): 2278-2324.
[2]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [J]. Communications of the ACM, 2017(6): 84-90.
[3]宋冬梅.基于機(jī)器視覺的指針式儀表檢測(cè)[J].中國(guó)儀器儀表,2023(1):69-72.
[4]楊彬,亞森江·木沙,安波.改進(jìn)Mask RCNN的焊縫缺陷檢測(cè)[J].機(jī)械設(shè)計(jì)與制造,2023(6):157-161.
[5]趙麟坤,陳玉潔,張玉井,等.基于改進(jìn)的Faster RCNN碳纖維編織物缺陷檢測(cè)[J].棉紡織技術(shù),2023(2):48-54.
[6]陳幻杰,王琦琦,楊國(guó)威,等.多尺度卷積特征融合的SSD目標(biāo)檢測(cè)算法[J].計(jì)算機(jī)科學(xué)與探索,2019(6):13.
(編輯 王永超編輯)
Research on bridge defect detection based on deep learning
WANG" Ying, ZHANG" Hua
(Jiangsu Shipping College, Nantong 226010, China)
Abstract: Despite significant advancements in object detection technology in recent years, multi-object detection in complex environments still faces numerous challenges. To address these issues, this study improved the faster RCNN model. Researchers opted for ResNet101 as the feature extraction network, replacing the traditional VGG16, to alleviate problems caused by information decay due to increased network depth and to enhance the efficiency of feature learning. Additionally, a multi-scale fusion module was introduced in the study, which can more effectively handle targets of different sizes, thereby enhancing detection performance. Experimental results show that the improved faster RCNN model performs excellently in bridge defect detection tasks, achieving an accuracy rate of 91.4% and mean average precision of 90.6%.It has significant practical application value for timely identification and repair of structural issues in bridges, providing strong technical support for bridge maintenance and management work.
Key words: bridge defects; defects detection; deep learning