葉兆元 張亮智 梁海泓 蘇湘鈿 黎志勇
摘要:隨著深度學(xué)習(xí)技術(shù)的發(fā)展,自動駕駛汽車對道路信息的檢測變得至關(guān)重要。一個全面的檢測系統(tǒng)需要車輛和道路的全方位信息,傳統(tǒng)的道路巡檢方式以及專用設(shè)備檢測方式成本高昂,效率低下,嚴重制約了道路的維護和安全。目標(biāo)檢測和語義分割是實現(xiàn)車輛視覺感知的主要技術(shù),但單一的任務(wù)檢測不能滿足復(fù)雜道路環(huán)境的需要。針對傳統(tǒng)道路異常狀態(tài)檢測存在的高成本和低效率問題,提出了一種基于深度學(xué)習(xí)的智能化檢測方法,構(gòu)建了包含多種異常狀態(tài)的數(shù)據(jù)集,并采用Faster RCNN目標(biāo)檢測算法以及半監(jiān)督策略的生成對抗網(wǎng)絡(luò),實現(xiàn)了對道路異常狀態(tài)的自動化檢測和分割。
關(guān)鍵詞:CNN;Faster RCNN;RPN;網(wǎng)絡(luò)模型結(jié)構(gòu);VGG-16
中文圖類號:U472.9? 收稿日期:2024-03-25
DOI:1019999/jcnki1004-0226202406035
1 前言
隨著汽車數(shù)量的增加和道路負荷的增大,公路出現(xiàn)了各種異常狀態(tài),如路面裂縫、塌陷、坑槽等,嚴重威脅了交通安全并增加了維護成本[1]。傳統(tǒng)的道路異常狀態(tài)檢測主要依賴人工方法,但存在一些問題,包括主觀性、低效率、高成本、安全風(fēng)險以及可能引發(fā)交通堵塞等。深度學(xué)習(xí)通過卷積神經(jīng)網(wǎng)絡(luò)等技術(shù)可以從道路圖像中提取更多層次的特征信息,提高了圖像處理的效率和準(zhǔn)確性,為道路異常狀態(tài)檢測提供了新的途徑。
近年來,研究者將深度學(xué)習(xí)應(yīng)用于道路工程的各個方面,包括設(shè)計、檢查監(jiān)測、維護等。這些研究包括使用改進的BP神經(jīng)網(wǎng)絡(luò)算法來提高路面裂縫異常狀態(tài)檢測的速度,使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)來檢測道路裂縫異常狀態(tài),并使用深度殘差網(wǎng)絡(luò)對不同尺度的特征信息進行融合,以實現(xiàn)裂縫的精細分割。
2 基礎(chǔ)理論分析
在自動駕駛領(lǐng)域,深度學(xué)習(xí)被廣泛用于解決感知、決策、控制等算法中面臨的難題,以提高自動駕駛系統(tǒng)的智能化水平[2]。卷積神經(jīng)網(wǎng)絡(luò)(CNN)能夠自動地從原始圖像中學(xué)習(xí)到有用的特征,并且具有良好的魯棒性,能夠處理各種不同形狀和大小的圖像。
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)也是一種常用的深度學(xué)習(xí)算法,主要用于處理序列數(shù)據(jù),如語音、文本等。RNN通過循環(huán)連接的方式實現(xiàn)對序列數(shù)據(jù)的記憶和傳遞,從而能夠有效地處理時序數(shù)據(jù)。在自動駕駛領(lǐng)域,RNN可用于處理車輛行駛中的傳感器數(shù)據(jù)和GPS軌跡等序列數(shù)據(jù)。
深度置信網(wǎng)絡(luò)(DBN)能夠通過逐層貪婪訓(xùn)練的方式,從復(fù)雜繁瑣的原始數(shù)據(jù)中逐層分離提取出越來越高級的特征。DBN的優(yōu)點在于其能夠有效地處理高維數(shù)據(jù),并且具有較好的特征學(xué)習(xí)能力。
在自動駕駛領(lǐng)域,深度學(xué)習(xí)被廣泛應(yīng)用于感知等算法,實現(xiàn)對道路、車輛、行人等目標(biāo)的識別和跟蹤。在決策方面,深度學(xué)習(xí)利用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和長短時記憶網(wǎng)絡(luò)(LSTM)等算法,對車輛行駛數(shù)據(jù)和交通流數(shù)據(jù)進行處理,實現(xiàn)車輛行駛策略的優(yōu)化和控制。在控制方面,深度學(xué)習(xí)通過對車輛動力學(xué)和機械系統(tǒng)的理解,利用深度強化學(xué)習(xí)等算法,實現(xiàn)對車輛的精確控制。
3 檢測算法
采用Faster RCNN算法為基礎(chǔ)模型,并對其進行改進。Faster RCNN算法能夠有效地在輸入圖像中定位目標(biāo)并輸出相應(yīng)目標(biāo)類別的概率。改進方向包括特征提取優(yōu)化,引入多尺度特征金字塔融合策略以提升多尺度目標(biāo)檢測性能,并解決傳統(tǒng)感興趣區(qū)域池化層所導(dǎo)致的目標(biāo)定位精度問題,采用ROI Align進行替代。Faster RCNN算法為經(jīng)典的two-stage目標(biāo)檢測算法,分為兩個階段:首先,通過特征提取骨干網(wǎng)絡(luò)生成候選框;然后進行目標(biāo)類別分類和候選框位置回歸。
31 特征量提取算法
圖片特征信息的提取在目標(biāo)檢測算法中起著關(guān)鍵作用,而Faster RCNN算法選擇VGG-16網(wǎng)絡(luò)作為其特征提取的基礎(chǔ)。VGG-16網(wǎng)絡(luò)是在AlexNet網(wǎng)絡(luò)的基礎(chǔ)上進行更深層次的設(shè)計,從而形成的一個深度卷積神經(jīng)網(wǎng)絡(luò)。其卷積特征提取部分由13個卷積層和5個池化層的有序組合構(gòu)成。
VGG-16網(wǎng)絡(luò)的特征提取過程可以概括為以下幾個步驟:a.圖像經(jīng)過兩次3×3大小的卷積核的卷積操作,然后進行一次最大池化操作,以減小圖像尺寸;b.經(jīng)過兩次3×3大小的卷積核的卷積運算,然后再次進行最大池化,以繼續(xù)壓縮特征圖的尺寸;c.卷積核的數(shù)量增加到256,并使用3組卷積核對上一階段的輸出進行卷積操作,然后再次送入最大池化層進行特征圖的進一步壓縮;d.卷積核的數(shù)量增加到512,與之前的階段類似,對上一階段的輸出進行卷積操作,然后再次進行最大池化;e.繼續(xù)使用512個卷積核進行卷積操作,然后經(jīng)過一次最大池化,以得到抽象的語義信息特征圖。獲取輸入圖像的抽象語義特征,為Faster RCNN算法提供了強大的圖像特征,有助于檢測和定位圖像中的目標(biāo)物體。
32 Region Proposal Network
RPN是Faster RCNN的關(guān)鍵組成部分之一,其主要任務(wù)是接受任意尺寸的輸入圖像,并生成一組矩形框,這些框包含與目標(biāo)對象相關(guān)的概率得分。RPN基于卷積特征圖的滑動窗口操作,利用共享的卷積頂層特征信息,在大小為w×w的特征圖上,RPN對每個像素位置采樣A個初始區(qū)域,從而得到W×H/A個候選區(qū)域。
RPN將候選區(qū)域傳遞給分類器進行篩選。使用交并比(IOU,Intersection over Union)來評估每個候選區(qū)域與實際目標(biāo)的重疊程度。當(dāng)候選區(qū)域與至少一個目標(biāo)的IOU不低于07時,才被標(biāo)記為正樣本,表示可能包含目標(biāo)對象,有效地過濾掉了不包含目標(biāo)的候選區(qū)域。
[Lrpn({pi},{ti})=1NclsiLcls(pi,p?i)=]
[λ1Nregip?iLreg(ti,t?i)]????????????????????? (1)
式中,i為Anchor Boxes的索引;[p?i]為真實值標(biāo)簽的值;l表示正樣本;0為負樣本;[t?i]是索引為i的Anchor Box的邊界框修正值;[Lcls]為分類損失函數(shù);[Lreg]為邊界框回歸的損失函數(shù),用于衡量預(yù)測的邊界框與真實邊界框之間的誤差;[λ]為分類損失函數(shù)和邊界框回歸損失函數(shù)之間的平衡權(quán)重,用于調(diào)整它們的相對重要性。通過最小化損失函數(shù),這個方程描述了RPN的訓(xùn)練過程,是目標(biāo)檢測中的重要組成部分。
RPN執(zhí)行邊界框回歸,以修正正樣本的邊界框位置,從而提高目標(biāo)檢測的精度。RPN根據(jù)損失函數(shù)進行訓(xùn)練,該損失函數(shù)包括分類損失和邊界框回歸損失。分類損失使用交叉熵損失函數(shù)來衡量預(yù)測值與真實標(biāo)簽之間的誤差。邊界框回歸損失用于修正候選區(qū)域的位置,以更準(zhǔn)確地擬合目標(biāo)。RPN通過利用卷積特征圖,生成并篩選目標(biāo)候選區(qū)域,從而為目標(biāo)檢測提供了有效的輸入。通過訓(xùn)練RPN,可以預(yù)測和修正這些候選區(qū)域,從而提高了目標(biāo)檢測的性能。
33 鏈?zhǔn)骄W(wǎng)絡(luò)配比
對于目標(biāo)分類和邊界框回歸,DF RCN則采用了一種分離的策略,將這兩個任務(wù)分別傳輸給全連接結(jié)構(gòu)和卷積結(jié)構(gòu)。全連接結(jié)構(gòu)負責(zé)目標(biāo)分類,而卷積結(jié)構(gòu)則用于目標(biāo)定位。這種分離的方法旨在實現(xiàn)更準(zhǔn)確的目標(biāo)分類和更精確的目標(biāo)定位,從而提高目標(biāo)檢測性能。通過這種策略,DF RCN有效地利用自動學(xué)習(xí)圖像的特征,改善目標(biāo)檢測的準(zhǔn)確性和靈敏性。
全連接層的作用是將之前提取到的特征進行整合和分類,輸出最終的分類結(jié)果。這種結(jié)構(gòu)的設(shè)計使卷積神經(jīng)網(wǎng)絡(luò)能夠有效地處理復(fù)雜數(shù)據(jù),提高分類的準(zhǔn)確性和魯棒性。全連接結(jié)構(gòu)包含兩層全連接層,每一層的神經(jīng)節(jié)點數(shù)目都為1 024[3-4]。第一層全連接層將ROI Align輸出的7×7×256張量降維到1 024維,而第二層全連接層也有1 024個神經(jīng)節(jié)點,能夠更好地識別復(fù)雜的圖像特征和執(zhí)行分類任務(wù)。這種結(jié)構(gòu)設(shè)計有助于提高模型的性能,能處理和解決復(fù)雜圖像分類問題。
34 算法改進
道路異常檢測場景具有以下特點:a.道路圖像的背景復(fù)雜多樣,同時,由于拍攝道路圖片的時間、季節(jié)和氣候等自然因素的變化,許多道路異常狀態(tài)與圖像背景相似度非常高。這需要模型具備強大的特征提取能力,以有效提取出道路異常的特征。b.由于攝像頭需要保持一定的高度對道路進行拍攝取樣,導(dǎo)致圖像中的道路異常目標(biāo)相對較小,模型需要具備較高的小目標(biāo)檢測能力。c.道路圖片樣本的獲取方式多種多樣,不同獲取方式導(dǎo)致樣本在拍攝距離和角度方面存在較大差異。模型需要具備多尺度目標(biāo)檢測和識別的能力。
為了應(yīng)對這些挑戰(zhàn),對Faster RCNN目標(biāo)檢測算法進行了改進。a.采用了ResNet50網(wǎng)絡(luò)作為特征提取的骨干網(wǎng)絡(luò),以提高特征提取性能。b.引入了FPN網(wǎng)絡(luò),將ResNet50的第2至第5個殘差模塊的輸出作為基礎(chǔ),融合多級尺度的特征信息,增強了輸出特征的空間細節(jié)和語義信息。c.為了解決ROI Pooling層可能引入的錨框定位誤差問題,引入了ROI Align模塊,采用雙線性插值方式對錨框進行池化操作。
4 實驗結(jié)果分析
本實驗采用Python實現(xiàn),版本為310,基于PyTorch v181框架。實驗設(shè)備為聯(lián)想 ThinkStation P350圖形工作站。第一個實驗分別使用Faster R-CNN和Divide Faster R-CNN在相同的設(shè)置下訓(xùn)練,設(shè)置batch size為1,訓(xùn)練步數(shù)為200,總共訓(xùn)練100個周期。第二個實驗吸塵器塵袋數(shù)據(jù)集上的性能比較:收集吸塵器塵袋數(shù)據(jù)集1,這個數(shù)據(jù)集應(yīng)專注于吸塵器塵袋內(nèi)部對象的檢測。在相同的設(shè)置下,使用Faster R-CNN和Divide Faster R-CNN分別進行訓(xùn)練。確保batch size為1,訓(xùn)練步數(shù)為200,總共訓(xùn)練100個周期。第三個實驗用于驗證算法的性能,檢驗增加類別后算法的魯棒性,首先準(zhǔn)備原始數(shù)據(jù)集1。然后,收集擴展數(shù)據(jù)集2,并將其與原始數(shù)據(jù)集1合并,形成一個類別更豐富的數(shù)據(jù)集。實驗中,Divide Faster RCNN采用帶動量的SGD算法,動量為09,學(xué)習(xí)率為0000 1。輸入圖像的大小在第一個實驗縮放為512×512,而在第二個和第三個實驗中,圖像大小縮放為1 024×1 024。
為了減少計算量,采用瓶頸層方式,先利用1×1卷積將輸入通道數(shù)降低,對降低之后的特征圖進行進一步卷積,最后通過1×1卷積將輸出通道數(shù)重新升高到預(yù)設(shè)維度。模型的檢測速度仍然優(yōu)于Mask RCNN但略遜于Faster RCNN。同時,由于增加了卷積結(jié)構(gòu),導(dǎo)致模型在訓(xùn)練過程中l(wèi)oss的下降速度稍微變慢,但下降趨勢基本沒有變化。通過對比實驗前后的性能指標(biāo),驗證算法在增加類別后的魯棒性和泛化能力。在所有實驗中,確保Divide Faster R-CNN和Faster R-CNN的其他設(shè)置(如學(xué)習(xí)率、優(yōu)化器、損失函數(shù)等)盡可能保持一致,以便公平比較。在實驗過程中,注意監(jiān)控訓(xùn)練過程中的指標(biāo)(如損失、準(zhǔn)確率等),以便及時調(diào)整訓(xùn)練策略。最后,確保收集充足的測試數(shù)據(jù)來全面評估模型的性能。
5 結(jié)語
針對傳統(tǒng)道路異常狀態(tài)檢測存在的高成本和低效率問題,提出了一種針對道路異常檢測場景的目標(biāo)檢測算法,同時提出了一種基于深度學(xué)習(xí)的智能化檢測方法,構(gòu)建了包含多種異常狀態(tài)的數(shù)據(jù)集,通過多方面的改進措施,如特征提取優(yōu)化、多尺度感知、RPN的改進等,并采用Faster RCNN目標(biāo)檢測算法以及半監(jiān)督策略的生成對抗網(wǎng)絡(luò),實現(xiàn)了對道路異常狀態(tài)的自動化檢測和分割。
該方法有效地應(yīng)對了這一特殊場景的挑戰(zhàn),有效降低檢測成本和提高效率,為自動駕駛安全提供更有效的支持。實驗結(jié)果證明了算法的有效性和性能優(yōu)越性。研究結(jié)果對于道路異常檢測以及其他特定場景的目標(biāo)檢測任務(wù)具有一定的指導(dǎo)意義,為相關(guān)領(lǐng)域的研究提供了有價值的經(jīng)驗和思路。
參考文獻:
[1]梁泓基于深度學(xué)習(xí)的道路異常狀態(tài)檢測方法研究[D]上海:東華大學(xué),2022
[2]段續(xù)庭,周宇康,田大新,等深度學(xué)習(xí)在自動駕駛領(lǐng)域應(yīng)用綜述[J]無人系統(tǒng)技術(shù),2021,4(6):1-27
[3]陳國良,龐裕雙基于改進Faster RCNN的微操作空間目標(biāo)檢測算法[J]傳感器與微系統(tǒng),2024,43(3):144-147+151
[4]代恒軍基于改進的Faster R-CNN圖像目標(biāo)檢測方法研究[J]信息技術(shù)與信息化,2023(8):91-94
作者簡介:
葉兆元,男,2001年生,本科生,研究方向為自動駕駛算法、無監(jiān)督學(xué)習(xí)。
黎志勇(通訊作者),男,1979年生,副教授,博士研究生,研究方向為材料成形、智能算法。
基金項目:國家級大創(chuàng)項目(202213720002,202313720002);省級大創(chuàng)項目(S202313720007)