摘 要:本文集中探討了智能網聯汽車中目標識別的關鍵技術,特別是通過雙目視覺與Faster R-CNN相結合進行三維目標檢測的方法。首先,文章詳細分析了Faster R-CNN的工作機制及其網絡架構,包括特征提取、區(qū)域候選生成以及分類與回歸檢測等多個部分,并深入講解了其在訓練過程中的機制及所采用的損失函數。接下來,為了克服現有雙目視覺方法的局限性,提出了一個創(chuàng)新性的三維目標檢測系統(tǒng)——CPNet,該系統(tǒng)將雙目視覺與Faster R-CNN技術融合。通過使用ResNet替換VGG16網絡,構建能夠有效捕捉遠距離小型目標的多層次特征提取網絡。同時,在區(qū)域推薦與參數回歸階段,通過優(yōu)化錨點的數量、調整網絡結構及改進損失函數,實現了對目標朝向角度、物理尺寸和空間坐標的精確預測。此外,引入了一種基于光照校正的三維目標框調整算法,利用原圖的高分辨率信息進一步優(yōu)化了目標的空間坐標。通過在KITTI公開數據集及自定義數據集上的實證研究,結果表明,CPNet在二維目標檢測精度上相較于傳統(tǒng)的Faster R-CNN有顯著提升,最高認知提高了27.68%。在不同難度等級下,系統(tǒng)在AP3D和AOS指標上的表現均十分出色,且整體運行速度僅需0.2秒。本地實驗進一步證實了CPNet的魯棒性和有效性,但同時也指出存在一定程度的誤報和漏報問題,這將是未來工作需要著重解決的挑戰(zhàn)。
關鍵詞:智能網聯汽車 三維目標檢測 Faster R-CNN
1 緒論
伴隨著科技的迅猛進步,智能網聯汽車已然成為驅動交通領域革新的核心力量,在復雜多變的道路環(huán)境中,車輛需要具備精準、高效的多目標識別能力,以確保行車安全及智能駕駛功能的實現。無論是行人、各類機動車還是突發(fā)的非機動車,均需智能網聯汽車能夠實現即時且準確的感知。傳統(tǒng)的單一目標識別算法往往受限于諸如環(huán)境光線條件、氣象狀況以及目標的遮擋等因素,難以達到高度精確的識別標準。例如,在強光源直射下,依賴視覺進行的識別可能會導致誤判;而在霧天等惡劣氣候條件下,雷達探測的準確度和有效范圍會大幅降低。在此背景下,集成了多種傳感器信息的目標識別融合算法應運而生。該算法綜合運用了攝像頭、毫米波雷達、激光雷達等多種傳感器的優(yōu)勢,有效彌補了各自的局限性,構建起一個全面且高可靠性的感知系統(tǒng)。
2 基于雙目視覺與Faster R-CNN的三維目標檢測
Faster R-CNN等二維目標檢測技術在特定場景下檢測準確,但缺乏空間信息,限制了其在需要空間分析的應用,如自動駕駛。為解決此問題,我們提出結合雙目視覺與Faster R-CNN的三維目標檢測方案。研究解釋了Faster R-CNN的原理和架構,并進行了優(yōu)化,使用雙目圖像作為輸入以學習三維空間特征。為檢測遠距離車輛,構建了多層次特征提取網絡。我們還將三維目標邊界框分解為三個部分進行精確估計。通過KITTI數據集訓練和比較三維檢測網絡,并用本地數據集驗證算法的實際應用效果。
2.1 Faster R-CNN目標檢測原理
Faster R-CNN的總體架構主要分為三個關鍵部分:特征提取模塊、區(qū)域建議網絡(Region Proposal Network,簡稱RPN)以及多個專門負責檢測的任務分支,其詳細的體系結構可視化展示在圖1中。
特征提取模塊首先運用卷積和池化技術對輸入圖像進行處理,生成包含關鍵信息的特征圖。隨后,通過區(qū)域建議網絡的兩個分支對這些區(qū)域進行分類和定位。最終,基于篩選后的候選區(qū)域,利用特征圖上對應的不同尺度進行特征提取,并將這些特征送入分類與回歸分支中,以確定目標的具體類別及其精確位置。本文將對Faster R-CNN這一網絡架構的三大核心部分進行深入剖析。
在訓練Faster R-CNN模型過程中,首先基于區(qū)域建議網絡輸出的前景概率,對成千上萬個候選框進行初步篩選,依據預測的前景概率從大到小排序,選取排名靠前的12000個候選框。隨后,運用非極大值抑制算法對候選框進行二次篩選,按概率大小排序這12000個候選框,計算概率最高的候選框與其他框的交并比(Intersection over Union,簡稱IOU),具體指兩框重疊區(qū)域面積與兩框整體覆蓋面積之比。當發(fā)現與某個候選框的IOU值超過預設閾值0.5時,該閾值以下的概率較低候選框將被剔除。經過此循環(huán)操作直至大部分重疊的候選框被移除,最終保留約2000個候選框。真實的目標框會逐一與剩余候選框計算IOU值,其中與每個目標框IOU值最高的候選框被視為正樣本。定義與目標框的IOU值小于0.3的候選框作為負樣本,僅參與分類損失函數的計算,不納入回歸損失函數的計算范疇。僅有正樣本的坐標偏移信息會參與到回歸損失函數的計算中,用以指導模型的學習和優(yōu)化。這里,“x”“y”代表目標框的中心坐標,“w”“h”則分別代表目標框的寬度和高度。假設有目標框的精確位置,以及某個候選框的位置信息時,兩者間通過以下轉換公式進行位置關系的計算:
在所提到的公式內,變量tx、ty、tw、th代表了從錨框轉換至目標框位置的偏差,而這正是網絡回歸檢測部分所輸出的四個預測參數。
Faster R-CNN作為一種先進的目標檢測技術,構建在一個區(qū)域建議網絡框架之上,對于每一個錨框,它能進行前景與背景的二分類概率預測,同時提供邊界框回歸指導。通過該網絡篩選出的Region of Interest(ROI),它進一步執(zhí)行具體的類別預測并實現更為精確的邊界框調整,從而歸類于兩階段的目標檢測算法范疇。由此,Faster R-CNN的損失函數結構被劃分為兩大組成部分:區(qū)域建議網絡的部分與檢測分支的部分。每一部分都涵蓋了分類損失與回歸損失兩個方面。分類損失通常采用交叉熵函數來衡量,而回歸損失則通過計算誤差平方和來量化,旨在優(yōu)化模型對目標對象的定位和識別精度。
區(qū)域推薦網絡中二分類損失為:
區(qū)域推薦網絡中邊框回歸損失為:
分類檢測分支中分類損失為:
回歸檢測分支中回歸損失為:
在上述公式中,、、、表示的是目標框與錨框位置信息的偏差值。
本文探討了網絡預測所引入的坐標位置誤差以及預測的前景概率與特定類別之間的關系。
在概率模型中,Ci和Pi分別代表目標的真實值與預測值。當樣本屬于正例時,其標簽P設置為1;反之,若為負例,則P設置為0。僅正例對回歸損失產生貢獻,因此在區(qū)域推薦網絡的回歸損失計算中,引入了Pi作為乘因子。每次迭代會選取256個樣本,其中包含128個正例和128個負例,若有類別樣本不足,則通過其他類別進行補充以滿足需求。錨點的總數定義為M,假設特征圖尺寸為5038,據此計算得出錨點總數為1900。為了確保分類損失與回歸損失在量級上保持一致性,通常將回歸損失的權重系數設定為10。
2.2 基于雙目視覺的三維目標檢測網絡結構
二維目標檢測關注圖像中的位置,而三維目標檢測則確定目標在三維空間中的位置。由于圖像缺乏立體信息,三維檢測更具挑戰(zhàn)性,因此基于雙目視覺的方法受到關注。這些方法通常分為兩部分:一部分提取圖像特征,另一部分利用視差信息生成視差圖,最終將結果轉化為點云數據以精確定位目標。然而,這些方法面臨兩個主要問題:一是增加網絡模塊導致計算復雜度提高;二是背景信息影響視差圖準確性,降低目標定位精度,尤其是遠距離目標。(表1)
2.3 實驗及結果分析
為了探討三維目標檢測算法CPNet的穩(wěn)健性和通用性,本研究在公開數據集及自定義本地數據集上進行了實證分析,以此來評估算法的表現和適應能力。
2.3.1 三維目標檢測評價指標
準確率(Average Precision,AP):按照IOU的計算方法的不同,可以將之細分為適用于二維圖像的AP2D(Area Precision in 2D)與適用于三維空間的AP3D(Volume Precision in 3D)。AP2D的計算基于二維目標框的面積交集與并集的比例關系,而AP3D則是根據三維目標框的體積交集與并集的比例得出。在進行網絡預測結果與實際標簽的IOU值計算后,通過設定閾值來區(qū)分預測結果的正負樣本,當IOU值不低于該閾值時,網絡將預測結果標記為正樣本;反之則標記為負樣本。針對三維目標檢測任務,目標框通常會被劃分為四類:對于真正屬于正樣本的情況,網絡正確預測為正樣本稱為True Positive(TP);若網絡錯誤地將真負樣本預測為正樣本,則稱之為False Positive(FP)。同樣地,如果網絡準確預測了真負樣本,即預測為負樣本且確實為負樣本,這則被稱作True Negative(TN)。
精確度(Precision)是預測為正樣本的數據集中,實際正類別樣本所占比例。
召回率(Recall)是實際正樣本集合中,網絡模型成功識別并分類為正類的樣本所占比例,公式為:
準確率(AP):P-R曲線的積分。
AP(平均精度)的值位于區(qū)間[0,1]內,其數值越高通常意味著網絡模型的準確率與召回率表現優(yōu)秀,從而反映出網絡的整體性能優(yōu)良。
平均方向相似性(AOS)量化兩個對象在三維空間的方向一致性。它通過計算方向差異的平均值來衡量整體匹配程度。AOS在計算機視覺和機器人導航等領域應用廣泛,尤其對精確識別和定位目標對象的場景至關重要。其用于評價網絡預測角度準確程度的指標。
在所述公式中,符號R所代表的是召回率,集合部分則表示網絡識別并標記為正樣本的全部數據。變量 表示網絡計算出的定向角度與實際值之間的差異。參數λ作為懲罰因子,在情況多個正樣本由網絡同一真正樣本對應時設為0,其他情況下則設定為1。AOS的取值限定于[0,1]區(qū)間內,數值越大暗示著網絡對角度的預測準確性越高。
2.3.2 基于公開數據集的實驗及結果分析
(1)公開數據集說明
KITTIDataSet,自動駕駛領域內公認的頂尖三維目標檢測數據集,由7481張用于訓練的圖片與7518張用于測試的圖片構成,值得注意的是,僅訓練圖片攜帶有實際標簽信息。表2詳細列出了KITTIDataSet中標簽信息的具體內容。
KITTI數據集將目標檢測任務的復雜性細分為三個級別:簡單、中等和困難,這一分類依據是目標在圖像中所占的像素比例、目標的遮擋情況以及目標被截斷的程度。具體來說,該數據集的難度等級劃分詳情如表3所示。
我們采用了7481對帶有標簽的圖片作為構建和評估CPNet模型的數據基礎,并通過隨機劃分的方式,按照1∶1的比例,將整個數據集分為了訓練集和用于驗證的測試集。為了最大化利用數據資源并獲取更多等效數據,我們在訓練集上實施了數據增強技術。鑒于CPNet專為三維目標檢測設計,其原理基于圖像像素點與三維空間點之間的投影映射,避免采用目標檢測領域內常見的隨機角度翻轉策略。
(2)網絡訓練參數設定
為了確保訓練過程的穩(wěn)定性,我們選用Adam優(yōu)化算法作為網絡模型的優(yōu)化手段。該算法能夠動態(tài)調整每個參數的學習率,從而保證在每次迭代之后,學習率都在一個預設的范圍內變動,有效避免了參數振蕩現象。在Adam的計算流程中引入了移動指數平均的概念,其計算公式具體如下所示:
本文聚焦深度學習模型訓練及相關目標檢測算法對比。首先,在模型訓練中,引入不同時刻的梯度指數移動平均值與梯度平方指數移動平均值,設置學習率為 0.9、指數衰減移動平均衰減系數為 0.999、正則化項為 10e8 等參數。采用預訓練的 ResNet50 模型及 He Initialization 策略進行權重初始化,精心配置網絡超參數,如學習率 0.01、訓練周期 18 個、批次大小 1 等,還對區(qū)域建議網絡的 ROI 提取點及輸入圖像尺寸等進行設置。
訓練初期損失值較高,隨著迭代增加快速下降,后期波動,部分點損失值近零,提示可移除無目標圖像以優(yōu)化效率,平均每次迭代耗時 1.1 秒,累計訓練 41.15 小時。每個周期結束保存權重,用于對 3740 張測試集圖像分類預測并計算AP值,重點關注轎車類別。
在訓練過程中,初期3D平均精度AP3D 不佳,僅20.01%,但隨周期增加逐步提升,第12個周期達81.45%后穩(wěn)定。
(3)二維目標檢測對比結果分析
對比 CPNet 與 Faster R-CNN,CPNet 基于 Faster R-CNN,在二維目標檢測上,其獨特網絡結構和優(yōu)化算法使在特定場景如復雜背景和小目標識別中檢測精度和速度有優(yōu)勢;而 Faster R-CNN 憑借成熟區(qū)域建議機制和多尺度特征提取能力,在廣泛應用領域表現出穩(wěn)定檢測效果和良好泛化能力。通過實驗數據和案例研究,清晰呈現兩者在不同任務需求和數據集規(guī)模下的優(yōu)勢與局限,為目標檢測算法選擇提供有價值參考,同時CPNet還通過測試集與其他方法對比了二維目標檢測任務上的平均精度AP2D,相關結果記錄在表4中。
通過分析表格中的數據顯示,相較于基礎的Faster R-CNN,CPNet在面對不同難度級別的檢測任務時均展現出顯著優(yōu)勢,分別實現了17.27%、19.94%以及27.86%的性能提升。隨著檢測挑戰(zhàn)性的增加,即從近距離到遠距離,從小目標到大范圍覆蓋的目標,再到部分遮擋與截斷情況的處理,CPNet與Faster R-CNN之間的性能差距逐漸拉大。結果反映出了CPNet所采用的多尺度特征提取網絡在整合和利用圖像信息方面的效率和深度,相比Faster R-CNN有明顯的提升。
(4) CPNet三維目標檢測識別效果分析
在不同距離的場景中,通過對CPNet檢測結果的觀察,我們發(fā)現該網絡在識別靠近攝像頭的車輛方面表現出色。網絡構建的三維目標邊界框能夠精確地覆蓋目標車輛,且對于存在部分遮擋的車輛也具備一定的識別能力。
3 結論
本文深入剖析 Faster R-CNN 檢測機制與架構后,提出新型三維目標檢測網絡 CPNet。針對遠距車輛檢測,以 ResNet 替換 VGG16,結合圖像金字塔理念優(yōu)化架構,增上采樣層與多尺度輸出層強化特征提取,生成多層次特征圖。KITTI 數據集實驗表明,多尺度特征提取法較單尺度模型,不同檢測距離區(qū)間內 AP3D 提升超25%,遠距提升達 38.43%。
利用投影中心點算視差,結合雙目視覺測距原理求解車輛三維坐標,引入光度校正三維目標框修正算法優(yōu)化坐標,對比修正前后 Z 軸值平均誤差,驗證算法提升定位精度的有效性與實用性。
經 KITTI 數據集訓練評估,CPNet二維檢測能力優(yōu)勢顯著,較 Faster R-CNN性能上限提升 27.68%,與流行三維檢測網絡相比具競爭力,不同難度測試中 AP3D 分別達 81.45%、69.79%、62.29%,AOS 達 97.87%、88.98%、78.64%,運行速度僅 0.2 秒,三輪本地實驗證實其穩(wěn)定性與實用性,但存在誤檢漏檢問題,為算法優(yōu)化指明方向。
基金項目:江蘇省高職院校青年教師企業(yè)實踐培訓資助項目(2024QYSJ031)。
參考文獻:
[1]Smith, J. Johnson, A. Multi-sensor Fusion for Object Recognition in Intelligent Connected Vehicles [D]. Massachusetts Institute of Technology, 2021.
[2]Brown, L. Research on the Optimization of Target Recognition Algorithms in Autonomous Driving Scenarios [D]. Stanford University, 2022.
[3]李明.智能網聯汽車多傳感器融合目標識別技術綜述[J]. 汽車工程學報,2020,10(05):301-306.
[4]王悅.基于深度學習的智能網聯汽車目標識別算法改進 [J]. 中國科技信息,2020(12):78-80.
[5]張輝.智能網聯汽車環(huán)境感知中目標識別融合策略探討 [J]. 汽車技術,2021(03): 45-49.
[6]劉鑫.面向復雜路況的智能網聯汽車目標識別算法研究[J].現代交通技術,2021,18(02):33-37.