• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于內(nèi)容感知重組特征的車輛行人檢測算法

      2023-11-13 01:15:38鄧天民劉金鳳王春霞李慶營
      關(guān)鍵詞:特征提取行人精度

      鄧天民,劉金鳳,王春霞 ,李慶營

      (1.重慶交通大學(xué) 交通運(yùn)輸學(xué)院,重慶 400074;2. 山東高速工程檢測有限公司,山東 濟(jì)南 250000)

      0 引 言

      車輛與行人是道路交通環(huán)境的主要參與者和目標(biāo),研究車輛和行人兩種目標(biāo)更符合實(shí)際駕駛場景需求,且道路環(huán)境開放不可控因素多,準(zhǔn)確的車輛行人檢測可以提高道路交通的智能信息化[1,19]水平,改善道路擁堵,減少交通事故和人員傷亡,提高道路安全水平。近年來,在目標(biāo)檢測任務(wù)中,基于深度學(xué)習(xí)的方法獲得突破性進(jìn)展,其相較于傳統(tǒng)目標(biāo)檢測任務(wù)更具優(yōu)秀的特征提取能力和適應(yīng)性。因此,利用深度學(xué)習(xí)的方法研究道路交通中車輛和行人目標(biāo)成為研究熱點(diǎn)。

      ZHOU Yan等[2]針對小目標(biāo)和遮擋目標(biāo)的誤檢和漏檢問題,在骨干網(wǎng)絡(luò)中引入可變形卷積和空間注意機(jī)制,提升了小目標(biāo)的特征提取效果,同時(shí)設(shè)計(jì)一種路徑聚合平衡特征金字塔結(jié)構(gòu)(path aggregation balanced feature pyramid network,PAB-FPN),減少融合過程中的特征損失;徐謙等[3]提出了一種車輛與行人檢測網(wǎng)絡(luò)PVDNet,先用優(yōu)化的跳躍連接結(jié)構(gòu)使模型加快收斂,然后使用單維卷積方法(ODC)減少參數(shù)量,但兩者均由于Faster R-CNN[4]模型本身大,優(yōu)化后仍不滿足實(shí)時(shí)性的需求。

      李經(jīng)宇等[5]針對車輛與行人尺度變化大、目標(biāo)遮擋和光照變化的問題,基于YOLOv3網(wǎng)絡(luò)優(yōu)化空間金字塔(spatial pyramid pooling,SPP)結(jié)構(gòu),增強(qiáng)了特征圖局部區(qū)域的表達(dá)能力,通過添加通道注意力提升了遮擋目標(biāo)的檢測精度;黃躍珍等[6]針對車輛檢測精度不高的問題,基于CenterNet網(wǎng)絡(luò),將ResNet18作為主干網(wǎng)絡(luò),優(yōu)化損失函數(shù),降低車輛識別中的定位誤差,采用自適應(yīng)空間特征融合方法提高車輛的檢測精度,但由于模型本身結(jié)構(gòu)顯著增大,嚴(yán)重影響檢測速度;周大可等[7]針對行人檢測的遮擋問題,基于RetinaNet[8]網(wǎng)絡(luò),使用通道和空間注意力分別對分類和定位誤差進(jìn)行優(yōu)化,并優(yōu)化回歸損失函數(shù)提升檢測速度,有效提高了對遮擋目標(biāo)的檢測能力,但檢測速度慢。

      以上方法主要存在以下問題:在行車場景中,車輛和行人單一目標(biāo)研究相對較多,同時(shí)考慮車輛和行人目標(biāo)時(shí),常常因圖像中兩者目標(biāo)尺寸相差大,目標(biāo)檢測性能出現(xiàn)此消彼長的情況;同時(shí),即使在公開數(shù)據(jù)集(如KITTI[9])上展現(xiàn)了良好的性能,當(dāng)受惡劣天氣[10](如BDD100K[11])等條件影響時(shí),由于檢測目標(biāo)在圖片中像素尺寸占比小[20]且多個(gè)檢測目標(biāo)之間存在相互遮擋的問題,檢測效果有待提高。基于此,筆者提出一種基于內(nèi)容感知重組特征和自適應(yīng)融合的YOLOv5(content-aware reassembly of feature and adaptive fusion YOLOv5, CRAF-YOLOv5)車輛與行人檢測算法。采用融合通道注意力的瓶頸層,在特征提取階段改變對特征圖不同通道的權(quán)重,降低復(fù)雜背景對車輛與行人目標(biāo)特征提取過程的影響,提升不同通道與重要信息的相關(guān)度。在早融合階段利用重組核提取淺層內(nèi)容信息,通過重組核進(jìn)行內(nèi)容感知預(yù)測,使得復(fù)雜背景信息中的關(guān)鍵信息得到更多的關(guān)注,跳躍連接將深層和淺層信息深度融合,增強(qiáng)小目標(biāo)的表征能力。晚融合階段在3個(gè)尺度上添加權(quán)重變化系數(shù),經(jīng)梯度反向傳播動態(tài)更新權(quán)重變化情況,解決兩種目標(biāo)尺寸差異大的問題,從而提升網(wǎng)絡(luò)在復(fù)雜背景和小目標(biāo)車輛行人檢測任務(wù)中的性能。

      1 文中算法

      YOLOv5有n、s、m、l、x共5個(gè)版本,在推理速度接近時(shí),YOLOv5s比YOLOv5n的檢測精度更高。因此,權(quán)衡速度和精度兩方面因素,筆者選擇YOLOv5s作為基準(zhǔn)算法。

      文中算法在保證目標(biāo)檢測器實(shí)時(shí)性能不變的前提下,更關(guān)注車輛與行人在復(fù)雜背景中的關(guān)鍵特征信息,通過提出融合通道注意力的特征提取網(wǎng)絡(luò)、內(nèi)容感知預(yù)測重組和自適應(yīng)加權(quán)融合網(wǎng)絡(luò)來提升基準(zhǔn)算法在車輛與行人目標(biāo)檢測任務(wù)中的性能。CRAF-YOLOv5算法的框架結(jié)構(gòu)如圖1,整體結(jié)構(gòu)包括三部分。首先,在骨干網(wǎng)絡(luò)的瓶頸層中嵌入通道注意力,形成新的瓶頸層C-Bottleneck,網(wǎng)絡(luò)每次進(jìn)行下采樣,通過改變不同通道上的權(quán)重值可以更多地關(guān)注復(fù)雜背景中車輛與行人目標(biāo)的重要特征信息,通過在不同層的下采樣結(jié)構(gòu)上設(shè)置不同數(shù)量的瓶頸層,增強(qiáng)特征提取網(wǎng)絡(luò)的性能。隨后,在早融合階段使用重組核對淺層提取的內(nèi)容信息重新感知(CARA),提升網(wǎng)絡(luò)對復(fù)雜背景中關(guān)鍵信息的融合能力,使用跳躍連接將同一特征分辨率的特征深度融合,使得淺層網(wǎng)絡(luò)和深層網(wǎng)絡(luò)的特征信息更有效結(jié)合,減少小目標(biāo)的特征損失。最后,在晚融合階段,為充分利用3個(gè)尺度上的信息,檢測出不同尺寸的車輛與行人目標(biāo),使用自適應(yīng)融合的方法,依據(jù)前向傳播過程形成的參數(shù)矩陣在反向傳播中動態(tài)變化的特點(diǎn),在3個(gè)尺度上設(shè)置不同的權(quán)重比例,實(shí)現(xiàn)不同尺度上的權(quán)重動態(tài)變化過程,通過自適應(yīng)學(xué)習(xí)過程,使整體網(wǎng)絡(luò)可以表現(xiàn)出更豐富的上下文目標(biāo)特征信息。

      圖1 CRAF-YOLOv5算法框架結(jié)構(gòu)Fig. 1 Architecture of CRAF-YOLOv5 algorithm framework

      1.1 多通道注意力特征提取網(wǎng)絡(luò)

      多通道注意力特征提取網(wǎng)絡(luò)采用4組C3結(jié)構(gòu),通過此結(jié)構(gòu)與卷積得到的特征合并,使主干網(wǎng)絡(luò)在減少計(jì)算量的同時(shí)可以保證準(zhǔn)確率。在加深網(wǎng)絡(luò)過程中使用不同數(shù)量的瓶頸層Bottleneck,解決了網(wǎng)絡(luò)加深過程中梯度消失的問題。由于瓶頸層Bottleneck是在ResNet網(wǎng)絡(luò)結(jié)構(gòu)上演變而來,相較于殘差網(wǎng)絡(luò)缺少歸一化和激活層,非線性能力表達(dá)減弱,這對于復(fù)雜背景下的車輛與行人檢測任務(wù)非常不利,導(dǎo)致檢測精度變低。因此,為加強(qiáng)特征提取過程,選擇合適的模塊來強(qiáng)調(diào)通道空間維度[12]上的重要特征信息,抑制背景信息的干擾,強(qiáng)化檢測目標(biāo)的關(guān)鍵信息特征提取。

      選用SEBlock(squeeze and excitation block[13],SEBlock)模塊,根據(jù)瓶頸層Bottleneck結(jié)構(gòu)的特點(diǎn),設(shè)計(jì)了以下3種不同的瓶頸層結(jié)構(gòu)C-Bottleneck,使用SEBlock與Bottleneck結(jié)構(gòu)串聯(lián)形成3種新的瓶頸層,如圖2。

      圖2 3種新的瓶頸層Fig. 2 Three kinds of new bottleneck layers

      結(jié)構(gòu)1、結(jié)構(gòu)2在3×3卷積的前、后兩個(gè)位置添加通道注意力,3×3卷積通過增加理論感受野,豐富局部上下文信息,進(jìn)行提取特征。此過程不產(chǎn)生通道數(shù)改變,因此推斷在通道數(shù)發(fā)生改變之后先添加通道注意力比再經(jīng)過一次卷積特征提取更適合。而結(jié)構(gòu)1、結(jié)構(gòu)3在1×1卷積的前、后添加通道注意力,且此處1×1卷積的作用是降低維度,減少通道數(shù),據(jù)此判斷在通道數(shù)變化后關(guān)注對應(yīng)維度上產(chǎn)生的特征損失更有效。綜合對比結(jié)構(gòu)1、結(jié)構(gòu)2、結(jié)構(gòu)3的特點(diǎn),根據(jù)1×1卷積和3×3卷積的作用特點(diǎn),選擇結(jié)構(gòu)1。

      由于背景信息對車輛與行人目標(biāo)的干擾因素大,每次下采樣過程不同通道的信息損失不等。通過改變通道與關(guān)鍵信息相關(guān)度的權(quán)重值增強(qiáng)特征提取網(wǎng)絡(luò)對關(guān)鍵通道的注意力,考慮車輛與行人目標(biāo)的精度需求以及原模型結(jié)構(gòu)特點(diǎn),采用7組瓶頸層強(qiáng)化主干網(wǎng)絡(luò)的特征提取能力,將7層瓶頸通道注意力單元在下采樣時(shí)分為4組,每組的數(shù)量分別設(shè)置為1、2、3、1,提出一種融合多通道注意力的特征提取網(wǎng)絡(luò),結(jié)構(gòu)如圖3。

      圖3 特征提取網(wǎng)絡(luò)結(jié)構(gòu)Fig. 3 Feature extraction network structure

      1.2 自適應(yīng)重組融合網(wǎng)絡(luò)

      特征融合階段采用FPN(feature pyramid networks[14])結(jié)構(gòu)和PAN(path aggregation network[15])結(jié)構(gòu)。FPN使用自上而下的路徑與自底向上的路徑合并聚集多尺度上的特征;PAN添加一條自下向上的路徑進(jìn)行擴(kuò)充和聚合,將深層網(wǎng)絡(luò)的特征信息和淺層網(wǎng)絡(luò)的特征信息融合。在車輛與行人檢測任務(wù)中,一方面兩種目標(biāo)尺寸相差大,另一方面當(dāng)兩種目標(biāo)均較小時(shí),對較小的行人目標(biāo)更加不友好,則僅將深層和淺層信息簡單融合不能滿足需求。為此,筆者從融合早期和晚期兩個(gè)階段分別考慮,構(gòu)建自適應(yīng)特征重組融合網(wǎng)絡(luò)。

      1.2.1 特征預(yù)測與重組

      在早融合階段,使用最近鄰插值進(jìn)行上采樣。由于最近鄰插值采用像素之間的空間距離上采樣過程中只考慮亞像素鄰域[16],而在車輛與行人檢測任務(wù)中,兩種目標(biāo)尺寸相差大,最近鄰插值不能滿足任務(wù)中所需的更豐富語義信息,因此,筆者選用內(nèi)容感知預(yù)測重組核進(jìn)行上采樣。

      Wl′=ψ[N(Xl,kencoder)]

      (1)

      (2)

      式中:ψ為特征圖重組核的形成過程;N(Xl,*)為Xl的鄰域區(qū)間;φ為使用函數(shù),其為對特征圖重組核的預(yù)測內(nèi)容進(jìn)行加權(quán)和運(yùn)算的過程。

      特征預(yù)測和感知重組過程如圖4。輸入特征X∈RC×H×W,生成C×σH×σW的特征X′。在輸入特征以l=(i,j)為中心的相應(yīng)正方形區(qū)域N(Xl,kup)對輸出特征中以l′=(i/σ,j/σ)為中心的區(qū)域上,每個(gè)像素的貢獻(xiàn)不同,基于特征的內(nèi)容重組特征圖局部區(qū)域的特性,使得從特征圖中獲取的語義信息更加豐富。對車輛與行人目標(biāo)在目標(biāo)尺寸相差大且目標(biāo)較小的檢測任務(wù)中,關(guān)注到局部區(qū)域相關(guān)點(diǎn)的信息,從而強(qiáng)化了深層網(wǎng)絡(luò)對兩種目標(biāo)的表征能力。

      圖4 特征預(yù)測與感知重組結(jié)構(gòu)Fig. 4 Structural diagram of feature prediction and perception reassembly

      在深層網(wǎng)絡(luò)的特征圖中小目標(biāo)特征信息損失多,當(dāng)單個(gè)節(jié)點(diǎn)只有一條輸入邊而沒有進(jìn)行特征融合時(shí),其對融合網(wǎng)絡(luò)的貢獻(xiàn)小[17]。為使網(wǎng)絡(luò)在不增加太多計(jì)算成本的前提下可以融合更多的目標(biāo)特征,在3個(gè)檢測尺度上選擇輸入和輸出處于特征分辨率相同層次的節(jié)點(diǎn)之間添加跳躍連接結(jié)構(gòu),實(shí)現(xiàn)更高級別的特征融合,如圖5。

      圖5 引入跳躍連接的特征融合網(wǎng)絡(luò)Fig. 5 Feature fusion network with jump connection

      1.2.2 自適應(yīng)融合

      在PAN結(jié)構(gòu)之后,由于融合過程中默認(rèn)不同輸入特征在不同分辨率上的輸出特征貢獻(xiàn)相等,不適合對于車輛與行人目標(biāo)尺寸大小相差大的檢測任務(wù)。為提高算法對于車輛和行人兩種目標(biāo)的適應(yīng)性,對兩種目標(biāo)特征分別表達(dá)。在晚融合階段,假設(shè)輸入特征為X∈RC×H×W,先使用步長為2的池化層和步長為2、卷積核為3×3的卷積層,改變特征分辨率和通道數(shù),再進(jìn)行concat操作得到輸出特征X′∈R3C′×H′×W′,n∈1,2,3,然后使用1×1卷積和softmax函數(shù)得到權(quán)重矩陣W∈R3×Hn×Wn:

      (3)

      Yn=αn·X′1→n+βn·X′2→n+γn·X′3→n

      (4)

      通過網(wǎng)絡(luò)的前向傳播和反向傳播在3個(gè)尺度上動態(tài)篩選出新的融合特征,在車輛與行人兩種目標(biāo)尺寸相差大的任務(wù)中,可以展現(xiàn)更豐富的上下文語義信息。

      2 實(shí)驗(yàn)設(shè)置

      2.1 實(shí)驗(yàn)環(huán)境

      硬件環(huán)境為Intel(R) Core(TM) i5-11400 2.60 GHz CPU和NVIDIA GeForce GTX 3060 GPU。軟件環(huán)境為PyTorch深度學(xué)習(xí)框架,編程語言采用Python。為評價(jià)筆者所提網(wǎng)絡(luò)在車輛與行人檢測中的有效性,選用平均精度(average precision,AP)來測試模型對單個(gè)目標(biāo)類別的檢測性能,采用平均均值精度(mean average precision,mAP)作為模型對車輛和行人目標(biāo)類別的綜合檢測性能,采用每秒檢測幀數(shù)(frames per second,FPS)來衡量網(wǎng)絡(luò)每秒處理圖像的速度。

      2.2 數(shù)據(jù)集

      試驗(yàn)選用BDD100K和KITTI數(shù)據(jù)集作為車輛與行人檢測網(wǎng)絡(luò)的數(shù)據(jù)。

      使用BDD100K驗(yàn)證集共10 000張圖片,像素為1 280×720,標(biāo)簽包含Bus、Light、Sign、Person、Bike、Truck、Motor、Car、Train、Rider 10個(gè)類別。文中研究車輛與行人兩種目標(biāo),因此,只保留數(shù)據(jù)集中Bus、Person、Truck、Car目標(biāo)9 736張圖片,并將Bus、Truck、Car合并為Car(車輛)類,Person(行人)為一類,最終保留車輛、行人兩個(gè)類別,劃分為訓(xùn)練集7 302張、驗(yàn)證集2 434張,另外隨機(jī)選擇測試集中的2 434張圖片進(jìn)行測試,數(shù)據(jù)集詳情如圖6。數(shù)據(jù)集包含晚上、白天與黃昏(黎明)不同的時(shí)間段;天氣包含雨、雪、霧等多種狀況;場景以城市街道為主,也包括高速公路和居民區(qū)等多個(gè)場景;圖片數(shù)據(jù)的背景信息復(fù)雜。

      圖6 BDD100K數(shù)據(jù)集圖片類型分布Fig. 6 Image type distribution of BDD100K dataset

      同時(shí)使用KITTI 2D目標(biāo)檢測數(shù)據(jù)集共7 481張圖片,包含Car、Van、Truck、Tram、Pedestrian、Person(sitting)、Cyclist、Misc 共8個(gè)類別,其中4 488張圖片作為訓(xùn)練集,1 496張圖片作為驗(yàn)證集,1 497張圖片作為測試集。針對所研究的目標(biāo),按照 VOC(visual object classes)數(shù)據(jù)集格式對數(shù)據(jù)集進(jìn)行轉(zhuǎn)換,刪除不需要的標(biāo)簽,保留試驗(yàn)所需要的對象,將Car、Van、Truck、Tram合并為Car類,Pedestrian、Person(sitting)合并為Person類。

      3 實(shí)驗(yàn)結(jié)果與分析

      3.1 通道注意力模塊對比實(shí)驗(yàn)

      在特征提取網(wǎng)絡(luò)的瓶頸層嵌入通道注意力,形成新的瓶頸層單元。為驗(yàn)證添加位置對車輛和行人目標(biāo)檢測效果的有效性,在瓶頸層的其他兩處結(jié)構(gòu)分別添加通道注意力模塊,對比試驗(yàn)結(jié)果如表1。

      表1 不同位置的通道注意力對模型性能的影響對比

      由表1可知,在1×1與3×3卷積之間(C-Bottleneck_a)添加通道注意力模塊,車輛目標(biāo)平均檢測精度提高1.7%,行人目標(biāo)的平均檢測精度提高3.1%,模型的平均均值精度提高2.4%,且檢測速度基本不變。當(dāng)通道注意力模塊在3×3卷積之后(C-Bottleneck_b)時(shí),車輛目標(biāo)的平均檢測精度提高2.6%,行人目標(biāo)的平均檢測精度提高3.5%,兩種目標(biāo)的平均均值檢測精度提高了3.05%,但檢測速度與原算法相比降低了6.64 幀/s。由此表明,在3×3卷積之后改變在特征圖不同通道上的權(quán)重值,可以增加對車輛和行人目標(biāo)關(guān)鍵特征的關(guān)注,但同時(shí)會明顯降低模型檢測速度。而在1×1卷積之前(C-Bottleneck_c)添加通道注意力模塊時(shí),車輛和行人目標(biāo)的檢測精度分別提高了0.3%和0.8%,檢測速度提高了6.87 幀/s。由此表明,在1×1卷積前添加通道注意力對兩種目標(biāo)檢測精度的提升效果不明顯,但對檢測速度更加有效。

      綜合分析3處位置的試驗(yàn)結(jié)果,權(quán)衡檢測精度和速度兩方面的要求,試驗(yàn)最終選擇在1×1與3×3卷積之間添加通道注意力模塊。在每次減少通道數(shù)后,改變不同通道與車輛行人目標(biāo)關(guān)鍵信息的相關(guān)度,從而使得優(yōu)化后的模型增強(qiáng)了車輛與行人目標(biāo)對關(guān)鍵通道的注意力,進(jìn)而提升對車輛和行人目標(biāo)的特征提取性能。

      3.2 消融實(shí)驗(yàn)

      為探究骨干網(wǎng)絡(luò)中新的瓶頸層、特征融合階段的內(nèi)容感知特征重組和自適應(yīng)權(quán)重參數(shù)3種改進(jìn)方案對網(wǎng)絡(luò)整體性能的影響,筆者在BDD100K數(shù)據(jù)集上進(jìn)行消融試驗(yàn),構(gòu)建了8組試驗(yàn)方案,研究各方案中模型的檢測精度和速度,試驗(yàn)結(jié)果如表2。

      表2 消融試驗(yàn)結(jié)果對比

      由方案2可知,將C-Bottleneck嵌入骨干網(wǎng)絡(luò)后,車輛與行人的平均均值檢測精度提高了2.40%,檢測速度為89.29 幀/s,表明添加通道注意力可以在不影響檢測速度的前提下對復(fù)雜背景的圖片降維后,改變不同通道上目標(biāo)關(guān)鍵信息的權(quán)重值,可以顯著提升網(wǎng)絡(luò)對車輛與行人目標(biāo)的特征提取性能。方案3表明,跨尺度重組對檢測精度影響小,但會明顯降低檢測速度。與方案5相比較,方案3在使用融合通道注意力的瓶頸層之后進(jìn)行特征重組,可以改善對檢測精度的影響。

      方案4表明,只對原模型進(jìn)行自適應(yīng)權(quán)重融合并不能提升對車輛和行人目標(biāo)的檢測性能,甚至?xí)鼓P透訌?fù)雜,從而使檢測精度和速度均呈現(xiàn)下降趨勢。將方案1與方案6進(jìn)行對比可知,在增強(qiáng)主干網(wǎng)絡(luò)的特征提取能力基礎(chǔ)上對原模型進(jìn)行自適應(yīng)權(quán)重融合,車輛目標(biāo)的平均檢測精度相較于原模型提升3.30%,行人目標(biāo)的平均檢測精度相較于原模型提升4.2%,兩種目標(biāo)的平均均值精度提高3.75%,但是檢測速度相比原模型降低了19.84 幀/s。由此可見,原模型對車輛與行人目標(biāo)的特征提取過程不充分,信息融合不夠,而這對于較小的車輛和行人目標(biāo)是不利的。通過淺層與深層特征的深度融合可以顯著提高模型對車輛和行人小目標(biāo)的檢測精度。

      當(dāng)同時(shí)使用3種試驗(yàn)方案(方案8)時(shí),車輛目標(biāo)的平均檢測精度提高4.0%,達(dá)到了89.3%;行人目標(biāo)的檢測精度提高3.8%,達(dá)到了79.5%;兩種目標(biāo)的平均均值精度提高3.90%;檢測速度與中間過程相比有一定的提升,取得了74.63 幀/s的效果。綜上所述,基于內(nèi)容感知重組特征和自適應(yīng)融合的車輛與行人檢測算法CRAF-YOLOv5在復(fù)雜背景和小目標(biāo)的車輛與行人條件下在精度和速度上表現(xiàn)出良好的性能。

      3.3 不同算法檢測性能對比

      為證明CRAF-YOLOv5算法對車輛和行人兩種目標(biāo)檢測的有效性,將該算法與其他模型在BDD100K數(shù)據(jù)集上的檢測效果進(jìn)行對比,如表3。

      表3 不同目標(biāo)檢測算法在BDD100K數(shù)據(jù)集上效果對比

      從表3可以看出,文中算法自適應(yīng)重組融合模型車輛目標(biāo)的檢測精度達(dá)到了89.3%,是SDD模型的兩倍多,比YOLOv4模型高出11.05%,而行人目標(biāo)的檢測精度達(dá)到了79.5%,比其他現(xiàn)有最優(yōu)模型高出2.87%。同時(shí),車輛與行人兩種目標(biāo)的平均精度均值比其他現(xiàn)有最優(yōu)模型高出6.96%,雖在檢測速度方面相較于基準(zhǔn)模型略有降低,但仍滿足實(shí)時(shí)檢測的要求。由此可見,文中算法相較于其他算法取得了相對最優(yōu)的綜合性能,對車輛與行人兩種目標(biāo)在復(fù)雜背景和小目標(biāo)較多的數(shù)據(jù)集上具有較大的優(yōu)勢,檢測效果可觀。

      為進(jìn)一步驗(yàn)證算法在實(shí)際應(yīng)用環(huán)境中對車輛和行人目標(biāo)的檢測效果,另選取KITTI數(shù)據(jù)集對模型進(jìn)行訓(xùn)練和測試,不同算法在KITTI數(shù)據(jù)集上效果對比如表4。由表4可以看出,文中算法在KITTI數(shù)據(jù)集上的檢測精度和檢測速度與其他先進(jìn)模型相比,車輛目標(biāo)平均精度達(dá)到95.8%,行人目標(biāo)平均精度達(dá)到90.9%,兩類目標(biāo)的平均均值精度達(dá)到了93.35%,相較于YOLOv5提高了0.45%,檢測速度表現(xiàn)適中,表明模型整體性能表現(xiàn)良好。

      表4 不同算法在KITTI數(shù)據(jù)集上效果對比

      3.4 檢測結(jié)果分析

      對BDD100K測試集中檢測目標(biāo)的檢測框進(jìn)行統(tǒng)計(jì),將全部的檢測框切割出圖片,使用YOLOv5得到16 816輛車和1 773個(gè)行人,而CRAF-YOLOv5得到16 715輛車和1 837個(gè)行人。此時(shí),對所有不同寬和高的車輛行人圖片進(jìn)行像素頻率統(tǒng)計(jì),分別得到行人和車輛目標(biāo)的像素頻率分布,如圖7。

      圖7 行人和車輛目標(biāo)的頻率分布Fig. 7 Frequency distribution of pedestrian and vehicle targets

      從圖7可知,兩種目標(biāo)的檢測框在20~45像素附近密集分布,目標(biāo)模糊,圖片中包含的細(xì)節(jié)信息少,即目標(biāo)不易檢測。為明確文中研究結(jié)果,從目標(biāo)絕對像素角度分析,依據(jù)COCO 數(shù)據(jù)集對小、中、大目標(biāo)的劃分標(biāo)準(zhǔn)(小目標(biāo)為不大于32×32像素,中目標(biāo)為大于32×32且不大于96×96像素,大目標(biāo)為大于96×96像素),并根據(jù)目標(biāo)框的寬和高劃分類別,得到小、中、大3種目標(biāo),實(shí)驗(yàn)結(jié)果如表5。由表5可知,CRAF-YOLOv5算法在小目標(biāo)類別上平均精度APs提升了2.6%,而中等目標(biāo)平均精度APm和大目標(biāo)平均精度APl的檢測結(jié)果接近。因此,文中算法在小目標(biāo)檢測方面更具明顯效果,對于中等目標(biāo)和大目標(biāo)的檢測效果差別很小。

      表5 BDD100K中小、中、大3種目標(biāo)的檢測精度

      為進(jìn)一步探究數(shù)據(jù)的特征信息,統(tǒng)計(jì)測試集中相互遮擋的圖片,得到檢測目標(biāo)之間存在相互遮擋的圖片有2 343張,占整個(gè)測試集圖片數(shù)量的90%以上。將檢測圖片與標(biāo)簽圖對比,圖片存在誤檢與漏檢的情況,結(jié)果見表6。由表6可知,誤檢率降低了0.29%,漏檢率降低了4.11%。因此,CRAF-YOLOv5算法在誤檢和漏檢兩方面準(zhǔn)確性均提高。

      表6 遮擋目標(biāo)誤檢和漏檢的比例

      部分檢測效果如圖8。由圖8可以看出,YOLOv5算法存在許多車輛與行人目標(biāo)未被檢測出來的情況。文中算法對漏檢的車輛和行人小目標(biāo)〔圖8(a),圖8(c),圖8(d)〕表現(xiàn)出較好的檢測效果。由此表明,改進(jìn)算法能夠有效抑制圖像在復(fù)雜環(huán)境中的背景噪聲信息,提升對車輛與行人目標(biāo)的檢測性能。

      另外,在夜晚光線較差〔圖8(e)、圖8(f)〕和白天強(qiáng)曝光〔圖8(b)〕的環(huán)境中,由于車輛自身的運(yùn)動,前方目標(biāo)在背景模糊的場景中,因車輛與行人表現(xiàn)出密集的特征,小目標(biāo)的車輛受大目標(biāo)車輛的遮擋,YOLOv5算法在考慮小目標(biāo)的同時(shí),忽略了旁邊較大的不完整目標(biāo)?;趦?nèi)容感知重組特征和自適應(yīng)融合算法在兩種目標(biāo)尺寸相差大的任務(wù)中,針對被遮擋的車輛目標(biāo)以及漏檢的行人目標(biāo)有較好的檢測效果。因此,針對復(fù)雜背景和小目標(biāo)的車輛與行人,CRAF-YOLOv5算法可以更好的提取兩種目標(biāo)的重要特征信息,以適應(yīng)車輛與行人目標(biāo)檢測任務(wù)。

      4 結(jié) 論

      針對自動駕駛場景中復(fù)雜背景因素導(dǎo)致車輛及行人檢測精度不高、小目標(biāo)重檢與漏檢等問題,筆者提出了一種基于內(nèi)容感知重組特征和自適應(yīng)融合的車輛與行人檢測算法。利用通道注意力改變特征圖在不同通道上的權(quán)重值,增強(qiáng)了網(wǎng)絡(luò)對車輛與行人目標(biāo)重要信息的關(guān)注;設(shè)計(jì)了一種融合通道注意力的瓶頸層C-Bottleneck,有效增強(qiáng)了主干網(wǎng)絡(luò)對車輛與行人目標(biāo)的特征提取能力;通過在特征圖尺寸相同層的不同節(jié)點(diǎn)之間添加一條連接線,并使用重組核上采樣,將淺層網(wǎng)絡(luò)包含的細(xì)節(jié)信息與深層網(wǎng)絡(luò)的高層語義信息融合,使得特征內(nèi)容更加豐富,提高了車輛與行人兩種不同尺寸目標(biāo)信息的提取性能;利用加權(quán)特征系數(shù)動態(tài)優(yōu)化了不同尺度的定位參數(shù),提升了小目標(biāo)車輛與行人在細(xì)節(jié)位置的感知能力。實(shí)驗(yàn)結(jié)果表明,在BDD100K數(shù)據(jù)集上,文中算法車輛目標(biāo)檢測平均精度達(dá)到89.3%,行人目標(biāo)檢測平均精度達(dá)到79.5%,兩種目標(biāo)的平均均值精度達(dá)到84.40%;在KITTI數(shù)據(jù)集上,車輛目標(biāo)檢測平均精度達(dá)到95.8%,行人目標(biāo)檢測平均精度達(dá)到90.9%,兩種目標(biāo)的平均均值精度達(dá)到93.35%。因此,在BDD100K和KITTI數(shù)據(jù)集上,CRAF-YOLOv5較YOLOv5基準(zhǔn)算法兩種目標(biāo)的平均均值精度分別提高了3.90%和0.45%,這為復(fù)雜背景下車輛與行人多個(gè)小目標(biāo)聯(lián)合檢測任務(wù)提供了一種解決思路。

      猜你喜歡
      特征提取行人精度
      毒舌出沒,行人避讓
      意林(2021年5期)2021-04-18 12:21:17
      路不為尋找者而設(shè)
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      基于DSPIC33F微處理器的采集精度的提高
      電子制作(2018年11期)2018-08-04 03:25:38
      我是行人
      Bagging RCSP腦電特征提取算法
      GPS/GLONASS/BDS組合PPP精度分析
      改進(jìn)的Goldschmidt雙精度浮點(diǎn)除法器
      基于MED和循環(huán)域解調(diào)的多故障特征提取
      巧用磨耗提高機(jī)械加工精度
      河南科技(2014年14期)2014-02-27 14:11:53
      洛隆县| 明光市| 高州市| 宝应县| 昌吉市| 福海县| 攀枝花市| 建昌县| 灵石县| 怀化市| 鄄城县| 县级市| 称多县| 璧山县| 健康| 南投市| 石城县| 同仁县| 石棉县| 泸水县| 东安县| 定襄县| 柏乡县| 和政县| 龙川县| 夏河县| 罗源县| 汽车| 通河县| 德安县| 宿州市| 泗洪县| 长岛县| 阜宁县| 于都县| 台州市| 张北县| 峨眉山市| 古浪县| 济源市| 德格县|