• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于先驗顯著性信息的道路場景目標檢測

      2023-11-20 10:58:42王鉦棋
      計算機工程與應用 2023年21期
      關鍵詞:網(wǎng)絡結構卷積顯著性

      王鉦棋,邵 潔

      上海電力大學 電子與信息工程學院,上海 201306

      道路場景目標檢測指對道路上的行人、車輛進行定位和識別,是自動駕駛技術中的核心算法之一。在車輛行駛途中,準確地定位和識別道路目標,可以為車輛提供路況信息,幫助車輛做出決策,保障車輛的行駛安全。

      隨著深度學習的快速發(fā)展,道路場景目標檢測取得了巨大的進步。但是基于計算機視覺的道路場景目標檢測算法也面臨諸多困難,總結為以下幾個方面:(1)汽車行駛途中路況復雜,難以精準地檢測到目標;(2)道路上的目標種類較多,目標邊框的大小差異明顯;(3)檢測信息需要及時地傳輸回汽車的控制系統(tǒng)輔助汽車做出判斷,對算法的推理速度要求較高。

      目前主流的目標檢測算法主要分為兩類。一類是雙階段目標檢測,先預測出可能存在檢測目標的區(qū)域再對預測出的區(qū)域進行分類和位置回歸并計算得到檢測框,經(jīng)典模型包括Faster RCNN[1]、Mask-RCNN[2]、Cascade-RCNN[3]等。Bhargava[4]提出了一種跨域的Faster RCNN[1]模型,針對每個域設計了單獨的分類器/檢測器,多種不同的信息交互,豐富特征信息,增強了網(wǎng)絡的泛化能力。Wei 等[5]則在MS-CNN[6]模型的基礎上利用反卷積運算并通過融合特征圖的方法提取更豐富的特征信息,提高檢測精度。文獻[7]提出一種融合了語義分割的目標檢測框架,將語義分割掩膜與共享層特征融合,增強目標特征,減少漏檢和誤檢情況。Shan等[8]將無監(jiān)督循環(huán)一致性生成對抗網(wǎng)絡CycleGAN[9]與Faster RCNN[1]網(wǎng)絡結合,利用CycleGAN[9]網(wǎng)絡生成與晴朗白天的圖像對應的夜晚圖像,設計了一種端到端的訓練方式,通過融合不同域的信息,增強網(wǎng)絡的泛化能力,提高檢測精度。 雙階段目標檢測方法雖然能達到較高的精度,但檢測速度較慢,無法滿足道路目標檢測任務實時檢測的要求。

      另一類是單階段目標檢測,不需要對候選區(qū)域進行預測,而是通過一個統(tǒng)一的CNN 網(wǎng)絡完成目標的定位等一系列運算,因此擁有比雙階段方法更快的檢測速度,標志性模型有YOLO V3[10]、SSD[11]和YOLO V4[12]等。Wu 等[13]將交通目標檢測、可駕駛區(qū)域分割和車道檢測三個任務同時整合在一個YOLO V4網(wǎng)絡上,分別構建三個解碼器處理不同的任務并成功將模型移植到嵌入式設備上。類似的,Vu等[14]構建了一種多任務融合網(wǎng)絡,利用兩個獨立的解碼器處理不同的任務。單階段方法的優(yōu)勢是檢測速度較快,能夠實現(xiàn)目標的實時檢測但是檢測精度低于雙階段方法。

      道路場景復雜,目標大小不一,種類繁多,有大量的無關因素對網(wǎng)絡的檢測產(chǎn)生影響,因此道路目標檢測的難點在于:如何排除無關物體的干擾,在復雜的場景中準確地檢測到目標類。目前YOLO 系列最新提出的YOLO V5網(wǎng)絡在COCO數(shù)據(jù)集上達到了檢測精度和檢測速度的平衡,在實現(xiàn)較高檢測速度的同時還能保證檢測精度,但是在道路場景下YOLO V5網(wǎng)絡在處理形狀相近的目標(如自行車和摩托車)和密集目標時檢測效果并不理想。

      針對在道路場景目標檢測任務中YOLO V5 網(wǎng)絡特征提取不充分導致的漏檢誤檢情況,提出一種利用顯著性信息增強檢測效果的道路目標檢測網(wǎng)絡,將顯著性信息與卷積層特征融合,增強目標的位置信息,提高檢測準確率,解決漏檢誤檢問題。同時采用檢測速度都較高的YOLO V5s模型作為主干網(wǎng)絡,更好地滿足了道路目標檢測的實時性要求。

      本文的主要貢獻如下:

      (1)提出了一種語義先驗信息融合的方法。利用語義先驗信息生成顯著性圖像,為網(wǎng)絡提供空間上的位置信息,有效增強了目標特征,抑制了背景信息的干擾,提高了檢測的準確率。

      (2)針對引入的顯著性信息,提出了一種有效的網(wǎng)絡結構。該結構在融合顯著性信息時仍保持原有的網(wǎng)絡特性。通過消融實驗證明在原始YOLO V5s 網(wǎng)絡中有效的即插即用模塊(CBAM)在新的模型中依然有效,并未因為網(wǎng)絡結構的改變影響模型的整體穩(wěn)定性。

      (3)在Cityscapes 數(shù)據(jù)集中,對于7 類常見目標物(汽車、自行車、行人、騎手、摩托車、公交車、卡車)本文改進的Sa-YOLO V5s模型與YOLO V5s相比mAP_0.5提高了0.083,mAP_0.5:0.95提高了0.067;與BshapeNet+[15]模型相比mAP_0.5 提高了0.024:與DIDN[16]模型相比,mAP_0.5提高了0.072,在Cityscapes數(shù)據(jù)集上達到SOTA(state of the art)。在推理速度方面達到了33 FPS,滿足實時檢測的要求。

      1 本文算法

      本文提出的Sa-YOLO V5s 道路目標檢測框架基于YOLO V5s 算法,首先對顯著性信息提取模塊(SaBlock)進行講解,其次介紹了針對引入的顯著性信息構建的一種新的網(wǎng)絡結構。Sa-YOLO V5s網(wǎng)絡結構框架如圖1所示。

      圖1 Sa-YOLO V5s網(wǎng)絡結構Fig.1 Sa-YOLO V5s network structure

      1.1 顯著性信息提取模塊(SaBlock)

      顯著性目標檢測主要通過劃分前景和背景,檢測出顯著性場景中最具吸引力的物體,已經(jīng)被廣泛地應用于圖像分類[17-18]、語義分割[19-20]、機器人導航[21]等方向。在道路目標檢測任務中,人眼通常最關注的是道路上的行人和車輛,因此本文將私家車、行人、公交車等7類常見目標設置為顯著性目標。

      1.1.1 語義分割網(wǎng)絡SaNet

      為了分割前景和背景從而提取出圖片的顯著性信息,本文參考文獻[22]設計了語義分割網(wǎng)絡SaNet,該網(wǎng)絡結構如圖2所示。

      圖2 SaNet網(wǎng)絡結構Fig.2 SaNet network structure

      在車輛行駛過程中需要實時的對道路上的目標進行檢測,因此選擇處理速度更快,參數(shù)量更少的全卷積結構作為SaNet 的網(wǎng)絡結構。SaNet 由6 個3×3 卷積和一個8×8 卷積組成,為了保證圖像尺寸不變,除最后一層卷積外,在所有的卷積層執(zhí)行padding 補0 操作。在每一個3×3卷積后都添加批量歸一化(batch normalization,BN)層和激活函數(shù)(rectified linear unit,ReLu),在最后一層卷積對輸出值進行L2標準化(L2 normalized),用以生成具有128 維單位長度的描述符進行損失函數(shù)計算。

      利用SaNet對Cityscapes數(shù)據(jù)集中的19類目標進行逐像素預測。通過歸一化指數(shù)(Softmax)層將每個類的得分映射到(0,1)區(qū)間內得到每個像素屬于類的概率,再從所有的類中取出道路上常見的7類目標,將其合并為前景,剩余的類別作為背景得到顯著性圖片。圖3中從左往右依次是原始圖片、逐像素語義標記的顯著性標簽和預測得到的顯著性圖片。比較圖3(b)和圖3(c)可以看到利用SaNet 網(wǎng)絡可以較為清楚地預測出目標物體。由于顯著性圖片只是用來輔助檢測,為卷積特征提供顯著性信息,因此對于一些難以檢測的小目標不需要對其形狀進行精準預測,只需要確定大概范圍并勾勒出基本輪廓,就可以幫助網(wǎng)絡獲取其位置信息增強網(wǎng)絡的檢測能力。

      圖3 基于SaNet生成的顯著性圖片F(xiàn)ig.3 Saliency pictures generated based on SaNet

      經(jīng)過淺層卷積輸出的特征圖具有較高的空間分辨率,包含更多像素信息,深層卷積產(chǎn)生的特征圖具有豐富的語義信息,但是會損失部分位置信息。因此將SaNet生成的顯著性圖像進行下采樣后與不同尺度的卷積特征融合,使得顯著性信息與卷積特征充分結合,幫助特征提取網(wǎng)絡更好的定位目標,增強對目標的特征提取能力。

      1.1.2 損失函數(shù)

      在SaNet網(wǎng)絡中,使用了一種基于尺度不變特征轉換(scale-invariant feature transform,SIFT)的度量損失[23]。該目標函數(shù)模仿SIFT的匹配規(guī)則,生成n對有著相同特征點的匹配對X=(A1,P1,A2,P2,…,An,Pn)并通過描述符構建它們之間的距離矩陣,分別尋找與A最相近的不匹配塊以及與P最相近的不匹配塊,選出距離更小的不匹配塊作為負樣本,分別得到匹配對(A,P)的描述符和負樣本N的描述符,利用三元損失函數(shù)計算損失。具體計算過程如下:

      在該損失函數(shù)的計算過程中,min(d(ai,pjmin),d(akmin,pi))已經(jīng)預先計算得到了,因此與隨機三元損失函數(shù)相比,只需要進行距離矩陣的計算和最小值的計算,大大地減少了計算開銷,提高了程序運行速度。

      1.2 融合顯著性信息的網(wǎng)絡結構

      1.2.1 網(wǎng)絡結構

      如圖1所示,為了在不改變原有網(wǎng)絡特性的基礎上更好地融合顯著性信息,構建了一種新的Sa-YOLO V5s網(wǎng)絡。

      該網(wǎng)絡主體部分由顯著性信息提取模塊(SaBlock)和YOLO V5s 特征提取網(wǎng)絡(backbone)組成。將網(wǎng)絡讀取到的圖片,同時輸入顯著性信息提取模塊和特征提取網(wǎng)絡,在顯著性信息提取模塊中使用語義分割網(wǎng)絡(SaNet)提取圖片中的語義信息,生成顯著性圖像,獲得圖片的空間信息;在特征提取網(wǎng)絡中利用卷積層和殘差結構充分提取圖片的全局特征。為了更充分地利用顯著性信息,對顯著性信息提取模塊生成的顯著性圖像進行雙線性插值下采樣。將顯著性圖像下采樣到不同尺寸,與多種尺度的卷積特征融合,為特征圖提供空間上的注意力,幫助網(wǎng)絡更好地確定目標所在的區(qū)域。

      為了驗證顯著性信息提取模塊并未影響模型的整體穩(wěn)定性,新的網(wǎng)絡結構還保持原始網(wǎng)絡的結構特性。使用即插即用的注意力模塊(CBAM)對Sa-YOLO Vs網(wǎng)絡進行結構穩(wěn)定性測試。

      1.2.2 網(wǎng)絡穩(wěn)定性測試

      Woo 等[24]提出了一種包含通道注意力和空間注意力的卷積注意力網(wǎng)絡(convolutional block attention module,CBAM),其中通道注意力模塊(channel attention module,CAM)對于輸入的特征圖,首先采用進行基于寬(W)和高(H)的全局最大池化(global max pooling)和全局平均池化(global average pooling)操作提取通道特征,將得到的兩個1×1×C的特征圖送入一個兩層的多層感知機(multilayer perceptron,MLP)。而后,將MLP輸出的特征進行加和操作,再經(jīng)過激活函數(shù)(sigmoid),生成最終的通道注意力特征,具體結構如圖4。

      圖4 通道注意力模塊Fig.4 Channel attention module

      空間注意力模塊(spartial attention module,SAM)對于輸入的特征圖,分別采用基于通道的全局最大池化(global max pooling)和全局平均池化(global average pooling)操作,得到兩個H×W×1 的特征圖,然后對這2個特征圖進行通道拼接(ConCat)通過一個7×7 卷積操作,降維為1 個通道,即H×W×1。再經(jīng)過激活函數(shù)(sigmoid),生成空間注意力特征,具體結構如圖5。

      借著老婆和閨密們沒完沒了地煲電話粥的機會,我又仔細地想了下王姐這個人,雖說現(xiàn)在還談不上什么了解,至少也該對她有個評價了,那就是這個女人不尋常。雖說套用樣板戲的臺詞,但絕對沒有貶意。

      圖5 空間注意力模塊Fig.5 Spatial attention module

      將CBAM注意力模塊添加到每個C3模塊的后面如圖1所示,分別訓練原始YOLO V5s網(wǎng)絡和融合了顯著性信息的Sa-YOLO V5s網(wǎng)絡,結果如表1所示。

      表1 網(wǎng)絡穩(wěn)定性測試Table 1 Network stability test

      從表中可以看到在添加了CBAM 模塊后,原始的YOLO V5s 網(wǎng) 絡 在Cityscapes 數(shù) 據(jù) 集 上mAP_0.5 和mAP_0.5:0.95 分別提高了0.016 和0.009。引入顯著性信息的YOLO V5s 網(wǎng)絡在添加了CBAM 模塊后mAP_0.5和mAP_0.5:0.95分別提高了0.015和0.007。

      CBAM 模塊在原始YOLO V5s 網(wǎng)絡上的效果要略好于引入了顯著性信息的YOLO V5s 網(wǎng)絡這是因為顯著性信息本身就包含了位置信息,為網(wǎng)絡提供了空間上的注意力,因此CBAM 模塊中的空間注意力模塊難以再向網(wǎng)絡提供更豐富的空間信息,導致對網(wǎng)絡效果的提升不如原始的在原始的YOLO V5s網(wǎng)絡上明顯。

      由表1可以得到結論:在本文提出的針對引入的顯著性信息設計的新的網(wǎng)絡結構中即插即用的CBAM模塊依然有效,網(wǎng)絡特性并未因結構的改變而改變。在添加了顯著性信息提取模塊后網(wǎng)絡依舊保持原有的穩(wěn)定性。

      2 實驗及結果分析

      將改進后的算法應用在CityScape 數(shù)據(jù)集上,并與文獻[15]提出的BshapeNet+算法、文獻[16]提出的DIDN算法和原始YOLO V5s 算法進行對比實驗。本文主要選取道路上常見的7 類物體作為目標包括汽車、自行車、行人、騎手、摩托車、公交車、卡車。

      2.1 實驗設置

      采用道路場景數(shù)據(jù)集Cityscapes 進行訓練,包含從50個不同城市的街景中記錄的各種立體視頻序列。本文選取5 000幀像素級注釋作為數(shù)據(jù)集,其中包括2 975張訓練圖、500 張驗證圖和1 525 張測試圖,每張圖片大小都是1 024×2 048。

      實驗環(huán)境使用Windows 操作系統(tǒng),顯卡為Nvidia RTX3080,顯存大小為10 GB,CUDA 版本11.0,cuDNN版本8.0.5,Pytorch 版本為1.9.0,編譯語言為Python3.8,總迭代次數(shù)為40次,迭代批量大小設置為18,優(yōu)化器選擇SGD。

      2.2 評估指標與模型訓練

      式中,TP 是正確檢驗個數(shù)、FP 是誤檢個數(shù)、FN 是漏檢個數(shù)。AP 為P-R 所圍成的曲線面積,N是檢測類別,mAP 是所有類別AP 的均值。mAP 的值越大檢測效果越好。

      在訓練過程中為了解決遮擋物體檢測困難的問題,本文將NMS非極大值抑制算法修改為式(5)所示,用來剔除多余的目標框,其中通過DIoU[25]判斷是否為同一物體的預測框。

      本文采用的DIoU計算方法在原始的IoU計算過程中增加了對不同目標框中心點距離的計算,如式(6)所示:

      從圖6中可以看到黑色框與綠色框是兩個不同物體的預測框,分別記為A,B。灰色虛線的外框是同時包住預測框A和預測框B的最小方框,其中c是外框對角線的長度,d是A框中心點與B框中心點的距離即式(10)中的ρ(A,B)。在計算DIoU時首先通過式(11)得到兩個預測框之間的IoU(交并比)值,然后計算中心點距離d與對角線距離c的比值,最后用IoU減去比值得到DIoU。

      圖6 不同種類目標的預測框A和預測框BFig.6 Prediction box A and prediction box B for different types of objects

      DIoU綜合考慮了兩個預測框之間的重疊率和中心點距離,當出現(xiàn)兩個不同種類預測框距離很近時,DIoU可以同時保留兩個預測框,減少漏檢率。

      如圖7 所示,在訓練過程中本文改進的Sa-YOLO V5s 隨著模型收斂,驗證集mAP 穩(wěn)定上升。mAP 在閾值為0.5和閾值為0.5∶0.95的情況下都明顯高于原始的YOLO V5s。在第10個epoch左右mAP值有些許下降,這是由于采用了Warmup預熱訓練,學習率變化導致的訓練誤差增大,隨著后續(xù)學習率的調整,模型逐漸達到收斂狀態(tài)。

      圖7 驗證集mAP曲線Fig.7 Mean average precision curve on validation set

      2.3 消融實驗

      為了驗證模型的有效性,在Cityscapes 數(shù)據(jù)集上進行消融實驗。表2比較了Sa-YOLO V5s模型中不同組件對模型效果的影響。消融實驗以YOLO V5s 模型為基礎,統(tǒng)一輸入大小為320×640 的圖片,評估指標為mAP_0.5和mAP_0.5:0.95。

      表2 在CityScape數(shù)據(jù)集上測試每個組件的消融實驗Table 2 Ablation experiment of each component on CityScapes dataset

      從表2 可以看到在添加了顯著性信息后mAP 值得到大幅提升其中mAP_0.5 增加0.032,mAP_0.5:0.95 增加0.027;CBAM注意力模塊也對結果有小幅提升;而針對非極大值抑制(NMS)算法的改進同樣極大地提高了mAP 值。經(jīng)過分析后認為DIoU-NMS 之所以可以大幅提高檢測的準確率是因為道路場景中包含大量待檢測目標,因此遮擋情況頻繁出現(xiàn)。

      DIoU-NMS 算法同時參考了不同預測框的IoU 值和中心點距離,成功避免了因遮擋導致的漏檢,從而顯著增強了網(wǎng)絡的檢測能力。

      2.4 實驗結果分析

      如表3 所示,比較了原始YOLO V5s 網(wǎng)絡,改進的Sa-YOLO V5s網(wǎng)絡、BshapeNet+網(wǎng)絡以及DIDN網(wǎng)絡在CityScapes數(shù)據(jù)集上的表現(xiàn),評估指標為mAP_0.5。

      表3 不同算法性能對比結果Table 3 Performance comparison results of different algorithms

      (1)從表3 中可以看出,與原始的YOLO V5s 模型相比,本文提出的Sa-YOLO V5s 方法mAP_0.5 提高了0.083,在大多數(shù)類上都取得了較好的效果。即使是在外觀上高度相似的“自行車”和“摩托車”類別上也有了顯著的改進,這表明Sa-YOLO V5s 網(wǎng)絡可以過濾無關噪聲的干擾,提取物體更細節(jié)的特征。

      (2)結合圖8 中的標簽數(shù)量分布可以看到雖然“公交車”“卡車”只有少量注釋,但其性能相比YOLO V5s也得到了顯著的提高。這是因為SaBlock和注意力模塊幫助網(wǎng)絡更好地注意到目標的位置,從而使得網(wǎng)絡在處理圖片的時候在目標位置投入更多的精力。在“卡車”類上YOLO V5s 和Sa-YOLO V5s 網(wǎng)絡的表現(xiàn)均不如DIDN網(wǎng)絡,這與DIDN網(wǎng)絡的訓練方式有關。DIDN網(wǎng)絡在訓練過程中引入了Foggy Cityscapes,BDD100k等多個不同的數(shù)據(jù)集,大大增加了“卡車”類標簽的數(shù)量,從而獲得了更好的效果。

      圖8 CityScapes數(shù)據(jù)集中的標簽分布Fig.8 Label distribution in CityScapes dataset

      (3)在所有的類別中,只有在“行人”類中Sa-YOLO V5s網(wǎng)絡的表現(xiàn)不如基礎的YOLO V5s網(wǎng)絡。在對數(shù)據(jù)集進行分析后,這一現(xiàn)象的產(chǎn)生是多種因素共同作用的結果。“行人”類的目標框較小,而為了加快網(wǎng)絡的處理速度,本文在輸入時將尺寸為1 024×2 048 的圖片下采樣為320×640的大小,損失了一部分信息。因此在利用SaBlock對圖片的顯著性信息進行提取時有一定的概率將“行人”目標誤判為無關的背景類,最終拉低了檢測效果。

      最后,結合所有類的AP值和最終的mAP值,Sa-YOLO V5s算法在Cityscapes數(shù)據(jù)集上的效果好于所有目前已知的目標檢測算法。其中mAP_0.5達到了0.548,mAP_0.5:0.95達到了0.324,檢測速度達到了33 FPS滿足了實時檢測的要求,在CityScapes數(shù)據(jù)集上實現(xiàn)SOTA。

      3 結語

      本文提出了一種基于顯著性信息改進的Sa-YOLO V5s 網(wǎng)絡,以CityScapes 為數(shù)據(jù)集,以YOLO V5s 為基礎,提出了一種語義先驗信息的融合方法,利用語義信息生成顯著性圖像,為網(wǎng)絡提供空間上的注意力。針對提出的方法設計了一種有效的網(wǎng)絡結構,在保持網(wǎng)絡穩(wěn)定性的同時,充分利用顯著性信息,通過實驗證明新的網(wǎng)絡結構依然保持原網(wǎng)絡的網(wǎng)絡特性;使用DIoU-NMS算法過濾多余的預測框,有效地減少了漏檢誤檢的概率。

      實驗結果證明,改進后的方法在CityScapes數(shù)據(jù)集上相比原始網(wǎng)絡mAP_0.5和mAP_0.5:0.95分別提高了0.083和0.067,檢測速度也達到了33 FPS,滿足實時檢測的條件。

      下一步的工作準備在本文的算法基礎上增強網(wǎng)絡的魯棒性和泛化能力,繼續(xù)改進顯著性提取模塊Sa-Block,避免在處理小目標時出現(xiàn)誤判成背景的情況,降低小目標檢測的漏檢率。將網(wǎng)絡部署到移動端,與實際應用場景中結合,以更好地滿足日常生活的實際需求。

      猜你喜歡
      網(wǎng)絡結構卷積顯著性
      基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于顯著性權重融合的圖像拼接算法
      電子制作(2019年24期)2019-02-23 13:22:26
      基于視覺顯著性的視頻差錯掩蓋算法
      基于傅里葉域卷積表示的目標跟蹤算法
      一種基于顯著性邊緣的運動模糊圖像復原方法
      論商標固有顯著性的認定
      基于互信息的貝葉斯網(wǎng)絡結構學習
      知識網(wǎng)絡結構維對于創(chuàng)新績效的作用機制——遠程創(chuàng)新搜尋的中介作用
      滬港通下A+ H股票網(wǎng)絡結構演化的實證分析
      深水埗区| 景东| 微山县| 龙里县| 巴里| 昆山市| 任丘市| 寻甸| 当阳市| 新建县| 怀集县| 涿鹿县| 宜州市| 衢州市| 合阳县| 鹰潭市| 修武县| 云南省| 如皋市| 寿阳县| 怀宁县| 澳门| 子洲县| 兰考县| 南召县| 尉犁县| 长白| 绥德县| 凌云县| 和顺县| 拉孜县| 永春县| 额尔古纳市| 清原| 宁武县| 印江| 石城县| 徐水县| 名山县| 弥渡县| 兰西县|