• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種復(fù)雜場景下高精度交通標(biāo)志檢測模型

      2023-11-18 03:33:08李嘉豪閔衛(wèi)東陳炯縉展國偉
      計(jì)算機(jī)工程 2023年11期
      關(guān)鍵詞:錨框交通標(biāo)志細(xì)化

      李嘉豪,閔衛(wèi)東,2,3,陳炯縉,朱 夢,展國偉

      (1.南昌大學(xué) 數(shù)學(xué)與計(jì)算機(jī)學(xué)院,南昌 330031;2.南昌大學(xué) 元宇宙研究院,南昌 330031;3.江西省智慧城市重點(diǎn)實(shí)驗(yàn)室,南昌 330031)

      0 概述

      隨著智能交通領(lǐng)域中自動駕駛等技術(shù)不斷發(fā)展,如何保障交通安全也愈發(fā)受到重視。交通標(biāo)志檢測利用快速檢測交通標(biāo)志并將信息傳遞給智能交通系統(tǒng),輔助智能交通系統(tǒng)快速了解重要的道路信息,從而保障交通安全。然而,在復(fù)雜環(huán)境下光照、遮擋、尺度變化、交通標(biāo)志的形變和褪色等因素都為交通標(biāo)志檢測帶來諸多挑戰(zhàn)。除此之外,部分交通標(biāo)志的外觀十分相似,模型在尺度變化下難以識別它們之間的特征差異,導(dǎo)致分類錯(cuò)誤。此外,在交通場景中存在與交通標(biāo)志相似的其他物體容易被誤檢,包括因?yàn)榫嚯x、模糊等因素而無法區(qū)分類別的原交通標(biāo)志。

      傳統(tǒng)交通標(biāo)志檢測方法主要基于顏色和形狀等手工特征,例如,形狀、顏色、HOG、SIFT、邊緣等[1-3]手工特征的方法。但是這些方法在面對上述問題時(shí),往往不能取得較優(yōu)的檢測效果。許多研究人員將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于交通標(biāo)志檢測領(lǐng)域,并取得一定的進(jìn)展。然而,如何提高卷積神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確性仍然是研究熱點(diǎn)。

      近年來,基于卷積神經(jīng)網(wǎng)絡(luò)的交通標(biāo)志檢測方法成為主流。文獻(xiàn)[4]基于YOLOv3 提出多尺度注意力模塊(Multi-Scale Attention Module,MSAM)融合不同尺度特征,增強(qiáng)網(wǎng)絡(luò)表示能力,并增加1 個(gè)檢測層以有效利用較淺層的小目標(biāo)特征。TSingNet[5]基于RetinaNet 提出注意力驅(qū)動的雙邊特征金字塔網(wǎng) 絡(luò)(Attention-driven Bilateral Feature Pyramid Network,ABFPN)和適應(yīng)性感受野融合(Adaptive Receptive Field Fusion,ARFF)學(xué)習(xí)尺度感知和上下文信息,有效檢測小而遮擋的交通標(biāo)志。

      然而,上述方法主要通過改進(jìn)整體網(wǎng)絡(luò)結(jié)構(gòu)和注意力優(yōu)化特征提取過程,提高小目標(biāo)的檢測效果?,F(xiàn)有方法很少關(guān)注交通標(biāo)志數(shù)據(jù)集的外觀特點(diǎn),尤其是TT100K[6]數(shù)據(jù)集,在該數(shù)據(jù)集分類下的部分交通標(biāo)志之間有著十分相似的外觀,優(yōu)化網(wǎng)絡(luò)和改進(jìn)注意力都難以指導(dǎo)模型學(xué)習(xí)其中的細(xì)微差異。此外,由于其他相似物體尤其是原交通標(biāo)志具有交通標(biāo)志的外觀特征,因此通過優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)和添加注意力的方式難以有效抑制對這種特征的提取,導(dǎo)致誤檢。

      本文選取綜合性能較優(yōu)的一階段檢測模型RetinaNet[7]作為主體框架,提出逐層特征細(xì)化檢測(Layer-by-layer Feature Refinement Detection,LFRD)模型。通過對RetinaNet 模型的錨框機(jī)制優(yōu)化設(shè)計(jì)分層聚類錨框,并根據(jù)交通標(biāo)志外觀特點(diǎn)提出分組損失,有效應(yīng)對因交通標(biāo)志尺度變化和相似交通標(biāo)志的漏檢和錯(cuò)誤分類問題。此外,設(shè)計(jì)弱語義分割(Weak Semantic Segmentation,WSS)模塊和特征細(xì)化模塊(Feature Refinement Module,F(xiàn)RM),通過主動學(xué)習(xí)的方式減少對其他相似物體的誤檢。WSS 利用弱語義分割生成可信區(qū)域和非可信區(qū)域,F(xiàn)RM 利用多尺度信息主動學(xué)習(xí)并消除非可信區(qū)域特征中造成誤檢的干擾特征,結(jié)合通道注意力[8](SENet)抑制細(xì)化特征的背景并增強(qiáng)前景。利用上述方法沿自底向上子網(wǎng)逐層細(xì)化特征,構(gòu)建逐層細(xì)化特征金字塔(Layer-by-layer Refinement of Feature Pyramid Network,LRFPN)從而降低誤檢。

      1 相關(guān)工作

      1.1 基于卷積神經(jīng)網(wǎng)絡(luò)的交通標(biāo)志檢測

      卷積神經(jīng)網(wǎng)絡(luò)的交通標(biāo)志檢測方法主要基于兩階段檢測模型和一階段檢測模型。兩階段檢測模型是將區(qū)域建議與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合進(jìn)行目標(biāo)檢測。經(jīng)典的兩階段檢測模型如Faster R-CNN[9]、R-FCN[10]、Cascade R-CNN[11]、Mask R-CNN[12]等。文獻(xiàn)[13]提出多分支樣本金字塔,基于Faster R-CNN,利用圖像金字塔和動態(tài)卷積適應(yīng)交通標(biāo)志的尺度變化。文獻(xiàn)[14]基于R-FCN,將符號的位置和大小作為先驗(yàn)知識縮小搜索范圍,提出高性能輕量級超類檢測器和精化分類器,從而提高檢測性能。

      雖然兩階段檢測模型在交通標(biāo)志檢測中取得優(yōu)異的性能,但是一階段檢測模型因其更具時(shí)效性而成為交通標(biāo)志檢測的主流方法。一階段檢測模型是將目標(biāo)檢測轉(zhuǎn)化為1 個(gè)回歸問題來進(jìn)行端到端的檢測。經(jīng)典的 一階段 檢測模型有SSD[15]、YOLO[16]、RetinaNet 等。文 獻(xiàn)[17]對YOLOv3[16]做出一些調(diào)整,在此基礎(chǔ)上提出1 個(gè)多尺度注意力特征模塊,該模塊有助于融合不同層次的特征信息以此對特征進(jìn)行細(xì)化,增強(qiáng)特征金字塔網(wǎng)絡(luò)性能。文獻(xiàn)[18]在改進(jìn)RetinaNet 的基礎(chǔ)上級聯(lián)1 個(gè)二分類網(wǎng)絡(luò),有助于從第一階段預(yù)測結(jié)果中識別有效的交通標(biāo)志,提高準(zhǔn)確率。文獻(xiàn)[19]基于SSD 提出一種基于語義場景理解和結(jié)構(gòu)化交通標(biāo)志定位的方法,利用空間位置約束減少對其他類似物體的誤檢。

      1.2 基于語義分割的交通標(biāo)志檢測

      語義分割是提取圖像特征并對特征的每個(gè)像素進(jìn)行分類,從而獲取到1 張關(guān)于圖像類別信息的分割圖。Mask R-CNN 結(jié)合FCN 中的語義分割技術(shù)在經(jīng)典兩階段檢測模型Faster R-CNN 的基礎(chǔ)上增加1 個(gè)分支網(wǎng)絡(luò)作為語義分割的輸出。通過共享分支特征以及修改網(wǎng)絡(luò),在實(shí)現(xiàn)目標(biāo)檢測的同時(shí)分割目標(biāo)像素。文獻(xiàn)[20]在檢測頭前加入基于弱語義分割的動態(tài)增強(qiáng)附件,避免提取能力下降,導(dǎo)致誤檢、漏檢。

      1.3 基于特征金字塔的交通標(biāo)志檢測

      特征金字塔網(wǎng)絡(luò)[21](Feature Pyramid Network,F(xiàn)PN)是利用多尺度特征融合來緩解不同尺度之間語義信息不平衡問題的方法,可以在不同尺度上檢測目標(biāo)。該方法簡單高效,被用于YOLO 系列、RetinaNet 等諸多一階段檢測模型中。隨著對特征金字塔的深入研究,自FPN 后又出現(xiàn)如路徑聚合網(wǎng)絡(luò)[22](Path Aggregation Network,PAN)等優(yōu)秀的特征金字塔方法。文獻(xiàn)[5]提出一種注意力驅(qū)動的雙邊特征金字塔,在尺度注意力學(xué)習(xí)中雙循環(huán)低、中、高尺度特征的前景語義信息,從而提高交通標(biāo)志的檢測效果。

      上述現(xiàn)有方案從不同方面對交通標(biāo)志檢測進(jìn)行改進(jìn),并取得較優(yōu)的檢測效果,但是大多數(shù)方法更加關(guān)注對小目標(biāo)檢測效果的提高,很少關(guān)注交通標(biāo)志外觀特點(diǎn)。除此之外,現(xiàn)有方案大多利用通道注意力或空間注意力對特征進(jìn)行細(xì)化,從而抑制誤檢,這種方式是針對整體進(jìn)行優(yōu)化,對光照和部分相似物體有一定的效果,但是對與交通標(biāo)志更相似的其他物體檢測效果不佳。本文通過對交通標(biāo)志數(shù)據(jù)集的外觀特點(diǎn)進(jìn)行分析,利用修改損失指導(dǎo)模型學(xué)習(xí)相似交通標(biāo)志之間的差異。另外,本文不是基于全局優(yōu)化的方式抑制誤檢,而是采用弱語義分割和特征細(xì)化模塊主動學(xué)習(xí)和消除造成誤檢的干擾特征。

      2 逐層特征細(xì)化檢測模型

      2.1 模型的整體結(jié)構(gòu)

      逐層特征細(xì)化檢測 模型的整體框架:以ResNet 50[23]作為特征提取網(wǎng)絡(luò),以特征細(xì)化模塊和弱語義分割模塊結(jié)合通道注意力構(gòu)建的逐層細(xì)化特征金字塔來實(shí)現(xiàn)多尺度特征優(yōu)化,最后以語義分割圖調(diào)整檢測結(jié)果。模型輸入尺寸為512×512 像素,經(jīng)過8 倍、16 倍和32 倍的下采樣倍率得到3 種不同尺寸的特征并分別利用1×1 卷積降低特征維度(P3、P4、P5),在模型 Neck 部分將P3輸入到弱語義分割模塊,結(jié)合最大池化下采樣得到不同尺度的語義分割圖,之后將尺度最小的分割圖和P5輸入到特征細(xì)化模塊獲取細(xì)化特征Fr,5和輸出特征Fout,5。將Fout,5輸入檢測頭中得到該層檢測結(jié)果,將Fr,5上采樣并利用通道注意力抑制背景增強(qiáng)前景,實(shí)現(xiàn)淺層特征和深層語義特征的融合。在其余2 層中重復(fù)上述過程,實(shí)現(xiàn)自底向上逐層細(xì)化的效果。除此之外,F(xiàn)r,5利用3×3 卷積下采樣作為第4 層檢測頭的輸入,在獲取到檢測結(jié)果時(shí),利用語義分割圖調(diào)整置信度實(shí)現(xiàn)對結(jié)果的優(yōu)化。LFRD 模型的結(jié)構(gòu)如圖1 所示。

      圖1 逐層特征細(xì)化檢測模型整體結(jié)構(gòu)Fig.1 Overall structure of layer-by-layer feature refinement detection model

      2.2 分層聚類錨框與分組損失

      RetinaNet 使用平移不變錨框,類似于文獻(xiàn)[21]中RPN 變體的錨框。錨框在金字塔層次P3~P7上的面積分別為322~5122。但是平移不變錨框難以適應(yīng)尺寸小且尺度靈活多變的交通標(biāo)志,尤其是交通標(biāo)志中有大量面積小于322的實(shí)例。通過分析TT100K 數(shù)據(jù)集中的訓(xùn)練集,其中面積小于322的正樣本(模型的錨框和標(biāo)簽框交并比大于0.5)占17.5%,最小尺度的交通標(biāo)志僅有72 像素。針對該問題,本文提出一種分層聚類錨框方法,使不同檢測層檢測適合尺度的目標(biāo)。參考RetinaNet 為每層分配的尺度和比例分別為{322,642,1282,2562,5122}和,為每個(gè)檢測層重新規(guī)劃檢測區(qū)域,每層的最小尺寸為{0,322,642,1282,2562},最大尺寸為{322,642,1282,。因?yàn)闈M足第5 層條件的樣本數(shù)量太少,所以在去掉第5 層的同時(shí)將第4 層的最大尺寸增大為5122。

      分層聚類錨框結(jié)構(gòu)如圖2 所示。計(jì)算訓(xùn)練數(shù)據(jù)集中交通標(biāo)志的長寬,根據(jù)每層檢測區(qū)域的范圍將交通標(biāo)志按照所屬層次分組為多個(gè)子集,分別利用K-means 聚類算法對不同子集進(jìn)行分析,選擇各層對應(yīng)合適的錨框數(shù)。本文選擇每層錨框數(shù)為3。

      圖2 分層聚類錨框結(jié)構(gòu)Fig.2 Structure of hierarchical clustering anchors

      除此之外,RetinaNet 采用Focal loss 作為分類損失,該損失能有效改善TT100K 中類不平衡的問題,但并不能指導(dǎo)模型學(xué)習(xí)相似交通標(biāo)志之間的細(xì)微差異,導(dǎo)致分類錯(cuò)誤。

      在TT100K 數(shù)據(jù)集中的功能類別和相似案例如圖3 所示(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML版)。TT100K 數(shù)據(jù)集按照功能將標(biāo)志分為禁止(P)、建議(I)、警告(W)3 大超類。同一超類下的交通標(biāo)志顏色和形狀都更加相似,禁止(P)多為白底并帶有紅色圓形邊框,建議(I)多為藍(lán)底圓形邊框,警告(W)多為黃底三角形邊框。

      圖3 在TT100K 數(shù)據(jù)集中的功能類別和相似案例Fig.3 Functional categories and similar cases in TT100K dataset

      從圖3 的右邊可以看出,受距離和光照影響,同超類下的交通標(biāo)志細(xì)節(jié)更模糊,容易誤檢,尤其是包含多個(gè)稀少類別的io、po、wo 3 類。在TT100K 數(shù)據(jù)集中有221 個(gè)類別,其中大量類別的實(shí)例數(shù)量稀少甚至只有個(gè)位數(shù),TT100K 數(shù)據(jù)集[6]將數(shù)量稀少的類別按功能(I、P、W)統(tǒng)一為io、po、wo 3 類。

      針對這個(gè)問題,本文根據(jù)交通標(biāo)志類別功能設(shè)計(jì)分組損失函數(shù),定義如式(1)和式(2)所示:

      其中:pi和為按照功能類別劃分為3組的預(yù) 測和標(biāo)簽;θ為Softmax 激活函數(shù);ci為第i組的類別總數(shù);pi,j和分別代 表pi和內(nèi) 第j位預(yù)測 和標(biāo)簽的結(jié)果;條件保證了該損失僅在正樣本的時(shí)候才會起到效果。將外觀特征相似的交通標(biāo)志類別放在同一組并分別計(jì)算損失函數(shù),借助Softmax 局部注意力放大的效果,有利于在同組下突出不同類之間的差異并指導(dǎo)模型學(xué)習(xí)這種差異,減少交通標(biāo)志的分類錯(cuò)誤。

      2.3 逐層細(xì)化特征金字塔

      逐層細(xì)化特征金字塔(LRFPN)是在特征金字塔的基礎(chǔ)上包含1 個(gè)弱語義分割模塊、2 個(gè)通道注意力模塊、3 個(gè)特征細(xì)化模塊。采用自下而上的子網(wǎng),結(jié)合弱語義分割和特征細(xì)化模塊學(xué)習(xí)并消除底層特征對誤檢產(chǎn)生的干擾,從而獲取細(xì)化特征和輸出特征,利用通道注意力抑制細(xì)化特征的背景并增強(qiáng)前景,沿著子網(wǎng)迭代細(xì)化過程,以實(shí)現(xiàn)對整個(gè)特征金字塔的優(yōu)化,從而降低對其他相似物體的誤檢。

      2.3.1 自適應(yīng)多尺度探索模塊

      弱語義分割模塊和特征細(xì)化模塊都需要學(xué)習(xí)目標(biāo)的上下文信息,為此,本文設(shè)計(jì)1 個(gè)自適應(yīng)多尺度探索模塊。該模塊由自適應(yīng)權(quán)重(Adaptive Weights,AW)和輕量級多尺度方案組成,能夠在像素級層面上自適應(yīng)地控制網(wǎng)絡(luò)感受野,以獲取豐富的上下文信息。

      自適應(yīng)多尺度探索模塊結(jié)構(gòu)如圖4 所示。

      圖4 自適應(yīng)多尺度探索模塊結(jié)構(gòu)Fig.4 Structure of adaptive multi-scale exploration module

      自適應(yīng)權(quán)重和人為分配權(quán)重不同,自適應(yīng)權(quán)重并不像后者根據(jù)先驗(yàn)知識為不同感受野分配相應(yīng)權(quán)重,而是利用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)每個(gè)像素點(diǎn)特征的周邊信息以生成相應(yīng)的感受野權(quán)重,如式(3)所示:

      其中:CCBR表示1×1 卷積和Batch_Norm 以及ReLU激活函數(shù),用于提取像素點(diǎn)的特征信息并將通道數(shù)映射到分支數(shù)K(K=4);C7×7表示7×7 大核卷積,用于獲取像素點(diǎn)的周邊信息;θ表示Softmax 激活函數(shù),獲取不同分支的比例。自適應(yīng)多尺度探索模塊利用反向傳播和Softmax 激活函數(shù)增強(qiáng)局部注意的效果,學(xué)習(xí)像素級感受野分支權(quán)重圖W。

      輕量級多尺度探索模塊利用通道壓縮和分組卷積減少計(jì)算量和參數(shù)量。FRM 使用的自適應(yīng)多尺度探索模塊參數(shù)如表1 所示,其中A×A表示卷積核大小為A,r表示卷積擴(kuò)張率大小。

      表1 FRM 使用的自適應(yīng)多尺度探索模塊參數(shù)Table 1 Parameters of the adaptive multi-scale exploration module used by FRM

      輕量級多尺度探索模塊利用1×1 標(biāo)準(zhǔn)卷積壓縮輸入特征通道,其中,F(xiàn)RM 模塊和SSW 模塊針對壓縮輸入特征通道有所不同,前者壓縮通道為原通道數(shù)的50%,后者壓縮通道為原通道數(shù)的25%,還設(shè)計(jì)4 個(gè)平行的分組卷積和隨后具有不同擴(kuò)張率的分組擴(kuò)張卷積層組成感受野分支,在小標(biāo)志和大標(biāo)志之間有效平衡感受野并獲取充分的上下文信息。增大的擴(kuò)張率通過強(qiáng)調(diào)上下文內(nèi)容和大目標(biāo)來擴(kuò)大有效感受野,而減小的擴(kuò)張率則更傾向于關(guān)注小目標(biāo)。WSS 模塊所使用的輕量級多尺度探索模塊參數(shù)如表2 所示,WSS 模塊所采用的輕量級多尺度探索模塊實(shí)現(xiàn)感受野范圍從1×1 到13×13 的變化,分組數(shù)為16。

      表2 WSS 使用的輕量級多尺度探索模塊參數(shù)Table 2 Parameters of the lightweight multi-scale exploration module used by WSS

      自適應(yīng)多尺度探索模塊在得到自適應(yīng)權(quán)重和多條分支的特征后,對兩者進(jìn)行特征融合,如式(4)所示:

      其 中:CCGH表 示1×1 標(biāo)準(zhǔn)卷積和GroupNorm 以 及Hardswish 激活函數(shù),用于壓縮特征通道數(shù)來提取隱藏特征;BBranchi表示提取不同感受野特征的第i個(gè)感受野分支;Wi表示由自適應(yīng)權(quán)重模塊生成對應(yīng)分支i的權(quán)重圖;?表示哈達(dá)瑪積;C2表示恢復(fù)通道數(shù)的點(diǎn)卷積。

      2.3.2 弱語義分割模塊與特征細(xì)化模塊

      部分誤檢是由于交通標(biāo)志相似的物體造成的,它們具有交通標(biāo)志的特征所以難以被模型消除,能夠避免受網(wǎng)絡(luò)優(yōu)化和注意力的影響。

      針對這個(gè)問題,本文提出特征細(xì)化模型,通過主動學(xué)習(xí)并消除特征中的干擾來降低誤檢概率。弱語義分割模塊與特征細(xì)化模塊結(jié)構(gòu)如圖5 所示。

      圖5 弱語義分割與特征細(xì)化模塊結(jié)構(gòu)Fig.5 Structure of weak semantic segmentation and feature refinement modules

      為學(xué)習(xí)干擾特征,首先獲取干擾的位置,獲取干擾位置的流程如圖5 的左圖所示,本文結(jié)合自適應(yīng)多尺度探索模塊和1 個(gè)7×7 卷積,提出1 個(gè)弱語義分割模塊,并利用卷積核為3、步長為2 的最大池化獲取不同尺寸的分割圖,其過程如式(5)所示:

      其中:SSCE表示基于表2 中參數(shù)的自適應(yīng)多尺度探索模塊,其感受野范圍從3×3 到15×15 的變化,分組數(shù)為32;P3表示通道壓縮后的淺層特征;Conv7×7表示7×7 大核卷積將通道數(shù)映射為1,以閾值為0 生成分割圖,避免產(chǎn)生反向傳播影響到特征細(xì)化模塊的優(yōu)化。

      語義分割圖除了輔助特征細(xì)化以外,還可以作為懲罰模塊(Punishment Module,PM)對預(yù)測結(jié)果進(jìn)行優(yōu)化,對位于非可信區(qū)域的預(yù)測結(jié)果進(jìn)行懲罰,懲罰系數(shù)為0.5,如式(6)所示:

      FRM 結(jié)構(gòu)如圖5 的右圖所示,在利用弱語義分割圖獲取到非可信區(qū)域特征后,F(xiàn)c,i是第i個(gè)模塊的輸入特征,首先利用上下文信息學(xué)習(xí)其中的假陽性干擾,然后利用簡單的元素相減方式從特征中消除這些干擾從而得到細(xì)化特征Fr,i,其過程如式(7)所示:

      其中:Fc,i為第i層FRM 模塊的輸入特征;表示根據(jù)表1 中參數(shù)構(gòu)建的自適應(yīng)多尺度探索模塊,用于學(xué)習(xí)非可信區(qū)域中的干擾特征;σ表示ReLU 激活函數(shù)。

      將細(xì)化后的Fr,i沿著特征金字塔向上傳遞的同時(shí)利用1 個(gè)新的自適應(yīng)多尺度探索模塊獲取細(xì)化特征豐富的上下文信息表示Fout,i,如式(8)所示:

      CEi,2和CEi,1的參數(shù)雖然一致但作用不同,前者是為了學(xué)習(xí)全局上下文信息代替7×7 標(biāo)準(zhǔn)卷積。

      為了避免因數(shù)據(jù)集過少而造成過擬合問題,從而影響LRFPN 的檢測效果,本文在訓(xùn)練時(shí)人為地生成一些干擾信息影響弱語義分割,以50%的概率遮擋正樣本區(qū)域,提高模塊保留假陰性干擾的能力,同樣以50%的概率生成1 個(gè)位置隨機(jī)且面積在50%~150%目標(biāo)的正向干擾區(qū)域,以提高全局挖掘并消除可信區(qū)域假陽性干擾的能力。

      3 實(shí)驗(yàn)與結(jié)果分析

      3.1 實(shí)驗(yàn)數(shù)據(jù)集與評價(jià)指標(biāo)

      本文采用TT100K[6]和德國交通標(biāo)志檢測基準(zhǔn)GTSDB[24]數(shù)據(jù)集驗(yàn)證實(shí)驗(yàn)效果。清華大學(xué)和騰訊公司聯(lián)合制作的數(shù)據(jù)集TT100K 是1 個(gè)數(shù)量和圖像尺度都較大的交通標(biāo)志基準(zhǔn),由10 000 個(gè)分辨率為2 048×2 048 像素的街景圖像和30 000 個(gè)交通標(biāo)志實(shí)例組成,對應(yīng)200 多個(gè)類別。因?yàn)楂@得難度不同,所以TT100K 存在類不平衡的現(xiàn)象。參考數(shù)據(jù)集來源的文獻(xiàn)[6],本文挑選大于100 實(shí)例的42 類別,并根據(jù)建議、禁止、警告將其余類別統(tǒng)一成io、po、wo 3 類,共計(jì)45 類,利用數(shù)據(jù)增強(qiáng)將低于1 000 實(shí)例的類別擴(kuò)充至1 000。GTSDB 被廣泛用于交通標(biāo)志檢測的評價(jià),包括900 幅分辨率為1 360×800 像素的圖像(600 幅用于訓(xùn)練,300 幅用于測試)。

      本文采用AP50、AP75、AP、精確率(P)、召回率(R)、F1 值 這6 個(gè)指標(biāo) 評價(jià)模 型性能。AP50、AP75分別表示交并比IoU 大于0.50 和0.75 時(shí)的綜合平均精確率mAP,AP 是IoU 在[0.50∶0.05∶0.95]下分別計(jì)算獲得的mAP,并計(jì)算這些結(jié)果的均值,為了區(qū)分每個(gè)類別的平均精度,每個(gè)類別的平均精度被設(shè)置為ap。mAP 是計(jì)算所有類別P-R曲線下面積的平均值,如式(9)所示:

      其中:iou 為設(shè)置好的IoU 閾值;N為該數(shù)據(jù)集樣本類別數(shù)量;Pn為該樣本類別的平均精度值。

      F1 值(F1)是利用精確率和召回率計(jì)算獲得的綜合指標(biāo),如式(10)所示:

      3.2 訓(xùn)練策略

      本文實(shí)驗(yàn)平臺設(shè)置:CPU 為Intel Core i9-10900K,內(nèi)存 64 GB,GPU 為NVIDIA GeForce RTX P4000,顯存8 GB,操作系統(tǒng)為Ubuntu 16.04,深度學(xué)習(xí)框架為PyTorch。

      TT100K 數(shù)據(jù)集的圖像分辨率太大而無法進(jìn)行訓(xùn)練。為解決這個(gè)問題,本文參照文獻(xiàn)[25]的圖像處理方法,使用大小為512×512 的滑窗對訓(xùn)練集進(jìn)行裁剪,滑窗之間的重疊率為20%,過濾掉包含0.5 個(gè)目標(biāo)(一個(gè)標(biāo)簽所占面積的50%)以下的子圖。GTSDB 的圖像尺寸直接調(diào)整為640×640 像素。

      因?yàn)樘砑恿巳跽Z義分割,所以利用IoU 損失?iou[26]和二進(jìn) 制交叉 熵?fù)p失?BCE[26]優(yōu)化分割圖,如式(11)所示:

      為了實(shí)現(xiàn)聯(lián)合訓(xùn)練,結(jié)合本文提出的分組損失,總損失的表達(dá)式如下:

      其中:λ1、λ2、λ3、λ4分別為各項(xiàng)損失設(shè)置的權(quán)重系數(shù);Lreg、Lcls、lgroup、Lmap分別為回歸損失、分類損失、分組損失、弱語義分割損失。

      3.3 與其他模型的性能對比

      為評估本文提出檢測模型LFRD 對小交通標(biāo)志檢測的能力,在GTSDB 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。通過直接縮小的GTSDB 尺寸來滿足模型輸入的需求,導(dǎo)致GTSDB 數(shù)據(jù)集中的目標(biāo)小于其原先尺寸,增加了小目標(biāo)在數(shù)據(jù)集中的比例。本文方法和其他交通標(biāo)志檢測方法在GTSDB 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表3 所示,加粗表示最優(yōu)數(shù)據(jù),AP50表示檢測的綜合結(jié)果,禁止、建議、警告表示每個(gè)類別在IoU 閾值為0.5 時(shí)的平均精度ap。

      表3 不同方法在GTSDB 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 3 Experimental results among different methods on the GTSDB dataset %

      從表3 可以看出:本文提出的LFRD 在GTSDB數(shù)據(jù)集中3 個(gè)類的ap 中有1 個(gè)取得最優(yōu)結(jié)果,總體AP50也優(yōu)于其他方法,說明LFRD 即使面對小目標(biāo)也有較優(yōu)的檢測效果,與其他方法相比具有一定的競爭力。

      為進(jìn)一步檢驗(yàn)?zāi)P托阅?,本文選取RetinaNet、SSD、YOLOv3、YOLOv5s、Faster R-CNN、Cascade R-CNN 和本文提出的LFRD 共7 種模型在TT100K 數(shù)據(jù)集上進(jìn)行性能分析,實(shí)驗(yàn)結(jié)果如表4 所示,其中前4 個(gè)模型是一階段檢測模型,F(xiàn)aster R-CNN、Cascade R-CNN是兩階段檢測模型,這些模型都被應(yīng)用于交通標(biāo)志檢測方法的研究中。

      表4 不同方法在TT100K 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 4 Experimental results among different methods on the TT100K dataset %

      從表4 可以看出,本文提出的LFRD 的AP、AP50和FI 值分別取得76.1%、96.3%和93.8%,均優(yōu)于其他方 法。與一般 檢測器RetinaNet、SSD、YOLOv5s、YOLOv3 相比,LFRD 的AP50評價(jià)指標(biāo)分別提高約6.3、6.0、1.8 和1.1 個(gè)百分 點(diǎn)。與Faster R-CNN 和Cascade R-CNN 相 比,LFRD 在AP50上分別提高5.4和5.7 個(gè)百分點(diǎn)。相比SSD、Faster R-CNN、Cascade R-CNN,雖然LFRD 的召回率略低,但是精確率提高了約10 個(gè)百分點(diǎn)。因此,LFRD 能有效降低誤檢率,從而提高綜合檢測性能。

      為進(jìn)一步驗(yàn)證該方法的性能,本文將在TT100K數(shù)據(jù)集上檢測的結(jié)果映射至原圖,消除因窗口剪裁所導(dǎo)致部分錯(cuò)誤的交通標(biāo)志被子圖邊界截?cái)?,從而容易得到對不完整交通?biāo)志檢測的結(jié)果?,F(xiàn)有交通標(biāo)志檢測方法在TT100K 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對比如表5 所示。

      表5 現(xiàn)有交通標(biāo)志檢測方法在TT100K 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 5 Experimental results of existing traffic sign detection methods on TT100K dataset

      從表5 可以看出,本文提出的LFRD 在AP 和AP75上取得最高結(jié)果分別為75.4%和89.5%,與輸入尺 寸1 024×1 024 像素的SignHRNet 相 比AP50降 低0.1 個(gè)百分點(diǎn),可能是因?yàn)檩斎氤叽巛^大減少了因剪裁產(chǎn)生的不完整目標(biāo)。AP 和AP75對預(yù)測結(jié)果和標(biāo)簽之間的IoU 要求更高,本文方法在AP 和AP75取得更優(yōu)的檢測效果,表明LFRD 在交通標(biāo)志檢測任務(wù)中檢測更精確的邊界盒。

      3.4 消融實(shí)驗(yàn)

      為驗(yàn)證分層聚類錨框的有效性以及為每層選擇合適的錨框數(shù)量,本文設(shè)計(jì)2 種參數(shù)不同的方案,分別在TT100K 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表6 所示。消融實(shí)驗(yàn)都是基于RetinaNet 作為檢測框架,更換了模型中的anchor機(jī)制,在使用分層聚類錨框時(shí)僅保留了P3~P6檢測層。RetinaNet 使用文獻(xiàn)[7]中描述的平移不變錨框,Kmeans3、Kmeans6使用本文提出的分層聚類錨框且每層錨框數(shù)分別為3 個(gè)和6 個(gè)。

      表6 不同錨框策略的實(shí)驗(yàn)結(jié)果對比Table 6 Comparison of experimental results among different anchor box strategies

      從表6 可以看出,RetinaNet 雖然精確率更高,但是受尺度變化的影響,其召回率較低,存在較多漏檢問題。使用分層聚類錨框的Kmeans3和Kmeans6方法都能更好應(yīng)對尺度變化問題并有效提高召回率,其綜合性能AP、AP50、AP75更優(yōu)。雖然Kmeans3和Kmeans6方法的精確率較低,但是分層聚類錨框主要是針對交通標(biāo)志的尺度變化降低漏檢。Kmeans6的參數(shù)量更多但是效果提升并不明顯,Kmeans3在精確 率、AP 以 及AP75的效果 都略優(yōu) 于Kmeans6。因此,本文選擇Kmeans3對平移不變錨框進(jìn)行改進(jìn)。

      在確定錨框策略后,為驗(yàn)證其他模塊對模型的有效性,本文基于Kmeans3依次加入lgroup、LRFPN、PM 在TT100K 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表7所示。

      表7 消融實(shí)驗(yàn)結(jié)果Table 7 Ablation experiment results

      從表7可以看出,實(shí)驗(yàn)2僅加入lgroup,lgroup通過指導(dǎo)模型學(xué)習(xí)相似類別之間的差異,與實(shí)驗(yàn)1 相比在降低錯(cuò)誤分類的同時(shí)精確率和召回率提高2.4 和0.3 個(gè)百分點(diǎn)。實(shí)驗(yàn)3 僅加入LRFPN,LRFPN 有效降低干擾特征產(chǎn)生的影響,利用WSS 和FRM 模塊實(shí)現(xiàn)逐層細(xì)化并利用通道注意力優(yōu)化特征,與實(shí)驗(yàn)1 相比精確率和召回率提高6.4 和0.1 個(gè)百分點(diǎn)。

      實(shí)驗(yàn)4 加入lgroup和LRFPN,與實(shí)驗(yàn)1 相比lgroup與LRFPN 相結(jié)合的精確率和召回率提高8.1 和0.7 個(gè)百分點(diǎn),AP、AP50、AP75分別提高到76.1%、96.3%、91.1%。實(shí)驗(yàn)5 在實(shí)驗(yàn)3 的基礎(chǔ)上加入PM,PM 模塊是為了更高效地使用多尺度語義分割圖,利用其監(jiān)督檢測結(jié)果。將PM 模塊加入到lgroup和LRFPN 中召回率減少了0.1 個(gè)百分點(diǎn),而精確率提高1.7 個(gè)百分點(diǎn)。

      LRFPN 的檢測和分割效果如圖6 所示,位于黑色區(qū)域?qū)艿紽RM 的特征細(xì)化以及PM 模塊的懲罰,降低相似物體的誤檢。

      圖6 小目標(biāo)的檢測和分割結(jié)果Fig.6 Detection and segmentation results for small targets

      圖7 所示為本文以熱力圖的形式展示模塊功能(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML 版)。P3、P4分別代表主干網(wǎng)絡(luò)提取第3 層和第4 層特征所使用的卷積壓縮模塊的熱力圖,CE3,1和CE3,2分別代表細(xì)化第3 層特征所使用FRM 中2 個(gè)模塊的熱力圖。經(jīng)多尺度特征融合后,同樣將多尺度特征中的干擾特征匯聚在一起,由CE3,1注意可能誤檢的部分,CE3,2獲取最終特征來提高檢測精度。

      圖7 不同模塊的熱力圖Fig.7 Heat maps among different modules

      窗體剪裁會因窗體邊緣和交通標(biāo)志重疊導(dǎo)致交通標(biāo)志不完整。本文將IoU 大于50%的不完整交通標(biāo)志設(shè)置為正樣本并進(jìn)行訓(xùn)練。但是數(shù)據(jù)增強(qiáng)中采用的隨機(jī)縮放、圖像平移、旋轉(zhuǎn)等操作會模糊這些不完整交通標(biāo)志的差異。不同區(qū)域的檢測結(jié)果如圖8所示,不完整的交通標(biāo)志依舊保留外觀特征容易被誤檢。

      圖8 不同區(qū)域的檢測結(jié)果Fig.8 Detection results for different regions

      為減小不完整交通標(biāo)志對檢測效果的影響,本文將檢測結(jié)果映射回原圖位置并利用非極大值抑制(Non-Maximum Suppression,NMS)消除重復(fù)項(xiàng)。NMS 通過計(jì)算檢測結(jié)果之間的交并比作為條件,當(dāng)2 個(gè)結(jié)果重復(fù)區(qū)域大于閾值時(shí),則去除置信度低的結(jié)果??紤]到部分特征突出置信度更高從而壓制整體目標(biāo)的問題,本文對NMS 進(jìn)行改進(jìn),不再只考慮置信度,而是將尺度大小也作為考量。改進(jìn)NMS 算法如算法1 所示,在原有的NMS 基礎(chǔ)上加入尺度判斷,當(dāng)置信度都高于設(shè)定好的閾值時(shí)作為可信樣本,計(jì)算兩者的面積比例并提高交并比的閾值,以判斷面積小的結(jié)果是否是突出特征部分。改進(jìn)NMS 性能測試結(jié)果如表8 所示。

      表8 改進(jìn)NMS 性能測試結(jié)果Table 8 Test results of improved NMS performance %

      算法1 改進(jìn)NMS 算法

      從表8 可以看出,利用NMS 將結(jié)果映射至原圖位置來降低不完整交通標(biāo)志對檢測結(jié)果的影響,將AP50提高到96.9%,AP 和AP75因?yàn)閿?shù)據(jù)調(diào)整相對于未映射至原圖的檢測結(jié)果有一定下降。改進(jìn)NMS方法在NMS 的基礎(chǔ)上解決局部特征置信度大于全局的問 題,在AP、AP50、AP75上分別提高0.3、0.1 和0.4 個(gè)百分點(diǎn)。

      4 結(jié)束語

      針對現(xiàn)有交通標(biāo)志檢測方法在復(fù)雜場景下難以準(zhǔn)確識別外觀相似的交通標(biāo)志以及對其他相似物體誤檢的問題,本文設(shè)計(jì)一種高精度檢測模型LFRD。為應(yīng)對交通標(biāo)志的尺度變化,設(shè)計(jì)一種分層聚類的錨框機(jī)制來降低漏檢。為降低外觀相似交通標(biāo)志分類錯(cuò)誤,提出分組損失來指導(dǎo)和學(xué)習(xí)相似類之間的細(xì)微差異,還設(shè)計(jì)弱語義分割模塊和特征細(xì)化模塊,利用主動學(xué)習(xí)方式降低對其他相似物體的誤檢。實(shí)驗(yàn)結(jié)果表明,相較于主體框架RetinaNet,LFRD 在采用壓縮通道和分組卷積減少模型負(fù)擔(dān)的同時(shí),精確率和召回率分別提高2.8 和6.0 個(gè)百分點(diǎn)。下一步將利用蒸餾機(jī)制訓(xùn)練輕量化主干網(wǎng)絡(luò),并加入PAN 優(yōu)化多尺度特征融合,在實(shí)現(xiàn)輕量化的同時(shí)提高模型性能。

      猜你喜歡
      錨框交通標(biāo)志細(xì)化
      交通標(biāo)志認(rèn)得清
      基于YOLOv3錨框優(yōu)化的側(cè)掃聲吶圖像目標(biāo)檢測
      信號處理(2022年11期)2022-12-26 13:22:06
      錨框策略匹配的SSD飛機(jī)遙感圖像目標(biāo)檢測
      基于SSD算法的輕量化儀器表盤檢測算法*
      基于雙向特征融合的交通標(biāo)志識別
      基于GA-RoI Transformer的遙感圖像任意方向目標(biāo)檢測
      中小企業(yè)重在責(zé)任細(xì)化
      “細(xì)化”市場,賺取百萬財(cái)富
      “住宅全裝修”政策亟需細(xì)化完善
      交通標(biāo)志小課堂
      泾川县| 灌南县| 响水县| 科技| 分宜县| 长兴县| 临夏县| 贵溪市| 康平县| 华宁县| 上林县| 庄河市| 轮台县| 突泉县| 阳春市| 安陆市| 屏山县| 奇台县| 江源县| 芜湖县| 荆门市| 阜城县| 瑞金市| 奉新县| 夏津县| 临江市| 瑞昌市| 灵川县| 夏河县| 都兰县| 吴堡县| 淳化县| 平果县| 永嘉县| 抚顺市| 白沙| 青神县| 揭西县| 榆林市| 卢氏县| 安宁市|