• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    融合注意力機(jī)制和上下文信息的實(shí)時交通標(biāo)志檢測算法

    2023-11-16 00:51:04馮愛棋吳小俊徐天陽
    計(jì)算機(jī)與生活 2023年11期
    關(guān)鍵詞:交通標(biāo)志尺度注意力

    馮愛棋,吳小俊,徐天陽

    江南大學(xué) 人工智能與計(jì)算機(jī)學(xué)院 江蘇省模式識別與計(jì)算智能工程實(shí)驗(yàn)室,江蘇 無錫 214122

    交通標(biāo)志檢測任務(wù)是自動駕駛系統(tǒng)的重要組成部分。提前檢測出前方的交通標(biāo)志可以給駕駛系統(tǒng)和駕駛者提供極其關(guān)鍵的道路交通信息,如限速80 km/h、注意人行橫道、禁止鳴笛等信息。由于交通標(biāo)志尺寸小、遮擋變形、褪色老化和外界光線變化等因素,該任務(wù)充滿了挑戰(zhàn)。

    在早期工作中,許多研究人員通常利用交通標(biāo)志獨(dú)特的顏色和形狀特征來定位和識別交通標(biāo)志[1-3]。他們通過方向梯度直方圖(histogram of oriented gradients,HOG)[4]和尺度不變特征變換(scale-invariant feature transform,SIFT)[5]等方法,使用手工設(shè)計(jì)的局部特征來搜索可能包含交通標(biāo)志的區(qū)域,再用分類器預(yù)測類別。盡管上述方法獲得廣泛的關(guān)注,但是人工設(shè)計(jì)的特征常獨(dú)立于訓(xùn)練過程,因此這些方法在實(shí)際應(yīng)用中常獲得次優(yōu)的性能,并且在上述提及的具有挑戰(zhàn)性的場景中很難保持良好的泛化能力。

    為了解決基于人工設(shè)計(jì)特征方法存在的問題,出現(xiàn)了許多基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的目標(biāo)檢測算法,該類方法可以在訓(xùn)練過程中學(xué)習(xí)更深層次的語義特征,相較于手工設(shè)計(jì)的特征具有更好的魯棒性和泛化性?;贑NN的目標(biāo)檢測算法根據(jù)檢測階段劃分可以歸納為兩類:兩階段目標(biāo)檢測算法和一階段目標(biāo)檢測算法。兩階段目標(biāo)檢測算法主要是基于R-CNN(region with convolutional neural network features)[6]的一系列算法,代表算法如Faster R-CNN[7]、Cascade R-CNN[8]和Mask R-CNN[9]等。該類方法首先利用區(qū)域提議網(wǎng)絡(luò)(region proposal network,RPN)選擇可能包含物體的感興趣的區(qū)域(region of interests,RoI),然后對RoI進(jìn)行分類和定位。而一階段檢測器則將目標(biāo)檢測視為回歸任務(wù),直接在圖像上預(yù)測邊界框和類別,包括SSD(single shot multibox detector)系列算法[10-11]和YOLO(you only look once)系列算法[12-15]等。這些通用的檢測算法對于分辨率高、外觀清晰的中大型物體檢測效果很好,但對于像交通標(biāo)志這類小目標(biāo)表現(xiàn)不佳。MS COCO 數(shù)據(jù)集中將分辨率小于32×32 像素的目標(biāo)定義為小目標(biāo)。由于小目標(biāo)在圖像中占據(jù)很少的像素區(qū)域,CNN 在沒有足夠表觀信息支撐的情況下很難學(xué)習(xí)到豐富的、有判別性的特征表示。為了提高小尺度交通標(biāo)志的檢測精度,可對RoI進(jìn)行超分以保留更多的特征,例如Li等人[16]提出感知生成對抗網(wǎng)絡(luò)(generative adversarial network,GAN),通過對RoI 的特征圖進(jìn)行超分操作以保留更多的小目標(biāo)的特征,但是由于缺乏直接的高分辨率的特征圖作為監(jiān)督信號,經(jīng)超分得到的高分辨率特征圖的質(zhì)量受到限制。

    近年來,注意力機(jī)制在神經(jīng)網(wǎng)絡(luò)中得到廣泛研究和應(yīng)用[17-22],通過模擬人類感知系統(tǒng)中的信息處理方式,神經(jīng)網(wǎng)絡(luò)有選擇地更加關(guān)注某些區(qū)域,聚焦更有價值的信息。SENet(squeeze-and-excitation networks)通過探索特征圖中不同通道的重要程度,加強(qiáng)有用的特征并抑制不相關(guān)的特征,優(yōu)化了通道結(jié)構(gòu),提高了網(wǎng)絡(luò)的表征能力。Zhang 等人[20]通過將Faster R-CNN與通道注意力機(jī)制相結(jié)合來優(yōu)化RoI 的特征來改善小尺度交通標(biāo)志的檢測精度。Wang等人[21]在特征金字塔網(wǎng)絡(luò)(feature pyramid network,F(xiàn)PN)[23]的基礎(chǔ)上利用自適應(yīng)注意力模塊和特征增強(qiáng)模塊來減少特征圖生成過程中的信息丟失,進(jìn)而增強(qiáng)特征金字塔的表示能力,提高模型對小中大尺度交通標(biāo)志的檢測性能。郭璠等人[22]在YOLOv3 的基礎(chǔ)上引入通道注意力和基于語義分割引導(dǎo)的空間注意力機(jī)制,使網(wǎng)絡(luò)聚焦并增強(qiáng)有效特征,但該算法引入大量參數(shù),不能滿足檢測實(shí)時性要求。

    除了突出目標(biāo)本身的表觀信息,利用與待檢測物體相關(guān)的物體或環(huán)境等上下文信息也有助于檢測小目標(biāo)[24]。以此概念為基礎(chǔ),為了能檢測出小尺度人臉,Hu 等人[25]同時提取RoI 及其周圍區(qū)域信息,利用周圍區(qū)域中的人體信息提高對小尺度人臉的檢測精度。為了充分利用上下文信息幫助檢測小尺度交通標(biāo)志,馬宇等人[26]通過級聯(lián)多個擴(kuò)張卷積擴(kuò)大感受野,從而補(bǔ)充物體周圍的上下文信息。Chen 等人[27]提出交叉感受野模塊增加模型的感受野,構(gòu)建重要的上下文特征。區(qū)別于擴(kuò)大感受野,Yuan 等人[28]提出的垂直空間序列注意力模塊從垂直方向補(bǔ)充小尺度交通標(biāo)志的上下文信息,改善算法對小尺度交通標(biāo)志的感知能力。

    盡管以上方法有效提高了交通標(biāo)志的檢測精度,但由于交通標(biāo)志在圖像中占比小以及背景干擾,在實(shí)際場景中仍存在較多漏檢情況,并且已有方法不能很好地滿足實(shí)時性要求。針對上述問題,本文基于YOLOv5 提出融合注意力機(jī)制和上下文信息的實(shí)時交通標(biāo)志檢測算法。由于交通標(biāo)志通常出現(xiàn)在圖像的固定區(qū)域,首先在主干網(wǎng)絡(luò)中嵌入空間注意力模塊,強(qiáng)化重要的空間位置特征,抑制干擾信息,提高主干網(wǎng)絡(luò)的特征提取能力;另外在主干網(wǎng)絡(luò)末端引入窗口自注意力機(jī)制,捕獲全局上下文信息,挖掘與交通標(biāo)志相關(guān)的周圍信息來提高小尺度交通標(biāo)志的檢測精度。其次,利用Ghost 模塊構(gòu)建輕量的特征融合網(wǎng)絡(luò),對不同尺度的特征圖進(jìn)行融合,減少計(jì)算量的同時確保有效的特征融合;在后處理階段,提出高斯加權(quán)融合方法對預(yù)測框進(jìn)行修正,進(jìn)一步提高檢測框的定位精度。在TT100K 和DFG 交通標(biāo)志檢測數(shù)據(jù)集上的實(shí)驗(yàn)表明,本文算法具有較高的準(zhǔn)確性,有效地改善了小尺度交通標(biāo)志的漏檢情況,同時檢測速度可達(dá)80 FPS,可以滿足實(shí)際場景中交通標(biāo)志檢測任務(wù)的高準(zhǔn)確性和高實(shí)時性需求。

    1 理論基礎(chǔ)

    1.1 YOLOv5目標(biāo)檢測算法

    YOLOv5 檢測算法廣泛使用在學(xué)術(shù)研究和工業(yè)應(yīng)用,根據(jù)網(wǎng)絡(luò)深度和網(wǎng)絡(luò)寬度的不同可分為YOLOv5s、YOLOv5m、YOLOv5l 和YOLOv5x,模型計(jì)算復(fù)雜度逐漸增多,檢測精度逐漸提升。YOLOv5主要由特征提取主干網(wǎng)BackBone、特征融合Neck和檢測頭Head三部分構(gòu)成,如圖1所示。

    圖1 YOLOv5模型結(jié)構(gòu)圖Fig.1 Model structure of YOLOv5

    BackBone 作為主干網(wǎng)絡(luò)用于提取特征,主要由Conv、CSP(cross stage partial)和SPPF(spatial pyramid pooling fast)等模塊組成,如圖2 所示。Conv 模塊是由卷積、批標(biāo)準(zhǔn)化(batch normalization,BN)和Sigmoid 線性單元(Sigmoid linear unit,SiLU)組成的基本卷積單元。SPPF 模塊首先通過1×1 卷積壓縮通道,然后相繼經(jīng)過3個不同尺寸(5、9和13)的最大池化,最后用1×1 卷積調(diào)制通道數(shù)與輸入通道數(shù)相同。多尺度的池化操作豐富了感受野,同時有助于解決anchor和特征圖的對齊問題。相較于SPP,SPPF在保持精度的同時減少參數(shù)量和計(jì)算量,加快推斷速度。CSP模塊是YOLOv5中最重要的特征提取模塊,左右分支分別采用1×1 卷積將通道數(shù)縮減一半,然后左分支輸進(jìn)一個殘差塊,最后將兩個分支的特征進(jìn)行拼接并用1×1 卷積優(yōu)化拼接后的特征。CSP模塊通過將部分特征進(jìn)行更深的特征提取,減少冗余特征且補(bǔ)充原始的特征,獲得語義豐富的特征圖。

    Neck部分是路徑聚合網(wǎng)絡(luò)(path aggregation network,PANet)[29],PANet 在FPN 的基礎(chǔ)上增加了自下而上的分支,將FPN中淺層的位置信息,通過該分支逐步傳遞到深層中,增強(qiáng)深層中的位置信息。通過自上而下、自下而上兩個分支和單邊連接,增強(qiáng)了各個輸出層級的位置信息和語義信息,優(yōu)化了各個輸出層級的特征表示。

    Head部分的核心是預(yù)測,對于Neck中輸出的三種不同尺度的特征圖,Detect模塊采用1個1×1 卷積將通道調(diào)制為B×(5+C)維的預(yù)測向量,其中,B為每個網(wǎng)格點(diǎn)的預(yù)測框數(shù),5+C對應(yīng)目標(biāo)的4 個回歸參數(shù)、置信度和C個類別概率,最后通過非極大值抑制(non-maximum suppression,NMS)剔除冗余的檢測框保留剩余的預(yù)測框。

    1.2 多頭自注意力

    在過去的兩年中,Transformer 在許多計(jì)算機(jī)視覺任務(wù)中展現(xiàn)了出色的性能[30-31]。Transformer 將圖像劃分為一系列圖像塊,通過多頭自注意力(multihead self-attention,MHSA)從全局學(xué)習(xí)圖像序列之間的復(fù)雜依賴關(guān)系,捕獲全局信息和豐富的上下文信息。多頭自注意力有助于學(xué)習(xí)物體之間及物體與周圍環(huán)境的關(guān)系,對小物體和被遮擋物體表現(xiàn)良好。給定一個圖像輸入序列X∈RN×d,多頭自注意力包含h個頭,對于自注意力頭i,SAi執(zhí)行如下運(yùn)算:

    2 融合注意力機(jī)制和上下文信息的實(shí)時交通標(biāo)志檢測算法

    針對現(xiàn)有的交通標(biāo)志檢測算法常無法滿足檢測實(shí)時性要求且在小尺度交通標(biāo)志檢測時存在較多漏檢的問題,本文以YOLOv5 中最小的檢測模型YOLOv5s作為基準(zhǔn)模型,提出融合注意力機(jī)制和上下文信息的實(shí)時交通標(biāo)志檢測算法。首先,在主干網(wǎng)絡(luò)中嵌入設(shè)計(jì)的跨階段局部空間注意力(cross stage partial spatial attention,CSP-SA)模塊以強(qiáng)化關(guān)鍵位置特征,提高主干網(wǎng)絡(luò)的特征提取能力;其次,在主干網(wǎng)絡(luò)末端引入窗口自注意力機(jī)制,設(shè)計(jì)跨階段局部窗口Transformer(cross stage partial window transformer,CSP-WT)模塊用于學(xué)習(xí)不同位置信息的關(guān)聯(lián)性,捕獲物體周圍的上下文信息;再次,利用Ghost 模塊構(gòu)建Ghost 路徑聚合網(wǎng)絡(luò)(ghost path aggregation network,Ghost PAN)對不同尺度的特征圖進(jìn)行高效融合;最后,采用高斯加權(quán)融合方法修正預(yù)測框,進(jìn)一步提高預(yù)測框的定位精度。本文算法的總體結(jié)構(gòu)圖如圖3所示。

    圖3 本文算法的總體結(jié)構(gòu)圖Fig.3 Overall framework of proposed method

    2.1 跨階段局部空間注意力模塊

    首先,針對交通標(biāo)志檢測這一特定目標(biāo)檢測任務(wù),圖4 統(tǒng)計(jì)了交通標(biāo)志在TT100K 數(shù)據(jù)集上的位置分布情況,可以發(fā)現(xiàn),交通標(biāo)志一般處在圖像的中部區(qū)域,聚焦于該區(qū)域的特征提取可以提高交通標(biāo)志的定位精度。

    圖4 TT100K數(shù)據(jù)集上交通標(biāo)志位置分布圖Fig.4 Location distribution of traffic signs on TT100K dataset

    同時,交通標(biāo)志一般都設(shè)置在警示牌或交通桿上,聚焦這些關(guān)鍵區(qū)域有助于提高檢測精度?;谠摪l(fā)現(xiàn),本文在主干網(wǎng)絡(luò)的CSP模塊中嵌入空間注意力機(jī)制,設(shè)計(jì)CSP-SA(cross stage partial spatial attention)模塊,如圖5 所示。CSP-SA 模塊加強(qiáng)了感興趣的空間區(qū)域,抑制不相關(guān)的區(qū)域,進(jìn)一步強(qiáng)化主干網(wǎng)絡(luò)的特征學(xué)習(xí)能力。對于輸入特征圖F∈RC×H×W,H、W、C分別表示特征圖的高、寬和通道數(shù),首先輸入上下兩個分支并分別采用1×1 卷積將通道數(shù)縮減一半,上分支得到特征圖,將下分支得到的特征圖從通道維度上分別選擇最大值和平均值,并將得到特征圖拼接得到特征圖,F(xiàn)′的具體實(shí)現(xiàn)公式為:

    圖5 CSP-SA模塊Fig.5 CSP-SA module

    式中,GAP(?)表示全局平均池化,GMP(?)表示全局最大池化,Concat(?)表示通道拼接。F′包含了每個位置點(diǎn)的平均值和最大值信息,然后通過1×1 卷積從F′中學(xué)習(xí)每個位置點(diǎn)的權(quán)重,接著采用Sigmoid激活函數(shù)獲得0到1之間歸一化的空間權(quán)重圖,最后將空間權(quán)重圖與Fd進(jìn)行逐位相乘操作,即將注意力權(quán)重圖逐像素點(diǎn)加權(quán)到Fd的每個特征點(diǎn)上,得到經(jīng)過空間注意力增強(qiáng)的特征圖,F(xiàn)s的具體實(shí)現(xiàn)公式為:

    CSP-SA 模塊通過在CSP 模塊中引入空間注意力機(jī)制,學(xué)習(xí)空間注意力權(quán)重圖實(shí)現(xiàn)對原始特征圖的空間位置進(jìn)行不同程度的加強(qiáng)和抑制,使得最終的特征圖更關(guān)注含有交通標(biāo)志的空間位置。相較于直接使用空間注意力模塊,CSP-SA模塊減少了冗余特征,具有較少的計(jì)算量,同時補(bǔ)充了原始特征,獲得了語義更加豐富的特征圖。

    2.2 跨階段局部窗口Transformer模塊

    已有的交通標(biāo)志方法通過擴(kuò)張、疊加感受野獲得上下文信息,缺少對全局上下文信息的利用,而本文利用Transformer 學(xué)習(xí)不同像素點(diǎn)之間的關(guān)系,與CSP 相結(jié)合設(shè)計(jì)了輕量有效的跨階段窗口Transformer模塊,從全局和局部捕捉交通標(biāo)志周圍有價值的信息,改善交通標(biāo)志的漏檢情況。多頭自注意力可以學(xué)習(xí)圖像像素點(diǎn)之間的依賴關(guān)系,捕獲圖像中目標(biāo)與場景或目標(biāo)與目標(biāo)之間的關(guān)聯(lián)信息,利用小目標(biāo)周圍的上下文信息,進(jìn)而幫助檢測小目標(biāo)。但是,在高分辨率特征圖上做全局自注意力的計(jì)算復(fù)雜度和內(nèi)存消耗是巨大的。為了提高計(jì)算效率并且減少內(nèi)存消耗,本文結(jié)合窗口Transformer 和CSP 設(shè)計(jì)CSP-WT(cross stage partial window Transformer)模塊,有效地減少了計(jì)算量和內(nèi)存消耗,同時可以捕獲物體周圍的上下文信息,改善物體的漏檢情況。如圖6 所示,窗口Transformer 包含兩層:第一層是窗口多頭自注意力(window multi-head self-attention,W-MHSA),通過將特征圖平均劃分為多個子窗口,然后在局部窗口中計(jì)算自注意力;第二層是一個多層感知機(jī)(multilayer perceptron,MLP)。其中,每一層都包含層歸一化(layer norm,LN)和殘差連接。對于特征圖F∈RC×H×W,局部窗口大小為K×K,全局的MHSA和基于窗口的W-MHSA的計(jì)算復(fù)雜度如下:

    圖6 Window Transformer和CSP-WT模塊結(jié)構(gòu)圖Fig.6 Structures of Window Transformer and CSP-WT modules

    對于高分辨率特征圖,基于窗口的自注意力計(jì)算復(fù)雜度大大降低。為了進(jìn)一步減少計(jì)算量同時保留CNN 和Transformer 的特征,設(shè)計(jì)CSP-WT 模塊,將窗口Transformer 嵌入到CSP 模塊中,如圖6 右圖所示,左側(cè)分支利用1×1 卷積減少通道數(shù)進(jìn)而減少Transformer 的計(jì)算量和內(nèi)存消耗,右側(cè)分支的1×1卷積保留CNN 提取的特征,最后進(jìn)行通道拼接獲得豐富且有判別性的特征表示。

    2.3 輕量的特征融合網(wǎng)絡(luò)

    Han 等人[32]指出卷積神經(jīng)網(wǎng)絡(luò)中的特征圖存在大量相似的特征圖,這些相似的特征圖可以通過廉價的操作獲得并提出Ghost 模塊,如圖7 所示。對于輸入特征圖F,首先通過1×1 卷積將通道數(shù)減半獲得本征特征圖FI,再采用線性操作如分組卷積對其進(jìn)行變換獲得Ghost 特征圖FG,最后拼接本征特征圖和Ghost特征圖。

    圖7 Ghost模塊Fig.7 Ghost module

    對于輸入的特征圖F∈RC×H×W,第一層1×1卷積的參數(shù)量為1×1×C×C′,第二層k×k分組卷積的參數(shù)量為,其中,k和g分別表示分組卷積的卷積核大小和分組數(shù)。在本文中,C′和g都為C的一半,Ghost模塊的參數(shù)量為。常規(guī)的k×k卷積的參數(shù)量為k×k×C×C,記作P2。參數(shù)量壓縮比rc計(jì)算如下:

    常規(guī)卷積的參數(shù)量約為Ghost 模塊的2k2倍,表明Ghost 模塊可以極大地減少參數(shù)量。本文利用Ghost 模塊構(gòu)建輕量的特征融合網(wǎng)絡(luò)Ghost PAN,如圖3所示,可以在節(jié)省參數(shù)量和計(jì)算量的同時保持特征融合效果。

    2.4 高斯加權(quán)融合方法

    對于檢測頭產(chǎn)生的大量的預(yù)測框,YOLOv5中采用NMS篩選預(yù)測框。首先選擇置信度得分最高的預(yù)測框,然后剔除與其交并比(intersection over union,IoU)值大于等于閾值的框,保留小于閾值的框。由于NMS 直接將與其IoU 值大于等于閾值的框去除,如果得分最高的框的定位不一定精準(zhǔn),而被剔除的框中包含有定位更精準(zhǔn)的框,則會導(dǎo)致定位精確的框被剔除,如圖8(b)所示,經(jīng)NMS 處理后保留的預(yù)測框的定位精度并不高。為了進(jìn)一步提高定位精度,本文提出高斯加權(quán)融合(Gaussian weighted fusion,GWF)方法。首先,將得分最高的預(yù)測框作為基準(zhǔn)框,將與其IoU 值大于等于閾值的框視作候選框,將這些候選框按置信度得分從大到小排序選擇N個框,計(jì)算N+1 個框的均值框bmean。區(qū)別于Li等人[33]直接采用IoU作為權(quán)重系數(shù)的邊界框加權(quán)融合策略,為了更好地保留高IoU的預(yù)測框,本文對于保留的預(yù)測框采用高斯權(quán)重系數(shù)加權(quán)融合,得到最終的預(yù)測框bmerge。在消融實(shí)驗(yàn)中,驗(yàn)證了高斯加權(quán)相較于線性加權(quán)具有更好的定位精度。

    圖8 NMS和高斯加權(quán)融合方法對比Fig.8 Comparison of NMS and Gaussian weighted fusion method

    如圖8(c)所示,該方法有效地修正了預(yù)測框,更貼近真實(shí)框。具體公式如下:

    其中,bi表示第i個候選框,bmean表示均值框,IoUi表示bi和bmean的交并比,wi表示經(jīng)過高斯函數(shù)處理后的權(quán)重系數(shù),bmerge表示最終融合的預(yù)測框。

    2.5 損失函數(shù)

    總損失函數(shù)由置信度損失、分類損失和定位損失三部分組成。

    2.5.1 置信度損失

    采用二元交叉熵?fù)p失計(jì)算目標(biāo)置信度損失。每個預(yù)測層有S2個網(wǎng)格點(diǎn),每個網(wǎng)格點(diǎn)負(fù)責(zé)預(yù)測B個預(yù)測框。表示第i個網(wǎng)格點(diǎn)的第j個預(yù)測框是否包含物體,如果有物體,=1,否則為0。表示第i個網(wǎng)格點(diǎn)的第j個預(yù)測框?qū)?yīng)的預(yù)測值。置信度損失函數(shù)定義為:

    2.5.2 分類損失

    分類損失是根據(jù)類別預(yù)測向量計(jì)算預(yù)測類別與真實(shí)標(biāo)簽的交叉熵?fù)p失。表示第i個網(wǎng)格點(diǎn)的第j個基準(zhǔn)框是否負(fù)責(zé)這個目標(biāo),如果負(fù)責(zé),,此時需要對這個基準(zhǔn)框回歸的預(yù)測框計(jì)算分類誤差,否則不計(jì)入分類損失。和分別表示第i個網(wǎng)格點(diǎn)的第j個預(yù)測框?qū)?yīng)的某個類別的真實(shí)值和預(yù)測概率值。分類損失函數(shù)定義為:

    2.5.3 定位損失

    IoU是衡量預(yù)測框和真實(shí)框的重合程度,直接使用IoU作為損失函數(shù)會存在一個問題,如果兩個框不相交則IoU 為0,無法反映兩個框的位置關(guān)系。本文的定位損失采用CIoU(complete IoU)損失函數(shù),CIoU進(jìn)一步考慮了預(yù)測框與真實(shí)框的中心點(diǎn)距離和寬高比一致性,可以解決IoU 損失存在的問題,并能加快網(wǎng)絡(luò)收斂,定義為:

    其中,B表示預(yù)測框(x,y,w,h),Bgt表示真實(shí)框(xgt,ygt,wgt,hgt),bgt、wgt和hgt分別表示真實(shí)框的中心點(diǎn)、寬和高,b、w和h分別表示預(yù)測框的中心點(diǎn)、寬和高。ρ(?)用于計(jì)算兩點(diǎn)的歐幾里德距離,c表示包圍真實(shí)框和預(yù)測框的最小矩形框的對角線長度。αv用于控制預(yù)測框的寬高盡可能與真實(shí)框的寬高接近,其中,,α為權(quán)衡參數(shù),v用來衡量長寬比的一致性??倱p失函數(shù)定義為:

    其中,λobj、λcls和λbox分別表示置信度損失、類別損失和定位損失的權(quán)衡因子。

    3 實(shí)驗(yàn)及結(jié)果分析

    3.1 TT100K交通標(biāo)志檢測數(shù)據(jù)集

    TT100K[34]交通標(biāo)志檢測數(shù)據(jù)集包含9 176 張標(biāo)注圖像,其中,6 105 張訓(xùn)練圖像,3 071 張測試圖像。所有圖像采集于現(xiàn)實(shí)生活場景,分辨率為2 048×2 048像素。和Zhu 等人一樣[16,34-36],選擇交通標(biāo)志數(shù)超過100的45個類別進(jìn)行實(shí)驗(yàn)評估,如圖9所示。對于一些很少見的交通標(biāo)志,原數(shù)據(jù)集將其標(biāo)注為大類別,如“io”表示與指示相關(guān)的交通標(biāo)志,“po”代表與禁止相關(guān)的交通標(biāo)志,“wo”表示與警示相關(guān)的交通標(biāo)志。

    圖9 TT100K數(shù)據(jù)集上參與評估的45個類別Fig.9 45 categories for evaluation on TT100K dataset

    3.2 DFG交通標(biāo)志檢測數(shù)據(jù)集

    DFG[37]交通標(biāo)志檢測數(shù)據(jù)集采集現(xiàn)實(shí)場景中遮擋、陰影和陽光直射等環(huán)境下的圖像,交通標(biāo)志具有不同的大小、長寬比,且包含文本和符號。該數(shù)據(jù)集由200 個類別共6 957 張圖片組成,大多數(shù)的圖像分辨率為1 920×1 280 像素,包含大量外觀相似的交通標(biāo)志。訓(xùn)練集有5 254 張圖片包含14 208個標(biāo)注,測試集有1 703 張圖片包含4 393 個標(biāo)注。DFG 數(shù)據(jù)集上包含許多方向相反的交通標(biāo)志,如圖10 所示,因此訓(xùn)練時不適合使用水平翻轉(zhuǎn)數(shù)據(jù)增強(qiáng)策略。

    3.3 評估指標(biāo)

    在檢測準(zhǔn)確性評價指標(biāo)方面,采用目標(biāo)檢測任務(wù)中常用的平均精度均值(mean average precision,mAP)。真正例(true positive,TP)表示檢測到的交通標(biāo)志是正確的,假正例(false positive,F(xiàn)P)表示檢測到的交通標(biāo)志是錯誤的,假負(fù)例(false negative,F(xiàn)N)表示漏檢的交通標(biāo)志。當(dāng)IoU大于或等于閾值時,預(yù)測框被視為真正例,否則為假正例。精確率(precision,P)主要衡量模型的錯檢程度,召回率(recall,R)主要衡量模型的漏檢程度,F(xiàn)1得分綜合考慮了精確率和召回率,計(jì)算方式如下:

    平均精度(average precision,AP)表示精確率-召回率(precision-recall,P-R)曲線與坐標(biāo)軸包圍的面積,是結(jié)合了精確率和召回率的綜合指標(biāo),可全面評估目標(biāo)檢測模型。mAP 是所有類別的AP 的均值,mAP 值越大表明檢測效果越好。AP 和mAP 的計(jì)算方式如下:

    其中,N表示類別數(shù)量,APi表示第i個類別的平均精度。

    此外,還比較了不同IoU下和不同尺度下的mAP,AP50和AP75用于評估IoU 閾值為0.50 和0.75 下mAP,APS、APM和APL分別用于評估檢測小、中、大尺度目標(biāo)的mAP。為了進(jìn)一步衡量模型大小和速度,還評估了模型參數(shù)量(Params)、每秒浮點(diǎn)運(yùn)算次數(shù)(FLOPs)和每秒處理圖片數(shù)(FPS)。

    3.4 實(shí)驗(yàn)設(shè)置

    本文實(shí)驗(yàn)的主要環(huán)境為:Ubuntu 16.04 操作系統(tǒng),Intel Core i9-10980XE CPU 和兩塊NVIDIA GeForce RTX 2080Ti GPU,Pytorch1.7.1框架,訓(xùn)練和測試圖像大小為1 024×1 024 像素。Faster R-CNN[7]、Cascade R-CNN[8]和Sparse R-CNN[38]都是基于MMDetection[39]目標(biāo)檢測框架實(shí)現(xiàn),Backbone 為ResNet-50,Swin-T+Cascade R-CNN 的Backbone 為Swin-T[31],采 用FPN多尺度檢測結(jié)構(gòu),訓(xùn)練12 個周期,用兩塊GPU 進(jìn)行訓(xùn)練,每塊GPU 訓(xùn)練兩張圖片。YOLOv3-tiny[13]、YOLOv5s[14]、YOLOX-s[40]、YOLOv6s[15]和本文算法采用一塊GPU訓(xùn)練,批訓(xùn)練大小為16,訓(xùn)練周期為300。所有模型都采用COCO預(yù)訓(xùn)練權(quán)重作為初始化權(quán)重。本文基于YOLOv5的實(shí)驗(yàn)皆為6.0版本[14]。

    3.5 TT100K數(shù)據(jù)集實(shí)驗(yàn)結(jié)果分析

    將本文方法在TT100K 測試集上的檢測結(jié)果與其他方法進(jìn)行綜合比較,如表1所示,可以看出,與兩階段目標(biāo)檢測算法Faster R-CNN、Cascade R-CNN相比,本文方法在mAP上都有較大提升。與基準(zhǔn)模型YOLOv5s 相比,mAP和AP50分別提高1.4 個百分點(diǎn)和1.3 個百分點(diǎn)。和YOLOX-s 相比,本文方法在mAP上提高2.7個百分點(diǎn),在小尺度交通標(biāo)志上mAP提高1.0 個百分點(diǎn)。與最新的YOLO 系列算法YOLOv6s 相比,mAP和AP50分別高出0.4 個百分點(diǎn)、0.3 個百分點(diǎn),同時本文方法的參數(shù)量只有5.7×106,相較于YOLOv6s的1.72×107的參數(shù)量,模型更小,速度更快,更適合車載設(shè)備。本文方法FPS達(dá)到80,可以滿足真實(shí)駕駛場景中的實(shí)時性要求。

    表2 對比了其他先進(jìn)的交通標(biāo)志檢測算法[15,34-36]在IoU 閾值為0.5 下小、中和大尺度的P、R和F1 結(jié)果。和Zhu等人[34]的方法相比,在小尺度、中尺度和大尺度上,本文方法在精確率上分別提高3.4個百分點(diǎn)、4.6個百分點(diǎn)和1.7 個百分點(diǎn),召回率分別提高4.1 個百分點(diǎn)、2.4個百分點(diǎn)和5.3個百分點(diǎn)。在所有對比方法中,本文方法在小尺度上取得了最高的F1 得分88.2%,與Deng 等人[36]提出的方法相比,在小尺度上召回率提高1.5個百分點(diǎn),F(xiàn)1提升1.1個百分點(diǎn),這也表明了該方法在精確定位和分類小尺度目標(biāo)上具有更好的性能。

    表2 不同交通標(biāo)志尺寸下TT100K數(shù)據(jù)集上檢測結(jié)果對比Table 2 Comparison of detection results on TT100K dataset with different sizes of traffic signs 單位:%

    圖11 展示了本文方法和YOLOv5s 在TT100K數(shù)據(jù)集上的可視化檢測結(jié)果。上欄是YOLOv5s,下欄是本文方法,為了便于觀察,放大包含交通標(biāo)志的區(qū)域并置于圖像下方。從第一列圖像可以看出,YOLOv5s 和本文方法都能準(zhǔn)確地檢測交通標(biāo)志,但本文方法檢測出的交通標(biāo)志得分更高、定位更準(zhǔn),表明本文提出的高斯加權(quán)融合方法對交通標(biāo)志檢測框定位更準(zhǔn)確。在第二列圖像中,原YOLOv5s 漏檢了位于桿上的小尺度交通標(biāo)志,而本文方法成功檢測出較小的pl30 和w55 兩個交通標(biāo)志。在第三列圖像中,對于遠(yuǎn)處的限高桿上的p26 和ph4.5 兩個小尺度交通標(biāo)志,本文方法仍然可以準(zhǔn)確檢測到,這得益于本文引入的注意力機(jī)制和上下文信息,通過利用交通標(biāo)志周邊的相關(guān)信息改善小尺度交通標(biāo)志的漏檢情況,提高檢測精度??梢暬Y(jié)果表明本文方法有效地改善小尺度交通標(biāo)志的漏檢情況,可以更準(zhǔn)確地檢測出小尺度交通標(biāo)志。

    圖11 YOLOv5s和本文方法在TT100K數(shù)據(jù)集上可視化對比Fig.11 Visual comparison of YOLOv5s and proposed method on TT100K dataset

    3.6 DFG數(shù)據(jù)集實(shí)驗(yàn)結(jié)果分析

    為了進(jìn)一步驗(yàn)證本文方法的泛化性,在DFG 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),DFG數(shù)據(jù)集包含200個類別且存在大量的小尺度交通標(biāo)志。表3 顯示了本文方法和其他先進(jìn)的檢測算法在DFG 數(shù)據(jù)集的性能對比。和Faster R-CNN、Cascade R-CNN 和Sparse R-CNN 相比,本文方法在mAP上分別提高5.0個百分點(diǎn)、2.6個百分點(diǎn)、7.3 個百分點(diǎn)。相較于基準(zhǔn)模型YOLOv5s,本文方法mAP提高1.5個百分點(diǎn),AP50提高2.5個百分點(diǎn)。和最新的YOLO 系列算法YOLOv6s 相比,AP50提高1.1個百分點(diǎn),YOLOv6s的參數(shù)量為1.73×107,計(jì)算量為113.7 GFLOPs,而本文方法的參數(shù)量只有6.1×106,同時計(jì)算量更少,F(xiàn)PS 提高27。在所有方法中,本文方法取得了最高的AP75,達(dá)到83.4%,這表明本文方法的檢測框更精確。在DFG數(shù)據(jù)集上的可視化檢測結(jié)果如圖12所示:在第一列圖像中,本文方法準(zhǔn)確檢測出位于遠(yuǎn)處的III-6交通標(biāo)志;在第三列圖像中,原YOLOv5s漏檢了位于道路上的II-47.1標(biāo)志,本文方法則成功地檢測到該小尺度交通標(biāo)志,YOLOv5s將II-22標(biāo)志誤檢為II-33,將I-14標(biāo)志誤檢為II-30-40標(biāo)志,而本文方法對圖像中3個標(biāo)志均正確定位與識別。從DFG 數(shù)據(jù)集上的可視化可以看出,本文方法相較于YOLOv5s 檢測得分更高,且能檢測出小尺度交通標(biāo)志,有效地緩解了小尺度交通標(biāo)志的漏檢情況,同時也證明了本文方法具有良好的泛化性。

    表3 不同方法在DFG數(shù)據(jù)集上檢測結(jié)果對比Table 3 Comparison of detection results of different methods on DFG dataset

    圖12 YOLOv5s和本文方法在DFG數(shù)據(jù)集上可視化對比Fig.12 Visual comparison of YOLOv5s and proposed method on DFG dataset

    參照Tabernik 等人[37]的實(shí)驗(yàn)條件,表4 對比不同交通標(biāo)志尺寸下DFG數(shù)據(jù)集上的結(jié)果,表中“min 30 px”表示交通標(biāo)志的最小尺度為30 像素進(jìn)行訓(xùn)練和測試。從表中可以看出,本文方法在不同交通標(biāo)志尺寸都取得最高的mAP50,且在“min 30 px”條件下相較于Tabernik 等人方法提升0.8 個百分點(diǎn),進(jìn)一步表明本文方法在檢測小尺度交通標(biāo)志上的優(yōu)越性。

    表4 不同交通標(biāo)志尺寸下DFG數(shù)據(jù)集上檢測結(jié)果對比Table 4 Comparison of detection results on DFG dataset with different sizes of traffic signs

    3.7 消融實(shí)驗(yàn)

    為了驗(yàn)證本文方法的有效性,在TT100K交通標(biāo)志檢測數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),如表5所示。本文方法的基線為YOLOv5s。CSP-SA 表示在主干網(wǎng)絡(luò)中嵌入的跨階段局部空間注意力模塊,引入CSP-SA后,mAP和AP50分別提高0.3 個百分點(diǎn)和0.5 個百分點(diǎn)。CSP-WT 表示本文設(shè)計(jì)的跨階段局部窗口Transformer模塊,引入該模塊后mAP提高0.8個百分點(diǎn),AP50提高0.7個百分點(diǎn),AP75提高0.5 個百分點(diǎn),表明該模塊可以通過捕獲交通標(biāo)志周圍的上下文信息改善檢測精度。本文提出的CSP-SA 模塊和CSPWT 模塊對于檢測精度的提升較高,表明本文融合注意力機(jī)制和上下文信息的合理性。本文利用Ghost 模塊構(gòu)建的輕量的特征融合網(wǎng)絡(luò)Ghost PAN有效地減少了模型的參數(shù)量和計(jì)算復(fù)雜度,同時還能保持檢測精度。GWF 表示在后處理階段采用高斯加權(quán)融合方法對預(yù)測框進(jìn)行修正,GWF 進(jìn)一步提高了預(yù)測框的定位精度。消融實(shí)驗(yàn)驗(yàn)證了本文方法的有效性。

    表5 本文方法在TT100K數(shù)據(jù)集上的消融實(shí)驗(yàn)Table 5 Ablation experiments of proposed algorithm on TT100K dataset

    為了驗(yàn)證本文提出的高斯加權(quán)融合方法中采用高斯系數(shù)的有效性,對比了線性系數(shù)和高斯系數(shù),線性系數(shù)是直接采用IoU作為權(quán)重系數(shù),高斯系數(shù)是經(jīng)過高斯函數(shù)處理后的,為,結(jié)果如表6 所示。從表中可以看出,采用高斯系數(shù)作為權(quán)重系數(shù)相較于線性系數(shù)具有更高的mAP 和AP50。當(dāng)IoU 較高時,采用高斯系數(shù)作為權(quán)重相較于線性系數(shù)具有較高的值,可以給高IoU分配高的權(quán)重;同時,隨著IoU降低,高斯系數(shù)下降平緩,有利于給高IoU 的預(yù)測框分配高的權(quán)重。

    表6 不同權(quán)重系數(shù)在TT100K數(shù)據(jù)集上的消融實(shí)驗(yàn)Table 6 Ablation experiments with different weighted coefficients on TT100K 單位:%

    4 結(jié)束語

    本文提出融合注意力機(jī)制和上下文信息的實(shí)時交通標(biāo)志檢測算法,在主干網(wǎng)絡(luò)中嵌入空間注意力機(jī)制用于強(qiáng)化包含交通標(biāo)志的空間位置特征,另外采用窗口Transformer 學(xué)習(xí)不同位置信息的關(guān)聯(lián)性,捕獲物體周圍的上下文信息。在特征融合階段,構(gòu)建輕量的特征融合網(wǎng)絡(luò),在減少參數(shù)量的同時確保有效的特征融合。最后,在預(yù)測框后處理階段提出高斯加權(quán)邊界框融合方法,進(jìn)一步提高檢測框的定位精度。實(shí)驗(yàn)表明,本文算法有效地提高了小尺度交通標(biāo)志的檢測精度,且滿足檢測實(shí)時性要求。在后續(xù)研究中,計(jì)劃結(jié)合去雨去霧算法和檢測算法改善雨霧環(huán)境下的交通標(biāo)志檢測效果。

    猜你喜歡
    交通標(biāo)志尺度注意力
    交通標(biāo)志認(rèn)得清
    基于雙向特征融合的交通標(biāo)志識別
    讓注意力“飛”回來
    財(cái)產(chǎn)的五大尺度和五重應(yīng)對
    “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
    傳媒評論(2017年3期)2017-06-13 09:18:10
    A Beautiful Way Of Looking At Things
    宇宙的尺度
    太空探索(2016年5期)2016-07-12 15:17:55
    交通標(biāo)志小課堂
    9
    我們歡迎你!
    诏安县| 屯留县| 临澧县| 应用必备| 仙游县| 黄平县| 景谷| 青海省| 兴隆县| 仙居县| 宜城市| 麦盖提县| 乐都县| 云林县| 额济纳旗| 漠河县| 石台县| 桐城市| 霍邱县| 潮州市| 区。| 马龙县| 蓬溪县| 平顶山市| 澄迈县| 马尔康县| 兴山县| 哈密市| 滕州市| 延吉市| 平顺县| 安阳县| 天等县| 大渡口区| 东莞市| 慈利县| 阳西县| 平江县| 新津县| 桦川县| 青海省|