李建東, 李佳琦, 曲海成
(1. 遼寧工程技術(shù)大學(xué) 軟件學(xué)院, 遼寧 葫蘆島 125105;2. 遼寧工程技術(shù)大學(xué) 礦業(yè)學(xué)院, 遼寧 阜新 123000)
目標(biāo)檢測(cè)是計(jì)算機(jī)視覺領(lǐng)域的核心問(wèn)題,它的主要任務(wù)是對(duì)圖像中感興趣的目標(biāo)進(jìn)行識(shí)別和定位[1],其應(yīng)用領(lǐng)域十分廣泛,如智慧醫(yī)療[2-3]、無(wú)人駕駛[4]等。車輛和行人檢測(cè)[5]作為無(wú)人自動(dòng)駕駛技術(shù)的重要組成部分,已成為熱門研究方向。
通用目標(biāo)檢測(cè)方法在實(shí)際場(chǎng)景下的車輛與行人檢測(cè)任務(wù)中存在不足之處。近些年,已經(jīng)有較為成熟的增強(qiáng)策略提高多尺度物體的檢測(cè)性能,包括一些改進(jìn)融合式特征金字塔結(jié)構(gòu)[6]。白創(chuàng)等人[7]構(gòu)造多向特征金字塔,充分提取與融合多層語(yǔ)義信息。Wang 等人[8]同時(shí)利用深層和淺層特征進(jìn)行雙向融合。李經(jīng)宇等人[9]提出在同一卷積層中收集并拼接不同尺度的局部特征區(qū)域,同時(shí)縮短高低層特征融合路徑,應(yīng)對(duì)復(fù)雜場(chǎng)景中車輛行人的檢測(cè)問(wèn)題。上述方法雖能優(yōu)化緩解多尺度目標(biāo)檢測(cè)問(wèn)題,但是沒(méi)能針對(duì)性地聯(lián)系到當(dāng)前檢測(cè)目標(biāo)的基本特點(diǎn),具有一定的局限性。此外,關(guān)鍵特征提取不充分也會(huì)直接影響模型檢測(cè)能力[10]。董小偉等人[11]對(duì)不同尺度特征層進(jìn)行針對(duì)性加權(quán)融合尋找最優(yōu)融合方式。鄒梓吟等人[12]通過(guò)融合注意力機(jī)制提升模型對(duì)遮擋目標(biāo)的檢測(cè)能力。盡管上述算法的檢測(cè)精度有所提升,但對(duì)于特定任務(wù)下多尺度目標(biāo)檢測(cè)結(jié)構(gòu)的設(shè)計(jì)仍缺乏針對(duì)性,還不能高效融合不同語(yǔ)義層次特征,對(duì)遮擋性目標(biāo)的定位仍不準(zhǔn)確。而且,相關(guān)工作不能平衡準(zhǔn)確率與檢測(cè)速度,還有進(jìn)一步提升空間。
為解決上述問(wèn)題,本文基于SSD 模型展開研究工作,主要內(nèi)容如下:
(1)改進(jìn)特征提取方式,針對(duì)車輛與行人檢測(cè)任務(wù),提出跳躍式反向特征金字塔結(jié)構(gòu)(Skip Reverse Feature Pyramid Structure,SRFPN)作用于部分檢測(cè)分支,用以提升對(duì)多尺度目標(biāo)的判別能力。
(2)增強(qiáng)關(guān)鍵特征表達(dá)能力,提出自適應(yīng)特征融合模塊(Self-Adaptive Feature Fusion Module,SAFM),在通道層面先驗(yàn)計(jì)算待融合信息對(duì)特征融合過(guò)程的貢獻(xiàn)度,為特征信息加權(quán)。
(3)增強(qiáng)模型對(duì)目標(biāo)的定位能力,將十字交叉注意力網(wǎng)絡(luò)(Criss-Cross Attention Network,CCN)用于模型定位分支前,通過(guò)自注意力機(jī)制在空間層面獲取遠(yuǎn)距離信息依賴,增強(qiáng)目標(biāo)定位,優(yōu)化解決遮擋目標(biāo)檢測(cè)問(wèn)題。
SSD 目標(biāo)檢測(cè)模型是一種經(jīng)典的基于回歸思想和Anchor 機(jī)制的多尺度單階段目標(biāo)檢測(cè)算法,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。
圖1 SSD 網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structure of SSD
SSD 模型通過(guò)規(guī)范化處理原始輸入圖像,將其調(diào)整至固定大小300×300 作為模型的輸入。以VGG-16作為基礎(chǔ)骨干網(wǎng)絡(luò),在不斷下采樣的過(guò)程中逐次通過(guò)尺寸大小為38×38、19×19、10×10、5×5、3×3和1×1的6個(gè)多尺度特征層,提取輸入圖像的特征。經(jīng)過(guò)聚合運(yùn)算,分別通過(guò)Loc_layer 和Conf_layer 同步計(jì)算預(yù)測(cè)框的位置信息與分類置信度并先驗(yàn)地在預(yù)測(cè)分支上定義錨框。最后使用非極大值抑制(Non-Maximum Suppression,NMS)的方式保留檢測(cè)結(jié)果最好的預(yù)測(cè)框并輸出檢測(cè)結(jié)果。
SSD 模型采用多尺度預(yù)測(cè)方法:使用大尺度特征層預(yù)測(cè)小目標(biāo),使用小尺度特征層預(yù)測(cè)大目標(biāo),以此解決檢測(cè)過(guò)程中存在的目標(biāo)尺度變化的問(wèn)題。但其6個(gè)檢測(cè)分支相互獨(dú)立,經(jīng)過(guò)聚合運(yùn)算,同步計(jì)算預(yù)測(cè)框的位置信息與分類置信度。此時(shí),底層特征,如Conv4_3,不具備高級(jí)語(yǔ)義信息,對(duì)目標(biāo)分類任務(wù)不友好;高層特征,如Conv11_2,因卷積運(yùn)算次數(shù)的增加而缺失細(xì)節(jié)信息,不利于目標(biāo)定位任務(wù)。自淺至深單向傳播路徑的結(jié)構(gòu)使檢測(cè)分支的特征信息不充分,模型的檢測(cè)能力還有很大提升空間。此外,在相同尺度的預(yù)測(cè)特征層內(nèi),各目標(biāo)之間的尺度大小不一。為識(shí)別該層特征層上的所有目標(biāo),需要掌握上下文信息,便于目標(biāo)定位。
為解決SSD 模型在道路場(chǎng)景中進(jìn)行車輛與行人檢測(cè)時(shí),目標(biāo)多尺度且受復(fù)雜環(huán)境影響,檢測(cè)分支攜帶有效信息變?nèi)酢⒍ㄎ荒芰Σ?,模型?zhǔn)確率低、受遮擋目標(biāo)漏檢率大的問(wèn)題,本文提出AF-SSD(Attention and Fusion Across Scales-SSD)模型。
AF-SSD 模型仍采用VGG16 作為特征提取主干網(wǎng)絡(luò)。首先,設(shè)計(jì)路徑由淺至深、由深至淺的跳躍式反向金字塔(SRFPN),即對(duì)特征層Conv3_3、Conv4_3、Conv7、Conv8_2、Conv9_2 進(jìn)行跨尺度特征融合,增強(qiáng)部分檢測(cè)分支Conv4_3、Conv7 以及Conv8_2 的特征表達(dá);其次,設(shè)計(jì)自適應(yīng)特征融合模塊(SAFM),替換金字塔結(jié)構(gòu)中對(duì)待融合特征直接相加的操作;最后,引入交叉注意力模塊(CCN)用于模型定位分支。最終檢測(cè)分支維度輸出依次為512、512、512、256、256、256。AFSSD 模型網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。
圖2 AF-SSD 網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of AF-SSD
SSD 模型是最早嘗試將特征金字塔用于目標(biāo)檢測(cè)的模型之一。該模型在利用多尺度特征層的同時(shí),直接引入金字塔結(jié)構(gòu)并不作任何特征融合。其通過(guò)特征金字塔結(jié)構(gòu)逐級(jí)生成預(yù)測(cè)特征層,在各預(yù)測(cè)層上檢測(cè)圖像內(nèi)對(duì)應(yīng)尺度的目標(biāo),解決目標(biāo)多尺度問(wèn)題。但是,無(wú)融合的分而治之思想也使模型錯(cuò)檢、漏檢的風(fēng)險(xiǎn)提高。因此為提升SSD 算法的檢測(cè)能力,特征融合必不可少。
車輛與行人檢測(cè)為高差異性的雙目標(biāo)檢測(cè)任務(wù)。高級(jí)語(yǔ)義特征融入淺層特征對(duì)目標(biāo)分類有利,此種情況下應(yīng)重點(diǎn)考慮保留淺層特征內(nèi)有利于目標(biāo)定位的信息。FPN[13](Feature Pyramid Network)結(jié)構(gòu)是在自深至淺路徑上進(jìn)行特征融合。PAN[14](Path Aggregation Network)在FPN的基礎(chǔ)上增加了自淺至深的特征融合路徑,在具備高級(jí)語(yǔ)義特征的基礎(chǔ)上同時(shí)擁有豐富的定位信息。然而,對(duì)特征連續(xù)上采樣會(huì)破壞原始特征層中像素連續(xù)性[15]。通過(guò)插值方式引入的外來(lái)信息將繼續(xù)向前傳播,干擾特征的原始分布形成位置偏差。基于雙向路徑遞歸融合的金字塔結(jié)構(gòu)引入外來(lái)信息的傳播路徑如圖3 所示。
圖3 外來(lái)信息向前傳播路徑Fig.3 Forward propagation path of foreign information
圖3 中空心箭頭表示外來(lái)信息向前傳播所經(jīng)路徑。由此可見,該結(jié)構(gòu)在車輛與行人檢測(cè)任務(wù)中具有一定的局限性。為解決上述問(wèn)題,設(shè)計(jì)了跳躍式反向特征金字塔網(wǎng)絡(luò)。在自淺至深的路徑上,將Conv3_3、Conv4_3、Conv7、Conv8_2 層輸入SRFPN 結(jié)構(gòu),得到預(yù)測(cè)特征層P1、P2、P3。
SRFPN 的主要內(nèi)容包括調(diào)整特征通道數(shù)量、特征拼接以及批歸一化(Batch Normalization,BN),網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示。
圖4 SRFPN 的網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Network structure of SRFPN
需要適當(dāng)減少特征層中的通道冗余[16-18]。在模型復(fù)雜性方面,設(shè)置過(guò)多的通道數(shù)會(huì)使部分通道被冗余信息占用,重復(fù)參與卷積計(jì)算從而降低模型的計(jì)算速度;在語(yǔ)義信息方面,CNN 架構(gòu)中通道之間存在特征冗余[19]。因此,在跳躍式反向金字塔結(jié)構(gòu)中將通道數(shù)進(jìn)行調(diào)整,不僅能增強(qiáng)關(guān)鍵特征的表達(dá)能力,還可以減少冗余的特征,提升模型的檢測(cè)速度。
將特征層在通道層面進(jìn)行拼接(Concatenate)可以增加描述圖像的特征,不改變信息量總和。拼接算子計(jì)算過(guò)程如式(1)所示:
其中:Zconcat表示經(jīng)過(guò)拼接算子后的特征,xi、yi分別表示待融合特征,ki表示卷積核大小,*為卷積運(yùn)算。
將BN 層置于卷積層與激活函數(shù)之間可以加快模型訓(xùn)練時(shí)的收斂速度,使模型訓(xùn)練過(guò)程更加穩(wěn)定,避免梯度爆炸或者梯度消失。其核心計(jì)算過(guò)程如式(2)~(5)所示:
其中,放縮系數(shù)γ與平移系數(shù)β為可訓(xùn)練參數(shù),引入二者可使網(wǎng)絡(luò)的輸出盡可能重構(gòu)原始特征的表達(dá)能力。
特征融合的目的是將兩個(gè)或多個(gè)特征層上的信息通過(guò)一定的方式進(jìn)行合并,得到比原特征更具備判斷力的特征。在有融合式特征金字塔結(jié)構(gòu)中,經(jīng)過(guò)采樣的特征層和本地特征層直接相加會(huì)導(dǎo)致特征圖映射的上下文不對(duì)齊[20]。并且,簡(jiǎn)單的相加操作僅能為特征層提供固定的線性聚合方式[21]。
SKNe[22]和ResNeSt[23]利用對(duì)來(lái)自同一層的特征進(jìn)行動(dòng)態(tài)加權(quán)平均的方式為特征融合過(guò)程提供非線性。但在特征融合時(shí),通常需要將不同分辨率的特征層通過(guò)上、下采樣的方式調(diào)整到同一尺度。如何克服語(yǔ)義不一致、增加非線性并能自適應(yīng)調(diào)整加權(quán)因子進(jìn)行高效融合是增強(qiáng)關(guān)鍵信息表達(dá)、提升特征融合能力的核心。
由此,本文提出自適應(yīng)特征融合模塊,該模塊接收相同尺度大小的特征層,在通道層面經(jīng)過(guò)全局最大池化與全局平均池化獲得關(guān)鍵信息對(duì)應(yīng)通道位置,經(jīng)過(guò)運(yùn)算獲得關(guān)鍵特征所在通道的位置,避免復(fù)雜運(yùn)算,其過(guò)程如式(6)所示:
為高效捕獲通道間的依賴關(guān)系,經(jīng)過(guò)一維卷積對(duì)相鄰?fù)ǖ佬畔⑦M(jìn)行交互[24]。將兩個(gè)待融合特征交互后的結(jié)果進(jìn)行拼接,由模型經(jīng)過(guò)學(xué)習(xí)得到的超參數(shù)自適應(yīng)地在不同通道層被給予不同權(quán)重,再重新分配回特征層聚合。自適應(yīng)特征融合模塊結(jié)構(gòu)如圖5 所示。
圖5 自適應(yīng)特征融合模塊結(jié)構(gòu)Fig.5 Self-adaptive feature fusion module
為平等對(duì)待相同語(yǔ)義特征內(nèi)不同尺度的目標(biāo)信息,目標(biāo)分割領(lǐng)域的Non_Local[25]基于非局部均值濾波思想直接計(jì)算兩個(gè)像素級(jí)子特征之間的位置關(guān)系,快速捕獲長(zhǎng)距離位置依賴。十字交叉注意力模塊(CCN)[26]以Non_Local 為基礎(chǔ),在特征層的橫縱方向上聚合像素級(jí)子特征信息,其結(jié)構(gòu)如圖6 所示。
圖6 交叉注意力模塊結(jié)構(gòu)Fig.6 Criss-cross attention module
經(jīng)過(guò)改進(jìn)得到的交叉注意力模塊結(jié)構(gòu)不僅可以減少內(nèi)存、提升計(jì)算效率,還能增加模型對(duì)目標(biāo)的定位能力。本文將CCN 用于定位分支部分,分別以各檢測(cè)分支尺度為范圍在W和H維度上形成遠(yuǎn)距離特征依賴,精確預(yù)測(cè)框位置。
首先,檢測(cè)分支F,F(xiàn)∈RC×W×H并行經(jīng)過(guò)1×1卷積分別得到尺度大小為C'×W×H的特征圖K、Q(C'<C)以及尺度不變的特征圖V,同時(shí)得到K內(nèi)每個(gè)像素特征點(diǎn)對(duì)應(yīng)索引i。將向量Mu∈RC'×1×1與特征圖Q內(nèi)對(duì)應(yīng)行與列上H+W-1個(gè)特征向量構(gòu)成集合Ωu∈R(H+W-1)×C',通過(guò)關(guān)聯(lián)計(jì)算,得到Mi與Ωi之間的信息關(guān)聯(lián)度,再通過(guò)Softmax 運(yùn)算得到對(duì)應(yīng)像素級(jí)位置的注意力Ai∈R(H+W-1),該過(guò)程如式(7)所示:
同樣,在特征圖V中獲取對(duì)應(yīng)行列的向量集Φi∈R(H+W-1)×C,經(jīng)過(guò)聚合計(jì)算獲得對(duì)應(yīng)位置i的非局部上下文信息F'i∈R(C×1×1),該過(guò)程如式(8)所示:
對(duì)索引進(jìn)行遍歷后,經(jīng)過(guò)以上步驟計(jì)算,得到最終的特征圖F'。為避免以十字交叉形式獲取遠(yuǎn)距離特征依賴得到稀疏信息,需連續(xù)經(jīng)過(guò)兩次該模塊。
PASCAL VOC 數(shù)據(jù)集為公開基準(zhǔn)數(shù)據(jù)集,內(nèi)有20 個(gè)類別的圖像。本文選取包含人類、汽車、公交車、自行車以及摩托車樣本的11 178 張圖片,同時(shí)刪除其他類別樣本的標(biāo)注信息。其中,選取PASCAL VOC07+12 trainval 數(shù)據(jù)集內(nèi)8 383 張圖片進(jìn)行訓(xùn)練,選取PASCAL VOC2007 test 數(shù)據(jù)集內(nèi)2 795 張圖片進(jìn)行驗(yàn)證。
考慮到實(shí)際應(yīng)用情況,自制小型道路交通數(shù)據(jù)集(Road Traffic Photography,RTP)包含汽車與行人類別。首先,選取KITTI 數(shù)據(jù)集中部分圖像并重新劃分類別:將Car、Tram、Van、Truck類合并作為Car 類,將PersonSitting 和Pedestrain 合并作為Person 類,同時(shí)去除其他低相關(guān)性類。其次,為增強(qiáng)樣本多樣性,選用部分網(wǎng)絡(luò)圖像和真實(shí)街道拍攝圖像作為補(bǔ)充。圖像數(shù)量對(duì)應(yīng)來(lái)源占比約為7:2:1,所含對(duì)象均涉及不同程度的遮擋。最后,將KITTI 數(shù)據(jù)集轉(zhuǎn)為VOC 格式并通過(guò)工具軟件labelimg 對(duì)自備圖像以VOC 格式進(jìn)行標(biāo)注。最終得到圖像8 100 張。隨機(jī)抽取80%的圖片作為訓(xùn)練集(6 500 張),將余下20%的圖片作為驗(yàn)證集(1 600 張)。RTP 數(shù)據(jù)集的數(shù)據(jù)來(lái)源、目標(biāo)類別以及目標(biāo)數(shù)量分布見表1。
表1 RTP 的數(shù)據(jù)分布Tab.1 Data distribution for RTP
本文基于Pytorch 框架,模型訓(xùn)練采用隨機(jī)梯度下降算法(Stochastic Gradient Descent, SGD)對(duì)網(wǎng)絡(luò)模型的權(quán)重進(jìn)行更新優(yōu)化。模型參數(shù)設(shè)置批次大小為32,使用0.001 學(xué)習(xí)速率進(jìn)行40k 次迭代,然后繼續(xù)分別以0.000 1 和0.000 01 的學(xué)習(xí)率訓(xùn)練10k 次。訓(xùn)練均在型號(hào)為GTX 1080Ti的顯卡上進(jìn)行,設(shè)備顯存為12G。
為驗(yàn)證改進(jìn)模型AF-SSD 各模塊的有效性,本文在PASCAL VOC 子數(shù)據(jù)集上設(shè)計(jì)并實(shí)現(xiàn)一系列控制變量實(shí)驗(yàn),消融實(shí)驗(yàn)結(jié)果見表2。
表2 消融實(shí)驗(yàn)結(jié)果Tab.2 Results of the ablation experiment
在SSD 模型上逐步增加反向金字塔結(jié)構(gòu)(SRBPN)、自適應(yīng)特征融合模塊(SAFM)、交叉注意力模塊(CCN)操作并記錄數(shù)值。分析可知:文本模型加入SRBPN,讓檢測(cè)分支之間信息交流、相互補(bǔ)充,但同時(shí)參數(shù)量也增加,使模型準(zhǔn)確度提升1.5%,F(xiàn)PS 下降4.4。SAFM 模塊可以在此基礎(chǔ)上使模型精確度提升0.7%,F(xiàn)PS 下降1.6,證明該融合模塊可以有效保留更多有效信息。交叉注意力模塊在損失2 FPS 的情況下,精確度繼續(xù)提升0.6%,證明該模塊增強(qiáng)了模型檢測(cè)能力。
本文模型在PASCAL VOC 子數(shù)據(jù)集各個(gè)類別上的檢測(cè)結(jié)果分別與ION300[27]、Faster-RCNN[28]、YOLO 系列算法、無(wú)錨點(diǎn)算法FCOS[29]、LNFCOS[30]以及相似輸入尺度下SSD改進(jìn)算法系列(DSSD[31]、EDF-SSD[32]等)進(jìn)行比較,各類別檢測(cè)精度詳細(xì)結(jié)果見表3。
表3 PASCAL VOC 子數(shù)據(jù)的測(cè)試集內(nèi)各類別檢測(cè)精度對(duì)比Tab.3 Comparison of detection accuracy of all types in the sub-samples of the PASCAL VOC dataset%
表3 中已將15 種對(duì)比算法中最高單一類別數(shù)值進(jìn)行加粗表示,本文模型在5 個(gè)單一類別中占3 項(xiàng)。在Person 類別上,本文模型僅次于AFESSD模型,同時(shí),在Bus類別上,本文模型與其相差1.6。本文算法在5 個(gè)類別中的mAP 值為87.1,比兩階段算法Faster RCNN 高6.9;優(yōu)于單階段無(wú)錨框FCOS 模型及其改進(jìn)模型LNPCOS,分別高1.4、2;比SSD 模型提升3.1;較當(dāng)前基于SSD 模型新提出的代表性改進(jìn)模型AFP-SSD 和RLCADet 模型在數(shù)值上分別高2、2.1;比YOLOv3 和DC-SPP-YOLO 模型分別高1、3.3。
網(wǎng)絡(luò)性能評(píng)價(jià)的指標(biāo)除準(zhǔn)確性之外,還包括網(wǎng)絡(luò)檢測(cè)的實(shí)時(shí)性。為此,將模型分別在Titan X和1080Ti 的GPU 上進(jìn)行驗(yàn)證。在Titan X 上的驗(yàn)證結(jié)果見表4。模型在1080Ti 上的驗(yàn)證結(jié)果見表5。
表4 不同算法在Titan X 上的驗(yàn)證對(duì)比結(jié)果Tab.4 Comparison of verification results on Titan X for different algorithms
表5 不同算法在1080Ti 上的驗(yàn)證對(duì)比結(jié)果Tab.5 Comparison of verification results on 1080Ti for different algorithms
在設(shè)備型號(hào)為Titan X 的情況下,改進(jìn)模型的檢測(cè)速度約為Faster R-CNN 的6 倍、R-FCN 的4 倍;改進(jìn)模型的FPS 為41.5,比DSSD 模型的FPS 高36.5、比RSSD 高11。在1080Ti 的運(yùn)行環(huán)境下,本文改進(jìn)方法的FPS 為77,約為YOLOv3和RLCADet 模型的2 倍。在兩種設(shè)備上,本文改進(jìn)算法的FPS 雖沒(méi)有取得最優(yōu)值,但仍滿足實(shí)時(shí)性的要求。
為了更進(jìn)一步地驗(yàn)證本文模型在復(fù)雜場(chǎng)景道路上對(duì)車輛與行人的檢測(cè)效果,在RTP 數(shù)據(jù)集上進(jìn)行了驗(yàn)證。在1080Ti 上,各模型的檢測(cè)結(jié)果見表6。
由表6 可見,改進(jìn)后的模型在RTP 上的精度均值相較原SSD 提升3.9。
結(jié)合表2~表5 的結(jié)果分析,在精度均值方面,本文模型高于其他模型;在檢測(cè)速度方面,本文算法滿足檢測(cè)實(shí)時(shí)性。通過(guò)表6 數(shù)據(jù)可知,改進(jìn)后的算法對(duì)道路上的車輛與行人檢測(cè)效果提升明顯,具備更好的魯棒性。
為了更直觀地評(píng)價(jià)本文模型與原SSD 模型的準(zhǔn)確性,圖7 展示了其在PASCAL VOC 的子數(shù)據(jù)測(cè)試集上的可視化效果對(duì)比圖。
圖7 PASCAL VOC 子數(shù)據(jù)的測(cè)試集內(nèi)SSD 算法與本文的檢測(cè)結(jié)果對(duì)比Fig.7 Detection results comparion of SSD and proposed algorithm in the sub-samples of the PASCAL VOC
圖7(i)主要展示改進(jìn)模型針對(duì)原模型對(duì)目標(biāo)產(chǎn)生錯(cuò)檢、漏檢方面的優(yōu)化情況:SSD 模型在復(fù)雜背景下將圖像中央的垃圾桶誤檢為行人,只檢測(cè)出圖像右方的1 名行人;改進(jìn)的模型則可以檢測(cè)到圖像內(nèi)2 名行人。圖7(ii)、(iii)主要體現(xiàn)模型對(duì)遮擋目標(biāo)的監(jiān)測(cè)情況:改進(jìn)模型分別以72%和97%的準(zhǔn)確率檢測(cè)出圖中原SSD 模型未能檢測(cè)到的被遮擋車輛。
改進(jìn)模型與SSD 模型在自制道路目標(biāo)數(shù)據(jù)集上的檢測(cè)結(jié)果如圖8 所示。觀察圖8(i)可見,改進(jìn)模型可以將原模型漏檢的從左至右第二個(gè)車輛目標(biāo)以88%的準(zhǔn)確率檢測(cè)出來(lái)。觀察圖8(ii)可見,本文模型可以將左后方受遮擋的汽車檢測(cè)出來(lái),且檢測(cè)行人的準(zhǔn)確率為94%,較原模型高18%。
圖8 道路交通目標(biāo)數(shù)據(jù)集上SSD 算法與本文算法檢測(cè)結(jié)果對(duì)比Fig.8 Detection results comparion of SSD and proposed algorithm on RTP target data set
針對(duì)實(shí)際交通場(chǎng)景的車輛與行人檢測(cè)過(guò)程中,目標(biāo)多尺度及目標(biāo)間相互遮擋導(dǎo)致模型定位準(zhǔn)確率低且漏檢率高的問(wèn)題,本文提出一種注意力和跨尺度融合的改進(jìn)SSD 目標(biāo)檢測(cè)模型AFSSD。該模型的改進(jìn)部分如下:在SSD 的基礎(chǔ)上建立跳躍式反雙向遞歸路徑;以本文設(shè)計(jì)的自適應(yīng)特征融合方式,代替直接相加融合操作;在定位分支部分引入交叉注意力模塊,增強(qiáng)模型對(duì)遮擋目標(biāo)的定位能力。改進(jìn)模型在PASCAL VOC 07+12 子數(shù)據(jù)集、RTP 數(shù)據(jù)集上驗(yàn)證算法在實(shí)際應(yīng)用中的檢測(cè)能力與魯棒性。實(shí)驗(yàn)結(jié)果表明,在保證實(shí)時(shí)性的情況下,改進(jìn)方法的精度均值在PASCAL VOC 子數(shù)據(jù)集上提升了2.6%,在自制道路交通數(shù)據(jù)集上提升了3.9%。本文模型對(duì)復(fù)雜場(chǎng)景下的多尺度目標(biāo)和受遮擋的目標(biāo)具有良好的檢測(cè)效果。