鮑先富,強(qiáng)贊霞,李丹陽,楊 瑞
(中原工學(xué)院,河南 鄭州 450007)
隨著社會車輛的快速增多,道路交通變得愈加復(fù)雜。為了提高道路安全,避免人為駕駛失誤造成不必要的交通事故,越來越多的研究學(xué)者開始對無人駕駛領(lǐng)域進(jìn)行研究,其中包括目標(biāo)識別在內(nèi)的計(jì)算機(jī)視覺任務(wù)。在車輛行駛過程中,針對汽車、行人等關(guān)鍵目標(biāo)的識別與檢測任務(wù)對車輛安全行駛和避障有著舉足輕重的作用,得益于近些年來深度學(xué)習(xí)的快速發(fā)展和硬件算力的巨大飛躍,基于深度學(xué)習(xí)的目標(biāo)檢測算法取得的檢測效果受到各方學(xué)者的青睞。該文針對無人駕駛領(lǐng)域已有的關(guān)于車輛和行人的檢測和識別任務(wù)進(jìn)行優(yōu)化,針對車輛密集場所提高模型檢測精度,檢測算法以基于YOLOv3[1]目標(biāo)檢測模型對目標(biāo)檢測框架進(jìn)行優(yōu)化,其中的改進(jìn)主要為:(1)對Darknet-53[2]主干網(wǎng)絡(luò)中的殘差模塊和基于步長為2的卷積下采樣方法進(jìn)行改進(jìn);(2)為提升原YOLOv3目標(biāo)檢測網(wǎng)絡(luò)對于不同尺度目標(biāo)的檢測能力,該模型在原模型的基礎(chǔ)上加入自適應(yīng)空間特征融合模塊(ASFF),在提升對不同目標(biāo)尺度包容能力的同時(shí)提升網(wǎng)絡(luò)的檢測能力,降低對關(guān)鍵目標(biāo)的漏檢率;(3)實(shí)驗(yàn)在PASCAL VOC2007和PASCAL VOC2012數(shù)據(jù)集[3]上進(jìn)行對比測試,取得了比原始YOLOv3檢測框架精度高12%的檢測效果,且對改進(jìn)后主干網(wǎng)絡(luò)的推理速度沒有顯著影響。
傳統(tǒng)的目標(biāo)檢測算法多是基于設(shè)計(jì)手工特征,通過觀察待檢目標(biāo)進(jìn)行人為設(shè)計(jì)特征學(xué)習(xí)方式,其算法檢測過程主要分為區(qū)域選擇、特征提取和分類器分類三個(gè)步驟。區(qū)域選擇一般通過滑動窗口的方式對圖像區(qū)域進(jìn)行遍歷,其中滑動窗口的大小及長寬與檢測模型的檢測精度與速度密切相關(guān)。傳統(tǒng)特征提取算法主要包含SIFT[4]、HOG[5]等,這種傳統(tǒng)算法對于檢測目標(biāo)的多樣性、光照強(qiáng)度、背景的復(fù)雜性具有較差的魯棒性。
自2013年以來,深度學(xué)習(xí)得到迅速發(fā)展和廣泛研究,其中基于深度學(xué)習(xí)的目標(biāo)檢測算法分為:區(qū)域法和回歸法?;趨^(qū)域提議方面的目標(biāo)算法如Faster RCNN[6],由于實(shí)時(shí)檢測效果不夠理想,無法用于無人駕駛和檢測等領(lǐng)域。在基于回歸的單階段目標(biāo)檢測算法中,張海濤等學(xué)者[7]基于SSD算法[8]引入注意力機(jī)制和擴(kuò)大感受野的方式,增強(qiáng)高層特征圖所包含的高級特征信息,實(shí)現(xiàn)檢測效果的提升,但是其總體精度仍然較低;Redmon等學(xué)者[9]在YOLOv2的基礎(chǔ)上結(jié)合ResNet、特征金字塔等思想提出YOLOv3算法,該算法在實(shí)時(shí)性和檢測精度方面得到廣泛提升,但是在小目標(biāo)和目標(biāo)密集環(huán)境中存在漏選和目標(biāo)重寫現(xiàn)象;顧恭等學(xué)者[10]在YOLOv3的基礎(chǔ)上通過增加主干網(wǎng)絡(luò)輸出特征圖數(shù)量,增加對不同尺寸目標(biāo)的檢測能力;Bochkovskiy A等[11]在綜合許多已有學(xué)者研究成果的基礎(chǔ)上,通過組合不同的優(yōu)化技巧對YOLOv3進(jìn)行優(yōu)化,使其精度達(dá)到新的高度。
綜合當(dāng)今研究的優(yōu)勢與不足,該文以YOLOv3目標(biāo)檢測網(wǎng)絡(luò)為基礎(chǔ)作進(jìn)一步改進(jìn),選擇YOLOv3目標(biāo)檢測網(wǎng)絡(luò)基于如下原因:(1)YOLOv3為單階段目標(biāo)檢測網(wǎng)絡(luò),在實(shí)際檢測應(yīng)用中能夠達(dá)到實(shí)時(shí)檢測效果;(2)為了單獨(dú)分析優(yōu)化方法的效果,避免受YOLOv4中的多優(yōu)化方式影響,單獨(dú)分析文中優(yōu)化方法的優(yōu)劣,所以不使用最新的YOLOv4作為基準(zhǔn)網(wǎng)絡(luò)比較;(3)YOLOv3目標(biāo)檢測模型對于密集、多尺度目標(biāo)存在漏選特點(diǎn)、密集目標(biāo)檢測回召率低等問題,使用該優(yōu)化手段驗(yàn)證對YOLOv3的改進(jìn)程度和效果。
YOLOv3[1]是Redmom等學(xué)者于2018年提出的單階段目標(biāo)檢測網(wǎng)絡(luò),該算法主干網(wǎng)絡(luò)結(jié)構(gòu)為Darknet-53[2],如圖1所示。該算法結(jié)合殘差網(wǎng)絡(luò)、特征金字塔多尺度檢測等一系列優(yōu)秀的網(wǎng)絡(luò)設(shè)計(jì)思想,能夠達(dá)到較好的檢測效果和幾乎實(shí)時(shí)的檢測速度。主干網(wǎng)絡(luò)Darknet-53引入了ResNet[12]網(wǎng)絡(luò)模型中的殘差單元并進(jìn)行重新組合,主干網(wǎng)絡(luò)中的殘差單元將傳遞的特征圖依次進(jìn)行卷積核為3×3、步長為2的卷積操作和下采樣處理,再依次進(jìn)行卷積核為1×1、步長為1,卷積核為3×3、步長為2的卷積處理,之后再與輸入特征相加,由此組成殘差單元。主干網(wǎng)絡(luò)Darknet-53通過殘差單元堆疊、卷積和下采樣處理得到不同尺度的特征圖,并通過上采樣和卷積處理結(jié)合不同尺度的特征圖,形成特征金字塔結(jié)構(gòu),從而實(shí)現(xiàn)不同尺度目標(biāo)的檢測,有效避免由于網(wǎng)絡(luò)深度過高而造成的梯度消失問題。
圖1 Darknet-53結(jié)構(gòu)
基于YOLOv3目標(biāo)檢測框架和最新的目標(biāo)檢測算法思想,該文以主干網(wǎng)絡(luò)DarkNet-53[2]為基礎(chǔ)對網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行修改,重新優(yōu)化其中的殘差單元并引入組卷積和通道洗牌技術(shù)。組卷積技術(shù)是由Cohen T等學(xué)者[13]提出,主要是對輸入的特征圖進(jìn)行通道分組,然后對每組特征圖分別進(jìn)行卷積操作,如圖2左為傳統(tǒng)卷積技術(shù),右為分組卷積技術(shù)。在分組卷積中,若輸入特征圖的大小為C×H×W,輸出的特征圖數(shù)量為N,如果要分為G個(gè)分組,則每組輸入特征圖輸入通道為C/G,每組輸出特征圖的數(shù)量為N/G,每個(gè)卷積核尺寸為C/G×K×K。假設(shè)卷積核的總數(shù)仍為N,每組卷積核為N/G,由于卷積核只與同組的輸入特征圖進(jìn)行卷積操作,每個(gè)卷積組的總參數(shù)量為C/G×N×K×K,所以由計(jì)算對比可知,分組卷積比傳統(tǒng)卷積在參數(shù)量上減少為原來的1/G,其組操作如圖2右圖所示。分組1的輸出特征圖數(shù)量為2,使用2個(gè)卷積核,每個(gè)卷積核的輸入通道數(shù)為4,分組中每個(gè)卷積核計(jì)算所用通道數(shù)與輸入特征圖通道數(shù)相同,卷積核只和同組的輸入特征圖做卷積操作,而不與其他組的輸入特征圖做卷積操作。
圖2 普通卷積與分組卷積示意圖
YOLOv3網(wǎng)絡(luò)模型采用傳統(tǒng)卷積和深度可分離卷積(depth separable convolution,DSC)進(jìn)行特征提取和特征篩選,其中可分離卷積對網(wǎng)絡(luò)結(jié)構(gòu)存在性能瓶頸[14],如果直接在通道組內(nèi)進(jìn)行逐點(diǎn)卷積(point wise convolution,PWC),會導(dǎo)致各個(gè)通道內(nèi)的信息不能進(jìn)行相互流通交流。為了解決瓶頸問題,文中對主干網(wǎng)絡(luò)結(jié)構(gòu)引入通道洗牌技術(shù)(channel shuffle,CS)[15]。通道洗牌技術(shù)[16]是一種組內(nèi)卷積和整組卷積的折中解決方案,通過組合3×3和1×1卷積的方式進(jìn)行深度可分離卷積。假設(shè)輸入的特征圖大小為h×w×c1,輸出的特征圖為h×w×c2,此處進(jìn)行1×1逐點(diǎn)卷積的浮點(diǎn)運(yùn)算量為:
F=h·w·c1+h·w·c2
(1)
由公式(1)知:當(dāng)c1×c2遠(yuǎn)大于9時(shí),可以發(fā)現(xiàn)其可分離卷積的計(jì)算量增長主要在1×1逐點(diǎn)卷積上,引入分組卷積后,在組內(nèi)進(jìn)行1×1逐點(diǎn)卷積,對于分成g組的分組卷積的計(jì)算量為(FLOPs):
(2)
對比公式(1)和公式(2)可以發(fā)現(xiàn),通道內(nèi)分組后再進(jìn)行卷積可以有效降低逐點(diǎn)卷積的計(jì)算量,同時(shí)為了解決深度可分離卷積的各特征圖通道之間信息溝通不暢的問題,檢測模型引進(jìn)了通道洗牌技術(shù)。如果分組的特征圖尺寸為w×h×c1,其中c1=g×n,g表示分組卷積過程中的分組數(shù),進(jìn)行通道洗牌的操作如下:(1)將特征圖展開成g×n×w×h的四維矩陣,此處將w×h用s表示;(2)將g×h×s的矩陣分別對g軸和n軸進(jìn)行轉(zhuǎn)置操作后,把得到的轉(zhuǎn)置結(jié)果矩陣進(jìn)行平鋪,最后使用卷積核為1×1的組卷積操作,如圖3所示,先將得到的特征圖通道數(shù)目分為9個(gè)相同的通道數(shù),并將得到的9個(gè)通道集合順序打散,將其與對應(yīng)卷積核進(jìn)行卷積操作后,將得到的特征圖恢復(fù)到開始之前的張量結(jié)構(gòu)。
圖3 分組卷積和通道洗牌
深度卷積神經(jīng)網(wǎng)絡(luò)如ResNet[14]和DenseNet[15]等類型的復(fù)雜網(wǎng)絡(luò)模型推理速度較慢,不能滿足實(shí)時(shí)檢測需求,為了更好地在移動設(shè)備上運(yùn)行,模型設(shè)計(jì)需要考慮模型的參數(shù)規(guī)模和移動設(shè)備的內(nèi)存大小。Ma N等學(xué)者結(jié)合Shufflenet和Mobilenet設(shè)計(jì)思路,提出了關(guān)于輕量級網(wǎng)絡(luò)的設(shè)計(jì)觀點(diǎn)[16],其中輕量級的神經(jīng)網(wǎng)絡(luò)應(yīng)當(dāng)符合如下設(shè)計(jì)準(zhǔn)則:(1)使用輕量級網(wǎng)絡(luò)模型中的深度可分割卷積(depthwise separable convolutions,DSV),在輸入通道和輸出通道采用相同通道大小的情況下可以最小化內(nèi)存訪問量;(2)過量使用組卷積會增加模型的內(nèi)存訪問量;(3)對于Inception類網(wǎng)絡(luò)的“多路”結(jié)構(gòu),會導(dǎo)致網(wǎng)絡(luò)結(jié)構(gòu)的碎片化并降低網(wǎng)絡(luò)模型并行度;(4)網(wǎng)絡(luò)模型中的元素級操作雖然有較大的時(shí)間開銷,但具有很大的作用,能提升特征的可代表性。根據(jù)這四條輕量級網(wǎng)絡(luò)設(shè)計(jì)原則,文中對主干網(wǎng)絡(luò)DarkNet-53中的殘差單元進(jìn)行修改,具體改進(jìn)結(jié)構(gòu)如圖4所示。
(a)ResNet殘差單元 (b)改進(jìn)的殘差單元結(jié)構(gòu) (c)改進(jìn)的下采樣方式
圖4 改進(jìn)結(jié)構(gòu)
原YOLOv3模型中所采用的主干網(wǎng)絡(luò)DarkNet-53的殘差單元如圖4(a)所示,在該結(jié)構(gòu)單元采用逐元素操作相加方式(Add)對兩分支信息進(jìn)行整合,這樣的元素級操作會增加主干網(wǎng)絡(luò)模型計(jì)算量[16]。如圖4(b)所示,改進(jìn)后的殘差結(jié)構(gòu)將其更改為通道連接操作(Concat),同時(shí)為增加各通道的信息交流,在結(jié)構(gòu)中加入通道洗牌操作,先將輸入的網(wǎng)絡(luò)特征圖分為c′和c-c′,為了符合Ma N提出的網(wǎng)絡(luò)設(shè)計(jì)規(guī)則[16],一般c′=c/2。其中圖4(c)左網(wǎng)絡(luò)分支作為輸入特征圖的同等映射,對輸出特征圖進(jìn)行復(fù)制,右分支對輸入特征圖連續(xù)進(jìn)行3次卷積操作,令其輸入輸出通道數(shù)相等,對左右兩分支進(jìn)行通道連接操作(Concat),并進(jìn)行通道洗牌以保證殘差結(jié)構(gòu)和特征圖內(nèi)各通道的信息交流,舍去原網(wǎng)絡(luò)模型中使用步長為2的卷積下采樣方式,改為圖4(c)所示的下采樣方式,以此避免原特征圖中的信息丟失,并對其進(jìn)行特征篩選和深加工。
為了充分利用高層特征的語義信息和底層特征的細(xì)粒度特征,文中結(jié)合基于特征金字塔(feature pyramid networks for object detection,F(xiàn)PN)思想改進(jìn)而來的自適應(yīng)空間特征融合金字塔(adaptive spatial feature fusion pyramid,ASFF)[17]。ASFF是一種特征混合的方法,可以在空間上學(xué)習(xí)其他尺寸特征圖的特征信息,并保留有用的特征信息。對于待融合的特征圖后的特征圖信息,網(wǎng)絡(luò)使用卷積操作將其他尺度大小的特征圖進(jìn)行融合,此時(shí)通過使用上采樣和1×1卷積進(jìn)行通道變換,將尺寸需要調(diào)到相同的大小,然后進(jìn)行加權(quán),通過訓(xùn)練學(xué)習(xí)找到最好的參數(shù)組合。在每一個(gè)特征空間位置上,不同的特征會被自適應(yīng)融合,如果有矛盾信息,通過訓(xùn)練可通過小權(quán)重參數(shù)將其過濾掉。ASFF具備很多的優(yōu)點(diǎn),如實(shí)現(xiàn)成本低,幾乎不增加模型推理時(shí)間,對一般的主干網(wǎng)絡(luò)模型也具備一定的泛化能力,適用于類似YOLOv3等一系列具有特征金字塔結(jié)構(gòu)的One-Stage目標(biāo)檢測器。針對YOLOv3中提取的3個(gè)不同尺寸的特征圖,文中通過將三個(gè)不同尺度和權(quán)重的特征圖進(jìn)行結(jié)合,將特征金字塔結(jié)構(gòu)進(jìn)行修改,有效提升了對不同尺寸目標(biāo)的檢測精度,在一定程度上解決了模型的漏檢問題。
圖5 混合特征金字塔模型
針對來自不同層的特征進(jìn)行融合,每一層有它對應(yīng)的權(quán)重系數(shù)。為了確保在融合時(shí)不同層輸出的特征和通道數(shù)是相同的,當(dāng)特征圖尺寸不相同的時(shí)候可以通過上采樣或者下采樣來進(jìn)行調(diào)整,其中權(quán)重系數(shù)是由預(yù)定義尺寸的特征圖經(jīng)過1×1卷積得到的,其各權(quán)重矩陣中權(quán)重因子的累加和為1,權(quán)重系數(shù)在[0,1]之間,特征融合的公式如(3)所示:
(3)
基于YOLOv3進(jìn)行改進(jìn),文中在主干網(wǎng)絡(luò)基礎(chǔ)上對網(wǎng)絡(luò)殘差單元和下采樣方式進(jìn)行優(yōu)化,并將提取到的特征圖結(jié)合ASFF模型進(jìn)行混合特征提取,殘差單元改進(jìn)與組卷積、通道洗牌相結(jié)合是針對主干網(wǎng)絡(luò)的改進(jìn),ASFF是針對特征檢測層的特征提取優(yōu)化,整體目標(biāo)檢測框架是基于YOLOv3進(jìn)行優(yōu)化而來,如圖6所示。其中Stage2模塊由圖4(b)所示的改進(jìn)殘差單元組成,且下采樣方法如圖4(c)模塊所示,Stage2部分是由改進(jìn)的殘差單元重復(fù)4次得到的,Stage3由改進(jìn)殘差單元重復(fù)8次得到,同理Stage4也是由改進(jìn)后的殘差單元重復(fù)8次組合得到。由此,改進(jìn)后的主干網(wǎng)絡(luò)(restruct network,RN)結(jié)構(gòu)如圖6所示。
圖6 改進(jìn)后的主干網(wǎng)絡(luò)模型
設(shè)置目標(biāo)檢測的損失函數(shù)是為了讓候選框坐標(biāo)、置信度、分類損失三者之間達(dá)到平衡,如果簡單地將各個(gè)損失相加,會存在以下問題:(1)不同維度的分類損失同等重要,簡單將其相加會將二者視為同等重要,這種做法不夠合理;(2)大目標(biāo)物體的定位損失偏大,小目標(biāo)物體的定位損失偏小,直接進(jìn)行損失相加,會導(dǎo)致網(wǎng)絡(luò)發(fā)散無法收斂。為緩解這些問題,將各類損失進(jìn)行加系數(shù)和變形的方式進(jìn)行改寫,損失函數(shù)如公式(4)所示:
(4)
在訓(xùn)練開始階段,實(shí)驗(yàn)對模型進(jìn)行如下設(shè)計(jì):(1)對沒有目標(biāo)的候選窗口的置信度損失賦予更小的損失權(quán)重,并記為λnoobj,在數(shù)據(jù)集PASCAL VOC中取0.5;(2)為了使模型更加重視有目標(biāo)的單元格,并記為λcoord將這些損失錢賦予更大的權(quán)重,在PASCALVOC2007和2012數(shù)據(jù)集上訓(xùn)練時(shí)設(shè)置為5;(3)侯選窗的置信度和類別損失初始設(shè)置為1,對不同大小侯選框進(jìn)行預(yù)測,較大的侯選窗置信度預(yù)測存在偏大問題,為避免小候選窗預(yù)測值偏低的情形,將候選窗高寬取平方根代替原本的寬高值。
主干網(wǎng)絡(luò)是以DarketNet-53為基礎(chǔ)進(jìn)行改進(jìn)得到,整個(gè)檢測模型的優(yōu)化效果是通過VOC2007和VOC2012數(shù)據(jù)集進(jìn)行驗(yàn)證和比較。在實(shí)驗(yàn)部分,通過設(shè)置相同的初始化變量和超參,使用不同的方法對整個(gè)模型結(jié)構(gòu)進(jìn)行測試,通過不同的實(shí)驗(yàn)結(jié)果對模型優(yōu)化程度進(jìn)行說明,并將改進(jìn)后的目標(biāo)檢測架構(gòu)運(yùn)用于車輛和行人的檢測過程,進(jìn)行密集目標(biāo)檢測測試。實(shí)驗(yàn)環(huán)境:在Windows10系統(tǒng)環(huán)境下,使用16 GB RTX2080ti顯卡進(jìn)行測試,深度學(xué)習(xí)框架采用Tensorflow-GPU1.4、CUDA10.2。
此次實(shí)驗(yàn)使用的數(shù)據(jù)集是作為基準(zhǔn)數(shù)據(jù)集之一的Pascal VOC2012和Pascal VOC2007,該數(shù)據(jù)集在目標(biāo)檢測、圖像分割網(wǎng)絡(luò)對比實(shí)驗(yàn)與模型效果評估中得到廣泛應(yīng)用。Pascal VOC數(shù)據(jù)集主要是針對視覺任務(wù)中監(jiān)督學(xué)習(xí)提供標(biāo)簽數(shù)據(jù),共有二十個(gè)類別數(shù)據(jù),主要分為四個(gè)大類別,如人、常見動物、交通車輛、室內(nèi)家具用品等。VOC數(shù)據(jù)集主要由Annotation、ImageSets、JPEGImages、SegmentationClass文件夾組成。Annotation文件夾是XML文件,是對JPEGImages文件中每個(gè)圖片的標(biāo)注信息,一張圖片對應(yīng)一個(gè)XML文件;ImageSets文件存放的是txt文件,這些文件將圖片切分為各種集合;JPEGImages文件夾存放該數(shù)據(jù)集所有的圖片;SegmentationClass文件夾適用于語義分割任務(wù)。文中主要使用VOC數(shù)據(jù)集進(jìn)行目標(biāo)檢測,通過將改進(jìn)后的網(wǎng)絡(luò)模型與原模型效果進(jìn)行對比,同時(shí)為了加大數(shù)據(jù)集容量,將VOC2007和VOC2012的數(shù)據(jù)集結(jié)合進(jìn)行綜合訓(xùn)練,并對訓(xùn)練后的網(wǎng)絡(luò)模型進(jìn)行評估。
文中分別對修改后的主干網(wǎng)絡(luò)(RestructNet)和混合特征金字塔模型(ASFF)進(jìn)行測試,通過與YOLOv3的實(shí)驗(yàn)結(jié)果進(jìn)行對比,分別在平均精度(MAP)、總體損失(Total Loss)和每秒傳輸幀數(shù)(FPS)指標(biāo)上驗(yàn)證不同優(yōu)化方法的檢測效果和處理速度。實(shí)驗(yàn)結(jié)果如表1所示,修改后的主干網(wǎng)絡(luò)和自適應(yīng)特征混合模型組合的方法對于模型檢測精度有明顯優(yōu)化效果。由實(shí)驗(yàn)結(jié)果可知,對原殘差單元的修改和主干網(wǎng)絡(luò)的重構(gòu)對檢測精度有明顯的提升效果,在精度方面提升4.36%,其中混合空間特征金字塔模型的使用在精度方面提升3.0%,綜合精度提升8.31%,在不影響檢測速度的情況下,實(shí)現(xiàn)檢測模型精度方面的優(yōu)化。
表1 實(shí)驗(yàn)結(jié)果對比
為了與主流One-Stage目標(biāo)檢測模型進(jìn)行對比,文中在相同實(shí)驗(yàn)環(huán)境和訓(xùn)練參數(shù)下,與最新YOLOv4和其他YOLO系列目標(biāo)檢測算法進(jìn)行對比,分別比較推理速度(FPS)、在VOC2007+2012數(shù)據(jù)集上的測試精度(MAP)、網(wǎng)絡(luò)參數(shù)數(shù)量(Parameter)等指標(biāo),進(jìn)一步說明該網(wǎng)絡(luò)模型的優(yōu)化效果。通過實(shí)驗(yàn)可知,結(jié)合殘差網(wǎng)絡(luò)的更改和混合特征融合金字塔優(yōu)化后的網(wǎng)絡(luò)結(jié)構(gòu),大體可以達(dá)到和YOLOv4的精度,且模型推理速度及網(wǎng)絡(luò)參數(shù)數(shù)量較YOLOv4減少1.21 MB,整體精度較YOLOv3提高8.17%。
表2 與目前流行的One-Stage算法對比
在YOLOv3模型中,將特征圖直接輸入主干網(wǎng)絡(luò)結(jié)構(gòu)的殘差單元,用分支結(jié)構(gòu)將卷積處理的特征圖與原特征圖進(jìn)行相加,這樣雖避免梯度爆炸和梯度消失問題,但新生成的特征圖包含了許多不必要的背景信息。通過使用圖4(b)所示的殘差單元進(jìn)行改進(jìn),同時(shí)對兩個(gè)網(wǎng)絡(luò)分支進(jìn)行信息處理,由實(shí)驗(yàn)結(jié)果可知,檢測模型精度提升了8.07%。
由Hurtik P提出[18],原YOLOv3網(wǎng)絡(luò)模型對于密集目標(biāo)存在漏選和標(biāo)簽重寫問題[1],為了解決該問題,實(shí)驗(yàn)基于數(shù)據(jù)驅(qū)動的金字塔特征融合方式,該方法通過學(xué)習(xí)在空間上過濾沖突信息以抑制梯度反傳時(shí)的不一致性,以此增加待檢目標(biāo)尺度的容納性,同時(shí)降低推理開銷。通過使用統(tǒng)計(jì)的日志文件繪制訓(xùn)練損失圖,如表2所示,使用ASFF的模型在測試集上的驗(yàn)證損失明顯低于原YOLOv3模型的訓(xùn)練損失,且比原模型具有更快的收斂速度,借助ASFF和組卷積優(yōu)化殘差單元組合的方式,在VOC數(shù)據(jù)集上實(shí)現(xiàn)了60.28%的平均精度以及43 FPS的運(yùn)算速度。為了更好地進(jìn)行對比,訓(xùn)練均未采用預(yù)訓(xùn)練的主干網(wǎng)絡(luò)權(quán)重,因?yàn)楦倪M(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)沒有預(yù)訓(xùn)練權(quán)重可供參考。
圖7 模型訓(xùn)練收斂及精度提升變化
通過對殘差單元、下采樣方式進(jìn)行修改,然后和ASFF進(jìn)行組合得到新的檢測模型,通過實(shí)驗(yàn)進(jìn)行綜合測試,新的檢測模型可以在VOC2007和VOC2012得到60.28%的檢測精度。由圖7對比所示,為了發(fā)揮One-Satge目標(biāo)檢測模型實(shí)時(shí)檢測的優(yōu)勢,在不影響改進(jìn)模型精度的條件下,主干網(wǎng)絡(luò)(beckbone network,BN)和檢測網(wǎng)絡(luò)(neck network,NN)對不必要的卷積層進(jìn)行刪除,可明顯看出新模型較原YOLOv3模型,關(guān)于平均精度的提升和訓(xùn)練的快速收斂情況,在每張圖(416×416)的檢測時(shí)間仍然可達(dá)43 ms幀率,與原YOLOv3模型相比,仍然可以達(dá)到實(shí)時(shí)性的檢測效果。
由實(shí)驗(yàn)證明,通過引入組卷積和通道洗牌技術(shù)對殘差單元進(jìn)行修改,和自適應(yīng)空間特征混合(ASFF)組合的方法,可以取得明顯的優(yōu)化效果。為了驗(yàn)證在實(shí)際環(huán)境中改進(jìn)后的目標(biāo)檢測模型的檢測效果,文中將數(shù)據(jù)集COCO2017內(nèi)的關(guān)于無人駕駛相關(guān)的檢測類別進(jìn)行分離,對分離的數(shù)據(jù)集使用K-means方法產(chǎn)生錨框并進(jìn)行矛框大小設(shè)置。實(shí)驗(yàn)對分離后的數(shù)據(jù)集使用K-means方法進(jìn)行錨框大小選取,通過聚類分出各個(gè)錨框的類別,然后分別對各個(gè)類別的錨框?qū)捀呷【?,得到目?biāo)的候選錨框大小分別為(10,13),(16,30),(33,23),(30,61),(62,45),(59,119),(116,90),(156,198),(373,326)。改進(jìn)后的模型在分離的數(shù)據(jù)集上進(jìn)行訓(xùn)練得到的檢測效果如圖8、圖9所示,訓(xùn)練后的模型在密集車流下進(jìn)行測試,改進(jìn)后的目標(biāo)檢測模型可以取得理想的檢測效果且能夠達(dá)到實(shí)時(shí)的檢測速度,原YOLOv3模型存在的密集目標(biāo)漏選和標(biāo)簽重寫現(xiàn)象[18]也得到改善。
圖8 YOLOv3測試效果
圖9 改進(jìn)模型的測試效果
文中以YOLOv3為基礎(chǔ)進(jìn)行改進(jìn),得到一種單階段實(shí)時(shí)目標(biāo)檢測模型,旨在針對無人駕駛、安全監(jiān)控等領(lǐng)域進(jìn)行目標(biāo)檢測和識別。首先,引入組卷積和通道洗牌技術(shù),并對原Darknet-53網(wǎng)絡(luò)的殘差結(jié)構(gòu)進(jìn)行優(yōu)化改寫,為了更多地保留特征圖的有效信息,使用了全新的下采樣方式對特征圖進(jìn)行尺寸縮減;其次,為了克服原YOLOv3檢測模型對密集目標(biāo)存在的漏選和標(biāo)簽重寫問題,使用自適應(yīng)特征混合金字塔對輸出的特征圖進(jìn)行空間特征混合處理,加強(qiáng)不同尺寸的檢測特征圖之間的信息交流,以此加強(qiáng)對密集目標(biāo)的檢測能力;最后,使用PASCAL VOC2007和VOC2012進(jìn)行測試,改進(jìn)后的目標(biāo)檢測模型相較于YOLOv3提升了8.17%,取得了和YOLOv4大體相同的精度,并且可以達(dá)到實(shí)時(shí)的檢測速度。通過實(shí)驗(yàn)進(jìn)行測試,該模型可以有效地運(yùn)用于交通監(jiān)測和交通目標(biāo)識別應(yīng)用中,具有很強(qiáng)的應(yīng)用性。