徐芳芯,樊嶸,馬小陸
(1.京都情報(bào)大學(xué)院大學(xué)應(yīng)用信息技術(shù)研究科,日本 京都 606-8225;2.安徽工業(yè)大學(xué)電氣與信息工程學(xué)院,安徽 馬鞍山 243002)
行人檢測(cè)是目標(biāo)檢測(cè)領(lǐng)域的重要分支任務(wù),也是行人重識(shí)別、行人追蹤等任務(wù)的基礎(chǔ)。隨著卷積神經(jīng)網(wǎng)絡(luò)研究的日益進(jìn)步,在稀疏場(chǎng)景下的行人檢測(cè)已經(jīng)取得了較好的效果,但在含有較多行人的擁擠場(chǎng)景中行人檢測(cè)仍然面臨一些挑戰(zhàn)。
在擁擠行人場(chǎng)景中存在大量的目標(biāo)間相互遮擋以及非目標(biāo)物體遮擋,不但造成待測(cè)目標(biāo)缺失了部分特征,還會(huì)引入噪聲干擾,容易使模型產(chǎn)生誤檢。針對(duì)該問(wèn)題,學(xué)者們進(jìn)行了大量研究。XU等[1]通過(guò)對(duì)人體關(guān)鍵點(diǎn)及部位進(jìn)行檢測(cè)間接實(shí)現(xiàn)對(duì)行人目標(biāo)的檢測(cè),具有較高的遮擋行人檢測(cè)精度。HOU等[2]采用復(fù)數(shù)視角進(jìn)行檢測(cè),有效緩解了遮擋情況對(duì)行人檢測(cè)的影響。李頎等[3]提出一種基于遮擋感知的行人檢測(cè)與跟蹤算法,利用遮擋感知算法提高遮擋情況下的行人檢測(cè)精度。ZHANG等[4]提出遮擋下的行人檢測(cè)算法(OR-CNN),通過(guò)對(duì)損失函數(shù)進(jìn)行改進(jìn)并在檢測(cè)中對(duì)候選框進(jìn)行再分類,有效提升了遮擋行人檢測(cè)精度。劉毅等[5]通過(guò)在改進(jìn)的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Faster R-CNN)的基礎(chǔ)上融入Swin-Transformer 骨干網(wǎng)絡(luò)并加入層級(jí)重用模塊有效增加了模型的遮擋行人檢測(cè)精度。以上方法雖然緩解了遮擋對(duì)模型檢測(cè)精度的影響,但在含有大量遮擋目標(biāo)行人的擁擠行人檢測(cè)場(chǎng)景下模型性能仍需進(jìn)一步提升。
在擁擠行人檢測(cè)場(chǎng)景中,行人目標(biāo)較多,單個(gè)目標(biāo)尺寸較小,分辨率較低,容易使模型產(chǎn)生漏檢。針對(duì)該問(wèn)題,學(xué)者們也進(jìn)行了大量研究。XU等[6]提出基于高斯感受野的標(biāo)簽分配策略,有效增加了模型對(duì)小目標(biāo)待測(cè)物體的檢測(cè)精度。ZHAO等[7]通過(guò)將不同尺度的特征進(jìn)行融合,有效緩解了小目標(biāo)特征信息不足的問(wèn)題。黃鳳琪等[8]使用k-means++算法重構(gòu)目標(biāo)錨框并構(gòu)建殘差可變形模塊,有效提高了模型對(duì)小目標(biāo)行人的檢測(cè)精度。樊嶸等[9]以注意力模型(DETR)作為基準(zhǔn)模型,引入更高效的骨干網(wǎng)絡(luò)以及可變形注意力編碼器有效提高了小目標(biāo)行人檢測(cè)精度。以上方法雖然有效提升了小目標(biāo)物體檢測(cè)精度,但在含有大量被遮擋小目標(biāo)的擁擠場(chǎng)景下仍需進(jìn)一步提升性能。
為了有效解決擁擠行人檢測(cè)任務(wù)中出現(xiàn)的遮擋目標(biāo)誤檢以及小目標(biāo)漏檢問(wèn)題,本文以YOLOv7[10]作為基礎(chǔ)模型進(jìn)行以下改進(jìn):
1)在骨干網(wǎng)絡(luò)中融入BiFormer[11]視覺(jué)變換器模塊使模型在進(jìn)行特征提取時(shí)更多地聚焦于重要行人特征,緩解遮擋對(duì)檢測(cè)的影響。同時(shí),采用改進(jìn)的高效層聚合網(wǎng)絡(luò)(RC-ELAN)模塊替換原有的ELAN模塊,提升模型對(duì)重要特征的表征能力,有效提升模型整體檢測(cè)精度。
2)采用融入雙向特征金字塔網(wǎng)絡(luò)(BiFPN)[12]思想的頸部網(wǎng)絡(luò)進(jìn)行特征融合,高效利用含有較多小目標(biāo)特征信息的中低維特征圖,提升模型對(duì)小目標(biāo)行人的檢測(cè)精度。同時(shí),在頸部網(wǎng)絡(luò)中融入通道空間注意力模塊(CSAM)[13]、轉(zhuǎn)置卷積模塊以及改進(jìn)的Rep-ELAN-W 模塊,提升模型復(fù)雜度以及重要特征表征能力,進(jìn)而提升模型整體檢測(cè)精度。
3)訓(xùn)練時(shí)采用高效的完全交并比(E-CIoU)[14]作為損失函數(shù),緩解原有損失函數(shù)訓(xùn)練效率較低的問(wèn)題,通過(guò)提升訓(xùn)練效率使模型可以進(jìn)一步收斂至更高的精度。
4)在當(dāng)前含有大量小目標(biāo)行人與遮擋目標(biāo)行人的WiderPerson[15]擁擠行人數(shù)據(jù)集上與部分常用行人檢測(cè)算法進(jìn)行對(duì)比實(shí)驗(yàn)以驗(yàn)證改進(jìn)的YOLOv7 算法的擁擠行人檢測(cè)能力。
YOLOv7 是目前性能最優(yōu)的YOLO 系列算法。YOLOv7 在設(shè)計(jì)上與YOLOv4[16]類似,在進(jìn)行檢測(cè)任務(wù)時(shí),輸入圖像被送入骨干網(wǎng)絡(luò)進(jìn)行特征提取,隨后由頸部網(wǎng)絡(luò)對(duì)提取的特征進(jìn)行特征融合并得到大、中、小3 種尺寸的特征,最終由檢測(cè)頭分別輸出3 個(gè)不同尺寸的預(yù)測(cè)結(jié)果用于大、中、小目標(biāo)物體檢測(cè)[17]。
在進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)時(shí),YOLOv7 使用高效層聚合網(wǎng)絡(luò)(ELAN)模塊作為核心學(xué)習(xí)模塊。該模塊通過(guò)優(yōu)化梯度的傳播路徑與傳播效率獲得了較高的非線性學(xué)習(xí)能力,使用該模塊還能有效緩解模型縮放時(shí)產(chǎn)生的收斂性惡化現(xiàn)象。盡管ELAN 模塊擁有優(yōu)秀的性能但自身難以區(qū)分特征的重要程度,因此在模型訓(xùn)練前期,相比于重要特征,會(huì)對(duì)部分非重要特征有更強(qiáng)的表征能力,影響了模型整體的訓(xùn)練效率。另外,YOLOv7 在設(shè)計(jì)頸部網(wǎng)絡(luò)時(shí)沿用了YOLOv5[18]的雙向路徑聚合網(wǎng)絡(luò)(PANet)[19]并加入了較多的ELAN 模塊進(jìn)行下采樣學(xué)習(xí),使得模型在進(jìn)行特征融合時(shí)更多關(guān)注含有較多語(yǔ)義信息的高維度特征,即使完成融合,包含較多小目標(biāo)信息的中低維特征仍會(huì)受到不可逆的損耗,影響網(wǎng)絡(luò)對(duì)小目標(biāo)行人的檢測(cè)性能。
因此,從特征提取與特征融合兩個(gè)角度出發(fā)對(duì)模型進(jìn)行模塊與結(jié)構(gòu)改進(jìn),分別提升骨干網(wǎng)絡(luò)的重要特征提取能力以及頸部網(wǎng)絡(luò)的特征提純能力,進(jìn)而提升模型在擁擠行人場(chǎng)景中的檢測(cè)能力。YOLOv7 網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。
視覺(jué)變換模型[20]取得良好性能的關(guān)鍵組件是自注意力機(jī)制,可以通過(guò)捕捉長(zhǎng)程依賴關(guān)系實(shí)現(xiàn)自適應(yīng)特征提取,但由于需要計(jì)算所有像素點(diǎn)之間的注意力關(guān)系,傳統(tǒng)的視覺(jué)變換器計(jì)算開(kāi)銷較大。BiFormer 視覺(jué)變換器通過(guò)將視覺(jué)變換計(jì)算分為2個(gè)階段進(jìn)行以減少計(jì)算開(kāi)銷:第1 個(gè)階段在控制稀疏性的前提下進(jìn)行稀疏注意力計(jì)算,完成計(jì)算后的特征圖被劃分為需要計(jì)算注意力的圖像區(qū)域以及非必要的圖像區(qū)域;第2 個(gè)階段在第1 個(gè)階段得出的需要計(jì)算區(qū)域中進(jìn)行細(xì)粒度自注意力計(jì)算。BiFormer模塊結(jié)構(gòu)如圖2所示。
圖2 BiFormer 模塊結(jié)構(gòu)Fig.2 BiFormer module structure
當(dāng)進(jìn)行注意力計(jì)算時(shí),先將特征圖劃分為S×S個(gè)互不重疊的圖像區(qū)域,再將每個(gè)區(qū)域通過(guò)線性映射分別獲取該區(qū)域?qū)?yīng)的Key、Value、Query 向量。在第1 個(gè)階段,利用Key 與Query 向量通過(guò)稀疏矩陣注意力計(jì)算篩選出關(guān)聯(lián)性較強(qiáng)的圖像區(qū)域。在第2 個(gè)階段,利用Value 向量通過(guò)矩陣計(jì)算對(duì)篩選出的重要圖像區(qū)域進(jìn)行細(xì)粒度自注意力計(jì)算,進(jìn)而完成視覺(jué)變換注意力計(jì)算。
通道空間注意力模塊是一種即插即用的輕量化高效注意力模塊,會(huì)同時(shí)從通道維度以及空間維度出發(fā)計(jì)算特征圖的注意力權(quán)重,并對(duì)特征圖進(jìn)行注意力權(quán)重優(yōu)化,其中,通道注意力會(huì)協(xié)助網(wǎng)絡(luò)區(qū)分哪些特征較重要并進(jìn)行重點(diǎn)提取,空間注意力更多感知這些重要特征在特征圖中所處的位置,兩個(gè)機(jī)制相配合,幫助骨干網(wǎng)絡(luò)對(duì)重要的特征進(jìn)行更好的特征提取。通道空間注意力模塊結(jié)構(gòu)如圖3 所示。
圖3 通道空間注意力模塊結(jié)構(gòu)Fig.3 Channel space attention module structure
針對(duì)ELAN 模塊在訓(xùn)練前期難以區(qū)分特征重要性的問(wèn)題,采用通道空間注意力模塊以及多分支卷積模塊[21]對(duì)其進(jìn)行改進(jìn)。將ELAN 模塊中的4 個(gè)3×3 卷積替換為多分支卷積,在不影響模型前向傳播效率的前提下有效提升模型在訓(xùn)練階段的非線性表征能力。在ELAN 模塊的首層增設(shè)一個(gè)通道空間注意力模塊,使ELAN 模塊在進(jìn)行特征擬合時(shí)可以自適應(yīng)聚焦于重要特征。此外,設(shè)計(jì)用于骨干網(wǎng)絡(luò)的融合多分支卷積模塊與通道空間注意力模塊的RC-ELAN 模塊以及用于頸部網(wǎng)絡(luò)的僅融入多分支卷積模塊的Rep-ELAN-W 模塊。RCELAN 模塊以及Rep-ELAN-W 模塊結(jié)構(gòu)如圖4 和圖5 所示。
圖4 RC-ELAN 模塊結(jié)構(gòu)Fig.4 RC-ELAN module structure
圖5 Rep-ELAN-W 模塊結(jié)構(gòu)Fig.5 Rep-ELAN-W module structure
為了更好地對(duì)重要行人特征進(jìn)行有效提取,將骨干網(wǎng)絡(luò)初期的第1、2 以及4 個(gè)卷積模塊替換為多分支卷積模塊,第3 個(gè)卷積模塊替換為BiFormer 視覺(jué)變換器模塊,使模型可以在初期特征提取時(shí)進(jìn)行自注意力特征計(jì)算,提升網(wǎng)絡(luò)初期重要特征提取效率。將骨干網(wǎng)絡(luò)中的ELAN 模塊全部替換為RC-ELAN 模塊,使骨干網(wǎng)絡(luò)在訓(xùn)練時(shí)可以通過(guò)注意力機(jī)制更多地聚焦于重要行人特征,進(jìn)而為頸部網(wǎng)絡(luò)提供高效的多尺度特征圖。改進(jìn)的骨干網(wǎng)絡(luò)結(jié)構(gòu)如圖6 所示。
圖6 改進(jìn)的骨干網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Improved backbone network structure
BiFPN 是基于神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索(NAS)[22]的高效特征融合結(jié)構(gòu)。在進(jìn)行特征融合時(shí),BiFPN加入了可學(xué)習(xí)的特征圖權(quán)重因子,不同于將所有特征圖等權(quán)重接收后進(jìn)行下一步操作的拼接(Concat)模塊,可學(xué)習(xí)權(quán)重因子允許網(wǎng)絡(luò)通過(guò)學(xué)習(xí)自行選擇接收哪一層更多的特征信息,使網(wǎng)絡(luò)擁有區(qū)分不同層級(jí)特征重要性的能力,可以更好地對(duì)重要的小目標(biāo)特征進(jìn)行保留。BiFPN 結(jié)構(gòu)如圖7 所示。
圖7 BiFPN 結(jié)構(gòu)Fig.7 BiFPN structure
轉(zhuǎn)置卷積是一種特殊的卷積操作,在進(jìn)行轉(zhuǎn)置卷積運(yùn)算時(shí),特征圖中的一個(gè)元素分別與卷積核中的所有元素進(jìn)行乘積并按步長(zhǎng)放置于該元素對(duì)應(yīng)的位置,主要用來(lái)增大特征圖的高與寬進(jìn)而完成上采樣操作,以卷積核寬度取2、步長(zhǎng)取1 為例,轉(zhuǎn)置卷積原理如圖8 所示。
圖8 轉(zhuǎn)置卷積原理Fig.8 Transposed convolution principle
在特征融合過(guò)程中,為了使高維特征圖與低維特征圖進(jìn)行特征融合,通常需要對(duì)分辨率較低的高維特征圖進(jìn)行上采樣操作。在進(jìn)行特征融合時(shí),YOLOv7 采用最近鄰插值模塊作為上采樣模塊。雖然最近鄰插值可以有效提升圖像分辨率,但容易造成圖像灰度的不連續(xù)。為了更好地進(jìn)行上采樣,采用轉(zhuǎn)置卷積模塊進(jìn)行上采樣操作,在上采樣過(guò)程中引入更多的非線性因素以及更高的復(fù)雜度,并允許網(wǎng)絡(luò)自適應(yīng)放大更重要的特征,有效緩解了上采樣過(guò)程中產(chǎn)生的失真問(wèn)題。
為了更好地利用改進(jìn)骨干網(wǎng)絡(luò)提供的高效多尺度特征圖,借鑒BiFPN 思想重新設(shè)計(jì)了特征融合頸部網(wǎng)絡(luò)。在進(jìn)行特征融合時(shí),為了充分利用高維特征圖中的重要語(yǔ)義信息以及中低維特征圖包含的大量的遮擋目標(biāo)特征信息。當(dāng)經(jīng)過(guò)上采樣的高維特征圖與含有較多重要特征的中低維特征圖進(jìn)行融合時(shí):首先,使用通道空間注意力模塊對(duì)高維特征圖進(jìn)行特征重構(gòu),使模型可以自適應(yīng)地聚焦于更適合當(dāng)前任務(wù)要求的特征;然后,使用轉(zhuǎn)置卷積進(jìn)行上采樣操作,增強(qiáng)模型的非線性擬合能力;最后,使用加權(quán)特征融合方式進(jìn)行融合,使網(wǎng)絡(luò)在訓(xùn)練過(guò)程中自適應(yīng)學(xué)習(xí)更適合當(dāng)前任務(wù)的特征圖。由于經(jīng)過(guò)上采樣的高維特征圖與中低維特征圖進(jìn)行融合后的特征圖含有較多重要特征,采用Rep-ELAN-W 模塊進(jìn)行特征學(xué)習(xí),進(jìn)一步提升模型學(xué)習(xí)效率。當(dāng)中低維特征圖與高維特征圖進(jìn)行融合時(shí),采用拼接的方式進(jìn)行融合,最大限度保留中低維特征圖所包含的小目標(biāo)特征信息。改進(jìn)的YOLOv7 頸部網(wǎng)絡(luò)結(jié)構(gòu)如圖9所示。
圖9 改進(jìn)的頸部網(wǎng)絡(luò)結(jié)構(gòu)Fig.9 Improved neck network structure
改進(jìn)的YOLOv7 網(wǎng)絡(luò)結(jié)構(gòu)如圖10 所示。
圖10 改進(jìn)的YOLOv7 網(wǎng)絡(luò)結(jié)構(gòu)Fig.10 Improved YOLOv7 network structure
為了進(jìn)一步提升模型的訓(xùn)練效率并使模型可以收斂至更高精度,對(duì)YOLOv7 的回歸損失函數(shù)進(jìn)行改進(jìn)。
YOLOv7 采 用CIoU[23]損失函 數(shù)計(jì)算 回歸損失,CIoU 作為目前表現(xiàn)最好的邊界回歸損失函數(shù)之一,同時(shí)考慮了預(yù)測(cè)框與真實(shí)框之間的重疊區(qū)域、中心點(diǎn)距離與長(zhǎng)寬比關(guān)系,通過(guò)使用交并比(IoU)、歐氏距離以及對(duì)應(yīng)長(zhǎng)寬比來(lái)測(cè)量預(yù)測(cè)框與真實(shí)框的重疊區(qū)域。CIoU 損失函數(shù)計(jì)算過(guò)程如式(1)~式(4)所示:
其中:v表示預(yù)測(cè)框與真實(shí)框的相似性因子;α表示權(quán)重函數(shù);RCIoU表示差異懲罰項(xiàng);ρ2(b,bgt)表示預(yù)測(cè)框與真實(shí)框的歐氏距離;c表示包含預(yù)測(cè)框與真實(shí)框的最小重疊區(qū)域?qū)蔷€距離。
由于CIoU 中的v并不是真正的長(zhǎng)寬比及其對(duì)應(yīng)置信度差異,因此在進(jìn)行訓(xùn)練時(shí)一旦預(yù)測(cè)框收斂至真實(shí)框的長(zhǎng)寬比,CIoU 有可能阻止模型進(jìn)一步優(yōu)化相似度。為了解決此問(wèn)題,高效交并比(EIoU)[24]損失函數(shù)在CIoU 損失函數(shù)的基礎(chǔ)上對(duì)相似性因子v進(jìn)行了拆分并設(shè)置了新的懲罰項(xiàng),重新計(jì)算預(yù)測(cè)框與真實(shí)框的長(zhǎng)寬比,解決CIoU 有可能阻止模型進(jìn)一步優(yōu)化相似度的問(wèn)題。但當(dāng)存在某一邊長(zhǎng)度差距較大時(shí),EIoU 損失的計(jì)算會(huì)變慢,導(dǎo)致模型整體收斂速度下降。EIoU 損失函數(shù)計(jì)算公式如式(5)所示:
針對(duì)上述問(wèn)題,采用結(jié)合CIoU 與EIoU 的E-CIoU 損失函數(shù)作為回歸損失計(jì)算函數(shù)。在模型訓(xùn)練時(shí)先采用CIoU 對(duì)預(yù)測(cè)框的長(zhǎng)寬比進(jìn)行優(yōu)化,在預(yù)測(cè)框收斂到一個(gè)合適的區(qū)間后,每個(gè)邊緣再由EIoU 進(jìn)行進(jìn)一步優(yōu)化,直到收斂到一個(gè)合適的值。E-CIoU 損失函數(shù)計(jì)算公式如式(6)所示:
為了驗(yàn)證改進(jìn)的YOLOv7 算法在擁擠行人檢測(cè)場(chǎng)景中的實(shí)際性能,選擇已公開(kāi)的擁擠行人檢測(cè)數(shù)據(jù)集WiderPerson 進(jìn)行模塊消融實(shí)驗(yàn)以及橫向性能對(duì)比實(shí)驗(yàn)。WiderPerson 數(shù)據(jù)集的圖像擁有多個(gè)不同的來(lái)源,數(shù)據(jù)集本身不再局限于交通場(chǎng)景。數(shù)據(jù)集共有13 382 張圖片,合計(jì)約40 萬(wàn)個(gè)待測(cè)目標(biāo)。選取數(shù)據(jù)集中給出標(biāo)簽的9 000 張圖片并按8∶2 劃分為訓(xùn)練集與驗(yàn)證集進(jìn)行實(shí)驗(yàn)。
在運(yùn)行32 GB 內(nèi)存、Ryzen5-5600G 處理器、NVIDIA TeslaP40 顯卡的硬件平臺(tái)上進(jìn)行模型訓(xùn)練,運(yùn)行庫(kù)版本為CUDA 11.6,軟件環(huán)境為PyTorch 1.12.0 與MMDetection[25]。為了更好地與其 他檢測(cè)算法進(jìn)行性能對(duì)比,在檢測(cè)任務(wù)中僅有行人一類目標(biāo),屬于二分類問(wèn)題,直接使用平均精準(zhǔn)度(AP)來(lái)衡量模型檢測(cè)精度,其中,AP50表示IoU 閾值為0.5時(shí) 的AP 值,AP50∶95表 示IoU 閾值為0.5~0.95 時(shí) 的AP 值。
由于在骨干網(wǎng)絡(luò)部分添加的改進(jìn)模塊較多,因此用于驗(yàn)證改進(jìn)模塊有效性的消融實(shí)驗(yàn)分為兩部分進(jìn)行,分別是驗(yàn)證骨干網(wǎng)絡(luò)改進(jìn)有效性的骨干網(wǎng)絡(luò)消融實(shí)驗(yàn)以及驗(yàn)證網(wǎng)絡(luò)結(jié)構(gòu)改進(jìn)有效性的整體網(wǎng)絡(luò)消融實(shí)驗(yàn)。
4.3.1 骨干網(wǎng)絡(luò)消融實(shí)驗(yàn)
為了驗(yàn)證骨干網(wǎng)絡(luò)的改進(jìn)有效性,進(jìn)行骨干網(wǎng)絡(luò)改進(jìn)消融實(shí)驗(yàn)。為了驗(yàn)證RC-ELAN 模塊的有效性,列舉僅采用RepConv 模塊改進(jìn)的Rep-ELAN 模塊、僅采用CSAM 模塊改進(jìn)的CSAM-ELAN 模塊以及同時(shí)采用兩者進(jìn)行改進(jìn)的RC-ELAN 模塊。為了方便對(duì)比改動(dòng)模塊前后的性能變化,列出了每組實(shí)驗(yàn)變動(dòng)的模塊名稱。每組模型均使用Adam[26]優(yōu)化器在WiderPerson 擁擠行人檢測(cè)數(shù)據(jù)集上進(jìn)行200 輪訓(xùn)練。使用AP50與AP50∶95作為模型的性能衡量指標(biāo),初始學(xué)習(xí)率均為0.001。骨干網(wǎng)絡(luò)消融實(shí)驗(yàn)結(jié)果如表1 所示,其中“√”代表使用該網(wǎng)絡(luò)或模塊,下同。
表1 骨干網(wǎng)絡(luò)消融實(shí)驗(yàn)結(jié)果Table 1 Backbone network ablation experimental results %
由表1 可以看出:對(duì)比骨干網(wǎng)絡(luò)消融實(shí)驗(yàn)中的YOLOv7 實(shí)驗(yàn)與實(shí)驗(yàn)A 可知,融入BiFormer 模塊可以有效緩解遮擋對(duì)檢測(cè)的影響;對(duì)比YOLOv7 實(shí)驗(yàn)與實(shí)驗(yàn)B~D 可知,RC-ELAN 模塊的加入可以有效提升模型對(duì)重要特征的表征能力;對(duì)比YOLOv7 實(shí)驗(yàn)與實(shí)驗(yàn)C~E 可 知,BiFormer 模塊與RC-ELAN 模塊的引入有效提升了骨干網(wǎng)絡(luò)的重要特征提取能力,可以有效提升模型的最終檢測(cè)精度。
4.3.2 整體網(wǎng)絡(luò)消融實(shí)驗(yàn)
為了驗(yàn)證網(wǎng)絡(luò)結(jié)構(gòu)改進(jìn)與損失函數(shù)改進(jìn)的有效性,進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)改進(jìn)的消融實(shí)驗(yàn)。每組實(shí)驗(yàn)僅替換原模型的部分模塊,為便于對(duì)比,列出了替換結(jié)構(gòu)與原結(jié)構(gòu)名稱。每組模型均使用Adam 優(yōu)化器在WiderPerson 擁擠行人檢測(cè)數(shù)據(jù)集上進(jìn)行200 輪訓(xùn)練,使用AP50與AP50∶95作為模型的性能衡量指標(biāo),初始學(xué)習(xí)率均為0.001。整體網(wǎng)絡(luò)消融實(shí)驗(yàn)結(jié)果如表2所示。
表2 整體網(wǎng)絡(luò)消融實(shí)驗(yàn)結(jié)果Table 2 Overall network ablation experimental results %
由表2 可以看出:對(duì)比YOLOv7 實(shí)驗(yàn)與實(shí)驗(yàn)A可知,改進(jìn)的骨干網(wǎng)絡(luò)可以有效提升模型的檢測(cè)性能;對(duì)比YOLOv7 實(shí)驗(yàn)與實(shí)驗(yàn)B 可知,單獨(dú)加入改進(jìn)的頸部網(wǎng)絡(luò)可以提升模型的復(fù)雜度以及重要特征表征能力,進(jìn)而提升網(wǎng)絡(luò)的整體檢測(cè)性能;對(duì)比YOLOv7 實(shí)驗(yàn)與實(shí)驗(yàn)A~C 可知,改進(jìn)的骨干網(wǎng)絡(luò)與頸部網(wǎng)絡(luò)不會(huì)產(chǎn)生性能沖突,兩者同時(shí)使用有效提升了模型檢測(cè)精度;對(duì)比YOLOv7 實(shí)驗(yàn)與實(shí)驗(yàn)D 可知,E-CIoU 損失函數(shù)可以使模型進(jìn)一步收斂至更高精度;對(duì)比YOLOv7 實(shí)驗(yàn)與實(shí)驗(yàn)D、E 可知,E-CIoU損失函數(shù)可以進(jìn)一步使模型收斂至更高精度。
為了驗(yàn)證改進(jìn)的YOLOv7 算法能否較好地運(yùn)用于擁擠 行人檢 測(cè)場(chǎng)景,將其與YOLOv7[10]、YOLOv5[18]、單鏡頭多盒檢測(cè)(SSD)[27]、RetinaNet[28]、Faster R-CNN[29]、YOLOv3[30]、YOLOX[31]等常用 行人檢測(cè)算法進(jìn)行對(duì)比實(shí)驗(yàn)。每組實(shí)驗(yàn)在WiderPerson 擁擠行人數(shù)據(jù)集上進(jìn)行200 輪訓(xùn)練且均使用Adam 優(yōu)化器 進(jìn)行優(yōu) 化,使 用AP50、AP50∶95作為模型的性能衡量指標(biāo)。所有實(shí)驗(yàn)組均未使用預(yù)訓(xùn)練權(quán)重,初始學(xué)習(xí)率均為0.001。性能對(duì)比實(shí)驗(yàn)結(jié)果如表3 所示。
表3 性能對(duì)比實(shí)驗(yàn)結(jié)果Table 3 Performance comparison experimental results %
由表3 可以看出,在擁擠行人檢測(cè)場(chǎng)景中,所提算法的常規(guī)檢測(cè)精度與小目標(biāo)檢測(cè)精度均高于YOLO-X、YOLO-V5 等常用行人檢測(cè)算法,能夠較好地應(yīng)用于擁擠行人檢測(cè)場(chǎng)景。
為了更好地展現(xiàn)所提算法檢測(cè)效果,在圖11 中可視化了YOLOv7 原算法以及改進(jìn)算法在擁擠行人場(chǎng)景中的檢測(cè)效果,其中,左側(cè)為原算法檢測(cè)效果,右側(cè)為改進(jìn)算法檢測(cè)效果。經(jīng)過(guò)對(duì)比可知,在原算法中漏檢的部分遮擋行人目標(biāo)被改進(jìn)算法有效檢測(cè)??梢?jiàn),改進(jìn)的YOLOv7 算法可以更好地應(yīng)用于擁擠行人檢測(cè)場(chǎng)景。
圖11 檢測(cè)效果對(duì)比Fig.11 Comparison of detection effects
針對(duì)擁擠行人場(chǎng)景中的行人漏檢與誤檢問(wèn)題,本文提出改進(jìn)的YOLOv7 擁擠行人檢測(cè)算法。通過(guò)在骨干網(wǎng)絡(luò)中加入BiFormer 視覺(jué)變換器模塊以及改進(jìn)的RC-ELAN 模塊使骨干網(wǎng)絡(luò)在進(jìn)行特征提取時(shí)聚焦于被遮擋行人的重要特征,有效提升了骨干網(wǎng)絡(luò)對(duì)被遮擋行人重要特征的提取能力。在進(jìn)行特征融合時(shí),采用融入BiFPN 思想的改進(jìn)頸部網(wǎng)絡(luò),有效提升了模型對(duì)重要特征的提純能力。最終在訓(xùn)練過(guò)程中引入E-CIoU 損失函數(shù),有效提升了模型的訓(xùn)練效率,使模型可以進(jìn)一步收斂至更高精度。在WiderPerson 擁擠行人檢測(cè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,所提算法相比于YOLOv7、YOLOv5 和YOLOX算法具有更高的檢測(cè)精度。但由于所提算法在輸出檢測(cè)結(jié)果時(shí)需要采用非極大值抑制后處理[32]操作進(jìn)行檢測(cè)框抑制,導(dǎo)致模型整體檢測(cè)性能受限于后處理精度,因此如何緩解非極大值抑制后處理誤差對(duì)模型檢測(cè)精度的影響仍是目標(biāo)檢測(cè)領(lǐng)域的研究重點(diǎn)。