鄒 斌,張 聰*
(1.現(xiàn)代汽車零部件技術(shù)湖北省重點(diǎn)實(shí)驗(yàn)室(武漢理工大學(xué)),武漢 430070;2.汽車零部件技術(shù)湖北省協(xié)同創(chuàng)新中心(武漢理工大學(xué)),武漢 430070)
深度學(xué)習(xí)的迅速發(fā)展為擁擠場(chǎng)景下的目標(biāo)檢測(cè)提供了技術(shù)支持。密集場(chǎng)景下檢測(cè)算法的精確率為場(chǎng)景的安全性提供了一定保障,但是密集環(huán)境中人與人之間重疊率過高,對(duì)算法準(zhǔn)確檢測(cè)出重疊率較高的行人帶來了一定的挑戰(zhàn)。
現(xiàn)階段,大多數(shù)目標(biāo)檢測(cè)算法均基于建議框構(gòu)建,包括實(shí)現(xiàn)端到端的單階段檢測(cè)算法YOLO(You Only Look Once)[1-4],以及額外包含區(qū)域建議網(wǎng)絡(luò)(Region Proposal Network,RPN)的兩階段檢測(cè)算法Faster R-CNN(Faster Region-based Convolutional Neural Network)等[5-9]。這些算法在常規(guī)的目標(biāo)檢測(cè)應(yīng)用中均取得了較好的效果,其中,YOLO算法將目標(biāo)檢測(cè)看作回歸問題,使用單一的網(wǎng)絡(luò)完成了目標(biāo)的分類與定位,舍去候選框提取階段,實(shí)現(xiàn)高實(shí)時(shí)性檢測(cè),每秒傳輸幀數(shù)(Frame Per Second,F(xiàn)PS)可達(dá)到45;而Faster RCNN 算法為了解決二階段算法候選框提取速度的問題,首次將 Fast R-CNN(Fast Region-based Convolutional Neural Network)算法中使用的選擇性搜尋(Selective Search)替換為RPN 以實(shí)現(xiàn)端到端的訓(xùn)練,并且在PASCAL VOC 2012 數(shù)據(jù)集上測(cè)試的平均精度均值(mean Average Precision,mAP)約為73%,相較于原Fast R-CNN,檢測(cè)速度提升了約10 倍。在檢測(cè)高度重疊的物體時(shí),檢測(cè)器很難對(duì)每個(gè)建議框分別生成有區(qū)別的預(yù)測(cè),同時(shí)因?yàn)閲?yán)重的重疊難免會(huì)導(dǎo)致非極大值抑制(Non-Maximum Suppression,NMS)出現(xiàn)錯(cuò)誤的抑制。針對(duì)以上問題,有學(xué)者嘗試過使用新的損失函數(shù)(聚合損失Aggregation Loss)、復(fù)雜的非極大值抑制(Softer NMS)以及對(duì)Faster R-CNN 增 設(shè)特征金字塔(Feature Pyramid Network,F(xiàn)PN)等方法來解決多尺度檢測(cè)和提議框遠(yuǎn)離真實(shí)框(Ground Truth)、相鄰預(yù)測(cè)提議框信心值較高從而導(dǎo)致相鄰預(yù)測(cè)框中某一個(gè)框被拋棄的問題[10-12],但是使用改進(jìn)后的網(wǎng)絡(luò)進(jìn)行低重疊率案例檢測(cè)時(shí)性能會(huì)降低。
為實(shí)現(xiàn)對(duì)密集人群的檢測(cè),考慮到實(shí)際場(chǎng)景中行人或大或小的因素以及算法在實(shí)際應(yīng)用中檢測(cè)精度與速度的要求,本文提出一種基于Faster R-CNN 的密集人群檢測(cè)算法,通過CrowdHuman 數(shù)據(jù)集,對(duì)算法進(jìn)行訓(xùn)練,實(shí)驗(yàn)結(jié)果驗(yàn)證了算法的有效性。本文主要工作如下:
1)針對(duì)Faster R-CNN+FPN 結(jié)構(gòu)無法有效應(yīng)對(duì)實(shí)際擁擠場(chǎng)景下由于目標(biāo)物體間相互遮擋以及目標(biāo)物體較小而導(dǎo)致漏檢的問題,提出在雙向特征金字塔特征融合網(wǎng)絡(luò)(Bidirectional Feature Pyramid Network,BiFPN)的基礎(chǔ)上,使用卷積操作獲取圖像更深層的語義信息,對(duì)提取的深層特征進(jìn)行通道維度的融合,以提升相鄰特征間的聯(lián)系和利用率,加強(qiáng)網(wǎng)絡(luò)的檢測(cè)能力,使擁擠場(chǎng)景下的漏檢問題得以改善,網(wǎng)絡(luò)在交并比(Intersection over Union,IoU)大于50%時(shí),平均精度(Average Precision,AP)相較于原始網(wǎng)絡(luò)提升2.4%。
2)針對(duì)擁擠場(chǎng)景中高度重疊的實(shí)例(以及它們的建議框)可能具有非常相似的特性以及實(shí)例間可能嚴(yán)重重疊導(dǎo)致預(yù)測(cè)很可能被NMS 錯(cuò)誤抑制的問題,提出多實(shí)例預(yù)測(cè)以及新的NMS,使網(wǎng)絡(luò)對(duì)每個(gè)建議框預(yù)測(cè)一組可能高度重疊的實(shí)例,而不是預(yù)測(cè)單個(gè)實(shí)例,使附近的建議框較容易地推斷出相同的實(shí)例集。在進(jìn)行NMS 時(shí),提出預(yù)先設(shè)定一個(gè)IoU 閾值來解決網(wǎng)絡(luò)預(yù)測(cè)框錯(cuò)誤抑制的問題,優(yōu)化后的新NMS 使網(wǎng)絡(luò)AP50相比原始網(wǎng)絡(luò)提升了2.2%。
Faster R-CNN 算法與YOLO 檢測(cè)算法相比,增設(shè)了一個(gè)RPN 結(jié)構(gòu),從而成為兩階段的檢測(cè)算法,檢測(cè)精度與檢測(cè)準(zhǔn)確性更優(yōu)。Faster R-CNN 可以采用多種主干特征提取網(wǎng)絡(luò),常用的有:VGG(Visual Geometry Group)[13]、殘差網(wǎng)絡(luò)(ResNet)[7]、Xception[14]等。
Faster R-CNN 算法的檢測(cè)過程如下:首先,將輸入圖片的短邊固定成600 像素,同時(shí)按照原始長(zhǎng)寬比對(duì)長(zhǎng)邊進(jìn)行同比例縮放,以防圖像失真;其次,將調(diào)整大?。≧esize)后的圖片傳入主干特征提取網(wǎng)絡(luò),對(duì)圖片長(zhǎng)寬進(jìn)行四次壓縮,輸出得到公用特征層(Feature Map);隨后,網(wǎng)絡(luò)繼續(xù)前向傳播進(jìn)入RPN,在Faster R-CNN 中每個(gè)網(wǎng)格對(duì)應(yīng)9 個(gè)先驗(yàn)框,RPN 對(duì)先驗(yàn)框參數(shù)進(jìn)行調(diào)整獲得建議框,此時(shí)獲得的建議框大小有異,與興趣區(qū)域池化(Region Of Interest Pooling,ROIPooling)[1]結(jié)合使用,將不同大小的建議框截取到的感興趣區(qū)域變?yōu)橄嗤笮?;最后,?duì)建議框截取到的特征層進(jìn)行大小調(diào)整和進(jìn)一步卷積,完成目標(biāo)物體的分類與回歸。整個(gè)檢測(cè)過程如圖1 所示。
圖1 Faster R-CNN算法檢測(cè)過程Fig.1 Detection process of Faster R-CNN algorithm
相較于YOLO 檢測(cè)算法,F(xiàn)aster R-CNN 檢測(cè)算法精度更高是因?yàn)镽PN 的存在(見圖2)。在建議網(wǎng)絡(luò)中,首先進(jìn)行一次3×3 的卷積,接著進(jìn)行一個(gè)18 通道的1×1 卷積和一個(gè)36 通道的1×1 卷積,其中9×4 的卷積用于預(yù)測(cè)公用特征層上每一個(gè)網(wǎng)格點(diǎn)上每一個(gè)先驗(yàn)框的變化情況(4 代表框的中心和寬高的調(diào)整參數(shù));9×2 的卷積用于預(yù)測(cè)公用特征層上每一個(gè)網(wǎng)格點(diǎn)上每一個(gè)預(yù)測(cè)框內(nèi)部是否包含了物體,序號(hào)為1 的內(nèi)容為包含物體的概率。最后,對(duì)每個(gè)建議框進(jìn)行ResNet 的第五次壓縮,對(duì)建議框分類與回歸得到最終的預(yù)測(cè)框。
圖2 RPN 結(jié)構(gòu)Fig.2 Structure of RPN
由于注意力機(jī)制可以使網(wǎng)絡(luò)選擇性地關(guān)注對(duì)檢測(cè)任務(wù)有用的特征而忽視部分無用特征,提升網(wǎng)絡(luò)對(duì)特征的利用率,并在一定程度上改善檢測(cè)網(wǎng)絡(luò)性能,故在此將注意力機(jī)制引入優(yōu)化的Faster R-CNN 密集人群檢測(cè)網(wǎng)絡(luò)中。
注意力機(jī)制(Attention Mechanism,AM)最初用于機(jī)器翻譯,現(xiàn)已成為神經(jīng)網(wǎng)絡(luò)的重要組成部分。將通道注意力機(jī)制與空間注意力機(jī)制連接形成一個(gè)簡(jiǎn)單但有效的注意力模塊CBAM(Convolutional Block Attention Module)[15],如圖3 所示。將CBAM 用于Faster R-CNN,在通道注意力模塊中,特征的每一個(gè)通道都代表一個(gè)專門的檢測(cè)器,因此通道注意力關(guān)注什么樣的特征是有意義的,如式(1)所示,分別進(jìn)行一個(gè)空間的全局平均池化和最大池化得到特征圖的空間信息,然后經(jīng)過兩個(gè)共享卷積層得到最終結(jié)果??臻g注意力關(guān)注的特征與通道注意力互補(bǔ),如式(2)[15]所示,分別進(jìn)行一個(gè)通道維度的平均池化和最大池化,將兩個(gè)特征描述按通道拼接在一起后再經(jīng)過一個(gè)7×7 的卷積生成空間注意力圖。
圖3 通道注意力與空間注意力Fig.3 Channel attention and spatial attention
其中:σ代表Sigmoid 激活函數(shù);F代表特征向量;cat 代表通道連接運(yùn)算;conv 代表1×1 卷積+ReLU 激活函數(shù)+1×1 卷積。
為使用Faster R-CNN 的預(yù)訓(xùn)練權(quán)重,減少網(wǎng)絡(luò)運(yùn)算量,僅在Faster R-CNN 的不同層之間添加CBAM 注意力機(jī)制。
首先,基于擁擠人群檢測(cè)研究,在實(shí)例預(yù)測(cè)以及NMS 階段對(duì)原有Faster R-CNN 進(jìn)行改進(jìn)。在原始檢測(cè)算法中,每個(gè)對(duì)象都對(duì)應(yīng)很多個(gè)預(yù)測(cè)框,所以通常采用NMS 的方法在眾多預(yù)測(cè)框中選取置信度最高的框,而將其他置信度小于該最大值的框全部刪除,形成了一個(gè)框?qū)σ粋€(gè)物體的映射關(guān)系。對(duì)重疊度過高的場(chǎng)景,該方法難免出現(xiàn)錯(cuò)誤的NMS,從而導(dǎo)致漏檢以及錯(cuò)檢。
趙敏本不叫趙敏,她是敏敏特穆爾,汝陽王家的寶貝女兒,紹敏郡主。若不論歷史的最終走向,單看她的身份,自是無須奮斗也有享不盡的榮華富貴,但她眼中從來看著更高的那片天空。
通過對(duì)文獻(xiàn)[16]的研究,提出在高度重疊的場(chǎng)景中,與其一個(gè)預(yù)測(cè)框?qū)?yīng)單個(gè)對(duì)象,不如將重疊度過高的幾個(gè)實(shí)例全部預(yù)測(cè)。即對(duì)于每個(gè)建議框bi,預(yù)測(cè)相關(guān)的一組真實(shí)(Ground Truth)實(shí)例集G(bi),而不是單個(gè)實(shí)例,如式(3)所示:
其中:?是所有真實(shí)框的集合;θ是一個(gè)給定的IoU 閾值,如果大于給定閾值,則將屬于同一個(gè)實(shí)例的相關(guān)對(duì)象一起框起來。對(duì)建議框bi進(jìn)行預(yù)測(cè)時(shí),受文獻(xiàn)[8]啟發(fā),提出為每個(gè)提議框均預(yù)測(cè)一組實(shí)例,引入K個(gè)檢測(cè)函數(shù)生成一組預(yù)測(cè)P(bi),如式(4):
其中:ci是類別標(biāo)簽置信度;li是相對(duì)坐標(biāo);K是一個(gè)給定常數(shù),代表G(bi)的最大基數(shù)。P(bi)可以在大多數(shù)現(xiàn)有的檢測(cè)框架中通過引入額外的預(yù)測(cè)分支來實(shí)現(xiàn),如圖4 所示。
受文獻(xiàn)[17]中最小化預(yù)測(cè)框與真實(shí)框之間差距的啟發(fā),在圖4 中引入地球移動(dòng)距離(Earth Mover’s Distance,EMD):對(duì)特征空間中兩個(gè)多維矩陣的某一維距離的一種度量。損失最小化預(yù)測(cè)P(bi)與建議框bi相關(guān)聯(lián)的真實(shí)(Ground Truth)實(shí)例集G(bi)之間的差距,計(jì)算公式如下:
圖4 P(bi)預(yù)測(cè)網(wǎng)絡(luò)Fig.4 P(bi) prediction network
其中:π表示一個(gè)特定的排列(1,2,…,K),第k項(xiàng)為πk,∈G(bi)是πk的真實(shí)框;τcls(·)和τreg(·)分別為分類損失和邊框Box 的回歸損失。在式(5)中,假設(shè)了|G(bi)|=K,如果不是,則向其中加入一些“啞”盒(其類標(biāo)簽被視為背景且沒有回歸損失),直到滿足假設(shè)。如果K=1,式(5)就等于傳統(tǒng)單實(shí)例預(yù)測(cè)框中的損失,這意味著EMD 損失是對(duì)常用檢測(cè)損失的一種通用概括。
除此之外,盡管每個(gè)建議框能夠預(yù)測(cè)多個(gè)實(shí)例,如果NMS 仍參與后處理,仍然不能有效地檢測(cè)擁擠場(chǎng)景的目標(biāo)。在上述的EMD 損失中一個(gè)建議框所預(yù)測(cè)的實(shí)例在定義上是唯一的,因此可以在NMS 中每次一個(gè)邊界框抑制另一個(gè)邊界框之前,插入一個(gè)額外的測(cè)試來檢查兩個(gè)框是否來自同一個(gè)建議框,如果是則跳過抑制。
對(duì)NMS 的優(yōu)化如下:如上所述,由于EMD 損失在預(yù)測(cè)時(shí)一個(gè)建議框只對(duì)應(yīng)一個(gè)唯一的實(shí)例,所以增設(shè)一個(gè)IoU 閾值用于優(yōu)化NMS,對(duì)于相鄰兩個(gè)預(yù)測(cè)框,如果兩個(gè)框的IoU 值大于所設(shè)定的閾值,則判斷兩個(gè)預(yù)測(cè)框基于同一個(gè)建議框而來,跳過抑制(因?yàn)橹貜?fù)預(yù)測(cè)只存在于不用的建議框之間);反之,若兩個(gè)框的IoU 值小于閾值,則進(jìn)行NMS 抑制。
將優(yōu)化后的NMS 與多實(shí)例預(yù)測(cè)結(jié)合起來可以在擁擠場(chǎng)景檢測(cè)中取得顯著的改進(jìn),同時(shí),在CrowdHuman 數(shù)據(jù)集中將對(duì)其優(yōu)化前后所帶來的效果提升進(jìn)行實(shí)驗(yàn)驗(yàn)證。
金字塔卷積模塊的提出正是為了解決多尺度融合的問題,從其發(fā)展至今經(jīng)過了許多的迭代更新。最初的金字塔卷積模塊為FPN,不斷地進(jìn)行上采樣,同時(shí)引入一條自頂向下的通道來融合本層與上層特征。但是,F(xiàn)PN 只考慮了上層特征對(duì)檢測(cè)結(jié)果的影響,沒有考慮下層的特征影響,故在YOLOv4 中提出了一種新的特征融合手段——路徑聚合網(wǎng)絡(luò)(Path Aggregation Network,PANet),在FPN 的基礎(chǔ)上增加了一條自底向上的通道來雙向融合特征,同時(shí)考慮了上下層特征共同影響的作用。最新的特征融合網(wǎng)絡(luò)BiFPN[18]在PANet 的基礎(chǔ)上融合了圖像本身的特征,并同時(shí)在融合階段采用加權(quán)方式來區(qū)分各級(jí)特征對(duì)融合后的特征的貢獻(xiàn)程度。上述金字塔卷積模塊如圖5 所示。
圖5 金字塔卷積模塊Fig.5 Pyramid convolution module
雖然BiFPN[18]加權(quán)融合了上下層特征作為最后的輸出結(jié)果,但是實(shí)際圖像采集過程中人群與拍攝設(shè)備距離以及人群之間相互擁擠,目標(biāo)物體會(huì)在圖像中呈現(xiàn)出或大或小以及相互遮擋的現(xiàn)象,使部分待檢測(cè)實(shí)例只有少數(shù)有用特征出現(xiàn)在圖像中供后續(xù)網(wǎng)絡(luò)學(xué)習(xí)(例如有些擁擠場(chǎng)景中,部分人體實(shí)例僅露出頭或者上半身等少量對(duì)檢測(cè)任務(wù)有用的特征)。
因此,對(duì)BiFPN 進(jìn)行優(yōu)化改進(jìn):在原始網(wǎng)絡(luò)進(jìn)行特征融合的基礎(chǔ)上,考慮到模型參數(shù)量及復(fù)雜度的問題,對(duì)其輸出結(jié)果采用卷積操作進(jìn)行更深層語義信息的提取,提高網(wǎng)絡(luò)對(duì)上述僅有少量有用特征出現(xiàn)在圖像中的目標(biāo)物體以及小目標(biāo)物體的檢測(cè)能力;同時(shí),對(duì)進(jìn)一步提取到的相鄰深層特征之間使用Concat 融合操作,增強(qiáng)相鄰特征之間的聯(lián)系,有效利用多尺度的特征,提高密集人群場(chǎng)景下的目標(biāo)檢測(cè)精度。優(yōu)化后的BiFPN,即加強(qiáng)的雙向特征金字塔網(wǎng)絡(luò)(Strong-Bidirectional Feature Pyramid Network,S-BiFPN)結(jié)構(gòu)如圖6。
圖6 S-BiFPN 結(jié)構(gòu)Fig.6 Structure of S-BiFPN
將S-BiFPN 模塊用于改進(jìn)的Faster R-CNN 進(jìn)行特征的多尺度融合,在CrowdHuman 數(shù)據(jù)集上進(jìn)行BiFPN 優(yōu)化前后的對(duì)比實(shí)驗(yàn),以驗(yàn)證優(yōu)化后檢測(cè)網(wǎng)絡(luò)性能提升的效果。改進(jìn)后的Faster R-CNN 檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)如圖7 所示。
圖7 改進(jìn)的Faster R-CNN結(jié)構(gòu)Fig.7 Structure of improved Faster R-CNN
本文基于Pytorch1.2 深度學(xué)習(xí)框架搭建模型,計(jì)算機(jī)主要配置為:Ubuntu 18.04 操作系統(tǒng),i5-9300H CPU,顯卡為NVIDIA Tesla V100,內(nèi)存32 GB。
理想的擁擠目標(biāo)檢測(cè)器應(yīng)對(duì)實(shí)例的分布具有較強(qiáng)的魯棒性,不僅能在擁擠場(chǎng)景下取得較好的檢測(cè)結(jié)果,而且能對(duì)中等擁擠/不太擁擠場(chǎng)景下的實(shí)例對(duì)象進(jìn)行穩(wěn)定檢測(cè)。采用CrowdHuman、CityPersons 和COCO 數(shù)據(jù)集分別對(duì)嚴(yán)重、中等和輕微重疊的情況進(jìn)行綜合評(píng)估,結(jié)果如表1 所示。
表1 不同數(shù)據(jù)集中每幅圖像的物體數(shù)和重疊物體數(shù)Tab.1 Numbers of objects and overlapping objects in each image in different datasets
在對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練階段,首先設(shè)置本實(shí)驗(yàn)初始參數(shù)為:一批訓(xùn)練樣本的數(shù)量為10,初始學(xué)習(xí)率為0.001,動(dòng)量參數(shù)為0.5,所有框重疊閾值默認(rèn)設(shè)置為0.5,總迭代次數(shù)為3 000。每個(gè)圖像的短邊被調(diào)整為800 像素,用于訓(xùn)練和測(cè)試。同時(shí),對(duì)于CrowdHuman 與CityPersons 數(shù)據(jù)集,縱橫比設(shè)置為H∶W={1∶1,2∶1,3∶1};對(duì)于COCO 數(shù)據(jù)集,將其設(shè)置為{2∶1,1∶1,1∶2}。
首先,將原Faster R-CNN 算法、使用FPN 改進(jìn)的Faster RCNN 算法以及本文優(yōu)化的Faster R-CNN 算法在相同數(shù)據(jù)集上和相同實(shí)驗(yàn)環(huán)境下進(jìn)行目標(biāo)檢測(cè)實(shí)驗(yàn),圖片輸出尺寸均為800 像素×800 像素,檢測(cè)準(zhǔn)確率、實(shí)時(shí)性差別的實(shí)驗(yàn)結(jié)果如表2 所示,其中:檢測(cè)準(zhǔn)確率評(píng)價(jià)指標(biāo)AP50表示在計(jì)算平均精度均值時(shí),若檢測(cè)框與真實(shí)框的IoU 大于50%,則認(rèn)為預(yù)測(cè)正確;反之,則預(yù)測(cè)錯(cuò)誤。
采用不同的經(jīng)典目標(biāo)檢測(cè)算法以及本文算法對(duì)相同圖片進(jìn)行測(cè)試,檢測(cè)時(shí)間與精度結(jié)果如表3 所示。對(duì)比算法有YOLO、原 Faster R-CNN 和 RFCN(Region-based Fully Convolutional Network),其中RFCN 基于Faster R-CNN 結(jié)構(gòu),但是僅包含卷積網(wǎng)絡(luò),減少了計(jì)算量,提升了檢測(cè)速度。由表2、表3 可以看出,優(yōu)化后的Faster R-CNN 算法在實(shí)時(shí)性(檢測(cè)速度)上稍遜于其他算法,但是基本達(dá)到實(shí)時(shí)性要求,檢測(cè)精度上有較大的優(yōu)勢(shì)。綜合來看,優(yōu)化后的Faster R-CNN 檢測(cè)算法是一個(gè)有效的密集人群檢測(cè)算法。
表2 Faster R-CNN算法改變網(wǎng)絡(luò)后數(shù)據(jù)統(tǒng)計(jì)Tab.2 Data statistics after Faster R-CNN algorithm changing network
表3 經(jīng)典檢測(cè)算法與本文算法性能對(duì)比Tab.3 Performance comparison between classical detection algorithms and proposed algorithm
最后,為深入驗(yàn)證改進(jìn)的Faster R-CNN 密集人群檢測(cè)算法的有效性,在CrowdHuman 數(shù)據(jù)集上進(jìn)行了對(duì)比和消融實(shí)驗(yàn),其中15 000 張、4 370 張和5 000 張圖片分別用于訓(xùn)練、驗(yàn)證和測(cè)試。消融實(shí)驗(yàn)包括NMS 優(yōu)化前后所帶來的網(wǎng)絡(luò)檢測(cè)性能提升的效果(表4)、BiFPN 網(wǎng)絡(luò)優(yōu)化前后帶來的檢測(cè)性能提升的效果(表5)以及S-BiFPN、多實(shí)例預(yù)測(cè)(Multi-Instance Prediction,MIP)、注意力機(jī)制以及優(yōu)化的NMS 組合使用所帶來的網(wǎng)絡(luò)檢測(cè)性能提升的效果(表6),前兩個(gè)消融實(shí)驗(yàn)通過檢測(cè)準(zhǔn)確率和實(shí)時(shí)性進(jìn)行評(píng)估,而最后一個(gè)消融實(shí)驗(yàn)使用2.4 節(jié)所提的指標(biāo)進(jìn)行。
由表4 可知,當(dāng)網(wǎng)絡(luò)引入了優(yōu)化的NMS 后,可以在不影響整體檢測(cè)速度的同時(shí),對(duì)檢測(cè)精度帶來一定程度的提升,且相較于網(wǎng)絡(luò)使用原NMS 時(shí),AP50值提高了2.2%。
表4 NMS優(yōu)化對(duì)Faster R-CNN算法的性能影響Tab.4 Impact of NMS optimization on Faster R-CNN algorithm performance
由表5 與表2 可知,當(dāng)Faster R-CNN 引入BiFPN 時(shí),其檢測(cè)精度較FPN 特征融合網(wǎng)絡(luò)有一定的提升,當(dāng)引入基于BiFPN 優(yōu)化的S-BiFPN 結(jié)構(gòu)時(shí),其檢測(cè)效果繼續(xù)提升,但是檢測(cè)精度低于整體優(yōu)化后的Faster R-CNN。將數(shù)據(jù)進(jìn)一步量化,使用S-BiFPN 結(jié)構(gòu)的檢測(cè)網(wǎng)絡(luò)相較于使用BiFPN 時(shí),AP50值提高了2.4%。
表5 BiFPN優(yōu)化對(duì)Faster R-CNN算法的性能影響Tab.5 Impact of BiFPN optimization on Faster R-CNN algorithm performance
表6 使用平均精度(Average Precision,AP)、Jaccard 指數(shù)(Jaccard Index,JI)、每張圖像假陽性的對(duì)數(shù)平均漏報(bào)率(Miss Rate-2,MR-2)對(duì)模型性能進(jìn)行評(píng)價(jià)。其中:1)AP 為最常用的目標(biāo)檢測(cè)評(píng)價(jià)指標(biāo),其在數(shù)值上等于精度召回率曲線下的面積,反映了檢測(cè)結(jié)果的查全率與查準(zhǔn)率;2)JI 主要用于評(píng)價(jià)檢測(cè)器的計(jì)數(shù)能力,評(píng)估預(yù)測(cè)集與事實(shí)的重疊程度,JI 越大,性能越好;3)MR-2通常用于行人檢測(cè),在數(shù)值上等于9 個(gè)單幅圖像誤報(bào)值(False Positive Per Image,F(xiàn)PPI)下(在值域[0.01,1.0]內(nèi)以對(duì)數(shù)空間均勻間隔)的平均誤報(bào)率(Miss Rate)值,其值越小,表現(xiàn)性能越好。
表6 Faster R-CNN使用不同優(yōu)化策略時(shí)的性能對(duì)比單位:%Tab.6 Performance comparison of Faster R-CNN using different optimization strategies unit:%
經(jīng)過消融實(shí)驗(yàn)可以發(fā)現(xiàn),在擁擠場(chǎng)景數(shù)據(jù)集中,優(yōu)化后的整體算法在AP 值和JI 值上相較于沒有使用優(yōu)化策略的原始Faster R-CNN 算法,分別提高了5.6%和3.2%。
表1 說明COCO 數(shù)據(jù)集中實(shí)例擁擠程度較低,為驗(yàn)證本文算法在非擁擠場(chǎng)景下實(shí)例檢測(cè)的魯棒性,在COCO 數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),評(píng)價(jià)指標(biāo)為AP、AP50(IoU 為0.5 時(shí)的AP值)、AP75(IoU 為0.75 時(shí)的AP 值),指標(biāo)值越大性能越好。由表7 可知,本文算法不僅在擁擠場(chǎng)景有效,而且處理非擁擠實(shí)例時(shí),算法性能也不會(huì)下降。
表7 Faster R-CNN算法優(yōu)化前后在COCO數(shù)據(jù)集上的AP單位:%Tab.7 AP comparison on COCO dataset before and after optimization of Faster R-CNN algorithm unit:%
為了直觀地區(qū)分本文算法與原始Faster R-CNN 算法在密集人群下的檢測(cè)效果,從CrowdHuman 數(shù)據(jù)集的測(cè)試集中隨機(jī)抽取兩張圖像在相同實(shí)驗(yàn)環(huán)境下進(jìn)行測(cè)試對(duì)比,結(jié)果如圖8 所示,其中,圖8(a)為原始Faster R-CNN 算法的檢測(cè)結(jié)果;而圖8(b)為本文算法的檢測(cè)結(jié)果。由圖8 可以看出,優(yōu)化后的算法相較于原始算法,降低了密集人群場(chǎng)景下的漏檢率,在一定程度上提升了密集場(chǎng)景下目標(biāo)檢測(cè)的精度。
圖8 不同算法圖像檢測(cè)結(jié)果對(duì)比Fig.8 Comparison of image detection results of different algorithms
針對(duì)目前大多數(shù)目標(biāo)檢測(cè)算法不能精確檢測(cè)密集人群的問題,結(jié)合相關(guān)擁擠場(chǎng)景檢測(cè)的研究,提出一種基于Faster R-CNN 改進(jìn)的密集人群檢測(cè)算法。該算法在實(shí)例預(yù)測(cè)以及非極大值抑制方面引入了MIP 算法和優(yōu)化的NMS 算法,降低了高重疊實(shí)例的漏檢率和誤檢率;同時(shí),在網(wǎng)絡(luò)各層之間引入了通道與空間注意力機(jī)制,使網(wǎng)絡(luò)可以自主性地關(guān)注重要特征;并對(duì)金字塔卷積模塊BiFPN 進(jìn)行了改進(jìn),提出了S-BiFPN 結(jié)構(gòu),將其應(yīng)用于優(yōu)化的網(wǎng)絡(luò)之中,提高了檢測(cè)網(wǎng)絡(luò)對(duì)特征提取的表達(dá)力和利用率。實(shí)驗(yàn)結(jié)果表明:所提的Faster R-CNN 算法不僅在擁擠場(chǎng)景中有著較好的檢測(cè)結(jié)果,而且在非擁擠場(chǎng)景下性能也不會(huì)下降,具有較高的穩(wěn)定性,為密集場(chǎng)景下的準(zhǔn)確檢測(cè)提供了保障。但是優(yōu)化后的Faster R-CNN 算法仍為二階段目標(biāo)檢測(cè)算法,這使得其與實(shí)時(shí)檢測(cè)之間還存在一定的距離,未來可以在檢測(cè)實(shí)時(shí)性上做進(jìn)一步研究,已達(dá)到更好的檢測(cè)效果。