陳聰,楊忠,宋佳蓉,韓家明
南京航空航天大學(xué)自動(dòng)化學(xué)院,江蘇南京211106
近年來(lái),隨著與人工智能產(chǎn)業(yè)的興起以及交通運(yùn)輸?shù)刃袠I(yè)的不斷發(fā)展,行人檢測(cè)技術(shù)在智能監(jiān)控、智能駕駛等領(lǐng)域得到了廣泛的關(guān)注。傳統(tǒng)行人檢測(cè)方法中,通過(guò)人工設(shè)計(jì)的特征提取器,例如Haar、方向梯度直方圖(histogram of oriented gradient,HOG)、局部二值模式(local binary pattern,LBP)等從訓(xùn)練樣本中提取行人特征,再用提取的行人特征訓(xùn)練支持向量機(jī)(support vector machine,SVM)等分類(lèi)器,進(jìn)行行人檢測(cè)任務(wù)[1]。例如可利用HOG+LBP特征處理行人遮擋問(wèn)題,提高行人檢測(cè)的準(zhǔn)確率[2]。隨著積分通道特征(integral channel features,ICF)、 聚 集 信 道 特 征(aggregated channel features,ACF)、梯度幅值特征,LUV顏色特征等提出,行人特征獲得了更好地表達(dá),在行人檢測(cè)任務(wù)中也取得了較好的成果[3]。但通過(guò)手動(dòng)設(shè)計(jì)的行人特征有著泛化性差、難以適應(yīng)行人形態(tài)變化等缺點(diǎn),在實(shí)際應(yīng)用中困難重重。
隨著深度學(xué)習(xí)的迅速發(fā)展,硬件計(jì)算能力不斷增強(qiáng),相應(yīng)的數(shù)據(jù)集不斷構(gòu)建,深度神經(jīng)網(wǎng)絡(luò)在不同的視覺(jué)任務(wù)中取得了巨大的成功,深度網(wǎng)絡(luò)模型也在行人檢測(cè)領(lǐng)域得到了廣泛的運(yùn)用[3]。深度神經(jīng)網(wǎng)絡(luò)模型可以從圖像像素中學(xué)習(xí)特征,提高行人檢測(cè)器性能。在目標(biāo)檢測(cè)方面,基于區(qū)域建議(regional proposal,RP)的目標(biāo)檢測(cè)算法如基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)[4](region based convolutional neural networks,RCNN)、Faster?RCNN[5], 基于回歸(regression)的目標(biāo)檢測(cè)算法如單鏡頭多盒檢 測(cè) 器[6](single shot multibox detector,SSD)、You Only Look Once[7](YOLO)系列算法,不僅大大加快了目標(biāo)檢測(cè)的速度,也維持了較高的準(zhǔn)確率。
然而,現(xiàn)有的目標(biāo)檢測(cè)算法中,R?CNN、Faster R-CNN由于實(shí)時(shí)性難以得到保證而較難實(shí)現(xiàn)應(yīng)用;YOLO系列算法在經(jīng)過(guò)不斷地改進(jìn)后,在檢測(cè)的實(shí)時(shí)性方面性能十分突出:YOLO V2[8]、YOLO V3[9]雖然具有較好的檢測(cè)準(zhǔn)確率,但是需要較大的GPU顯存(>4GB),資源消耗量大,在部署方面存在一定的困難。因此,需要設(shè)計(jì)一種具有較好的實(shí)時(shí)性且對(duì)GPU等硬件配置要求不高的網(wǎng)絡(luò)。我們選擇Tiny?YOLO[10]網(wǎng)絡(luò),這是YOLO系列網(wǎng)絡(luò)的簡(jiǎn)化版,擁有更少的卷積層、更快的檢測(cè)速度以及較好的檢測(cè)精度。對(duì)Tiny?YOLO網(wǎng)絡(luò)進(jìn)行改進(jìn),使其滿(mǎn)足行人檢測(cè)的實(shí)際需求。
Tiny?YOLO主干網(wǎng)絡(luò)擁有7個(gè)3×3的卷積(convolution)層,6個(gè)池化(maxpooling)層,前5為個(gè)步長(zhǎng)為2的池化層,最后一個(gè)為步長(zhǎng)為1的池化層。模型輸入為416pix×416pix,在經(jīng)過(guò)5個(gè)步長(zhǎng)為2的池化層后,最終特征圖大小為13×13。網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
在神經(jīng)網(wǎng)絡(luò)中,輸入的圖片中目標(biāo)大小不同,不同尺寸的目標(biāo)在最終輸出時(shí)獲取的特征信息量不同。神經(jīng)網(wǎng)絡(luò)中較淺的卷積層可以很好地表征小尺寸目標(biāo),而較深的卷積層的特征能更好地描述大尺寸目標(biāo)。因此,根據(jù)目標(biāo)尺寸的不同,選擇不同的卷積層特征獲取更多的語(yǔ)義信息,對(duì)目標(biāo)進(jìn)行預(yù)測(cè)[11],這樣對(duì)不同尺寸的目標(biāo)有更好的適應(yīng)性。在Tiny?YOLO網(wǎng)絡(luò)中使用了2種尺度對(duì)目標(biāo)進(jìn)行預(yù)測(cè):
1)在基礎(chǔ)網(wǎng)絡(luò)之后添加一些卷積層進(jìn)行預(yù)測(cè),此時(shí)特征圖大小為13pix×13pix。尺度1)對(duì)大尺寸目標(biāo)有較好的預(yù)測(cè)能力。
2)從尺度1)中的倒數(shù)第2層的卷積層進(jìn)行2倍上采樣,上采樣可以幫助網(wǎng)絡(luò)學(xué)習(xí)細(xì)粒度特征,與最后一個(gè)尺寸為26pix×26pix的特征圖相加,再次通過(guò)多個(gè)卷積后輸出預(yù)測(cè)信息,特征圖大小為26pix×26pix。尺度2)使用了較大的特征圖,對(duì)較小尺寸的目標(biāo)有更好的預(yù)測(cè)能力。
圖1 Tiny-YOLO網(wǎng)絡(luò)結(jié)構(gòu)
在YOLO系列網(wǎng)絡(luò)中,損失函數(shù)由坐標(biāo)誤差、交并比(intersection over union,IOU)誤差和分類(lèi)誤差3部分組成。
在行人檢測(cè)訓(xùn)練時(shí),訓(xùn)練損失函數(shù)可表示為:
式中:S代表最終特征圖的網(wǎng)格尺寸;B代表每個(gè)網(wǎng)格的預(yù)測(cè)框個(gè)數(shù);(x,y)代表代表框的中心坐標(biāo),w、h代表框的寬和高;c代表框的置信度(confidence);p代表行人置信度;λcoord為候選框損失權(quán)重,為分類(lèi)損失權(quán)重;表示第i個(gè)網(wǎng)格的第j個(gè)預(yù)測(cè)框存在行人的可能性,表示判定第i個(gè)網(wǎng)格存在行人的概率;為網(wǎng)絡(luò)相應(yīng)的預(yù)測(cè)值。
在卷積神經(jīng)網(wǎng)絡(luò)中,需要引入非線性函數(shù)作為激活函數(shù)。引入激活函數(shù)可以增加神經(jīng)網(wǎng)絡(luò)模型的非線性,使神經(jīng)網(wǎng)絡(luò)模型具有更好的表達(dá)能力。在卷積神經(jīng)網(wǎng)絡(luò)中,常用的激活函數(shù)有Sigmod函數(shù)、tanh函數(shù)、ReLU函數(shù)等。Tiny-YOLO網(wǎng)絡(luò)采用了leaky ReLU函數(shù)作為激活函數(shù),這樣可以有效地避免在訓(xùn)練階段Sigmod、ReLU等函數(shù)出現(xiàn)的梯度消失問(wèn)題[12]。leaky ReLU激活函數(shù)公式為:
Tiny-YOLO使用由維度聚類(lèi)得到anchor box作為先驗(yàn)框來(lái)預(yù)測(cè)邊界框(bounding box):
式中:cx、cy是網(wǎng)格的坐標(biāo)偏移量;ph、pw是預(yù)設(shè)的anchor box的邊長(zhǎng),最終得到的(bx,by)為邊界框的中心坐標(biāo);bw、bh為邊界框?qū)挾群透叨?;tx、ty為邊界框中心坐標(biāo)的學(xué)習(xí)目標(biāo);tw、th為邊界框?qū)挾群透叨鹊膶W(xué)習(xí)目標(biāo);σ表示預(yù)測(cè)的邊框的置信度。
Tiny?YOLO網(wǎng)絡(luò)作為針對(duì)多類(lèi)別目標(biāo)檢測(cè)的一種簡(jiǎn)化網(wǎng)絡(luò),已經(jīng)取得了較好的檢測(cè)效果和實(shí)時(shí)性,但并不完全適合行人檢測(cè)任務(wù),因此,需要針對(duì)具體問(wèn)題進(jìn)行相應(yīng)的改進(jìn)。
在現(xiàn)有的行人檢測(cè)模型如HyperLearner[13]中,一方面,利用額外的通道特征改善行人檢測(cè)模型的性能;另一方面,通過(guò)采用更小的卷積核以及更多的采樣獲得更全面的行人特征表達(dá)。文中用于行人檢測(cè)的Ped?YOLO模型相對(duì)于Tiny-YOLO模型改進(jìn)主要體現(xiàn)在以下3個(gè)方面:
1)改變訓(xùn)練時(shí)輸入圖像的分辨率;
2)對(duì)行人檢測(cè)數(shù)據(jù)集的目標(biāo)框進(jìn)行聚類(lèi),確定anchor參數(shù);
3)改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu),使用更深的卷積神經(jīng)網(wǎng)絡(luò)對(duì)行人特征進(jìn)行提取。
行人識(shí)別研究表明,圖像中行人身高和寬度為一定值,行人的橫向特征表達(dá)比縱向特征表達(dá)少,增加橫向特征表達(dá)有助于行人識(shí)別。文中采用改變網(wǎng)絡(luò)模型輸入的長(zhǎng)寬比例,利用矩形輸入網(wǎng)絡(luò)提取更多的橫向特征[14],考慮到原網(wǎng)絡(luò)輸入圖像尺寸為416×416,為避免輸入圖像分辨率對(duì)網(wǎng)絡(luò)的影響,選擇了608×288分辨率圖像作為網(wǎng)絡(luò)輸入。一方面可以有更好的橫向特征提取效果;另一方面二者具有相近的像素?cái)?shù),不會(huì)影響檢測(cè)實(shí)時(shí)性。
YOLO系列算法引入了Faster R?CNN中的anchor boxes的思想[15],在數(shù)據(jù)集上進(jìn)行聚類(lèi)確定anchor boxes。YOLOv2的初始候選框anchor參數(shù)針對(duì)PASCAL VOC數(shù)據(jù)集進(jìn)行聚類(lèi)確定,聚類(lèi)結(jié)果為5,因此其anchor數(shù)目為5;YOLOv3初始候選框anchor參數(shù)針對(duì)COCO數(shù)據(jù)集聚類(lèi)確定,聚類(lèi)結(jié)果為9,因此其anchor的數(shù)目為9,分屬3個(gè)不同預(yù)測(cè)尺度;Tiny-YOLO的anchor參數(shù)同樣針對(duì)COCO數(shù)據(jù)集聚類(lèi)確定,聚類(lèi)結(jié)果為6,因此其anchor的個(gè)數(shù)為6,分屬2個(gè)不同預(yù)測(cè)尺度。由于PASCAL VOC數(shù)據(jù)集與COCO數(shù)據(jù)集中類(lèi)別較多,得到的anchor參數(shù)具有普適性,但是并不適用于行人檢測(cè)。在行人檢測(cè)中,行人的長(zhǎng)寬比不會(huì)因行人的背景、姿態(tài)等發(fā)生大的改變,往往是一個(gè)相對(duì)固定的比值,因此需要對(duì)數(shù)據(jù)集進(jìn)行聚類(lèi)分析,重新選擇最優(yōu)的anchor個(gè)數(shù)和寬高維度。文中采用K-means聚類(lèi)方法獲得先驗(yàn)框的尺寸,得到anchor的個(gè)數(shù)和寬高維度。
通過(guò)設(shè)置先驗(yàn)框,可以提高預(yù)測(cè)框與ground truth之間的交并比。IOU是產(chǎn)生的候選框(candidate bound)與原標(biāo)記框(ground truth bound)的交疊率,即它們的交集與并集的比值。傳統(tǒng)的K-means聚類(lèi)方法對(duì)兩點(diǎn)間距離進(jìn)行計(jì)算常用的是曼哈頓距離、歐式距離等。如果使用歐式距離函數(shù),這會(huì)導(dǎo)致較大的框比較小的框產(chǎn)生更多的錯(cuò)誤,考慮到行人檢測(cè)數(shù)據(jù)集中行人尺寸問(wèn)題,采用IOU來(lái)衡量聚類(lèi)結(jié)果。
聚類(lèi)中的距離函數(shù)為:
式中:centroid代表簇的中心;box代表樣本聚類(lèi)結(jié)果;IOU(box,centroid)代表簇中心框和聚類(lèi)框的交并比。
選擇608×288作為模型輸入大小,對(duì)行人檢測(cè)數(shù)據(jù)集進(jìn)行聚類(lèi)分析,使用遞增的方法選擇k值。通過(guò)計(jì)算不同k值下的IOU值,選擇k的最優(yōu)值。IOU與k的關(guān)系如圖2所示。
圖2 IOU?k折線圖
根據(jù)圖中的折線可知,在k=6之后,IOU值的增加逐漸變得平緩??紤]到網(wǎng)絡(luò)的計(jì)算量,且改進(jìn)的Ped-YOLO網(wǎng)絡(luò)中使用原Tiny-YOLO網(wǎng)絡(luò)在2種尺度上進(jìn)行跨尺度預(yù)測(cè)的方法,最終采用k=6的聚類(lèi)結(jié)果。
在卷積神經(jīng)網(wǎng)絡(luò)中,更多的卷積層與更深的網(wǎng)絡(luò)結(jié)構(gòu)往往對(duì)目標(biāo)特征有更好的提取效果。而原Tiny?YOLO網(wǎng)絡(luò)的層數(shù)較少,主干網(wǎng)絡(luò)中只有7層卷積層,很難對(duì)行人目標(biāo)特征有較好的提取效果,因此需要對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn),增加的卷積層如圖3所示。一方面,考慮到行人區(qū)域相對(duì)較小,為了獲得更高分辨率的信息,常用的7×7卷積層和5×5卷積層不適用于行人檢測(cè),因此選取3×3卷積核對(duì)原Tiny?YOLO網(wǎng)絡(luò)進(jìn)行加深。相對(duì)于原Tiny?YOLO網(wǎng)絡(luò),Ped?YOLO在主干網(wǎng)絡(luò)中增加了額外的3個(gè)3×3卷積層。
圖3 Ped-YOLO中增加的卷積層
另一方面,在網(wǎng)絡(luò)加深的同時(shí),額外的卷積層會(huì)造成網(wǎng)絡(luò)模型參數(shù)過(guò)多,從而增加網(wǎng)絡(luò)的運(yùn)算量。通過(guò)借鑒Resnet[16]與Densenet[17]的思想,我們?cè)诰W(wǎng)絡(luò)中引入1×1卷積核。引入1×1卷積核的作用有兩方面:一方面是卷積核通道數(shù)的降維,減少卷積核參數(shù),簡(jiǎn)化神經(jīng)網(wǎng)絡(luò)模型;另一方面,引入1×1的卷積核,在前一卷積層的學(xué)習(xí)表示上添加了非線性激勵(lì),提升了網(wǎng)絡(luò)的表達(dá)能力,同時(shí)也增加了模型深度,一定程度上提升了模型的表征能力。Ped?YOLO最終網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
圖4 Ped-YOLO網(wǎng)絡(luò)結(jié)構(gòu)
文中采用的行人檢測(cè)數(shù)據(jù)庫(kù)為PASCAL VOC與INRIA混合數(shù)據(jù)集。INRIA數(shù)據(jù)集是目前使用最廣泛的靜態(tài)行人檢測(cè)數(shù)據(jù)集,INRIA數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集,訓(xùn)練集中包含了正負(fù)樣本,其中正樣本614張,正樣本中有2416人,負(fù)樣本1218張;測(cè)試集中包含正樣本288張,正樣本中有1126人,負(fù)樣本453張。INRIA數(shù)據(jù)集中圖片的清晰度較高,背景也較為復(fù)雜,拍攝條件多樣,存在光線變化、人體遮擋等情形,圖片中人體大部分為站立姿勢(shì),高度大于100個(gè)像素[18]。考慮到INRIA數(shù)據(jù)集訓(xùn)練樣本較少,實(shí)際應(yīng)用時(shí)泛化能力較差且容易出現(xiàn)過(guò)擬合現(xiàn)象,本文提取了PASCAL VOC數(shù)據(jù)集中行人圖片6383張,與INRIA數(shù)據(jù)集進(jìn)行數(shù)據(jù)融合,提高Ped?YOLO網(wǎng)絡(luò)的泛化能力。
本文實(shí)驗(yàn)平臺(tái)配置如表1所示。在該實(shí)驗(yàn)環(huán)境下,本文中的Ped?YOLO模型在720p的mp4視頻上檢測(cè)速度可達(dá)到66.8f/s,滿(mǎn)足實(shí)時(shí)性要求。
表1 實(shí)驗(yàn)平臺(tái)軟硬件配置
在開(kāi)源的深度學(xué)習(xí)框架Darknet上,搭建與訓(xùn)練Ped?YOLO模型。作為一種廣泛應(yīng)用的深度學(xué)習(xí)框架,Darknet可適用于多種格式的圖片輸入,其中INRIA數(shù)據(jù)集的圖片為PNG格式,PASCAL VOC數(shù)據(jù)集的圖片為JPEG格式。訓(xùn)練時(shí)學(xué)習(xí)率采用均勻分布策略(polynomial decay),模型的初始學(xué)習(xí)率(learning rate)設(shè)為0.001,在25000和30000次迭代后,學(xué)習(xí)率乘以0.1,動(dòng)量系數(shù)為0.9,權(quán)值衰減系數(shù)為0.0010,訓(xùn)練中采用了圖像隨機(jī)調(diào)整曝光、飽和度、色調(diào)等方法對(duì)數(shù)據(jù)進(jìn)行擴(kuò)充。此外,在訓(xùn)練時(shí),每迭代10次改變模型的輸入尺寸,使模型對(duì)于不同尺寸的圖像具有更好的檢測(cè)效果。
3.4.1 混合數(shù)據(jù)集測(cè)試
分別在INRIA數(shù)據(jù)集和PASCAL VOC混合數(shù)據(jù)集上訓(xùn)練Ped?YOLO網(wǎng)絡(luò),并使用INRIA測(cè)試集進(jìn)行測(cè)試。評(píng)價(jià)指標(biāo)為召回率(recall)與平均精確值(mean average precision,mAP),召回率指正確識(shí)別出來(lái)的行人個(gè)數(shù)與測(cè)試集中所有行人的個(gè)數(shù)的比值。
實(shí)驗(yàn)結(jié)果如表2所示。結(jié)果表明,使用PASCAL VOC+INRIA混合數(shù)據(jù)集訓(xùn)練與使用INRIA數(shù)據(jù)集訓(xùn)練相比,在混合數(shù)據(jù)集上,mAP提高了1.07%,召回率提高了0.05。
表2 混合數(shù)據(jù)集測(cè)試結(jié)果
3.4.2 平均交并比測(cè)試
為了驗(yàn)證文中設(shè)計(jì)的Ped?YOLO網(wǎng)絡(luò)的定位準(zhǔn)確性,利用平均交并比作為指標(biāo)進(jìn)行評(píng)測(cè)。本文在混合數(shù)據(jù)集上分別訓(xùn)練了Tiny?YOLO系列網(wǎng)絡(luò)中的YOLOv2?tiny網(wǎng)絡(luò)和YOLOv3?tiny網(wǎng)絡(luò)作為Ped?YOLO網(wǎng)絡(luò)的對(duì)照,并使用INRIA數(shù)據(jù)集中測(cè)試集測(cè)試平均交并比。
對(duì)比結(jié)果如表3所示。結(jié)果表明,相比較于YOLOv2?tiny網(wǎng)絡(luò),Ped?YOLO網(wǎng)絡(luò)平均交并比提高了10.03%;相比較于YOLOv3?tiny網(wǎng)絡(luò),Ped?YOLO網(wǎng)絡(luò)平均交并比提高了5.41%。這說(shuō)明,在測(cè)試集上,Ped?YOLO產(chǎn)生的預(yù)測(cè)框與原標(biāo)記框的交疊率更高,對(duì)行人定位的精度更好。原因在于,通過(guò)對(duì)數(shù)據(jù)集的K?means聚類(lèi)分析選擇先驗(yàn)框以及網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn),可以更好地提升模型的定位精度。
表3 平均交并比測(cè)試結(jié)果 %
3.4.3 精度測(cè)試
使用INRIA數(shù)據(jù)集中測(cè)試數(shù)據(jù)集進(jìn)行精度測(cè)試。本文選擇LAMR[19](log?average miss rate)指標(biāo)作為評(píng)判的標(biāo)準(zhǔn)。LAMR指標(biāo)表示的是平均每張圖片誤檢數(shù)(false positive per image,F(xiàn)PPI)在[10?2,102]上與漏檢率之間的關(guān)系。在FPPI=0.1時(shí),將本文的方法與傳統(tǒng)的HOG+SVM、Latent SVM+HOG方法以及YOLOv2?tiny、YOLOv3?tiny的檢測(cè)效果進(jìn)行比較。
實(shí)驗(yàn)結(jié)果如表4所示。Ped?YOLO相對(duì)于SVM+HOG[20]方法漏檢率減少32.74%,相對(duì)于Latent SVM+HOG[21]方法漏檢率減少6.72%,相對(duì)于YOLOv2-tiny網(wǎng)絡(luò)漏檢率減少4.40%,相對(duì)于YOLOv3-tiny網(wǎng)絡(luò)漏檢率減少4.07%。原因在于,采用人工設(shè)計(jì)的特征提取器(如HOG、LBP等特征提取算法),行人特征表達(dá)不夠充分;而YOLOv2?tiny、YOLOv3?tiny雖然通過(guò)卷積網(wǎng)絡(luò)學(xué)習(xí)行人特征,但卷積網(wǎng)絡(luò)層數(shù)相對(duì)較少;而Ped-YOLO網(wǎng)絡(luò)解決了這個(gè)問(wèn)題,因此對(duì)行人特征的表達(dá)能力優(yōu)秀。
表4 精度測(cè)試結(jié)果 %
為了更加直觀地檢驗(yàn)Ped?YOLO網(wǎng)絡(luò)的有效性,本文選取INRIA測(cè)試集中圖像以及私有圖像進(jìn)行了檢測(cè)效果測(cè)試,從中挑選了3張不同行人尺寸以及存在遮擋情況的圖像在Tiny?YOLO和Ped?YOLO這2個(gè)不同的模型上分別進(jìn)行檢測(cè),其結(jié)果如圖5、6所示。
圖5 Tiny?YOLO檢測(cè)結(jié)果
圖6 Ped?YOLO檢測(cè)結(jié)果
可以看出,對(duì)于圖像中較大尺度的無(wú)遮擋行人,2種網(wǎng)絡(luò)具有相近的檢測(cè)能力;對(duì)于較小尺寸的行人,改進(jìn)的Ped?YOLO網(wǎng)絡(luò)有著較好的檢測(cè)結(jié)果,而Tiny?YOLO網(wǎng)絡(luò)則會(huì)對(duì)小尺寸行人存在漏檢的情況。此外,對(duì)于圖像中存在的部分互相遮擋的目標(biāo)行人,Tiny?YOLO的定位精度較差,且存在漏檢的情況;而Ped?YOLO網(wǎng)絡(luò)在存在部分互相遮擋的行人情況下,表現(xiàn)出了非常好的性能,有著更好的定位精度,漏檢率更低。這說(shuō)明,改進(jìn)了訓(xùn)練時(shí)的分辨率,并針對(duì)行人檢測(cè)數(shù)據(jù)集重新聚類(lèi);加深了卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),使用混合數(shù)據(jù)集,對(duì)行人的特征提取更加充分,對(duì)不同尺寸的行人以及部分遮擋的行人有更好的檢測(cè)效果。
本文以Tiny?YOLO網(wǎng)絡(luò)為基礎(chǔ),通過(guò)改變網(wǎng)絡(luò)輸入尺寸、維度聚類(lèi)分析、改進(jìn)特征提取網(wǎng)絡(luò)的方法,提出了一種改進(jìn)的Ped?YOLO的行人檢測(cè)網(wǎng)絡(luò)。
1)與傳統(tǒng)算法和Tiny?YOLO相比,Ped?YOLO網(wǎng)絡(luò)具有更低的漏檢率,Ped?YOLO網(wǎng)絡(luò)在保持了較高的檢測(cè)速度的同時(shí),對(duì)不同尺寸、存在互相遮擋的行人有更好的檢測(cè)效果。
2)本文提出的網(wǎng)絡(luò)仍然存在一些問(wèn)題,如訓(xùn)練受限于PASCAL VOC與INRIA數(shù)據(jù)集,行人訓(xùn)練樣本偏少,對(duì)小目標(biāo)行人檢測(cè)效果偏差,行人被較大范圍遮擋時(shí),模型的檢測(cè)效果也不強(qiáng)。因此,可以通過(guò)融合多類(lèi)行人檢測(cè)數(shù)據(jù)集進(jìn)行網(wǎng)絡(luò)訓(xùn)練,改善網(wǎng)絡(luò)對(duì)不同尺寸、不同環(huán)境下行人的檢測(cè)效果,增強(qiáng)模型的泛化能力。
3)在行人檢測(cè)中,由于光照、遮擋等問(wèn)題的存在,漏檢率和誤檢率仍然達(dá)不到理想的水平。因此,需要提取更多的信息提升檢測(cè)效果,如光流信息、語(yǔ)義信息等,提高特征表達(dá)能力,這也將成為行人檢測(cè)的重要發(fā)展方向。