周薇娜 孫麗華 徐志京
(上海海事大學(xué) 上海 201306)
行人檢測(cè)旨在從視頻和圖像中定位行人目標(biāo),是計(jì)算機(jī)視覺(jué)領(lǐng)域中一項(xiàng)傳統(tǒng)但又極其重要的任務(wù)。隨著時(shí)代的發(fā)展,行人檢測(cè)技術(shù)非但沒(méi)有被淘汰,反而越發(fā)在實(shí)際生活中發(fā)揮出了重要作用,獲得了越來(lái)越多的關(guān)注[1–3]?,F(xiàn)如今在大多數(shù)人工智能應(yīng)用中,例如自動(dòng)駕駛、人流統(tǒng)計(jì)、行人身份識(shí)別、行人跟蹤、行人行為動(dòng)作分析等方面,行人檢測(cè)技術(shù)都獨(dú)立或作為一個(gè)重要環(huán)節(jié)起到了獨(dú)一無(wú)二,無(wú)可替代的作用。
行人檢測(cè)技術(shù)一般主要由特征提取和目標(biāo)分類決策兩部分組成。傳統(tǒng)行人檢測(cè)算法將這兩部分分開(kāi)執(zhí)行。首先通過(guò)手工提取行人特征(包括顏色、邊緣和紋理等常用特征),然后用這些特征來(lái)訓(xùn)練好分類器后進(jìn)行檢測(cè)。手工提取特征有諸如SIFT[4]或梯度方向直方圖[5](Histogram of Oriented Gradients, HOG)等,而特征分類器,例如支持向量機(jī)[6](Support Vector Machines, SVM)、適應(yīng)提升方法[7](Adaptive Boosting, AdaBoost)和隨機(jī)森林[8](Random forest,RF)等。這種檢測(cè)方法基于滑動(dòng)窗口區(qū)域,沒(méi)有針對(duì)性,計(jì)算量大,時(shí)間復(fù)雜度高,有窗口冗余,且手工特征對(duì)于背景復(fù)雜的情況不具有很好的魯棒性?;谝陨戏治觯瑐鹘y(tǒng)方法無(wú)論在速度還是準(zhǔn)確性方面都無(wú)法在實(shí)際應(yīng)用中獲得令人滿意的結(jié)果。
基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法近年來(lái)在計(jì)算機(jī)視覺(jué)任務(wù)方面取得了重大突破[9–11],大幅度地提高了檢測(cè)算法的準(zhǔn)確率?;谏疃葘W(xué)習(xí)的行人檢測(cè)算法主要集中為兩類:
(1)兩步檢測(cè)算法:將檢測(cè)問(wèn)題分為兩個(gè)階段,第1階段生成候選區(qū)域,第2階段對(duì)候選區(qū)域做回歸和分類。這類算法的典型代表是R-CNN[12]系列算法,如R-CNN, Fast R-CNN[13]和Faster RCNN[14]等。此種基于候選區(qū)域的算法雖然精度高,但存在計(jì)算量大、運(yùn)算速度慢,不能滿足實(shí)時(shí)應(yīng)用的缺點(diǎn)。
(2)單步檢測(cè)算法:一種基于回歸的端到端的目標(biāo)檢測(cè)方法,具體包括特征提取網(wǎng)絡(luò)、邊界框回歸和分類網(wǎng)絡(luò)兩個(gè)部分。該類算法不生成候選區(qū)域,直接將數(shù)據(jù)輸入卷積神經(jīng)網(wǎng)絡(luò)。之后預(yù)測(cè)物體的邊界框信息,并對(duì)這些候選邊界框進(jìn)行判別,其中包括:對(duì)邊界框內(nèi)包含的物體的類別標(biāo)簽進(jìn)行判別、對(duì)邊界框的位置進(jìn)行回歸。典型的該類算法有YOLO算法[15–17]和SSD[18]算法。單步檢測(cè)算法打破了候選區(qū)域生成這一常規(guī)前期處理操作,從而提高了基于深度學(xué)習(xí)的目標(biāo)檢測(cè)類算法的速度,也推動(dòng)了行人檢測(cè)技術(shù)的發(fā)展。
然而,行人檢測(cè)尚有兩大難點(diǎn)是目前已有的傳統(tǒng)和深度學(xué)習(xí)還未完全解決的。一是面對(duì)多變的復(fù)雜環(huán)境,不管是依靠可見(jiàn)光還是紅外傳感器信息都難以獲得令人滿意的效果。如日常生活中常會(huì)遇見(jiàn)的煙霧、雨水、灰塵、光照度低等情況都會(huì)造成可見(jiàn)光圖像中行人目標(biāo)不可見(jiàn)或模糊不清的情況,而紅外圖像雖可以提高此種情況下圖像的質(zhì)量,但其無(wú)法描述行人特征豐富的輪廓和顏色信息,也會(huì)導(dǎo)致一些漏檢和誤檢情況。二是行人目標(biāo)的多尺度變化和小尺寸行人目標(biāo)的檢測(cè)。當(dāng)場(chǎng)景中同時(shí)存在不同尺寸的行人,或者行人目標(biāo)中存在尺寸較小、分辨率較低的個(gè)體,檢測(cè)器提取到的行人特征會(huì)更加容易受到環(huán)境背景中的噪聲干擾,將會(huì)導(dǎo)致漏檢、誤檢,這對(duì)檢測(cè)結(jié)果的準(zhǔn)確性帶來(lái)了不小的挑戰(zhàn)。因此,本文以復(fù)雜環(huán)境下的多尺度行人目標(biāo)檢測(cè)的難點(diǎn)問(wèn)題為主要研究?jī)?nèi)容,融合可見(jiàn)光和紅外圖像信息,結(jié)合深度學(xué)習(xí)和多尺度信息提取技術(shù)提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的融合行人檢測(cè)網(wǎng)絡(luò)(FPDNet)。
本文所提出的方法具有以下幾個(gè)方面的特色和創(chuàng)新:(1) 設(shè)計(jì)并搭建了一個(gè)精簡(jiǎn)的特征提取骨干網(wǎng)絡(luò),包括基于殘差結(jié)構(gòu)的骨干基礎(chǔ)網(wǎng)絡(luò)和金字塔池化層,提高了網(wǎng)絡(luò)對(duì)目標(biāo)的檢測(cè)效果;(2) 在網(wǎng)絡(luò)檢測(cè)結(jié)構(gòu)中采用多尺度檢測(cè)技術(shù),來(lái)應(yīng)對(duì)行人目標(biāo)的尺寸變化,尤其改善了小尺寸行人目標(biāo)的檢測(cè)效果;(3) 決策融合可見(jiàn)光和紅外圖像信息,為網(wǎng)絡(luò)提供更豐富可靠的行人目標(biāo)特征,使得整個(gè)網(wǎng)絡(luò)在多變復(fù)雜環(huán)境中更具魯棒性。
本文提出的融合行人檢測(cè)網(wǎng)絡(luò)FPDNet頂層框圖如圖1所示??梢?jiàn)光和紅外圖像由多尺度檢測(cè)網(wǎng)絡(luò)得到特征分類結(jié)果后,經(jīng)過(guò)決策融合模塊得到最終的檢測(cè)結(jié)果。而多尺度檢測(cè)網(wǎng)絡(luò),又主要由特征提取骨干網(wǎng)絡(luò)和多尺度檢測(cè)模塊構(gòu)成(詳見(jiàn)圖2)。因此整個(gè)算法網(wǎng)絡(luò)的主要模塊包括特征提取骨干網(wǎng)絡(luò)、多尺度檢測(cè)和信息決策融合3部分。
圖1 FPDNet頂層框圖
圖2 多尺度檢測(cè)網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu)圖
如上一小節(jié)所述,單步檢測(cè)深度學(xué)習(xí)網(wǎng)絡(luò)具有較高的檢測(cè)率和速度。單步檢測(cè)法中又以YOLO算法執(zhí)行最為高效,其YOLOv3版本可以通過(guò)強(qiáng)大的GPU實(shí)現(xiàn)實(shí)時(shí)目標(biāo)檢測(cè),在行人檢測(cè)上占有明顯的優(yōu)勢(shì)。但YOLOv3使用的Darknet-53網(wǎng)絡(luò)并不適合單一類別物體的檢測(cè),過(guò)深和冗余的網(wǎng)絡(luò)結(jié)構(gòu),造成網(wǎng)絡(luò)收斂速度較慢,增大了訓(xùn)練過(guò)程的時(shí)間開(kāi)銷,增加了目標(biāo)細(xì)節(jié)特征信息丟失的可能性。對(duì)于骨干網(wǎng)絡(luò),參數(shù)過(guò)多會(huì)導(dǎo)致檢測(cè)模型訓(xùn)練復(fù)雜化,增加對(duì)輸入數(shù)據(jù)量的需求,檢測(cè)速度也會(huì)降低。YOLOv3-tiny[17]為YOLOv3的精簡(jiǎn)版本,由于使用了更少的卷積層,檢測(cè)速率得到了提高。然而,YOLOv3-tiny檢測(cè)精度卻下降得很厲害。針對(duì)這些不足,本文建立了一個(gè)改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)框架作為行人檢測(cè)模型的特征提取網(wǎng)絡(luò),解決了檢測(cè)精度和參數(shù)冗余互為矛盾的問(wèn)題。該特征提取骨干網(wǎng)絡(luò)分為骨干基礎(chǔ)網(wǎng)絡(luò)和金字塔池化層[19](Spatial Pyramid Pooling, SPP)網(wǎng)絡(luò)兩個(gè)部分。
(1)骨干基礎(chǔ)網(wǎng)絡(luò):骨干基礎(chǔ)網(wǎng)絡(luò)以ResNet[20]為基礎(chǔ),基礎(chǔ)網(wǎng)絡(luò)基本單元如圖3所示。對(duì)于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò),若輸入為x,學(xué)習(xí)到的特征輸出H(x)=x,為恒等映射。本文中骨干基礎(chǔ)網(wǎng)絡(luò)的核心思想是將網(wǎng)絡(luò)的輸出分為恒等映射(Identity Mapping)和殘差映射(Residual Mapping)兩部分,即輸出H(x)=x+F(x)。網(wǎng)絡(luò)將學(xué)習(xí)目標(biāo)改變,學(xué)習(xí)的將是期望輸出和輸入的殘差F(x),因此,接下來(lái)的訓(xùn)練方向就是要隨著網(wǎng)絡(luò)加深,準(zhǔn)確率不下降的情況下,將殘差F(x)逼近于零。
圖3 骨干基礎(chǔ)網(wǎng)絡(luò)基本單元
骨干基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)如表1所示,網(wǎng)絡(luò)輸入維度為416×416×3,包括Conv(卷積層),Max(最大池化層)和Res(殘差層)。左邊第1列的3, 4, 2等數(shù)字表示對(duì)應(yīng)模塊的重復(fù)次數(shù),Res層執(zhí)行快捷連接操作。ResNet結(jié)構(gòu)可以很好地控制梯度的傳播,避免訓(xùn)練中發(fā)生梯度消失或爆炸。其將卷積神經(jīng)網(wǎng)絡(luò)的逐層訓(xùn)練改為了逐階段訓(xùn)練,網(wǎng)絡(luò)被分為若干個(gè)子段,其中包含比較淺的網(wǎng)絡(luò),然后用快捷連接的方式對(duì)每個(gè)小段訓(xùn)練。這種訓(xùn)練方式解決了特征信息在網(wǎng)絡(luò)中傳遞時(shí)信息丟失損耗的問(wèn)題,一定程度上保護(hù)了信息的完整性,降低了目標(biāo)特征學(xué)習(xí)的難度。并且從表1中可以看出,該骨干基礎(chǔ)網(wǎng)絡(luò)參數(shù)相對(duì)較少,因此能提高收斂速度,降低整體網(wǎng)絡(luò)訓(xùn)練的難度。
表1 骨干基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)表
(2)金字塔池化層:區(qū)別于YOLOv3結(jié)構(gòu)在特征提取網(wǎng)絡(luò)之后直接連接預(yù)測(cè)網(wǎng)絡(luò),而忽略了同一層卷積上對(duì)每一張圖像多方面的特征提取,本文在骨干基礎(chǔ)網(wǎng)絡(luò)之后,引入一個(gè)金字塔池化層(SPP),以提高其檢測(cè)精度。它可以將圖像從較精細(xì)的層次劃分為較粗的層次,并在所有層次上聚合局部特征。
如圖4所示,SPP層由3個(gè)最大池化層組成,本文將池化層網(wǎng)絡(luò)中使用的卷積核大小設(shè)計(jì)為5×5,9×9和13×13。在本文的結(jié)構(gòu)中,所有這些不同尺寸的最大池化層會(huì)通過(guò)填充操作進(jìn)行結(jié)果對(duì)齊,使具有相同大小的輸出。然后將所有合并后的輸出特征圖連接起來(lái)作為下一個(gè)卷積層的輸入。網(wǎng)絡(luò)從不同的空間尺度對(duì)特征圖進(jìn)行特征提取,再組合,更多空間信息通過(guò)卷積運(yùn)算被充分利用,能進(jìn)一步提高行人目標(biāo)的檢測(cè)精度,增強(qiáng)了算法的魯棒性。
圖4 SPP層結(jié)構(gòu)
行人檢測(cè)的一個(gè)難點(diǎn)在于不同尺寸,尤其是小尺寸行人目標(biāo)的檢測(cè)。由于物體細(xì)節(jié)特征的豐富性和具體程度與其所占像素?cái)?shù)量基本成正比,小目標(biāo)特征不易提取,從而會(huì)導(dǎo)致整體檢測(cè)率的下降。在目標(biāo)檢測(cè)中,語(yǔ)義特征是指區(qū)分背景和目標(biāo)對(duì)象的信息。對(duì)于卷積神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),不同的網(wǎng)絡(luò)深度對(duì)應(yīng)不同層次的特征,細(xì)粒度特征更容易在分辨率高的淺層網(wǎng)絡(luò)學(xué)到,分辨率較低的深層網(wǎng)絡(luò)則學(xué)到的更多的是語(yǔ)義特征。針對(duì)弱小行人目標(biāo),由于小尺度的特征圖中無(wú)法提供所需的分辨率信息,還需聯(lián)合大尺度的特征圖進(jìn)行判斷,增加特征層之間的互補(bǔ)性。因此本文采用了3個(gè)不同尺度(13×13, 26×26和104×104)的特征圖來(lái)進(jìn)行行人檢測(cè)。如圖5所示,本文從網(wǎng)絡(luò)中前兩個(gè)圖層中得到特征圖,并對(duì)它進(jìn)行兩次上采樣操作。再根據(jù)網(wǎng)絡(luò)更早的圖層中獲得的特征圖,把高低兩種分辨率的特征圖連接到一起,增強(qiáng)底層特征圖對(duì)行人目標(biāo)特征的描述能力。通過(guò)這種方式,上采樣的特征中更多的語(yǔ)義信息將被利用,也能從網(wǎng)絡(luò)中較低層的特征映射圖中獲得檢測(cè)目標(biāo)更細(xì)粒度的信息。每個(gè)檢測(cè)層分配3個(gè)錨箱(anchor)來(lái)預(yù)測(cè)目標(biāo)候選框信息(包括中心坐標(biāo)位置,框的高度和寬度)、1個(gè)目標(biāo)置信度值和它的類別概率,最后比較9種尺寸的檢測(cè)結(jié)果,通過(guò)非極大值抑制方法確定最終檢測(cè)結(jié)果。
圖5 多尺度檢測(cè)模塊
可見(jiàn)光圖像在光線良好、目標(biāo)不被遮擋的情況下,能較為準(zhǔn)確地反映目標(biāo)的特征信息;而紅外圖像不易受光照度和煙雨、霧霾等復(fù)雜環(huán)境的影響,可以適應(yīng)日夜連續(xù)監(jiān)測(cè)。本文充分利用可見(jiàn)光和紅外圖像各自的優(yōu)勢(shì)特點(diǎn),采用圖像決策融合的方法來(lái)實(shí)現(xiàn)兩種圖像中行人特征信息的互補(bǔ),充分利用多個(gè)信息源的細(xì)節(jié)特征,從更周全、準(zhǔn)確和可靠的角度來(lái)描述檢測(cè)目標(biāo),以此來(lái)提高行人目標(biāo)在復(fù)雜環(huán)境變化中的識(shí)別準(zhǔn)確度。決策融合檢測(cè)方法對(duì)前期數(shù)據(jù)要求低,并且具有良好的實(shí)時(shí)性和容錯(cuò)性,可以更好地克服單一傳感器造成的誤差。本文基于決策融合的行人目標(biāo)檢測(cè)方法的具體流程如圖6所示。
圖6 基于決策融合的目標(biāo)檢測(cè)流程
從圖6中可以看到,當(dāng)前期特征提取網(wǎng)絡(luò)訓(xùn)練得到兩個(gè)獨(dú)立的區(qū)域特征分類模塊后,在決策融合層對(duì)兩個(gè)獨(dú)立的分類模塊預(yù)測(cè)的置信度采用Softmax[21]分類,如式(1)所示。將具有最高預(yù)測(cè)概率的類別作為包含在預(yù)測(cè)邊界框中物體的類別,最后輸出決策融合的檢測(cè)類別結(jié)果。式中p為對(duì)應(yīng)的預(yù)測(cè)概率,x為分類模塊的預(yù)測(cè)值,i表示序號(hào),j表示分類數(shù)目。基于決策級(jí)融合的檢測(cè)算法效率較高,可以實(shí)現(xiàn)多波段圖像的信息互補(bǔ),比基于單一類別的可見(jiàn)光或紅外圖像的行人檢測(cè)器更具穩(wěn)健性,而且方便實(shí)現(xiàn),運(yùn)算速度較快,能滿足實(shí)時(shí)檢測(cè)的需求。這些都為行人檢測(cè)在多變復(fù)雜環(huán)境中的實(shí)際應(yīng)用奠定了基礎(chǔ)。
本文所做實(shí)驗(yàn)的硬件配置為Intel i7 8700k處理器、NVIDIA TITAN XP 顯卡、64 GB RAM的服務(wù)器,軟件環(huán)境為Ubuntu16.04系統(tǒng)、Darknet框架。
實(shí)驗(yàn)所采用的訓(xùn)練和測(cè)試數(shù)據(jù)主要來(lái)源于KAIST[22]行人數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)包含了校園、街道等各種常見(jiàn)生活和交通場(chǎng)景,并且包含了豐富的白天和夜晚各種天氣下的環(huán)境,能代表絕大多數(shù)實(shí)際生活中會(huì)碰到的復(fù)雜情況。行人與鏡頭的距離也各有不同,行人目標(biāo)被分為3種尺度,即大于80像素的大尺度行人目標(biāo),30~80像素的中等尺寸行人目標(biāo)和不在少數(shù)的小于30像素的小尺寸行人目標(biāo)。該數(shù)據(jù)庫(kù)分為set01~set09 共9個(gè)子集針對(duì)復(fù)雜環(huán)境下多尺度行人檢測(cè)的研究需求,在保留訓(xùn)練樣本多樣性的前提下,為縮短訓(xùn)練時(shí)間,精簡(jiǎn)訓(xùn)練樣本,本文選取了set05和set09文件夾中的可見(jiàn)光和紅外圖像作為數(shù)據(jù)樣本,并剔除了其中空對(duì)象。最終本文的數(shù)據(jù)集總共包括2783對(duì)圖像,訓(xùn)練集和測(cè)試集樣本的分配比例為7:3。
本文在FPDNet檢測(cè)模型中使用了3個(gè)尺度的目標(biāo)檢測(cè)層,尺寸分別為13像素×13像素、26像素×26像素和104像素×104像素。對(duì)于每個(gè)檢測(cè)層,分別使用3種尺寸錨箱,即共9種尺寸的錨箱,通過(guò)聚類輸入圖像的真實(shí)邊界框參考值來(lái)檢測(cè)行人目標(biāo)。在訓(xùn)練模型前,首先根據(jù)已經(jīng)標(biāo)注了邊界框的數(shù)據(jù)集,用K-means聚類算法[23]得出初始的錨箱尺寸和比例,具體候選框的高度和寬度如表2所示。
表2 候選框的寬度和高度表
訓(xùn)練過(guò)程中本文使用的是隨機(jī)梯度下降法[24],設(shè)定初始學(xué)習(xí)率為0.001,動(dòng)量(momentum)為0.9,權(quán)重衰減(decay)為0.005,批大小(batchsize)為16,使用0.001 的學(xué)習(xí)率迭代訓(xùn)練數(shù)據(jù)12000次,然后再用0.0001的學(xué)習(xí)率迭代到18000 次,最后用0.00001 的學(xué)習(xí)率迭代到20000 次。正負(fù)樣本的IOU[25](Intersection Over Union)設(shè)置為0.5,即大于此閾值就設(shè)定為正樣本,否則設(shè)定為負(fù)樣本。
3.4.1 與基于單可見(jiàn)光或紅外圖像的算法在檢測(cè)效果上的直觀視覺(jué)比較
為了更直觀證明本文提出的融合思想的有效性,將決策融合后的檢測(cè)結(jié)果與基于單傳感器的檢測(cè)結(jié)果進(jìn)行對(duì)比。我們?cè)跀?shù)據(jù)集中選取了4幅圖像來(lái)代表4類比較典型的生活場(chǎng)景下多尺度行人的圖像。4幅圖像如圖7所示,其中圖7(a)、圖7(b)中的行人較為密集,大、小尺寸的目標(biāo)兼有,并有相互遮擋的情況。圖7(c)中行人目標(biāo)較小,目標(biāo)特征不明顯,難以辨認(rèn)。圖7(d)中行人目標(biāo)尺寸相對(duì)正常,作為對(duì)比。
圖8顯示了對(duì)圖7中幾幅圖像或其相對(duì)紅外圖像進(jìn)行行人檢測(cè)的結(jié)果,其中圖8(a1), (b1), (c1),(d1)為基于可見(jiàn)光圖像的行人檢測(cè)結(jié)果圖,圖8(a2),(b2), (c2), (d2)為基于相對(duì)紅外圖像的行人檢測(cè)結(jié)果圖,圖8(a3), (b3), (c3), (d3)為基于本文提出的FPDNet的檢測(cè)結(jié)果圖。
圖7 4幅行人檢測(cè)實(shí)驗(yàn)圖
圖8 融合檢測(cè)效果對(duì)比圖
由圖8對(duì)同一幅圖像的處理效果對(duì)比得出,單一行人檢測(cè)器對(duì)行人目標(biāo)均有一定程度的丟失,融合檢測(cè)能夠適應(yīng)多種檢測(cè)環(huán)境,取得較好的效果。如圖8(a1)可見(jiàn)光圖像中未檢測(cè)出人群中的小目標(biāo)。圖8(b2)和圖8(c2)紅外圖像中均漏檢了一個(gè)小目標(biāo),而只有目標(biāo)尺度較大,較為明顯的圖7(d)圖的檢測(cè)結(jié)果,不論是可見(jiàn)光還是紅外圖像均檢測(cè)出了目標(biāo),但紅外的結(jié)果更為顯著。
3.4.2 與其他基于融合的算法在檢測(cè)指標(biāo)上的比較分析
本文采用mAP(mean Average Precision)指標(biāo)反映目標(biāo)檢測(cè)精度,fps(frame per second)為每秒的檢測(cè)幀數(shù),代表目標(biāo)檢測(cè)速度。式(2)和式(3)為mAP的計(jì)算公式,其中AP表示單一類別的檢測(cè)精度;R表示數(shù)據(jù)集中某個(gè)類別所有目標(biāo)的數(shù)量;n表示數(shù)據(jù)集中所有目標(biāo)的數(shù)量;j表示目標(biāo)的序號(hào),若與真實(shí)值相關(guān),Ij為1,否則Ij為0;而Rj是前j個(gè)目標(biāo)中相關(guān)目標(biāo)的數(shù)量。q表示某一類別;QR表示總的類別數(shù)量。mAP值介于0~1之間,值越大表示該算法的檢測(cè)精度越高。
表3顯示了ACF+T+THOG[26], HalFus+TSDCNN[27], TSDCNN+Ada[28], SSD, YOLOv3和YOLOv3-tiny算法與本文的FPDNet多尺度融合行人檢測(cè)網(wǎng)絡(luò)的檢測(cè)性能比較結(jié)果。7種模型均使用了同一種數(shù)據(jù)集數(shù)據(jù)進(jìn)行訓(xùn)練和測(cè)試。實(shí)驗(yàn)結(jié)果表明,本文的檢測(cè)網(wǎng)絡(luò)在準(zhǔn)確性方面與擁有最高準(zhǔn)確度的YOLOv3模型相差不大,但其檢測(cè)速度卻比Y O L O v 3 有了明顯提高。在速度方面僅次于YOLOv3-tiny,但比YOLOv3-tiny的檢測(cè)精度提高了超過(guò)10%。而其他模型的檢測(cè)效果與本文算法相比,在檢測(cè)率和速度上均無(wú)法抗衡。綜合在檢測(cè)精度和速度兩方面的表現(xiàn),本文采用的FPDNet與其他幾種常用的目標(biāo)檢測(cè)模型相比,具有最佳的檢測(cè)效果??紤]到實(shí)際生活中對(duì)行人檢測(cè)算法在對(duì)檢測(cè)速度和準(zhǔn)確性上的雙重要求,本文算法顯然更有利于應(yīng)用在實(shí)際相關(guān)領(lǐng)域中。
表3 網(wǎng)絡(luò)模型的對(duì)比結(jié)果表
本文提出了一種能在復(fù)雜背景環(huán)境中對(duì)多尺度行人目標(biāo)進(jìn)行高效檢測(cè)的算法––融合的行人目標(biāo)檢測(cè)網(wǎng)絡(luò)(FPDNet)。本文算法提出的特征提取骨干網(wǎng)絡(luò),其精簡(jiǎn)的參數(shù)量改善了檢測(cè)算法的檢測(cè)效率;針對(duì)行人目標(biāo)的尺度變化,在網(wǎng)絡(luò)結(jié)構(gòu)中采用了多尺度檢測(cè)技術(shù),尤其改善了小尺寸行人目標(biāo)的檢測(cè)效果;此外,算法利用可見(jiàn)光圖像和紅外圖像中目標(biāo)特征的差異,決策融合了從可見(jiàn)光和紅外圖像中提取的行人目標(biāo)信息,使得檢測(cè)更具魯棒性。實(shí)驗(yàn)結(jié)果表明,相對(duì)于單一紅外或可見(jiàn)光行人檢測(cè)器,以及其他常見(jiàn)的目標(biāo)檢測(cè)算法,F(xiàn)PDNet不僅在檢測(cè)精確度上表現(xiàn)良好,且具備實(shí)時(shí)應(yīng)用性,可以更好地應(yīng)對(duì)多變復(fù)雜場(chǎng)景和環(huán)境下的多行人目標(biāo)檢測(cè)問(wèn)題。