• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      結(jié)合語(yǔ)義和多層特征融合的行人檢測(cè)

      2022-02-17 10:49:50周子博
      自動(dòng)化學(xué)報(bào) 2022年1期
      關(guān)鍵詞:行人語(yǔ)義像素

      儲(chǔ) 珺 束 雯 周子博 繆 君 冷 璐

      行人檢測(cè)是目標(biāo)檢測(cè)領(lǐng)域研究最廣泛的任務(wù)之一,也一直是計(jì)算機(jī)視覺(jué)任務(wù)中的熱點(diǎn)和難點(diǎn).行人檢測(cè)任務(wù)是給出圖像或視頻中所有行人的位置和大小,一般用矩形框標(biāo)注.行人檢測(cè)技術(shù)可以與目標(biāo)跟蹤[1]、行人重識(shí)別[2]等技術(shù)結(jié)合,應(yīng)用于汽車(chē)無(wú)人駕駛系統(tǒng)[3]、智能視頻監(jiān)控[4]、人體行為分析[5]等領(lǐng)域.在實(shí)際場(chǎng)景中,由于行人與物體、行人間互相遮擋以及交通標(biāo)志、櫥窗中的模特等相似信息的干擾,行人檢測(cè)任務(wù)仍然存在很大的挑戰(zhàn)[6].

      行人檢測(cè)是目標(biāo)檢測(cè)中的一種特例,現(xiàn)階段的很多行人檢測(cè)算法都以目標(biāo)檢測(cè)框架為基礎(chǔ).快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)[7](Fast region convolutional neural network,Fast R-CNN)和更快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)[8](Faster region convolutional neural network,Faster R-CNN)是目標(biāo)檢測(cè)[9?11]和行人檢測(cè)[12?14]中被廣泛采用的基礎(chǔ)框架,目前在Caltech[15]行人檢測(cè)數(shù)據(jù)集上效果較好的算法大多是基于這兩個(gè)框架.如多尺度卷積神經(jīng)網(wǎng)絡(luò)[10](Multi-scale convolutional neural network,MS-CNN)和尺度感知的快速卷積神經(jīng)網(wǎng)絡(luò)[12](Scale-aware fast region convolutional neural network,SAFastRCNN)分別基于Faster R-CNN 和Fast RCNN 框架強(qiáng)調(diào)了尺度問(wèn)題,針對(duì)不同尺寸的行人特征設(shè)計(jì)了不同尺度的子網(wǎng)絡(luò).

      Zhang 等[13]證明了Faster R-CNN 的候選區(qū)域網(wǎng)絡(luò)(Region proposal network,RPN)對(duì)提取行人候選區(qū)域的有效性.但同時(shí)也指出基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(Region-based convolutional neural network,R-CNN)在分類(lèi)階段,由于高層卷積特征圖分辨率降低,小尺寸的行人無(wú)法得到有效的描述,會(huì)降低檢測(cè)的總體性能.因此提出一種結(jié)合候選區(qū)域網(wǎng)絡(luò)與決策森林(Region proposal network +boosted forests,RPN+BF)的算法.該算法用RPN 提取候選區(qū)域,然后用決策森林對(duì)候選區(qū)域進(jìn)行分類(lèi),有效緩解了上述問(wèn)題.同樣,針對(duì)Faster RCNN 中小尺寸行人檢測(cè)效果不佳的問(wèn)題,Zhang 等[14]提出自適應(yīng)更快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò) (AdaptFasterRCNN),通過(guò)量化RPN 尺度、增大上采樣因子、微調(diào)特征步幅、處理被忽略區(qū)域和調(diào)整損失函數(shù)的方式,進(jìn)一步提升了檢測(cè)效果.Yun 等[16]提出一種基于顯著性和邊界框?qū)R的部分卷積神經(jīng)網(wǎng)絡(luò)(Part-level convolutional neural network,PLCNN),其用RPN 提取候選區(qū)域,對(duì)特征圖中前景和背景設(shè)置不同的權(quán)重來(lái)消除背景干擾引起的誤檢,有效解決了行人檢測(cè)中遮擋和復(fù)雜背景干擾等問(wèn)題.

      目標(biāo)檢測(cè)算法的設(shè)計(jì)是為了更好地定位不同的對(duì)象,檢測(cè)過(guò)程中只用矩形框標(biāo)注目標(biāo)的位置,通常不提供目標(biāo)的邊界信息.語(yǔ)義分割能逐像素地定位目標(biāo)的邊界,將檢測(cè)和分割聯(lián)合,使用基于區(qū)域的分割方法提取特征,自上而下地聚類(lèi)計(jì)算候選區(qū)域,能有效改進(jìn)目標(biāo)檢測(cè)的性能[17].Hariharan 等[18]首次提出將分割與檢測(cè)同時(shí)用于行人檢測(cè),與文獻(xiàn)[17]一樣采用自上而下的分割方法,不同的是使用多尺度組合分組[19](Multi-scale combinatorial grouping,MCG)作為分割的候選區(qū)域.Wang 等[20]提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的結(jié)合部件與上下文信息(Part and context information with convolutional neural network,PCN)的算法,部件分支利用行人的語(yǔ)義信息來(lái)精準(zhǔn)分類(lèi),對(duì)被嚴(yán)重遮擋的行人具有良好的檢測(cè)效果.Du 等[21]提出深層神經(jīng)網(wǎng)絡(luò)融合(Fused deep neural network,F-DNN)的架構(gòu),主要由行人候選區(qū)域生成器、分類(lèi)網(wǎng)絡(luò)和像素級(jí)別語(yǔ)義分割網(wǎng)絡(luò)組成.該算法在語(yǔ)義分割網(wǎng)絡(luò)中使用掩膜增強(qiáng)行人特征,降低行人檢測(cè)的漏檢率(Miss rate,MR),缺點(diǎn)是架構(gòu)結(jié)構(gòu)復(fù)雜,提高了精度,但犧牲了速度.

      上述行人檢測(cè)方法雖然添加了語(yǔ)義分割以解決遮擋及背景干擾等問(wèn)題,但把語(yǔ)義分割作為一個(gè)獨(dú)立的任務(wù)來(lái)設(shè)計(jì)額外的分割網(wǎng)絡(luò),計(jì)算復(fù)雜.并且在檢測(cè)過(guò)程中沒(méi)有針對(duì)漏檢和誤檢問(wèn)題設(shè)計(jì)獨(dú)立模塊.因此,本文提出一種新的利用語(yǔ)義分割來(lái)增強(qiáng)檢測(cè)效果的行人檢測(cè)框架,將語(yǔ)義分割掩膜融合到共享層,增強(qiáng)行人特征,解決行人的漏檢和誤檢問(wèn)題.由于不增加單獨(dú)的語(yǔ)義分割網(wǎng)絡(luò),因此基本不增加模型的計(jì)算復(fù)雜度.在RPN 的回歸分支中用VGG-16[22]構(gòu)建一個(gè)輕量的二次檢測(cè)模塊,解決前一模塊初步檢測(cè)的誤檢問(wèn)題,并且對(duì)前一次檢測(cè)的結(jié)果進(jìn)行二次回歸.

      本文的主要?jiǎng)?chuàng)新點(diǎn)包括:

      1) 提出一種新的結(jié)合語(yǔ)義和多層特征融合(Combining semantics with multi-level feature fusion,CSMFF)的行人檢測(cè)算法.增加了行人特征增強(qiáng)模塊(Pedestrian feature enhancement module,PFEM)和行人二次檢測(cè)模塊(Pedestrian secondary detection module,PSDM),將語(yǔ)義分割掩膜融合到共享層,有效抑制背景信息的干擾和解決不同程度的遮擋問(wèn)題,并在此基礎(chǔ)上通過(guò)二次檢測(cè)和回歸減少誤檢,提高定位精度.

      2)在多層特征融合的基礎(chǔ)上結(jié)合語(yǔ)義分割,將骨干網(wǎng)絡(luò)的淺層特征像素信息與深層特征語(yǔ)義信息進(jìn)行融合,有效提高了小尺寸行人的檢測(cè)性能.

      3)行人特征增強(qiáng)模塊可以很方便地嵌入到已有檢測(cè)框架,基本不增加運(yùn)算復(fù)雜度.

      1 本文算法

      提出的CSMFF 行人檢測(cè)算法除骨干網(wǎng)絡(luò)外由兩個(gè)關(guān)鍵部分組成:行人特征增強(qiáng)模塊和行人二次檢測(cè)模塊.

      行人特征增強(qiáng)模塊在Faster R-CNN 的RPN之前添加語(yǔ)義分割分支,得到以目標(biāo)框?yàn)檫吔绲姆指钛谀?即對(duì)骨干網(wǎng)絡(luò)采用多層特征融合,在此基礎(chǔ)上用1 × 1 卷積實(shí)現(xiàn)分割.分割時(shí)逐像素遍歷圖像中每個(gè)像素點(diǎn),并對(duì)每個(gè)像素點(diǎn)單獨(dú)預(yù)測(cè)和分類(lèi),形成語(yǔ)義分割掩膜.分割掩膜通過(guò)編碼得到語(yǔ)義信息,映射到骨干網(wǎng)絡(luò)的深層特征作為RPN 的輸入.

      行人二次檢測(cè)模塊添加在RPN 的回歸分支上,同樣對(duì)多層特征融合后添加語(yǔ)義分割分支,用來(lái)解決PFEM 初步檢測(cè)的誤檢問(wèn)題,并對(duì)初次檢測(cè)結(jié)果進(jìn)行二次回歸.CSMFF 框架的流程如圖1 所示.

      圖1 本文算法框架Fig.1 Overview of our proposed framework

      1.1 行人特征增強(qiáng)模塊

      淺層卷積產(chǎn)生的特征圖包含更多像素信息,有較高的空間分辨率,行人的輪廓更加清晰,用來(lái)定位行人會(huì)更準(zhǔn)確.深層卷積產(chǎn)生的特征圖則包含更多的語(yǔ)義信息,用于行人的檢測(cè)會(huì)更精確.所以文中在分割時(shí)把多個(gè)卷積特征的融合特征作為分割的輸入特征.

      行人特征增強(qiáng)模塊采用的骨干網(wǎng)絡(luò)是VGG-16,用卷積的前5 層來(lái)提取特征.不同卷積層生成的特征圖表示不同尺度的行人,卷積層越深,特征圖的尺寸就越小,因此,需要對(duì)不同的卷積層采用不同的采樣策略.具體做法為:保持Conv2_2 層的特征圖尺寸不變(112 × 112 像素),在Conv3_3 層和Conv4_3 層上分別添加一個(gè)2 × 2 和4 × 4 的反卷積對(duì)特征圖進(jìn)行上采樣,記為Dconv3_3 和Dconv4_3.然后將Dconv3_3、Dconv4_3 與Conv2 輸出的特征圖進(jìn)行級(jí)聯(lián),生成多層特征融合層,記為融合1 層.為獲得較好的語(yǔ)義特征映射,在融合1 層上添加由1 × 1 的卷積構(gòu)成的語(yǔ)義分割分支,用于預(yù)測(cè)輸入圖像在采樣分辨率上每個(gè)像素的類(lèi)別,記為分割1 層.語(yǔ)義分割層形成的行人掩膜有效抑制了背景信息的干擾,并且網(wǎng)絡(luò)加深時(shí),語(yǔ)義信息會(huì)隨之進(jìn)入到卷積層.利用分割的掩膜獲取語(yǔ)義特征映射后,將其與相應(yīng)的卷積特征圖連接作為行人分類(lèi)的最終特征.具體為分割1 層與Conv5_3 層特征映射相加連接,記為融合2 層,最終輸入RPN 網(wǎng)絡(luò).

      現(xiàn)階段的行人檢測(cè)數(shù)據(jù)集大都缺乏基于物體輪廓為邊界的逐像素語(yǔ)義標(biāo)注,無(wú)法正常對(duì)其進(jìn)行訓(xùn)練.而且隨著卷積網(wǎng)絡(luò)的加深,圖像的尺寸在經(jīng)過(guò)多個(gè)池化層后越變?cè)叫?對(duì)于被嚴(yán)重遮擋的行人和小目標(biāo)來(lái)說(shuō),使用物體輪廓和目標(biāo)框作為邊界的逐像素標(biāo)注的差異已經(jīng)微乎其微.圖2 比較了在Conv5_3 層后分別采用基于物體輪廓和目標(biāo)框?yàn)檫吔绲闹鹣袼胤指罱Y(jié)果.從圖2 (b)和圖2 (c)來(lái)看,兩者相差不大.并且我們的分割只是用來(lái)輔助檢測(cè),無(wú)需分割出行人的精確形狀,所以文中選擇基于目標(biāo)框?yàn)檫吔绲闹鹣袼胤指罘绞?訓(xùn)練時(shí)利用訓(xùn)練數(shù)據(jù)集中行人的標(biāo)注信息(坐標(biāo)、寬、高)形成基于目標(biāo)框式的分割區(qū)域,作為行人分割的標(biāo)注.

      圖2 基于目標(biāo)框和物體輪廓為邊界的逐像素分割結(jié)果Fig.2 The pixel-by-pixel segmentation results based on object box boundary and object contour boundary

      隨著卷積網(wǎng)絡(luò)的加深,網(wǎng)絡(luò)訓(xùn)練越來(lái)越困難,收斂也越來(lái)越慢.前期有很多方法可以解決該問(wèn)題,如修正線性單元激活函數(shù)[23](Rectified linear unit,ReLU)、殘差網(wǎng)絡(luò)[24](Residual network,ResNet)以及梯度下降法[25](Gradient descent,GD).盡管這些方法訓(xùn)練神經(jīng)網(wǎng)絡(luò)非常簡(jiǎn)單高效,但是需要人為地選擇參數(shù),如學(xué)習(xí)率、參數(shù)初始化、權(quán)重衰減系數(shù)等,而且這些參數(shù)的選擇對(duì)于訓(xùn)練結(jié)果至關(guān)重要,需要花費(fèi)很多時(shí)間在參數(shù)調(diào)整上.本文使用Batch-Norm 層[26]來(lái)解決該問(wèn)題,具體是在Conv2~Conv5 每一個(gè)卷積層中添加BatchNorm 層,采用的BatchNorm 層位于卷積層和激活層中間.

      圖3 是行人特征增強(qiáng)模塊在添加語(yǔ)義分割前后Conv5_3 層的特征可視化對(duì)比,圖中差異明顯的地方用矩形方框做了相應(yīng)的標(biāo)記.第1 行是Caltech 數(shù)據(jù)集部分測(cè)試圖像結(jié)果,第2 行是骨干網(wǎng)絡(luò)Conv5_3 層的特征圖,第3 行是在Conv5_3 層上添加本文語(yǔ)義分割分支的特征圖,第4 行是融合多層特征后添加語(yǔ)義分割分支的特征圖.通過(guò)對(duì)比可以看出,受背景和行人較為相似、行人被遮擋等因素影響,行人在骨干網(wǎng)絡(luò)Conv5_3 層的特征不明顯.添加了本文的語(yǔ)義分割分支后,行人特征增強(qiáng),但當(dāng)目標(biāo)比較小時(shí),增強(qiáng)效果不太明顯(第3 行方框).在提出的融合語(yǔ)義和多層卷積特征后,行人特征增強(qiáng)更加明顯(第4 行方框).驗(yàn)證了CSMFF 可以更好地區(qū)分行人與背景區(qū)域.

      圖3 添加語(yǔ)義分割前后Conv5_3 層的特征可視化對(duì)比Fig.3 Visual comparison of features of Conv5_3 layer before and after adding semantic segmentation

      1.2 PFEM 損失函數(shù)

      PFEM 模塊訓(xùn)練時(shí)的損失函數(shù)包含三個(gè)部分:分類(lèi)損失、回歸損失和分割損失.分類(lèi)損失和回歸損失與一般的目標(biāo)檢測(cè)器一致.分割在本文是一個(gè)二分類(lèi)的輔助檢測(cè)工作,與一般的分割方法不同,此處分割損失也采用與分類(lèi)損失一樣的損失函數(shù).PFEM 的總損失函數(shù)如下:

      式中,α是PFEM 模塊中回歸的損失權(quán)重,在實(shí)驗(yàn)中,α=5.

      1)Lcls為分類(lèi)損失函數(shù):

      式中,pi表示分類(lèi)時(shí)第i個(gè)錨(anchor)框?yàn)樾腥说母怕?表示第i個(gè)標(biāo)記框?yàn)樾腥说母怕?當(dāng)?shù)趇個(gè)anchor框與標(biāo)記框的交并比大于等于0.5時(shí),說(shuō)明預(yù)測(cè)的是正樣本,即是行人,,否則=0.

      2)Lreg為回歸損失函數(shù):

      3)Lseg為分割損失函數(shù):

      1.3 行人二次檢測(cè)模塊

      PFEM 模塊增加了分割分支,將分割得到的語(yǔ)義信息和骨干網(wǎng)絡(luò)Conv5_3 層特征融合,通過(guò)RPN網(wǎng)絡(luò)提取候選區(qū)域,再經(jīng)過(guò)分類(lèi)和回歸得到初步的檢測(cè)結(jié)果.其中,分割語(yǔ)義信息增強(qiáng)行人特征,抑制背景信息,可以減少相似背景干擾,同時(shí)提高小目標(biāo)的檢測(cè)率.但當(dāng)圖像中存在與行人特征相似的目標(biāo),如停車(chē)牌、樹(shù)木等,也會(huì)出現(xiàn)誤檢.因此在后端提出PSDM 以進(jìn)一步提高被遮擋、小尺寸等行人的分?jǐn)?shù),提高整體的檢測(cè)性能.

      在二階段目標(biāo)檢測(cè)框架中,大多數(shù)后端的分類(lèi)和回歸采用Faster R-CNN 后端R-CNN 的分類(lèi)部分,但是文獻(xiàn)[13]指出Faster R-CNN 的后端會(huì)降低行人檢測(cè)的精度.通過(guò)Caltech 數(shù)據(jù)集進(jìn)行驗(yàn)證,前端使用提出的PFEM,后端用R-CNN 與提出的PSDM 模塊對(duì)比分類(lèi)和回歸的效果,實(shí)驗(yàn)結(jié)果也說(shuō)明后端采用R-CNN 的結(jié)果不如PSDM 模塊.其主要原因有兩個(gè):1)行人在數(shù)據(jù)集中的尺寸較小,在行人檢測(cè)Caltech 數(shù)據(jù)集中,大約有88 %的行人低于112 × 112 像素.對(duì)于小尺寸的行人來(lái)說(shuō),若后端感興趣區(qū)域池化層的輸入分辨率小于其輸出分辨率,會(huì)降低提取特征的辨別力.2)行人檢測(cè)和目標(biāo)檢測(cè)兩者誤檢的針對(duì)性不同.行人檢測(cè)誤檢是指將背景中的相似物預(yù)測(cè)為行人,而傳統(tǒng)目標(biāo)檢測(cè)中存在多個(gè)類(lèi)別,其誤檢是指將一個(gè)正確的目標(biāo)錯(cuò)誤地預(yù)測(cè)為另一個(gè)目標(biāo).而且基于目標(biāo)檢測(cè)中的RCNN 缺乏挖掘難負(fù)樣本的機(jī)制,將這樣的R-CNN直接用于行人檢測(cè)時(shí)對(duì)于被遮擋嚴(yán)重或者尺寸較小的行人檢測(cè)效果不佳.

      行人檢測(cè)是一個(gè)二分類(lèi)問(wèn)題,與文獻(xiàn)[13]不同,本文使用VGG-16 中的Conv1~ Conv5 層作為骨干網(wǎng)絡(luò)構(gòu)建一個(gè)單獨(dú)的識(shí)別網(wǎng)絡(luò),減少了計(jì)算量.為解決感興趣區(qū)域池化層的輸入分辨率小于輸出分辨率問(wèn)題,去除Conv5_3 層后的池化層,將輸入PFEM之前的圖像尺寸調(diào)整為112 × 112 像素.PSDM 中仍然增加了多層特征融合層和語(yǔ)義信息來(lái)提高識(shí)別率.Conv4 層和Conv5 層的深層語(yǔ)義特征有助于分類(lèi),Conv3 層是中間層,存在邊緣信息,可以更好地回歸,使行人定位更精準(zhǔn).因此,行人二次檢測(cè)模塊分別在Conv4_3 層、Conv5_3 層上添加一個(gè)步長(zhǎng)為2 的2 × 2 卷積核和步長(zhǎng)為4 的4×4 卷積核進(jìn)行反卷積上采樣,然后與Conv3 層輸出的特征級(jí)聯(lián),生成多層特征融合層,記為融合3 層.在此基礎(chǔ)上添加語(yǔ)義分割分支,記為分割2 層.獲得的語(yǔ)義特征映射后與Conv5_3 層特征映射相加融合,記為融合4 層,作為行人分類(lèi)的特征.PSDM 的損失函數(shù)可表示為:

      其中,分類(lèi)損失、回歸損失與PFEM 一致.β是PSDM 模塊中回歸的損失權(quán)重,在實(shí)驗(yàn)中,β=5.

      2 實(shí)驗(yàn)與結(jié)果分析

      本文采用基于ImageNet[27]上預(yù)訓(xùn)練的VGG-16 網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò).實(shí)驗(yàn)均是在MATLAB 2016b 環(huán)境下進(jìn)行,操作系統(tǒng)為64 位的Ubuntu 16.04,深度學(xué)習(xí)框架為Caffe[28];硬件配置為CPU Intel Xeon(R) E5-2 678 v3 @ 2.50 GHz 十二核;內(nèi)存32 GB;GPU NVIDIA GeForce GTX 1080Ti.

      2.1 實(shí)驗(yàn)數(shù)據(jù)

      在Caltech 和CityPersons 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),它們是近幾年使用規(guī)模最廣的行人檢測(cè)數(shù)據(jù)集.文獻(xiàn)[14]比較了Caltech 和CityPersons 不同遮擋水平下的行人分布.從文獻(xiàn)[14]可知,CityPersons 數(shù)據(jù)集行人被遮擋程度更大,Caltech 完全可見(jiàn)的行人超過(guò)60 %,而CityPersons 則不到30 %.

      Caltech 數(shù)據(jù)集是目前規(guī)模較大的行人數(shù)據(jù)庫(kù),采用車(chē)載攝像頭拍攝10 個(gè)小時(shí)左右,背景主要是公路或街道,視頻的分辨率為640 × 480 像素.其中標(biāo)注了350 000 個(gè)矩形框,2 300 個(gè)行人,超過(guò)70 %的行人至少在一幀內(nèi)出現(xiàn)了遮擋.該數(shù)據(jù)集分為11 個(gè)視頻組set00~ set10,其中set00~ set05為訓(xùn)練集,根據(jù)Caltech10 ×[29]的標(biāo)準(zhǔn)對(duì)訓(xùn)練集中42 782 張圖像訓(xùn)練,對(duì)剩余的set06~ set10 中4 024張圖像進(jìn)行測(cè)試.

      CityPersons 數(shù)據(jù)集是基于語(yǔ)義分割Cityscapes 數(shù)據(jù)集[30]的一個(gè)行人檢測(cè)數(shù)據(jù)集,其數(shù)據(jù)是從德國(guó)的18 個(gè)城市,在三個(gè)不同的季節(jié)和不同的天氣條件下收集的.該數(shù)據(jù)集總共包括5 000 張圖像 (2 975 張用于訓(xùn)練,500 張用于驗(yàn)證,1 525 張用于測(cè)試),總共約有35 000 人,另外還有約13 000個(gè)未標(biāo)注的區(qū)域,圖像分辨率為2 048 × 1 024 像素.本文對(duì)該數(shù)據(jù)集的訓(xùn)練和測(cè)試都是在其訓(xùn)練和驗(yàn)證集上進(jìn)行.

      2.2 評(píng)估標(biāo)準(zhǔn)

      為驗(yàn)證實(shí)驗(yàn)的全面性,根據(jù)官方提供的數(shù)據(jù)集評(píng)估標(biāo)準(zhǔn),Caltech 和CityPersons 的數(shù)據(jù)依據(jù)行人高度和被遮擋比例被劃分成很多子集.因?yàn)楸疚膶?shí)驗(yàn)主要驗(yàn)證對(duì)被遮擋行人和小目標(biāo)的檢測(cè)性能,所以只比較Caltech 數(shù)據(jù)集中的Reasonable、Partial、Heavy 子集和CityPersons 數(shù)據(jù)集中的Bare、Reasonable、Partial、Heavy 子集.表1、表2 分別給出了Caltech、CityPersons 數(shù)據(jù)集中不同遮擋情況下每個(gè)子集的劃分標(biāo)準(zhǔn).

      表1 Caltech 數(shù)據(jù)集中部分子集的劃分標(biāo)準(zhǔn)Table 1 Evaluation settings for partial subsets of the Caltech dataset

      表2 CityPersons 數(shù)據(jù)集中部分子集的劃分標(biāo)準(zhǔn)Table 2 Evaluation settings for partial subsets of the CityPersons dataset

      本文實(shí)驗(yàn)中,采用行人檢測(cè)和目標(biāo)檢測(cè)領(lǐng)域常用的漏檢率(Miss rate,MR)、漏檢率–每幀圖像誤檢率曲線(Miss rate-false positives per image,MRFPPI) 及對(duì)數(shù)平均漏檢率[31](Log-average miss rate,LAMR)作為評(píng)價(jià)指標(biāo).其中,漏檢率是指正樣本被模型預(yù)測(cè)為負(fù)樣本的數(shù)目與所有正樣本數(shù)目的比例;每幀圖像誤檢率(False positives per image,FPPI)是指負(fù)樣本被模型預(yù)測(cè)為正樣本的數(shù)目與所有樣本的比例;對(duì)數(shù)平均漏檢率是MRFPPI 曲線在對(duì)數(shù)空間[10?2~ 100]內(nèi)均勻分布的九個(gè)點(diǎn)的平均值.

      2.3 實(shí)驗(yàn)結(jié)果分析

      1) Caltech 數(shù)據(jù)集

      為驗(yàn)證本算法性能,選取了8 種在Caltech 數(shù)據(jù)集性能較好的、能解決不同程度遮擋行人的檢測(cè)算法與CSMFF 結(jié)果比較.其中AdaptFasterRCNN[14]、PCN[20]、PL-CNN[16]、MS-CNN[10]、F-DNN+SS[21]是基于目標(biāo)檢測(cè)框架結(jié)合語(yǔ)義的算法;RPN +BF[13]采用決策森林代替Faster R-CNN 中的RCNN,對(duì)候選區(qū)域進(jìn)行分類(lèi),有助于提升小尺寸行人的檢測(cè)效果;Faster R-CNN+ATT[32]增加了注意力機(jī)制,在被嚴(yán)重遮擋行人檢測(cè)上取得了最佳性能.總體性能和運(yùn)行速度如表3 所示,因?yàn)镻L-CNN、Faster R-CNN+ATT、AdaptFasterRCNN、PCN原論文中沒(méi)有比較檢測(cè)速度,所以表3 中沒(méi)有給出它們的檢測(cè)速度.

      從表3 可以看出,CSMFF 算法在Reasonable和Partial 子集上都達(dá)到了最低的漏檢率,分別比效果第二的F-DNN+SS 算法降低了1.12 %和0.75 %.Caltech 數(shù)據(jù)集的檢測(cè)性能已接近飽和,因此在Reasonable 子集上性能的提升非常重要.但在Heavy子集上效果低于Faster R-CNN+ATT,排在第二位.主要原因是卷積通道特征分別對(duì)應(yīng)行人身體的不同部位,其對(duì)行人定位非常有效.Faster R-CNN +ATT[32]在Faster R-CNN 中添加了一個(gè)額外的注意力機(jī)制網(wǎng)絡(luò),以通道方式的注意力機(jī)制有效地利用行人身體部位與不同卷積通道的關(guān)系來(lái)處理嚴(yán)重遮擋模式下的行人.雖然文獻(xiàn)[32]未給出Faster RCNN+ATT 算法的運(yùn)行速度,但是其注意力機(jī)制的復(fù)雜度可以從其論文的描述中體現(xiàn)出來(lái).這些結(jié)果表明,行人出現(xiàn)不同程度的遮擋會(huì)減少行人的有效特征,本文設(shè)計(jì)的PFEM 和PSDM 可以在一定程度上增強(qiáng)行人的特征辨別性,因此CSMFF 在不同程度的遮擋情況下均具有良好的泛化能力.

      表3 在Caltech 測(cè)試數(shù)據(jù)集上對(duì)比算法性能以及運(yùn)行速度比較Table 3 Performance and runtime comparisons of our proposed CSMFF with state-of-the-art approaches on the Caltech test dataset

      表3 也給出了各算法運(yùn)行速度的比較,本文訓(xùn)練和測(cè)試僅在一張1080Ti GPU 上進(jìn)行.從表3 可以看出,所提出的CSMFF 算法的運(yùn)行速度約為0.12 s/幀,在比較的算法中是最快的,F-DNN 排在第二位.

      圖4 是CSMFF 與各種對(duì)比算法在Caltech 數(shù)據(jù)集Reasonable、Partial、Heavy 子集上MRFPPI 變化.橫坐標(biāo)表示每幀圖像誤檢率,縱坐標(biāo)表示漏檢率,MR-FPPI 曲線越低,表示行人檢測(cè)算法在測(cè)試集上測(cè)試效果越好.從圖中可以觀察到,CSMFF 算法的曲線在Reasonable 和Partial 子集上最低,且下降很快,取得了最佳的檢測(cè)性能.主要原因是:1)雖然一些算法結(jié)合了從CityPersons 數(shù)據(jù)集訓(xùn)練的高精度像素級(jí)語(yǔ)義信息,但是語(yǔ)義分割模型是獨(dú)立于候選區(qū)域生成器進(jìn)行訓(xùn)練的,語(yǔ)義特征無(wú)法進(jìn)入候選區(qū)域網(wǎng)絡(luò);2)本文針對(duì)前端模塊產(chǎn)生的誤檢問(wèn)題進(jìn)行了二次檢測(cè),提高了整體性能.

      圖4 CSMFF 與各種對(duì)比算法在Caltech 測(cè)試數(shù)據(jù)集上MR-FPPI 變化Fig.4 The variations of MR-FPPI of our proposed CSMFF with state-of-the-art approaches on the Caltech test dataset

      2) CityPersons 數(shù)據(jù)集

      為驗(yàn)證算法的魯棒性,在CityPersons 數(shù)據(jù)集的部分子集上也做了實(shí)驗(yàn).表4 比較了CityPersons 數(shù)據(jù)集上效果較好的幾種行人檢測(cè)方法與CSMFF 的檢測(cè)性能.從表4 中可以看出,CSMFF在大部分子集上都能實(shí)現(xiàn)最佳檢測(cè)性能,分別在Reasonable、Partial、Heavy 子集上實(shí)現(xiàn)了11.2 %、13.4 %和50.1 %的漏檢率,但在Bare 子集上弱于OR-CNN.因?yàn)锽are 子集的遮擋率不到10 %,在被輕度遮擋的情況下,人體的四肢軀干完全,人體結(jié)構(gòu)信息比較清楚,OR-CNN 將人體分成5 個(gè)部分,利用人體結(jié)構(gòu)先驗(yàn)信息,所以O(shè)R-CNN 方法在這種情況下的漏檢率較低.

      表4 在CityPersons 測(cè)試數(shù)據(jù)集上不同算法性能比較Table 4 Performance comparison of our proposed CSMFF with state-of-the-art approaches on the CityPersons test dataset

      2.4 消融實(shí)驗(yàn)

      之前Zhang 等[6]已經(jīng)揭示了多層特征融合對(duì)各種尺寸行人檢測(cè)的重要性,本文在PFEM 的VGG-16 網(wǎng)絡(luò)上訓(xùn)練了幾種模型,以此來(lái)研究哪些卷積層融合會(huì)達(dá)到最佳效果.由于淺層的判別信息有限,所以選取Conv2_2 的輸出作為起點(diǎn).表5 比較了PFEM 融合不同卷積層和完整CSMFF 算法的結(jié)果.結(jié)果表明較淺的特征圖對(duì)定位有幫助,Conv4 和Conv5 等較深卷積層的特征圖有豐富的語(yǔ)義特征,有利于小目標(biāo)的檢測(cè).最終采用Conv2_2、Conv3_3 和Conv4_3 層卷積融合生成多層特征層.

      表5 在Caltech 測(cè)試數(shù)據(jù)集上融合不同卷積層的性能Table 5 Performance of fusing different convolutional layers on the Caltech test dataset

      為證明模型的有效性,在Caltech 數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn).表6 比較了PFEM 中每個(gè)組件以及添加PSDM 后與完整算法的對(duì)比結(jié)果.從表6 可以看出,在VGG-16 上將各層特征融合以及在此基礎(chǔ)上添加語(yǔ)義分割分支時(shí),漏檢率都有所下降,這表明提出的PFEM 是有效的.針對(duì)Faster R-CNN 的后端會(huì)降低行人檢測(cè)精度的問(wèn)題,本文設(shè)計(jì)了PSDM.從實(shí)驗(yàn)結(jié)果可以很明顯地看到,對(duì)前一模塊由于背景干擾和遮擋產(chǎn)生的誤檢,進(jìn)行行人二次檢測(cè)和回歸后,可以提高算法整體的檢測(cè)性能.

      表6 在Caltech 數(shù)據(jù)集上測(cè)試每個(gè)組件的消融實(shí)驗(yàn)Table 6 Ablation experiments for testing each component on the Caltech dataset

      3 結(jié)論

      本文提出了一種基于Faster R-CNN 的結(jié)合語(yǔ)義和多層特征融合的行人檢測(cè)算法.在多層卷積特征融合基礎(chǔ)上添加語(yǔ)義分割分支,并將其結(jié)果作為行人目標(biāo)特征信息,為行人檢測(cè)和背景的區(qū)分提供了更多的辨別信息.后端在初步檢測(cè)的基礎(chǔ)上增加行人二次檢測(cè)模塊,并對(duì)初步檢測(cè)結(jié)果進(jìn)行二次回歸,解決了前一階段產(chǎn)生的誤檢問(wèn)題.但由于行人被嚴(yán)重遮擋時(shí)的可見(jiàn)部分很少,造成用于訓(xùn)練的有效特征少,加上行人周?chē)罅勘尘暗葻o(wú)用信息的干擾,導(dǎo)致檢測(cè)性能下降.我們下一步工作擬在本文算法框架上提出一種新型壓縮激勵(lì)的注意力機(jī)制網(wǎng)絡(luò),可以自動(dòng)選擇卷積層通道中行人的語(yǔ)義以及有用信息,抑制無(wú)用信息,降低被嚴(yán)重遮擋行人的漏檢率.

      猜你喜歡
      行人語(yǔ)義像素
      趙運(yùn)哲作品
      藝術(shù)家(2023年8期)2023-11-02 02:05:28
      像素前線之“幻影”2000
      毒舌出沒(méi),行人避讓
      意林(2021年5期)2021-04-18 12:21:17
      語(yǔ)言與語(yǔ)義
      “像素”仙人掌
      路不為尋找者而設(shè)
      我是行人
      “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
      高像素不是全部
      CHIP新電腦(2016年3期)2016-03-10 14:22:03
      認(rèn)知范疇模糊與語(yǔ)義模糊
      开阳县| 遵义县| 固原市| 休宁县| 荃湾区| 邛崃市| 平远县| 资兴市| 化德县| 安多县| 固镇县| 襄汾县| 枣强县| 石林| 麦盖提县| 蒙自县| 沙湾县| 翁源县| 乌拉特中旗| 江西省| 凌海市| 连平县| 池州市| 贵阳市| 镇沅| 伊吾县| 札达县| 搜索| 祁阳县| 含山县| 逊克县| 台东县| 辽宁省| 景洪市| 宜丰县| 沧源| 宁阳县| 肥城市| 越西县| 随州市| 通城县|