• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      迭代Faster R-CNN的密集行人檢測(cè)

      2023-11-20 10:58:36賀宇哲徐光美于海港
      關(guān)鍵詞:密集集上金字塔

      賀宇哲,徐光美,何 寧,于海港,張 人,晏 康

      1.北京聯(lián)合大學(xué) 北京市信息服務(wù)工程重點(diǎn)實(shí)驗(yàn)室,北京 100101

      2.北京聯(lián)合大學(xué) 智慧城市學(xué)院,北京 100101

      行人檢測(cè)作為計(jì)算機(jī)視覺(jué)和模式識(shí)別任務(wù)中重要研究?jī)?nèi)容[1],有著非常廣泛的應(yīng)用場(chǎng)景,如自動(dòng)駕駛、智能監(jiān)控、智能機(jī)器人等,尤其在智能監(jiān)控中發(fā)揮著極其重要的作用[2]。行人檢測(cè)任務(wù)中常見(jiàn)的是高密度的行人檢測(cè),但密集場(chǎng)景下的行人檢測(cè)存在大量的遮擋現(xiàn)象,如街道上的行人。在密集場(chǎng)景下,智能監(jiān)控設(shè)備所能采集到的圖像包含多個(gè)相同類(lèi)別的重疊物體,即傳感器采集密集場(chǎng)景的圖像時(shí),將三維信息映射為二維信息,這不可避免地會(huì)產(chǎn)生大量的遮擋現(xiàn)象。當(dāng)遮擋現(xiàn)象發(fā)生時(shí),行人目標(biāo)的特征會(huì)出現(xiàn)大量干擾信息,基于深度學(xué)習(xí)的行人檢測(cè)技術(shù)依據(jù)提取得到的特征進(jìn)行檢測(cè),所以遮擋現(xiàn)象會(huì)導(dǎo)致檢測(cè)精度大幅度下降。行人目標(biāo)的各個(gè)身體部位都有可能被遮擋,當(dāng)行人之間發(fā)生遮擋時(shí),特征圖中單個(gè)行人目標(biāo)自身的特征雖然不會(huì)有改變。但是,由于若干個(gè)行人目標(biāo)的特征重疊在一起,特征圖中的高響應(yīng)的區(qū)域會(huì)被連接在一起。此時(shí),會(huì)對(duì)檢測(cè)器檢測(cè)每個(gè)行人目標(biāo)的邊界造成很大的困難,導(dǎo)致誤檢和漏檢現(xiàn)象發(fā)生。

      基于深度學(xué)習(xí)的行人檢測(cè)方法把行人看作是一種特定目標(biāo),主要分為以速度占優(yōu)的單階段(one-stage)檢測(cè)方法和以精度占優(yōu)的雙階段(two-stage)檢測(cè)方法。單階段檢測(cè)方法包括YOLO[3]系列、RetinaNet[4]等,雙階段檢測(cè)方法包括Faster R-CNN[5]、Cascade R-CNN[6]等。

      目前基于深度學(xué)習(xí)的絕大部分模型都難以應(yīng)對(duì)密集場(chǎng)景下的行人檢測(cè)任務(wù)[7],造成這種現(xiàn)象的原因有兩點(diǎn):第一,存在同一類(lèi)別的多個(gè)行人目標(biāo)的情況下,很難區(qū)分兩個(gè)檢測(cè)框是屬于同一對(duì)象,還是對(duì)應(yīng)于不同的重疊對(duì)象。第二,嚴(yán)重遮擋情況下,檢測(cè)模型無(wú)法提取較好的特征信息。研究學(xué)者通過(guò)改進(jìn)非極大值抑制(nonmaximum suppression,NMS)的算法,盡管提高了準(zhǔn)確性,但這些方法并不能完全解決問(wèn)題。這是由于基于NMS 的所有改進(jìn)方法,都需要在精確度和召回率之間尋找一個(gè)平衡點(diǎn),因?yàn)榧纫獎(jiǎng)h除對(duì)同一對(duì)象的冗余檢測(cè),又需要保留難以檢測(cè)的遮擋對(duì)象。

      本文針對(duì)密集場(chǎng)景下進(jìn)行行人檢測(cè)普遍存在的遮擋問(wèn)題,受Cascade R-CNN 中“三思而后行”思想的啟發(fā),設(shè)計(jì)了一個(gè)基于迭代Faster R-CNN 的密集行人檢測(cè)模型,首先利用一種迭代方案[8]對(duì)Faster R-CNN模型進(jìn)行改進(jìn),解決NMS 算法及其改進(jìn)在尋找精確度和召回率之間平衡點(diǎn)的難題。同時(shí),為了能夠進(jìn)一步提高模型提取特征的能力,利用遞歸金字塔結(jié)構(gòu)(recursive feature pyramid,RFP)[9]替換原始Faster R-CNN 模型中使用的特征金字塔。本文模型相比其他行人檢測(cè)架構(gòu),僅需對(duì)通用檢測(cè)模型做很小的改動(dòng),便可獲得更優(yōu)的檢測(cè)結(jié)果。本文在具有挑戰(zhàn)性的WiderPerson數(shù)據(jù)集[10]和CrowdHuman 數(shù)據(jù)集[11]上對(duì)所提出的模型進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果表明,本文模型相比Faster R-CNN 在兩個(gè)數(shù)據(jù)集上,行人檢測(cè)的精度和召回率都能夠帶來(lái)顯著提升,同時(shí)漏檢率也有較大的降低,并且在WiderPerson 數(shù)據(jù)集上獲得SOTA結(jié)果。

      1 相關(guān)工作

      對(duì)非極大值抑制算法的改進(jìn),往往是學(xué)者們解決行人檢測(cè)遮擋問(wèn)題的重要途徑。標(biāo)準(zhǔn)NMS算法會(huì)選擇得分較高的檢測(cè)框,并舍棄得分較低的相鄰檢測(cè)框。因此,高的抑制參數(shù)提高了檢測(cè)精度,低的抑制參數(shù)則提高了召回率。但對(duì)于抑制參數(shù)的設(shè)定一直是一個(gè)難題,較高或較低的抑制參數(shù)都會(huì)導(dǎo)致錯(cuò)誤。因此,密集場(chǎng)景是NMS算法優(yōu)劣最具挑戰(zhàn)性的檢驗(yàn)。學(xué)者們?cè)噲D改進(jìn)NMS 算法實(shí)現(xiàn)更高效的密集行人檢測(cè)。2014 年Rothe等人[12]探討了NMS 作為聚類(lèi)問(wèn)題的公式,并通過(guò)設(shè)置閾值篩選檢測(cè)框。2017年Hosang等人[13]通過(guò)神經(jīng)網(wǎng)絡(luò)來(lái)代替NMS,利用一個(gè)可訓(xùn)練的網(wǎng)絡(luò)來(lái)適應(yīng)場(chǎng)景的變化,但存在使用的神經(jīng)網(wǎng)絡(luò)參數(shù)量過(guò)大問(wèn)題。同年,Bodla等人[14]提出Soft NMS有效解決標(biāo)準(zhǔn)NMS抑制參數(shù)設(shè)定的難題。當(dāng)檢測(cè)框重疊程度達(dá)到一定閾值后,不將其直接舍棄,而是使其得分降低后進(jìn)入下一次迭代重新篩選。2019 年Liu 等人[15]提出Adaptive NMS 添加了一個(gè)估計(jì)目標(biāo)密度的分支,幫助NMS 的參數(shù)設(shè)定。2020 年Huang 等人[16]提出R2NMS,利用了較少遮擋的可見(jiàn)部分,有效去除了多余的框,而不會(huì)帶來(lái)更多誤報(bào)。除了對(duì)非極大值抑制算法改進(jìn)這條途徑外,學(xué)者們還提出了其他的行人檢測(cè)架構(gòu)來(lái)應(yīng)對(duì)密集環(huán)境下的遮擋問(wèn)題。2018年Wang等人[17]以Faster R-CNN為基礎(chǔ),提出Repulsion Loss 對(duì)損失函數(shù)部分進(jìn)行優(yōu)化,減小真實(shí)目標(biāo)框和預(yù)測(cè)框的距離,增大周?chē)悄繕?biāo)框的距離,有效改善行人間的遮擋問(wèn)題。同年,Zhang 等人[18]在Faster R-CNN 目標(biāo)檢測(cè)框架的基礎(chǔ)上,提出了OR-CNN(occlusion-aware R-CNN),并設(shè)計(jì)了一個(gè)新的聚合損失函數(shù),同時(shí)利用遮擋感知池化層(part occlusion-aware region of interest,PORoI)替換原始的RoI池化層,解決了遮擋目標(biāo)的檢測(cè)問(wèn)題。2020 年Ge 等人[19]提出PSRCNN的雙階段檢測(cè)器,該檢測(cè)器對(duì)無(wú)遮擋目標(biāo)進(jìn)行檢測(cè),然后對(duì)已檢測(cè)到的實(shí)例進(jìn)行抑制,使嚴(yán)重遮擋的實(shí)例特征更易被提取,再對(duì)剩下的實(shí)例進(jìn)行檢測(cè),最后將兩次檢測(cè)得到的結(jié)果進(jìn)行合并。同年,Xu 等人[20]提出Beta R-CNN通過(guò)一種Beta表示構(gòu)建全身和可見(jiàn)框之間的關(guān)系來(lái)描繪行人目標(biāo),此外還引入了Beta NMS可以更好地區(qū)分密集場(chǎng)景中高度重疊的行人目標(biāo)。2021 年Wang等人[21]提出DeFCN,基于FCOS(fully convolutional one-stage object detection),首次在密集場(chǎng)景上利用全卷積結(jié)構(gòu)實(shí)現(xiàn)端到端的檢測(cè),即沒(méi)有NMS 的后處理操作。

      2 本文方法

      本文針對(duì)密集場(chǎng)景下行人檢測(cè)普遍存在的遮擋問(wèn)題,設(shè)計(jì)一個(gè)基于Faster R-CNN的密集行人檢測(cè)模型,骨干網(wǎng)絡(luò)選用ResNet-50,整體結(jié)構(gòu)如圖1 所示,輸入圖像經(jīng)過(guò)骨干網(wǎng)絡(luò)(Backbone)后,利用遞歸金字塔與頭模塊(RFP&Head)得到行人目標(biāo)檢測(cè)框,接著將得到的檢測(cè)框映射到歷史特征圖(history map),并進(jìn)行特征融合以便之后的迭代檢測(cè)。本文對(duì)Faster R-CNN檢測(cè)模型進(jìn)行了如下改進(jìn):(1)設(shè)計(jì)一種迭代方案,可以很好地解決NMS及其算法在尋找精確度和召回率之間平衡點(diǎn)的難題。(2)利用遞歸金字塔(RFP)提高模型的特征提取能力。

      圖1 基于Faster R-CNN的密集行人檢測(cè)模型整體結(jié)構(gòu)圖Fig.1 Overall structure diagram of dense pedestrian detection model based on Faster R-CNN

      2.1 迭代方案設(shè)計(jì)

      針對(duì)行人檢測(cè)任務(wù)中密集場(chǎng)景出現(xiàn)的遮擋導(dǎo)致檢測(cè)精度下降問(wèn)題,本文設(shè)計(jì)一種迭代方案(IterDet)對(duì)Faster R-CNN 進(jìn)行改進(jìn),解決行人檢測(cè)中的遮擋問(wèn)題。在處理密集行人檢測(cè)時(shí),以往的方法都是一次性檢測(cè)所有的目標(biāo)對(duì)象,這種處理方式效果并不好,本文希望以一種迭代的方式,提高密集行人檢測(cè)效果。該方案無(wú)需一次性檢測(cè)圖像中的所有對(duì)象,而是提供每次迭代的檢測(cè)結(jié)果。首先進(jìn)行第一次迭代,預(yù)測(cè)得到目標(biāo)框并收集結(jié)果,在下一次迭代中將結(jié)果以特征融合的方式傳遞回網(wǎng)絡(luò),目的是在下次迭代中,可以檢測(cè)到一個(gè)新的對(duì)象子集,其結(jié)構(gòu)如圖1所示。本文對(duì)該迭代方案的預(yù)測(cè)過(guò)程和訓(xùn)練過(guò)程,分別進(jìn)行介紹。

      預(yù)測(cè)過(guò)程:傳統(tǒng)的目標(biāo)檢測(cè)模型D是將輸入圖像I∈Rw×h×3映射到一組邊界框B={(xk,yk,wk,hk)}nk=1 的過(guò)程。每個(gè)邊界框由左上角的坐標(biāo)(x,y)、寬度w和高度h共同表示。對(duì)于給定的一組邊界框B,定義一個(gè)與輸入圖像大小相同的歷史圖像H,其中每個(gè)像素記錄覆蓋該像素已檢測(cè)到的邊界框數(shù),如公式(1):

      該迭代方案的設(shè)計(jì)需要考慮兩方面問(wèn)題:(1)如何將傳統(tǒng)檢測(cè)模型D改進(jìn)為對(duì)歷史圖像敏感的D′。(2)如何強(qiáng)制D′在每次迭代t的過(guò)程中預(yù)測(cè)不同的對(duì)象集Bt。

      檢測(cè)模型D′結(jié)構(gòu)設(shè)計(jì)。基于深度學(xué)習(xí)的目標(biāo)檢測(cè)模型,首先將圖像傳入已經(jīng)預(yù)訓(xùn)練好的骨干網(wǎng)絡(luò)中。接著,獲得的多層級(jí)特征被送入附加的特征提取網(wǎng)絡(luò),如RPN(region proposal network)、FPN(feature pyramid networks)[22]等。最后,通過(guò)頭模塊轉(zhuǎn)換為預(yù)測(cè)的邊界框,并進(jìn)行非極大值抑制。本文試圖在傳統(tǒng)檢測(cè)模型中做出較小的改動(dòng),同時(shí)達(dá)到最好的效果。

      具體改進(jìn)方法如下:將經(jīng)過(guò)一個(gè)卷積層的歷史特征圖與骨干網(wǎng)絡(luò)的第一卷積層的輸出相加。本文選用ResNet-50作為骨干網(wǎng)絡(luò),在添加圖像之前,先通過(guò)一個(gè)7×7 步長(zhǎng)為2,通道數(shù)為64 的卷積,然后利用BN 層和ReLU 層進(jìn)行處理,再通過(guò)一個(gè)3×3 步長(zhǎng)為2,通道數(shù)為64的卷積,得到歷史圖像特征圖與對(duì)應(yīng)圖像的特征圖進(jìn)行融合,實(shí)現(xiàn)檢測(cè)模型D′結(jié)構(gòu)的設(shè)計(jì)。在預(yù)測(cè)過(guò)程中提到,歷史圖像中的像素記錄的信息為覆蓋該像素已檢測(cè)到的邊界框的數(shù)目,因此像素被越多的邊界框覆蓋,該像素值越大,意味著歷史圖像中像素值大的區(qū)域,遮擋程度越嚴(yán)重。將歷史圖像特征圖與對(duì)應(yīng)圖像特征圖進(jìn)行融合,可以使檢測(cè)模型更加關(guān)注遮擋程度大的區(qū)域。因此,在上一次迭代輸出的結(jié)果誤報(bào)對(duì)下一次迭代的負(fù)面影響并不大。該設(shè)計(jì)可以使檢測(cè)模型在進(jìn)行下一次迭代檢測(cè)時(shí),獲取之前迭代過(guò)程得到的信息,從而檢測(cè)出之前迭代過(guò)程中因遮擋嚴(yán)重而未被檢測(cè)到的目標(biāo)對(duì)象。

      訓(xùn)練過(guò)程:D′在每次迭代t的過(guò)程中預(yù)測(cè)不同的對(duì)象集Bt可以通過(guò)對(duì)訓(xùn)練過(guò)程改動(dòng)來(lái)實(shí)現(xiàn)。在訓(xùn)練過(guò)程中,將真實(shí)目標(biāo)框B′隨機(jī)分成兩個(gè)子集Bold和Bnew,并且同時(shí)滿(mǎn)足Bold?Bnew=B′和Bold?Bnew=0。本文將Bold映射到歷史圖像,并強(qiáng)制D′預(yù)測(cè)歷史圖像中缺失的邊界框Bnew。因此,通過(guò)計(jì)算預(yù)測(cè)框B和目標(biāo)框Bnew之間的誤差,通過(guò)反向傳播來(lái)優(yōu)化D′的損失。一方面,這種訓(xùn)練方法迫使模型利用歷史圖像,并在每次推理迭代過(guò)程中只預(yù)測(cè)新的對(duì)象。另一方面,通過(guò)對(duì)Bold和Bnew的不同組合進(jìn)行采樣,對(duì)樣本數(shù)據(jù)進(jìn)行了擴(kuò)充。

      2.2 遞歸金字塔結(jié)構(gòu)

      在密集場(chǎng)景的行人檢測(cè)任務(wù)中,對(duì)特征提取的要求更高。為了能夠提高特征提取能力,如圖1 所示,本文利用遞歸金字塔結(jié)構(gòu)替換原始Faster R-CNN模型中使用的特征金字塔。該結(jié)構(gòu)受Cascade R-CNN 中“三思而后行”思想的級(jí)聯(lián)結(jié)構(gòu)啟發(fā),將特征金字塔的輸出結(jié)果重新反饋回骨干網(wǎng)絡(luò)。如圖2 所示,注意,此圖為遞歸金字塔在遞歸次數(shù)為2 時(shí)的展開(kāi)形式。網(wǎng)絡(luò)主要分為三個(gè)模塊,特征金字塔模塊(圖2中FPN)、ASPP模塊(圖2中ASPP)、特征融合模塊(圖2中Fusion)。遞歸金字塔結(jié)構(gòu)的遞歸過(guò)程如下,在特征金字塔生成多尺度特征表達(dá)后,通過(guò)ASPP 模塊對(duì)特征進(jìn)行轉(zhuǎn)換便于反饋回骨干網(wǎng)絡(luò),再利用特征融合模塊將兩次特征金字塔輸出特征進(jìn)行融合,實(shí)現(xiàn)一次遞歸。

      圖2 遞歸金字塔結(jié)構(gòu)圖(遞歸次數(shù)為2的展開(kāi)形式)Fig.2 Recursive pyramid structure diagram(expanded form with recursion 2)

      在特征金字塔網(wǎng)絡(luò)中,其算法流程可用公式(2)表示,其中Bi表示骨干網(wǎng)絡(luò)自底向上的第i個(gè)階段操作,F(xiàn)i表示特征金字塔網(wǎng)絡(luò)自頂向下的第i層操作,生成的多尺度特征表達(dá)用{fi|i=1,2,…,S}表示,S為特征圖層數(shù)。

      根據(jù)特征金字塔網(wǎng)絡(luò)的算法思路,即公式(2),本文可以得到遞歸金字塔輸出特征fi,如公式(3)所示。其中Ri表示反饋連接到骨干網(wǎng)絡(luò)前的特征轉(zhuǎn)換。

      本文用t表示迭代次數(shù),得到公式(4)。在本文的實(shí)驗(yàn)中,統(tǒng)一設(shè)置t=2。

      本文對(duì)骨干網(wǎng)絡(luò)ResNet 中的B進(jìn)行了修改,使它能夠同時(shí)接收x和R(f)作為輸入。ResNet 有四個(gè)階段,每個(gè)階段由若干個(gè)殘差塊組成。本文對(duì)ResNet 中每個(gè)階段的第一個(gè)殘差塊進(jìn)行修改,如圖3所示。為了使用R(f),對(duì)其進(jìn)行1×1的卷積操作后,與骨干網(wǎng)絡(luò)各階段第一個(gè)殘差塊輸出的特征進(jìn)行融合。

      圖3 RFP特征與ResNet特征融合示意圖Fig.3 Schematic diagram of RFP feature and ResNet feature fusion

      本文使用ASPP 模塊來(lái)實(shí)現(xiàn)特征f t i到圖3 中遞歸金字塔特征(RFP Features)的轉(zhuǎn)換,如圖4 所示。在該模塊中,有四個(gè)并行分支接收輸入特征,然后沿通道維度將其輸出串聯(lián)在一起,形成R的最終輸出。其中三個(gè)分支使用卷積層,后面跟ReLU層,輸出通道數(shù)為輸入通道數(shù)(256)的1/4,即輸出通道數(shù)為64 的特征圖,這三個(gè)分支中的卷積層按如下設(shè)置:卷積核大小為[1,3,3],空洞卷積率為[1,3,6],填充大小為[0,3,6]。最后一個(gè)分支使用全局平均池化,然后利用1×1 卷積層和ReLU層將特征通道轉(zhuǎn)換為輸入特征通道的1/4。最后,將四個(gè)分支的特征按照通道進(jìn)行連接,即圖4中的Concat。

      圖4 ASPP模塊結(jié)構(gòu)圖Fig.4 ASPP module structure diagram

      本文使用一個(gè)特征融合模塊,對(duì)每次迭代后輸出的特征進(jìn)行融合,實(shí)現(xiàn)更好的多尺度特征表達(dá),如圖5所示。將f t+1i作為輸入,通過(guò)1×1卷積和Sigmoid操作得到不同迭代次數(shù)特征的權(quán)重,分別用σ和1-σ表示,由此計(jì)算f t+1i與f t i的加權(quán)和,進(jìn)一步增強(qiáng)多尺度特征表達(dá)。

      圖5 融合模塊Fig.5 Fusion module

      3 實(shí)驗(yàn)結(jié)果與分析

      3.1 密集行人檢測(cè)數(shù)據(jù)集

      密集行人檢測(cè)的實(shí)驗(yàn)分別在WiderPerson 數(shù)據(jù)集和CrowdHuman 數(shù)據(jù)集上進(jìn)行訓(xùn)練和驗(yàn)證。以下是對(duì)這兩個(gè)數(shù)據(jù)集的介紹。展示了WiderPerson 數(shù)據(jù)集和CrowdHuman數(shù)據(jù)集的遮擋程度,如表1所示。

      表1 WiderPerson數(shù)據(jù)集和CrowdHuman數(shù)據(jù)集的遮擋程度Table 1 Occlusion degree of WiderPerson dataset and CrowdHuman dataset單位:%

      WiderPerson數(shù)據(jù)集是擁擠場(chǎng)景的行人檢測(cè)基準(zhǔn)數(shù)據(jù)集,其圖像從多種場(chǎng)景中選擇,不再局限于交通場(chǎng)景。其包含13 382 張圖片,共計(jì)40 萬(wàn)個(gè)不同遮擋程度的人體。其中訓(xùn)練集8 000張圖片,測(cè)試集1 000張圖片。

      CrowdHuman 數(shù)據(jù)集在每張圖像包含行人數(shù)量方面及交并比IoU>0.5 的邊界框數(shù)量方面,與其他行人檢測(cè)數(shù)據(jù)集相比都是最復(fù)雜的。其中包含從Internet收集的15 000、4 370和5 000張圖像,分別用于訓(xùn)練、驗(yàn)證和測(cè)試。與之前具有挑戰(zhàn)性的行人檢測(cè)數(shù)據(jù)集,如與CityPersons數(shù)據(jù)集[23]相比,該數(shù)字提高了10倍以上。在CrowdHuman訓(xùn)練子集中,總?cè)藬?shù)也明顯大于其他行人檢測(cè)數(shù)據(jù)集,約340 000人和約99 000人忽略區(qū)域注釋。

      3.2 評(píng)估指標(biāo)

      在WiderPerson 數(shù)據(jù)集和CrowdHuman 數(shù)據(jù)集上采用AP值、Recall值和mMR作為評(píng)估指標(biāo)。AP和Recall遵從MS COCO 數(shù)據(jù)集的計(jì)算方式,mMR 表示在9 個(gè)FPPI值下(在值域[0.01,1.0]內(nèi)以對(duì)數(shù)空間均勻間隔)的平均Miss Rate 值,F(xiàn)PPI 表示平均每張圖片上的FP,如公式(5)所示,其中N表示N張圖片;Miss Rate表示丟失率,如公式(6)所示:

      3.3 實(shí)施細(xì)節(jié)

      實(shí)驗(yàn)基于PyTorch、CUDA 10.2和mmdetection 2.0目標(biāo)檢測(cè)庫(kù)下進(jìn)行,以基于ResNet-50作為預(yù)訓(xùn)練權(quán)重,在單個(gè)NVIDIA RTX2080Ti 上進(jìn)行訓(xùn)練。在WiderPerson數(shù)據(jù)集和CrowdHuman數(shù)據(jù)集上使用Adam優(yōu)化器進(jìn)行了24 個(gè)epochs 的訓(xùn)練,起初learning rate 設(shè)為1.25E-5,分別在第16 和22 個(gè)epochs 后將其降低1/10,輸入圖片尺寸為1 000×600 和1 666×1 000。統(tǒng)一設(shè)置動(dòng)量因子為0.9,權(quán)重衰減因子為0.000 1,防止模型過(guò)擬合。

      3.4 WiderPerson數(shù)據(jù)集實(shí)驗(yàn)結(jié)果分析

      本文在具有挑戰(zhàn)性WiderPerson數(shù)據(jù)集上對(duì)提出基于Faster R-CNN的密集行人檢測(cè)模型進(jìn)行驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,相比作為baseline 的Faster R-CNN 模型,本文模型不僅能在行人目標(biāo)的檢測(cè)精度和召回率帶來(lái)提升,值得注意的是,行人存在大量遮擋情況下漏檢率mMR有所降低。如表2所示,相比Faster R-CNN模型,在相同條件下,該模型的行人檢測(cè)精度可以獲得2.4 個(gè)百分點(diǎn)的提升,召回率可以獲得4.05 個(gè)百分點(diǎn)的提升,同時(shí)漏檢率mMR可以降低5.63個(gè)百分點(diǎn)。這是由于一方面采用IterDet迭代方案,將行人間遮擋的復(fù)雜問(wèn)題簡(jiǎn)單化。無(wú)需一次性將所有對(duì)象進(jìn)行檢測(cè),而是在新的迭代過(guò)程中以上一次的檢測(cè)結(jié)果作為基礎(chǔ),檢測(cè)新的對(duì)象子集,這樣一些被嚴(yán)重遮擋的行人目標(biāo)也可以通過(guò)之后的迭代過(guò)程被檢測(cè)到,從而大幅降低漏檢的情況。另一方面在加入遞歸金字塔結(jié)構(gòu)后,能夠增強(qiáng)模型的特征提取能力,進(jìn)一步提高檢測(cè)性能。同時(shí),本文模型相比RetinaNet 漏檢率mMR 降低7.89 個(gè)百分點(diǎn)。相比行人檢測(cè)模型PS-CNN檢測(cè)精度提升1.33個(gè)百分點(diǎn),召回率提升2.94 個(gè)百分點(diǎn)。相比Adaptive NMS 召回率提升2.78 個(gè)百分點(diǎn),檢測(cè)精度提升2.06 個(gè)百分點(diǎn),漏檢率mMR降低3.1個(gè)百分點(diǎn)。同時(shí),本文方法相比Repulsion Loss也有更好的表現(xiàn)。將原始的Faster R-CNN與本文的模型在WiderPerson 數(shù)據(jù)集上的檢測(cè)效果進(jìn)行對(duì)比,如圖6所示。相比原始的Faster R-CNN檢測(cè)模型,在利用迭代方案和遞歸金字塔進(jìn)行改進(jìn)后,在行人目標(biāo)存在大量遮擋的情況下,檢測(cè)效果更好且魯棒性更強(qiáng)。

      表2 不同方法在WiderPerson數(shù)據(jù)集性能對(duì)比Table 2 Performance comparison of different methods in WiderPerson dataset 單位:%

      圖6 Faster R-CNN與提出模型檢測(cè)效果對(duì)比Fig.6 Comparison of Faster R-CNN and proposed model

      3.5 CrowdHuman數(shù)據(jù)集實(shí)驗(yàn)結(jié)果分析

      本文將所提出的基于Faster R-CNN的密集行人檢測(cè)模型在CrowdHuman 數(shù)據(jù)集上進(jìn)行驗(yàn)證。如表3 所示,相比作為baseline 的Faster R-CNN 模型,本文模型的行人檢測(cè)精度提升2.32 個(gè)百分點(diǎn)和召回率提升3.65個(gè)百分點(diǎn),并且漏檢率mMR 降低2.1 個(gè)百分點(diǎn)。同時(shí),本文提出的模型與其他行人檢測(cè)模型相比仍有很大的優(yōu)勢(shì)。其中,與Adaptive NMS 相比行人檢測(cè)精度提升2.56 個(gè)百分點(diǎn),召回率提升2.62 個(gè)百分點(diǎn),并且漏檢率mMR 降低1.34 個(gè)百分點(diǎn)。與Repulsion Loss 相比行人檢測(cè)精度提升1.56 個(gè)百分點(diǎn),召回率提升3.15 個(gè)百分點(diǎn)。與最新的行人檢測(cè)方法DeFCN相比,漏檢率mMR可以降低0.51 個(gè)百分點(diǎn)。本文展示了所提出模型在CrowdHuman數(shù)據(jù)集上的檢測(cè)效果,如圖7所示。

      表3 不同方法在CrowdHuman數(shù)據(jù)集性能對(duì)比Table 3 Performance comparison of different methods in CrowdHuman dataset 單位:%

      圖7 模型在CrowdHuman數(shù)據(jù)集上檢測(cè)效果圖Fig.7 Model detection effect on CrowdHuman dataset

      3.6 消融實(shí)驗(yàn)

      為探究?jī)刹糠指倪M(jìn)對(duì)本文模型檢測(cè)性能的影響,本文在WiderPerson 數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),如表4 所示。首先,單獨(dú)將迭代方案引入Faster R-CNN,召回率和檢測(cè)精度分別能夠顯著提升3.7 和2.0 個(gè)百分點(diǎn),并且漏檢率mMR 降低3.75 個(gè)百分點(diǎn),模型運(yùn)算量增加22.8 FLOPs,存儲(chǔ)參數(shù)量增加了34.7 MB。這說(shuō)明通過(guò)迭代方案,在每次的迭代過(guò)程檢測(cè)新的對(duì)象子集,相比一次性檢測(cè)所有的對(duì)象子集的方式,可以更好地應(yīng)對(duì)密集場(chǎng)景下存在大量行人間遮擋的情況。接著,單獨(dú)將遞歸金字塔(RFP)引入Faster R-CNN,召回率和檢測(cè)精度分別能夠帶來(lái)3.71和2.11個(gè)百分點(diǎn)的顯著提升,并且漏檢率mMR 降低3.25 個(gè)百分點(diǎn),模型運(yùn)算量?jī)H增加3.7 FLOPs,存儲(chǔ)參數(shù)量?jī)H增加了3.9 MB。說(shuō)明了遞歸金字塔相比傳統(tǒng)特征金字塔網(wǎng)絡(luò)的特征提取效果更好,能夠使模型發(fā)揮更好的性能。最后,本文將這兩部分改進(jìn)同時(shí)引入,Recall、AP 和mMR 分別能達(dá)到97.65%、91.29%和40.43%。

      表4 在WiderPerson數(shù)據(jù)集上各部分消融實(shí)驗(yàn)結(jié)果Table 4 Experimental results of each part of ablation on WiderPerson dataset

      3.6.1 迭代方案

      為了探究迭代方案最優(yōu)的迭代次數(shù),本文分別進(jìn)行了迭代次數(shù)為1、2、3、4 的實(shí)驗(yàn),并對(duì)結(jié)果進(jìn)行比較分析,如表5 所示。實(shí)驗(yàn)結(jié)果表明,在迭代次數(shù)為2 時(shí),模型的綜合表現(xiàn)性能達(dá)到最優(yōu),召回率、檢測(cè)精度和漏檢率分別能夠達(dá)到97.3%、90.9%、42.3%,相比第一次的迭代結(jié)果均有提升,漏檢率帶來(lái)0.6 個(gè)百分點(diǎn)的降低。這說(shuō)明了改進(jìn)的模型對(duì)歷史圖像敏感,并利用歷史圖像在第二次迭代時(shí)提高了密集行人檢測(cè)的準(zhǔn)確性。同時(shí),展示了在WiderPerson數(shù)據(jù)集上第一次迭代和第二次迭代的結(jié)果,在第一次和第二次迭代中找到的框分別用綠色和黃色標(biāo)記,如圖8 所示。可以發(fā)現(xiàn)第二次迭代,模型在利用歷史圖像后,可以找到第一次迭代未發(fā)現(xiàn)的行人目標(biāo)。在進(jìn)行第三次迭代時(shí),雖然召回率有少量提升,但關(guān)鍵評(píng)估指標(biāo)漏檢率反而升高。在第四次迭代時(shí),召回率和檢測(cè)精度均開(kāi)始出現(xiàn)降低趨勢(shì),同時(shí)漏檢率出現(xiàn)增高趨勢(shì)。

      表5 不同迭代次數(shù)在WiderPerson數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果Table 5 Experimental results on WiderPerson dataset with different iterations 單位:%

      圖8 第一次和第二次迭代檢測(cè)效果圖Fig.8 First and second iteration detection effect

      3.6.2 遞歸金字塔

      為探究遞歸金字塔各模塊對(duì)其性能的影響,本文在WiderPerson數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),如表6所示。首先將整個(gè)遞歸金字塔(RFP)引入Faster R-CNN,召回率達(dá)到97.31%,行人檢測(cè)精度能夠達(dá)到52.3%,漏檢率mMR達(dá)到42.81%,相比原始Faster R-CNN+FPN檢測(cè)結(jié)果提升顯著,這說(shuō)明遞歸金字塔相比傳統(tǒng)特征金字塔結(jié)構(gòu)有更好地特征提取能力。在此基礎(chǔ)上去掉了ASPP 模塊(RFP-ASPP),召回率下降0.5 個(gè)百分點(diǎn),行人檢測(cè)精度下降1.17 個(gè)百分點(diǎn),漏檢率mMR 升高0.81 個(gè)百分點(diǎn)。在去掉特征融合模塊(RFP-fusion)后,召回率下降0.3個(gè)百分點(diǎn),行人檢測(cè)精度下降0.63個(gè)百分點(diǎn),漏檢率mMR升高0.68個(gè)百分點(diǎn)。這也驗(yàn)證了ASPP模塊和特征融合模塊對(duì)RFP有積極影響。

      表6 RFP各模塊消融實(shí)驗(yàn)結(jié)果Table 6 Experimental results of ablation of each module of RFP單位:%

      4 結(jié)束語(yǔ)

      本文針對(duì)行人檢測(cè)在密集場(chǎng)景下普遍存在行人間遮擋問(wèn)題,提出基于迭代Faster R-CNN的密集行人檢測(cè)模型,利用一種迭代方案對(duì)Faster R-CNN 模型進(jìn)行改進(jìn),解決NMS 算法及其改進(jìn)在選擇精確度和召回率之間平衡點(diǎn)的難題。利用遞歸金字塔結(jié)構(gòu)進(jìn)一步增強(qiáng)模型特征提取能力。實(shí)驗(yàn)證明,本文模型在WiderPerson和CrowdHuman 數(shù)據(jù)集上都獲得了具有顯著提升性能的結(jié)果。

      猜你喜歡
      密集集上金字塔
      “金字塔”
      耕地保護(hù)政策密集出臺(tái)
      A Study of the Pit-Aided Construction of Egyptian Pyramids
      密集恐懼癥
      Cookie-Cutter集上的Gibbs測(cè)度
      鏈完備偏序集上廣義向量均衡問(wèn)題解映射的保序性
      海上有座“金字塔”
      復(fù)扇形指標(biāo)集上的分布混沌
      神秘金字塔
      歐盟等一大波家電新標(biāo)準(zhǔn)密集來(lái)襲
      临高县| 普兰店市| 雷州市| 高尔夫| 桐梓县| 丰县| 应用必备| 武城县| 沙湾县| 玛纳斯县| 商洛市| 南靖县| 呼图壁县| 琼海市| 北安市| 陇川县| 奈曼旗| 廊坊市| 景德镇市| 自治县| 遂昌县| 京山县| 宁远县| 比如县| 隆德县| 汽车| 时尚| 秦皇岛市| 舒兰市| 德格县| 竹北市| 遂宁市| 阿瓦提县| 德阳市| 海晏县| 新化县| 盐边县| 恭城| 剑阁县| 尉氏县| 开封市|