趙晴宜 譚海楓
(廣西科技大學(xué),廣西 柳州545026)
基于預(yù)測(cè)框的密集行人檢測(cè)框架已被廣泛用于現(xiàn)代物體檢測(cè)系統(tǒng)中[1]。其已經(jīng)在例如COCO和PASCAL VOC流行數(shù)據(jù)集中取得了很好的表現(xiàn)[2],但實(shí)踐中仍難以進(jìn)行人群檢測(cè)。圖1(a)展示了一個(gè)常見(jiàn)的失敗案例(虛線框中為未被識(shí)別到的人)。
圖1 密集人群檢測(cè)
這種在密集場(chǎng)景中的典型失敗主要有兩個(gè)原因:
1.2.1 高度重疊的實(shí)例可能具有非常相近的特征,從而導(dǎo)致檢測(cè)器難以分別為每個(gè)預(yù)測(cè)框生成區(qū)別預(yù)測(cè)。
1.2.2 由于實(shí)例之間嚴(yán)重重疊,預(yù)測(cè)結(jié)果很可能會(huì)被非極大值抑制(Non-Maximum Suppression,NMS)錯(cuò)誤地去除。
已有的研究試圖從不同的角度來(lái)解決這個(gè)問(wèn)題,例如提出復(fù)雜的固定非極大值抑制(Set Non-Maximum Suppression,Set NMS),新的損失函數(shù),重計(jì)分機(jī)制等[3]。但是,這些方法尚存在計(jì)算復(fù)雜度過(guò)高,處理高度重疊的實(shí)例時(shí)效果不佳等不足。
基于以上問(wèn)題,本文在此介紹一種解決密集行人檢測(cè)問(wèn)題的方法:
1.4.1 對(duì)于每個(gè)預(yù)測(cè)框,區(qū)別于已有方法預(yù)測(cè)一個(gè)實(shí)例,本文方法預(yù)測(cè)一組可能高度重疊的實(shí)例,如圖2所示。
1.4.2 利用推土機(jī)距離(Earth Mover's Distance Loss,EMD Loss)函數(shù)來(lái)監(jiān)督實(shí)例集預(yù)測(cè)目標(biāo)的回歸。
1.4.3 使用Set NMS這種新的后處理方法,以抑制不同預(yù)測(cè)框的重復(fù)性。
假設(shè)有多個(gè)物體嚴(yán)重重疊(如圖2所示),其中至少一個(gè)預(yù)測(cè)框?qū)?yīng)不止一個(gè)對(duì)象,對(duì)于這樣的預(yù)測(cè)框可采用預(yù)測(cè)整體的方法。對(duì)于每個(gè)預(yù)測(cè)框Bi,本文方案所提方法為預(yù)測(cè)其相關(guān)集合G(Bi):其中G是實(shí)際的訓(xùn)練標(biāo)注樣本,θ是設(shè)定的劃分閾值。如圖2(b)所示,將三個(gè)預(yù)測(cè)框分配給同一組基本真值實(shí)例集是可行的,因?yàn)檫@三個(gè)預(yù)測(cè)框特征幾乎相同?,F(xiàn)介紹本文方法的細(xì)節(jié)如下:
圖2 典型的密集檢測(cè)案例
對(duì)于每個(gè)預(yù)測(cè)框Bi,現(xiàn)存已有基于預(yù)測(cè)框的檢測(cè)框架都是采用檢測(cè)函數(shù)預(yù)測(cè)(Ci,Li)來(lái)表示相關(guān)實(shí)例,其中Ci是帶有置信度的類別標(biāo)簽,Li是相對(duì)的新坐標(biāo)[4]。本文方法對(duì)其進(jìn)行擴(kuò)展,通過(guò)使用K個(gè)檢測(cè)函數(shù)來(lái)生成一組預(yù)測(cè)結(jié)果P(Bi):
其中K為給定常數(shù)表示G(Bi)見(jiàn)等式(1)的最大基數(shù)。在大多數(shù)現(xiàn)有的檢測(cè)框架中,引入額外的預(yù)測(cè)分支可以簡(jiǎn)單地實(shí)現(xiàn)P(Bi)[5]。
本文提出了EMD Loss損失函數(shù),以最小化與預(yù)測(cè)框Bi對(duì)應(yīng)的預(yù)測(cè)P(Bi)和實(shí)際的訓(xùn)練標(biāo)注樣本G(Bi)之間的差距:
其中π表示(1,2,…,K)的特定排列,其第k項(xiàng)是πk;gπk?G(Bi)是第πk個(gè)標(biāo)注樣本;LCLS(·)和LREG(·)分別是分類損失和預(yù)測(cè)框回歸損失,遵循常用定義。
原始NMS在后處理時(shí)會(huì)影響到密集場(chǎng)景中的對(duì)象檢測(cè)。而本文方案由于EMD Loss函數(shù),使得一個(gè)預(yù)測(cè)框預(yù)測(cè)的實(shí)例在定義上是唯一的,由此我們引入Set NMS,即每次在NMS算法中一個(gè)邊界框抑制另一個(gè)邊界框之前,插入額外的測(cè)試,用于檢查這兩個(gè)框是否來(lái)自同一個(gè);如果是,則跳過(guò)抑制。實(shí)驗(yàn)表明,只有將多實(shí)例預(yù)測(cè)和Set NMS結(jié)合使用,本文方法才能在密集檢測(cè)方面取得顯著的改進(jìn)。
3.1.1 平均精度
平均精度(average precision,AP)反映了測(cè)試結(jié)果的準(zhǔn)確性和召回率,是最將常用到的指標(biāo),其對(duì)召回分?jǐn)?shù)更敏感。AP越大,則性能越好。
3.1.2 平均漏失率
平均漏失率(log-average Miss Rate,MR-2)指對(duì)每幅圖像誤報(bào)率((False Positive per Image,FPPI)的對(duì)數(shù)的平均漏失率,通常用于行人檢測(cè)。MR-2對(duì)誤報(bào)(False Positive,FP)非常敏感,尤其是高置信度的誤報(bào)會(huì)嚴(yán)重?fù)p害MR-2比值。MR-2越小,表現(xiàn)越好。
3.1.3 Jaccard指數(shù)
Jaccard指數(shù)(Jaccard Index,JI)主要用于評(píng)估檢測(cè)器的計(jì)數(shù)能力。JI評(píng)估預(yù)測(cè)集與基本事實(shí)的重疊程度。通常,預(yù)測(cè)集可以通過(guò)引入一個(gè)置信分?jǐn)?shù)閾值來(lái)生成。JI越大,性能越好。
CrowdHuman包含15000張、4370張和5000張圖片,分別用于訓(xùn)練、驗(yàn)證和測(cè)試。
本文提出了一種簡(jiǎn)單而有效的基于建議的對(duì)象檢測(cè)器,該檢測(cè)器專門用于密集行人檢測(cè)。該方法利用多實(shí)例預(yù)測(cè)的概念,引入了EMD損失、Set NMS等新技術(shù)。本文方法不僅有效,而且可以靈活地應(yīng)用于大多數(shù)最先進(jìn)的基于預(yù)測(cè)框的檢測(cè)框架。