吳淑窈 劉希庚 胡昌振 王忠策
摘 要 本文的目的是嘗試一種方法,可以準(zhǔn)確地估計(jì)從任意圖像與任意人群密度和任意角度人群計(jì)數(shù)。為此,我們應(yīng)用簡(jiǎn)單而有效的多列卷積神經(jīng)網(wǎng)絡(luò)(MCNN)架構(gòu),將圖像映射到它的人群密度圖。允許在任意大小或分辨率模式下輸入圖像。通過(guò)利用不同大小感受野的過(guò)濾器,每列卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)特點(diǎn)是自適應(yīng)人/頭尺寸對(duì)應(yīng)透視效果或圖像分辨率變化。針對(duì)這具有挑戰(zhàn)性的任務(wù),我們進(jìn)行了大量的實(shí)驗(yàn),以驗(yàn)證所應(yīng)用模型和方法的有效性。此外,實(shí)驗(yàn)表明,這個(gè)模型一旦訓(xùn)練另一個(gè)目標(biāo)數(shù)據(jù)集,可以很容易地轉(zhuǎn)移到一個(gè)模式相近的新應(yīng)用領(lǐng)域。
關(guān)鍵詞 MCNN 人群計(jì)數(shù) 人群密度圖
Abstract The purpose of this paper is to try a method that can accurately estimate population counts from arbitrary images with arbitrary population densities and arbitrary angles. To this end, we apply simple but effective multiple row convolutional neural network (MCNN) architecture to map the image to its population density map. Allows images to be entered in any size or resolution mode. By using filters of different size receptive fields, each column convolutional neural network learning feature is adaptive human / head size corresponding to perspective effect or image resolution change. In response to this challenging task, we conducted extensive experiments to validate the effectiveness of the model and method applied. Moreover, experiments show that once the model is trained, another target data set can easily be transferred to a new application field with similar patterns.
Keywords MCNN; population count; population density map
0 引言
在一些情況下,如景區(qū)、公眾集會(huì)和體育賽事,人數(shù)或參與人密度是一個(gè)重要的信息,為今后的事件規(guī)劃和空間設(shè)計(jì)提供參考。良好的人群計(jì)數(shù)方法也可以擴(kuò)展到其他領(lǐng)域,例如,計(jì)數(shù)癌細(xì)胞或血液細(xì)胞的微觀圖像,野生動(dòng)物種群估計(jì),估計(jì)交通樞紐或交通堵塞等車(chē)輛的數(shù)量等等。
在本文中,我們的目標(biāo)是從任意靜止圖像進(jìn)行準(zhǔn)確的人群計(jì)數(shù),任意相機(jī)角度和人群密度。這似乎是一項(xiàng)相當(dāng)艱巨的任務(wù),因?yàn)槲覀冃枰朔幌盗械奶魬?zhàn):
(1)在我們的任務(wù)(或數(shù)據(jù)集)的人群密度和分布有顯著差異,通常有巨大的困難,因此,傳統(tǒng)的基于檢測(cè)的方法不能很好地應(yīng)用于這樣的圖像和情況。
(2)由于在圖像中人的規(guī)模可能有顯著的變化,我們需要兼容不同尺度的功能,以準(zhǔn)確地估計(jì)人群計(jì)數(shù)不同的圖像。因?yàn)槲覀儗?duì)跟蹤的特征很難應(yīng)用手工特點(diǎn)來(lái)適應(yīng)所有不同的尺度,我們必須采取可以自動(dòng)學(xué)習(xí)的有效特征方法。
為了克服上述挑戰(zhàn),在這項(xiàng)工作中,我們應(yīng)用一個(gè)兼顧不同尺度人群密度的卷積神經(jīng)網(wǎng)絡(luò)在靜止圖像進(jìn)行人群計(jì)數(shù)。更具體地說(shuō),我們借鑒一個(gè)多列卷積神經(jīng)網(wǎng)絡(luò)(MCNN)的思想來(lái)處理本工作,應(yīng)用多列深度神經(jīng)網(wǎng)絡(luò)圖像分類(lèi)。在此模型中,任意數(shù)量的列可以不同的方式進(jìn)行輸入預(yù)處理。最后的預(yù)測(cè)是通過(guò)平均每個(gè)預(yù)測(cè)的所有深度神經(jīng)網(wǎng)絡(luò)輸出結(jié)果。
此方案包含有不同尺寸三列卷積神經(jīng)網(wǎng)絡(luò)的過(guò)濾器,輸入一個(gè)圖像,其輸出是給出總體人群計(jì)數(shù)的人群密度圖積分。具體概括如下:
采用多列CNN:三列對(duì)應(yīng)不同大小的感受野(大、中、小型過(guò)濾器),每列CNN學(xué)到的特點(diǎn)是自適應(yīng)的(因此確保由于視角影響或在不同的圖像分辨率的大小大變化的人/頭整體網(wǎng)絡(luò)魯棒性)。
在輸出端,替換卷積過(guò)濾器大小為1€?代替全連接層。因此,我們模型的輸入圖像可以任意大小,以防失真。網(wǎng)絡(luò)直接輸出是一個(gè)人群估計(jì)密度圖,通過(guò)積分得到整體計(jì)數(shù)。
1 基于多列CNN的人群計(jì)數(shù)
1.1 基于密度圖的人群計(jì)數(shù)[1]
在一個(gè)給定的圖像進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)(CNN)操作而估計(jì)人數(shù),有兩個(gè)配置方案。一個(gè)是基于CNN網(wǎng)絡(luò),其輸入是圖像,輸出是估計(jì)的頭數(shù);另一個(gè)是輸出一個(gè)人群密度圖(對(duì)應(yīng)每平方米多少人),然后獲得頭部計(jì)數(shù)的整合。在本文中,我們選擇第二方案,有以下原因:
(1)密度圖保留更多信息。與總?cè)藬?shù)的人群,密度圖給出了在給定的圖像中人群的空間分布,以及在許多應(yīng)用中,這樣的分布信息是有用的。例如,如果一個(gè)小區(qū)域的密度遠(yuǎn)高于其他區(qū)域的密度,則可能會(huì)出現(xiàn)一些異?,F(xiàn)象。
(2)在通過(guò)CNN學(xué)習(xí)密度圖,學(xué)到的過(guò)濾器更適合不同尺寸的頭,因此更適合于任意輸入的透視效果變化顯著。因此,過(guò)濾器更有語(yǔ)義意義,從而提高了人群計(jì)數(shù)的準(zhǔn)確性。
1.2 幾何自適應(yīng)核密度圖
由于CNN需要進(jìn)行訓(xùn)練,以估計(jì)從輸入圖像得到的人群密度圖,在訓(xùn)練數(shù)據(jù)中給出的密度的質(zhì)量決定此方法的性能。首先,我們描述了如何轉(zhuǎn)換圖像與標(biāo)記的人頭的人群密度圖。endprint
如果像素xi處有一個(gè)人頭,我們表示為沖擊函數(shù)。因此,具有n個(gè)頭部標(biāo)記的圖像可以表示為一個(gè)函數(shù) ,將其轉(zhuǎn)換為連續(xù)密度函數(shù),我們可以使用這個(gè)函數(shù)與高斯核G €%l卷積得到密度F(x) = H(x) * G €%l (x)。我們應(yīng)該根據(jù)每個(gè)人的頭部大小的圖像內(nèi)的擴(kuò)散參數(shù)€%l。然而,在實(shí)踐中,幾乎是不可能準(zhǔn)確地得到受遮擋頭部的大小,在許多情況下,并且也很難找到頭部密度圖之間的基本關(guān)系。不過(guò),我們發(fā)現(xiàn),通常與場(chǎng)景頭部大小有關(guān)的兩個(gè)相鄰的人在擁擠的場(chǎng)景中心之間的距離與人頭大小成一定比例關(guān)系。作為折中,這些擁擠場(chǎng)景的密度圖,建議數(shù)據(jù)在每個(gè)人的傳播參數(shù)的基礎(chǔ)上自適應(yīng)地確定其到它的鄰居平均距離。, ,此處,為特定人頭距周?chē)車(chē)祟^的平均距離。
1.3 用于密度圖估計(jì)的CNN
由于透視失真,圖像通常包含非常不同大小的頭部,因此過(guò)濾器的接收相同字段大小的不太可能捕捉到在不同的尺度人群密度的特點(diǎn)。因此,它更自然地使用過(guò)濾器與不同尺寸本地感受野學(xué)習(xí)的來(lái)自原始像素的密度圖。出于多列深度神經(jīng)網(wǎng)絡(luò)優(yōu)勢(shì),[2]我們使用多列CNN學(xué)習(xí)目標(biāo)密度圖。在這里,每一列,我們使用不同尺寸的過(guò)濾器模型對(duì)應(yīng)于不同尺度的人群密度圖。例如,具有較大的感受野的過(guò)濾器對(duì)應(yīng)于較大的頭部密度圖的建模。
整體結(jié)構(gòu)包含三個(gè)并行神經(jīng)網(wǎng)絡(luò)的過(guò)濾器是用來(lái)對(duì)應(yīng)不同大小的局部感受野。為了簡(jiǎn)化,我們除了大小和數(shù)字濾波器使用相同的網(wǎng)絡(luò)結(jié)構(gòu)的所有列(即轉(zhuǎn)換-池化–轉(zhuǎn)換–池化),借助最大池化所表現(xiàn)出的良好性能,并用修正線性單元ReLU作為激活函數(shù)。為了減少計(jì)算復(fù)雜度(待優(yōu)化參數(shù)的數(shù)目),我們使用的過(guò)濾器與過(guò)濾器CNN大多數(shù)量少。我們所有的卷積神經(jīng)網(wǎng)絡(luò)的輸出對(duì)應(yīng)到密度圖。Euclidean距離被用來(lái)測(cè)量估計(jì)密度圖和真實(shí)參考之間差異。損失函數(shù)定義: ,在是一套可學(xué)習(xí)參數(shù)。N是訓(xùn)練圖像的數(shù)目。 和 是輸入圖像與數(shù)據(jù)庫(kù)圖像 實(shí)密度圖 代表估計(jì)密度圖,這是參數(shù)化樣本產(chǎn)生 。是估計(jì)密度圖和標(biāo)準(zhǔn)密度圖之間的損失。
注:由于我們使用兩層最大池化,空間分辨率為每個(gè)圖像降低了1/4。因此,在訓(xùn)練階段,我們也降低了每個(gè)訓(xùn)練樣本1/4,然后生成其密度圖。
2 測(cè)試
2.1 評(píng)價(jià)指標(biāo)
所用評(píng)價(jià)指標(biāo)為,其中N是測(cè)試圖像數(shù)量,是在圖像的實(shí)際人口數(shù),是在圖像的估計(jì)人數(shù)。粗略地說(shuō),MAE表示估計(jì)的準(zhǔn)確性,和MSE表示估計(jì)的魯棒性。
2.2 所用數(shù)據(jù)集
我們應(yīng)用ShanghaiTech和mall_dataset數(shù)據(jù)集作為基礎(chǔ)數(shù)據(jù)。如表1所示。
標(biāo)準(zhǔn)標(biāo)注mall_dataset數(shù)據(jù):超過(guò)60000行人被標(biāo)注在2000個(gè)視頻幀。在幀上每個(gè)行人注釋數(shù)據(jù)詳盡標(biāo)記頭部位置。
2.3 實(shí)驗(yàn)仿真
在mall_dataset數(shù)據(jù)集上進(jìn)行測(cè)試,單張圖片測(cè)試結(jié)果如下(依次為原圖像,ground truth,estimated density map)(見(jiàn)圖1)。
3 結(jié)論
在本文中,我們驗(yàn)證了多列卷積神經(jīng)網(wǎng)絡(luò)可以準(zhǔn)確地估計(jì)人群數(shù)量,并且適用于在單一圖像的幾乎任何角度。此模型在稠密人群計(jì)數(shù)識(shí)別平均絕對(duì)誤差約為116.2人,較稀疏人群計(jì)數(shù)識(shí)別平均絕對(duì)誤差約為29.7人,具有實(shí)用價(jià)值。此外,此模型應(yīng)用領(lǐng)域可以很容易地轉(zhuǎn)移到其他目標(biāo)域,只需微調(diào)最后幾層受過(guò)訓(xùn)練的模型,這表明該模型的良好的普遍性。
參考文獻(xiàn)
[1] Zhang C, Li H, Wang X, et al. Cross-scene crowd counting via deep convolutional neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2015: 833-841.
[2] Zhang Y, Zhou D, Chen S, et al. Single-Image Crowd Counting via Multi-Column Convolutional Neural Network[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2016:589-597.endprint