時增林 葉陽東 吳云鵬 婁錚錚
?
基于序的空間金字塔池化網(wǎng)絡(luò)的人群計(jì)數(shù)方法
時增林1葉陽東1吳云鵬1婁錚錚1
視頻中的人群計(jì)數(shù)在智能監(jiān)控領(lǐng)域具有重要價值.由于攝像機(jī)透視效果、圖像背景、人群密度分布不均勻和行人遮擋等干擾因素的制約,基于底層特征的傳統(tǒng)計(jì)數(shù)方法準(zhǔn)確率較低.本文提出一種基于序的空間金字塔池化(Rank-based spatial pyramid pooling,RSPP)網(wǎng)絡(luò)的人群計(jì)數(shù)方法.該方法將原圖像分成多個具有相同透視范圍的子區(qū)域并在各個子區(qū)域分別取不同尺度的子圖像塊,采用基于序的空間金字塔池化網(wǎng)絡(luò)估計(jì)子圖像塊人數(shù),然后相加所有子圖像塊人數(shù)得出原圖像人數(shù).提出的圖像分塊方法有效地消除了攝像機(jī)透視效果和人群密度分布不均勻?qū)τ?jì)數(shù)的影響.提出的基于序的空間金字塔池化不僅能夠處理多種尺度的子圖像塊,而且解決了傳統(tǒng)池化方法易損失大量重要信息和易過擬合的問題.實(shí)驗(yàn)結(jié)果表明,本文方法相比于傳統(tǒng)方法具有準(zhǔn)確率高和魯棒性好的優(yōu)點(diǎn).
人群計(jì)數(shù),空間金字塔池化,深度學(xué)習(xí),卷積神經(jīng)網(wǎng)絡(luò),嶺回歸
引用格式時增林,葉陽東,吳云鵬,婁錚錚.基于序的空間金字塔池化網(wǎng)絡(luò)的人群計(jì)數(shù)方法.自動化學(xué)報,2016,42(6):866-874
監(jiān)控視頻中的人群自動計(jì)數(shù)有著重要的社會意義和市場應(yīng)用前景.充分利用興趣區(qū)域的人數(shù)統(tǒng)計(jì)信息可以為一些人群密集的商場、車站、廣場等公共場合的安全預(yù)警提供有效的指導(dǎo),還可以帶來經(jīng)濟(jì)效益,例如,提高服務(wù)質(zhì)量、分析顧客行為、廣告投放和優(yōu)化資源配置等.因此,該問題已成為計(jì)算機(jī)視覺和智能視頻監(jiān)控領(lǐng)域的重要研究內(nèi)容.
近年來,隨著計(jì)算機(jī)視覺技術(shù)的持續(xù)發(fā)展,大量的人群計(jì)數(shù)方法被提出.這些方法總體可以分為兩類,一類是基于行人檢測技術(shù)的直接法[1-2],另一類是基于特征回歸技術(shù)的間接法[3-9].直接法通過檢測和跟蹤視頻中的個體來完成人數(shù)統(tǒng)計(jì).這種方法能夠同時完成人群計(jì)數(shù)和個體定位,缺點(diǎn)是在人群密度較高或視頻開闊的場景下識別率不高.間接法將人群視為一個整體,利用圖像特征和人群人數(shù)之間的回歸關(guān)系實(shí)現(xiàn)行人計(jì)數(shù).這類方法能夠有效地解決人群遮擋問題,具有大規(guī)模人群計(jì)數(shù)的能力.
間接法又可以分為全局法和局部法[10].全局法[3-4,8]以視頻中的每一幀為計(jì)數(shù)單位,使用全局的圖像特征進(jìn)行計(jì)數(shù).局部法[5-7,9]將原圖像分成多個子圖像塊,以子圖像塊為計(jì)數(shù)單位,使用局部的圖像特征進(jìn)行計(jì)數(shù).盡管全局法具有操作簡單、計(jì)數(shù)方便的優(yōu)點(diǎn),然而也面臨著以下幾個方面的問題:1)容易受到攝像機(jī)透視效果的影響,即對于同一個目標(biāo),隨著它與攝像機(jī)的距離變化,特征向量也會改變;2)人群密度大的場景比較復(fù)雜,這時將整個場景作為計(jì)數(shù)單位,會產(chǎn)生很多噪聲,噪聲累積對計(jì)數(shù)結(jié)果有負(fù)面影響;3)建立整個場景的特征和人數(shù)的回歸關(guān)系,需要大量的訓(xùn)練數(shù)據(jù);4)由于透視效果、視點(diǎn)變化和人群密度變化,圖像人群密度分布應(yīng)大致均勻的前提假設(shè)在真實(shí)的場境下一般不成立.局部法通過將原圖像分成多個子圖像塊,能夠有效解決全局法面臨的問題[10].
圖像分塊和圖像特征提取是影響局部法計(jì)數(shù)效果的關(guān)鍵技術(shù).均勻分塊方法[5-6]是現(xiàn)有局部法常采用的圖像分塊方法.該方法將原圖像分成多個具有相同尺度的子圖像塊,有著操作簡單的優(yōu)點(diǎn),然而并不能有效地消除攝像機(jī)透視效果和人群密度分布不均勻?qū)τ?jì)數(shù)的影響.現(xiàn)有局部法常用的底層特征有:形狀特征[3[8]、關(guān)鍵點(diǎn)特征(興趣點(diǎn)[5]、角點(diǎn)[11])、紋理特征(Gray level dependent matrix,GLDM)[12]和梯度統(tǒng)計(jì)特征(Histogram of oriented gradient,HOG)[5]等.這些底層特征對人群的表征能力有限,加上人群遮擋、透視效果的影響,難以達(dá)到理想的效果.
本文在深入研究現(xiàn)有人群計(jì)數(shù)方法的基礎(chǔ)上,提出一種基于序的空間金字塔池化網(wǎng)絡(luò)的人群計(jì)數(shù)方法.該方法將原圖像分成多種尺度的子圖像塊,采用基于序的空間金字塔池化網(wǎng)絡(luò)獲取子圖像塊人數(shù),然后相加所有子圖像塊人數(shù)得出圖像人數(shù).傳統(tǒng)方法和本文方法的計(jì)數(shù)流程如圖1所示.本文的貢獻(xiàn)主要有以下幾點(diǎn):1)提出一種新的人群計(jì)數(shù)方法.該方法提取特征不依賴于前景分割,通過多層卷積—池化結(jié)構(gòu)獲取的高層特征相比于底層特征對人群的表征能力更強(qiáng).2)提出一種新的圖像分塊方法.該方法將原圖像分成多個具有相同透視范圍的子區(qū)域并在各個子區(qū)域取圖像塊,有效地消除了攝像機(jī)透視效果和人群密度分布不均勻?qū)τ?jì)數(shù)的影響;3)提出的基于序的空間金字塔池化不僅能夠處理多種尺度的子圖像塊,而且解決了傳統(tǒng)池化方法易損失大量重要信息和易過擬合的問題.在UCSD行人數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文方法相比于傳統(tǒng)方法具有準(zhǔn)確率高和魯棒性好的優(yōu)點(diǎn).
自Hinton等提出深度學(xué)習(xí)(Deep learning,DL)[13]以來,DL已經(jīng)在學(xué)術(shù)界和產(chǎn)業(yè)界產(chǎn)生了深遠(yuǎn)的影響.它通過多層結(jié)構(gòu)將底層特征逐步轉(zhuǎn)換為更加抽象的高層特征,具有優(yōu)異的特征學(xué)習(xí)能力,學(xué)到的特征對數(shù)據(jù)有更本質(zhì)的刻畫.卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)是第一個真正意義上的深度學(xué)習(xí)模型,也是最成功的深度模型之一,在計(jì)算機(jī)視覺領(lǐng)域有著廣泛的應(yīng)用.CNN憑借特有的卷積—池化(Convolution-pooling)結(jié)構(gòu)獲得的特征對平移、縮放和旋轉(zhuǎn)具有不變性,相比于底層特征,判別能力和魯棒性更強(qiáng)[14].修正線性單元(Rectified linear units,ReLU)[15]、Dropout[16]和響應(yīng)歸一化(Response normalization,RN)[16]等新方法又增強(qiáng)了CNN模型的能力.當(dāng)前典型的卷積—池化結(jié)構(gòu)如圖2所示.
圖1 傳統(tǒng)人群計(jì)數(shù)方法和本文人群計(jì)數(shù)方法的流程Fig.1 The flow chart of traditional and the proposed crowd counting methods
圖2 當(dāng)前典型的卷積—池化結(jié)構(gòu)Fig.2 The typical convolution-pooling structure
CNN中的全連接層需要固定的輸入維度,限制了CNN只能接受固定尺度的輸入.一般只能通過圖像尺度歸一化的方法來處理不同尺度的輸入圖像,然而這種方法會導(dǎo)致圖像信息的損失.為解決這個問題,He等提出了空間金字塔池化(Spatial pyramid pooling,SPP)[17]方法.SPP允許CNN接受任何尺度的輸入,增加了模型的尺度不變性,抑制了過擬合的發(fā)生.文獻(xiàn)[17]將使用了空間金字塔池化的卷積神經(jīng)網(wǎng)絡(luò)稱為空間金字塔池化網(wǎng)絡(luò).典型的空間金字塔池化網(wǎng)絡(luò)如圖3所示.
圖3 典型的空間金字塔層結(jié)構(gòu)Fig.3 The typical spatial pyramid pooling structure
空間金字塔池化通過使用多個不同大小的池化操作保證固定的特征向量輸出,從而實(shí)現(xiàn)任何尺度的輸入.在進(jìn)行具體的池化操作時一般采用最大池化(Max pooling)和平均池化(Average pooling),然而這兩種方法都有自身的缺陷.最大池化總是取池化域內(nèi)的最大激活值作為池化輸出,忽略了大量有用信息,容易導(dǎo)致模型過擬合.平均池化以池化域內(nèi)所有激活值的平均值作為池化輸出,會發(fā)生低的負(fù)激活值與高的正激活值相消的情況,容易產(chǎn)生零均值,從而導(dǎo)致不好的結(jié)果.為解決最大池化和平均池化的問題,文獻(xiàn)[18]提出一種稱作隨機(jī)池化(Stochastic pooling)的方法.該方法采用對池化域內(nèi)的n個激活值歸一化的方法獲取選擇概率pi:
然后根據(jù)選擇概率隨機(jī)地選取一個激活值作為池化輸出.該方法通過隨機(jī)操作使得所有激活值都有機(jī)會參與到池化操作中,相比于最大池化和平均池化具有更好的表現(xiàn)[18-19].然而這種隨機(jī)池化方法使用式(1)計(jì)算選擇概率有兩方面的不足:1)該式不接受負(fù)值,只能與ReLU激活函數(shù)配合使用(ReLU可以把負(fù)值強(qiáng)制為0),因此,不能與其他有效的激活函數(shù)結(jié)合使用;2)該式不能控制選擇概率,在某些情況下會導(dǎo)致最大激活值的選擇概率接近或達(dá)到1,使得隨機(jī)池化退化為最大池化.
本文在深入研究現(xiàn)有人群計(jì)數(shù)方法的基礎(chǔ)上,提出一種基于序的空間金字塔池化網(wǎng)絡(luò)的人群計(jì)數(shù)方法.該方法將原圖像分成多種尺度的子圖像塊,采用基于序的空間金字塔池化網(wǎng)絡(luò)獲取子圖像塊人數(shù),然后相加所有子圖像塊人數(shù)得出圖像人數(shù).
2.1圖像分塊
由于攝像機(jī)的透視效果,不同景深的行人在圖像平面呈現(xiàn)不同的形狀和大小,遠(yuǎn)離攝像機(jī)區(qū)域的人群更密集,相互遮擋更嚴(yán)重,這些問題都增加了人群計(jì)數(shù)的難度.因此,消除圖像的透視效果是提高間接法人群計(jì)數(shù)算法性能的關(guān)鍵步驟.圖像分塊可以有效地消除攝像機(jī)的透視效果,然而現(xiàn)行的均勻分塊方法的效果并不理想.本文提出一種新的圖像分塊方法.該方法將原圖像分成多個具有相同透視范圍的子區(qū)域并在各個子區(qū)域取圖像塊,具體有三個主要步驟.
1)計(jì)算圖像的透視關(guān)系圖.本文采用文獻(xiàn)[3]提出的方法計(jì)算圖像的透視關(guān)系圖.首先,標(biāo)出實(shí)驗(yàn)所需要的感興趣區(qū)域(Region of interest,ROI),找出ROI區(qū)域沿著攝像機(jī)遠(yuǎn)近方向的平行的兩端,一個遠(yuǎn)端,一個近端,分別測量出其長度,如圖4(a)中的分別測量出線段上的一個目標(biāo)的長度,目標(biāo)中心在上.如圖4(a)中的h1和h2.然后,用透視程度表示不同景深的行人發(fā)生透視效果的程度.設(shè)線上的透視程度為1,則按照線性插值的規(guī)則,線上的透視程度應(yīng)為.最后,其他景深的透視程度按照兩條線之間的線性插值得到.
2)將圖像分為幾個子區(qū)域,使得不同子區(qū)域具有相同的透視范圍(Scope of perspective,SP).
其中,pf表示ROI區(qū)域內(nèi)最遠(yuǎn)方的透視程度,pn表示ROI區(qū)域內(nèi)最近方的透視程度,t表示圖像分成的子區(qū)域數(shù)量,可以控制子區(qū)域透視效果的強(qiáng)度.t值越大子區(qū)域的透視效果越弱,然而t值過大會導(dǎo)致計(jì)數(shù)復(fù)雜度變高和計(jì)數(shù)準(zhǔn)確率下降.本文將圖像分為A、B和C三個子區(qū)域,如圖4(b)所示.
3)分別從各個子區(qū)域取子圖像塊.子圖像塊的高度與子區(qū)域的高度一致.由于不同子區(qū)域的高度不同,因此從各個子區(qū)域獲取的子圖像塊具有不同的尺度.
文獻(xiàn)[3]通過使用透視關(guān)系圖對每個像素加透視校正權(quán)重的方式處理攝像機(jī)的透視效果,然而這種方法在真實(shí)的場景中具有局限性[9],并且不能夠處理人群密度分布不均勻的問題.本文利用透視關(guān)系圖將圖像分成多個具有相同透視范圍的子區(qū)域,從而弱化了原圖像的透視效果.從各個子區(qū)域所取的子圖像塊相比于原圖像尺寸較小,因此子圖像塊的人群密度分布相對均勻.
圖4 圖像分塊方法Fig.4 The methods of dividing image into sub-image blocks
2.2基于序的隨機(jī)池化
盡管空間金字塔池化網(wǎng)路能夠處理多種尺度的子圖像塊,然而在進(jìn)行具體的池化操作時,當(dāng)前常用的池化方法有很多的不足.為此,本文提出了一種稱作基于序的隨機(jī)池化(Rank-based stochastic pooling,RSP)方法.
RSP首先根據(jù)池化域內(nèi)激活值的大小對激活值從高到低排序,將激活值在排序后的索引作為激活值的序.例如,激活值最高的元素的序是“1”.然后,根據(jù)下式[20]計(jì)算激活值的選擇概率.
其中,α是一個超參數(shù),表示最大激活值的選擇概率,r表示激活值的序,n表示池化域的大小.最后,從選擇概率的多項(xiàng)式分布(Multinomial distribution)中采樣,得到第j個池化域要保留的激活值sj:
ai表示池化域j內(nèi)索引為i的激活值.
在測試時,使用式(3)計(jì)算的概率對池化域內(nèi)的激活值加權(quán),取加權(quán)后的所有激活值的和作為池化的結(jié)果.
這種加權(quán)方法應(yīng)用在測試時可以看作是一種模型平均策略,提高了模型的表現(xiàn).式(3)可以看作是一個首項(xiàng)為α、公比為1-α的等比數(shù)列,因此,容易得到,
化簡后得到,
RSP使用激活值的序而不是實(shí)際的激活值計(jì)算選擇概率,因此不必限制激活值的正負(fù)性,可以與更多的激活函數(shù)結(jié)合使用.式(3)能夠通過參數(shù)α控制最大激活值的選擇概率,使得最大激活值的選擇概率不會太大,也不會太小,保證了RSP在選擇激活值時具有更多的隨機(jī)性,從而進(jìn)一步控制過擬合.同時,更多的隨機(jī)性使得RSP既保留了重要信息又保證了信息的多樣性,有利于獲得表征能力更強(qiáng)的特征.
RSP可以應(yīng)用在CNN的任何池化層.本文將使用了RSP的空間金字塔池化稱作基于序的空間金字塔池化(Rank-based spatial pyramid pooling,RSPP),將使用了RSPP的CNN稱作基于序的空間金字塔池化網(wǎng)絡(luò)(Rank-based spatial pyramid pooling network,RSPP-net).
2.3人群計(jì)數(shù)模型
本文提出的基于序的空間金字塔池化網(wǎng)絡(luò)的人群計(jì)數(shù)模型是一個端到端的系統(tǒng)(End-to-end system).該模型直接以子圖像塊作為輸入,通過多層的卷積—池化結(jié)構(gòu)自動提取特征,然后交由嶺回歸層[21]處理,最終輸出子圖像塊人數(shù).特征提取和回歸由不同的網(wǎng)絡(luò)層自動實(shí)現(xiàn).為了降低訓(xùn)練的難度,使用多個共享訓(xùn)練參數(shù)的CNN模型來逼近一個允許多尺度輸入的基于序的空間金字塔池化網(wǎng)絡(luò)[17].本文構(gòu)建了三個僅輸入維度不同的CNN模型來處理三種尺度的子圖像塊,分別記作CNN_64、CNN_44和CNN_28,它們的詳細(xì)參數(shù)設(shè)置如表1所示.訓(xùn)練時三個模型根據(jù)輸入維度大小依次進(jìn)行,通過將前一個訓(xùn)練好的模型作為下一個訓(xùn)練模型的預(yù)訓(xùn)練模型的方式共享訓(xùn)練參數(shù).這種訓(xùn)練方法彌補(bǔ)了較小尺度圖像塊訓(xùn)練數(shù)據(jù)不足的問題,并且加快了模型擬合的速度.測試時分別將子圖像塊輸入訓(xùn)練好的模型得到子圖像塊人數(shù),然后所有子圖像塊人數(shù)相加得出圖像人數(shù).提出的計(jì)數(shù)框架如圖5所示.
表1 人群CNN模型的詳細(xì)結(jié)構(gòu)Table 1 Architecture specifics for crowd CNN model
利用開源的深度學(xué)習(xí)框架Caffe[22]訓(xùn)練提出的模型.Euclidean_loss被用為損失函數(shù).使用minibatch為100的隨機(jī)梯度下降(Stochastic gradient descent,SGD)方法調(diào)整模型參數(shù).為了加快模型擬合的速度,使用了常數(shù)項(xiàng)為0.9的沖量(Momentum).常數(shù)項(xiàng)為0.01的權(quán)值衰減(Weight decay)被用于控制過擬合.RSP中的常數(shù)項(xiàng)α取值為0.5.
采用UCSD行人數(shù)據(jù)集[3]評價提出的方法.該數(shù)據(jù)集由2000幀尺寸為158×238的圖像組成.每一幀圖像中的行人都已經(jīng)被標(biāo)注,標(biāo)注坐標(biāo)是行人的中心位置.圖像中行人數(shù)量最小為11,最大為46. 圖6給出了UCSD數(shù)據(jù)集的一些示例幀.
圖5 計(jì)數(shù)模型的整體結(jié)構(gòu)Fig.5 The overall structure of the crowd counting model
圖6 UCSD數(shù)據(jù)集示例幀F(xiàn)ig.6 Examples frames of the UCSD dataset
為了保證對比實(shí)驗(yàn)的公平性,與文獻(xiàn)[3]保持一致,使用601~1400幀作為訓(xùn)練集,余下的1200幀作為測試集.分別在訓(xùn)練集和測試集上根據(jù)第2節(jié)描述的方法取子圖像塊.首先將圖像分為高度為64、44和28三個子區(qū)域.然后分別在三個子區(qū)域上取尺寸相同的子圖像塊.由于深度學(xué)習(xí)模型復(fù)雜,需要大量的訓(xùn)練數(shù)據(jù).本文在訓(xùn)練集上使用滑動步長為1的窗口取子圖像塊,進(jìn)行數(shù)據(jù)集的擴(kuò)展.每個子圖像塊的實(shí)際人數(shù)通過行人的標(biāo)注坐標(biāo)計(jì)算得到.訓(xùn)練集中存在一些只有背景沒有行人的數(shù)據(jù),這些數(shù)據(jù)作為負(fù)樣本,使得訓(xùn)練得到的模型魯棒性更好.在每一張圖像的三個子區(qū)域分別取3、4和3個子圖像塊,組成測試集.測試子圖像塊之間沒有重疊,能夠覆蓋整個ROI區(qū)域.一些示例如圖7所示.最終獲得的訓(xùn)練集和測試集的詳細(xì)情況如表2所示.
圖7 子圖像塊示例Fig.7 Examples of sub-image blocks
表2 實(shí)驗(yàn)數(shù)據(jù)Table 2 Experimental data
人群計(jì)數(shù)方法的優(yōu)劣可以通過實(shí)驗(yàn)幀的實(shí)際人數(shù)與其對應(yīng)的預(yù)測值來做判斷,本文采用平均絕對誤差(Mean absolute error,MAE)和均方誤差(Mean squared error,MSE)作為評價的標(biāo)準(zhǔn).
其中,N為實(shí)驗(yàn)視頻序列的幀數(shù),Gt為第t幀的實(shí)際人數(shù),Et為第t幀的預(yù)測人數(shù).
實(shí)驗(yàn)1.驗(yàn)證基于序的隨機(jī)池化方法的有效性.由于尺度為64的圖像塊訓(xùn)練數(shù)據(jù)最多,首先訓(xùn)練CNN_64模型.為了驗(yàn)證本文提出的基于序的隨機(jī)池化方法的有效性,在保證其他設(shè)置都不變的情況下,分別采用不同的池化方法估計(jì)人數(shù).多種池化方法在尺度為64的子圖像塊上的計(jì)數(shù)結(jié)果如表3所示.通過比較表3的結(jié)果可以看出,基于序的隨機(jī)池化方法避免了過擬合,在測試集上的兩種評價指標(biāo)均優(yōu)于其他幾種池化方法.
表3 多種池化方法在尺度為64的子圖像塊上的測試結(jié)果Table 3 Testing results for sub-image blocks with the scale of 64 of various pooling methods
實(shí)驗(yàn)2.驗(yàn)證聯(lián)合訓(xùn)練方法的有效性.CNN_44模型將訓(xùn)練好的CNN_64模型作為預(yù)訓(xùn)練模型,并使用尺度為44的訓(xùn)練數(shù)據(jù)調(diào)整模型參數(shù).最后訓(xùn)練的是CNN_28模型.為了驗(yàn)證本文提出的聯(lián)合訓(xùn)練方法的有效性,進(jìn)行了單獨(dú)訓(xùn)練的對比實(shí)驗(yàn).單獨(dú)訓(xùn)練指的是三個模型分別使用各自的數(shù)據(jù)進(jìn)行無關(guān)聯(lián)的訓(xùn)練,彼此之間不共享訓(xùn)練參數(shù).在三個尺度子圖像塊上的測試結(jié)果如表4所示.從表4的測試結(jié)果可以看出,聯(lián)合訓(xùn)練大幅提高了計(jì)數(shù)準(zhǔn)確率.
表4 子圖像塊上的測試結(jié)果Table 4 The testing results in sub-image blocks
實(shí)驗(yàn)3.驗(yàn)證提出的圖像分塊方法的有效性.本實(shí)驗(yàn)采用均勻分塊的方法,將原圖像分成尺度相同的子圖像塊,然后用一個CNN模型進(jìn)行計(jì)數(shù).從每個原始訓(xùn)練圖像上隨機(jī)取600個72×72的子圖像塊組成訓(xùn)練集.從每個原始測試圖像上取6個72×72的子圖像塊組成測試集.測試子圖像塊之間沒有重疊,能夠覆蓋整個ROI區(qū)域.將子圖像塊輸入到CNN模型中,得出子圖像塊人數(shù).每個原始測試圖像的估計(jì)人數(shù)為6個子圖像塊之和.為保證計(jì)數(shù)的公平性,本實(shí)驗(yàn)使用的CNN模型與實(shí)驗(yàn)1和實(shí)驗(yàn)2所用的CNN模型僅輸入維度不一樣,其他參數(shù)設(shè)置完全相同.實(shí)驗(yàn)結(jié)果如表5所示,本文方法優(yōu)于單CNN模型.
表5 整幅圖像上的測試結(jié)果Table 5 The testing results in image
實(shí)驗(yàn)4.比較本文方法與傳統(tǒng)人群計(jì)數(shù)方法.提出方法的最終目的是估計(jì)整幅圖像的人數(shù).分別將子圖像塊輸入訓(xùn)練好的模型得到子圖像塊的人數(shù),然后所有子圖像塊人數(shù)相加得出圖像人數(shù).提出的方法與傳統(tǒng)最好方法(State-of-the-art methods)在測試數(shù)據(jù)上的計(jì)數(shù)結(jié)果如表5所示.從結(jié)果對比可以看出,本文提出的方法在兩個評價指標(biāo)上均優(yōu)于已有的方法,分析原因主要有兩點(diǎn):1)對比方法都是先進(jìn)行前景分割,再提取邊緣、面積等特征描述行人.顯然,前景分割后有利于更直接地描述和提取行人的特征.但是光照變化、行人擁擠程度、背景顏色等多種干擾因素都使得前景分割成為一項(xiàng)較難的工作.本文提出的方法一方面通過分塊降低了特征提取的難度,另一方面自動學(xué)習(xí)特征的方式具有辨識前景和背景的能力,因此不需要前景分割,可以直接在原圖像上學(xué)習(xí)特征;2)對比方法使用的都是底層特征,對人群表達(dá)能力有限.本文采用多層卷積—池化結(jié)構(gòu)學(xué)習(xí)獲得的高層特征對人群有更本質(zhì)的刻畫和更強(qiáng)的判別能力,對行人遮擋的魯棒性好.
提出方法對整個測試集計(jì)數(shù)結(jié)果如圖8所示,對一些稀疏人群和高密度人群的計(jì)數(shù)結(jié)果如圖9所示.圖中所標(biāo)示的“E”為人數(shù)估計(jì)值,“G”為人數(shù)標(biāo)定值.
圖8 整個測試集的計(jì)數(shù)結(jié)果Fig.8 The recognition results on the entire testing frames
圖9 在多種人群密度上的計(jì)數(shù)結(jié)果Fig.9 Various density crowd counting
本文提出了一種基于序的空間金字塔池化網(wǎng)絡(luò)的人群計(jì)數(shù)方法.通過將圖像分成具有相同透視范圍的子區(qū)域,然后分別在子區(qū)域上取子圖像塊的方法,有效解決了攝像機(jī)透視效果和人群密度分布不均勻?qū)τ?jì)數(shù)帶來的影響.采用基于序的空間金字塔池化網(wǎng)絡(luò)估計(jì)多種尺度的子圖像塊人數(shù),不需要前景分割等復(fù)雜的步驟,通過多層卷積—池化結(jié)構(gòu)提取的特征相比于底層特征對人群圖像有更本質(zhì)的刻畫.通過實(shí)驗(yàn)驗(yàn)證了提出的圖像分塊方法和基于序的隨機(jī)池化方法的有效性.為解決基于序的空間金字塔池化網(wǎng)絡(luò)訓(xùn)練困難的問題,提出了聯(lián)合訓(xùn)練的方法.該方法充分利用了訓(xùn)練數(shù)據(jù),有效控制了過擬合現(xiàn)象的發(fā)生,相比于單獨(dú)訓(xùn)練方法提高了1倍的準(zhǔn)確率.實(shí)驗(yàn)結(jié)果表明,本文方法在有關(guān)人群計(jì)數(shù)準(zhǔn)確率的兩項(xiàng)指標(biāo)上均優(yōu)于其他計(jì)數(shù)方法.
References
1 Wu B,Nevatia R.Detection of multiple,partially occluded humans in a single image by Bayesian combination of edgelet part detectors.In:Proceedings of the 10th IEEE International Conference on Computer Vision.Beijing,China:IEEE,2005.90-97
2 Zhao T,Nevatia R,Wu B.Segmentation and tracking of multiple humans in crowded environments.IEEE Transactions on Pattern Analysis and Machine Intelligence,2008,30(7):1198-1211
3 Chan A B,Liang Z S J,Vasconcelos N.Privacy preserving crowd monitoring:counting people without people models or tracking.In:Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition.Anchorage,AK:IEEE,2008.1-7
4 Chan A B,Vasconcelos N.Counting people with low-level features and Bayesian regression.IEEE Transactions on Image Processing,2012,21(4):2160-2177
5 Idrees H,Saleemi I,Seibert C,Shah M.Multi-source multiscale counting in extremely dense crowd images.In:Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition.Portland,USA:IEEE,2013. 2547-2554
6 Lempitsky V,Zisserman A.Learning to count objects in images.In:Proceedings of Advances in Neural Information Processing Systems.Vancouver,Canada:NIPS,2010. 1324-1332
7 Ma W,Huang L,Liu C.Crowd density analysis using cooccurrence texture features.In:Proceedings of the 5th IEEE International Conference on Computer Sciences and Convergence Information Technology.Seoul,Korea:IEEE,2010. 170-175
8 Kong D,Gray D,Tao H.A viewpoint invariant approach for crowd counting.In:Proceedings of the 18th IEEE International Conference on Pattern Recognition.Hong Kong,China:IEEE,2006.1187-1190
9 Chen K,Loy C C,Gong S G,Xiang T.Feature mining for localised crowd counting.In:Proceedings of the 23rd British Machine Vision Conference.Surrey,British:BMVA Press,2012.1-3
10 Ryan D,Denman S,Sridharan S,F(xiàn)ookes C.An evaluation of crowd counting methods,features and regression models.Computer Vision and Image Understanding,2015,130:1-17
11 Rosten E,Porter R,Drummond T.Faster and better:a machine learning approach to corner detection.IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(1):105-119
12 Wu X Y,Liang G Y,Lee K K,Xu Y.Crowd density estimation using texture analysis and learning.In:Proceedings of the 2006 IEEE International Conference on Robotics and Biomimetics.Kunming,China:IEEE,2006.214-219
13 Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks.Science,2006,313(5786):504-507
14 Zeiler M D,F(xiàn)ergus R.Visualizing and understanding convolutional networks.In:Proceedings of the 13th European Conference on Computer Vision.Zurich,Switzerland:Springer,2014.818-833
15 Nair V,Hinton G E.Rectified linear units improve restricted Boltzmann machines.In:Proceedings of the 27th International Conference on Machine Learning.Haifa,Israel:JMLR,2010.807-814
16 Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks.In:Proceedings of Advances in Neural Information Processing Systems. Nevada,USA:NIPS,2012.1097-1105
17 He K M,Zhang X Y,Ren S Q,Sun J.Spatial pyramid pooling in deep convolutional networks for visual recognition.In:Proceedings of the 13th European Conference on Computer Vision.Zurich,Switzerland:Springer,2014.346-361
18 Zeiler M D,F(xiàn)ergus R.Stochastic pooling for regularization of deep convolutional neural networks.In:Proceedings of the 2013 International Conference on Learning Representation.Arizona,USA:ICLR,2013.1-9
19 Sainath T N,Kingsbury B,Saon G,Soltau H,Mohamed A R,Dahl G,Ramabhadran B.Deep convolutional neural networks for large-scale speech tasks.Neural Networks,2015,64:39-48
20 Michalewicz Z.Genetic Algorithms+Data Structures= Evolution Programs.Berlin Heidelberg:Springer Science& Business Media,2013.59-61
21 Saunders C,Gammerman A,Vovk V.Ridge regression learning algorithm in dual variables.In:Proceedings of the 15th International Conference on Machine Learning.San Francisco,CA,USA:Morgan Kaufmann Publishers Inc.,1998.515-521
22 Jia Y Q,Shelhamer E,Donahue J,Karayev S,Long J,Girshick R,Guadarrama S,Darrell T.Caffe:convolutional architecture for fast feature embedding.In:Proceedings of the 22nd ACM International Conference on Multimedia. Florida,USA:ACM,2014.675-678
23 Zhang Z X,Wang M,Geng X.Crowd counting in public video surveillance by label distribution learning.Neurocomputing,2015,166:151-163
時增林鄭州大學(xué)信息工程學(xué)院碩士研究生.主要研究方向?yàn)橛?jì)算機(jī)視覺,機(jī)器學(xué)習(xí),深度學(xué)習(xí).
E-mail:iezlshi@gs.zzu.edu.cn
(SHI Zeng-LinMaster student at the School of Information Engineering,Zhengzhou University.His research interest covers computer vision,machine learning,and deep learning.)
葉陽東鄭州大學(xué)信息工程學(xué)院教授.主要研究方向?yàn)橹悄芟到y(tǒng),機(jī)器學(xué)習(xí),數(shù)據(jù)庫.本文通信作者.
E-mail:ieydye@zzu.edu.cn
(YE Yang-DongProfessor at the SchoolofInformationEngineering,Zhengzhou University.His research interest covers intellectual system,machine learning,and database system.Corresponding author of this paper.)
吳云鵬鄭州大學(xué)信息工程學(xué)院博士研究生.主要研究方向?yàn)闄C(jī)器學(xué)習(xí),計(jì)算機(jī)視覺.
E-mail:ieypwu@zzu.edu.cn
(WU Yun-PengPh.D.candidate at the School of Information Engineering,Zhengzhou University.His research interest covers machine learning and computer vision.)
婁錚錚鄭州大學(xué)信息工程學(xué)院講師,博士.主要研究方向?yàn)闄C(jī)器學(xué)習(xí),模式識別,計(jì)算機(jī)視覺.
E-mail:iezzlou@zzu.edu.cn
(LOUZheng-ZhengLecturer,Ph.D.at the School of Information Engineering,Zhengzhou University.His research interest covers machine learning,pattern recognition,and computer vision.)
Crowd Counting Using Rank-based Spatial Pyramid Pooling Network
SHI Zeng-Lin1YE Yang-Dong1WU Yun-Peng1LOU Zheng-Zheng1
Crowd counting in videos has an important value in the field of intelligent surveillance.Due to the constraints resulting from camera perspective,uneven distribution of crowd density,background clutter,and occlusions,traditional low-level features-based methods suffer from low counting accuracy.In this paper,a new crowd counting method is proposed based on rank-based spatial pyramid pooling(RSPP)network.In the proposed method,the original image is divided into several sub-regions with the same scope of perspective,and then multi-scale sub-image blocks are respectively taken from different sub-regions.Rank-based spatial pyramid pooling network is used to get the numbers of pedestrians in sub-image blocks.Then summing the numbers of persons of all sub-image blocks gives the total number of people on the image.The proposed image blocking method eliminates the effect of camera perspective and uneven distribution of crowd density on crowd counting.The proposed rank-based spatial pyramid pooling can not only handle multi-scale sub-image blocks,but also solve the problem of huge important information loss and over-fitting encountered by traditional pooling methods.Experimental results show that the proposed method has the advantages of high accuracy and good robustness compared with traditional methods.
Crowd counting,spatial pyramid pooling(SPP),deep learning(DL),convolutional neural network(CNN),ridge regression
10.16383/j.aas.2016.c150663
Shi Zeng-Lin,Ye Yang-Dong,Wu Yun-Peng,Lou Zheng-Zheng.Crowd counting using rank-based spatial pyramid pooling network.Acta Automatica Sinica,2016,42(6):866-874
2015-10-31錄用日期2016-04-01
Manuscript received October 31,2015;accepted April 1,2016
國家自然科學(xué)基金(61170223,61502432,61502434)資助
Supported by National Natural Science Foundation of China (61170223,61502432,61502434)
本文責(zé)任編委柯登峰
Recommended by Associate Editor KE Deng-Feng
1.鄭州大學(xué)信息工程學(xué)院鄭州450002
1.School of Information Engineering,Zhengzhou University,Zhengzhou 450002