萬洪林 王曉敏 彭振偉 白智全 楊星海 孫建德
①(山東師范大學(xué)物理與電子科學(xué)學(xué)院 濟(jì)南 250358)
②(山東師范大學(xué)信息科學(xué)與工程學(xué)院 濟(jì)南 250358)
③(山東大學(xué)信息科學(xué)與工程學(xué)院 青島 266237)
④(青島科技大學(xué)信息科學(xué)技術(shù)學(xué)院 青島 266061)
隨著慶?;顒?dòng)、音樂會(huì)、體育賽事、公眾游行等大型公共活動(dòng)日益增多,人群大量集聚的場景不斷出現(xiàn),各種踩踏受傷事件也層出不窮,因此對(duì)密集人群進(jìn)行有效監(jiān)管非常必要。人群計(jì)數(shù)能夠?yàn)榇笠?guī)模人群聚集的監(jiān)管提供技術(shù)支持[1,2]。如果能夠使用計(jì)算機(jī)視覺技術(shù)對(duì)相關(guān)場景的密集人群進(jìn)行準(zhǔn)確的人群密度估計(jì),則會(huì)對(duì)減少危險(xiǎn)事件的發(fā)生帶來很大的幫助。目前,準(zhǔn)確統(tǒng)計(jì)出在不同的場景下的人群總數(shù)仍然具有很大的難度,因此這一領(lǐng)域所面對(duì)的問題具有一定挑戰(zhàn)性。早期人群計(jì)數(shù)大多采用傳統(tǒng)的檢測和回歸方法,需要人為提取出圖片中的低層次特征,并將其用特征框標(biāo)記出來,標(biāo)記框的數(shù)量即為圖片中行人的數(shù)量,隨著人群密度的不斷提高,人與人之間的互相遮擋越來越嚴(yán)重,再加上密集人群分布不均、光照等因素的影響,這些問題都對(duì)密集人群計(jì)數(shù)提出了更高的挑戰(zhàn)。近年來隨著深度學(xué)習(xí)的快速發(fā)展,人群計(jì)數(shù)也更多地采用此方法。深度學(xué)習(xí)方法相對(duì)于傳統(tǒng)的檢測、回歸方法,準(zhǔn)確性和適用性要更好。通過卷積神經(jīng)網(wǎng)絡(luò)將卷積核與圖像做卷積操作,通過一系列的卷積核,不斷提取圖像的特征,最后將提取到的高層特征進(jìn)行分類生成密度圖,再對(duì)密度圖求和來統(tǒng)計(jì)人群的總體數(shù)量。但其只是將這些特征做了簡單的操作,不能較好地利用這些特征。為此本文提出了一種新的基于新型多尺度注意力機(jī)制的密集人群計(jì)數(shù)方法。其網(wǎng)絡(luò)結(jié)構(gòu)分為主干網(wǎng)絡(luò)、特征提取網(wǎng)絡(luò)和特征融合網(wǎng)絡(luò)。特征提取網(wǎng)絡(luò)分為兩個(gè)支路:特征支路和注意力支路??紤]到數(shù)據(jù)尺度特征的多樣性,本文的兩個(gè)支路都增加了新型多尺度模塊,并在特征支路單獨(dú)增加了Res結(jié)構(gòu),以便更好地獲取不同尺度下的人群特征。注意力支路用于不斷加強(qiáng)密集人群圖像中的頭部特征,從而使得頭部區(qū)域的密度圖相較而言更加明顯。在特征融合網(wǎng)絡(luò)中,通過注意力融合模塊,將注意力特征與圖像特征進(jìn)行有效融合,進(jìn)一步提高計(jì)數(shù)精度。在公開數(shù)據(jù)集(ShanghaiTech,UCF_CC_50, Mall, UCSD)上的實(shí)驗(yàn)獲得了比其他方法更好的參數(shù)指標(biāo)。
早期行人計(jì)數(shù)主要采用的是基于檢測的方法,但這類方法不夠準(zhǔn)確,效率較低。隨著深度學(xué)習(xí)技術(shù)的飛速發(fā)展,人們更加傾向使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)實(shí)現(xiàn)對(duì)于密集人群的計(jì)數(shù)。Shang等人[3]提出了一種使用CNN的端到端計(jì)數(shù)估計(jì)方法,將整個(gè)圖片作為輸入,最后直接輸出人群總數(shù)。針對(duì)圖像密度、視角信息差異大的問題,Zhang等人[4]提出了MCNN方法,即通過使用多個(gè)卷積核大小不同的網(wǎng)絡(luò)來捕捉不同尺度的目標(biāo)特征信息,以增強(qiáng)模型的穩(wěn)定性。通過估計(jì)具有任意人群密度和任意視角的圖像,從而生成圖像或視頻中真實(shí)的人群密度圖。與MCNN類似,Onoro-Rubio等人[5]提出了一種尺度感知計(jì)數(shù)模型Hydra,通過尺度放縮的思想考慮了視角差異帶來的影響,即使沒有任何明確的場景信息,這一模型也能估計(jì)各種各樣的擁擠場景中的密度。Marsden等人[6]受到尺度感知模型的啟發(fā),提出了一種基于Resnet-18[7]架構(gòu)的網(wǎng)絡(luò),可同時(shí)實(shí)現(xiàn)人群計(jì)數(shù)、暴力行為檢測和人群密度等級(jí)分類的工作。Li等人[8]首先提出MCNN的劣勢(shì):訓(xùn)練時(shí)間長以及無效分支結(jié)構(gòu),然后提出使用空洞卷積以獲得更大的感受域并提取更深層次的特征。Sam等人[9]提出了選擇卷積神經(jīng)網(wǎng)絡(luò)(Switch-CNN)來提升人群計(jì)數(shù)的精確度,首先由幾個(gè)卷積核大小不同的CNN作為密度圖預(yù)測的回歸器,然后再由一個(gè)選擇分類器來為每一張輸入圖像選取最優(yōu)回歸器,將其得到結(jié)果作為最終結(jié)果。此外,Wang等人[10]提出了一種數(shù)據(jù)收集器和貼標(biāo)機(jī),它可以生成合成人群場景,不需要任何人力就可以對(duì)圖片進(jìn)行注釋。在此基礎(chǔ)上,作者還構(gòu)建了一個(gè)大規(guī)模、多樣化的合成數(shù)據(jù)集。Li等人[11]提出了一種針對(duì)可自由移動(dòng)人體在單個(gè)攝像機(jī)場景下估計(jì)深度密度圖的方法。Wang等人[12]設(shè)計(jì)了一個(gè)包含結(jié)構(gòu)特征編碼器、空間上下文學(xué)習(xí)解碼器以及密度回歸模塊在內(nèi)的網(wǎng)絡(luò)結(jié)構(gòu)。這一網(wǎng)絡(luò)從頻道維度和空間維度兩個(gè)維度來獲取空間上下文信息,以此來提高網(wǎng)絡(luò)性能。Chen等人[13]提出了相關(guān)區(qū)域預(yù)測方法,即統(tǒng)計(jì)密度圖中的像素之和代表輸入圖像中落入相應(yīng)局部區(qū)域的數(shù)量。這一方法丟棄了詳細(xì)的空間信息,使網(wǎng)絡(luò)更加關(guān)注計(jì)數(shù)而不是對(duì)具體每個(gè)人進(jìn)行定位,從而相應(yīng)地提高計(jì)數(shù)的準(zhǔn)確性。多列結(jié)構(gòu)在一定程度上解決了人群計(jì)數(shù)存在的尺度變化問題,但不同CNN學(xué)習(xí)到的多尺度人群特征如何在保證信息不丟失的情況下充分融合利用,提高輸出密度圖質(zhì)量,仍是多列結(jié)構(gòu)沒有解決的難題。為此孟月波等人[14]提出了一種編碼-解碼結(jié)構(gòu)的多尺度卷積神經(jīng)網(wǎng)絡(luò)來進(jìn)行人群計(jì)數(shù),提升了密度圖的輸出質(zhì)量。編碼器采集更加豐富的尺度信息,解碼器對(duì)編碼器的輸出進(jìn)行上采樣,實(shí)現(xiàn)了高層語義信息和前端低層特征信息的融合。左靜等人[15]提出了一種多尺度融合的深度人群計(jì)數(shù)算法,以膨脹卷積理論為基礎(chǔ),構(gòu)建多尺度特征提取模塊,以此實(shí)現(xiàn)上下文特征信息提取。最后經(jīng)過特征融合得到更高質(zhì)量的密度圖。Zou等人[16]提出了自適應(yīng)容量多尺度卷積神經(jīng)網(wǎng)絡(luò)(ACM-CNN),它可以為輸入的不同部分分配不同的容量。該模型以輸入圖像的重要區(qū)域?yàn)橹行?,在滿足人群密集度的前提下,優(yōu)化其容量分配。盡管取得了很大進(jìn)展,但由于密集人群計(jì)數(shù)場景下人群分布不均、光照、遮擋等因素帶來的影響,上述方法仍然存在改進(jìn)空間。
針對(duì)當(dāng)前密集人群計(jì)數(shù)存在的問題,本文提出了基于新型多尺度注意力機(jī)制的密集人群計(jì)數(shù)算法。其基本思想,一是通過雙通道特征提取網(wǎng)絡(luò)取代傳統(tǒng)的單通道網(wǎng)絡(luò)結(jié)構(gòu),將人頭定位與密度圖結(jié)合,實(shí)現(xiàn)更豐富的特征提??;二是引入新型多尺度模塊,增強(qiáng)網(wǎng)絡(luò)對(duì)不同尺度特征的適應(yīng)性;三是引入空間注意力機(jī)制,進(jìn)一步豐富特征形態(tài),從而為高質(zhì)量的密度圖生成奠定基礎(chǔ)。
本文提出的網(wǎng)絡(luò)結(jié)構(gòu)分為3部分,即主干網(wǎng)絡(luò)、特征提取網(wǎng)絡(luò)和特征融合模塊(如圖1所示)。
圖1 本文提出的網(wǎng)絡(luò)結(jié)構(gòu)
主干網(wǎng)絡(luò)主要用于圖像特征的提取,本文采用的骨干網(wǎng)絡(luò)為VGG-16,其中有4層特征作為主干網(wǎng)絡(luò)的輸出特征,分別是conv2_2,conv3_3,conv4_3和conv5_3(如圖2所示)。
本文提出的網(wǎng)絡(luò)模型中,特征提取網(wǎng)絡(luò)采用新型注意力機(jī)制。它包括兩個(gè)支路:特征支路與注意力支路。特征支路用來提取圖像中的人群分布特征;注意力支路則用于準(zhǔn)確估計(jì)人頭位置,對(duì)得到的人群密度圖進(jìn)行修正,得到較高質(zhì)量的人群密度估計(jì)圖。
特征支路包括基礎(chǔ)特征提取模塊(如圖2所示)、新型多尺度模塊和輔助結(jié)構(gòu)。基礎(chǔ)特征提取模塊主要用于將低分辨率特征恢復(fù)為高分辨率特征,為密集人群計(jì)數(shù)的密度圖估計(jì)提供更豐富的空間分布信息。注意力支路包括基礎(chǔ)注意力模塊和新型多尺度模塊。在本文中,基礎(chǔ)注意力模塊的結(jié)構(gòu)與基礎(chǔ)特征模塊相同,作用是將低分辨率特征恢復(fù)為高分辨率特征,有利于人頭位置的精準(zhǔn)定位。
圖2 基礎(chǔ)特征提取模塊,在本文亦被采用為基礎(chǔ)注意力模塊
針對(duì)特征提取網(wǎng)絡(luò),本文提出了新型多尺度模塊,用于改善兩個(gè)支路的輸出特征,提高計(jì)算效率。隨著神經(jīng)網(wǎng)絡(luò)深度的不斷增加,網(wǎng)絡(luò)參數(shù)體量越來越大,而其中大量參數(shù)的權(quán)值趨于零,冗余度高,浪費(fèi)計(jì)算資源。解決此問題的一種方法就是引入稀疏濾波器。由此Szegedy提出了inception結(jié)構(gòu)。經(jīng)典的inception是由1×1,3×3,5×5卷積層和一個(gè)池化層(pooling)組成的并行結(jié)構(gòu)(如圖3所示)。卷積核的大小直接決定了對(duì)不同目標(biāo)的感知能力。本文考慮到密集人群圖像中人的大小的變化范圍,為提取圖像中的大尺度人群特征,我們將inception結(jié)構(gòu)中的池化層,替換為7×7卷積層(如圖4所示)。
圖3 傳統(tǒng)Inception結(jié)構(gòu)
圖4 改進(jìn)Inception結(jié)構(gòu)
同時(shí)考慮到為了提高網(wǎng)絡(luò)計(jì)算效率,我們進(jìn)一步將上述5×5卷積層,替換為2個(gè)級(jí)聯(lián)的3×3卷積層,將7×7卷積層替換為3個(gè)級(jí)聯(lián)的3×3卷積層。替換前后其感受野范圍不會(huì)改變[17]。
由此我們提出了新型多尺度模塊(如圖5所示)。
圖5 新型多尺度模塊
新型多尺度模塊增強(qiáng)了特征支路中人群密度特征的集中度,進(jìn)一步擴(kuò)大了感受野,使得每一層輸出的特征圖上的像素點(diǎn)在輸入圖片上映射的區(qū)域增大。同時(shí)新型多尺度模塊也能夠在注意力支路中增強(qiáng)人頭位置信息。
特征融合模塊的作用是將注意力支路的輸出特征作用于特征支路的輸出特征,通過相乘的方式實(shí)現(xiàn)兩者融合,得到更高質(zhì)量的人群密度圖。其中起關(guān)鍵作用的是注意力融合模塊,其結(jié)構(gòu)如圖6所示。
圖6 注意力融合模塊
在高層次特征中,豐富而抽象的特征信息,對(duì)網(wǎng)絡(luò)的特征辨識(shí)能力提出了更高的要求。在注意力融合模塊中,通過矩陣變換及其組合,特征維度或元素位置發(fā)生變化,即通道信息發(fā)生改變,從而實(shí)現(xiàn)了特征重組。這些重組后的特征能夠進(jìn)一步豐富密集人群密度圖的特征描述,提高網(wǎng)絡(luò)辨識(shí)能力。本文中注意力定義為
本文選取歐氏距離作為網(wǎng)絡(luò)模型的損失函數(shù),將網(wǎng)絡(luò)輸出的人群密度估計(jì)圖回歸到 ground truth的密度圖。損失函數(shù)定義為
本文實(shí)驗(yàn)的硬件配置為: CPU Xeon-E5,GPU Quadro P5000 / 16GB和128GB內(nèi)存;軟件環(huán)境是Ubuntu 16.04和Pytorch 1.0。
現(xiàn)有的傳統(tǒng)人群計(jì)數(shù)方法均采用平均絕對(duì)誤差(Mean Average Error, MAE)和均方誤差(Mean Square Error, MSE)兩種誤差來評(píng)估模型的性能。本文亦采用MAE以及MSE兩項(xiàng)指標(biāo)來評(píng)價(jià)密集人群技術(shù)網(wǎng)絡(luò)的性能,其定義為
本文實(shí)驗(yàn)數(shù)據(jù)集包括S h a n g h a i T e c h[4],UCF_CC_50[18],Mall[19]和UCSD[20]。
上海數(shù)據(jù)集包含了1198個(gè)圖像以及330165個(gè)注釋頭文件,它分為A和B兩部分。其中A部分由300張訓(xùn)練圖片和182張測試圖片組成,B部分由400張訓(xùn)練圖片和316張測試圖片組成。上海數(shù)據(jù)集是具有不同場景和不同密度級(jí)別的數(shù)據(jù)集,非常具有挑戰(zhàn)性,也是最有代表性的數(shù)據(jù)集。
UCF_CC_50是包括各種密度和視角的不同場景。為了捕捉場景類型的多樣性,作者收集了不同的圖像,像音樂會(huì)、抗議、體育館和馬拉松等場景。它包含了50個(gè)不同分辨率的圖像,每個(gè)圖像平均有1280人,整個(gè)數(shù)據(jù)集中共標(biāo)記了63075個(gè)人。個(gè)數(shù)從94到4543不等,圖像之間存在很大差異。
Mall數(shù)據(jù)集是一個(gè)具有不同光照條件以及人群密度的數(shù)據(jù)集,是使用安裝在購物中心的監(jiān)視攝像機(jī)收集的數(shù)據(jù)集。除了具有各種密度水平外,它還具有不同的活動(dòng)模式。另外,數(shù)據(jù)集中的場景還具有嚴(yán)重的透視畸變,導(dǎo)致對(duì)象的大小和外觀大的變化,該數(shù)據(jù)集還呈現(xiàn)了由場景對(duì)象引起的嚴(yán)重遮擋的挑戰(zhàn)。數(shù)據(jù)集中的視頻序列由2000幀大小為320×240的幀組成,其中標(biāo)記為行人的6000個(gè)實(shí)例。前800幀用于訓(xùn)練,剩余的1200幀用于評(píng)估。
UCSD數(shù)據(jù)集是為人數(shù)統(tǒng)計(jì)創(chuàng)建的第1批數(shù)據(jù)集。數(shù)據(jù)集是從人行道的攝像機(jī)收集的。該數(shù)據(jù)集由來自視頻的2000幀大小為238×158 以及每5個(gè)幀中每個(gè)行人的地面實(shí)況(Ground Truth)注釋組成。此數(shù)據(jù)集共包含49885個(gè)行人實(shí)例,我們將601到1400作為訓(xùn)練集,剩余的1200張圖片用來測試。
我們?cè)u(píng)估了本文模型在主要人群數(shù)據(jù)集ShanghaiTech,UCF_CC_50,Mall和UCSD上的計(jì)數(shù)性能。并與其他人群計(jì)數(shù)模型的MAE和MSE指標(biāo)進(jìn)行比較。表1—表4列出了在4個(gè)數(shù)據(jù)集上不同模型的實(shí)驗(yàn)結(jié)果,可以看出本文的模型要優(yōu)于其他方法。
表1 ShanghaiTech數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
4.3.1 ShanghaiTech
本文網(wǎng)絡(luò)估計(jì)的人群密度圖與ground truth的對(duì)比如圖7所示。
圖7 密度估計(jì)圖、ground truth以及原始圖像
4.3.2 UCF_CC_50
考慮到UCF_CC_50圖像數(shù)量少,該數(shù)據(jù)集發(fā)布者定義了一種交叉驗(yàn)證協(xié)議,以此實(shí)現(xiàn)樣本容量的擴(kuò)增。我們也采用了相同的5次交叉驗(yàn)證策略,即將整個(gè)數(shù)據(jù)集樣本均分為5份,每次訓(xùn)練取其中4份樣本作為訓(xùn)練集,剩余的1份作為測試集,一共進(jìn)行5次訓(xùn)練和測試。最后計(jì)算5次實(shí)驗(yàn)的MAE和MSE的均值作為測試結(jié)果。表2為本文方法對(duì)UCF_CC_50數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果與其他方法的對(duì)比(batch size=8),可以看出本文方法取得了更優(yōu)的實(shí)驗(yàn)結(jié)果。
表2 UCF_CC_50實(shí)驗(yàn)結(jié)果
在表2中可以看到與之前最好的方法相比,本文方法的平均絕對(duì)誤差(MAE)結(jié)果是175.2比最好的方法要低44.4,均方誤差(MSE)也有明顯的降低。
4.3.3 Mall數(shù)據(jù)集
表3為本文方法對(duì)Mall數(shù)據(jù)集實(shí)驗(yàn)的實(shí)驗(yàn)結(jié)果(batch size=8 ),可以看到與之前最好的方法相比,MAE結(jié)果是1.57,比之前最好的方法要好0.23,MSE結(jié)果是2.03,比之前最好的方法要好1.07。
表3 Mall實(shí)驗(yàn)結(jié)果
4.3.4 UCSD數(shù)據(jù)集
網(wǎng)絡(luò)在多次降采樣后輸出特征過于模糊,影響了計(jì)數(shù)精度。因此,本文通過雙線性插值將UCSD的分辨率擴(kuò)大為960×640,其ground truth也進(jìn)行相同比例的插值。提升分辨率能夠提高人群密度估計(jì)的精度,適于注意力機(jī)制的作用發(fā)揮。由表4看出,本文方法取得了更優(yōu)的實(shí)驗(yàn)結(jié)果(batch size=8)。
表4 UCSD實(shí)驗(yàn)結(jié)果
在實(shí)驗(yàn)最后本文進(jìn)行了消融實(shí)驗(yàn),以確認(rèn)本文包含的各個(gè)網(wǎng)絡(luò)結(jié)構(gòu)帶來的影響。本文將1×1,3×3,5×5,7×7的基礎(chǔ)特征提取網(wǎng)絡(luò)簡稱為D,將新型多尺度密度圖估計(jì)模塊稱為ND,將1×1,3×3,5×5,7×7的多尺度注意力模塊稱為M,將新型多尺度注意力模塊稱為NM,將注意力融合模塊稱為C。消融實(shí)驗(yàn)對(duì)最具代表性的同時(shí)也是具備相當(dāng)難度ShanghaiTech-PartA數(shù)據(jù)集進(jìn)行。實(shí)驗(yàn)結(jié)果(表5)證明了本文網(wǎng)絡(luò)的不同部分對(duì)結(jié)果的改善程度。從表5可以看出,以Backbone + D +M為原型,在增加了注意力融合模塊C后,網(wǎng)絡(luò)Backbone+ D+M+C的MAE和MSE分別減少了0.8和3.9。將D替換為ND、將M替換為NM后,網(wǎng)絡(luò)Backbone + ND + NM+C的MAE和MSE繼續(xù)分別減少了0.7和0.8。這充分證明了新型多尺度模塊和注意力模塊對(duì)網(wǎng)絡(luò)性能的改進(jìn)作用。
表5 消融實(shí)驗(yàn)結(jié)果
本文提出了一種新型卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),用于密集人群計(jì)數(shù)。該網(wǎng)絡(luò)利用新型多尺度注意力模塊對(duì)語義豐富的深層特征進(jìn)行處理,以獲得更加豐富的語義信息;利用注意力機(jī)制對(duì)深層多尺度特征進(jìn)行處理以抑制非頭部區(qū)域,使頭部區(qū)域的信號(hào)更加明顯。同時(shí),本文引入的新型多尺度模塊能夠使深層特征的空間集中度變高,擴(kuò)大感受野,得到更高質(zhì)量的人群密度圖。在深層的特征中,通過注意力融合模塊提高特征辨別度,以此來提高網(wǎng)絡(luò)的性能。實(shí)驗(yàn)結(jié)果證明了本文方法的有效性。