盧振坤,劉 勝,鐘 樂(lè),劉紹航,張 甜
廣西民族大學(xué) 電子信息學(xué)院,南寧 530000
隨著人口增長(zhǎng),許多場(chǎng)景下人群數(shù)量過(guò)大容易發(fā)生事故。著名的上海外灘踩踏事件后果慘重,最終造成36人死亡、49人受傷。另外演唱會(huì)、體育館、火車(chē)站、地鐵站等地方人口流量較大,需運(yùn)用人群計(jì)數(shù)系統(tǒng)實(shí)時(shí)檢測(cè)人群的數(shù)量和分布,控制人口流動(dòng),避免出現(xiàn)意外。人群計(jì)數(shù)領(lǐng)域在公共安防、智慧城市建設(shè)和視頻監(jiān)控上應(yīng)用廣泛,因此,研究這一領(lǐng)域具有重要的現(xiàn)實(shí)意義。
過(guò)去,研究人員采用基于檢測(cè)、回歸等傳統(tǒng)方法估計(jì)人群數(shù)量?;谡w檢測(cè)的方法用哈爾小波[1]、方向梯度直方圖(histogram of oriented gradient,HOG)[2]、Shapelet[3]訓(xùn)練器,用支持向量機(jī)(support vector machine,SVM)[4]、提高算法[5-6]、隨機(jī)森林、集群[7]等算法來(lái)完成人群計(jì)數(shù)任務(wù)的檢測(cè)或分類(lèi)。基于回歸的方法通過(guò)特征提取和回歸建模展開(kāi),特征提取包括前景提取、像素統(tǒng)計(jì)[8]、紋理提取[9]、邊緣提取等,提取特征后用不同的回歸算法計(jì)數(shù),這兩種方法在稀疏場(chǎng)景下效果良好,但是不適用高密度場(chǎng)景。相比傳統(tǒng)方法,基于卷積神經(jīng)網(wǎng)絡(luò)的計(jì)數(shù)方法分為直接回歸法[10]和密度圖法。CNN擁有強(qiáng)大的網(wǎng)絡(luò),輸出密度圖后用損失函數(shù)來(lái)提高精度,用優(yōu)化器來(lái)減少計(jì)算復(fù)雜度,在處理跨場(chǎng)景、多尺度、部分遮擋等問(wèn)題時(shí),展現(xiàn)出獨(dú)特的優(yōu)勢(shì)。根據(jù)常見(jiàn)的網(wǎng)絡(luò)模型,可以分為尺度感知計(jì)數(shù)模型、上下文感知計(jì)數(shù)模型、多任務(wù)計(jì)數(shù)模型、注意力感知計(jì)數(shù)模型等類(lèi)型,本文將重點(diǎn)分析這幾種計(jì)數(shù)模型。TransCrowd采用ViT來(lái)研究人群計(jì)數(shù)任務(wù),試圖用其他方法代替CNN,相比基于CNN的弱監(jiān)督人群計(jì)數(shù)方法提高了網(wǎng)絡(luò)性能,這次嘗試在人群計(jì)數(shù)領(lǐng)域具有非凡的意義。
本文查閱了相關(guān)文獻(xiàn),論述了人群計(jì)數(shù)領(lǐng)域的研究進(jìn)展,對(duì)基于傳統(tǒng)方法、基于CNN方法和新提出的基于ViT方法的人群計(jì)數(shù)進(jìn)行了綜述,提出當(dāng)前研究方向上亟待解決的問(wèn)題。
本文貢獻(xiàn)如下:(1)梳理了人群計(jì)數(shù)領(lǐng)域的傳統(tǒng)方法、基于CNN的方法和基于ViT的方法,對(duì)比不同方法的優(yōu)劣,總結(jié)了當(dāng)前方法的特點(diǎn)和研究現(xiàn)狀,闡述了人群計(jì)數(shù)的發(fā)展進(jìn)程。(2)介紹了常用數(shù)據(jù)集,系統(tǒng)性回顧了計(jì)數(shù)網(wǎng)絡(luò)的發(fā)展歷程,比較模型在常用數(shù)據(jù)集上的評(píng)價(jià)指標(biāo),指明研究人員下一步改進(jìn)方向。(3)首次在綜述中引入基于ViT的弱監(jiān)督人群計(jì)數(shù)方法,為未來(lái)該領(lǐng)域研究提供一個(gè)新思路。
早期人群計(jì)數(shù)方法大多是基于檢測(cè),用特定的檢測(cè)器提取特征來(lái)實(shí)現(xiàn)計(jì)數(shù)目標(biāo)。特征提取方法可分為基于整體的和基于局部?jī)煞N?;谡w的檢測(cè)方法適用于低密度人群,在高密度人群中效果不理想。為了解決這個(gè)問(wèn)題,研究者提出基于局部的提取特征方法[11-13],其目的不是檢測(cè)一個(gè)完整的行人對(duì)象,而是檢測(cè)行人的部位。研究發(fā)現(xiàn),在大多數(shù)密集人群場(chǎng)景中,使用局部特征比使用全局特征可以大大提高計(jì)數(shù)性能。許多研究工作[14-17]是基于局部特征的,近來(lái)Laradji等人[18]和Liu等人[19]繼續(xù)致力于基于檢測(cè)的方法。前者不需要估計(jì)目標(biāo)的大小和形狀,而是提出了一種新的損失函數(shù),建議網(wǎng)絡(luò)僅使用點(diǎn)級(jí)注釋輸出每個(gè)目標(biāo)實(shí)例的單個(gè)屬性。后者避免了昂貴成本的邊界框,僅使用點(diǎn)的監(jiān)督信息來(lái)訓(xùn)練模型。與基于整體特征的檢測(cè)相比,部分局部檢測(cè)的魯棒性更好,但在高密度場(chǎng)景中同樣收效甚微?;跈z測(cè)的計(jì)數(shù)方法在稀疏場(chǎng)景中有著出色的檢測(cè)精度,雖然為了適應(yīng)高密度、復(fù)雜的場(chǎng)景做了許多嘗試,但是效果仍然有待提高。
基于檢測(cè)的方法在極端密集的人群和高背景雜波的情況下并不成功,為了克服這個(gè)問(wèn)題,研究人員試圖通過(guò)回歸來(lái)計(jì)數(shù),從中學(xué)習(xí)從局部圖像斑塊中提取的特征與它們的計(jì)數(shù)之間的映射[20-22],避免了對(duì)檢測(cè)器的依賴(lài)?;诨貧w模型方法的主要思想是先從圖像中提取前景區(qū)域,提取多個(gè)特征,然后選擇合適的回歸模型進(jìn)行訓(xùn)練,最后從測(cè)試樣本中預(yù)測(cè)人口密度。過(guò)程如圖1所示。當(dāng)全局和局部特征被提取出來(lái),不同的回歸技術(shù),如線性回歸[23]、分段線性回歸[24]、嶺回歸[25]、高斯過(guò)程回歸和神經(jīng)網(wǎng)絡(luò)[26]用來(lái)學(xué)習(xí)從低級(jí)特征到人群數(shù)量的映射。與基于檢測(cè)的方法類(lèi)似,回歸方法也可以分為基于整體[27-29]和基于塊[30-33]兩類(lèi)?;谡w的回歸方法難以處理大尺度和密度變化,而基于塊的回歸方法包含更多圖像的局部信息,受尺度和密度變化的影響較小。通過(guò)回歸技術(shù)來(lái)實(shí)現(xiàn)可以有效地解決個(gè)體遮擋和特征跟蹤的問(wèn)題,使用人群的整體描述來(lái)估計(jì)人群密度。相比于基于檢測(cè)的方法受到了高密度場(chǎng)景的限制,基于回歸的方法不需要明確的界限和個(gè)體的跟蹤,能夠較有效地估計(jì)更復(fù)雜場(chǎng)景的人群密度,但是計(jì)算過(guò)程也相對(duì)復(fù)雜。
圖1 基于回歸模型的人群計(jì)數(shù)過(guò)程Fig.1 Flow chart of pixel statistical algorithm
雖然早期的方法能較好解決遮擋和雜波問(wèn)題,但大多數(shù)方法忽略了重要的空間信息,因?yàn)樗鼈兪菍?duì)全局計(jì)數(shù)的回歸。隨著研究的深入,Lempitsky和Zisserman[34]提出的密度圖概念引起了研究者的廣泛關(guān)注。Lempitsky等人提出了一種估計(jì)圖像密度的新方法,將局部像素特征學(xué)習(xí)線性映射到對(duì)應(yīng)的目標(biāo)密度圖。該方法可用于訓(xùn)練一個(gè)回歸模型,模型在學(xué)習(xí)過(guò)程中基于圖像的像素點(diǎn)提取特征,直接學(xué)習(xí)從像素點(diǎn)特征到目標(biāo)密度分布圖的映射關(guān)系。它的目標(biāo)為生成這樣的密度圖,不僅包含了密度信息還附帶了圖像中目標(biāo)空間分布信息,同時(shí)該密度圖中任意區(qū)域的積分給出了該區(qū)域?qū)ο蟮臄?shù)量,所以還可以通過(guò)區(qū)域密度求和得到任意區(qū)域的目標(biāo)數(shù)目。通過(guò)學(xué)習(xí)圖像到密度圖的映射,避免了對(duì)檢測(cè)器的依賴(lài)。Rodriguez等人[35]證實(shí)使用密度圖計(jì)數(shù)可以極大地提高計(jì)數(shù)性能。由于密度圖既能反映人群的空間分布信息,又能提高計(jì)數(shù)精度,基于密度圖的回歸逐漸成為一種流行的分類(lèi)。
傳統(tǒng)的人群計(jì)數(shù)方法依賴(lài)于多源和手工制作的表示,只適用于稀疏場(chǎng)景,在部分遮擋、前景透視、多尺度和跨場(chǎng)景等情況下,效果不盡人意。CNN在各種計(jì)算機(jī)視覺(jué)任務(wù)中的成功應(yīng)用,使得許多基于CNN的方法被用來(lái)解決人群計(jì)數(shù)問(wèn)題。
2.1.1 單分支結(jié)構(gòu)
Wang等人[36]和Fu等人[37]最早在人群計(jì)數(shù)領(lǐng)域中使用CNN,Wang等人提出了一個(gè)端到端的CNN回歸模型直接預(yù)測(cè)人群數(shù)量,能從極度密集人群的圖像中統(tǒng)計(jì)人數(shù)。架構(gòu)中采用了AlexNet網(wǎng)絡(luò)[38],其完全連接層被用于預(yù)測(cè)計(jì)數(shù)的單個(gè)神經(jīng)元層取代。此外,為了減少圖像不相關(guān)背景的錯(cuò)誤響應(yīng),訓(xùn)練數(shù)據(jù)增加了附加的樣本,其真實(shí)數(shù)值設(shè)為零。AlexNet網(wǎng)絡(luò)不適用于跨場(chǎng)景計(jì)數(shù),因此準(zhǔn)確度不高。
為了克服跨場(chǎng)景的難題,Zhang等人[39]整理了現(xiàn)有方法,改進(jìn)了AlexNet網(wǎng)絡(luò)提出的單分支計(jì)數(shù)模型CrowdCNN,最先應(yīng)用人群密度圖。如圖2(a)所示,通過(guò)交替訓(xùn)練兩個(gè)目標(biāo)函數(shù):人群計(jì)數(shù)和密度估計(jì),對(duì)這些目標(biāo)函數(shù)進(jìn)行交替優(yōu)化,可以獲得更好的局部最優(yōu)解。如圖2(b)所示,為了使該網(wǎng)絡(luò)適應(yīng)新場(chǎng)景,達(dá)到跨場(chǎng)景計(jì)數(shù)的目的,使用與目標(biāo)場(chǎng)景相似的訓(xùn)練樣本對(duì)網(wǎng)絡(luò)進(jìn)行微調(diào)。圖2(b)提出了一種結(jié)合透視信息生成真實(shí)密度圖的方法,使網(wǎng)絡(luò)能夠執(zhí)行透視歸一化,從而提高比例和透視變化的魯棒性。此外,他們引入了一個(gè)新的數(shù)據(jù)集WorldExpo’10,用于評(píng)估跨場(chǎng)景人群計(jì)數(shù)。
圖2 CrowdCNN計(jì)數(shù)網(wǎng)絡(luò)Fig.2 Architecture of CrowdCNN
2.1.2 多分支結(jié)構(gòu)
目標(biāo)遭受?chē)?yán)重遮擋時(shí),透視問(wèn)題導(dǎo)致拍攝角度差異大,目標(biāo)尺度變化不均勻。一般情況下,靠近攝像機(jī)的人群有完整的細(xì)節(jié)信息,遠(yuǎn)離攝像機(jī)的人群細(xì)節(jié)信息缺失。此外,手工制作的圖像特征(scale-invariant feature transform,SIFT[40])通常在遮擋和大尺度變化情況下魯棒性較差。
為了解決多尺度的問(wèn)題,Boominathan等人[41]把一個(gè)深層網(wǎng)絡(luò)和一個(gè)淺層網(wǎng)絡(luò)相結(jié)合,提出雙分支結(jié)構(gòu)計(jì)數(shù)模型CrowdNet。但是當(dāng)目標(biāo)尺度很小時(shí),深層網(wǎng)絡(luò)結(jié)構(gòu)很難提取目標(biāo)特征。受到Boominathan等人的啟發(fā),有人提出改進(jìn)VGG16模型[42]作為雙分支結(jié)構(gòu),把VGG前10層作為主干網(wǎng)絡(luò),如圖3所示。為了解決尺度變換的問(wèn)題,用淺層網(wǎng)絡(luò)(Branch_S,BS)提取低級(jí)語(yǔ)義信息,深層網(wǎng)絡(luò)(Branch_D,BD)提取高級(jí)語(yǔ)義信息。并使用1×1卷積層對(duì)提取的特征圖進(jìn)行處理。以獲得最終的人群密度預(yù)測(cè)。通過(guò)引入多分支網(wǎng)絡(luò),用不同尺寸的卷積核提取不同尺度的特征,可以有效解決多尺度問(wèn)題。
圖3 基于VGG主干的雙分支網(wǎng)絡(luò)Fig.3 Double branch network based on VGG backbone
人群計(jì)數(shù)領(lǐng)域不斷創(chuàng)新,逐漸衍生許多基于CNN的多分支網(wǎng)絡(luò)模型,適用于稀疏、密集場(chǎng)景。由于圖像中人群密度分布極不均勻,研究人員利用多列卷積神經(jīng)網(wǎng)絡(luò)來(lái)提取不同尺度的頭部特征。通過(guò)多分支網(wǎng)絡(luò),使用不同尺寸的感受野提取不同尺度特征,可有效解決多尺度問(wèn)題。
Zhang等人[43]為了解決多尺度問(wèn)題,在2016年提出多列卷積神經(jīng)網(wǎng)絡(luò)(multi-column CNN,MCNN),其網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。MCNN允許輸入圖像有任意大小的分辨率,利用具有不同大小感受野的濾波器提取特征,舍棄固定高斯核,采用自適應(yīng)高斯核來(lái)生成高質(zhì)量密度圖,減少視角變化引起的目標(biāo)大小不一致導(dǎo)致的計(jì)數(shù)誤差。MCNN每列所學(xué)習(xí)的特征,能夠適應(yīng)由于透視效果或圖像分辨率[44]形成的目標(biāo)尺寸變化。MCNN模型通過(guò)1×1卷積層加權(quán)平均[45]融合CNN多列的特征圖來(lái)預(yù)測(cè)人群的密度圖。MCNN還引入了新的數(shù)據(jù)集ShanghaiTech,該數(shù)據(jù)集已成為人群計(jì)數(shù)領(lǐng)域的經(jīng)典數(shù)據(jù)集之一。
圖4 多列人群計(jì)數(shù)網(wǎng)絡(luò)Fig.4 Structure of multi-column crowd counting network
Sam等人[46]在多列卷積神經(jīng)的基礎(chǔ)上,提出了基于塊的選擇結(jié)構(gòu),即多列選擇卷積神經(jīng)網(wǎng)絡(luò)(switch convolution neural network,Switch-CNN),計(jì)數(shù)模型如圖5所示。Switch-CNN能有效利用場(chǎng)景中的局部人群密度變化。此網(wǎng)絡(luò)由三個(gè)不同體系結(jié)構(gòu)的CNN回歸器和一個(gè)分類(lèi)器(Switch)組成,為輸入圖片塊選擇最佳回歸器。輸入圖像被分成9個(gè)不重疊的小塊,每個(gè)小塊是圖像的1/3。選擇分類(lèi)器與多個(gè)CNN回歸器交替訓(xùn)練,準(zhǔn)確地將塊傳遞給特定回歸器,這個(gè)模型擁有人群分析的顯著性能:(1)模擬大尺度變化的能力強(qiáng);(2)合理利用人群場(chǎng)景中密度的局部變化[47]。Switch-CNN有一個(gè)缺陷,一旦分支選擇錯(cuò)誤將會(huì)嚴(yán)重影響計(jì)數(shù)準(zhǔn)確度。
圖5 Switch-CNN結(jié)構(gòu)Fig.5 Structure of Switch-CNN
Cheng等人[48]分析MCNN、CSRNet[49]、BSAD[50]和ic-CNN[51]四個(gè)網(wǎng)絡(luò),發(fā)現(xiàn)有的多列體系結(jié)構(gòu)沒(méi)有監(jiān)督體系來(lái)指導(dǎo)學(xué)習(xí)不同尺度的特征,而且列間存在大量冗余參數(shù)。為了解決這兩個(gè)問(wèn)題,Cheng等人提出了一種新的多列互學(xué)習(xí)策略(multi-column mutual learning,McML)來(lái)提高多列網(wǎng)絡(luò)的學(xué)習(xí)性能,如圖6所示。McML使用互信息來(lái)近似表示來(lái)自不同列的特征之間的尺度相關(guān)性,通過(guò)最小化列間的互信息,還可以引導(dǎo)每列聚焦不同的圖像尺度信息。McML的核心思想是相互學(xué)習(xí)。許多網(wǎng)絡(luò)模型同時(shí)更新多個(gè)列的參數(shù),但McML依次優(yōu)化更新每個(gè)列,直至收斂。每一列學(xué)習(xí)過(guò)程中,先估計(jì)列間的互信息作為先驗(yàn)知識(shí)來(lái)指導(dǎo)參數(shù)更新。McML借助列與列之間的互信息,交替地使每一列都受到其他列的引導(dǎo),從而學(xué)習(xí)不同的圖像比例和分辨率。結(jié)果顯示,這種互學(xué)習(xí)方案可以顯著減少冗余參數(shù)的數(shù)量,避免過(guò)擬合。
圖6 多列互學(xué)習(xí)(McML)網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Structure of McML
除了上述文獻(xiàn),還有很多研究試圖解決變尺度問(wèn)題。Chen等人[52]使用多列卷積網(wǎng)絡(luò)架構(gòu)和梯度融合進(jìn)行人群計(jì)數(shù)。Deb和Ventura[53]使用多列擴(kuò)張卷積網(wǎng)絡(luò)聚合來(lái)融合不同層次的特征。但是,多列網(wǎng)絡(luò)仍然存在一些固有的缺點(diǎn),如計(jì)算量大、實(shí)時(shí)計(jì)數(shù)困難、生成的密度圖清晰度不夠高。因此,一些研究者開(kāi)始研究如何利用單一網(wǎng)絡(luò)融合多尺度特征。Liu等人[54]利用側(cè)向連提出了單列計(jì)數(shù)網(wǎng)絡(luò),該系統(tǒng)由多個(gè)專(zhuān)用模塊、四個(gè)殘差接的特征金字塔網(wǎng)絡(luò)融合高級(jí)特征和低級(jí)特征。Wang等人[55]由融合模塊(用于多尺度特征提?。?、一個(gè)金字塔池模塊(用于信息融合)和一個(gè)亞像素卷積模塊(用于分辨率恢復(fù))組成。Dai等人[56]使用密集擴(kuò)張卷積塊提取尺度連續(xù)變化的信息。Kang和Chan[57]采用圖像金字塔法進(jìn)行多尺度采樣。Gao等人[58]通過(guò)引入前/背景分割來(lái)約束密度圖。一些研究者也使用類(lèi)似Inception的模塊來(lái)提取密度圖,如Zeng等人[59]引入了不同核大小的多尺度來(lái)提取不同層次的特征。圖像中人頭尺度的巨大跨度一直是人群計(jì)數(shù)的一個(gè)主要問(wèn)題。目前的大多數(shù)解決方案都是基于多尺度的特征融合。本節(jié)提到的這些方法只是簡(jiǎn)單地將特征疊加在一起,而不使用權(quán)重信息。
多分支結(jié)構(gòu)方法[43,46,60]在高密度復(fù)雜場(chǎng)景中效果顯著,不過(guò),這些方法容易在高密度人群圖像情況下過(guò)低計(jì)數(shù),在低密度人群圖像情況下過(guò)高計(jì)數(shù)。多分支計(jì)數(shù)網(wǎng)絡(luò)的分支之間缺少聯(lián)系,平均各分支結(jié)果生成的密度圖質(zhì)量不高。于是有研究者提出,用圖像的上下文語(yǔ)義來(lái)指導(dǎo)計(jì)數(shù)過(guò)程。該方法主要利用人群場(chǎng)景的上下文和語(yǔ)義信息對(duì)密度圖進(jìn)行約束,減少特征信息丟失,以獲得更好的性能,適用于稀疏、密集場(chǎng)景,不過(guò)它的結(jié)構(gòu)往往比較復(fù)雜。
前面提過(guò)MCNN[43]采用自適應(yīng)高斯核來(lái)提高密度圖的質(zhì)量,計(jì)數(shù)性能的一個(gè)關(guān)鍵就是密度圖質(zhì)量。由于研究人員在語(yǔ)義分割[61]、場(chǎng)景解析[62]和視覺(jué)顯著性[63]中使用上下文信息取得了突出效果,為了解決上述問(wèn)題,Sindagi等人[64]提出了上下文金字塔卷積神經(jīng)網(wǎng)絡(luò)模型(contextual pyramid CNN,CP-CNN)。通過(guò)結(jié)合人群圖像的全局和局部上下文信息來(lái)生成高質(zhì)量的人群密度圖。如圖7所示,其結(jié)構(gòu)由4個(gè)模塊組成。全局上下文估計(jì)器(global context estimator,GCE)是一個(gè)基于VGG 16的CNN,它對(duì)全局上下文進(jìn)行編碼,通過(guò)訓(xùn)練對(duì)輸入圖像進(jìn)行密度級(jí)別分類(lèi)。局部上下文估計(jì)器(local context estimator,LCE)對(duì)局部上下文信息進(jìn)行編碼,作用也是對(duì)輸入圖像進(jìn)行密度級(jí)別分類(lèi)。密度圖估計(jì)器(density map estimator,DME)借鑒了文獻(xiàn)[43]的網(wǎng)絡(luò)架構(gòu),將輸入圖像轉(zhuǎn)換為一組高維特征圖。融合卷積神經(jīng)網(wǎng)絡(luò)(fusion-CNN,F(xiàn)-CNN)將這些特征圖和GCE與L2CE提供的上下文信息相融合。與現(xiàn)有方法相比,CP-CNN的突破是生成了質(zhì)量更好的密度圖,計(jì)數(shù)誤差更低,并通過(guò)優(yōu)化對(duì)抗損失和像素歐幾里德?lián)p失的加權(quán)組合,F(xiàn)-CNN以端到端的方式與DME一起訓(xùn)練。
圖7 CP-CNN結(jié)構(gòu)Fig.7 Structure of CP-CNN
為解決密度估計(jì)圖中目標(biāo)的空間信息丟失問(wèn)題,郝曉亮等人[65]提出基于上下文特征重聚合的人群計(jì)數(shù)網(wǎng)絡(luò)(context-aware feature reaggregation network for crowd counting,CFRNet),CFRNet由三個(gè)模塊構(gòu)成,算法結(jié)構(gòu)如圖8所示。特征提取器(feature extraction network,F(xiàn)EN)用于提取特征。上下文特征增強(qiáng)模塊(context-aware feature enhance block,CFEB)引入空洞卷積層,強(qiáng)化提取的特征,為了同時(shí)兼顧小尺度的人群信息,池化操作用空洞卷積層替換。多尺度特征融合結(jié)構(gòu)(multi-scale feature fusion model,MSFM)融合特征圖后,進(jìn)一步增強(qiáng)特征,最后輸出高質(zhì)量的密度圖。CFRNet通過(guò)二次聚合增強(qiáng)后的特征,提高了算法性能。
圖8 CFRNet算法結(jié)構(gòu)Fig.8 CFRNet algorithm structure
除了上述的工作,Shang等人[66]并沒(méi)有直接根據(jù)整幅圖像計(jì)算人群數(shù)量,而是使用重疊區(qū)域的共享計(jì)算來(lái)估計(jì)最終的個(gè)體數(shù)量。Liu等人[67]將多個(gè)接收域大小和每個(gè)圖像位置的特征結(jié)合起來(lái),然后使用端到端可訓(xùn)練網(wǎng)絡(luò)對(duì)其進(jìn)行訓(xùn)練。最后,該網(wǎng)絡(luò)輸出高質(zhì)量的密度圖。
考慮到尺度問(wèn)題是實(shí)現(xiàn)更高精度的限制因素,一些基于CNN的方法通過(guò)多列或多分辨率網(wǎng)絡(luò)專(zhuān)門(mén)解決尺度變化的問(wèn)題。盡管這些方法顯示出了對(duì)尺度變化的魯棒性,但它們?cè)谟?xùn)練中仍然受到尺度的限制,并且學(xué)習(xí)廣義模型的能力不足。最近,多任務(wù)學(xué)習(xí)在計(jì)算機(jī)視覺(jué)任務(wù)中取得較好的效果,例如將密度估計(jì)與分類(lèi)、檢測(cè)、分割等任務(wù)相結(jié)合,表現(xiàn)出了更好的性能,而且還適用于稀疏、擁擠嘈雜的場(chǎng)景?;诙嗳蝿?wù)的方法通常設(shè)計(jì)有多個(gè)子網(wǎng),所以與單列網(wǎng)絡(luò)相比,不同的任務(wù)可能會(huì)有對(duì)應(yīng)的分支。綜上所述,多任務(wù)體系結(jié)構(gòu)可以看作是多列和單列的交叉融合,但又不同于任何一種。
在估計(jì)密度圖的部分方法中,池化層的存在降低了輸出密度圖的分辨率,從而影響了在全分辨率密度圖上的回歸。這導(dǎo)致關(guān)鍵細(xì)節(jié)的丟失,尤其是在包含大尺度變化的圖像中。文獻(xiàn)[68-70]成功把級(jí)聯(lián)卷積網(wǎng)絡(luò)應(yīng)用于多任務(wù)中,Sindagi等人[71]為了解決現(xiàn)存問(wèn)題,提出了一種新的端到端的級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò),以級(jí)聯(lián)方式學(xué)習(xí)兩個(gè)相關(guān)子任務(wù):人群計(jì)數(shù)分類(lèi)(也叫高級(jí)先驗(yàn))和密度圖估計(jì),其網(wǎng)絡(luò)結(jié)構(gòu)如圖9所示。級(jí)聯(lián)網(wǎng)絡(luò)具有對(duì)應(yīng)于兩個(gè)子任務(wù)的兩個(gè)階段,第一階段是學(xué)習(xí)高級(jí)先驗(yàn),該階段的卷積層和空間金字塔池化層,用于處理任意尺寸的圖像,末端是全連接層,交叉熵誤差作為該階段的損失層。高級(jí)先驗(yàn)學(xué)習(xí)將計(jì)數(shù)分類(lèi)不同的組,這些到組的類(lèi)標(biāo)簽是基于圖像中出現(xiàn)的人數(shù)。通過(guò)利用計(jì)數(shù)標(biāo)簽,高階先驗(yàn)?zāi)軌虼致怨烙?jì)出整個(gè)圖像中不受尺度變化影響的人數(shù),從而使網(wǎng)絡(luò)能夠?qū)W習(xí)到差異更大的全局特征。第二階段是密度圖估計(jì),該階段由一組卷積層組成,其中分?jǐn)?shù)階卷積層對(duì)前一層的輸出進(jìn)行上采樣,來(lái)解決池化層產(chǎn)生的細(xì)節(jié)損失問(wèn)題,標(biāo)準(zhǔn)像素歐幾里德?lián)p失作為該階段的損失層。兩個(gè)階段共享一組卷積特征,共享網(wǎng)絡(luò)由兩個(gè)卷積層組成,每層后面有一個(gè)參數(shù)校正線性單元激活函數(shù)。
圖9 Sindagi等人提出的級(jí)聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)Fig.9 Cascading network structure proposed by Sindagi et al.
除上述文獻(xiàn)以外,還有許多研究嘗試把多任務(wù)學(xué)習(xí)應(yīng)用到人群計(jì)數(shù)領(lǐng)域。
(1)CMTL[71]。將人群計(jì)數(shù)分類(lèi)和密度圖估計(jì)結(jié)合到端到端的級(jí)聯(lián)框架中。
(2)Decidenet[72]。分別通過(guò)生成基于檢測(cè)和回歸的密度圖來(lái)預(yù)測(cè)人群數(shù)量。它可以自動(dòng)切換檢測(cè)模式和回歸模式,在網(wǎng)絡(luò)中采用注意力模塊來(lái)分配相關(guān)權(quán)重,從而選擇合適的模式。如果用多列網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)模式轉(zhuǎn)變可能會(huì)產(chǎn)生大量的參數(shù),用多任務(wù)學(xué)習(xí)則避免了這個(gè)問(wèn)題。
(3)ACSCP[73]。ACSCP引入了一種對(duì)抗性損失使模糊密度圖變得清晰。此外,還設(shè)計(jì)了一個(gè)尺度一致性正則化器,以保證跨尺度模型的標(biāo)定和不同尺度路徑之間的協(xié)同。
(4)CL[74]。同時(shí)完成人群計(jì)數(shù),密度圖估計(jì)和定位三個(gè)任務(wù),這三個(gè)任務(wù)相互關(guān)聯(lián),使得深度CNN中優(yōu)化的損失函數(shù)是可分解的。
(5)ATCNN[75]。把幾何屬性、語(yǔ)義屬性和數(shù)字屬性這三種異構(gòu)屬性作為輔助任務(wù)來(lái)實(shí)現(xiàn)人群計(jì)數(shù)任務(wù)。
(6)NetVLAD[76-77]。是一個(gè)多尺度多任務(wù)框架,把從輸入圖像中捕獲的多尺度特征集合成一個(gè)緊密的特征向量。此外,為了網(wǎng)絡(luò)提高性能,底層使用了“深度監(jiān)督”來(lái)提供額外的信息。
多尺度問(wèn)題造成了位于不同景深的目標(biāo)尺寸區(qū)別過(guò)大,人群計(jì)數(shù)模型的建模能力需要進(jìn)一步強(qiáng)化,而加入注意力機(jī)制可適用于不同尺度、復(fù)雜強(qiáng)度和視角變化等場(chǎng)景。Hossain等人[78]為了解決尺度變化問(wèn)題,在受到Chen等人[79]的啟示后,提出了多分支的尺度感知注意力網(wǎng)絡(luò)(scale-aware attention network,SAAN),其結(jié)構(gòu)如圖10所示。這是人群計(jì)數(shù)領(lǐng)域第一次引入注意力機(jī)制。該網(wǎng)絡(luò)中的注意力扮演著與Switch-CNN[46]中的“開(kāi)關(guān)”(即密度分類(lèi)器)類(lèi)似的角色。SAAN有四個(gè)模塊,全局尺度注意力(global scale attentions,GSA)和局部尺度注意力(local scale attention,LSA)分別提取圖像密度的全局上下文信息和局部上下文信息。此外,GSA根據(jù)注意力評(píng)分把圖像密度分成3個(gè)等級(jí),LSA將生成三個(gè)像素級(jí)注意力圖。生成多尺度特征提取器(multiscale feature extractor,MFE)借鑒了MCNN[43]的多分支網(wǎng)絡(luò),旨在從輸入圖像中提取多尺度特征。融合網(wǎng)絡(luò)(fusion network,F(xiàn)N)從圖像中提取特征圖,為輸入圖像生成最終的密度圖。與Switch-CNN和CP-CNN相比,SAAN運(yùn)用注意力機(jī)制進(jìn)行尺度選擇的方式更靈活,不過(guò)它的計(jì)算量大、參數(shù)多、訓(xùn)練時(shí)間長(zhǎng)。
圖10 SAAN結(jié)構(gòu)Fig.10 Architecture of SAAN
盡管基于CNN的人群計(jì)數(shù)結(jié)果取得了顯著進(jìn)步,但在高擁擠場(chǎng)景中,會(huì)受到遮擋、背景噪聲的干擾。為解決這個(gè)問(wèn)題,Liu等人[80]提出了加入注意力的可形變卷積網(wǎng)絡(luò),稱(chēng)為ADCrowdNet,如圖11所示。它采用兩個(gè)級(jí)聯(lián)網(wǎng)絡(luò):AMG(attention map generator)和DME(density map estimator),AMG是基于完全卷積架構(gòu)的分類(lèi)網(wǎng)絡(luò),用于生成注意力圖,而DME是基于可變形卷積層的多尺度網(wǎng)絡(luò),用于生成密度圖。由于加入了注意力,可形變卷積添加了方向參數(shù),卷積核在注意力引導(dǎo)下,提高了建模能力,更好地適應(yīng)視角失真和人群分布差異,提高了高擁擠場(chǎng)景中人群密度圖的質(zhì)量。卷積核在訓(xùn)練DME之前,用人群圖片和背景圖片來(lái)訓(xùn)練AMG模塊,接著用訓(xùn)練好的AMG來(lái)生成輸入圖片的注意力圖。然后,用輸入圖片和相應(yīng)注意力圖之間的像素積來(lái)訓(xùn)練DME模塊。AME前端使用前10層訓(xùn)練好的VGG-16模型[40]提取低級(jí)特征,后端使用多尺度可形變卷積層,采用多個(gè)空洞率不同的空洞卷積層擴(kuò)大感受野,來(lái)應(yīng)對(duì)不同尺度的人群分布。
圖11 ADCrowdNet結(jié)構(gòu)Fig.11 Architecture of ADCrowdNet
數(shù)據(jù)驅(qū)動(dòng)型的計(jì)數(shù)網(wǎng)絡(luò)效果顯著,不過(guò)容易高估或低估不同密度區(qū)域的人數(shù),從而降低整體計(jì)數(shù)精度。為了克服這個(gè)問(wèn)題,Jiang等人[81]提出了一種方法,能夠處理不同密度分布的擁擠場(chǎng)景。網(wǎng)絡(luò)結(jié)構(gòu)由密度注意力網(wǎng)絡(luò)(density attention network,DANet)和注意力尺度網(wǎng)絡(luò)(attention scaling network,ASNet)組成,如圖12所示。DANet為ASNet提供了與不同密度級(jí)別的區(qū)域相關(guān)的注意力掩碼。ASNet生成比例因子,這些比例因子有助于微調(diào)相應(yīng)局部區(qū)域的總體人群計(jì)數(shù),然后將它們乘以注意力掩碼,以輸出單獨(dú)的基于注意力的密度圖。這些密度圖相加得到最終的密度圖。此外,該方法還提出了一種新的自適應(yīng)金字塔損失函數(shù)(adaptive pyramid loss,APLoss)來(lái)分層計(jì)算子區(qū)域的估計(jì)損失,從而減輕了訓(xùn)練偏差,提高了計(jì)數(shù)網(wǎng)絡(luò)的泛化能力。
圖12 Jiang等人提出的網(wǎng)絡(luò)結(jié)構(gòu)Fig.12 Network structure proposed by Jiang et al.
此外,還有許多研究嘗試把注意力機(jī)制應(yīng)用到人群計(jì)數(shù)領(lǐng)域。
(1)MSAN。Varior等人[82]使用多分支尺度感知注意力來(lái)解決圖像中頭部尺度變化較大的問(wèn)題。該網(wǎng)絡(luò)用不同層次的分支在多個(gè)尺度上預(yù)測(cè)相應(yīng)的密度圖,最后利用軟注意機(jī)制融合之前預(yù)測(cè)的多尺度密度圖,還引入了一個(gè)尺度感知的損失函數(shù)來(lái)指導(dǎo)網(wǎng)絡(luò)在不同階段的訓(xùn)練,這對(duì)大規(guī)模變化的場(chǎng)景有明顯的改善。
(2)SCAR。Gao等人[83]注意到現(xiàn)有的人群統(tǒng)計(jì)方法大多只關(guān)注人群的局部外貌特征,而忽略了大量的上下文信息和注意力信息。因此,提出了一個(gè)SCAR(spatialchannel-wise attention regression network)框架,該框架包括一個(gè)SAM(spatial-wise attention model)和一個(gè)CAM(channel-wise attention model)。SAM對(duì)整個(gè)輸入圖像進(jìn)行編碼,以獲得大范圍的上下文信息,從而更準(zhǔn)確地預(yù)測(cè)密度圖。CAM從信道中提取出最具識(shí)別力的特征,使網(wǎng)絡(luò)模型對(duì)噪聲背景更加穩(wěn)健。最后,將兩個(gè)注意力網(wǎng)絡(luò)的信息進(jìn)行整合,得到一個(gè)融合的密度圖。
(3)SFANet[84]。針對(duì)場(chǎng)景中人頭尺度變化大、背景噪聲強(qiáng)的問(wèn)題,提出了一種帶有注意力的雙路徑多尺度融合網(wǎng)絡(luò)用于人群計(jì)數(shù)。他們以VGG-16網(wǎng)絡(luò)為前端進(jìn)行特征提取,以雙路徑多尺度融合網(wǎng)絡(luò)為后端生成密度圖。
(4)Attend To Count[85]。提出了一種融合計(jì)數(shù)注意力機(jī)制的人群計(jì)數(shù)的自適應(yīng)模型。該模型較好地利用了粗網(wǎng)絡(luò)、細(xì)網(wǎng)絡(luò)和光滑網(wǎng)絡(luò)的多分支進(jìn)行預(yù)測(cè)。粗網(wǎng)絡(luò)以原始圖像為輸入,經(jīng)過(guò)多列網(wǎng)絡(luò)后輸出粗糙密度圖。Fine網(wǎng)絡(luò)通過(guò)層與層之間的連續(xù)融合得到一個(gè)微調(diào)的密度圖區(qū)域。最后,Smooth網(wǎng)絡(luò)將兩個(gè)密度圖結(jié)合,得到最終的密度圖。
基于注意力的方法受到了人腦認(rèn)知機(jī)制的啟發(fā),并在許多人工智能的領(lǐng)域得到了證明。人群計(jì)數(shù)中的注意力機(jī)制可以顯著提高模型在不同尺度、復(fù)雜強(qiáng)度和視角變化等復(fù)雜場(chǎng)景的計(jì)數(shù)性能。當(dāng)然,這一領(lǐng)域的研究還有待進(jìn)一步深入。
綜上所述,本節(jié)對(duì)主要的人群計(jì)數(shù)機(jī)制進(jìn)行了一個(gè)系統(tǒng)性的陳述,分析了它們的優(yōu)勢(shì)、劣勢(shì)和適用場(chǎng)景。如表1所示。
表1 人群計(jì)數(shù)機(jī)制的對(duì)比分析Table 1 Comparative analysis of crowd counting mechanisms
上述分析可知,計(jì)數(shù)模型的結(jié)構(gòu)在不斷發(fā)展,為了解決多尺度問(wèn)題和跨場(chǎng)景問(wèn)題,計(jì)數(shù)網(wǎng)絡(luò)由單分支結(jié)構(gòu)升級(jí)成多分支結(jié)構(gòu),網(wǎng)絡(luò)結(jié)構(gòu)的建模能力得到進(jìn)一步鞏固。雖然提高了計(jì)數(shù)準(zhǔn)確度,但是也使得網(wǎng)絡(luò)結(jié)構(gòu)越來(lái)越復(fù)雜、參數(shù)多、計(jì)算量增加,降低了模型的計(jì)數(shù)效率。為了應(yīng)對(duì)這些難題,研究者嘗試把多分支結(jié)構(gòu)用單分支結(jié)構(gòu)代替,通過(guò)引入創(chuàng)新的CNN模型來(lái)降低模型復(fù)雜度和提高計(jì)數(shù)準(zhǔn)確度,這將是人群計(jì)數(shù)領(lǐng)域以后的發(fā)展趨勢(shì)。上下文感知計(jì)數(shù)網(wǎng)絡(luò)、多任務(wù)計(jì)數(shù)網(wǎng)絡(luò)和注意力感知計(jì)數(shù)網(wǎng)絡(luò)等CNN技術(shù)可以有效解決多尺度、跨場(chǎng)景和背景噪聲等問(wèn)題,生成更優(yōu)質(zhì)的密度圖,提高計(jì)數(shù)精度。
主流的人群計(jì)數(shù)方法通常利用卷積神經(jīng)網(wǎng)絡(luò)來(lái)回歸密度圖,需要點(diǎn)級(jí)標(biāo)注,點(diǎn)級(jí)標(biāo)注耗費(fèi)財(cái)力和人力,因此研究人員傾向于更經(jīng)濟(jì)的標(biāo)記方式,僅依賴(lài)計(jì)數(shù)級(jí)注釋的弱監(jiān)督計(jì)數(shù)方法應(yīng)運(yùn)而生。目前的弱監(jiān)督計(jì)數(shù)方法采用CNN通過(guò)圖像端到計(jì)數(shù)端來(lái)回歸人群的總數(shù)。然而,基于CNN的弱監(jiān)督方法的內(nèi)在限制是上下文建模的接受域有限。因此,這些方法不能達(dá)到令人滿(mǎn)意的性能,限制了實(shí)際應(yīng)用。Transformer是自然語(yǔ)言處理中一種流行的序列到序列預(yù)測(cè)模型,它包含全局接受域,顯示出比CNN架構(gòu)更出色的優(yōu)勢(shì)。這意味著Transformer架構(gòu)更適合弱監(jiān)督計(jì)數(shù)任務(wù),因?yàn)樵撊蝿?wù)的目標(biāo)是直接在整個(gè)圖像上預(yù)測(cè)人群總數(shù)。
Liang等人[86]提出了TransCrowd,它從基于Vi T的序列計(jì)數(shù)的角度重新表述了弱監(jiān)督人群計(jì)數(shù)問(wèn)題。TransCrowd能夠利用ViT的自注意力機(jī)制有效地提取語(yǔ)義人群信息。此外,這是研究人員首次采用ViT進(jìn)行人群計(jì)數(shù)研究,并且取得顯著效果。如圖13所示,TransCrowd分為兩種類(lèi)型:Trans Crowd-Token和TransCrowd-GAP。TransCrowd-Token利用一個(gè)額外的可學(xué)習(xí)標(biāo)簽來(lái)表示計(jì)數(shù),TransCrowd-GAP采用Transformerencoder輸出序列中所有項(xiàng)的全局平均池化(global average pooling,GAP),來(lái)獲得池化的視覺(jué)標(biāo)記。然后,回歸標(biāo)記或池化的視覺(jué)標(biāo)記被送到回歸總部生成預(yù)測(cè)計(jì)數(shù)。事實(shí)證明,與TransCrowd-Token相比,TransCrowd-GAP能夠獲得更合理的注意力權(quán)重,獲得更高的計(jì)數(shù)精度,收斂速度更快。
圖13 TransCrowd的網(wǎng)絡(luò)結(jié)構(gòu)Fig.13 Architecture of TransCrowd
為了驗(yàn)證神經(jīng)網(wǎng)絡(luò)模型的魯棒性和準(zhǔn)確度,分別引入了量化標(biāo)準(zhǔn)均方誤差(mean squared error,MSE)和平均絕對(duì)誤差(mean absolute error,MAE),公式如下:
MSE越小則魯棒性越好,MAE越小則準(zhǔn)確度越高。N表示測(cè)試圖片的總數(shù),K i表示第i張圖像的實(shí)際真實(shí)人數(shù),K^i表示第i張圖像的估計(jì)人數(shù)。通過(guò)這兩個(gè)常用的指標(biāo),可以反映一個(gè)模型的優(yōu)劣。
人群計(jì)數(shù)領(lǐng)域出現(xiàn)了一批經(jīng)典數(shù)據(jù)集,使得研究人員創(chuàng)建了泛化能力更好的模型。相比于早期低密度的數(shù)據(jù)集,當(dāng)前的數(shù)據(jù)集關(guān)注高密度人群場(chǎng)景,能有效應(yīng)對(duì)尺度變化、雜亂和遮擋的問(wèn)題。下面將介紹UCSD[87]、WorldExpo’10、ShanghaiTech[43]、UCF_CC_50[88]這幾個(gè)數(shù)據(jù)集。
(1)UCSD dataset。UCSD[46]是人群計(jì)數(shù)領(lǐng)域的第一批數(shù)據(jù)集之一,其是由視頻監(jiān)控在加州大學(xué)圣地亞哥分校的人行道上收集的。原始視頻以30 frame/s捕獲,幀大小為740×480,隨后被下采樣至238×158和10 frame/s。視頻的前2 000幀(200 s)用于真實(shí)注釋?zhuān)鳛閿?shù)據(jù)集。在人行道上選擇了一個(gè)感興趣區(qū)域每隔5幀人工標(biāo)注一次,剩余幀中的行人位置通過(guò)線性插值來(lái)估計(jì)。該數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集,總共包含49 885個(gè)行人實(shí)例。訓(xùn)練集包含索引為600到1 399的幀,測(cè)試集包含剩余的1 200個(gè)圖像。該數(shù)據(jù)集人群稀疏,平均每幀15個(gè)人左右,數(shù)據(jù)集是從單一場(chǎng)景收集的,所以圖像之間的場(chǎng)景視角沒(méi)有變化。
(2)WorldExpo’10 dataset。為解決單一場(chǎng)景問(wèn)題,Zhang等人[39]引入了一個(gè)數(shù)據(jù)集用于跨場(chǎng)景人群計(jì)數(shù)WorldExpo’10。該數(shù)據(jù)集來(lái)自2010年上海世博會(huì),其中包括108個(gè)監(jiān)控?cái)z像頭捕獲的1 132個(gè)帶注釋的視頻序列,通過(guò)鳥(niǎo)瞰式攝像機(jī)收集視頻,豐富了場(chǎng)景類(lèi)型。數(shù)據(jù)集總共標(biāo)注了3 980幀分辨率為576×720的圖像,標(biāo)記行人199 923個(gè)。數(shù)據(jù)集被分成兩部分,來(lái)自103個(gè)場(chǎng)景中的1 127個(gè)1 min長(zhǎng)的視頻序列被視為訓(xùn)練和驗(yàn)證集。測(cè)試集來(lái)自5個(gè)不同場(chǎng)景,每個(gè)測(cè)試場(chǎng)景中有120個(gè)標(biāo)記幀,兩個(gè)幀之間的間隔為30 s。人數(shù)變化范圍從1到220,因此該數(shù)據(jù)集不適用于極度密集場(chǎng)景。
(3)ShanghaiTech dataset。彭超等人[45]引入了一個(gè)新的大規(guī)模人群計(jì)數(shù)數(shù)據(jù)集,該數(shù)據(jù)集由1 198張圖像和330 165個(gè)注釋頭組成,是帶注釋人數(shù)最多的數(shù)據(jù)集之一。它包含兩個(gè)部分:A和B。A部分的482張圖片是從互聯(lián)網(wǎng)隨機(jī)下載的,而B(niǎo)部分圖像來(lái)源于上海街道。與B部分相比,A部分的密度圖像要大得多。這兩個(gè)部分又進(jìn)一步劃分為訓(xùn)練集和測(cè)試集。A部分的訓(xùn)練和測(cè)試分別有300和182幅圖像,而B(niǎo)部分的訓(xùn)練和測(cè)試分別有400和316幅圖像。該數(shù)據(jù)集的圖像具有不同場(chǎng)景類(lèi)型和不同密度級(jí)別,不過(guò)不同密度級(jí)別的圖像數(shù)量并不一致,使得訓(xùn)練和測(cè)試傾向于低密度級(jí)別。
(4)UCF_CC_50。該數(shù)據(jù)集是第一個(gè)真正具有挑戰(zhàn)性的數(shù)據(jù)集,由公開(kāi)可用的網(wǎng)絡(luò)圖像創(chuàng)建。為了豐富場(chǎng)景類(lèi)型的多樣性,收集了音樂(lè)會(huì)、示威、體育場(chǎng)、馬拉松等不同標(biāo)記的圖像。它包含了50張不同分辨率的圖像,平均每張圖像有1 280個(gè)人。在整個(gè)數(shù)據(jù)集中總共標(biāo)記了63 075個(gè)人,圖像上人的數(shù)量從94到4 543不等,這表明在圖像上存在很大的差異。這個(gè)數(shù)據(jù)集的唯一缺點(diǎn)是用于訓(xùn)練和測(cè)試的圖像數(shù)量有限??紤]到低數(shù)量的圖像,定義了一個(gè)交叉驗(yàn)證協(xié)議來(lái)訓(xùn)練和測(cè)試,其中數(shù)據(jù)集被分成10個(gè)集合,并執(zhí)行5倍的交叉驗(yàn)證。這個(gè)數(shù)據(jù)集挑戰(zhàn)很大,當(dāng)前基于CNN的最先進(jìn)方法在這個(gè)數(shù)據(jù)集上的結(jié)果效果不佳。
如圖14所示,是數(shù)據(jù)集的樣本,從左至右分別是UCSD、UCF_CC_50、WorldExpo’10、Shanghai Tech A和ShanghaiTech B。
圖14 不同數(shù)據(jù)集的樣本Fig.14 Samples of different data sets
下面是不同計(jì)數(shù)網(wǎng)絡(luò)在不同數(shù)據(jù)集上的性能對(duì)比,如表2所示。
表2 不同計(jì)數(shù)網(wǎng)絡(luò)在不同數(shù)據(jù)集上的性能對(duì)比Table 2 Performance comparison of different counter networks on different data sets
表2羅列了部分人群計(jì)數(shù)網(wǎng)絡(luò)在4個(gè)主流人群數(shù)據(jù)集上的結(jié)果。CSCC[39]是單分支結(jié)構(gòu),MCNN[43]、Switch-CNN[46]、CSRNet[49]、MSCNN[89]和IG-CNN[91]是多分支結(jié)構(gòu),經(jīng)過(guò)對(duì)比可知,多分支結(jié)構(gòu)相比單分支結(jié)構(gòu)有更強(qiáng)的提取特征能力,其計(jì)數(shù)性能也優(yōu)于單分支結(jié)構(gòu)。CP-CNN[71]是上下文感知結(jié)構(gòu),在多列的基礎(chǔ)上增加了全局上下文感知模塊和局部上下文感知模塊,增強(qiáng)了計(jì)數(shù)精度。文獻(xiàn)[78,80-85]在密度估計(jì)的基礎(chǔ)上引入了注意力機(jī)制,增強(qiáng)了網(wǎng)絡(luò)結(jié)構(gòu)的魯棒性,提高了網(wǎng)絡(luò)的泛化能力和計(jì)數(shù)精度。文獻(xiàn)[70-77]是多任務(wù)模型,經(jīng)過(guò)對(duì)比,多任務(wù)模型比單任務(wù)模型計(jì)數(shù)效果更好。TransCrowd-Toke和TransCrowd-GAP[86]是TransCrowd提出的基于ViT的弱監(jiān)督計(jì)數(shù)方法。如前所述,盡管基于ViT的弱監(jiān)督計(jì)數(shù)方法性能不如全監(jiān)督計(jì)數(shù)方法,但相比其他基于CNN的弱監(jiān)督計(jì)數(shù)方法[101-103]展示了獨(dú)特的優(yōu)越性。表2的實(shí)驗(yàn)結(jié)果表明,計(jì)數(shù)精度甚至與部分全監(jiān)督計(jì)數(shù)方法相當(dāng)。
本文對(duì)人群計(jì)數(shù)領(lǐng)域的傳統(tǒng)方法、基于CNN和基于ViT三種方法進(jìn)行了系統(tǒng)性的介紹和分析,通過(guò)分析,可得到以下幾點(diǎn)結(jié)論:
(1)數(shù)據(jù)集的場(chǎng)景由單一化逐漸演變成多樣化,跨場(chǎng)景、高度擁擠和遮擋的圖像也能用模型訓(xùn)練并取得較好效果,圖像分辨率不斷提高,數(shù)據(jù)圖像數(shù)量不斷擴(kuò)大。
(2)基于CNN的方法在人群計(jì)數(shù)領(lǐng)域發(fā)展迅猛,研究成果豐富。CNN強(qiáng)大的學(xué)習(xí)能力以及提取特征能力提高了估計(jì)準(zhǔn)確率,大大推動(dòng)了這個(gè)領(lǐng)域的發(fā)展。多列結(jié)構(gòu)模型復(fù)雜、參數(shù)多,目前很多研究人員仍然重點(diǎn)研究單列結(jié)構(gòu)。同時(shí),引入新的損失函數(shù)來(lái)優(yōu)化模型依然是研究熱點(diǎn)。
(3)Transformer是自然語(yǔ)言處理中的一種預(yù)測(cè)模型,Transrowd[43]利用Transformer的自注意機(jī)制可以有效地提取語(yǔ)義群體信息,突破了基于CNN的弱監(jiān)督計(jì)數(shù)方法的部分限制,還采用了比CNN更經(jīng)濟(jì)的標(biāo)注方式,降低了成本。
(4)遮擋、透視失真、光照、極端天氣等問(wèn)題依然是人群計(jì)數(shù)領(lǐng)域需要克服的困難,今后研究人員可以嘗試攻克這些特殊情況的計(jì)數(shù)問(wèn)題,并且建立相應(yīng)數(shù)據(jù)集。
本文回顧了人群計(jì)數(shù)領(lǐng)域的方法,介紹了常用的數(shù)據(jù)集、評(píng)價(jià)指標(biāo)以及計(jì)數(shù)網(wǎng)絡(luò),分析了該領(lǐng)域的發(fā)展趨勢(shì),希望能給后續(xù)研究提供幫助。