石祥濱,呂浩杰
(沈陽航空航天大學(xué) 計算機學(xué)院,沈陽 110136)
密集人群計數(shù)的目的是統(tǒng)計擁擠場景中人的數(shù)量,通常當(dāng)人的聚集密度達(dá)到5.26人/m2及以上時稱為密集人群。密集人群計數(shù)廣泛應(yīng)用于公共場所大規(guī)模人群踩踏、暴亂等重大事故的預(yù)警。然而,由于密集人群存在人的目標(biāo)比較小、互相遮擋、尺度變化大等問題,通常難以準(zhǔn)確計數(shù),需要設(shè)計相應(yīng)的算法,通過生成密度圖對人數(shù)進(jìn)行估計。
密集人群計數(shù)方法分為傳統(tǒng)方法和基于卷積神經(jīng)網(wǎng)絡(luò)的方法。主要包括基于檢測的方法和基于回歸的方法。基于檢測的方法通過檢測人群中的每個行人來解決人群計數(shù)問題,這種方法具有一定效果,但在人群密集和嚴(yán)重遮擋的場景下效果較差。而基于特征回歸的方法需要事先人為地構(gòu)建人群圖像特征,對特征的有效性要求較高,同時忽略了空間信息,導(dǎo)致局部區(qū)域的計數(shù)結(jié)果不準(zhǔn)確。近年來,基于卷積神經(jīng)網(wǎng)絡(luò)的方法成為主流,然而,由于密集人群存在嚴(yán)重的重疊遮擋、尺度變化、視角扭曲、旋轉(zhuǎn)、光照變化和天氣變化等問題,單幅圖片的人群計數(shù)仍是一項非常具有挑戰(zhàn)性的任務(wù)。為了解決這些問題,研究者開展了大量的工作。為了解決極度密集人群圖像計數(shù)問題,Wang 等[1]提出了一種端到端的深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)回歸模型。該模型能夠自動從圖像中提取特征,提高了計數(shù)的準(zhǔn)確性和效率。為解決人群尺度變化帶來的性能下降問題,研究者提出了各種多分支結(jié)構(gòu),Zhang 等[2]提出了一種使用多列卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行人群計數(shù)的方法,不同的列使用不同大小的卷積核,分別處理大、中、小3 種不同尺度的人群。然而,由于計算量大且不能有效利用各分支學(xué)習(xí)的特征,導(dǎo)致不能獲得令人滿意的計數(shù)效果。為了降低網(wǎng)絡(luò)的復(fù)雜度,Li 等[3]采用單列卷積神經(jīng)網(wǎng)絡(luò)結(jié)合空洞卷積的形式,有效擴展了接受域,以捕獲上下文信息。然而,空洞卷積的特性帶來訓(xùn)練過程中信息不連續(xù)的問題,導(dǎo)致該方法沒有達(dá)到最理想的效果。為了應(yīng)對背景干擾問題,Zhu 等[4]提出了一種基于視覺注意力機制的人群計數(shù)模型,通過生成注意力掩膜圖指導(dǎo)網(wǎng)絡(luò)進(jìn)行密度圖估計,從而有效地應(yīng)對背景干擾。然而,該模型存在雙列子網(wǎng)絡(luò)參數(shù)量冗余、缺少顯式模塊來處理尺度變化等問題。Hossain 等[5]嘗試使用注意力機制來引導(dǎo)網(wǎng)絡(luò)自動聚焦人群所在區(qū)域,然而該方法的模型參數(shù)量和計算復(fù)雜度過高,在高密集區(qū)域的場景中效果依舊不佳。此外,研究者還從多任務(wù)學(xué)習(xí)、非監(jiān)督學(xué)習(xí)等角度進(jìn)行了人群計數(shù)研究,但人群尺度變化大和背景干擾問題仍是影響人群計數(shù)的關(guān)鍵因素。
綜上,本文提出多尺度注意力機制的雙路人群計數(shù)網(wǎng)絡(luò)(two-way crowd counting net‐work with a multi-scale attention mechanism ,TWCNMA),旨在解決人群尺度變化大、背景干擾、特征融合導(dǎo)致的語義失調(diào)。TWCNMA由4 個部分組成:第一部分是以尺度增強模塊(Scale Enhancement Module,SEM)和多尺度模塊(Multi-scale Module,MSM)為核心的特征提取網(wǎng)絡(luò),可以捕獲并融合不同尺度的特征,增加對人群尺度變化大的適應(yīng)性;第二部分是多尺度注意力特征融合網(wǎng)絡(luò),通過構(gòu)建以上下文注意模塊(Context Attention Module,CAM)為核心的特征金字塔形式的多尺度注意力特征融合網(wǎng)絡(luò)來促進(jìn)不同語義級別特征之間的流動,同時緩解不同級別特征存在的語義失調(diào)問題;第三部分是注意力掩膜分支網(wǎng)絡(luò),通過生成注意力掩膜來抑制密度圖回歸過程中存在的背景干擾問題;第四部分是密度圖生成,通過融合注意力掩膜和相應(yīng)的密度圖,網(wǎng)絡(luò)能夠生成高質(zhì)量的密度圖,從而使得全局人數(shù)估計更加準(zhǔn)確。
為了解決人群尺度變化大、背景干擾、特征融合導(dǎo)致的語義失調(diào)3 個問題,提出多尺度注意力機制的雙路人群計數(shù)網(wǎng)絡(luò)(TWC‐NMA),模型的具體結(jié)構(gòu)如圖1 所示,包括4 個模塊:特征提取網(wǎng)絡(luò)、多尺度注意力特征融合網(wǎng)絡(luò)、注意力掩膜分支網(wǎng)絡(luò)、密度圖生成。在TWCNMA 中,使用VGG16[6]主干網(wǎng)絡(luò)作為特征提取器,提取人群圖像不同尺度的特征,然后通過多尺度注意力特征融合網(wǎng)絡(luò)實現(xiàn)不同尺度特征的融合,得到人群密度圖和背景密度圖。同時,使用注意力掩膜分支網(wǎng)絡(luò)生成注意力掩模圖和背景密度圖。最后,將相應(yīng)的密度圖和掩模圖融合,得到最終的人群計數(shù)密度圖。
圖1 TWCNMA網(wǎng)絡(luò)結(jié)構(gòu)圖
TWCNMA采用在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的VGG16 網(wǎng)絡(luò)作為基線網(wǎng)絡(luò),用于特征提取。得益于其出色的特征提取能力和便于遷移學(xué)習(xí)的特性,能夠避免訓(xùn)練數(shù)據(jù)樣本不足導(dǎo)致的過擬合。特征提取網(wǎng)絡(luò)VGG16 的5 個子模塊 Block_1、Block_2、Block_3、Block_4、Block_5 生成的特征,按照從下到上的順序,分別表示為C1、C2、C3、C4、C5。由于淺層特征具有較多噪聲,故選擇C2、C3、C4、C5作為后續(xù)網(wǎng)絡(luò)的輸入。
此外,本節(jié)提出的尺度增強模塊和多尺度模塊,分別部署于C5和C4的后端,生成相應(yīng)特征圖,作為后續(xù)多尺度注意力特征融合網(wǎng)絡(luò)的輸入。
1.1.1 尺度增強模塊
尺度增強模塊(SEM)可以在多個感受野大小上明確提取特征,并學(xué)習(xí)圖像上每個特征的重要性,從而增強對尺度快速變化的適應(yīng)性。如圖2所示,對于輸入的特征圖,首先按照4 個級別進(jìn)行平均池化。由于人群圖像具有場景復(fù)雜、目標(biāo)眾多且人群規(guī)模和尺度變化大的特點,因此本文將4 個級別的池化尺寸依次設(shè)置為1×1、2×2、3×3、6×6,通過多尺度池化操作,可以得到多個大小不同的子區(qū)域。之后,將各自比例的池化結(jié)果通過大小為1×1 的卷積降維,并且通過雙線性插值操作將其上采樣,使得此時的特征圖尺寸等于輸入尺度增強模塊的特征圖尺寸。然后,將4 個不同分支的特征先通過大小1×1 的卷積,再通過Sigmoid 函數(shù)得到不同分支的權(quán)值特征圖。將權(quán)值特征圖與之前各自分支特征圖進(jìn)行對應(yīng)元素相乘,得到4 個加權(quán)特征圖。將4 個加權(quán)特征圖在通道維度上連接起來,得到與原始輸入特征尺寸一致的特征圖,隨后與原始特征圖拼接。最后,使用一個大小為1×1的卷積對拼接后的特征圖進(jìn)行跨通道融合并降維,從而產(chǎn)生模塊的最終輸出。
圖2 尺度增強模塊結(jié)構(gòu)圖
1.1.2 多尺度模塊
多尺度模塊(MSM)使用不同膨脹率的空洞卷積來提取目標(biāo)對象的多尺度特征,并將這些特征級聯(lián)在一起,以獲取全局上下文信息。通過級聯(lián)不同尺度的特征,MSM 可以同時捕捉到目標(biāo)對象的局部和全局特征,從而提高目標(biāo)對象的識別和定位準(zhǔn)確性。如圖3 所示,對于輸入尺寸為H×W×C 的特征圖,在每個分支上,首先通過1×1 的卷積將通道數(shù)降為輸入特征圖的1/4。接著,利用空洞卷積提取具有不同感受野的特征,生成尺寸為H×W×C/4 的特征圖。然后,將4 個分支的特征圖在通道維度上拼接起來,生成H×W×C 的特征圖。最后,使用1×1的卷積聚合信息,生成尺寸H×W×C的多尺度特征圖。
圖3 多尺度模塊結(jié)構(gòu)圖
多尺度注意力特征融合網(wǎng)絡(luò)旨在解決密集人群計數(shù)任務(wù)中不同語義級別特征之間的流動問題以及特征融合導(dǎo)致的語義失調(diào)問題。網(wǎng)絡(luò)采用特征金字塔的形式,由多個層次組成,其中每一層次都包括了不同尺度的特征圖,使用特征金字塔生成不同尺度特征圖的過程,如式(1)所示。在每個特征圖層次中,引入了以上下文注意力模塊(Context Attention
Module,CAM)為核心的多尺度注意力機制,能夠提取不同尺度特征圖的全局和局部上下文信息,并通過注意力機制使得特征之間的流動更加順暢。同時,CAM還能夠緩解不同級別特征融合導(dǎo)致的語義失調(diào)問題。圖4 為CAM 的結(jié)構(gòu)示意圖。
圖4 上下文注意力模塊結(jié)構(gòu)圖
式中:up()為雙線性插值函數(shù);Concat()為將兩個特征圖在通道維度上進(jìn)行連接;Conv1×1()為進(jìn)行1×1 卷積;Pi為生成的特征圖;Ci為VGG16生成的不同尺度的特征圖。
CAM 首先對輸入的特征Cin和Pin逐像素相加求和,并將結(jié)果傳遞給一個3×3 的卷積層以獲得聯(lián)合特征表示。然后,將聯(lián)合特征分別與不同級別的特征做逐像素的相減求差操作,以強調(diào)特征Pin和Cin的重要性。最后,將不同級別的特征通過多尺度注意力模塊(Multi-Scale Attention Moudle,MSAM)來感知更多的空間細(xì)節(jié)信息,并生成相應(yīng)的特征權(quán)重圖。多尺度注意力模塊包括兩個子分支:全局上下文提取模塊和局部上下文提取模塊。在全局上下文提取模塊中,輸入特征首先通過全局平均池化層來聚合全局空間信息。然后,通過兩個1×1的卷積捕獲各通道間全局依賴關(guān)系,得到全局上下文特征。在局部上下文提取模塊中,不使用全局平均池化層,而是使用一個3×3 的卷積來捕獲局部上下文特征。最后,將提取的全局和局部上下文信息進(jìn)行融合,得到多尺度上下文語義特征Pout和Cout。
密集人群計數(shù)通過生成密度圖并對其計數(shù)來得到人數(shù)。然而,在實際情況下,檢測的圖像往往會受到嚴(yán)重的背景干擾,導(dǎo)致生成的密度圖受到背景噪聲的影響,從而影響計數(shù)性能。為了減少背景干擾的影響,提升計數(shù)性能,設(shè)計了注意力掩膜分支網(wǎng)絡(luò)。
如圖5 所示,注意力掩膜分支網(wǎng)絡(luò)由5 個結(jié)構(gòu)組成。第一個結(jié)構(gòu)是大小為3×3 的卷積,通道數(shù)為256。接下來的3 個結(jié)構(gòu)與第一個結(jié)構(gòu)類似,都是大小為3×3的卷積加雙線性插值,區(qū)別是卷積核的通道數(shù)分別為256、128、64。最后一個結(jié)構(gòu)是大小為3×3 的卷積,通道數(shù)為32。注意力掩膜分支網(wǎng)絡(luò)的輸入為特征提取網(wǎng)路得到的C5特征圖,經(jīng)過注意力掩膜分支網(wǎng)絡(luò)的處理得到32 通道的R5 特征圖。然后,通過使用一個大小為1×1的卷積進(jìn)行通道拼接并執(zhí)行Sigmoid 操作,得到人群注意力掩模圖。最后,通過閾值篩選得到背景注意力掩膜圖。
圖5 注意力掩膜分支網(wǎng)絡(luò)結(jié)構(gòu)圖
假設(shè)fatt為R5 特征圖,則通過注意力掩膜分支網(wǎng)絡(luò)生成的人群注意力掩膜圖和背景注意力掩模圖的過程分別如式(2)、(3)所示
式中:W 和b 是1×1×1 卷積層的權(quán)重和偏置;?為卷積運算;Sigmoid 為Sigmoid 激活函數(shù)。Sigmoid 激活函數(shù)給出(0,1)概率得分,使得網(wǎng)絡(luò)能夠區(qū)分頭部位置和背景
式中:閾值設(shè)置為0.001;i 是相應(yīng)人群注意力掩模圖中的一個坐標(biāo);Matt(i)是相應(yīng)人群注意力掩膜上像素點的值;Matt2是得到的背景注意力掩膜圖。
在人群計數(shù)任務(wù)中,可以采用以下步驟來生成密度估計圖。首先,將輸入的圖像經(jīng)過特征提取網(wǎng)絡(luò)提取多尺度特征。接著,通過多尺度注意力特征融合網(wǎng)絡(luò)生成粗略的人群密度圖和背景密度圖,同時通過注意力掩膜分支網(wǎng)絡(luò)生成相應(yīng)的人群注意力掩膜圖和背景注意力掩膜圖。然后,將粗略的密度圖和相應(yīng)的注意力掩模圖按位相乘,得到更精確的人群密度圖和背景密度圖。接下來,使用一個大小為1×1的卷積動態(tài)學(xué)習(xí)兩者之間的關(guān)系,從而得到較為準(zhǔn)確的人群密度圖和背景密度圖。最后,將人群密度圖和背景密度圖相加求和,得到最終輸出的密度估計圖,以上過程可以用式(4)、(5)表示
式中:fden1為人群密度圖;MAtt1為人群注意力掩膜;fden2為背景密度圖;MAtt2為背景注意力掩膜;?為對應(yīng)元素相乘;F1為人群密度圖;F2為背景密度圖;Conv1×1()為1×1 卷積;+表示對應(yīng)元素按位相加。
對于密度圖回歸任務(wù),使用均方誤差損失函數(shù)進(jìn)行優(yōu)化,均方誤差損失函數(shù)定義如式(6)所示。除了密度圖回歸任務(wù)外,在注意力掩膜分支網(wǎng)絡(luò)中,使用兩個交叉熵?fù)p失函數(shù)來監(jiān)督生成人群注意力掩模圖和背景注意力掩模圖,交叉熵?fù)p失函數(shù)定義如式(7)所示
式中:F(Xi,θ)為估計的密度圖;θ 為該網(wǎng)絡(luò)中一組可學(xué)習(xí)參數(shù);Xi為輸入圖像;DGTi為真值密度圖;N 為一個批次的圖像個數(shù);AGTi為注意力掩膜真值圖;Pi為預(yù)測的注意力掩膜圖中每個像素被sigmoid函數(shù)激活的概率。
網(wǎng)絡(luò)最終的損失函數(shù)包含3個單獨的損失函數(shù),分別為密度圖回歸損失、人群注意力掩模圖的交叉熵?fù)p失和背景注意力掩模圖的交叉熵?fù)p失。通過使用Cipolla 等[7]提出的使用同方差不確定性自動調(diào)整各損失函數(shù)權(quán)重的方法,取得了較好效果。具體來說,假設(shè)有N個任務(wù),每個任務(wù)有一個損失函數(shù)Li,其中i = 1,2, …, N,第i 個損失函數(shù)的方差為σ2i,噪音參數(shù)αi=1/σ2i,這里的噪音參數(shù)表示該損失函數(shù)的可靠性。如果噪音參數(shù)過小,會導(dǎo)致該損失函數(shù)的權(quán)重過大,從而導(dǎo)致模型過擬合。如果噪音參數(shù)設(shè)置過大,會導(dǎo)致該損失函數(shù)的權(quán)重過小,從而導(dǎo)致模型欠擬合。優(yōu)化過程是最大化一個高斯似然目標(biāo)。具體是對模型權(quán)重W 和噪聲參數(shù)αi通過反向傳播和隨機梯度下降進(jìn)行優(yōu)化,使以下目標(biāo)最小化
式中:損失函數(shù)L1、L2分別屬于第一任務(wù)和第二任務(wù)。通過最小化損失式(8)可以自適應(yīng)地學(xué)習(xí)損失L1(W)和L2(W)的相對權(quán)重σ1 和σ2,當(dāng)σ1 增加時,意味著L1(W)的加權(quán)值降低,同時通過式(8)中的最后一項來限制σ1 和σ2,起到正則化的作用,可以很好地平衡不同的回歸和分類損失。網(wǎng)絡(luò)最終的損失函數(shù)為
式中:Lden為均方誤差損失函數(shù);L1為人群注意力掩膜損失函數(shù);L2為背景注意力掩膜損失函數(shù);α1和α2分別為人群注意力掩膜任務(wù)和背景注意力掩膜任務(wù)的噪音參數(shù)。
為了獲得真實密度圖DGTi,使用幾何自適應(yīng)的高斯核[8]處理人群場景。假設(shè)在像素點xi處有一個點表示場景中的人頭位置,則可以將該點用單位沖激函數(shù)δ(x-xi)表示,通過使用高斯核模糊每個人頭標(biāo)注計算出相應(yīng)的真實密度圖DGTi,即將δ函數(shù)與具有參數(shù)σi標(biāo)準(zhǔn)差的高斯核函數(shù)進(jìn)行卷積。密度圖DGTi的生成可以表示為
式中:N為總?cè)藬?shù);在實驗中,ShanghaiTech數(shù)據(jù)集設(shè)置σ 為5;UCF_CC_50 數(shù)據(jù)集設(shè)置σ 為15;UCF-QNRF數(shù)據(jù)集σ的設(shè)置通過最近鄰來得到。
根據(jù)已有的標(biāo)注信息及密度圖可進(jìn)一步生成注意力掩膜真值圖。首先,使用高斯核函數(shù)生成人群真實密度圖,然后基于閾值0.001[4]對相應(yīng)密度圖真實值進(jìn)行二值化處理,生成注意力掩膜真值圖。相應(yīng)公式如下
式中:i 為相應(yīng)人群真實密度圖中的一個坐標(biāo);D(i)為人群真實密度圖上像素點的值;A為注意力掩膜真值圖。
在訓(xùn)練過程中,首先處理短邊小于512 的圖像,將圖像的短邊調(diào)整為512,對于UCFQNRF數(shù)據(jù)集圖像分辨率過大導(dǎo)致計算量過大的問題,將圖像大小調(diào)整為固定的1024×768。其次按比例[0.8,1.2]隨機變化,將圖像隨機裁剪成固定大小(400×400)的圖像塊,然后以0.5 的概率隨機水平翻轉(zhuǎn),并使用參數(shù)[0.5,1.5]以0.3 的概率進(jìn)行伽馬對比度變換處理,以進(jìn)行數(shù)據(jù)增強。對于ShanghaiTech A 這種帶有灰色圖像的數(shù)據(jù)集,以0.1 的概率隨機地將彩色圖像改為灰色。為了與網(wǎng)絡(luò)的輸出尺寸相匹配,密度圖和注意力掩膜圖的真值圖分辨率大小都被調(diào)整為輸入圖像的一半。
采用前13 層預(yù)訓(xùn)練的VGG-16 作為前端特征提取器,其余的網(wǎng)絡(luò)參數(shù)由均值為0、標(biāo)準(zhǔn)差為0.01 的高斯分布隨機初始化。對于ShanghaiTech、UCF_CC_50 數(shù)據(jù)集采用學(xué)習(xí)率為1e-4、權(quán)重為5e-3 權(quán)重衰減的Adam 優(yōu)化器對模型進(jìn)行訓(xùn)練,對于UCF-QNRF數(shù)據(jù)集采用學(xué)習(xí)率為1e-5、默認(rèn)權(quán)重衰減的Adam 優(yōu)化器對模型進(jìn)行訓(xùn)練,在訓(xùn)練過程中使用批量大小為4,以穩(wěn)定訓(xùn)練損失的變化。本文所有實驗皆在Ubuntu 18.04 系統(tǒng)下、使用python 3.6 在Pytorch 深度學(xué)習(xí)框架下完成,采用RTX 2070 SUPER顯卡來加速訓(xùn)練。
與大多數(shù)基于卷積神經(jīng)網(wǎng)絡(luò)的密集人群計數(shù)方法相同,本文設(shè)計的方法也使用平均絕對誤差(Mean Absolute Error,MAE)和均方誤差(Mean Square Error,MSE)作為評估準(zhǔn)則。MAE 反映了模型的準(zhǔn)確性,而MSE 反映了模型的穩(wěn)健性,這些指標(biāo)定義如下
ShanghaiTech 數(shù)據(jù)集[2]包含1 198 張標(biāo)注圖像,共計330 165人。該數(shù)據(jù)集由A和B兩部分組成。A 部分包含482 張從互聯(lián)網(wǎng)上隨機下載的高度擁擠的場景圖像,圖像場景中人數(shù)變化范圍從33到3 139,其中300張圖像構(gòu)成訓(xùn)練集,182 張圖像構(gòu)成測試集。B 部分包含716 張來自上海繁華的街道上相對稀疏的人群場景,人數(shù)變化范圍從12 到578,其中400 張圖像構(gòu)成訓(xùn)練集,316張圖像構(gòu)成測試集。
表1 列出了本文提出的TWCNMA 與其他代表性算法在ShanghaiTech數(shù)據(jù)集上的實驗結(jié)果??梢园l(fā)現(xiàn),TWCNMA 在兩個數(shù)據(jù)集上都實現(xiàn)了最好的準(zhǔn)確率,同時在魯棒性指標(biāo)MSE 上也取得了較好的結(jié)果,說明該算法在不同密集程度的場景中具有較好的適應(yīng)性。在ShanghaiTech_A 數(shù)據(jù)集上,與計數(shù)性能第二的SFANet 相比,TWCNMA 在指標(biāo)MAE 和MSE 上分別優(yōu)化了4.3%和3.1%。在Shang‐haiTech_B 數(shù)據(jù)集上,TWCNMA 的準(zhǔn)確率和魯棒性優(yōu)于大部分網(wǎng)絡(luò),僅在魯棒性指標(biāo)MSE 上次于SFANet[4]和C2FNet[9]。SFANet使用的也是包含前端特征提取和后端特征融合的結(jié)構(gòu),但SFANet 在ShanghaiTech 數(shù)據(jù)集上的MAE 和MSE 的表現(xiàn)很大程度是由于其使用了UCF-QNRF 數(shù)據(jù)集預(yù)訓(xùn)練權(quán)重作為初始權(quán)重。C2FNet 生成了由低分辨率到高分辨率的密度估計圖,并通過分布式監(jiān)督促進(jìn)密度圖融合,實現(xiàn)了更低的MSE。
表1 ShanghaiTech數(shù)據(jù)集上的實驗結(jié)果
圖6 展示了ShanghaiTech 數(shù)據(jù)集中部分測試圖像的可視化結(jié)果,第一、二行是Shanghai‐Tech_B 上的估計結(jié)果,第三、四行是Shanghai‐Tech_A 上的估計結(jié)果,第一列是人群圖片,第二列是真值密度圖,第三列是預(yù)測密度圖。可以發(fā)現(xiàn)TWCNMA 在人群密集的場景及相對稀疏的城市街道場景下均展現(xiàn)了較好的結(jié)果,其生成的密度圖也與真實密度圖一樣能正確反映人群的分布情況。
圖6 ShanghaiTech上TWCNMA算法生成密度圖可視化示例
UCF_CC_50[15]數(shù)據(jù)集內(nèi)涵蓋音樂會、抗議活動、體育場和馬拉松比賽等不同場景,包含50 幅不同視角不同分辨率的圖片。每幅圖片標(biāo)注的人數(shù)范圍從94 到4 543 不等,平均人數(shù)達(dá)到了1 280,這使其成為了人群計數(shù)任務(wù)中最有挑戰(zhàn)性的數(shù)據(jù)集。
表2 列出了TWCNMA 與其他代表性算法在UCF_CC_50 數(shù)據(jù)集上的實驗結(jié)果??梢园l(fā)現(xiàn),TWCNMA 的準(zhǔn)確率和魯棒性優(yōu)于大部分網(wǎng)絡(luò),僅在魯棒性指標(biāo)MSE 上次于CAN[10]和LA-Batch[13]。CAN同樣使用VGG16作為前端特征提取網(wǎng)絡(luò),同時提出了一種基于上下文感知卷積神經(jīng)網(wǎng)絡(luò)的方法來自適應(yīng)地學(xué)習(xí)和利用不同尺度的上下文信息。但由于UCF_CC_50 數(shù)據(jù)集樣本較少,并且全部為灰度圖,因此該方法在該數(shù)據(jù)集上的預(yù)測誤差均較大,驗證效果可能偏弱,不能很好地說明模型效果。與計數(shù)性能第二的C2FNet 相比,TWCNMA 在指標(biāo)MAE和MSE上分別優(yōu)化了3.2%和7.9%。
表2 UCF_CC_50數(shù)據(jù)集上的實驗結(jié)果
圖7 展示了UCF_CC_50 數(shù)據(jù)集中部分測試圖像的可視化結(jié)果,可以發(fā)現(xiàn)TWCNMA 算法能有效應(yīng)對訓(xùn)練數(shù)據(jù)較少且人群極度密集的情況,生成接近真實人群分布的估計結(jié)果。
圖7 UCF_CC_50上TWCNMA算法生成密度圖可視化示例
UCF-QNRF[16]包含1 535 張密集的人群圖像,其中訓(xùn)練集有1 201 張圖像,測試集有334張圖像。UCF-QNRF 數(shù)據(jù)集擁有更多高計數(shù)的人群圖像和注釋,以及更廣泛的場景,包含最多樣化的視角、密度和照明變化。除了高密度區(qū)域外,該數(shù)據(jù)集還包含建筑、植被、天空和道路,因為它們出現(xiàn)在野外捕獲的現(xiàn)實場景中,因此使得該數(shù)據(jù)集更加真實且獲取難度大。
表3 列出了TWCNMA 與其他代表性算法在UCF-QNRF 數(shù)據(jù)集上的實驗結(jié)果,可以發(fā)現(xiàn),TWCNMA 在準(zhǔn)確性指標(biāo)MAE 和魯棒性指標(biāo)MSE 上達(dá)到了可競爭的水平,僅次于SFANet[4]和C2FNet[9],但與性能最佳的算法仍有一定差距。性能最佳的C2FNet 通過使用單列架構(gòu),在主干網(wǎng)絡(luò)后串聯(lián)多個相同的模塊來充分挖掘深層抽象信息,并使用中繼監(jiān)督模塊來優(yōu)化密度圖達(dá)到了最佳的效果。與C2FNet相比,TWCNMA 避免了前者較為臃腫的結(jié)構(gòu),并通過注意力圖來抑制背景噪聲的影響。但在UCF-QNRF數(shù)據(jù)集上的表現(xiàn)不盡如人意,這可能是TWCNMA 在某些情況下的泛化能力不足,同時也可能是因為沒有在UCF-QNRF數(shù)據(jù)集上進(jìn)行足夠的超參數(shù)調(diào)整,優(yōu)化器的參數(shù)不是最優(yōu)的。
表3 UCF-QNRF數(shù)據(jù)集上的實驗結(jié)果
圖8 展示了UCF-QNRF 數(shù)據(jù)集中部分測試圖像的可視化結(jié)果,可以發(fā)現(xiàn)TWCNMA 能有效應(yīng)對背景噪聲干擾、人群尺度變化大、人群極度密集等情況。
圖8 UCF-QNRF上TWCNMA算法生成密度圖可視化示例
為了驗證本文所提出的多尺度注意力機制的雙路人群計數(shù)網(wǎng)絡(luò)(TWCNMA)的有效性,將從兩個方面進(jìn)行結(jié)構(gòu)性消融實驗并作相應(yīng)的分析:(1)多尺度注意力機制的雙路人群計數(shù)網(wǎng)絡(luò)中不同模塊的有效性分析;(2)注意力掩膜分支網(wǎng)絡(luò)的有效性分析。
首先,為了驗證和分析提出的多尺度模塊(MSM)、尺度增強模塊(SEM)及上下文注意模塊(CAM)的有效性,從網(wǎng)絡(luò)中移除某一模塊,并在ShanghaiTech 數(shù)據(jù)集的PartA 部分進(jìn)行訓(xùn)練并評估其性能表現(xiàn)。實驗共包含3 種設(shè)置,其中W/O MSM 表示移除多尺度模塊、W/O SEM 表示移除尺度增強模塊、W/O CAM 表示移除上下文注意力模塊。
表4 展示了移除不同模塊后的網(wǎng)絡(luò)在ShanghaiTech 數(shù)據(jù)集的PartA 部分性能比較。結(jié)果表明,相比同時采用MSM、SEM、CAM 的TWCNMA,單獨移除一個模塊后,模型的性能都有所下降。同時采用MSM、SEM、CAM能夠獲得最優(yōu)的MAE 和MSE 指標(biāo),大幅提升模型性能。這表明,MSM、SEM 和CAM 模塊在TWCNMA 中都起到了重要的作用,有助于模型更好地捕獲多尺度信息和上下文信息,提高了模型的性能。
表4 不同模塊的性能比較
其次,為了驗證注意力掩膜分支網(wǎng)絡(luò)的有效性,進(jìn)行了另一個消融實驗。實驗包含兩種設(shè)置,其中TWCNMA 表示多尺度注意力機制的雙路人群技術(shù)網(wǎng)絡(luò),W/O 注意力掩膜分支網(wǎng)絡(luò)表示移除注意力掩膜分支網(wǎng)絡(luò),結(jié)果如表5所示。通過在網(wǎng)絡(luò)中添加注意力掩膜分支,生成用于指導(dǎo)網(wǎng)絡(luò)生成更高質(zhì)量密度圖的注意力掩膜,可以提升網(wǎng)絡(luò)的性能、抑制背景噪聲的影響。相較于移除注意力掩膜分支,MAE和MSE分別提高6.38%和1.82%。
表5 注意力掩膜分支網(wǎng)絡(luò)的消融實驗結(jié)果
TWCNMA 的部分可視化結(jié)果如圖9 所示。由圖9 可知,注意力掩模圖可指示人群所在位置,在它的指示下,生成的預(yù)測密度圖接近真實密度圖。
圖9 TWCNMA可視化示例圖
本文提出了一種多尺度注意力機制的雙路人群計數(shù)網(wǎng)絡(luò)TWCNMA 用以解決密集人群計數(shù)領(lǐng)域中人群尺度變化大、背景干擾、特征融合導(dǎo)致的語義失調(diào)這3 個問題。首先,提出了以多尺度模塊和尺度增強模塊為核心的特征提取網(wǎng)絡(luò),捕獲不同尺度的特征,增強網(wǎng)絡(luò)對人群尺度變化大的適應(yīng)性;其次,提出了以上下文注意力模塊為核心的多尺度注意力特征融合網(wǎng)絡(luò),有效感知并融合多尺度信息,緩解不同級別特征存在的語義失調(diào)問題;最后,使用注意力掩膜來抑制背景噪聲的干擾。通過在一些公共數(shù)據(jù)集上與其他人群計數(shù)算法對比可知,提出的人群計數(shù)網(wǎng)絡(luò)取得了較好的計數(shù)精度,同時在多個數(shù)據(jù)集上也展現(xiàn)出了很好的魯棒性。盡管如此,提出的方法在UCFQNRF 數(shù)據(jù)集下表現(xiàn)欠佳,需要進(jìn)一步提高算法的泛化性。未來,TWCNMA 可以應(yīng)用于預(yù)防公共場所中大規(guī)模踩踏事故的發(fā)生等場景,并可以進(jìn)一步探索如何提高算法的泛化性,以便在更多的數(shù)據(jù)集和實際場景中得到更好的應(yīng)用。