沈?qū)庫o,袁 健
(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)
人群計(jì)數(shù)任務(wù)的目的是計(jì)算視頻監(jiān)控和照片內(nèi)人數(shù)。在交通管理、防災(zāi)和公共管理中,對單幅圖像中的人數(shù)進(jìn)行統(tǒng)計(jì)具有重要的實(shí)際意義。健壯的人群計(jì)數(shù)系統(tǒng)(Robust Crowd Counting System)被應(yīng)用在許多公共應(yīng)用中,例如視頻調(diào)查、安全報(bào)警、事件計(jì)劃等。因此,估算人群密度分布并分析人群行為對于改善公共管理、保障安全至關(guān)重要。目前,人群計(jì)數(shù)任務(wù)面臨以下挑戰(zhàn):遮擋、密度分布不均、透視失真以及人與背景元素之間高度相似等。
部分早期人群計(jì)數(shù)方法采用檢測方式,例如文獻(xiàn)[1~2]將人體的全部或部分作為計(jì)數(shù)條件進(jìn)行目標(biāo)統(tǒng)計(jì)。這種檢測方法在簡單的場景中表現(xiàn)良好,但在擁擠的場景中效果較差。在此基礎(chǔ)上,研究人員用回歸函數(shù)計(jì)算圖像中的人數(shù)。該方法將人群作為一個整體,學(xué)習(xí)從圖像特征到人數(shù)的映射,例如文獻(xiàn)[3~4]中的像素特征法和文獻(xiàn)[5]中的紋理特征分析法。前者的效果主要取決于提取的前景特征的質(zhì)量,若前景特征提取不佳,則統(tǒng)計(jì)效果較差。因此,這種方法在密集場景中的精度不高?;诩y理特征的人數(shù)統(tǒng)計(jì)方法可以有效地緩解密集場景中計(jì)數(shù)效果不佳的問題,但不適合稀疏場景。總之,傳統(tǒng)的計(jì)數(shù)方法應(yīng)用效果不理想。
近年來,卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺分類和圖像識別領(lǐng)域取得了成功。因此,基于卷積神經(jīng)網(wǎng)絡(luò)的方法被廣泛應(yīng)用于解決單個圖像的人群計(jì)數(shù)問題。這些方法分為兩類:多列結(jié)構(gòu)和單列結(jié)構(gòu)。多列結(jié)構(gòu)[6-9]通常使用具有不同感受域的濾波器形成一個并列模型來學(xué)習(xí)不同尺度的頭部,例如在文獻(xiàn)[6]和文獻(xiàn)[7]中,為每一列設(shè)計(jì)了不同感受域的濾波器。在人群密度圖中,大的感受域?yàn)V波器用于近距離頭部建模,小的感受域?yàn)V波器用于遠(yuǎn)距離頭部建模。最后,將每一列特征圖合并生成密度圖。文獻(xiàn)[9]在文獻(xiàn)[7]的基礎(chǔ)上設(shè)計(jì)了密度分類網(wǎng)絡(luò)結(jié)構(gòu),將密度分類器引入網(wǎng)絡(luò)前端,得到每個輸入圖像塊的類別標(biāo)簽,然后傳輸?shù)骄W(wǎng)絡(luò)后端生成人群密度圖。在此基礎(chǔ)上,一些研究者設(shè)計(jì)了單列結(jié)構(gòu)[10-13],以避免多列網(wǎng)絡(luò)帶來的計(jì)算量大、模型訓(xùn)練困難等問題。這種結(jié)構(gòu)通常使用深度網(wǎng)絡(luò)系統(tǒng)來學(xué)習(xí)圖像的深層特征,例如文獻(xiàn)[11]提出了一種基于跨層特征組合的人群估計(jì)算法,利用像素級語義信息集成局部特征,有效學(xué)習(xí)多尺度頭部。文獻(xiàn)[12]設(shè)計(jì)了一種單列擴(kuò)張卷積結(jié)構(gòu),在處理多尺度問題時(shí)引入了擴(kuò)張卷積。該方法在不改變卷積核大小的情況下,實(shí)現(xiàn)了與大尺寸卷積核相同的感受域,有效減少了參數(shù)數(shù)量,提高了計(jì)數(shù)精度。雖然多列或深度網(wǎng)絡(luò)結(jié)構(gòu)在處理尺度變化時(shí)取得了良好的效果,但在捕獲尺度多樣性時(shí)受限于固定的列數(shù),無法有效地利用低層特征。此外,該方法也沒有考慮背景噪聲對最終人數(shù)統(tǒng)計(jì)的影響。
因此,針對上述問題,本文提出了一種基于殘差密集連接與注意力融合的人群計(jì)數(shù)算法(Crowd Counting Algorithm Based on Residual Dense Connection and Attention Fusion,RDCAF)。其創(chuàng)新點(diǎn)為:(1)設(shè)計(jì)了一種殘差密集連接結(jié)構(gòu)。利用殘差網(wǎng)絡(luò)和密集網(wǎng)絡(luò)相結(jié)合的方式對不同深度的特征圖進(jìn)行融合,增強(qiáng)了不同深度特征之間的信息流動和深層網(wǎng)絡(luò)的小尺度細(xì)節(jié)信息;(2)加入了一種注意力機(jī)制結(jié)構(gòu)。經(jīng)驗(yàn)證,該結(jié)構(gòu)能夠自動地將更多的注意力分配給圖像中人群所在的區(qū)域,提高了最終密度圖的質(zhì)量;(3)提出了RDCAF算法。該算法前端采用改進(jìn)VGG16網(wǎng)絡(luò)提取圖像底層特征信息,后端主分支采用殘差密集連接結(jié)構(gòu)學(xué)習(xí)多尺度特征,側(cè)分支采用注意力機(jī)制結(jié)構(gòu)重構(gòu)多尺度特征,最后使用1×1卷積和最近鄰插值生成人群密度圖,根據(jù)密度圖回歸求和得到總?cè)藬?shù)。本文在3個主流公開的數(shù)據(jù)集上對該算法進(jìn)行了驗(yàn)證,結(jié)果表明了該算法的有效性,并證明其優(yōu)于原有算法。
由于拍攝視角的差異,行人信息以不同的形式分布在相同或不同分辨率的圖像中。靠近像機(jī)的人更清晰,頭部有更多的特征信息。距離較遠(yuǎn)的人結(jié)構(gòu)不完整,頭部較小,占據(jù)的特征信息較少。為了解決這一問題,文獻(xiàn)[7]和文獻(xiàn)[12]分別從多列結(jié)構(gòu)和空洞卷積方式獲取了不同尺度的頭部特征。雖然采用上述方法可取得一定的效果,但在獲取多尺度頭部上下文信息時(shí),沒有充分利用淺層圖像特征,忽略了淺層網(wǎng)絡(luò)中豐富的細(xì)節(jié)信息,也沒有考慮背景噪聲因素對人數(shù)的影響。基于此,本文提出一種基于殘差密集連接與注意力融合的人群計(jì)數(shù)算法。該算法以任意大小的圖像為輸入,利用改進(jìn)的VGG16網(wǎng)絡(luò)提取原始圖像的淺層紋理信息。然后,通過殘差密集連接結(jié)構(gòu)捕獲不同尺度的人頭信息,并結(jié)合注意力機(jī)制結(jié)構(gòu),重建行人特征圖。隨后,采用1×1卷積和最近鄰插值生成與原始圖像大小相同的密度圖。最終對密度圖進(jìn)行像素積分求和得到總?cè)藬?shù)。本文所設(shè)計(jì)的算法結(jié)構(gòu)如圖1所示,主要包括前端的基本特征提取結(jié)構(gòu)、后端主分支的殘差密集連接結(jié)構(gòu)以及后端側(cè)分支的注意力機(jī)制結(jié)構(gòu)。
圖1 RDCAF算法結(jié)構(gòu)Figure 1. RDCAF algorithm structure
VGGNet[14]具有結(jié)構(gòu)簡單、操作方便、遷移能力強(qiáng)的優(yōu)點(diǎn)。在網(wǎng)絡(luò)結(jié)構(gòu)中,通過設(shè)置多個連續(xù)的3×3卷積核來級聯(lián)卷積圖像,達(dá)到與大尺寸卷積核相同的效果。在相同感受域的情況下,3×3小尺寸卷積核的參數(shù)更少,捕獲到的特征信息表現(xiàn)出更多的非線性,結(jié)果準(zhǔn)確率更高。因此,在特征提取結(jié)構(gòu)中去除全連接層后的VGGNet16前13層,以獲取原始圖像的低級紋理信息,得到1/16原圖大小的密度圖來作為后續(xù)結(jié)構(gòu)的輸入。
在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中,不同層次的網(wǎng)絡(luò)具有不同的感受域和語義水平。隨著網(wǎng)絡(luò)層數(shù)的加深,網(wǎng)絡(luò)的感受范圍將逐漸由淺入深。其中,深層網(wǎng)絡(luò)更傾向于捕捉大尺度的行人,而淺層網(wǎng)絡(luò)則更適合提取小目標(biāo)頭部。在處理圖像的尺度問題時(shí),網(wǎng)絡(luò)的深化導(dǎo)致特征圖中保留了更多的語義信息,丟失了小尺度特征。因此,感知小目標(biāo)頭部的能力降低。文獻(xiàn)[15]的密集連接思想將學(xué)習(xí)到的每一層特征傳遞給后續(xù)的網(wǎng)絡(luò)層,使得所有的特征圖都堆疊在輸出層,不需要額外計(jì)算就可以快速利用不同層的特征信息,提高了特征圖的利用率。
本文在文獻(xiàn)[15]的基礎(chǔ)上,將密集連接技術(shù)引入網(wǎng)絡(luò),形成殘差密集連接結(jié)構(gòu),如圖2所示。該結(jié)構(gòu)的目的是挖掘隱藏在淺層網(wǎng)絡(luò)中的小尺寸頭部的語義信息,并在獲取多尺度特征時(shí)增強(qiáng)高層網(wǎng)絡(luò)中的多尺度信息。
圖2 殘差密集連接圖Figure 2. Residual density connection diagram
殘差密集連接結(jié)構(gòu)包括兩部分:密集網(wǎng)絡(luò)和殘差網(wǎng)絡(luò)。密集網(wǎng)絡(luò)包括5個卷積層,每個卷積層使用一個參數(shù)化線性修正單元(Parametric Rectified Linear Unit,PReLU)作為激活函數(shù)。在密集網(wǎng)絡(luò)的前兩層中,使用常規(guī)卷積獲取大規(guī)模特征信息。最后3層則利用擴(kuò)展范圍加倍的擴(kuò)張卷積,進(jìn)一步提取不同尺度的頭部特征。為了更好地融合淺層信息,采用1×1的卷積對輸出特征圖進(jìn)行降維。密集網(wǎng)絡(luò)重用不同深度的特征,在不擴(kuò)展網(wǎng)絡(luò)深度的前提下加強(qiáng)了各層特征信息的移動,提高了深層網(wǎng)絡(luò)中以小目標(biāo)人群為代表的細(xì)節(jié)信息的表達(dá)。殘差網(wǎng)絡(luò)以淺層特征圖為輸入,融合密集網(wǎng)絡(luò)的深層特征,使多尺度上下文信息更加豐富。
在計(jì)算機(jī)視覺領(lǐng)域,空間注意力可有效捕獲通道的局部細(xì)節(jié)信息,可像人一樣有選擇地關(guān)注圖像信息的突出部分,并取得良好的效果[16-19]。通道注意力[20]可以對通道間的特征建模,關(guān)注關(guān)鍵特征。在人群圖像的卷積過程中,網(wǎng)絡(luò)會同時(shí)捕獲背景和目標(biāo),導(dǎo)致計(jì)數(shù)誤差。因此,為了減少多尺度特征圖中背景噪聲的影響,需在后端側(cè)分支引入空間和通道注意力,形成注意力機(jī)制結(jié)構(gòu),從而使生成的密度圖更加關(guān)注人群目標(biāo)區(qū)域的局部細(xì)節(jié),提高密度圖的質(zhì)量。
圖3 注意力機(jī)制結(jié)構(gòu)圖Figure 3. Structure diagram of attention mechanism
如圖3所示,注意力機(jī)制結(jié)構(gòu)由空間注意力(Spatial Attention,SA)和通道注意力(Channel Attention,CA)組成。SA的第1層采用1×1的普通卷積來減少特征圖中的通道數(shù),從而降低了計(jì)算復(fù)雜度。為了進(jìn)一步擴(kuò)大卷積核的尺度獲取范圍,提高網(wǎng)絡(luò)學(xué)習(xí)每個通道空間像素權(quán)重的能力,第2層和第3層構(gòu)成膨脹率為2的膨脹卷積塊。最后一層采用1×1卷積和Sigmoid函數(shù)得到SA的中間特征圖。CA包括一個自適應(yīng)全局平均池化層(Global Average Pooling,GAP)和兩個全連接層(Fully Connected Layer,F(xiàn)C)。首先,特征圖通過GAP建模各通道的強(qiáng)空間細(xì)節(jié);接著利用兩個FC對特征圖進(jìn)行降維和增維;最后使用Sigmoid函數(shù)重新映射動態(tài)范圍內(nèi)的空間像素權(quán)重,從而在基于像素的特征圖中區(qū)分目標(biāo)像素和背景像素。在結(jié)構(gòu)的末端得到像素化的注意力圖,該圖將更多權(quán)重分配給人群的位置,從而減少背景噪聲的干擾,提高了密度圖的質(zhì)量。
人群計(jì)數(shù)模型運(yùn)用手工標(biāo)注方式標(biāo)注圖像內(nèi)的人頭,最終得到訓(xùn)練網(wǎng)絡(luò)的人群密度圖。假設(shè)人頭標(biāo)注點(diǎn)位于像素xi處,用δ函數(shù)δ(x-xi)表示,則一張含有N個人頭的圖像可表示為
(1)
為了得到密度圖,使用高斯核Gδ卷積式(1)得到連續(xù)密度函數(shù)。
H(x)=f(x)*Gδ(x)
(2)
在實(shí)際場景中,人群在圖像中的分布是不均勻的。針對以上問題,使用文獻(xiàn)[7]提出的幾何自適應(yīng)高斯核生成密度圖。此時(shí),密度函數(shù)表示為
(3)
式中,N是標(biāo)注的總?cè)祟^數(shù);由文獻(xiàn)[7]實(shí)驗(yàn)數(shù)據(jù)可知β=0.3時(shí)最有效。
RDCAF算法步驟如下:
輸入:人群圖像。
輸出:人群預(yù)測密度圖。
步驟1將人群圖像送入基本特征提取結(jié)構(gòu)提取淺層特征;
步驟2利用殘差密集連接結(jié)構(gòu)對淺層特征進(jìn)行層間信息傳遞,得到多尺度特征圖。計(jì)算式為
NO=NL+C1×1[concat(No1+No2+No3+No4)]
(4)
式中,NO和NL分別表示多尺度特征圖和淺層特征圖,Noj(j=1,2,3,4)是4層的輸出特征映射;concat表示通道拼接;C1×1表示卷積以減少特征維數(shù)。注意力機(jī)制結(jié)構(gòu)對淺層特征進(jìn)行空間和通道變化,得到注意力特征圖。式(5)和式(6)分別用于計(jì)算SA和CA,注意力圖的計(jì)算如式(7)所示。
(5)
Nc=FC(ReLU(FC(GAP(C5(Ns)))))
(6)
式中,Nc表示中間特征圖;FC表示全連接層;ReLU表示非線性激活函數(shù);C5表示卷積層。
N=σ(Nc)
(7)
式中,N表示注意力特征圖;Nc表示由式(6)得到的中間特征圖;σ表示Sigmoid非線性激活函數(shù);
步驟3利用注意力特征圖N重構(gòu)多尺度特征映射NO,得到重構(gòu)后的人群特征圖MO,計(jì)算式為
MO=Z(N,NO)=N×NO
(8)
式中,Z為乘法函數(shù),它將多尺度特征圖進(jìn)行特征重選定,生成高質(zhì)量的密度圖;
步驟4采用1×1卷積和最近鄰插值得到最終的人群密度圖,并對密度圖積分求和得到總?cè)藬?shù),計(jì)算式如式(9)所示。
(9)
為了驗(yàn)證RDCAF算法的性能,本文在ShanghaiTe-ch[7]、Mall[21]、UCF-QNRF[23]三大主流公開的數(shù)據(jù)集上進(jìn)行了訓(xùn)練和測試。實(shí)驗(yàn)采用Ubuntu18.04操作系統(tǒng)和Pytorch框架,配置顯卡是包含11 GB顯存的GPU RTX 2080Ti。在初始化網(wǎng)絡(luò)訓(xùn)練權(quán)值方面,采用預(yù)先訓(xùn)練好的VGGNet權(quán)值初始化特征提取結(jié)構(gòu)的網(wǎng)絡(luò)參數(shù),其余層采用0.01標(biāo)準(zhǔn)差的高斯分布進(jìn)行初始化。初始網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)率和批處理設(shè)置為1×10-5和1,總訓(xùn)練周期為2 000輪。
該算法利用帶標(biāo)簽的數(shù)據(jù)對網(wǎng)絡(luò)進(jìn)行訓(xùn)練。在訓(xùn)練過程中,采用自適應(yīng)學(xué)習(xí)率的Adam作為優(yōu)化器算法對網(wǎng)絡(luò)參數(shù)進(jìn)行優(yōu)化。本文以人群計(jì)數(shù)研究公認(rèn)的歐幾里得損失函數(shù)作為目標(biāo)函數(shù),預(yù)測真實(shí)密度圖與預(yù)測密度圖的差異。損失函數(shù)定義為
(10)
式中,Θ表示網(wǎng)絡(luò)學(xué)習(xí)的參數(shù);N是訓(xùn)練樣本總數(shù);Xi是第i張圖像;Di(Xi;Θ)和Ti分別是圖像i預(yù)測生成的密度圖和真實(shí)密度圖。
采用平均絕對誤差(Mean Absolute Error,MAE)和均方根誤差(Root Mean Square Error,RMSE)評價(jià)算法的性能。定義為
(11)
(12)
式中,Ei和i分別為第i個測試樣本和真實(shí)樣本的預(yù)測數(shù)和真實(shí)數(shù)。
2.3.1 ShanghaiTech數(shù)據(jù)集
ShanghaiTech[7]數(shù)據(jù)集是一個大規(guī)模的人群數(shù)據(jù)集,包含PartA和PartB兩個子集。PartA密度大,分布稠密。PartB密度中等,分布變化較大。整個數(shù)據(jù)集由1 198張圖像和330 165個頭部組成。實(shí)驗(yàn)選取PartA的300張和PartB的400張作為訓(xùn)練集,其余為測試集。在ShanghaiTech數(shù)據(jù)集上,將RDCAF算法與幾種先進(jìn)的人群計(jì)數(shù)算法進(jìn)行了比較,結(jié)果如表1所示。
圖4顯示了該算法在擁擠場景PartA和中等密度場景PartB中生成的密度圖和真實(shí)密度圖的效果示意圖。
(a) (b) (c)圖4 PartA和PartB的效果示意圖 (a)原始圖像 (b)真實(shí)密度圖 (c)預(yù)測密度圖Figure 4. The effect diagrams of PartA and PartB (a)The original image (b)True density map (c)Predictive density map
從圖4和表1最后一行中的數(shù)據(jù)結(jié)果可以看出,該算法在PartA人群密度高、PartB人群密度中等的復(fù)雜場景中具有良好的適應(yīng)性和準(zhǔn)確性。其中,在第1張典型小尺寸行人頭部的密集場景圖像中統(tǒng)計(jì)了1 067人,與實(shí)際人數(shù)相差6人,誤差率為0.5%;在第2張混合尺寸人頭的中密度場景圖像中獲得的人數(shù)為179人,與實(shí)際人數(shù)相差2人,誤差率為1.1%;在最后一張人頭比例均勻的稀疏場景中獲得的人數(shù)與實(shí)際人數(shù)相同,誤差率為0%。從算法得到的估計(jì)人數(shù)和實(shí)際人數(shù)的結(jié)果可以看出,算法對PartB稀疏人群的誤差更小,準(zhǔn)確率更高,對PartA密集人群的誤差更大。但考慮到公共場所中的密集人群的人數(shù)在一定誤差范圍內(nèi)可以接受,因此算法有效。
表1顯示了ShanghaiTech數(shù)據(jù)集的實(shí)驗(yàn)對比結(jié)果。本文選擇的SwitchCNN[9]、MSCNN[10]、CSRNet[12]、MDNet[13]等算法均為人群計(jì)數(shù)領(lǐng)域中比較先進(jìn)的算法。
表1 ShanghaiTech數(shù)據(jù)集上各算法計(jì)數(shù)性能比較
從表1可以看出,與文獻(xiàn)[13]中的算法相比,PartA中RDCAF算法的MAE下降了1.9%,RMSE的性能幾乎相同,而PartB中的MAE和RMSE分別下降了7.5%和5.9%。實(shí)驗(yàn)結(jié)果表明,本文算法優(yōu)于其他算法。
2.3.2 Mall數(shù)據(jù)集
Mall[21]數(shù)據(jù)集是一個具有固定場景的稀疏人群數(shù)據(jù)集,具有密度不同、光照條件可變、透視失真嚴(yán)重等特點(diǎn),共包含2 000幀帶注釋的圖像,有60 000多人被標(biāo)記。選擇前800幀作為訓(xùn)練集,其余1 200幀作為測試集。本文比較了RDCAF算法和幾種先進(jìn)的人群計(jì)數(shù)算法在Mall數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,結(jié)果如表2所示。
圖5顯示了RDCAF算法生成的密度圖與Mall數(shù)據(jù)集上的真實(shí)密度圖的對比效果。
(a) (b) (c)圖5 Mall數(shù)據(jù)集的效果示意圖 (a)原始圖像 (b)真實(shí)密度圖 (c)預(yù)測密度圖Figure 5. The effect diagram of the Mall data set (a)The original image (b)True density map (c)Predictive density map
從圖5和表2中的最后一行數(shù)據(jù)結(jié)果可以看出,該算法在人群稀少、背景變化固定的場景中具有良好的適應(yīng)性和較高的精度。其中,在頭部大小比例均勻的3張圖像中,該算法得到的人數(shù)與實(shí)際人數(shù)接近,分別為35、42和28,誤差率分別為2.7%、2.3%和3.7%。從估計(jì)人數(shù)和誤差率的結(jié)果可以看出,由于人數(shù)基數(shù)少,該算法存在較高的錯誤率。然而,考慮到在稀疏公共場所中算法對人數(shù)的統(tǒng)計(jì)與實(shí)際人數(shù)接近,故認(rèn)為該算法是有效可行的。
表2給出了該算法與4種主流人群計(jì)數(shù)算法的性能比較結(jié)果。這些算法包括Ridge Regression[21]、WeightedVLAD[24]、MCNN[7]、Bi-ConvLSTM[22]。
表2 Mall數(shù)據(jù)集上各算法計(jì)數(shù)性能比較
從表2中的結(jié)果可以看出,與文獻(xiàn)[22]中目前已經(jīng)取得良好人群計(jì)數(shù)效果的算法相比,RDCAF算法在Mall數(shù)據(jù)集上的MAE下降了14.7%,RMSE得到了顯著的提升。實(shí)驗(yàn)結(jié)果表明,該算法取得了比其他算法更好的效果。
2.3.3 UCF-QNRF數(shù)據(jù)集
UCF-QNRF[23]是一個新發(fā)布的密集人群數(shù)據(jù)集,包括1 535張圖像和1 250 000個帶標(biāo)注的人頭信息。該數(shù)據(jù)集具有密度變化大、頭部尺寸小、圖像分辨率可變等特點(diǎn),涉及到許多復(fù)雜場景。選取該數(shù)據(jù)集的1 201幅圖像進(jìn)行訓(xùn)練,并選取其余334幅圖像進(jìn)行測試。RDCAF算法在UCF-QNRF數(shù)據(jù)集上的實(shí)驗(yàn)對比結(jié)果如表3所示。表中的幾種比較算法分別是MCNN[7]、C-MTL[8]、SwitchCNN[9]以及CL-CNN[23]。
表3 UCF-QNRF數(shù)據(jù)集上各算法計(jì)數(shù)性能比較
從表3的結(jié)果可以看出,RDCAF算法的MAE比文獻(xiàn)[23]降低了17.8%,RMSE也得到了改善。實(shí)驗(yàn)結(jié)果表明,該算法在UCF-QNRF數(shù)據(jù)集中的性能優(yōu)于其它算法。
本節(jié)將驗(yàn)證殘差密集連接結(jié)構(gòu)和注意力機(jī)制結(jié)構(gòu)對RDCAF性能的影響。通過設(shè)計(jì)實(shí)驗(yàn)將每個結(jié)構(gòu)依次添加到網(wǎng)絡(luò)中。驗(yàn)證實(shí)驗(yàn)所使用的數(shù)據(jù)集是ShanghaiTech數(shù)據(jù)集的PartB部分,結(jié)果如表4所示。
表4 結(jié)構(gòu)對計(jì)數(shù)性能影響的比較
從表4可以看出,殘差密集連接結(jié)構(gòu)對計(jì)數(shù)的影響最大,注意力機(jī)制相對較小。實(shí)驗(yàn)結(jié)果表明,殘差密集連接結(jié)構(gòu)和注意力機(jī)制結(jié)構(gòu)都能有效提高算法的性能。
以往的人群計(jì)數(shù)算法在解決尺度變化問題時(shí)受到列數(shù)的局限性,導(dǎo)致高層特征圖中缺乏底層細(xì)節(jié)信息,且沒有考慮背景噪聲對最終人數(shù)的影響。針對這一問題,本文提出了一種基于殘差密集連接與注意力融合的人群計(jì)數(shù)算法。本文通過3個公開數(shù)據(jù)集和結(jié)構(gòu)型驗(yàn)證實(shí)驗(yàn),驗(yàn)證了該算法的有效性和優(yōu)越性。由于RDCAF算法提取的特征圖仍然存在許多相似的特征,且算法結(jié)構(gòu)不夠輕量化,下一步將重點(diǎn)研究輕量化算法結(jié)構(gòu)構(gòu)建,并結(jié)合特征相似度損失函數(shù)進(jìn)一步優(yōu)化人群計(jì)數(shù)算法。