韓 晶,王希暢,呂學(xué)強(qiáng)+,張 凱
(1.北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室,北京 100101;2.首都師范大學(xué) 中國(guó)語(yǔ)言智能研究中心,北京 100089)
隨著社會(huì)的不斷發(fā)展,人們對(duì)精神生活的重視程度逐漸加深,商場(chǎng)、音樂(lè)節(jié)等公開(kāi)場(chǎng)所的聚集人數(shù)顯著增加[1]。人數(shù)不可控的增長(zhǎng)會(huì)造成危險(xiǎn)事件的發(fā)生[2]。因此對(duì)聚集人群進(jìn)行人數(shù)的實(shí)時(shí)檢測(cè)是必不可少的。
針對(duì)密集人數(shù)檢測(cè)領(lǐng)域,上??萍即髮W(xué)的Zhang等[3]提出了多列卷積神經(jīng)網(wǎng)絡(luò),通過(guò)使用不同尺寸的感受野,使每列卷積核提取不同尺寸人頭的特征;Li等[4]提出CSRNet網(wǎng)絡(luò),將空洞卷積應(yīng)用至該領(lǐng)域。
然而,基于多尺度的檢測(cè)方法仍存在發(fā)展的空間[5]。由于在多列卷積神經(jīng)網(wǎng)絡(luò)中各個(gè)不同尺度相對(duì)獨(dú)立,不存在兼容性,因此在多尺度特征提取的基礎(chǔ)上進(jìn)行特征融合可以在一定程度上解決多尺度存在的問(wèn)題。同時(shí)采用有針對(duì)性?xún)?yōu)化的損失函數(shù)進(jìn)行訓(xùn)練可以進(jìn)一步提升密集人群計(jì)數(shù)效果。
綜上所述,本文擬在多列卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上設(shè)計(jì)多尺度網(wǎng)絡(luò)SGNet(same receptive field+GWTA loss),該網(wǎng)絡(luò)的主要工作可以分為以下幾個(gè)方面:
(1)提出一種圍繞相同感受野展開(kāi)的多尺度特征融合方式SRF(same receptive field)以解決多列卷積神經(jīng)網(wǎng)絡(luò)目前存在的問(wèn)題;
(2)設(shè)計(jì)一種融入網(wǎng)格贏(yíng)家通吃(grid winner-take-all,GWTA)思想的損失函數(shù),解決目前損失函數(shù)存在的缺陷,利用該思想的優(yōu)勢(shì)彌補(bǔ)原損失函數(shù)的不足;
(3)對(duì)UCF-QNRF等多個(gè)密集人群數(shù)據(jù)集進(jìn)行訓(xùn)練,通過(guò)對(duì)比分析驗(yàn)證該方法的有效性,觀(guān)察不同方法對(duì)同一數(shù)據(jù)集的測(cè)試結(jié)果并進(jìn)行分析理解,以此驗(yàn)證該方法的魯棒性及可移植性。
密集人群圖像中的人頭尺度差距較大,距離攝像頭越近人頭尺度越大,反之越小。采用單一尺度的深度神經(jīng)網(wǎng)絡(luò)很難獲得較為準(zhǔn)確的計(jì)數(shù)結(jié)果,因此為了更好地學(xué)習(xí)到不同尺度的語(yǔ)義特征,本文將多列卷積神經(jīng)網(wǎng)絡(luò)(multi-column CNN,MCNN)作為所提算法SGNet的主體框架,其核心思想為利用多列不同大小的卷積核對(duì)人群圖像進(jìn)行特征提取,實(shí)現(xiàn)了從多尺度的角度針對(duì)不同大小的人頭進(jìn)行全面人群計(jì)數(shù)分析。
但隨著卷積層的逐漸加深、特征圖的逐漸變化,上層的圖像特征可能會(huì)出現(xiàn)部分丟失的情況,在一定程度上影響網(wǎng)絡(luò)的訓(xùn)練及人群計(jì)數(shù)的精度,且3列不同尺度的特征提取層之間缺少關(guān)聯(lián)性。原網(wǎng)絡(luò)將圖像輸入至不同列進(jìn)行特征提取后,僅在最后一層將其進(jìn)行組合,卷積核運(yùn)算過(guò)程中缺少互融性,因此各個(gè)尺度獨(dú)立地對(duì)圖像進(jìn)行特征提取仍存在可提升的空間。
同時(shí)原多列卷積神經(jīng)網(wǎng)絡(luò)的損失函數(shù)著重針對(duì)整體預(yù)測(cè)圖與標(biāo)簽圖進(jìn)行損失計(jì)算,計(jì)算范圍為圖像全部區(qū)域。但由于是對(duì)整體圖像進(jìn)行計(jì)算及優(yōu)化,優(yōu)化過(guò)程較粗略,無(wú)法精準(zhǔn)地對(duì)訓(xùn)練過(guò)程中損失值較大的特征點(diǎn)進(jìn)行優(yōu)化。因此,對(duì)于原始網(wǎng)絡(luò)的損失函數(shù)仍存在待解決的問(wèn)題及可提升的空間。
針對(duì)上述問(wèn)題本文提出一種多尺度特征融合的密集人群計(jì)數(shù)網(wǎng)絡(luò)SGNet,利用相同感受野的特征融合方法來(lái)加強(qiáng)不同列特征之間的關(guān)聯(lián),同時(shí)引入GWTA思想重構(gòu)損失函數(shù),使其對(duì)圖像進(jìn)行針對(duì)性?xún)?yōu)化,以提升網(wǎng)絡(luò)對(duì)局部特征的認(rèn)知能力。以下將針對(duì)上述兩部分及訓(xùn)練相關(guān)細(xì)節(jié)進(jìn)行詳細(xì)闡述。
為更好地凸顯多尺度特征提取的優(yōu)勢(shì),打破多列卷積神經(jīng)網(wǎng)絡(luò)的桎梏,放大相同感受野的特征;同時(shí)為盡可能減少卷積核操作過(guò)程中特征的丟失,采取圍繞相同感受野SRF展開(kāi)的特征融合方法對(duì)不同尺度提取的特征進(jìn)行互融。SRF是一種在多尺度網(wǎng)絡(luò)中圍繞相同感受野實(shí)現(xiàn)特征融合的方法,其將不同列中相同感受野的卷積核進(jìn)行連接,在多尺度網(wǎng)絡(luò)特征互融的過(guò)程中增加同一性。
圖1為融合SRF的多尺度結(jié)構(gòu)圖,首先將原始人群圖像輸入至3列不同大小的卷積核中進(jìn)行特征運(yùn)算,感受野大小分別為9*9、7*7和5*5,通道數(shù)設(shè)為16、20和24,見(jiàn)表1。利用不同尺度的卷積核對(duì)圖像進(jìn)行卷積操作可以使特征適應(yīng)圖像中不同大小的人頭,有效地分析圖像并對(duì)人群進(jìn)行計(jì)數(shù);其次,每列均包含卷積、池化及SRF特征融合過(guò)程,利用相似的結(jié)構(gòu)使圖像特征具有關(guān)聯(lián)性及全面性。
圖1 融合SRF的多尺度結(jié)構(gòu)
(1)卷積過(guò)程:該網(wǎng)絡(luò)涉及3列不同尺度的卷積操作,每列分別包含兩種不同尺度的卷積核,以此適應(yīng)人頭尺度的變化。從第二列開(kāi)始每列感受野較大的卷積核大小與前一列較小的卷積核大小相同。通過(guò)設(shè)置不同的卷積核參數(shù)使之具有不同的特性,同時(shí)依據(jù)卷積核的變化對(duì)通道數(shù)進(jìn)行設(shè)計(jì)。兩列特征互融后的卷積核通道數(shù)需要依據(jù)輸入特征信息進(jìn)行設(shè)計(jì),達(dá)到特征融合的目的;
(2)池化過(guò)程:網(wǎng)絡(luò)中每列涉及兩次池化操作,以2*2為池化單位進(jìn)行最大池化操作。通過(guò)池化對(duì)圖像特征進(jìn)行降維,使訓(xùn)練過(guò)程中可以抽取的特征范圍更加全面,增大感受野;同時(shí)減少訓(xùn)練參數(shù)量,在一定程度上提升網(wǎng)絡(luò)計(jì)算效率。經(jīng)過(guò)兩次池化操作,圖像在不同列分辨率均降低為原圖像的1/4。3列設(shè)計(jì)相同的池化次數(shù)方便后續(xù)的特征圖拼接,使每列輸出的特征圖具有相似性;
(3)相同感受野SRF特征融合過(guò)程:不同感受野的卷積核映射不同內(nèi)容的特征,以此突出特征多樣性;感受野較大的卷積核可以針對(duì)尺度較大的人頭進(jìn)行有效特征提取,感受野較小的卷積核可以針對(duì)細(xì)節(jié)特征進(jìn)行分析。SRF特征融合的主要思想為將不同列的相同感受野的特征進(jìn)行融合并將其作為下一層卷積核的輸入,以此達(dá)到密集人群圖像中相同感受野的特征互融的目的。將相同大小的特征圖以合并通道的方式相連,使其包含兩類(lèi)經(jīng)過(guò)不同卷積運(yùn)算的特征圖,即將卷積后的高層分辨率特征與低層分辨率特征相結(jié)合,使之同時(shí)具有特征細(xì)節(jié)以及較強(qiáng)的特征信息。
表1 網(wǎng)絡(luò)參數(shù)結(jié)構(gòu)
如圖1所示,在第二列中首先原圖像會(huì)經(jīng)過(guò)卷積核conv2_1進(jìn)行該列較大感受野的特征提取,卷積核大小為7*7;之后對(duì)輸出特征圖進(jìn)行池化操作,使特征圖分辨率降低為原圖像的1/2,增大感受野;再將池化后的特征圖與第一列經(jīng)過(guò)卷積核大小同樣為7*7生成的特征圖進(jìn)行融合。由于兩部分特征圖均經(jīng)過(guò)一次池化過(guò)程且分辨率相同,故利用合并通道的方式進(jìn)行特征融合,將生成的特征圖輸入至第一列的卷積核conv1_3,針對(duì)融合后的特征圖進(jìn)行卷積操作,以此完成第一列與第二列SRF特征融合的過(guò)程。同理,對(duì)第三列經(jīng)過(guò)卷積核conv3_1輸出的特征圖進(jìn)行池化操作,將其與第二列分辨率相同的特征圖進(jìn)行融合,并將融合后的特征圖輸入至卷積核conv2_3,以此完成第二列與第三列SRF特征融合的過(guò)程。
利用相同感受野方法實(shí)現(xiàn)特征融合可以增強(qiáng)網(wǎng)絡(luò)的連貫性與互通性,使其同時(shí)具有該列卷積核提取的特征與其它列生成的特征;再將融合后的特征圖一同輸入至下一卷積核進(jìn)行操作,3列相同的特征融合模塊使列與列之間具有相似性。綜上所述,該網(wǎng)絡(luò)可以打破原網(wǎng)絡(luò)獨(dú)立提取特征的限制,增強(qiáng)列與列的關(guān)聯(lián)性。
為提升基于多尺度特征融合網(wǎng)絡(luò)訓(xùn)練的效果,解決全局損失計(jì)算的紕漏,在損失函數(shù)部分引入網(wǎng)格贏(yíng)家通吃GWTA的思想,圍繞該思想進(jìn)行損失函數(shù)的設(shè)計(jì)可以在一定程度上對(duì)網(wǎng)絡(luò)訓(xùn)練進(jìn)行優(yōu)化。GWTA思想是指有選擇性地關(guān)注設(shè)定指標(biāo)較高值的區(qū)域,有針對(duì)性地優(yōu)化學(xué)習(xí)過(guò)程。打破原有平均計(jì)算方法的限制,在計(jì)算損失函數(shù)時(shí)著重關(guān)注不同區(qū)域的損失值,不同區(qū)域的損失值不同,代表著不同特征的性能。同時(shí)其學(xué)習(xí)訓(xùn)練的效果也不同,通過(guò)計(jì)算指標(biāo)值定位較重要的特征區(qū)域,類(lèi)似于增加注意力機(jī)制的思想。觀(guān)察不同區(qū)域的損失值變化可以得到重要的區(qū)域特征,以此進(jìn)行有針對(duì)性地優(yōu)化。
綜上所述,在學(xué)習(xí)過(guò)程中設(shè)置“贏(yíng)家”神經(jīng)元且僅允許該神經(jīng)元通過(guò)激活單元,可以獲取輸入數(shù)據(jù)中較重要的特征,利于優(yōu)化訓(xùn)練。打破不同特征相同權(quán)重的桎梏,通過(guò)計(jì)算使得每個(gè)特征的重要性得以顯現(xiàn),以此針對(duì)較重要特征進(jìn)行學(xué)習(xí)。
(1)
GWTA_Loss(n)=Max{Loss1,Loss2,Loss3…Lossn}
(2)
在損失函數(shù)中應(yīng)用GWTA思想可以達(dá)到將梯度更新優(yōu)化限制在計(jì)算損失值最大的空間區(qū)域的目的;使其在每次迭代訓(xùn)練中,著重關(guān)注損失值高的區(qū)域,針對(duì)較難訓(xùn)練及差異較大的區(qū)域進(jìn)行優(yōu)化,學(xué)習(xí)更好的特征[7]。
1.3.1 人群密度圖
為清晰地顯示人群信息,模型采用密度圖生成的方式進(jìn)行訓(xùn)練。人群密度圖保留了更多的人群信息。與單一人群數(shù)值相比更具有空間性,可以通過(guò)觀(guān)察密度圖分布了解目前人群聚集情況。同時(shí)基于多列卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取時(shí),不同尺寸的卷積核適應(yīng)不同大小的人頭,利用與原圖像相對(duì)應(yīng)的真實(shí)人群密度圖作為標(biāo)簽圖可以使卷積核提取特征的過(guò)程具有更強(qiáng)的語(yǔ)義意義,從而提升人數(shù)檢測(cè)的準(zhǔn)確性[3]。
由于需要將人群密度圖作為標(biāo)簽原圖輸入至網(wǎng)絡(luò)進(jìn)行訓(xùn)練,故針對(duì)人臉標(biāo)記生成質(zhì)量較高的人群密度圖是提升網(wǎng)絡(luò)性能的基礎(chǔ)。首先需要將人臉標(biāo)記圖像進(jìn)行轉(zhuǎn)換,例如在像素點(diǎn) (xi,yi) 處存在一人像,可以將其表示為映射δ(x-xi,y-yi)。 因此N個(gè)頭部標(biāo)記圖像可表示為函數(shù)H(x)[3,6],如式(3)所示
(3)
為了獲得人頭標(biāo)記的連續(xù)函數(shù),需要將上述函數(shù)H(x)與高斯核進(jìn)行卷積,如式(4)所示
D(x,y)=H(x)*Gσ(x,y)
(4)
D(x,y) 為圖像中每個(gè)人頭的連續(xù)表示,網(wǎng)絡(luò)訓(xùn)練時(shí)需要輸入整體圖像的人群信息,因此需通過(guò)計(jì)算D(x,y) 總和對(duì)原始圖像全部人頭數(shù)量進(jìn)行統(tǒng)計(jì),如式(5)所示
(5)
圖2為密集人群數(shù)據(jù)集中某一幅圖像原圖及其對(duì)應(yīng)的真實(shí)密度圖,可以清晰地看出人群分布等相關(guān)信息并將其作為標(biāo)簽圖輸入至網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
圖2 人群原圖及其對(duì)應(yīng)密度
1.3.2 訓(xùn)練細(xì)節(jié)
實(shí)驗(yàn)訓(xùn)練環(huán)境為L(zhǎng)inux 16.04,顯卡版本信息為T(mén)esla V100,程序環(huán)境配置為Python 3.8,使用Pytorch框架作為訓(xùn)練學(xué)習(xí)的基礎(chǔ)框架。
學(xué)習(xí)率等參數(shù)會(huì)在一定程度上影響訓(xùn)練的效果,學(xué)習(xí)率過(guò)大會(huì)導(dǎo)致訓(xùn)練無(wú)法達(dá)到最優(yōu)值,過(guò)小會(huì)導(dǎo)致訓(xùn)練時(shí)間過(guò)長(zhǎng),因此選用合適的學(xué)習(xí)率可以在一定程度上優(yōu)化訓(xùn)練效果。經(jīng)過(guò)不同學(xué)習(xí)率的測(cè)試,在訓(xùn)練過(guò)程中將學(xué)習(xí)率設(shè)置為0.000 01可以有效地對(duì)比分析實(shí)驗(yàn)。同時(shí)在訓(xùn)練過(guò)程中設(shè)置適當(dāng)?shù)哪P捅4娌襟E,以便在現(xiàn)有模型的基礎(chǔ)上做適當(dāng)?shù)恼{(diào)整并觀(guān)察訓(xùn)練效果。
為客觀(guān)評(píng)價(jià)分析不同方法的效果,需選用合適的評(píng)價(jià)指標(biāo)。針對(duì)不同對(duì)比實(shí)驗(yàn)采用人群計(jì)數(shù)領(lǐng)域的通用指標(biāo)MAE(平均絕對(duì)誤差)與MSE(均方誤差)進(jìn)行測(cè)試[8]。二者分別體現(xiàn)人群計(jì)數(shù)實(shí)驗(yàn)的不同性能,其中MAE呈現(xiàn)人群計(jì)數(shù)實(shí)驗(yàn)的準(zhǔn)確性,MSE呈現(xiàn)預(yù)測(cè)實(shí)驗(yàn)的穩(wěn)健性[6]
(6)
(7)
式中:N表示圖像數(shù)量,zi表示第i張圖像的實(shí)際人數(shù),z′i表示第i張圖像的預(yù)測(cè)人數(shù)。通過(guò)計(jì)算不同圖像的平均絕對(duì)誤差與均方誤差對(duì)比分析不同方法的性能。
為驗(yàn)證SGNet的有效性,分別采用人群計(jì)數(shù)領(lǐng)域常用的密集人群數(shù)據(jù)集UCF_CC_50、UCF-QNRF進(jìn)行測(cè)試,同時(shí)為了驗(yàn)證該模型的魯棒性及可移植性,在人群密度較稀疏的ShanghaiTech_PartB數(shù)據(jù)集上進(jìn)行測(cè)試。3個(gè)數(shù)據(jù)集圖像張數(shù)不同,人群數(shù)量跨度差異較大,可以全面地分析SGNet的性能。各數(shù)據(jù)集的詳細(xì)信息見(jiàn)表2。
表2 各數(shù)據(jù)集信息
利用SGNet圍繞3個(gè)數(shù)據(jù)集進(jìn)行展開(kāi)測(cè)試,對(duì)比分析效果;同時(shí)分別驗(yàn)證SRF特征融合與GWTA Loss的作用,對(duì)二者進(jìn)行消融實(shí)驗(yàn),驗(yàn)證不同模塊的有效性。
2.3.1 UCF-QNRF實(shí)驗(yàn)分析
UCF-QNRF是包含千余張圖像的人數(shù)檢測(cè)數(shù)據(jù)集,在多個(gè)密集人數(shù)檢測(cè)研究中均有應(yīng)用,具有較強(qiáng)的通用性;同時(shí)由于其人數(shù)跨度較大,增加了人數(shù)估計(jì)的難度。因此利用該數(shù)據(jù)集進(jìn)行性能的檢測(cè)具有較強(qiáng)的研究意義。
為驗(yàn)證SGNet的有效性,將其與現(xiàn)有的密集人數(shù)統(tǒng)計(jì)模型進(jìn)行對(duì)比。MCNN網(wǎng)絡(luò)[3]是基于任意角度變換提出的多列卷積神經(jīng)網(wǎng)絡(luò),其利用不同感受野的卷積核提取不同大小的人頭特征,屬于密集人群計(jì)數(shù)領(lǐng)域內(nèi)的經(jīng)典算法;CMTL網(wǎng)絡(luò)[9]是基于視角畸變和尺度變化提出的高級(jí)先驗(yàn)網(wǎng)絡(luò),將全局特征與局部特征結(jié)合進(jìn)行人群密度估計(jì)研究,其大致分為兩部分:高級(jí)先驗(yàn)和密度圖估計(jì),從不同的角度進(jìn)行人頭特征的提??;Switch-CNN網(wǎng)絡(luò)[10]根據(jù)圖像不同部分的特征信息選擇合適的卷積神經(jīng)網(wǎng)絡(luò)分支,利用不同特征具有差異性的特點(diǎn)進(jìn)行網(wǎng)絡(luò)的設(shè)計(jì)。表3為SGNet與多列卷積神經(jīng)網(wǎng)絡(luò)及其衍生網(wǎng)絡(luò)的對(duì)比。
從對(duì)比表中可以觀(guān)察到SGNet與多列卷積神經(jīng)網(wǎng)絡(luò)MCNN相比,評(píng)價(jià)指標(biāo)MAE降低了近70個(gè)指標(biāo)值,MSE降低了近55個(gè)指標(biāo)值,測(cè)試效果有明顯的優(yōu)化。在一定程度上解決了原有網(wǎng)絡(luò)的缺陷,通過(guò)增加不同列SRF特征融合模塊及對(duì)損失函數(shù)的優(yōu)化達(dá)到提升效果的目的。
表3 不同模型在UCF-QNRF數(shù)據(jù)集上的對(duì)比
Switch-CNN是針對(duì)不同回歸器進(jìn)行設(shè)計(jì)的衍生網(wǎng)絡(luò),同樣以多列卷積神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)進(jìn)行優(yōu)化。經(jīng)過(guò)實(shí)驗(yàn)測(cè)試可知,SGNet與Switch-CNN相比,MAE降低了近16個(gè)指標(biāo)值,MSE降低了近74個(gè)指標(biāo)值,提升了檢測(cè)效果。實(shí)驗(yàn)結(jié)果表明,當(dāng)人數(shù)檢測(cè)對(duì)象為密集人群時(shí),對(duì)多列卷積核進(jìn)行SRF特征融合等改進(jìn)比Switch-CNN提升不同回歸器的效果更佳,可以明顯地觀(guān)察到測(cè)試效果的優(yōu)化,驗(yàn)證了SGNet的有效性。
2.3.2 UCF_CC_50實(shí)驗(yàn)分析
UCF_CC_50是人數(shù)檢測(cè)領(lǐng)域內(nèi)常用的數(shù)據(jù)集,其包含了50張不同分辨率的圖像。由于數(shù)據(jù)量較小,增加了人群計(jì)數(shù)的難度。因此,利用交叉驗(yàn)證的方法[3]對(duì)該數(shù)據(jù)集進(jìn)行訓(xùn)練測(cè)試。利用相同的基線(xiàn)方法進(jìn)行對(duì)比,嘗試驗(yàn)證該模型的有效性。表4為UCF_CC_50數(shù)據(jù)集的方法對(duì)比結(jié)果。
表4 不同模型在UCF_CC_50數(shù)據(jù)集上的對(duì)比
經(jīng)過(guò)實(shí)驗(yàn)對(duì)比可知,SGNet的設(shè)計(jì)可以將MCNN的MAE降低近115個(gè)指標(biāo)值,MSE降低近176個(gè)指標(biāo)值,優(yōu)化效果較顯著,證實(shí)了該設(shè)計(jì)對(duì)于密集人群檢測(cè)的有效性;交叉驗(yàn)證解決了UCF_CC_50數(shù)據(jù)量較小的問(wèn)題,成功地對(duì)該數(shù)據(jù)集進(jìn)行訓(xùn)練及測(cè)試,有效驗(yàn)證了SGNet對(duì)于數(shù)量較小的數(shù)據(jù)集同樣有著良好的效果。
2.3.3 ShanghaiTech_PartB實(shí)驗(yàn)分析
UCF-QNRF、UCF_CC_50均為人群較密集的數(shù)據(jù)集且人數(shù)跨度較大,均具有人群密度較高的特性。針對(duì)二者進(jìn)行不同方法的對(duì)比分析實(shí)驗(yàn),可以有效地驗(yàn)證SGNet對(duì)密集人群檢測(cè)的有效性。
為了驗(yàn)證SGNet的魯棒性及可移植性,檢驗(yàn)該方法面向較稀疏人群的檢測(cè)效果,通過(guò)利用SGNet對(duì)ShanghaiTech_PartB數(shù)據(jù)集進(jìn)行訓(xùn)練測(cè)試,觀(guān)察該方法是否應(yīng)用至較稀疏人群數(shù)據(jù)集同樣具有良好的檢測(cè)效果。為更好地檢測(cè)該模型對(duì)于較稀疏人群的有效性,在原有對(duì)比實(shí)驗(yàn)的基礎(chǔ)上增加文獻(xiàn)[6]與文獻(xiàn)[11]對(duì)于該數(shù)據(jù)集的效果對(duì)比。文獻(xiàn)[6]提出了基于多尺度多列卷積神經(jīng)網(wǎng)絡(luò)的人數(shù)估計(jì)算法,針對(duì)人群計(jì)數(shù)領(lǐng)域出現(xiàn)的問(wèn)題進(jìn)行解決;文獻(xiàn)[11]提出了利用混合卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行人群計(jì)數(shù)的思想,其基于多列卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化。對(duì)比結(jié)果見(jiàn)表5。
表5 不同模型在ShanghaiTech_PartB數(shù)據(jù)集上的對(duì)比
實(shí)驗(yàn)結(jié)果表明,SGNet與多列卷積神經(jīng)網(wǎng)絡(luò)MCNN相比,MAE降低了近8個(gè)指標(biāo)值,MSE降低了近11個(gè)指標(biāo)值,上述實(shí)驗(yàn)數(shù)據(jù)充分地體現(xiàn)了該模型對(duì)于ShanghaiTech_PartB數(shù)據(jù)集的有效性。證實(shí)了其不僅適用于密集人群人數(shù)估計(jì)研究,面向稀疏人群同樣體現(xiàn)了良好的檢測(cè)效果,具有較強(qiáng)的魯棒性及可移植性。
從表中可知,SRF特征融合+GWTA Loss具有較好的提升網(wǎng)絡(luò)能力的效果,其打破原有方法的限制,解決了人數(shù)檢測(cè)領(lǐng)域內(nèi)的問(wèn)題。
2.3.4 消融實(shí)驗(yàn)分析
經(jīng)過(guò)對(duì)3個(gè)不同數(shù)據(jù)集的訓(xùn)練測(cè)試后可以看出,SGNet的設(shè)計(jì)能夠有效地提升人數(shù)檢測(cè)效果,在一定程度上進(jìn)行優(yōu)化。不僅對(duì)密集人群有較好的效果提升,將其應(yīng)用至稀疏人群時(shí)同樣證實(shí)了該網(wǎng)絡(luò)的魯棒性。
由于SGNet是由SRF特征融合與GWTA Loss兩個(gè)模塊組成,二者協(xié)同優(yōu)化網(wǎng)絡(luò),能夠使其達(dá)到較好的效果。為更清晰地了解不同模塊的作用及在優(yōu)化過(guò)程中區(qū)分二者的優(yōu)化程度、分析每個(gè)模塊的重要性,通過(guò)對(duì)不同模塊進(jìn)行消融實(shí)驗(yàn),可以達(dá)到對(duì)比分析實(shí)驗(yàn)結(jié)果、觀(guān)察每個(gè)模塊的重要性及優(yōu)化程度的目的。圖3為SGNet基于數(shù)據(jù)集ShanghaiTech_PartB進(jìn)行的消融實(shí)驗(yàn)效果對(duì)比。
圖3 基于ShanghaiTech_PartB的消融實(shí)驗(yàn)
圖3為SGNet對(duì)ShanghaiTech_PartB數(shù)據(jù)集實(shí)現(xiàn)的消融實(shí)驗(yàn)效果對(duì)比。通過(guò)對(duì)SGNet的不同模塊進(jìn)行控制變量,觀(guān)察SRF特征融合與GWTA Loss模塊的重要性。
從圖表中可知,SGNet較MCNN相比,MAE降低了近8個(gè)指標(biāo)值。當(dāng)缺少GWTA Loss模塊時(shí),MAE較原網(wǎng)絡(luò)相比降低了近6個(gè)指標(biāo)值,雖然有較小幅度的效果提升,但相較于SGNet效果略差,可以體現(xiàn)出GWTA Loss模塊的重要性,說(shuō)明GWTA Loss的設(shè)計(jì)在優(yōu)化過(guò)程中起了不可缺少的作用;當(dāng)缺少SRF特征融合模塊時(shí),網(wǎng)絡(luò)為無(wú)特征融合網(wǎng)絡(luò)+GWTA Loss的組合,MAE較MCNN相比降低了7個(gè)指標(biāo)值。雖然證實(shí)了GWTA Loss模塊在訓(xùn)練過(guò)程中優(yōu)化程度大于SRF特征融合模塊,但當(dāng)二者相互作用時(shí)效果會(huì)強(qiáng)于模塊單獨(dú)訓(xùn)練的效果。因此,任一模塊均對(duì)訓(xùn)練過(guò)程起到了優(yōu)化的作用。
通過(guò)上述消融實(shí)驗(yàn)驗(yàn)證了SGNet不同模塊的重要性,顯示了其在訓(xùn)練過(guò)程中不同的優(yōu)化程度。
多列卷積神經(jīng)網(wǎng)絡(luò)MCNN基于不同尺度對(duì)密集人群圖像進(jìn)行人數(shù)估計(jì)研究,但其仍存在兩個(gè)缺陷:①忽略了不同列特征之間的關(guān)系,在訓(xùn)練時(shí)缺少相互聯(lián)結(jié)的過(guò)程;②原網(wǎng)絡(luò)的損失函數(shù)未對(duì)區(qū)域進(jìn)行有針對(duì)性的優(yōu)化,無(wú)法在計(jì)算損失函數(shù)時(shí)突出重點(diǎn)優(yōu)化區(qū)域[12]。
針對(duì)上述兩種問(wèn)題提出了基于多列卷積神經(jīng)網(wǎng)絡(luò)的SGNet。首先利用相同感受野SRF特征融合模塊將不同列的特征進(jìn)行融合,使第二列與第一列、第三列與第二列的特征相互聯(lián)結(jié)后一并輸入至卷積核進(jìn)行特征提取。以此解決特征互不相融的問(wèn)題,避免出現(xiàn)特征消失等現(xiàn)象。同時(shí)通過(guò)增加GWTA Loss模塊達(dá)到優(yōu)先優(yōu)化損失值較大、訓(xùn)練較重點(diǎn)的區(qū)域,打破全局無(wú)重點(diǎn)優(yōu)化的桎梏,著重針對(duì)損失值較大的區(qū)域進(jìn)行有效訓(xùn)練,達(dá)到提升效果的目的。
經(jīng)實(shí)驗(yàn)驗(yàn)證,SGNet可以有效地提升面向密集人群的人數(shù)估計(jì)效果,同時(shí)其具有較強(qiáng)的魯棒性及可移植性,當(dāng)面向稀疏人群時(shí)會(huì)在一定程度上優(yōu)化網(wǎng)絡(luò)。通過(guò)利用不同模塊進(jìn)行消融實(shí)驗(yàn)證實(shí)了模塊的重要性。
在提升網(wǎng)絡(luò)效果的過(guò)程中發(fā)現(xiàn)改變卷積核感受野會(huì)對(duì)網(wǎng)絡(luò)訓(xùn)練產(chǎn)生影響。因此,在未來(lái)的實(shí)驗(yàn)中可以嘗試增加空洞卷積等操作[13,14]研究改變感受野對(duì)訓(xùn)練的影響。