徐 濤 段儀濃 杜佳浩 劉才華
(中國民航大學計算機科學與技術(shù)學院 天津 300300)
(中國民航大學中國民航信息技術(shù)科研基地 天津 300300)
人群計數(shù)旨在計算圖像或視頻場景中所包含的人數(shù),是計算機視覺和智能監(jiān)控領(lǐng)域的重要研究內(nèi)容。隨著城市人口的急劇增長,廣場、火車站、機場航站樓等公共場所時常出現(xiàn)人群高度聚集的現(xiàn)象,存在著巨大的安全隱患。因此,準確預測場景中的人數(shù)可以有效地進行人流管控[1]和安防部署,對于社會公共安全具有重要的意義。此外,人群計數(shù)方法也可應用于細胞計數(shù)[2]、車輛計數(shù)[3]和動物遷徙觀察[4]等領(lǐng)域,具有廣泛的應用價值。由于人群規(guī)模和尺度在不同場景中存在著巨大的變化,因此人群計數(shù)仍是一項極具挑戰(zhàn)性的研究。
早期人群計數(shù)研究方法大致可分為基于檢測和基于回歸兩類?;跈z測的方法采用目標檢測器[5,6]對圖像中的行人進行逐一檢測,統(tǒng)計檢測結(jié)果以獲取最終人數(shù)。這類方法在稀疏的人群場景下效果良好,但是在包含遮擋現(xiàn)象的擁擠場景中難以發(fā)揮作用?;诨貧w的方法則通過學習圖像特征與相應人數(shù)之間的映射關(guān)系來實現(xiàn)。此類方法首先提取圖像的低級特征(例如前景特征、邊緣特征和紋理特征等),之后利用不同的回歸分析技術(shù)來建模特征到人數(shù)的映射關(guān)系?;诨貧w的方法避免直接通過目標檢測進行計數(shù),相對緩解了遮擋現(xiàn)象造成的影響。但是,這類方法的性能在很大程度上受限于低級特征提取的效果,難以在高度擁擠的人群場景較好地發(fā)揮作用,因此存在著一定的缺陷。
近年來,隨著深度學習的發(fā)展,基于卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network, CNN)的方法被廣泛應用于人群計數(shù)研究。區(qū)別于直接預測人數(shù),此類方法大多通過卷積神經(jīng)網(wǎng)絡預測一種人群密度圖像,該圖像的像素值反映原圖中此位置的人群密度,對密度圖像進行像素值累加即可獲得原圖對應的人數(shù)。Zhang等人[7]提出一種跨場景計數(shù)模型,由兩個相關(guān)的學習目標(人群密度和人群數(shù)量)交替訓練,并使用相似于目標場景的樣本進行模型微調(diào)。該模型在訓練和測試時還需用到一種人工制作的透視圖像,因此在實際場景中可用性不高。為了解決多尺度問題,Zhang等人[8]提出多列卷積神經(jīng)網(wǎng)絡(Multi-column Convolutional Neural Network, MCNN)模型,構(gòu)建具有不同卷積核大小的3分支網(wǎng)絡以并行提取多尺度特征。但是,該模型僅能在幾種特定尺度的場景下發(fā)揮作用,且各分支易學到相同模式的特征,造成參數(shù)冗余。受MCNN啟發(fā),Sam等人[9]提出Switch-CNN,利用所設計的分類網(wǎng)絡將人群圖像按照不同的密度分類,并根據(jù)密度等級為圖像選擇特定的回歸網(wǎng)絡。然而,該模型的表現(xiàn)很大程度上受限于分類網(wǎng)絡的性能。Shen等人[10]提出對抗跨尺度一致性追求網(wǎng)絡(Adversarial Cross-Scale Consistency Pursuit,ACSCP),通過損失函數(shù)來約束局部圖像塊計數(shù)之和與整體圖像計數(shù)相等,以此來模型增強跨尺度的一致性。此外,研究人員也嘗試利用不同類型的卷積來提升模型性能。Li等人[11]提出擁擠場景識別網(wǎng)絡(Congested Scene Recognition Network, CSRNet),利用擴張卷積在避免過度下采樣的前提下增加網(wǎng)絡的感知范圍,從而更好地聚合多尺度信息。Cao等人[12]提出尺度聚合網(wǎng)絡(Scale Aggregation Network, SANet),利用反卷積來恢復下采樣后圖像的分辨率,從而生成高質(zhì)量的密度圖像。
目前,基于CNN的方法主要存在兩個問題:(1)圖像中的人群尺度呈現(xiàn)出區(qū)域性相似的特點,而人群計數(shù)研究普遍使用的是像素級歐幾里得損失,其假設圖像像素相互獨立,難以捕捉人群尺度的局部相關(guān)性,因此影響了模型計數(shù)的準確性。(2)人群尺度在圖像內(nèi)與圖像間都存在巨大的變化,而目前多數(shù)方法對于這種連續(xù)變化的多尺度信息處理能力有限,難以覆蓋各種不同的尺度,因此所提取的特征無法準確描述人群信息,導致模型性能不佳。
針對以上問題,本文提出一種基于多尺度增強網(wǎng)絡的人群計數(shù)模型(Multi-Scale Enhanced Network, MSEN)。首先,基于生成對抗網(wǎng)絡(Generative Adversarial Networks, GAN)的思想設計了嵌入式GAN模塊,其中生成網(wǎng)絡由視覺幾何組(Visual Geometry Group-16, VGG-16)[13]模型部分結(jié)構(gòu)與多分支擴張卷積結(jié)構(gòu)組合而成;引入塊對抗生成網(wǎng)絡(Patch-Generative Adversarial Networks, PatchGAN)[14]作為判別網(wǎng)絡,利用其區(qū)域性判別機制引導生成網(wǎng)絡,提升其所產(chǎn)生圖像的局部相關(guān)性。其次,基于金字塔池化結(jié)構(gòu)[15]設計了尺度增強模塊,將該模塊作用在嵌入式GAN模塊所生成的圖像上,進一步從不同區(qū)域提取不同尺度的局部特征,并生成最終的人群密度分布圖像。所設計的GAN模塊嵌入在整體模型中,其中的判別網(wǎng)絡僅監(jiān)督中間結(jié)果的生成模型,不參與最終人群密度分布圖像的生成過程。在3個廣泛使用的人群計數(shù)數(shù)據(jù)集上進行了實驗,結(jié)果表明所述模型的性能優(yōu)于其他對比方法。
本文提出了基于多尺度增強網(wǎng)絡的人群計數(shù)模型(MSEN),該模型可視為一種嵌入式的GAN結(jié)構(gòu),其中嵌入式GAN模塊學習人群特征并優(yōu)化圖像的局部相關(guān)性,尺度增強模塊進一步提取局部多尺度特征并生成最終的人群密度圖像。MSEN模型結(jié)構(gòu)如圖1所示,其包含3個部分:生成網(wǎng)絡、判別網(wǎng)絡以及尺度增強模塊。生成網(wǎng)絡與判別網(wǎng)絡嵌入在整體模型中,構(gòu)成嵌入式GAN模塊。其中,生成網(wǎng)絡由VGG-16模型部分結(jié)構(gòu)與多分支擴張卷積結(jié)構(gòu)組合而成學習人群不同尺度下的特征,判別網(wǎng)絡僅監(jiān)督中間結(jié)果的生成。此外,模型采用了跳躍連接設置,以保留輸入圖像的結(jié)構(gòu)和上下文信息。
圖1 MSEN模型結(jié)構(gòu)示意圖
受文獻[11]啟發(fā),本文基于VGG-16模型構(gòu)建生成網(wǎng)絡的前端,該模型具有強大的特征提取能力與遷移學習能力,有利于復雜人群特征的提取。由于原VGG-16模型包含13個卷積層和5個池化層,因此其網(wǎng)絡深層的特征圖尺寸非常小,不利于小尺度目標的建模。為了避免過度采樣造成的小尺度目標信息丟失問題,本文首先刪除了原VGG-16模型的全連接層,之后利用其前10個卷積層和3個池化層來構(gòu)建生成網(wǎng)絡前端。為了聚合更豐富的多尺度信息,本文設計了多分支結(jié)構(gòu)以構(gòu)建生成網(wǎng)絡的后端。多分支結(jié)構(gòu)基于擴張卷積所設計,可在不增加參數(shù)量的前提下擴大網(wǎng)絡的感知范圍,有利于應對圖像間人群規(guī)模和尺度的變化。后端網(wǎng)絡由3個分支組成,每個分支包含具有不同擴張因子的擴張卷積,擴張因子依次為1, 2, 4。擴張因子為1的分支用于捕獲小尺度目標的特征,其余分支則擴大感知范圍以捕獲大尺度目標的特征。如第1節(jié)所述,彼此獨立的分支難以學習到不同模式的特征,易導致參數(shù)冗余。因此,本文將各分支網(wǎng)絡的特征圖在每層進行拼接,并使用1×1卷積進行跨通道特征聚合,加強各分支間的信息交互,從而充分利用各分支提取特征的互補性,使輸出的特征圖更具表達能力和尺度多樣性。生成網(wǎng)絡的具體結(jié)構(gòu)如圖2所示,圖2中方框內(nèi)的參數(shù)表示為“卷積層-卷積核大小-通道數(shù)量-擴張因子”。
區(qū)域性判別網(wǎng)絡最早應用于圖像轉(zhuǎn)換任務,受其啟發(fā),本文采用PatchGAN[14]來構(gòu)建嵌入式GAN模塊中的判別網(wǎng)絡,其具體結(jié)構(gòu)表示如下:
C(4, 64, 2)-C(4, 128, 2)-C(4, 256, 2)-C(4, 512, 1)-C(4, 1, 1),其中C表示卷積層,括號內(nèi)的參數(shù)依次為卷積核大小、通道數(shù)量以及卷積步長。除最后一層外,每個卷積層之后添加了批量標準化層(Batch Normalization, BN)與LeakyReLU激活函數(shù)。區(qū)別于常規(guī)判別網(wǎng)絡,本文所采用的網(wǎng)絡為全卷積網(wǎng)絡,其輸出為一個N×N矩陣,而非標量值。矩陣中的每一個元素映射于原圖的一個局部圖像塊,反映該圖像塊的真實性。針對此矩陣計算誤差,可使網(wǎng)絡更加關(guān)注于圖像的局部區(qū)域,有利于引導生成網(wǎng)絡得到局部相關(guān)性更高的人群密度圖像。
圖2 生成網(wǎng)絡結(jié)構(gòu)示意圖
上文所述的嵌入式GAN模塊學習人群特征并優(yōu)化了密度圖像的局部相關(guān)性。在此基礎(chǔ)上,本文設計了尺度增強模塊,以進一步從不同區(qū)域提取不同尺度的局部特征,從而增強模型的泛化能力。
尺度增強模塊由兩個具有相同結(jié)構(gòu)的子模塊串聯(lián)構(gòu)成,子模塊則基于金字塔池化結(jié)構(gòu)所設計。如圖3所示,對于上一層網(wǎng)絡的輸入,子模塊首先通過兩個大小為3×3的前端卷積層進行特征提取,之后將前端卷積層的輸出按4個級別進行平均池化。由于人群圖像中的場景為包含眾多目標的復雜場景,且人群規(guī)模和尺度呈現(xiàn)連續(xù)變化的特點,而傳統(tǒng)金字塔池化結(jié)構(gòu)中的全局平均池化不足以反映不同目標各自的尺度特征,因此本文將4個級別的池化尺寸依次設置為2×2, 3×3, 6×6, 8×8。上述操作將特征圖按比例劃分為多個大小不同的子區(qū)域,并對每個子區(qū)域進行平均池化,由此來反映每個子區(qū)域的局部特征。之后,將各自比例的池化結(jié)果通過大小為1×1的卷積層進行降維,并使用雙線性插值操作上采樣到原始特征圖的尺寸,隨后與原始特征圖拼接。最后,本文使用一個大小為3×3的后端卷積層對拼接后的特征圖進行跨通道聚合,從而產(chǎn)生子模塊的最終輸出。
圖3 尺度增強子模塊結(jié)構(gòu)示意圖
本文將原始圖像經(jīng)跳躍連接后輸入第1個子模塊,將第1個子模塊的輸出與嵌入式GAN模塊的輸出拼接后輸入第2個子模塊。通過上述操作,尺度增強模塊可進一步從不同區(qū)域提取不同尺度的局部特征,以應對圖像內(nèi)人群尺度連續(xù)變化的特點,實現(xiàn)整體模型泛化能力的增強。
人群計數(shù)研究普遍使用的歐幾里得損失假設像素相互獨立,忽略了圖像的局部相關(guān)性。因此本文使用3項損失函數(shù)聯(lián)合優(yōu)化所述模型,分別為L1損失、對抗性損失與歐幾里得損失。L1損失與對抗性損失約束嵌入式GAN模塊產(chǎn)生的初步預測圖像并優(yōu)化其局部相關(guān)性,得出歐幾里得損失約束模型的最終預測圖像。L1損失定義如式(1)
其中,n為訓練樣本的數(shù)量,xi為輸入圖像,yi為對應的標簽圖像,G為生成網(wǎng)絡,G(xi)為生成網(wǎng)絡根據(jù)輸入圖像產(chǎn)生的模型中間預測結(jié)果。對抗性損失定義如式(2)
其中,x為輸入圖像,y為對應的標簽圖像,G為生成網(wǎng)絡,D為判別網(wǎng)絡,G(x)為生成網(wǎng)絡根據(jù)輸入圖像產(chǎn)生的模型中間預測結(jié)果。歐幾里得損失定義如式(3)
其中,n為訓練樣本的數(shù)量,mi為模型最終預測的密度圖像,yi為對應的標簽圖像。3項損失函數(shù)經(jīng)加權(quán)組合形成模型最終的目標函數(shù),定義如式(4)
其中,α與β為平衡3項損失的權(quán)重,二者的取值依據(jù)將于后續(xù)對比實驗部分說明。
由于本文設計的多尺度增強網(wǎng)絡為一種嵌入式的GAN結(jié)構(gòu),因此整體模型無法遵循傳統(tǒng)GAN模型的訓練步驟。受文獻[14]啟發(fā),本文采用一種新的交替訓練步驟來優(yōu)化所述模型,在該訓練步驟中,生成網(wǎng)絡將進行兩次參數(shù)更新,具體步驟如下:
步驟 1 加載訓練數(shù)據(jù)集,進行數(shù)據(jù)預處理;
步驟 2 初始化模型訓練參數(shù),輸入訓練數(shù)據(jù);
步驟 3 提升式(2)的梯度,以更新判別網(wǎng)絡的參數(shù);
步驟 4 降低式(1)與式(2)之和的梯度,以更新生成網(wǎng)絡的參數(shù);
步驟 5 降低式(3)的梯度,以分別更新生成網(wǎng)絡與尺度增強模塊的參數(shù);
步驟 6 重復步驟3~5,直至訓練結(jié)束。
為了驗證所述模型的有效性,本文采用人群計數(shù)研究常用的3個數(shù)據(jù)集進行實驗,分別為ShanghaiTech[8], UCF_CC_50[16], UCF-QNRF[17]。ShanghaiTech數(shù)據(jù)集包含1198張人群圖像,其中共標注了330165個目標行人。該數(shù)據(jù)集分為Part_A和Part_B兩個部分。Part_A部分共包含482張搜集于互聯(lián)網(wǎng)的人群圖像,具體分為300張訓練圖像和182張測試圖像。Part_B部分共包含716張拍攝于上海某步行街的人群圖像,具體分為400張訓練圖像和316張測試圖像,相對而言,Part_B部分圖像場景中的人群較為稀疏。UCF_CC_50數(shù)據(jù)集共包含50張搜集于互聯(lián)網(wǎng)的人群圖像,其中共標注了63075個目標行人。其中圖像包含人數(shù)平均為1280人,單張圖像包含人數(shù)94~4543不等。該數(shù)據(jù)集所含數(shù)據(jù)量較少,因此本文遵循文獻[15]所提出的5折交叉驗證方法來進行實驗。UCF-QNRF數(shù)據(jù)集共包含1535張人群圖像,其中共標注了1.25×106個目標行人。該數(shù)據(jù)集具體分為1201張訓練圖像和334張測試圖像,單幅圖像包含人數(shù)49~12865不等。上述3個數(shù)據(jù)集的基本信息如表1所示。
本文采用人群計數(shù)研究普遍使用的兩個評價指標來評估模型的性能,分別為平均絕對誤差(Mean Absolute Error, MAE)和均方誤差(Mean Square Error, MSE)。MAE反映模型預測準確性,MSE反映模型預測魯棒性,二者數(shù)值越低,表明模型性能越好。
本文所采用的實驗環(huán)境為:Intel Xeon(R)Sliver 4110 2.10 GHz CPU, Quadro P5000 GP(16G顯存)。使用的操作系統(tǒng)為Ubuntu 16.04,采用的深度學習框架為Pytorch框架。本文采用在ImageNet數(shù)據(jù)集上預訓練的VGG-16模型參數(shù)來初始化生成網(wǎng)絡的前端,其余各網(wǎng)絡的參數(shù)使用均值為0,標準差為0.01的高斯分布隨機初始化。模型通過Adam算法進行優(yōu)化,學習率固定為0.0000001,總迭代次數(shù)為30000次。
對于ShanghaiTech Part_A, UCF_CC_50和UCF-QNRF數(shù)據(jù)集,本文采用幾何自適應高斯核為其制作標簽密度圖像;而對于ShanghaiTech Part_B數(shù)據(jù)集,因其圖像中的人群較為稀疏,本文采用固定高斯核為其制作標簽密度圖像。此外,對于ShanghaiTech與UCF_CC_50數(shù)據(jù)集,本文以原始圖像尺寸進行訓練,設置批處理大小為1,并通過隨機水平翻轉(zhuǎn)來進行數(shù)據(jù)增強。由于UCFQNRF數(shù)據(jù)集中均為高分辨率圖像(例如9000×6000),本文遵循文獻[18]提出的訓練方法,將原始圖像裁剪為16張不重疊的且尺寸為224×224的子圖像,并設置批處理大小為16進行訓練。
表1 數(shù)據(jù)集基本信息對比
ShanghaiTech數(shù)據(jù)集的實驗結(jié)果如表2所示,本文將所述模型與7種近年人群計數(shù)研究的主流方法進行了比較。對于Part_A部分,所述模型獲得了最低的MAE值,相比方法TEDnet降低了1.1%,所述模型的MSE值也接近于該指標表現(xiàn)最好的方法ACSCP。對于Part_B部分,所述模型分別獲得了最低的MAE值與MSE值,其中MAE指標與方法TEDnet持平,MSE指標相比TEDnet降低了3.9%。在ShanghaiTech數(shù)據(jù)集兩個部分的實驗結(jié)果表明,所述模型在擁擠和稀疏的人群場景中均可表現(xiàn)出良好的性能。
UCF_CC_50數(shù)據(jù)集的實驗結(jié)果如表3所示,本文同樣將所述模型與7種近年來人群計數(shù)研究的主流方法進行了比較。所述模型在MAE指標與MSE指標上均獲得了最低值,其中MAE指標相比方法TEDnet降低了9.1%,MSE指標降低了12.4%。該數(shù)據(jù)集所含樣本數(shù)量較小,僅為50張圖像。實驗結(jié)果表明,所述模型對于小樣本數(shù)據(jù)也可表現(xiàn)出良好的適應性。
表2 ShanghaiTech數(shù)據(jù)集實驗結(jié)果
表3 UCF_CC_50數(shù)據(jù)集實驗結(jié)果
UCF-QNRF數(shù)據(jù)集是2018年公布的最新數(shù)據(jù)集之一,目前使用該數(shù)據(jù)集進行評估的方法相對較少,本文將所述模型與4種主流方法進行了比較,結(jié)果如表4所示。所述模型獲得了具有競爭力的MAE值,同時獲得了最低的MSE值。相比方法TEDnet,所述模型的MAE指標降低了15.2%,MSE指標也與之接近。該數(shù)據(jù)集具有樣本數(shù)量多,場景復雜等特點,在此情況下所述模型的預測準確性有待提高。同時,所述模型的預測魯棒性較好,表明其具有良好的泛化能力。
為了進一步驗證所述模型各部分結(jié)構(gòu)的有效性,本文基于ShanghaiTech Part_A數(shù)據(jù)集設計了模型結(jié)構(gòu)對比實驗,具體關(guān)注模型結(jié)構(gòu)的3個因素:是否采用嵌入式GAN結(jié)構(gòu)、尺度增強子模塊的數(shù)量、是否采用跳躍連接設置。為了平衡模型性能與資源開銷,將尺度增強子模塊的最大數(shù)量限制為2。具體而言,本文基于排列組合原理構(gòu)造了10種不同結(jié)構(gòu)的模型,并將各模型的具體描述與對應結(jié)果展示于表5,其中尺度增強子模塊記作E,跳躍連接記作S:
表4 UCF-QNRF數(shù)據(jù)集實驗結(jié)果
表5 不同結(jié)構(gòu)的模型及其對應的實驗結(jié)果
(1) 僅包含生成網(wǎng)絡,記作G。
(2) 在模型(1)的基礎(chǔ)上增加了判別網(wǎng)絡,構(gòu)成生成對抗網(wǎng)絡,記作GAN。
(3~6) 模型結(jié)構(gòu)均為非嵌入式GAN結(jié)構(gòu)(分別對應于(7~10)的嵌入式GAN結(jié)構(gòu)),記作GAN*。在此類模型中,本文將原生成網(wǎng)絡與尺度增強模塊組合,將組合后的整體結(jié)構(gòu)作為獨立生成網(wǎng)絡,并使用判別網(wǎng)絡直接監(jiān)督模型的最終輸出。
(7) 嵌入式GAN結(jié)構(gòu),之后連接1個尺度增強子模塊。
(8) 在模型(7)的基礎(chǔ)上增加了跳躍連接設置。
(9) 嵌入式GAN結(jié)構(gòu),之后連接2個尺度增強子模塊。
(10)在模型(9)的基礎(chǔ)上增加了跳躍連接設置,即為本文所提多尺度增強網(wǎng)絡模型(MSEN)。
由表5可知,模型(2)的性能優(yōu)于模型(1),表明引入?yún)^(qū)域性判別網(wǎng)絡可優(yōu)化圖像局部相關(guān)性并提升模型計數(shù)準確性;模型(4), (8)的性能分別優(yōu)于模型(3), (7),表明采用跳躍連接設置有助于重建輸入圖像的結(jié)構(gòu)和全局上下文信息;模型(9)的性能優(yōu)于模型(7),表明采用兩個尺度增強子模塊更有利于據(jù)合圖像各區(qū)域的多尺度局部特征;在具有相同配置的前提下,采用嵌入式GAN結(jié)構(gòu)的模型的性能均優(yōu)于對應的非嵌入式GAN結(jié)構(gòu)模型,且模型(5), (6)在所有模型中性能最差,原因或為原生成網(wǎng)絡與尺度增強模塊組合構(gòu)成的獨立生成網(wǎng)絡的結(jié)構(gòu)較為復雜,參數(shù)量過大,導致整體模型在訓練時難以收斂,由此也證明了采用嵌入式GAN結(jié)構(gòu)的有效性。
此外,為了進一步證明在嵌入式GAN模塊之后連接尺度增強模塊的有效性,本文將模型(2)與模型(10)預測圖像的結(jié)果對比展示于圖4,二者的結(jié)構(gòu)分別為GAN結(jié)構(gòu)與本文所述的MSEN結(jié)構(gòu),區(qū)別為模型是否包含尺度增強模塊??梢钥闯觯赡P?10),即本文所述MSEN結(jié)構(gòu)預測的圖像可以更好地反映人群分布的熱點情況,且根據(jù)預測圖像計算出的人數(shù)更加接近標簽圖像實際包含的人數(shù),因此進一步證明了尺度增強模塊的有效性。
圖4 獨立GAN結(jié)構(gòu)與MSEN結(jié)構(gòu)的預測圖像與計算人數(shù)示例
為了對損失函數(shù)中的權(quán)重取值依據(jù)進行說明,本文對了不同參數(shù)權(quán)重下模型的性能。從簡化模型訓練流程的角度出發(fā),本文首先對比了各項損失函數(shù)回傳梯度的大小,并將權(quán)重α設置為3,之后選取6個代表性數(shù)值作為權(quán)重β的基準數(shù)值,通過對比實驗來確定其最終取值。實驗結(jié)果如圖5所示,隨著β取值大小的增加,模型的MAE指標持續(xù)降低。當β=1時,損失函數(shù)中L1與LE的權(quán)重相等,同時模型獲得最低的MAE指標。當β取值繼續(xù)增加,即L1與LE之間的權(quán)重差距逐漸增大時,MAE指標迅速增加,即模型性能開始下降。因此,當β取值為1時,模型性能達到最佳。
為了解決人群計數(shù)研究忽略圖像局部相關(guān)性以及模型對多尺度特征提取能力有限的問題,本文提出了一種基于多尺度增強網(wǎng)絡的人群計數(shù)模型(MSEN),將所設計的多分支生成網(wǎng)絡與引入的區(qū)域性判別網(wǎng)絡組合構(gòu)成嵌入式GAN模塊,在其之后連接基于金字塔池化結(jié)構(gòu)所設計的尺度增強模塊,使用3項損失函數(shù)對整體模型進行聯(lián)合訓練,使所述模型在提升預測圖像局部相關(guān)性的同時提升了多尺度特征的提取能力,從而提升模型最終的計數(shù)準確性與魯棒性。本文在3個人群計數(shù)公共數(shù)據(jù)集上進行了廣泛的實驗,實驗結(jié)果證明了所述模型的有效性。
圖5 不同β取值與對應的模型MAE值