徐 濤,李夏華,劉才華+
(1.中國民航大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津 300300;2.中國民用航空局 智慧機(jī)場(chǎng)理論與系統(tǒng)民航局重點(diǎn)實(shí)驗(yàn)室,天津 300300)
傳統(tǒng)的安全管理依靠人工監(jiān)測(cè)區(qū)域內(nèi)的人群分布狀況,這需要極高的人力成本,而通過計(jì)算機(jī)視覺算法等手段預(yù)測(cè)未來人群分布,能夠降低人群聚集可能帶來的風(fēng)險(xiǎn)。
Lempitsky等首次提出通過對(duì)密度圖積分實(shí)現(xiàn)對(duì)圖片中的人群計(jì)數(shù)[1],由于密度圖可以清楚地反映出當(dāng)前場(chǎng)景下人群的分布狀態(tài)及擁擠程度,因此預(yù)測(cè)未來時(shí)刻的人群密度圖,對(duì)于人群異常聚集現(xiàn)象的預(yù)防十分有效。人群密度預(yù)測(cè)問題主要存在以下技術(shù)難點(diǎn):①給定的多個(gè)輸入幀易產(chǎn)生多個(gè)相似的特征表示,這會(huì)使預(yù)測(cè)結(jié)果趨于模糊;②視頻監(jiān)控場(chǎng)景下可能存在多個(gè)人群及零散的行人,每個(gè)行人的運(yùn)動(dòng)軌跡獨(dú)立,模型設(shè)計(jì)需要對(duì)時(shí)空特征有效建模;③對(duì)于較長(zhǎng)時(shí)間間隔的預(yù)測(cè),幀間時(shí)空相關(guān)性較小。
為了解決上述問題,本文提出一種基于生成對(duì)抗網(wǎng)絡(luò)動(dòng)態(tài)建模的人群密度預(yù)測(cè)方法,用于實(shí)現(xiàn)未來時(shí)刻人群密度預(yù)測(cè)。主要貢獻(xiàn)為:①得益于生成對(duì)抗網(wǎng)絡(luò)[2]良好的圖像生成能力,本文模型采用生成對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu),生成器采用U-Net[3]結(jié)構(gòu)保證預(yù)測(cè)圖像的質(zhì)量,并利用預(yù)訓(xùn)練的光流網(wǎng)絡(luò)FlowNet[4]提取人群運(yùn)動(dòng)特征,提升對(duì)未來時(shí)刻人群密度分布狀態(tài)估計(jì)的準(zhǔn)確性;②優(yōu)化了U-Net解碼階段,采用擴(kuò)張卷積[5],在保持特征圖分辨率的同時(shí)增加網(wǎng)絡(luò)的感受野,接收更加廣泛的人群分布信息;③針對(duì)時(shí)空序列預(yù)測(cè)問題,不同于其它模型采用MSE均方誤差,本文通過聯(lián)合強(qiáng)度損失、梯度損失、對(duì)抗性損失和光流損失,分別從人群空間分布狀態(tài)和人群運(yùn)動(dòng)趨勢(shì)兩個(gè)方面加以約束,優(yōu)化模型的預(yù)測(cè)結(jié)果。
隨著智能化安防的發(fā)展,一些研究人員關(guān)注到了人群密度預(yù)測(cè)問題上。本節(jié)將介紹與該問題相關(guān)的一些研究工作,包括人群密度預(yù)測(cè)、視頻幀預(yù)測(cè)、人群計(jì)數(shù)。
Minoura等[6]建立基于patch的動(dòng)態(tài)網(wǎng)絡(luò)模型,通過學(xué)習(xí)不同patch之間的緊湊特征表示捕捉復(fù)雜變化的人群運(yùn)動(dòng),并使用完全卷積的編碼-解碼架構(gòu)應(yīng)對(duì)相鄰patch之間預(yù)測(cè)結(jié)果的不連續(xù)性。Niu等[7]提出了一種全局殘差雙流網(wǎng)絡(luò),首先利用一系列卷積級(jí)聯(lián)LSTM層和ConvLSTM模塊提取視頻幀的時(shí)空特征,接著利用一個(gè)循環(huán)自編碼器抽取對(duì)應(yīng)的密度圖更加抽象的人群狀態(tài)和動(dòng)態(tài)表示,并通過一個(gè)基于注意力的融合模塊傳遞融合特征,得到最終的預(yù)測(cè)結(jié)果。人群密度預(yù)測(cè)的相關(guān)工作于近兩年才被研究人員所關(guān)注,且目前的工作主要集中在短期預(yù)測(cè)方面,長(zhǎng)期預(yù)測(cè)仍然具備一定的挑戰(zhàn)性,是一項(xiàng)極具潛力的研究方向。
視頻幀預(yù)測(cè)是指,利用給定的一組連續(xù)幀預(yù)測(cè)未來的視頻幀。Shi等[8]提了一種新的網(wǎng)絡(luò)結(jié)構(gòu)ConvLSTM,將原有的全連接LSTM的門狀態(tài)轉(zhuǎn)換計(jì)算中的矩陣乘運(yùn)算改為卷積運(yùn)算,通過在多維數(shù)據(jù)中進(jìn)行卷積操作來捕獲空間特征,并將其用于氣象降水預(yù)報(bào)。Liang等[9]提出了一種對(duì)偶學(xué)習(xí)機(jī)制的生成對(duì)抗模型,使用對(duì)偶訓(xùn)練的方法來確保預(yù)測(cè)出來的光流能夠幫助網(wǎng)絡(luò)進(jìn)行推理,使預(yù)測(cè)結(jié)果更加真實(shí)。安利智等[10]提出了一種動(dòng)態(tài)卷積生成對(duì)抗模型,利用ConvLSTM和卷積神經(jīng)動(dòng)態(tài)平流單元融合視頻中的時(shí)空特征,提高時(shí)空建模的準(zhǔn)確性。與視頻預(yù)測(cè)不同的是,本文的輸入是經(jīng)過稀疏采樣的人群視頻幀,相比于視頻幀預(yù)測(cè)方法的輸入時(shí)間間隔更長(zhǎng),幀與幀之間的相關(guān)性更小,具有更大的挑戰(zhàn)和應(yīng)用價(jià)值。
人群計(jì)數(shù)的目的是計(jì)算圖像中的人數(shù),并估計(jì)人群在圖像中的空間分布情況。早期大多基于檢測(cè)技術(shù)以及基于回歸技術(shù)實(shí)現(xiàn)。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的方法在人群計(jì)數(shù)中表現(xiàn)出優(yōu)異的性能。Cao等[11]利用尺度聚合模塊對(duì)多尺度特征提取,利用轉(zhuǎn)置卷積生成高分辨率的人群密度圖像,另外聯(lián)合歐幾里得損失和局部模式一致性損失優(yōu)化模型訓(xùn)練。Li等[12]通過使用擴(kuò)張卷積代替池化操作來擴(kuò)大感受野,并提取更深層次的特征。崔宇超等[13]提出一種基于幀間輔助的視頻人群計(jì)數(shù)方法,通過獲取相鄰幀之間的空間關(guān)聯(lián)特性融合相鄰幀之間的特征實(shí)現(xiàn)單張圖像計(jì)數(shù)。盡管人群計(jì)數(shù)有大量的前期工作,但基于視頻的人群密度估計(jì)[14]研究較少,并且主要關(guān)注的是如何利用時(shí)間連續(xù)性來改進(jìn)人群密度估計(jì),并非如何預(yù)測(cè)未來時(shí)刻的人群密度。與以往的人群計(jì)數(shù)工作不同,本文工作是在給定先前觀察到的多個(gè)人群分布圖像序列的情況下,預(yù)測(cè)未來人群的空間分布。
對(duì)公共場(chǎng)景下未來時(shí)刻的人群分布狀態(tài)預(yù)測(cè)是指,給定一段人群視頻,生成對(duì)應(yīng)的人群密度圖,并根據(jù)密度圖預(yù)測(cè)未來時(shí)刻人群分布情況。為了有效捕捉人群運(yùn)動(dòng)狀態(tài),并能夠更好地應(yīng)用到實(shí)際當(dāng)中,獲取人群在較長(zhǎng)一段時(shí)間內(nèi)的運(yùn)動(dòng)變化是十分重要的,這也有利于人群密度監(jiān)測(cè)系統(tǒng)提前發(fā)出預(yù)警。因此,以相等時(shí)間間隔對(duì)給定人群視頻幀間隔采樣,預(yù)測(cè)下一相同時(shí)間間隔的人群分布情況。
基于此,我們將該問題描述為
P(t+NΔt)=F({It,It+Δt,…,It+(N-1)Δt})
(1)
其中,{It,It+Δt,…,It+(N-1)Δt} 表示模型F的輸入幀,包含從人群視頻以相等時(shí)間間隔Δt順序采樣的N幀。根據(jù)給定輸入幀,預(yù)測(cè)下一相同時(shí)間間隔第N+1幀(即t+NΔt幀)的人群密度圖P。
圖1為本文提出的模型整體結(jié)構(gòu)。模型整體采用生成對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu),利用生成器與判別器之間的博弈思想指導(dǎo)生成器生成更加準(zhǔn)確的預(yù)測(cè)結(jié)果。首先將輸入視頻的每一幀根據(jù)數(shù)據(jù)集的標(biāo)簽信息轉(zhuǎn)換為人群密度圖,將得到的人群密度圖送入生成器網(wǎng)絡(luò)生成預(yù)測(cè)結(jié)果。對(duì)預(yù)測(cè)結(jié)果與ground-truth之間施加強(qiáng)度損失和梯度損失,同時(shí)利用預(yù)訓(xùn)練的光流網(wǎng)絡(luò)FlowNet分別計(jì)算輸入最后一幀圖像與預(yù)測(cè)圖像之間的光流圖和輸入最后一幀圖像與ground-truth圖像之間的光流圖,通過最小化上述二者之間的L1損失學(xué)習(xí)時(shí)序信息。最終,聯(lián)合強(qiáng)度損失、梯度損失、對(duì)抗性損失和光流損失,分別從空間特征和時(shí)序特征兩個(gè)方面加以約束,進(jìn)一步優(yōu)化生成器的預(yù)測(cè)結(jié)果。
2.2.1 生成器
現(xiàn)有工作中用于圖像生成的網(wǎng)絡(luò)通常是由編碼器和解碼器兩個(gè)模塊組成的。編碼器通過逐步降低空間分辨率得以提取圖像特征,解碼器通過增加空間分辨率得以逐漸還原圖像。然而,這種方法會(huì)導(dǎo)致梯度消失和信息不平衡等問題出現(xiàn)。為了解決這些問題,U-Net模型被提出,它在具有相同分辨率的編碼層和解碼層之間加入了跳躍連接,能夠有效抑制梯度消失并保證信息對(duì)稱。
對(duì)于人群密度預(yù)測(cè)問題,輸入視頻來自于固定攝像機(jī)拍攝,跳躍連接可幫助預(yù)測(cè)圖像快速重建。具體實(shí)施過程中,本文對(duì)U-Net進(jìn)行了一些修改,對(duì)于每?jī)蓚€(gè)卷積層,保持輸出分辨率不變,當(dāng)添加跳躍連接時(shí),它不再需要對(duì)圖片裁剪和調(diào)整大小。另外,將解碼層采用擴(kuò)張卷積,以增加網(wǎng)絡(luò)的感受野。擴(kuò)張卷積的原理如圖2所示,將緊密的卷積核按照擴(kuò)張系數(shù)增大,用0填充空位,這樣可以在擁有同樣的計(jì)算成本的情況下,使卷積計(jì)算獲得更寬的視野。相比于U-Net網(wǎng)絡(luò)原始解碼層所采用的反卷積,擴(kuò)張卷積可以在減少信息丟失的同時(shí)保證執(zhí)行效率;相比于池化層來說,擴(kuò)張卷積可以在控制過擬合的同時(shí)保證空間分辨率。人群密度圖存在尺度變化的問題,一般的卷積核無法準(zhǔn)確地提取到不同尺度下的行人特征信息,而擴(kuò)張卷積可以通過設(shè)置不同的擴(kuò)張率聚合不同尺度的上下文信息,充分提取特征。
圖2 擴(kuò)張卷積感受野變化[5]
2.2.2 判別器
針對(duì)未來時(shí)刻人群密度預(yù)測(cè)問題,既要獲取輸入圖像中人群分布的局部相關(guān)性,又要保證預(yù)測(cè)結(jié)果清晰。受到Isola等[15]的啟發(fā),判別器結(jié)構(gòu)采用PixelDiscriminator,通過逐次疊加的卷積層一次判斷一個(gè)N×N的圖像塊是否為真,將所有圖像塊的結(jié)果求平均,作為整張圖像的判別結(jié)果。這種結(jié)構(gòu)在減少訓(xùn)練所需參數(shù)量的同時(shí),能夠更好地捕捉到圖像局部信息,增強(qiáng)生成器輸出預(yù)測(cè)圖像的局部相關(guān)性,提高生成圖像的質(zhì)量。具體實(shí)施過程中,采用4個(gè)卷積層構(gòu)建判別器,其中前3個(gè)卷積層均具有批量歸一化層并采用LeakyReLU作為激活函數(shù),最后一層卷積層作為輸出層。這種結(jié)構(gòu)可以覆蓋到輸入的人群密度圖像的每個(gè)局部區(qū)域,可以更好地指導(dǎo)生成器學(xué)習(xí)人群分布的局部相關(guān)性,并幫助生成器重建圖像的邊緣、輪廓等高頻信息,進(jìn)而保證生成器預(yù)測(cè)圖像的質(zhì)量。
本文采用強(qiáng)度損失、梯度損失對(duì)空間特征施加約束,保證預(yù)測(cè)圖像的質(zhì)量;采用光流損失、對(duì)抗性損失對(duì)時(shí)序特征施加約束,保證輸入序列和預(yù)測(cè)結(jié)果的時(shí)序一致。
2.3.1 強(qiáng)度損失和梯度損失
為了使預(yù)測(cè)結(jié)果與ground-truth更加接近,采用強(qiáng)度損失和梯度損失[16]約束空間特征信息。強(qiáng)度損失保證RGB空間下所有像素的相似性,梯度損失可以銳化生成的圖像,使預(yù)測(cè)的圖像更加清晰。
具體而言,強(qiáng)度損失將預(yù)測(cè)結(jié)果I′與真實(shí)結(jié)果I之間的L2距離最小化,定義為
(2)
梯度損失定義為
(3)
其中,i和j表示視頻幀的空間索引值。
2.3.2 光流損失
過去的研究方法僅通過強(qiáng)度損失和梯度損失約束圖片的空間特征來生成未來幀,然而即使預(yù)測(cè)幀的所對(duì)應(yīng)的強(qiáng)度損失和梯度損失極小,也可能導(dǎo)致完全不同的光流,也就丟失了視頻重要的時(shí)序特征,因此采用光流估計(jì)網(wǎng)絡(luò)FlowNet來計(jì)算預(yù)測(cè)圖像與ground-truth圖像的光流信息。具體而言,通過最小化輸入幀最后一幀It分別與預(yù)測(cè)圖像I′t+Δt和ground-truth圖像It+Δt產(chǎn)生的光流圖的L1距離,定義為
(4)
其中,F(xiàn)為FlowNet網(wǎng)絡(luò),實(shí)驗(yàn)中所采用的F經(jīng)過文獻(xiàn)[4]中的合成數(shù)據(jù)集預(yù)訓(xùn)練,并且保持參數(shù)固定不變。
2.3.3 對(duì)抗性損失
對(duì)于生成對(duì)抗網(wǎng)絡(luò)來說,生成器G試圖通過最小化損失函數(shù)優(yōu)化自身,而判別器D試圖通過最大化損失函數(shù)來指導(dǎo)生成器學(xué)習(xí),對(duì)抗性損失定義為
(5)
將上述對(duì)空間時(shí)序特征約束的損失函數(shù)加權(quán)組合,得到目標(biāo)函數(shù),定義為
L=αintLint+αgdLgd+αopLop+αadvLadv
(6)
其中,αint,αgd,αop,αadv分別為強(qiáng)度損失、梯度損失、光流損失和對(duì)抗性損失的系數(shù)因子。
Mall[17]是從一個(gè)購物中心的監(jiān)控錄像中收集的公共數(shù)據(jù)集。Mall數(shù)據(jù)集中的視頻序列由2000幀640×480的圖像組成,總共包含62 325個(gè)行人,幀率小于2 Hz,該數(shù)據(jù)集標(biāo)注了每一幀中的行人的頭部位置。對(duì)Mall數(shù)據(jù)集將前1200幀作為訓(xùn)練數(shù)據(jù),對(duì)后800幀進(jìn)行測(cè)試。
除此之外,我們還手動(dòng)標(biāo)注了一段來自于國內(nèi)某機(jī)場(chǎng)航站樓內(nèi)的監(jiān)控錄像,對(duì)其中每一幀的行人頭部位置進(jìn)行了標(biāo)注,本文將該手動(dòng)標(biāo)注數(shù)據(jù)集稱為Airport,共包含800幀人群圖像,每一幀圖像大小為480×270。
在時(shí)空序列預(yù)測(cè)領(lǐng)域,廣泛使用的評(píng)價(jià)指標(biāo)依賴于基于圖像相似性的度量,例如均方誤差MSE(mean-square error)、峰值信噪比PSNR(peak signal to noise ratio)以及結(jié)構(gòu)相似性SSIM(structural similarity index measure)。本文采用這3種評(píng)價(jià)標(biāo)準(zhǔn)對(duì)結(jié)果定量分析。
MSE評(píng)價(jià)指標(biāo)定義如下
(7)
其中,n表示預(yù)測(cè)密度圖像的數(shù)量,x′i表示第i張預(yù)測(cè)密度圖像,xi表示對(duì)應(yīng)于第i張預(yù)測(cè)圖像的ground-truth密度圖像。MSE用于衡量算法的魯棒性,MSE值越小,說明模型的魯棒性越好。
PSNR評(píng)價(jià)指標(biāo)定義如下
(8)
其中,n表示預(yù)測(cè)密度圖像的數(shù)量,x′i表示第i張預(yù)測(cè)密度圖像,xi表示對(duì)應(yīng)于第i張預(yù)測(cè)圖像的ground-truth密度圖像。PSNR用于衡量預(yù)測(cè)圖像的質(zhì)量,PSNR值越大,說明生成圖像質(zhì)量越好。
給定兩張圖像x和y,SSIM評(píng)價(jià)指標(biāo)定義如下
(9)
本文基于Pytorch1.1.0深度學(xué)習(xí)框架開發(fā),使用英偉達(dá)RTX5000顯卡進(jìn)行實(shí)驗(yàn)。本實(shí)驗(yàn)首先對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,將數(shù)據(jù)集對(duì)照每一幀標(biāo)簽生成人群密度圖,再分別以1.5 s、3 s、4.5 s對(duì)數(shù)據(jù)集間隔采樣,以保證網(wǎng)絡(luò)能夠捕捉人群運(yùn)動(dòng)變化信息。訓(xùn)練過程中,將所有幀的像素強(qiáng)度歸一化為[-1,1],輸入圖像尺寸歸一化為256×256,模型輸出相同大小的人群密度圖。設(shè)置輸入視頻序列長(zhǎng)度為5,預(yù)測(cè)下一相等時(shí)間步長(zhǎng)的人群密度圖。參數(shù)優(yōu)化選擇基于Adam的隨機(jī)梯度下降法,batch-size大小為4。生成器和判別器的學(xué)習(xí)率分別為0.0002和0.000 02,目標(biāo)函數(shù)L中的系數(shù)αint,αgd,αop,αadv分別為1.0、1.0、2.0和0.05。
目前針對(duì)人群密度預(yù)測(cè)這一問題的工作成果較少,本文與文獻(xiàn)[7]的D2D-Net以及視頻幀預(yù)測(cè)模型ConvLSTM[8]進(jìn)行了比較。實(shí)驗(yàn)對(duì)比結(jié)果見表1。
表1 在兩個(gè)數(shù)據(jù)集上不同時(shí)間間隔下不同預(yù)測(cè)方法的結(jié)果
ConvLSTM通過擴(kuò)展全連接LSTM,使其在狀態(tài)轉(zhuǎn)換中具有卷積結(jié)構(gòu),從而更好捕捉時(shí)空相關(guān)性。然而在ConvLSTM中空間表示是被層層編碼,而隱藏狀態(tài)自底向上傳遞,屬于每一層的存儲(chǔ)單元是相互獨(dú)立的,這會(huì)導(dǎo)致其底層完全忽略上一個(gè)時(shí)間步的信息。D2D-Net同樣采用U-Net結(jié)構(gòu),并在編碼階段和解碼階段中間連接處插入了3個(gè)ConvLSTM單元,用于融合時(shí)空特征。然而D2D-Net由于引入了3個(gè)ConvLSTM單元,會(huì)導(dǎo)致其參數(shù)量增加,計(jì)算速度慢,同時(shí)依然存在幀與幀之間的時(shí)間信息丟失的問題。
通過表1可知,本文模型在3個(gè)評(píng)價(jià)標(biāo)準(zhǔn)均取得了更好的結(jié)果,在預(yù)測(cè)更長(zhǎng)時(shí)間間隔下的人群運(yùn)動(dòng)變化更加有效,能夠更好將空間信息和時(shí)間信息有效融合。
圖3展示了在輸入序列時(shí)間間隔為1.5 s的情況下,本文模型分別在Mall數(shù)據(jù)集和Airport數(shù)據(jù)集上預(yù)測(cè)的結(jié)果。前5列是輸入的原始視頻幀,由原始視頻稀疏采樣得到。對(duì)于Mall數(shù)據(jù)集,每3幀采樣一次,對(duì)于Airport數(shù)據(jù)集,每5幀采樣一次??梢钥吹?,本文模型能夠預(yù)測(cè)不同人群場(chǎng)景下的未來時(shí)刻人群分布。
圖3 預(yù)測(cè)結(jié)果示例
本文首先分析了不同的損失函數(shù)對(duì)結(jié)果的影響,并對(duì)不同的損失函數(shù)進(jìn)行了逐步消融。通過把不同的損失結(jié)合起來,在Mall數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。表2中的結(jié)果顯示,更多的損失函數(shù)對(duì)模型施加約束可以得到更好的預(yù)測(cè)結(jié)果。
表2 不同損失函數(shù)對(duì)結(jié)果的影響對(duì)比
接著,在時(shí)間間隔為1.5 s的情況下,評(píng)估了輸入幀的數(shù)量。模型默認(rèn)設(shè)置為5幀,并分別以2幀、3幀和4幀作為輸入序列長(zhǎng)度對(duì)模型進(jìn)行了驗(yàn)證,結(jié)果見表3。根據(jù)結(jié)果分析,輸入序列越長(zhǎng),模型的性能越好,因?yàn)楦L(zhǎng)的輸入序列能帶來更多的時(shí)序信息。根據(jù)實(shí)驗(yàn)觀察,當(dāng)輸入超過5幀后,模型的性能不會(huì)有太大的提高,但需要消耗更多的計(jì)算資源。因此將模型的輸入序列長(zhǎng)度設(shè)置為5幀。
表3 不同輸入序列長(zhǎng)度對(duì)比
對(duì)于生成器網(wǎng)絡(luò)中解碼器部分的擴(kuò)張卷積,我們對(duì)不同的擴(kuò)張率分別進(jìn)行對(duì)比,結(jié)果見表4,當(dāng)擴(kuò)張率為2時(shí),模型的預(yù)測(cè)效果最好。
表4 不同擴(kuò)張率對(duì)比
本文提出一種基于生成對(duì)抗網(wǎng)絡(luò)動(dòng)態(tài)建模的人群密度預(yù)測(cè)方法,用于解決未來時(shí)刻人群密度預(yù)測(cè)問題。首先將視頻幀轉(zhuǎn)換成對(duì)應(yīng)的人群密度圖送入由改進(jìn)后的U-Net所構(gòu)成的生成器中得到預(yù)測(cè)結(jié)果。接著通過聯(lián)合強(qiáng)度損失、梯度損失、對(duì)抗性損失和光流損失,分別從空間特征和時(shí)序特征兩個(gè)方面施加約束,得到較為準(zhǔn)確的未來時(shí)刻人群密度分布。最后通過實(shí)驗(yàn)驗(yàn)證本文方法能夠準(zhǔn)確預(yù)測(cè)不同人群場(chǎng)景下的未來時(shí)刻人群分布情況。但本文方法在預(yù)測(cè)更長(zhǎng)時(shí)間間隔后的人群密度分布以及精準(zhǔn)預(yù)測(cè)較密集區(qū)域內(nèi)的人群密度變化方面仍需改進(jìn)。后期可以改進(jìn)模型對(duì)更長(zhǎng)時(shí)間間隔的輸入序列中所包含的時(shí)序信息的提取,以及對(duì)視頻場(chǎng)景中不同區(qū)域之間的運(yùn)動(dòng)關(guān)聯(lián)信息的學(xué)習(xí)。