侯慧欣,呂學(xué)強(qiáng),游新冬,黃 躍
(1.北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室,北京 100101;2.首都醫(yī)科大學(xué) 宣武醫(yī)院,北京 100053)
人數(shù)統(tǒng)計是智能監(jiān)控領(lǐng)域一個重要的研究分支,在電影院場景下,這一技術(shù)的應(yīng)用可以幫助實(shí)時統(tǒng)計電影票房,有效防止“偷票房”、“幽靈場”等現(xiàn)象的發(fā)生。目前主流的人數(shù)統(tǒng)計方法主要分為基于檢測的方法和基于回歸的方法兩大類[1]?;跈z測的方法[2-4]通過檢測人體整體或局部的特征直接檢測到人體,進(jìn)而統(tǒng)計人數(shù)。基于回歸的方法[5,6]首先提取人群的整體特征,然后根據(jù)提取的特征建立其與人數(shù)之間的映射關(guān)系,利用回歸算法獲得圖像中的人數(shù)。無論哪一種方法,其中一步很重要的工作就是前景提取。前景提取的好壞直接關(guān)系到后續(xù)人體檢測、特征提取、回歸等的效果?,F(xiàn)有的前景提取方法大多數(shù)僅僅針對固定場景下的運(yùn)動人群,無法克服人群分割中的所有問題,且可移植性差,只能處理某一固定場景的圖像。針對這一問題,張君軍提出將全卷積網(wǎng)絡(luò)[7]應(yīng)用于人群分割的設(shè)想,目前已有學(xué)者對此進(jìn)行了研究,但針對影廳場景的研究還未深入。
針對影廳這一復(fù)雜背景,由于可利用的數(shù)據(jù)集很小,因此選用語義分割中適用于小數(shù)據(jù)集訓(xùn)練的U-net[8]網(wǎng)絡(luò)作為基礎(chǔ)網(wǎng)絡(luò)架構(gòu),再針對其速度慢、邊緣分割效果差等問題,采用Inception[9]網(wǎng)絡(luò)中的卷積策略以及擴(kuò)張卷積[10]進(jìn)行改進(jìn),最后利用改進(jìn)透視效應(yīng)校正方法結(jié)合線性回歸,實(shí)現(xiàn)觀影人數(shù)統(tǒng)計。
近年來,隨著越來越多的深度學(xué)習(xí)方法被應(yīng)用到計算機(jī)視覺任務(wù)中,一些學(xué)者開始嘗試將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到前景提取和人群計數(shù)中。
Braham等[11]最先將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于前景提取,實(shí)驗(yàn)結(jié)果表明,使用神經(jīng)網(wǎng)絡(luò)能有效提高傳統(tǒng)前景提取方法的精度且大大降低了背景減除過程的復(fù)雜性。此后,Wang等[12]提出一種多尺度級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)用于前景分割,使用不同比例對輸入幀進(jìn)行下采樣。該網(wǎng)絡(luò)結(jié)構(gòu)相比其它網(wǎng)絡(luò)結(jié)構(gòu)取得了更高的精度,但其速度慢、計算冗余、精度低。針對以上問題,曾冬冬[13]首先嘗試將全卷積網(wǎng)絡(luò)應(yīng)用到前景提取上,提出一種多尺度全卷積網(wǎng)絡(luò),該方法在精度上取得了較優(yōu)的效果且能滿足實(shí)時性要求。
深度學(xué)習(xí)方法在人群計數(shù)方面的研究也越來越深入。劉思琦等[14]利用擴(kuò)張卷積網(wǎng)絡(luò)進(jìn)行人群特征提取,再通過對抗式損失函數(shù)將網(wǎng)絡(luò)中提取的不同尺度的特征信息融合,得到密度估計結(jié)果。Boominathan等[15]使用深層和淺層結(jié)合的全卷積網(wǎng)絡(luò)來預(yù)測給定人群圖像的密度圖,在UCF_CC_50數(shù)據(jù)集上進(jìn)行測試,取得了較好的結(jié)果。J. Wang等[16]提出一種新的全卷積網(wǎng)絡(luò),通過對人群密度分布進(jìn)行回歸,實(shí)現(xiàn)對圖像的人群計數(shù)。J. Fu等[17]設(shè)計了一種引入長短時記憶結(jié)構(gòu)的CNN-RNN人群計數(shù)神經(jīng)網(wǎng)絡(luò),能有效地預(yù)測高密度群體的人群密度。陳朋等[18]提出一種基于多層次特征融合網(wǎng)絡(luò)的人群密度估計方法,利用多層次特征融合網(wǎng)絡(luò)進(jìn)行人群特征的提取、融合、生成人群密度圖,最后對人群密度圖進(jìn)行積分計算求出對應(yīng)人群的數(shù)量。
這些方法均為人數(shù)統(tǒng)計技術(shù)的發(fā)展做出了重要的貢獻(xiàn)。但在本應(yīng)用場景下,首先影院背景復(fù)雜度較高,易受光線、溫度等因素的影響,傳統(tǒng)前景提取方難以適用。其次,由于影廳面積較大,拍攝時透視效應(yīng)嚴(yán)重,后排人體成像與前排差距較大。且實(shí)際可利用的圖像數(shù)據(jù)量小。
因此,針對以上問題,本文主要貢獻(xiàn)如下:
(1)提出了一種IDU-net的前景提取方法,有效解決了因影廳背景復(fù)雜導(dǎo)致的前景提取效果不好問題,提高了前景提取的準(zhǔn)確性,為后續(xù)人數(shù)統(tǒng)計工作奠定了良好的技術(shù)基礎(chǔ)。
(2)提出了一種改進(jìn)透視效應(yīng)校正方法,結(jié)合線性回歸方法實(shí)現(xiàn)影廳人群計數(shù)。
(3)整理了3個影廳共300張圖片數(shù)據(jù),并在此數(shù)據(jù)集上進(jìn)行大量實(shí)驗(yàn),結(jié)果表明,提出的方法在前景提取及人數(shù)統(tǒng)計上均取得了最高的準(zhǔn)確率。
本文提出的紅外影廳圖像人數(shù)統(tǒng)計算法流程主要包含以下步驟:
(1)圖像預(yù)處理,主要包括對原始紅外影廳圖像進(jìn)行預(yù)處理和制作標(biāo)簽圖像;
(2)前景提取,利用IDU-net網(wǎng)絡(luò)進(jìn)行端到端訓(xùn)練,提取前景圖像。常用前景提取方法包括ViBe算法、高斯混合模型等;
(3)透視效應(yīng)校正,首先根據(jù)隨機(jī)采樣的數(shù)據(jù)進(jìn)行擬合,明確縱坐標(biāo)對成像大小的影響,再根據(jù)擬合結(jié)果進(jìn)行校正,計算前景面積;
(4)建立前景面積與人數(shù)的回歸關(guān)系,計算人數(shù)統(tǒng)計結(jié)果。
算法流程框架如圖1所示。
圖1 算法流程框架
圖2 IDU-net網(wǎng)絡(luò)架構(gòu)
為實(shí)現(xiàn)觀影人數(shù)統(tǒng)計,首先需要將人群與背景分割開,因此第一步重點(diǎn)工作是前景提取。本文采用U-net網(wǎng)絡(luò)作為基本架構(gòu),如圖2所示,U-net網(wǎng)絡(luò)為一個U形結(jié)構(gòu),左側(cè)為encoder部分,是重復(fù)卷積-卷積-最大池化的過程,用于獲取圖像的高層抽象信息;右側(cè)為decoder部分,通過上采樣操作還原分辨率信息,同時與上層提取的feature map進(jìn)行concatenate操作。
但原U-net網(wǎng)絡(luò)存在兩個問題:①架構(gòu)較大,訓(xùn)練時需耗費(fèi)大量計算資源與時間;②原網(wǎng)絡(luò)把輸入圖像下采樣到非常小的特征圖會使場景的空間結(jié)構(gòu)不那么清晰,失去部分位置信息,不僅限制了分類的準(zhǔn)確率,還影響前景提取的邊緣分割效果。針對以上兩個問題,本文對原網(wǎng)絡(luò)進(jìn)行改進(jìn)。首先為了提高訓(xùn)練速度,本文采用Inception網(wǎng)絡(luò)中的策略:將n×n的卷積核尺寸分解為1×n和n×1兩個卷積。在進(jìn)行卷積操作時,原網(wǎng)絡(luò)采用3×3的卷積核,為了減少參數(shù),提高訓(xùn)練速度,參考Inception網(wǎng)絡(luò)中的卷積方式,采用1×3與3×1的卷積方式替代原有卷積,這種方法在成本上比單個3×3的卷積核降低33%。這種方法有效地減少了訓(xùn)練過程中的參數(shù)量,且減少了訓(xùn)練時長。其次,為了盡可能保留原圖像的位置信息,提高分類準(zhǔn)確率,本文將擴(kuò)張卷積方法應(yīng)用到U-net網(wǎng)絡(luò)中。擴(kuò)張卷積的好處就是既能保持原有網(wǎng)絡(luò)的感受野,同時又不會損失圖像空間的分辨率。這種方法使得網(wǎng)絡(luò)在對圖像進(jìn)行下采樣時能保留前景的邊緣信息及位置信息,同時提高了將模型遷移到其它場景的性能。
U-net網(wǎng)絡(luò)各層均采用ReLU非線性函數(shù)作為激活函數(shù)。由于本問題本質(zhì)是一個二分類問題,因此采用對數(shù)損失函數(shù)定義模型誤差,損失函數(shù)公式如式(1)所示
(1)
式中:n為像素總數(shù),yi為第i個像素點(diǎn)真實(shí)類別(1或0),si為第i個樣本點(diǎn)經(jīng)過模型預(yù)測結(jié)果。
由于透視效應(yīng)的作用,高度相同物體的成像大小與其和攝像機(jī)鏡頭的距離成反比。因此,只有透視校正后的前景區(qū)域面積才能更為準(zhǔn)確地反映場景中的實(shí)際人數(shù)[19]。由于影廳圖像四周存在許多背景區(qū)域,而在進(jìn)行前景提取時這部分區(qū)域容易被誤判為前景,如果直接對這部分區(qū)域進(jìn)行透視效應(yīng)校正,會影響后續(xù)人數(shù)統(tǒng)計效果。針對此問題,對透視效應(yīng)校正方法進(jìn)行改進(jìn),標(biāo)記圖像中的背景與前景區(qū)域,對兩部分區(qū)域分別進(jìn)行處理,使其更適用于影廳場景。
首先,為了明確縱坐標(biāo)對成像尺寸是如何影響的以及其影響程度,隨機(jī)選取50個點(diǎn)記錄其縱坐標(biāo)以及該點(diǎn)所在的座椅尺寸,畫出其散點(diǎn)圖,如圖3所示,然后根據(jù)散點(diǎn)圖顯示的規(guī)律分別進(jìn)行擬合,得到擬合系數(shù)α,β。
圖3 座椅成像高度隨縱坐標(biāo)變化散點(diǎn)
改進(jìn)后對位于坐標(biāo) (x,y) 的點(diǎn),其高度計算公式如下
(2)
式中:h為校正后高度,H為圖像高度。
傳統(tǒng)的前景面積S計算公式如下
(3)
校正透視效應(yīng)后,原有的前景面積計算公式需相應(yīng)的進(jìn)行修改。修改后前景面積計算公式如下
(4)
根據(jù)提取的前景面積,建立歸一化前景與人數(shù)之間的回歸模型。由于在影廳場景下,人群之間遮擋問題較小,前景面積與人群基本呈線性關(guān)系,因此使用線性回歸模型。
為了驗(yàn)證本文人群統(tǒng)計方法的精度以及對不同場景的適應(yīng)性,將基于U-net的前景提取方法與背景差分法、混合高斯模型、ViBe算法進(jìn)行對比,分別比較4種方法的前景提取效果以及人數(shù)統(tǒng)計精度。
本文使用的數(shù)據(jù)集為中國電影科學(xué)技術(shù)研究所提供的300張紅外觀影圖像,包括3個座位分布不同的影廳圖像各100張。
針對前景提取的效果評價,本文使用如下5個量化指標(biāo):分類準(zhǔn)確率PCC(percentage correct classification)、召回率R(recall)、準(zhǔn)確率PR(precision)、假負(fù)率FNR(false negative rate)、假正率FPR(false positive rate)。分類準(zhǔn)確率表示正確檢測到的前景的像素數(shù)和背景像素數(shù)占所有像素的比例,作為算法的整體性能指標(biāo)。召回率表示提取的前景像素點(diǎn)與所有前景像素點(diǎn)的比例。準(zhǔn)確率表示提取的前景像素點(diǎn)中真實(shí)前景像素點(diǎn)的比例。假正率分別表示檢測到的錯誤前景比例,假負(fù)率表示誤判為背景的前景像素占背景像素數(shù)的比例。分類準(zhǔn)確率、召回率及前景準(zhǔn)確率越高,表明算法提取效果越好。假正率、假負(fù)率越低,算法性能越佳
(5)
(6)
(7)
(8)
(9)
其中,TP為正確檢測到的前景像素點(diǎn)個數(shù),F(xiàn)P為背景中被誤判為前景的像素點(diǎn)個數(shù),TN為正確的背景像素點(diǎn)個數(shù),F(xiàn)N為前景中被誤判為背景的像素點(diǎn)個數(shù)。
對于3種方法的人數(shù)統(tǒng)計精度,使用平均準(zhǔn)確率MAR(mean accuracy rate)、平均相對誤差MRE(mean relative error)、平均絕對誤差MAE(mean absolute error)等評價指標(biāo)來評價估測誤差。MAE、MRE、MAR定義如下
(10)
(11)
(12)
其中,N為圖片總張數(shù),G(i) 是第i張圖像經(jīng)過算法預(yù)測的結(jié)果人數(shù),T(i) 是第i張圖像經(jīng)手工標(biāo)出的人數(shù),作為參考值。
本文將所提方法與混合高斯模型、ViBe算法、原 U-net 模型進(jìn)行對比,分別比較其前景提取效果、人數(shù)統(tǒng)計結(jié)果。
3.2.1 定量分析
(1)前景提取效果對比
本文將所提方法與傳統(tǒng)前景提取方法:混合高斯模型、ViBe算法、原U-net模型進(jìn)行比較,分別從召回率(R)、準(zhǔn)確率(PR)、假負(fù)率(FPR)、假正率(FNR)以及分類準(zhǔn)確率(PCC)5個指標(biāo)進(jìn)行對比。結(jié)果見表1。
從召回率上看,ViBe算法、原U-net模型、IDU-net模型均表現(xiàn)良好,這表明這3個方法均能將前景區(qū)域提取出來。但結(jié)合準(zhǔn)確率來看,ViBe算法雖然能正確提取前景區(qū)域,但同樣會將大量背景區(qū)域誤判為前景區(qū)域,因此該方法無法正確的將前景與背景區(qū)域分割開。而混合高斯模型雖然準(zhǔn)確率較高,但召回率卻很低,這表示混合高斯模型能較好的將前景與背景區(qū)分開,但是該方法提取的前景不完整,因此該方法表現(xiàn)也較差。相比之下原U-net模型、IDU-net模型的召回率、準(zhǔn)確率均較高,表明這兩種方法表現(xiàn)優(yōu)于混合高斯模型與ViBe算法。其中,IDU-net模型在這兩個指標(biāo)上均高于原U-net模型,這表明改進(jìn)后的模型前景提取效果更佳。
從假負(fù)率與假正率這兩個指標(biāo)來看,混合高斯模型假負(fù)率最低但假正率最高,這也表明其將大量背景像素點(diǎn)誤判為前景像素點(diǎn)。而ViBe算法正相反,假負(fù)率最高而假正率最低,這表明該方法易將許多前景像素點(diǎn)誤判為背景像素點(diǎn)。原U-net模型、IDU-net模型方法的假正率、假負(fù)率雖然均不是最低,但是其兩個指標(biāo)均保持在較低的范圍。這表明這兩種方法雖然都會出現(xiàn)將前景誤判為背景或者將背景誤判為前景的情況,但都處于誤差可接受范圍內(nèi)。其中原U-net模型比IDU-net模型的假負(fù)率高,假正率低。這表明原U-net模型更易將背景區(qū)域誤識別為前景,因此提取的前景區(qū)域會多于正確的前景區(qū)域。相比而言,IDU-net模型假正率與假負(fù)率幾乎保持平衡,雖然不是最低,但是針對前景區(qū)域面積提取這一情況效果最佳。
表1 前景提取效果對比
從分類準(zhǔn)確率這一綜合指標(biāo)來看,IDU-net模型分類準(zhǔn)確率達(dá)97.65%,高于其它3種方法。這直接表明,IDU-net模型在影廳這一場景下前景提取效果最佳。
(2)人群計數(shù)效果對比
本文從平均準(zhǔn)確率、平均相對誤差、平均絕對誤差3個指標(biāo)來分析4種方法的人群計數(shù)效果。分別將改進(jìn)前后的透視效應(yīng)校正方法應(yīng)用在4種前景提取算法上的結(jié)果進(jìn)行對比。結(jié)果見表2。
表2 人數(shù)統(tǒng)計結(jié)果對比
從結(jié)果可以看出,IDU-net前景提取算法能有效提高人數(shù)統(tǒng)計準(zhǔn)確率。相比原U-net模型、混合高斯模型、ViBe算法,IDU-net模型的準(zhǔn)確率較高且誤差較小。同樣,從實(shí)驗(yàn)結(jié)果來看,改進(jìn)透視效應(yīng)校正方法相比原透視效應(yīng)校正方法,在4種前景提取方法上的人數(shù)統(tǒng)計準(zhǔn)確率均獲得了有效提高,誤差也有所下降。但由于原U-net模型與IDU-net模型能有效切割出前景區(qū)域,因此改進(jìn)透視效應(yīng)校正方法在這兩個前景提取方法上改進(jìn)效果較小。在前景提取效果不佳的混合高斯模型與ViBe算法上效果提升較大。綜合來看,IDU-net前景提取方法與改進(jìn)透視效應(yīng)校正方法相結(jié)合能獲得最佳人數(shù)統(tǒng)計結(jié)果,其準(zhǔn)確率達(dá)到89.79%。
3.2.2 定性分析
本文將所提IDU-net前景提取方法與高斯混合模型、ViBe算法、原U-net模型進(jìn)行對比。在此主要選?。孩倜芗巳?清晰背景;②密集人群+模糊背景;③稀疏人群+清晰背景;④稀疏人群+模糊背景,共4組圖片進(jìn)行定性分析。結(jié)果見表3。
通過對比發(fā)現(xiàn):
(1)IDU-net的3個模型均對影廳這一場景具有極高的魯棒性,無論是人群密集或稀疏,無論圖片清晰或模糊,均幾乎完美分割開了人群與背景,避免了復(fù)雜背景的干擾。
(2)GMM算法在密集人群場景下分割效果較好,但在稀疏人群場景下,前景提取效果較差,無法完全提取出前景區(qū)域。GMM算法對背景的光線變化魯棒性良好。但總體而言,GMM算法無法完全避免復(fù)雜背景的干擾,提取的前景區(qū)域中包含許多背景信息。
(3)ViBe算法在這4種方法中表現(xiàn)最差,雖然該方法幾乎能提取出所有前景區(qū)域,但受到復(fù)雜背景的干擾,將背景誤判為前景的情況十分嚴(yán)重,提取的前景面積中包含大量背景信息。在稀疏人群場景下表現(xiàn)尤其差。
(4)原U-net模型相比傳統(tǒng)方法表現(xiàn)較好,對這4種場景均適應(yīng)良好,且能避免復(fù)雜背景的干擾,提取出正確的前景區(qū)域。但相比IDU-net模型,其缺點(diǎn)在于提取的前景區(qū)域邊緣模糊,沒有明顯的人形輪廓。通過圖4的細(xì)節(jié)對比圖可發(fā)現(xiàn):當(dāng)人群較為集中時,原U-net模型提取的前景區(qū)域中邊界較為模糊,人與人之間易發(fā)生粘連,存在大片模糊區(qū)域。相比之下,IDU-net模型前景提取結(jié)果具有較為清晰的邊界,相較而言具有更為清楚的人形輪廓。
在3個影廳測試圖片下,本文所提方法的效果都明顯優(yōu)于GMM算法、ViBe算法。而且本文所提方法無論是在人群稀疏還是密集場景,均能夠得到較好的前景提取效果,增強(qiáng)了算法對不同場景、不同光線的魯棒性,擴(kuò)大了算法的應(yīng)用范圍。
表3 前景提取效果對比
圖4 前景提取結(jié)果細(xì)節(jié)對比
針對傳統(tǒng)前景提取方法在影廳這一場景下無法避免復(fù)雜背景干擾問題,提出IDU-net模型進(jìn)行影廳圖像前景提取,然后對提取的前景區(qū)域進(jìn)行改進(jìn)透視效應(yīng)校正,統(tǒng)計校正后的前景面積后進(jìn)行線性回歸,得到最終人數(shù)統(tǒng)計結(jié)果。通過與混合高斯模型、ViBe算法、原U-net模型等前景提取方法進(jìn)行對比,驗(yàn)證了本文方法在影廳這一場景下前景提取的有效性。但是本文方法還存在一些問題,目前在影廳場景下人群統(tǒng)計技術(shù)仍舊依賴于不同影廳的座位分布情況,無法直接移植到其它影廳,后期可以在人群統(tǒng)計方法的通用性、可移植性上進(jìn)行更多研究,可以利用前景圖像的其它特征對前景面積進(jìn)行自動校正。