王勇 謝旭軒 王瑛
摘要:人群計數(shù)在智能視頻監(jiān)控領(lǐng)域是一個研究的熱點(diǎn)。傳統(tǒng)的人群統(tǒng)計技術(shù),在低密度人群場景中有很好的效果,但是在高密度場景中表現(xiàn)欠佳。隨著卷積神經(jīng)網(wǎng)絡(luò)在圖像處理的技術(shù)突破,其具有對非線性映射的強(qiáng)大的學(xué)習(xí)能力,也適用于人群計數(shù)模型從圖像到人群數(shù)量非線性的關(guān)系。文中敘述了傳統(tǒng)的人群計數(shù)方法,介紹了基于卷積神經(jīng)網(wǎng)絡(luò)的經(jīng)典模型,最后介紹了密度圖的生成原理。
關(guān)鍵詞:人群計數(shù);視頻監(jiān)控;卷積神經(jīng)網(wǎng)絡(luò)
中圖分類號:TP18 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2020)15-0237-02
1引言
隨著我國科技技術(shù)突破,推動視頻監(jiān)控設(shè)備迅速普及建設(shè)。傳統(tǒng)的視頻監(jiān)依賴工作人員對數(shù)據(jù)進(jìn)行存儲、回放、捕抓。這種人工處理方式是非常耗時,處理的信息滯后,無法對一些緊急安全狀況作出預(yù)警和報警。隨著計算機(jī)視覺的發(fā)展,智能視頻監(jiān)控應(yīng)運(yùn)而生,智能視頻監(jiān)控夠?qū)討B(tài)視頻圖像進(jìn)行檢測和識別,進(jìn)而對目標(biāo)進(jìn)行分析和理解,在公共安全、交通狀態(tài)等監(jiān)控有廣泛的應(yīng)用。它拋棄了低效率人工處理方式,實現(xiàn)高效處理視頻數(shù)據(jù),讓視頻監(jiān)控設(shè)備更智能化,促進(jìn)了智慧城市的建設(shè)。而人群計數(shù)是智能視頻監(jiān)控領(lǐng)域的一個重要研究熱點(diǎn)。
人群計數(shù)在智能視頻監(jiān)控領(lǐng)域應(yīng)用主要是在車站、廣場等易發(fā)生突發(fā)事件區(qū)域。2015上海外灘廣場踩踏事件,主要原因人群過度擁擠導(dǎo)致人員摔倒發(fā)生疊壓,致使踩踏事件釀成。這直接導(dǎo)致的原因就是對高密度人群流量實時信息掌控能力不足,如果能通過智能視頻監(jiān)控對現(xiàn)場密集人群進(jìn)行智能分析及時預(yù)警,便能避免類似突發(fā)事件的發(fā)生。早期研究人員基于檢測、回歸、密度估計等方法實現(xiàn)了人群計數(shù),但這些模型大多都要經(jīng)過對圖像進(jìn)行前景分割處理,而前景分割是一件很復(fù)雜的事情,及其影響性能,而基于深度學(xué)習(xí)實現(xiàn)了端到端的模型訓(xùn)練,具有很好的模型泛化、特征表達(dá)能力,使得在人群計數(shù)有廣泛的應(yīng)用,相比傳統(tǒng)的方法在性能、準(zhǔn)確度上有顯著提高。
2研究現(xiàn)狀
2.1傳統(tǒng)方法
傳統(tǒng)的人群計數(shù)主要分為直接和間接模型,直接模型包括基于檢測器方法;間接模型主要是基于回歸方法和基于密度估計。早期研究人員主要是通過滑動窗口檢測器提取圖像中整體特征來檢測行人達(dá)到定量目的。整體的特征包括:Hoar小波、Edgelet特征等,然后通過分類器boost、隨機(jī)森林、支持向量機(jī)來學(xué)習(xí)以上特征;但是基于整體特征的模型適合低密度數(shù)據(jù)集,而對于高密度數(shù)據(jù)集效果很差。針對高密度集遮擋的場景,通過局部檢測的方法,利用人體某些特定部位,如人頭和肩膀表示人群特征。在遮擋的情況下局部特征相對于整體特征是比較容易提取的,使其結(jié)果更加準(zhǔn)確?;诨貧w的方法,針對的是具有復(fù)雜的前景圖像,通過回歸模型建立人群特征和人群數(shù)量的映射函數(shù),常用的回歸模型特征有邊緣、像素等,然后通過回歸模型SVM、線性回歸等來擬合人群特征和人群數(shù)量的函數(shù)關(guān)系。密度估計是基于回歸方法等改進(jìn),該類模型建立的是人群特征和人群數(shù)量的非線性關(guān)系,在高密度場景特征提取融合了空間信息,Zou Y通過學(xué)習(xí)子空間中局部圖像特征和局部密度圖之間的線性關(guān)系,通過子空間的線性關(guān)系來代替整體空間的非線性關(guān)系來降低模型計算復(fù)雜度。
2.2基于深度學(xué)習(xí)模型
近年來隨著GPU的技術(shù)的突破,深度學(xué)習(xí)在圖像處理有很大的改進(jìn),特別是基于CNN模型的應(yīng)用迅速普及,CNN具有很強(qiáng)的非線性學(xué)習(xí)能力,這點(diǎn)在人群計數(shù)中有很大的優(yōu)勢?;谏疃葘W(xué)習(xí)算法的人群計數(shù)實現(xiàn)了視頻數(shù)據(jù)端到端的訓(xùn)練,拋棄了傳統(tǒng)的回歸算法需要進(jìn)行前景分割。通過多層卷積提取的高層語義特征使得算法性能更加高效。
Y.Zhang等提出的MCNN模型,主要由不同大小的卷積核組成的三列卷積網(wǎng)絡(luò),通過三列卷積網(wǎng)絡(luò)分別提取不同尺度人群圖像特征,然后將不同尺度特征經(jīng)過1x1卷積核融合,達(dá)到增強(qiáng)模型穩(wěn)定性目的。該模型從任意視角和不同密度估計人群數(shù)量,它的每列能夠自適應(yīng)不同尺度特征變化,對不同場景用不同核大小卷積運(yùn)算提取不同尺度特征。
D.B.Samm等提出的SWITCHCNN,該模型在MCNN回歸網(wǎng)絡(luò)模型上增加了一個選擇分類器網(wǎng)絡(luò)。它首先對輸入的視頻幀數(shù)據(jù)進(jìn)行局部采樣,將圖像分為不同的局部,作為分類器網(wǎng)絡(luò)的輸入。然后通過switch開關(guān)選擇最佳的回歸網(wǎng)絡(luò),最終得出每個局部相應(yīng)的密度圖。模型優(yōu)點(diǎn)就是利用了視頻圖像不同幀之間人群密度變化來提高預(yù)測人群估計的準(zhǔn)確性。它的回歸網(wǎng)絡(luò)具有不同的感受域,針對各自適應(yīng)特定的規(guī)模輸入,使得該模型在大規(guī)模和透視變化中具有魯棒性。
Y.Li,x.Zhang等設(shè)計的CSRNET模型,該網(wǎng)絡(luò)主要包含前后兩個部分,前部分是一個卷積網(wǎng)絡(luò)用來提取2D特征,后部分是一個空洞卷積網(wǎng)絡(luò)使用擴(kuò)張卷積內(nèi)核來提取高密度集場景中多尺度上下文信息代替來池化操作。采用了端到端的訓(xùn)練方法。該模型摒棄了多列網(wǎng)絡(luò)膨脹的網(wǎng)絡(luò)結(jié)構(gòu),這種網(wǎng)絡(luò)設(shè)計參數(shù)較多,計算復(fù)雜,性能低。而且后端空洞卷積網(wǎng)絡(luò)能夠更容易提取人頭的邊緣信息,從而得到更高的精度,在高密度集場景中具有很好的性能。
3基于密度圖生成原理
基于深度學(xué)習(xí)的人群計數(shù),它的輸入是一張完整圖片,通過端到端的訓(xùn)練輸出是密度圖,然后對密度圖回歸積分(對像素點(diǎn)累加)就是最終要得圖片的相應(yīng)數(shù)量。在模型網(wǎng)絡(luò)訓(xùn)練之前先對圖片中人頭位置(xi)進(jìn)行標(biāo)注,記為δ(x-xi),那么這張圖片可以通過如下公式(1)數(shù)量化
4總結(jié)
基于深度學(xué)習(xí)的人群計數(shù)在近幾年受到了研究人員的廣泛關(guān)注,相比傳統(tǒng)的人群計數(shù),卷積神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征提取能力,在人群計數(shù)非線性關(guān)系中效果很好,對人群特征表征能力強(qiáng),對人群計數(shù)存在的遮擋、光照、圖像透視畸形問題,提供了很好的解決方案。