(上海電力學(xué)院電子與信息工程學(xué)院,上海200090)
隨著現(xiàn)代化進(jìn)程的加快,人口流動(dòng)越來越頻繁,眾多人口涌入經(jīng)濟(jì)更發(fā)達(dá)、城市化水平更高的地區(qū)。大量密集人群對(duì)當(dāng)?shù)鼗A(chǔ)交通設(shè)施和公共安全帶來巨大挑戰(zhàn),也為人群的監(jiān)管治理提出更高要求。由于傳統(tǒng)的人工視頻監(jiān)控需耗費(fèi)大量人力,近年來出現(xiàn)了用于跟蹤、識(shí)別、場(chǎng)景理解的智能監(jiān)控算法,采用這些算法提取圖像序列特定的特征,再建模分析人群行為。光流場(chǎng)的計(jì)算最初由Horn等[1]提出,采用光流計(jì)算像素級(jí)相鄰幀之間的瞬時(shí)運(yùn)動(dòng),可獲取短時(shí)間的時(shí)空運(yùn)動(dòng)特性;Jodoin等[2]將光流法運(yùn)用于人群運(yùn)動(dòng)檢測(cè)。粒子流是基于流體動(dòng)力學(xué)的光流積分,Wu等[3]將粒子流運(yùn)用于異常人群行為檢測(cè);Yang等[4]提出一種新的特征描述符——多尺度光流直方圖(multi-scale histogramsof oriented optical flow,MHOF),能夠保留連續(xù)的空間信息和運(yùn)動(dòng)信息;Wang等提出能夠?qū)W習(xí)語義區(qū)的軌跡聚類,從密集的特征點(diǎn)提取軌跡,然后使用特殊的模型來加強(qiáng)軌跡之間的時(shí)空相關(guān)性,以檢測(cè)擁擠場(chǎng)景中行人的行為模式;Shao等[6]提出一種基于群體變遷的人群描述子算法,用于人群行為識(shí)別和人群運(yùn)動(dòng)模式分割。上述算法在一些特定場(chǎng)景,如人群密度較低、監(jiān)控視角尺度固定等情形有較好效果,對(duì)于高密度的人群場(chǎng)景,由于人群流動(dòng)雜亂、不同的人具有不同運(yùn)動(dòng)方式及環(huán)境干擾因素等,其智能監(jiān)控效果并不理想。
近年來,隨著深度學(xué)習(xí)的迅速發(fā)展,許多經(jīng)典且復(fù)雜的難題被解決或簡(jiǎn)化。Krizhevsky等[7]將卷積神經(jīng)網(wǎng)絡(luò)用于圖像識(shí)別并在ImageNet數(shù)據(jù)集上取得巨大的提升;Szegedy等[8-10]提出的Inception模型組合了不同的卷積核,可提升卷積神經(jīng)網(wǎng)絡(luò)的寬度;He等[11]提出殘差結(jié)構(gòu)的概念,加深卷積神經(jīng)網(wǎng)絡(luò)的深度。在視頻分析領(lǐng)域,涌現(xiàn)出一些新穎方法,Du等[12]將二維的卷積池化擴(kuò)展到三維,從而實(shí)現(xiàn)能夠提取時(shí)空特征的三維卷積神經(jīng)網(wǎng)絡(luò);Simonyan等[13]研究網(wǎng)絡(luò)分支結(jié)構(gòu),提出雙流卷積神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)分為兩個(gè)支路,將分別提取的時(shí)間特征和空間特征融合為時(shí)空特征;Ng等[14]結(jié)合長(zhǎng)短期記憶網(wǎng)絡(luò)(long short term memory,LSTM)和卷積神經(jīng)網(wǎng)絡(luò)兩種模型,先用卷積神經(jīng)網(wǎng)絡(luò)逐幀提取特征,再通過LSTM網(wǎng)絡(luò)處理時(shí)空信息。上述方法主要應(yīng)用于簡(jiǎn)單的動(dòng)作或手勢(shì)識(shí)別,面對(duì)復(fù)雜的人群場(chǎng)景,如何設(shè)計(jì)處理時(shí)空信息的神經(jīng)網(wǎng)絡(luò),如何提取有益于人群行為分析的特征,需進(jìn)一步探尋新的識(shí)別方法。為此,文中結(jié)合深度學(xué)習(xí)方法與傳統(tǒng)的計(jì)算機(jī)視覺方法,采用數(shù)據(jù)擴(kuò)增、時(shí)空殘差單元等策略及雙路Res-Inception深度網(wǎng)絡(luò)模型對(duì)密集人群行為進(jìn)行識(shí)別,以期提高密集人群行為識(shí)別的準(zhǔn)確率。
對(duì)于數(shù)據(jù)量有限的數(shù)據(jù)集,通常有兩種增強(qiáng)訓(xùn)練的方法:一種是對(duì)原始數(shù)據(jù)集進(jìn)行數(shù)據(jù)擴(kuò)增;另一種是用更大規(guī)模的同類型數(shù)據(jù)集訓(xùn)練,然后在原數(shù)據(jù)集上微調(diào)。其本質(zhì)都是擴(kuò)大訓(xùn)練數(shù)據(jù)量,讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到更多的特征。在圖像識(shí)別與分類領(lǐng)域,鏡像、隨機(jī)裁剪都是可行的數(shù)據(jù)擴(kuò)增技巧。通過數(shù)據(jù)擴(kuò)增,擴(kuò)大訓(xùn)練樣本從而增加數(shù)據(jù)的豐富性,減少過擬合。對(duì)于深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練來說,密集人群視頻數(shù)據(jù)集的樣本數(shù)仍偏少,需通過數(shù)據(jù)擴(kuò)增的方法對(duì)其樣本進(jìn)行擴(kuò)充。文中以香港中文大學(xué)密集人群視頻數(shù)據(jù)集(CUHK Crowd Dataset)為樣本(該數(shù)據(jù)集有474個(gè)視頻樣本,總數(shù)據(jù)量約6 Gbit),通過數(shù)據(jù)擴(kuò)增對(duì)其進(jìn)行擴(kuò)充,具體擴(kuò)增步驟如下:
1)將視頻數(shù)據(jù)分解為圖像序列,單幀圖像如圖1(a);
2)將原始圖像序列通過鏡像擴(kuò)增為原先的2倍,如圖1(b);
3)原始樣本的分辨率各不相同,需將所有圖像序列調(diào)整至同樣大小160×240,最后剪裁至128×128,如圖1(c)。
3D Res-Inception網(wǎng)絡(luò)模型如圖2,共使用9個(gè)時(shí)空殘差單元,4個(gè)最大值池化層和1個(gè)平均池化層,網(wǎng)絡(luò)的開端使用1個(gè)3×7×7的大尺度卷積和3×3×3的池化,隨后通過兩個(gè)卷積層和池化層將特征送入時(shí)空殘差單元,經(jīng)過多個(gè)時(shí)空殘差單元和最大值池化提取高層語義的時(shí)空信息,最后通過全連接層將特征展平,使用Softmax作為分類器輸出分類結(jié)果。
圖2 3D Res-Inception網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of 3D Res-Inception
Softmax的定義如式(1)
其中:M為總類別數(shù);a為M維向量;at,ak分別為a中的第t,k個(gè)元素。公式分子代表該元素的指數(shù),分母代表所有元素的指數(shù)和,兩者的比值為該元素的Softmax值,a中Softmax值最大的元素代表的類別即為分類類別。
為將預(yù)測(cè)的分類類別與真實(shí)類別相比較,采用分類交叉熵作為損失函數(shù),定義如(2)。
其中:L為損失函數(shù);N為訓(xùn)練樣本數(shù);i為樣本;j為類別;Ti,j為真實(shí)的分類標(biāo)簽;Pi,j為預(yù)測(cè)的分類結(jié)果。
針對(duì)視頻內(nèi)容,直接將二維網(wǎng)絡(luò)擴(kuò)增至三維網(wǎng)絡(luò),即將所有的卷積和池化進(jìn)行維度擴(kuò)展,如N×N卷積核提升為N×N×N,賦予其第一個(gè)維度為時(shí)間維度。類似于Inception V2結(jié)構(gòu),3D Inception主要有4個(gè)分支,第一個(gè)分支為1×1×1的卷積;第二個(gè)分支先經(jīng)過1×1×1卷積,再經(jīng)過3×3×3卷積;第三個(gè)分支先經(jīng)過1×1×1卷積,再經(jīng)過5×5×5卷積;第四個(gè)分支先經(jīng)過3×3×3的最大值池化,再經(jīng)過1×1×1卷積。此外,每個(gè)卷積之后使用修正線性單元(Rectified Linear Units,ReLU)作為非線性激活函數(shù),使用批歸一化(Batch Normalization,BN)將前一層的激活值重新規(guī)范化從而加速網(wǎng)絡(luò)收斂。通過不同的卷積組合,擴(kuò)展網(wǎng)絡(luò)結(jié)構(gòu)的寬度和深度,提升網(wǎng)絡(luò)性能,增強(qiáng)網(wǎng)絡(luò)對(duì)不同尺度特征的適應(yīng)性。
在3D Inception模型中,增加殘差連接組成完整的時(shí)空殘差單元,如圖3。殘差連接定義如式(3)
其中:xn和xn+1為n層的輸入和輸出;f為激活函數(shù)ReLU;F為殘差函數(shù);W為權(quán)重。
密集人群視頻識(shí)別問題的難點(diǎn)之一是如何獲得較好的時(shí)空特征。卷積神經(jīng)網(wǎng)絡(luò)能夠提取特征,且隨著網(wǎng)絡(luò)的加深,獲得的特征更加趨于高層語義。由于原始圖像序列為RGB圖像序列,通過神經(jīng)網(wǎng)絡(luò)獲得的高級(jí)特征主要包含人群的外觀信息,運(yùn)動(dòng)信息不夠全面。因此,文中在3D IRes-Inception網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,增加網(wǎng)絡(luò)運(yùn)動(dòng)分支結(jié)構(gòu),構(gòu)建雙路深度網(wǎng)絡(luò),運(yùn)用特征融合的方法,將兩條支路獲取的運(yùn)動(dòng)與外觀特征加以融合,擴(kuò)大總的特征維度,使神經(jīng)網(wǎng)絡(luò)獲得充分的時(shí)空信息。雙路深度網(wǎng)絡(luò)模型如圖4。
圖3 時(shí)空殘差單元Fig.3 Spatial-temporal residual unit
圖4 雙路深度網(wǎng)絡(luò)模型Fig.4 Deep network model of two branches
分析圖4可知,將相同的2個(gè)3D Res-Inception網(wǎng)絡(luò)合并,一個(gè)分支網(wǎng)絡(luò)用于提取外觀特征(輸入原始RGB圖像序列),另一分支網(wǎng)絡(luò)用于提取運(yùn)動(dòng)特征(輸入光流圖像序列),最后融合外觀和運(yùn)動(dòng)兩種特征,通過Softmax分類器輸出人群行為分類結(jié)果。光流圖像序列包含較長(zhǎng)時(shí)間內(nèi)人群的運(yùn)動(dòng)變化信息,連續(xù)的光流圖像可代表圖像中密集的軌跡信息,且光流法獲得的邊緣及位移信息有助于識(shí)別人群行為,故文中采用光流圖像序列作為運(yùn)動(dòng)分支的輸入。
為驗(yàn)證本文方法應(yīng)用于人群行為識(shí)別的效果,使用香港中文大學(xué)的人群行為數(shù)據(jù)集(CUHK crowd dataset)進(jìn)行實(shí)驗(yàn)。數(shù)據(jù)庫包含215個(gè)場(chǎng)景的474個(gè)監(jiān)控視頻,根據(jù)不同的人群行為,該數(shù)據(jù)集分為混合行走、方向一致的有序人流、方向一致的無序人流、人群合并、人群分流、反向人群交叉、電梯人流擁堵、電梯人流順暢等8類,數(shù)據(jù)集中無重復(fù)樣本。
數(shù)據(jù)集的分配按8∶2分為訓(xùn)練集和驗(yàn)證集,訓(xùn)練集中設(shè)置20%的隨機(jī)樣本作為訓(xùn)練網(wǎng)絡(luò)時(shí)的測(cè)試數(shù)據(jù)。訓(xùn)練樣本中的圖像序列長(zhǎng)短不一,若取16幀為無重疊劃窗的視頻幀數(shù),將有大量信息得不到充分利用。此外,分段剪輯的人群運(yùn)動(dòng)方式與整段人群運(yùn)動(dòng)方式基本保持一致。為此,將訓(xùn)練集中的數(shù)據(jù)按照25幀為1組,既擴(kuò)展了訓(xùn)練樣本數(shù),且使網(wǎng)絡(luò)得到充分訓(xùn)練。實(shí)驗(yàn)設(shè)備為配置TITAN XPascal顯卡的Linux系統(tǒng),框架后端為Tensorflow,前端為Keras。使用Adam優(yōu)化器,設(shè)置學(xué)習(xí)率為0.001,每批次10組樣本。
3.3.1 數(shù)據(jù)擴(kuò)增實(shí)驗(yàn)
為驗(yàn)證數(shù)據(jù)擴(kuò)增的有效性,將訓(xùn)練集進(jìn)行數(shù)據(jù)擴(kuò)增,在相同測(cè)試集上測(cè)試。原始數(shù)據(jù)和經(jīng)過擴(kuò)增的數(shù)據(jù)通過單支路3D Res-Inception網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果如表1。
表1 數(shù)據(jù)擴(kuò)增對(duì)分類結(jié)果的影響Tab.1_ Effect of data augmentation on classification results
從表1可看出,采用擴(kuò)增后的數(shù)據(jù)集進(jìn)行訓(xùn)練,準(zhǔn)確率相較原始數(shù)據(jù)提升3.76%,表明采用視頻數(shù)據(jù)擴(kuò)增方案可有效提升深度卷積神經(jīng)網(wǎng)絡(luò)性能。后續(xù)實(shí)驗(yàn)均在數(shù)據(jù)擴(kuò)增的基礎(chǔ)上進(jìn)行。
3.3.2 單、雙支路網(wǎng)絡(luò)結(jié)構(gòu)實(shí)驗(yàn)
為對(duì)比單支路結(jié)構(gòu)和雙支路結(jié)構(gòu)的網(wǎng)絡(luò)性能,分別使用RGB圖像序列和光流序列作為單分支網(wǎng)絡(luò)的輸入數(shù)據(jù)進(jìn)行實(shí)驗(yàn),結(jié)果如表2。比較表2中的數(shù)據(jù)可知:輸入RGB圖像序列的實(shí)驗(yàn)效果更佳,識(shí)別準(zhǔn)確率達(dá)92.16%;對(duì)于增加光流支路的雙路深度網(wǎng)絡(luò),準(zhǔn)確率達(dá)95.48%,與輸入RGB圖像序列單支路網(wǎng)絡(luò)相比,其準(zhǔn)確率提升3.32%,與輸入光流圖像序列單支路網(wǎng)絡(luò)相比,其準(zhǔn)確率提升7.98%,表明外觀和運(yùn)動(dòng)特性的組合可有效提高人群行為識(shí)別的準(zhǔn)確性。
表2 單、雙支路結(jié)構(gòu)分類結(jié)果Tab.2 Classification results of single branch and two branches
3.3.3 密集人群行為識(shí)別實(shí)驗(yàn)
用于密集人群行為識(shí)別的算法有基于群體變遷的人群描述子算法[6]、三維卷積網(wǎng)絡(luò)(3D CNN)、CNNLSTM、雙路3D CNN、雙路3D Res-Inception。其中:基于群體變遷的人群描述子算法是非深度學(xué)習(xí)在人群行為識(shí)別中的最佳算法,此算法構(gòu)建一種群體檢測(cè)器,系統(tǒng)量化一組描述子,用于群體狀態(tài)分析和人群行為理解;CNN-LSTM將光流序列和RGB圖像序列展平輸入CNN提取特征,然后通過LSTM獲取時(shí)空信息;3D CNN將二維卷積擴(kuò)展至三維,不僅運(yùn)用于動(dòng)作識(shí)別,在目標(biāo)檢測(cè)、時(shí)序檢測(cè)等領(lǐng)域也取得了較好的成果。3D CNN、雙路3D CNN、CNN-LSTM網(wǎng)絡(luò)模型等與本文提出的雙路3D Res-Inception網(wǎng)絡(luò)模型的實(shí)驗(yàn)效果如表3。從表3可看出,與傳統(tǒng)計(jì)算機(jī)視覺方法相比,深度網(wǎng)絡(luò)模型的識(shí)別準(zhǔn)確率有很大提升,而本文提出的雙路3D Res-Inception網(wǎng)絡(luò)模型則取得了更好的實(shí)驗(yàn)效果,該網(wǎng)絡(luò)使用的時(shí)空殘差單元較好地結(jié)合時(shí)空信息,雙路結(jié)構(gòu)融合了人群的外觀和運(yùn)動(dòng)特征。因此,提出的網(wǎng)絡(luò)模型更適合于密集人群行為分析。
表3 相近方法的分類結(jié)果Tab.3 Classification results of relative methods
構(gòu)建雙路3D Res-Inception卷積網(wǎng)絡(luò)結(jié)構(gòu),設(shè)計(jì)一種殘差時(shí)空單元用于提取視頻中的時(shí)空特征,網(wǎng)絡(luò)的分支一輸入原始的RGB數(shù)據(jù)用于提取人群視頻的外觀信息,分支二輸入光流序列用于提取人群視頻的運(yùn)動(dòng)信息,且在香港中文大學(xué)的人群數(shù)據(jù)集CUHK crowd dataset進(jìn)行實(shí)驗(yàn)驗(yàn)證。結(jié)果表明:該網(wǎng)絡(luò)結(jié)構(gòu)較好地解決密集人群的行為識(shí)別問題,與傳統(tǒng)的人群描述子算法、CNN-LSTM以及3D CNN網(wǎng)絡(luò)相比,其識(shí)別準(zhǔn)確率有較大提升。