崔斌(浙江經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院)
視覺采集系統(tǒng)已經(jīng)在各類經(jīng)濟(jì)場景中逐步普及。歸納起來主要有三類應(yīng)用,首先是各類展館、會議中心,其中各類論壇、講座頻繁舉行。第二是各類市場經(jīng)營場所,交易人群眾多,人流量大。第三是伴隨著智能家居、智能辦公的推進(jìn),各類視頻采集設(shè)備進(jìn)入千家萬戶和辦公場所。當(dāng)前大部分場景下,還是停留在視覺信息采集和存儲上,很難實(shí)現(xiàn)實(shí)時監(jiān)控異常行為并進(jìn)行處置。伴隨著CNN(卷積神經(jīng)網(wǎng)絡(luò))、LSTM(長短期記憶網(wǎng)絡(luò))及深度學(xué)習(xí)建模等技術(shù)的發(fā)展,目前已經(jīng)具備了對異常行為提取、識別、學(xué)習(xí)及利用的條件,可以對視頻監(jiān)控畫面中出現(xiàn)的異常行為,如非安全時段進(jìn)入、進(jìn)入限制區(qū)域、人員跌倒、人員高速移動等行為進(jìn)行檢測,進(jìn)而對危險行為進(jìn)行預(yù)警,同時便于進(jìn)行事后的回溯。
(一)深度學(xué)習(xí)技術(shù)
隨著近年來計算能力和計算資源的飛速發(fā)展,計算及數(shù)據(jù)存儲的成本大大降低,網(wǎng)絡(luò)基礎(chǔ)設(shè)施的不斷改善,也為萬物互聯(lián)及高速數(shù)據(jù)傳輸提供了必要的條件。通過對問題特診的抽象總結(jié),建立深度學(xué)習(xí)模型,進(jìn)而提出問題解決方案方興未艾,尤其是在圖像識別,智能家居、自動駕駛等領(lǐng)域,已經(jīng)進(jìn)行了較多的有益嘗試。深度學(xué)習(xí)使用神經(jīng)網(wǎng)絡(luò)模型,將原始信息進(jìn)行抽象及逐層分解,進(jìn)而表示為分類及回歸,以及其他更高層的特征描述。
在視覺識別領(lǐng)域,對捕捉到的視頻行為進(jìn)行比較及分類一直以來都比較困難。最初采用的是單標(biāo)簽分類法,即某一段視頻只會標(biāo)注一個標(biāo)簽,如攀爬、跳躍、行走等。隨著技術(shù)的發(fā)展,目前較多的采用多標(biāo)簽的技術(shù),同時可以添加時序、場景等維度,從而將視頻進(jìn)行多維度,細(xì)化的分類。同時由于一些異常事件的相關(guān)的樣本較少,即小概率事件樣本的采集及數(shù)據(jù)積累比較困難,需要逐步建立起異常行為數(shù)據(jù)樣本庫。
(二)CNN(卷積神經(jīng)網(wǎng)絡(luò))
1998 年,LeCun 等人[1]提出了名為 LeNet-5 的首個卷積神經(jīng)網(wǎng)絡(luò)(Convoluted Neural Network,CNN)模型,這個模型涵蓋了全連接層、池化層和卷積層,該模型主要應(yīng)用于從原始數(shù)據(jù)中進(jìn)行提取事務(wù)特征的場景。隨著深度學(xué)習(xí)應(yīng)用領(lǐng)域的不斷拓展,CNN 成為了該領(lǐng)域使用范圍最廣、相關(guān)支持廠家較多的一種研究模型。Two-Stream CNN 方法[2]最早是 VGG 團(tuán)隊在 NIPS 上提出來的,現(xiàn)在已經(jīng)成為了動作識別方面研究的一個主流方向。Two-Stream CNN方法如其名字一樣由兩部分組成,第一部分用于圖像處理,第二部分負(fù)責(zé)處理光流信息,最后將兩個部分進(jìn)行整合、分類并存儲。
在雙流CNN 基礎(chǔ)上,后期又提出了TSN(Temporal Segments Networks),此方法是雙流CNN 的改進(jìn)。TSN 的策略是將視頻信息分成 K 個分段,然后對這K 個分段的每個分段都隨機(jī)的選出一個更短的片段,對這些更短的片段,采用雙流CNN 的策略進(jìn)行特征提取,最后再對這些片段上采集的信息進(jìn)行進(jìn)一步的融合,進(jìn)而提高視頻識別的準(zhǔn)確性。
(三)LSTM(長短期記憶網(wǎng)絡(luò))
隨著技術(shù)的發(fā)展,Hochreiter[3]等人提出了長短期記憶網(wǎng)絡(luò)(Long-Short Term Memory,LSTM)技術(shù)。LSTM 是一種特殊的 RNNs,相對于 RNNs 不會有梯度消失的問題,它能夠?qū)W習(xí)長期依賴。經(jīng)過相關(guān)研究者的不斷努力,該技術(shù)變得越來越成熟。通過特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)模型,解決對時間序列的依賴問題。長短時記憶網(wǎng)絡(luò)由遺忘門、傳入門、輸出門組成,可以擬合序列數(shù)據(jù),通過遺忘門和輸出門忘記部分信息來解決梯度消失的問題[4]。
LSTM 非常適合處理與時間序列高度相關(guān)的問題,它可以方便的對視頻中的短時間和長時間信息進(jìn)行模擬,但是也存在缺點(diǎn),即對未來信息未能處理,只能從單一方向?qū)W習(xí)。雙向長短時記憶網(wǎng)絡(luò)(Bi-LSTM)對傳統(tǒng)的LSTM 進(jìn)行了改進(jìn),捕獲了相關(guān)信息的發(fā)生時間,從時間點(diǎn)前后進(jìn)行了信息的捕獲,模擬相反方向的信息,具有更強(qiáng)的針對時序信息的處理能力。
(四)三維卷積及行為預(yù)測
三維卷積在CNN 的基礎(chǔ)上,進(jìn)一步采集更多的時間及空間信息。3D 卷積將輸入的多個連續(xù)幀堆疊成立方體,然后使用 3D卷積在堆疊立方體中執(zhí)行卷積操作。[5]這種結(jié)構(gòu),可以進(jìn)行提取特征的累加,捕獲各類運(yùn)動信息,并對具有近似特種的多個連續(xù)圖像進(jìn)行連接,比對,過濾相同特征信息。三維卷積中單次卷積操作則可同時對指定時間長度視頻幀的同一個二維局部區(qū)域進(jìn)行卷積,再對提取到的特征進(jìn)行疊加,針對連續(xù)3 張輸入圖片使用兩種卷積核進(jìn)行三維卷積后可以得到2 張?zhí)卣鲌D[6]。通過視頻檢測中捕捉到的信息,需要對后續(xù)的行為進(jìn)行預(yù)測,在此方面相關(guān)學(xué)者也進(jìn)行了較多的嘗試。行為的預(yù)測主要分類兩個大類,第一類是研究人和空間的關(guān)系,并預(yù)測在特定空間下,人的后續(xù)行為。另一類是研究人與人之間的關(guān)系,這類研究難度極大,即判斷特定人之間,某個或某類人群的后續(xù)行為。由于人員特征識別及分類的困難性,以及特定群體人群定義的復(fù)雜性,人類行為中的偶然性,情緒左右的突發(fā)性等問題,從而帶來預(yù)測結(jié)果的不確定性和多樣性。在異常行為檢測方面提出了生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)理論,該理論提出生成器和判別器的概念,通過生成器和判別器的對抗性學(xué)習(xí)訓(xùn)練。
本次研究主要針對人群異常行為的檢測,在正常視頻監(jiān)控及畫面錄制的基礎(chǔ)上,系統(tǒng)對視頻畫面進(jìn)行的異常行為進(jìn)行定位,當(dāng)人群中出現(xiàn)異常行為時,系統(tǒng)需要能夠?qū)Ξ惓P袨檫M(jìn)行詳細(xì)記錄,必要時對異常行為進(jìn)行報警。對異常行為或異常行為人進(jìn)行重點(diǎn)的視頻畫面捕捉,為事后的回溯追蹤做準(zhǔn)備。該系統(tǒng)原型主要由五部分組成視頻信息采集、異常數(shù)據(jù)資源庫、數(shù)據(jù)處理模塊、數(shù)據(jù)訓(xùn)練模塊、異常行為捕獲及展示,各模塊具體實(shí)現(xiàn)細(xì)節(jié)如下:
(一)視頻信息采集
該模塊主要完成正常的視頻數(shù)據(jù)信息采集,包括視頻錄制、分頻道存儲,云臺自動控制、夜視補(bǔ)光、數(shù)據(jù)網(wǎng)絡(luò)存儲等。目前大部分的人員密集場所室已經(jīng)具備視頻監(jiān)控條件,但是對部分老舊的設(shè)備,如模擬攝像機(jī)、非聯(lián)網(wǎng)攝像機(jī)、標(biāo)清攝像機(jī)等設(shè)備,還需進(jìn)行更換,否則無法實(shí)現(xiàn)異常行為的檢測。同時對于重點(diǎn)區(qū)域、重點(diǎn)設(shè)備存放處要加大攝像機(jī)的布置數(shù)量,確保監(jiān)控?zé)o死角,同時對走廊,出入口等位置要配備清晰度高廣角攝像機(jī),以便對人群實(shí)現(xiàn)高覆蓋的監(jiān)控。
(二)異常數(shù)據(jù)資源庫
對于深度學(xué)習(xí)來說,其中一個關(guān)鍵點(diǎn)就是如何建立足夠豐富的學(xué)習(xí)資源庫,在這里需要引進(jìn)異常行為數(shù)據(jù)資源,如各種跳躍、聚集、快速跑動、物品傾覆、火光等,這些數(shù)據(jù)資源分類存儲以后,相關(guān)異常事件發(fā)生時,可以針對捕捉到的異常行為,在資源庫中進(jìn)行比對,從而快速確定異常事件,并進(jìn)行必要的操作或預(yù)警。
(三)數(shù)據(jù)處理模塊
首先,將視頻幀使用雙線性差值縮放成圖片,將圖片處理按照標(biāo)準(zhǔn)化進(jìn)行。將連續(xù)的視頻幀作為一個單元,在單元基礎(chǔ)上進(jìn)行疊加,從而使其成為一條訓(xùn)練樣本。從而形成一個描述為寬、深、高、頻道四個維度的矩陣,各個維度以數(shù)字化形式描述特征,如彩色圖像描述為1,黑白圖像描述為0。
(五)異常行為捕獲及展示模塊
異常行為捕獲及展示模塊,主要是在視頻監(jiān)控過程中,對檢測畫面分幀進(jìn)行識別及比對,結(jié)合預(yù)測信息和重構(gòu)的誤差計算出檢測行為與深度學(xué)習(xí)資料庫信息中的異常行為相似度得分。進(jìn)一步生成異常區(qū)域視圖,異常人群高清晰度面部捕捉、異常行為告警、全局畫面人數(shù)統(tǒng)計、人群擁堵報警、貴重設(shè)備移動警告、紅線區(qū)域闖入告警燈信息,并可以通過各類終端進(jìn)行展示。