沈加煒,陸一鳴,陳曉藝,錢美玲,陸衛(wèi)忠,3,4
(1.蘇州科技大學(xué)電子與信息工程學(xué)院,江蘇 蘇州 215009;2.蘇州科技大學(xué)天平學(xué)院,江蘇 蘇州 215009;3.蘇州科技大學(xué)蘇州智慧城市研究院,江蘇 蘇州 215009;4.蘇州科技大學(xué)蘇州市虛擬現(xiàn)實智能交互及應(yīng)用技術(shù)重點實驗室,江蘇 蘇州 215009)
隨著智能監(jiān)控設(shè)備在學(xué)校、商場、交通和其他人群密集的地方被廣泛部署,智能監(jiān)控設(shè)備為人們的日常生活帶來了安全保障,從而對它的需求也在不斷提高。但是一些需要解決的問題和挑戰(zhàn)也隨之而來,比如如何在錯綜復(fù)雜的環(huán)境下對視頻數(shù)據(jù)中的人類行為進(jìn)行精確檢測是一個難點。人體行為檢測的核心是結(jié)合機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等算法對視頻中人出現(xiàn)的行為進(jìn)行分類檢測,是視頻理解的關(guān)鍵技術(shù),也是近年來國內(nèi)外學(xué)者對計算機(jī)視覺領(lǐng)域研究的熱點[1-8]。
要對人的行為進(jìn)行準(zhǔn)確檢測首先需要對人的行為有一定的了解和認(rèn)識,從而順利檢測出異常事件。研究者可以采集到的視頻圖像數(shù)據(jù)已經(jīng)伴隨著智能拍攝設(shè)備的發(fā)展變得更加多樣化[9-17]。用于捕捉行為數(shù)據(jù)的視頻圖像類型已經(jīng)從USCD 等黑白監(jiān)控數(shù)據(jù)集[18]變?yōu)槭謩葑R別數(shù)據(jù)集[19],從UCF101這個單純的行為檢測數(shù)據(jù)集[20]更進(jìn)一步發(fā)展為內(nèi)容中攜帶著距離信息的RGB-D 數(shù)據(jù)集[21]。先前的人體行為檢測方法已經(jīng)跟不上數(shù)據(jù)集多樣化、規(guī)?;难杆侔l(fā)展,這對新檢測方法提出了更高的技術(shù)要求。大多數(shù)傳統(tǒng)的行為檢測方法采用人工提取特征的方式[22],大致可以分為3 個步驟:1)在檢測器的幫助下從視頻圖像中找到興趣點,如時空興趣點、運(yùn)動圖等特征;2)使用運(yùn)算器對興趣點周圍空間特征進(jìn)行建模,如局部特征聚合描述法;3)將這些提取好的特征送入分類器中得到分類結(jié)果,如支持向量機(jī)。上述3 個步驟的過程一方面識別精度不是很高,另一方面它們的模型效率也十分低。相比之下,近年來發(fā)展迅速的深度學(xué)習(xí)在目標(biāo)檢測和語音識別等領(lǐng)域應(yīng)用廣泛?;谏疃葘W(xué)習(xí)的算法模型在處理數(shù)據(jù)時會模擬人腦[23],通過提取從低級特征到高級特征的有效行為特征,實現(xiàn)了對智能視頻監(jiān)控中出現(xiàn)的行為動作的非線性描述,該方法可以很好地解決深度學(xué)習(xí)中數(shù)據(jù)量大、計算需求高的問題,比傳統(tǒng)算法更適合視頻圖像中行為檢測。除此之外,國家出臺發(fā)布的一系列關(guān)于“智慧園區(qū)”“智慧工廠”等安防工程和智能產(chǎn)業(yè)的發(fā)展政策也體現(xiàn)了我國對人工智能技術(shù)產(chǎn)業(yè)這方面的高度關(guān)注,并且智能安防領(lǐng)域的投入也會進(jìn)一步擴(kuò)大。因此基于深度學(xué)習(xí)的人體行為檢測方法不僅體現(xiàn)了人工智能在社會公共安全領(lǐng)域的應(yīng)用價值,而且可以進(jìn)一步提高我國居民社會的生活質(zhì)量,對經(jīng)濟(jì)發(fā)展具有重要意義。
本文的目的是對基于深度學(xué)習(xí)方法的人體行為檢測方法進(jìn)行論述,組織結(jié)構(gòu)可分為如下4個部分:
1)行為檢測數(shù)據(jù)集的簡介:選取4 種目前常見的公開數(shù)據(jù)集并對數(shù)據(jù)集的內(nèi)容進(jìn)行分析。
2)行為檢測研究的進(jìn)展:對目前與深度學(xué)習(xí)結(jié)合的行為識別檢測方法進(jìn)行分析,并總結(jié)模型的基本流程。
3)基于深度學(xué)習(xí)的人體行為檢測方法:針對4 種基于深度學(xué)習(xí)的行為識別檢測方法(循環(huán)神經(jīng)網(wǎng)絡(luò)、三維卷積神經(jīng)網(wǎng)絡(luò)、殘差網(wǎng)絡(luò)和雙流卷積神經(jīng)網(wǎng)絡(luò))進(jìn)一步進(jìn)行分析。
4)現(xiàn)存問題分析和未來方法發(fā)展趨勢的展望:從模型檢測方法存在的局限性和行為人肢體語言的復(fù)雜性方面闡述行為檢測方法存在的研究難點,同時展望人體行為檢測的未來發(fā)展趨勢及對其進(jìn)行改良的方法。
目前為了便于驗證相關(guān)算法的可行性,國內(nèi)外研究人員搜集整合了多個人體行為數(shù)據(jù)集供下載使用。本文將常用的人體行為識別檢測公共數(shù)據(jù)集根據(jù)其特點和獲取方式分為4 類:真實場景數(shù)據(jù)集、多視角數(shù)據(jù)集、通用數(shù)據(jù)集和特殊數(shù)據(jù)集。本文將涉及的行為檢測數(shù)據(jù)集介紹如表1所示。
表1 行為檢測數(shù)據(jù)集介紹
1)真實場景數(shù)據(jù)集。
真實場景的數(shù)據(jù)集,例如好萊塢、UCF 體育等[24-25]主要是從電影或[25]視頻采集得出。UCF 體育數(shù)據(jù)集是由Rodriguez等人從BBC、YouTube等處搜集得來,其中涵蓋了廣泛的場景類型和視角,從不同的視角拍攝,總共有101 種行為和150 個視頻的子數(shù)據(jù)集??梢园哑渲袆幼黝悇e大致分為5 類:人和人之間的互動、人和物體的交互、人在戶外的運(yùn)動、樂器的演奏和人體動作。好萊塢數(shù)據(jù)集是由Laptev 等人[24]從69部好萊塢電影中收集得來,共有3669個視頻,其中包含了12個動作類別:奔跑、散步、毆打、接吻、站立、握手、接聽電話、坐下、互擁、進(jìn)食、駕車、下車。上述介紹的數(shù)據(jù)集中存在著不規(guī)則性的視角、廣泛性的行為和多樣性的背景的共同規(guī)律。
2)多視角數(shù)據(jù)集。
多視角的數(shù)據(jù)集,例如PETS、MuHAVi 等數(shù)據(jù)集[26-27],主要是面向當(dāng)視角發(fā)生變化時行為卻不發(fā)生變化的標(biāo)準(zhǔn)數(shù)據(jù)集。MuHAVi 數(shù)據(jù)集是由來自英國工程和物理科學(xué)研究委員會的Singh 等人[27]收集得來,數(shù)據(jù)集內(nèi)共有952個視頻,其中包含了8個視角的17 種行為:正常行走、醉后行走、跪地行走、來回走、行走摔倒、跨越欄桿、來回?fù)]手、涂鴉、打拳、快速跑步、摔碎物品、看管車輛、向后摔倒、上下樓梯、原地跳躍、腳踢物體、彎腰撿物。PETS數(shù)據(jù)集是由來自歐盟贊助的Ferryman 等人從現(xiàn)實生活當(dāng)中收集得來,數(shù)據(jù)集內(nèi)共有22個視頻,其中包含了4個汽車的不同視角。該數(shù)據(jù)集主要是針對汽車四周出現(xiàn)的人體行為狀況進(jìn)行收集,根據(jù)收集到的視頻內(nèi)容可以將這些樣本用于行為預(yù)測、目標(biāo)檢測等方面。
3)通用數(shù)據(jù)集。
通用的數(shù)據(jù)集,例如KTH、Weiz-Man 等數(shù)據(jù)集[28-29],主要采集于實驗人員在固定場景下的執(zhí)行動作。KTH數(shù)據(jù)集是由Schuldt等人[28]收集得來并于2004 年在網(wǎng)上公開發(fā)布。該數(shù)據(jù)集內(nèi)一共有599 個視頻,背景單一固定。主要針對室內(nèi)、室外、不同衣著、不同放大倍率4種不同背景下的6種動作:正常行走、慢速行走、快速行走、原地跳躍、鼓掌、搖手。Weiz-Man 數(shù)據(jù)集是由Gorelick 等人[29]收集得來并于2005年在網(wǎng)上公開發(fā)布。該數(shù)據(jù)集內(nèi)一共有93個視頻,視角固定且分辨率低。主要包含了行走、快跑、跳遠(yuǎn)、側(cè)跳、原地跳、開合跳、揮手、揮雙手、彎腰、蹲下這10種不同的行為。
4)特殊數(shù)據(jù)集。
特殊的數(shù)據(jù)集,例如WARD、UCF-Kinect 等數(shù)據(jù)集[30-31],主要通過現(xiàn)代科技(傳感器、Kinect 相機(jī)等)來捕捉人體行為。WARD 數(shù)據(jù)集是由美國加州大學(xué)伯克利分校的Yang等人[30]通過在人體上放置運(yùn)動傳感器搜集得來。數(shù)據(jù)集內(nèi)共有1298 個實驗樣本,其中記錄了20 個實驗對象在手腕、腳踝和腰部綁著無線傳感器時的13 種日常行為:上樓梯、下樓梯、向左轉(zhuǎn)、向右轉(zhuǎn)、站立、端坐、順時針轉(zhuǎn)圈、逆時針轉(zhuǎn)圈、快速奔跑、原地跳躍、平躺、前進(jìn)和推輪椅。UCF-Kinect數(shù)據(jù)集是由Ellis 等人[31]采集得來,數(shù)據(jù)集中包含了15 個關(guān)節(jié)點的坐標(biāo)方向,共1280 個數(shù)據(jù)樣本。該數(shù)據(jù)集主要利用OpenNI平臺和Kinect傳感器對16位青少年實驗對象的16 種行為進(jìn)行記錄:向前走、向后走、向左平移、向右平移、攀爬、躲避、搏擊、奔跑、跳遠(yuǎn)、向左扭身、向右扭身、保持平衡、行走、上樓梯、下樓梯和踢腿。
最早開始對人體行為進(jìn)行檢測研究的是1997 年由美國國防高級項目研究局贊助的視覺監(jiān)控項目組,這項研究旨在對公共場合的場景進(jìn)行智能監(jiān)控[32]。國外對人體行為檢測的研究自此開始,陸續(xù)展開[33-38],其中就有來自波士頓大學(xué)和佛羅里達(dá)大學(xué)的計算機(jī)視覺實驗室。與國外率先開展的研究相比,中國的相關(guān)研究起步雖然較晚,但隨著智能監(jiān)控的迅速發(fā)展,已經(jīng)開展了一系列的研究。在深度卷積神經(jīng)網(wǎng)絡(luò)在計算機(jī)視覺任務(wù)中取得成功之前,各種傳統(tǒng)行為檢測(手工提取特征)是比較流行的方法。這些手工制作的特征通常提取顏色、紋理或邊緣信息,如最廣泛的手工特征之一是定向梯度直方圖(HOG)。此外,大多數(shù)現(xiàn)有的基于手工制作的方法要么采用通道特征,要么采用可變形部件模型作為基礎(chǔ)模型學(xué)習(xí)機(jī)制。它們被輸入到經(jīng)過訓(xùn)練的行人檢測器中進(jìn)行預(yù)測(分類)。由于現(xiàn)實世界中的行人出現(xiàn)在不同的尺度上,輸入的圖像首先被調(diào)整為不同的尺度,然后檢測器被應(yīng)用在每個尺度上以獲得預(yù)測。傳統(tǒng)的手工提取特征在預(yù)測準(zhǔn)確性方面是可取的,但這些方法過于繁瑣,消耗大量的人力和物力以及繁瑣的操作步驟且易受人為因素影響。其中來自中國科學(xué)院的Zhang 等人[39]將GMM 方法和K-Means 方法相結(jié)合對目標(biāo)對象的行為進(jìn)行分類,進(jìn)一步建立了異常行為分類的數(shù)據(jù)集。為了做出一個更優(yōu)的異常行為檢測系統(tǒng),香港中文大學(xué)的Li 等人[40]在模型特征提取的時候融入了人體骨骼點的幾何數(shù)據(jù),大大提升了檢測效率和精度。
伴隨著計算機(jī)的迅速發(fā)展,計算資源的計算力和計算速度也逐漸成熟。近年來,多種類的基于深度學(xué)習(xí)的行為預(yù)測模型方法發(fā)展迅速,許多學(xué)者和他們所在的研究機(jī)構(gòu)將卷積神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)方法用于視頻圖像的行為分類算法研究。相關(guān)研究進(jìn)展如表2所示。
表2 基于深度學(xué)習(xí)的行為檢測方法的研究分析
正常對人體行為進(jìn)行檢測一般有3 個步驟:跟蹤目標(biāo)及精確檢測、提取模型所需特征和利用模型進(jìn)行識別。
1)跟蹤目標(biāo)及精確檢測。
目標(biāo)跟蹤主要負(fù)責(zé)在指定的背景環(huán)境中定位到感興趣的位置和類別。它是行為分析和檢測的基礎(chǔ),目前常用跟蹤方法有基于目標(biāo)輪廓的跟蹤、基于模型的跟蹤、基于特地特征的跟蹤和基于選定區(qū)域的跟蹤。而目標(biāo)檢測的任務(wù)是在找到興趣點之后更進(jìn)一步確認(rèn)它們的類別和位置坐標(biāo)。如何快速穩(wěn)定準(zhǔn)確地定位目標(biāo)是它的研究核心,目前常用的目標(biāo)檢測方法有幀差法、背景差法和光流法。
2)提取模型所需特征。
特征提取主要負(fù)責(zé)用特征向量的形式來表達(dá)圖像中被提取出來的數(shù)據(jù),方便接下來的進(jìn)一步分析解讀。目前常用的可提取的特征有時空特征、運(yùn)動特征、外形特征以及上述兩兩結(jié)合的混合特征。
3)利用模型進(jìn)行識別檢測。
行為識別檢測負(fù)責(zé)將未知行為特征數(shù)據(jù)和已知行為特征數(shù)據(jù)進(jìn)行比對,通過二者的比對來對未知行為進(jìn)行分類,相似度高為同一類,反之則不是同一類。其算法內(nèi)涵可以看成時變數(shù)據(jù)的分類問題。目前常用行為識別檢測方法有利用狀態(tài)空間和利用模板匹配的方法。
特征提取的方法在傳統(tǒng)意義上可以大致分為2個部分:一是基于人體骨架動作幾何信息;二是基于時間和空間二者結(jié)合在一起的興趣點提取。這些方法中的行為特征一般是通過肉眼觀察或手工設(shè)計輔助工具來提取。但是傳統(tǒng)的人工特征在處理不同的復(fù)雜場景(如光照和遮擋)時并不通用,而基于深度學(xué)習(xí)的方法可以很好地解決這個問題,使得特征提取的學(xué)習(xí)效率更好?;谏疃葘W(xué)習(xí)的人體行為檢測方法將視頻圖像中包含的特征提取出來,進(jìn)行端對端的自學(xué)習(xí),進(jìn)而訓(xùn)練模型實現(xiàn)行為的分類。本文對目前常見的基于深度學(xué)習(xí)的4 種人體行為檢測方法(基于循環(huán)神經(jīng)網(wǎng)絡(luò)的檢測方法、基于三維卷積神經(jīng)網(wǎng)絡(luò)的檢測方法、基于殘差網(wǎng)絡(luò)的檢測方法和基于雙流卷積神經(jīng)網(wǎng)絡(luò)的檢測方法)的流程進(jìn)行了概括,如圖1所示。
圖1 基于深度學(xué)習(xí)的人體行為檢測方法流程圖
傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)在深度學(xué)習(xí)領(lǐng)域由于其獨(dú)立的輸入輸出取得了良好的進(jìn)展,但隨著針對性更強(qiáng)的進(jìn)一步深入研究,該神經(jīng)網(wǎng)絡(luò)在表示外界聲音和動態(tài)圖像等信息時,會丟失部分有價值的信息從而導(dǎo)致整體和部分被割裂無法學(xué)習(xí)。因此,引入循環(huán)神經(jīng)網(wǎng)絡(luò)來解決上述問題,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示?;谘h(huán)神經(jīng)網(wǎng)絡(luò)的行為檢測方法是針對輸入視頻數(shù)據(jù)中人員動作間的時間相關(guān)性,高效處理視頻幀與視頻幀之間的時間特征,但是由于速度的提高損失了一定的精確度。其中,Xt∈Rx表示t時刻的輸入;Ht∈Rh表示t時刻隱藏層的輸出,假設(shè)該層有h個神經(jīng)元;Ot∈Ro表示t時刻的預(yù)測輸出。針對可能出現(xiàn)的梯度消亡問題并加以解決,目前的行為預(yù)測研究中一般是對普通RNN 進(jìn)行變體建模,如Hao 等人[14]提出的長短時注意力機(jī)制RNN模型-LSTM,其在UCF101數(shù)據(jù)集上取得了88.9%的識別準(zhǔn)確率,具體單元結(jié)構(gòu)如圖3所示。
圖2 循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
圖3 LSTM單元結(jié)構(gòu)圖
基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法不僅可以將前一刻出現(xiàn)的信息及時捕捉,而且在下一刻的應(yīng)用計算中可以有效利用。這樣能夠很好地連接2 個相鄰幀之間的人體行為的時序特征從而提高在建模時的效率,但該方法的識別準(zhǔn)確率還有待進(jìn)一步提高。Donahue 等人[44]將CNN與LSTM相結(jié)合,提出了長時遞歸卷積神經(jīng)網(wǎng)絡(luò)(Long-term Recurrent Convolutional Network,LRCN)。輸入是單獨(dú)的圖片或視頻中的一幀,通過對視頻數(shù)據(jù)進(jìn)行特征提取,得到一個定長向量,用于表示數(shù)據(jù)特征,然后將其放到LSTM 中學(xué)習(xí),最后得到視頻數(shù)據(jù)的行為特征,實現(xiàn)對目標(biāo)行為的檢測,在UCF101 數(shù)據(jù)集上獲得了82.92%的平均檢測率。雖然在時域動態(tài)的特征建模和學(xué)習(xí)這2 個方面RNN 的表現(xiàn)令人滿意,但傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)的時間序列會隨著算法序列增大,解決不了長時依賴的問題,進(jìn)一步還可能會導(dǎo)致梯度消亡。
在綜合學(xué)習(xí)中,可以利用殘差進(jìn)行基礎(chǔ)模型構(gòu)建來達(dá)到模型的高準(zhǔn)確性。在統(tǒng)計學(xué)中,實際計算值與估算值之間的差距就是殘差。而在深度學(xué)習(xí)中,也可以利用各層殘差的擬合特性提高深度神經(jīng)網(wǎng)絡(luò)的性能。圖4 為殘差網(wǎng)絡(luò)的基本結(jié)構(gòu)。傳統(tǒng)上為了解決梯度存在的問題會初始化并正則化數(shù)據(jù),但這樣做也加深了網(wǎng)絡(luò)深度導(dǎo)致模型性能不高等問題。相比之下,使用殘差使得訓(xùn)練一個有效解決梯度問題的深度網(wǎng)絡(luò)變得容易。通過將網(wǎng)絡(luò)梯度流從后網(wǎng)絡(luò)層連接到前網(wǎng)絡(luò)層,可以提高網(wǎng)絡(luò)性能,從而加強(qiáng)行為檢測。
圖4 殘差網(wǎng)絡(luò)基本結(jié)構(gòu)
圖5 雙流卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
圖4 中,輸入x是F(x)的殘差,F(xiàn)(x)是經(jīng)過第一層線性變換并激活后的輸出。如果學(xué)習(xí)的特征為H(x),殘差F(x)=H(x)-x,則原始學(xué)習(xí)特征為F(x)+x。圖4 中表示在殘差網(wǎng)絡(luò)中第二層進(jìn)行線性變化激活前,F(xiàn)(x)加入了該層輸入值x后再激活后輸出。此外,F(xiàn)eichtenhofer 等人[68]將殘差網(wǎng)絡(luò)和圖像識別相結(jié)合,發(fā)現(xiàn)在面向小規(guī)模數(shù)據(jù)集時利用殘差網(wǎng)絡(luò)的2D卷積神經(jīng)網(wǎng)絡(luò)的識別效果很優(yōu)秀,但在處理大規(guī)模數(shù)據(jù)集時不如3D殘差神經(jīng)網(wǎng)絡(luò)。
殘差網(wǎng)絡(luò)中的殘差包含了圖像的信息,圖像信息的優(yōu)點是可以原樣傳遞下去。而圖像的詳細(xì)信息又被用另一個恒等的殘差保存了下來,從而在卷積層層面上有利的東西就很少。但對于一些深度較深的網(wǎng)絡(luò)而言,它們訓(xùn)練殘差網(wǎng)絡(luò)時存在梯度爆炸和梯度消失的問題,就會造成傳輸?shù)男畔G失。殘差網(wǎng)絡(luò)可以針對上述這些問題使輸入信息繞道傳到輸出即跳躍鏈接信息。這樣不僅帶來了傳遞信息時的穩(wěn)定性,也緩解了由于增加網(wǎng)絡(luò)深度帶來的梯度消失問題,同時也簡化了模型學(xué)習(xí)的難度。
日常生活中的視頻信息可以由空間和時間2 個部分組成,在視頻中的表面信息如人體、環(huán)境等是空間部分,而一對視頻幀之間存在的信息如目標(biāo)物體和捕捉儀器之間的動態(tài)變化則是時間部分。雙流卷積神經(jīng)網(wǎng)絡(luò)方法的特點在于它可以得到2 個CNN 網(wǎng)絡(luò)的預(yù)測結(jié)果,其中一個是RGB 圖像,而另一個是光流場內(nèi)含信息圖像。分別將這2 種信息輸入到一個CNN 網(wǎng)絡(luò)中之后,再融合它們的預(yù)測結(jié)果,從而達(dá)到更優(yōu)的結(jié)果。
Ji 等人[69]認(rèn)為雙流卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)應(yīng)該由2個深度網(wǎng)絡(luò)組成,因此作者提出了一種基于雙流網(wǎng)絡(luò)結(jié)構(gòu)的行為檢測方法,分別負(fù)責(zé)處理時間流卷積神經(jīng)網(wǎng)絡(luò)時間和空間流卷積神經(jīng)網(wǎng)絡(luò)空間維度。先將圖像序列信息從視頻幀和視頻幀之間的光流信息計算得出,接著將視頻幀進(jìn)行時間特征的疊加,再將RGB圖像內(nèi)的空間特征利用空間流卷積神經(jīng)網(wǎng)絡(luò)提取出來,最后把這2 個網(wǎng)絡(luò)的預(yù)測結(jié)果融合得到最終結(jié)果,取得了88.0%的精確度。Feichtenhofer 等人[70]在TSN 基礎(chǔ)上做了優(yōu)化提出STResNet 方法,針對不同尺度的時間信息采取相應(yīng)的方法行為識別,在時域上進(jìn)行了擴(kuò)展得到了更加優(yōu)異的結(jié)果關(guān)系?;陔p流卷積神經(jīng)網(wǎng)絡(luò)的檢測方法結(jié)構(gòu)圖如5所示。
卷積神經(jīng)網(wǎng)絡(luò)有2 個特點:參數(shù)共享和局部感知。參數(shù)共享的結(jié)構(gòu)與生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)相似,它降低了網(wǎng)絡(luò)背景下的模型復(fù)雜程度,減少了權(quán)重量,從而使得在面對如放縮、平移旋轉(zhuǎn)等簡單變化時抗干擾能力強(qiáng)。而且卷積神經(jīng)網(wǎng)絡(luò)跳過了對海量樣本復(fù)雜特征進(jìn)行提取這一步,直接將原始圖像輸入進(jìn)去,從而提高了模型的學(xué)習(xí)效率。相比靜態(tài)圖像分類,視頻的時序成分為行為識別檢測提供了額外的線索(運(yùn)動信息),并且會對視頻中的每幀圖像進(jìn)行同步數(shù)據(jù)增強(qiáng)[68]。局部感知即卷積神經(jīng)網(wǎng)絡(luò)不需要在底層就感知圖像信息中的每一個像素,而只需要感知局部像素,感知完畢后再在更高層上總括這些局部信息。每一層與每一層之間的神經(jīng)單元只有部分相連即局部連接,這種連接的方式使得將要輸入到已經(jīng)學(xué)習(xí)完畢的卷積核中的空間局部模式可以產(chǎn)生最強(qiáng)的響應(yīng)力。但是雙流網(wǎng)絡(luò)提取到的時序動作特征不是很全面,只能提取前后幀的時序動作特征,因此CNN 對于視頻序列的時序特征學(xué)習(xí)效果不是很好。
基于雙流卷積神經(jīng)網(wǎng)絡(luò)的檢測方法在針對視頻中行為信息的識別效率是十分高的,通過讓模型學(xué)習(xí)前后幀運(yùn)動信息中包含的特征,計算出每2 幀的密集光流后將密集光流圖像序列輸入。該方法雖然識別率較高,但需要對視頻中的光流圖像信息進(jìn)行預(yù)處理,而且訓(xùn)練時2 個網(wǎng)絡(luò)是獨(dú)立運(yùn)作的,這樣就導(dǎo)致了時間成本的增加且無法達(dá)到實時性的效果。
為了解決普通神經(jīng)網(wǎng)絡(luò)中出現(xiàn)的參數(shù)膨脹,研究者們提出了卷積神經(jīng)網(wǎng)絡(luò),即CNN。整個行為識別檢測的全連接神經(jīng)網(wǎng)絡(luò)過程中,它在卷積的前向計算過程加入了權(quán)重,而且是用非線性函數(shù)來表示的卷積層面輸出結(jié)果。目前,大多數(shù)學(xué)習(xí)單幀圖像的CNN特征都是基于二維的卷積神經(jīng)網(wǎng)絡(luò)。但這類方法忽略了幀與幀之間的內(nèi)在聯(lián)系,在特定的情況下會將關(guān)鍵信息丟失,因此基于三維的卷積神經(jīng)網(wǎng)絡(luò)成為新的選擇,這種對視頻中關(guān)鍵特征信息有保護(hù)作用的三維卷積神經(jīng)網(wǎng)絡(luò)是重要的人體行為檢測方向之一。三維卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖6 所示。目前為了減少計算量,使得三維卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)簡單,主流的有C3D 算法[71],該方法將卷積核變小,精簡了網(wǎng)絡(luò)結(jié)構(gòu);I3D 算法[72],該方法將光流的切片和堆疊在一起的多個RGB 幀包含在2個3D網(wǎng)絡(luò)中;P3D算法[73],該方法利用RESNET 方法構(gòu)將網(wǎng)絡(luò)構(gòu)建出來,并且利用殘差、并行和串行的方法將小卷積核連接起來;R(2+1)D[74]算法,該方法將三維卷積分成先執(zhí)行的2D 空間卷積和其次執(zhí)行的1D 時間卷積,使得時空信息處理的非線性化提升。Ji 等人[69]首先針對傳輸中的視頻數(shù)據(jù)內(nèi)的動態(tài)信息進(jìn)行跟蹤捕捉,對圖像視頻數(shù)據(jù)中存在的時空特征進(jìn)行有效提取,并在此研究基礎(chǔ)上提出了基于三維卷積神經(jīng)網(wǎng)絡(luò)的行為識別檢測。接著對硬連接層生成的光流通道、梯度通道和灰度通道進(jìn)行卷積和下采樣操作。最后將所有通道信息串聯(lián)起來,實現(xiàn)最終的行為表示。該網(wǎng)絡(luò)在UCF101 數(shù)據(jù)集獲得了85.2%的準(zhǔn)確率。三維卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)點是提取視頻中出現(xiàn)的時空特征很方便,但相對于二維卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)量較大較復(fù)雜[75],在數(shù)據(jù)量沒有達(dá)到一定樣本的時候使用該模型易產(chǎn)生過擬合的問題。
圖6 三維卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
本文選取幾種典型的算法在3個具有一定難度系數(shù)并且視角變化多、背景混雜強(qiáng)的數(shù)據(jù)集(UCF-101數(shù)據(jù)集、KTH數(shù)據(jù)集和Kinect數(shù)據(jù)集)上的表現(xiàn),分析它們的優(yōu)勢和存在的不足之處。這3 個數(shù)據(jù)集得到業(yè)界的認(rèn)可,不同算法類別在數(shù)據(jù)集上的表現(xiàn)見表3。
表3 不同算法類別在數(shù)據(jù)集上的表現(xiàn)
人體行為檢測是一個多學(xué)科的研究領(lǐng)域,涉及許多技術(shù)層面,被廣泛應(yīng)用。其發(fā)展趨勢一方面是相關(guān)技術(shù)的發(fā)展,如深度學(xué)習(xí)方法,另一方面是實際應(yīng)用需求的變化,如大規(guī)模監(jiān)控環(huán)境中的群體行為識別檢測。
1)數(shù)據(jù)采集的大數(shù)據(jù)化趨勢。
隨著不斷進(jìn)步的技術(shù),采集的數(shù)據(jù)形式由簡單的二維RGB 圖像到后來復(fù)雜度提升的三維圖像序列和四維RGBD 圖像序列,從單一視角和固定環(huán)境到多變?nèi)梭w的姿勢視角和環(huán)境照明和其他采集條件。許多新的人體運(yùn)動傳感設(shè)備不斷涌現(xiàn)使從多個來源和多種方式收集人體運(yùn)動數(shù)據(jù)成為可能。此外,大數(shù)據(jù)采集和數(shù)據(jù)的自我標(biāo)注將是行為識別檢測領(lǐng)域的研究趨勢之一。用于訓(xùn)練的行為數(shù)據(jù)的質(zhì)量和規(guī)模對行為算法的結(jié)果有很大的影響,特別是在應(yīng)用深度學(xué)習(xí)方法時,這進(jìn)一步加強(qiáng)了識別算法的數(shù)據(jù)依賴性,導(dǎo)致加大了對大數(shù)據(jù)采集的需求。2)行為檢測發(fā)展趨勢。
目前行為檢測發(fā)展趨勢可以大致分為:①高層次人體行為理解研究:目前,雖然在單一的行為檢測方面取得了突破性進(jìn)展,但非剛性的人體和高水平的復(fù)雜特征問題仍然是難以克服的困難。此外,對人類行為的理解還局限于簡單行為和標(biāo)準(zhǔn)姿勢的識別和分析,如何優(yōu)化行為檢測算法,實現(xiàn)對人類行為的高度理解和描述,是當(dāng)前研究的一個挑戰(zhàn)。②結(jié)合注意力機(jī)制的群體行為檢測研究:在現(xiàn)實生活中,人類活動不僅僅由單個人獨(dú)立完成,更多是取決于群體活動。因此,如何將單一的個體特征擴(kuò)展到用群體特征表示也是一個重點。大部分情況下,深層網(wǎng)絡(luò)比淺層網(wǎng)絡(luò)更有效,而使用注意力機(jī)制可以使網(wǎng)絡(luò)結(jié)構(gòu)往更深層次選擇關(guān)注位置,產(chǎn)生更具分辨性的特征表示。在原有的網(wǎng)絡(luò)基礎(chǔ)上加入注意力機(jī)制,產(chǎn)生更有效的高級特征,便于群體的行為識別。③結(jié)合語音信息的識別研究:人類行為識別檢測中的行為檢測和分析將不僅僅是一項理論研究,而是要在網(wǎng)絡(luò)、算法和感知方面進(jìn)一步接近社會的實際需求,進(jìn)行更廣泛的研究。此外,人類的語音信息內(nèi)容豐富,但容易受距離和環(huán)境的影響,而現(xiàn)階段的行為理解研究僅限于具體的姿勢識別,一旦姿勢視角發(fā)生變化,機(jī)器沒辦法迅速調(diào)節(jié)。如何將相對獨(dú)立的語音和視覺2 個部分有效結(jié)合在一起分析,從而促進(jìn)機(jī)器學(xué)習(xí)理解實現(xiàn)更好的行為識別檢測,將是未來的趨勢和挑戰(zhàn)。
3)模型性能與算法效率并行的趨勢。
目前建立多特征融合的行為識別檢測模型和更復(fù)雜的表示模型比單一特征表示模型的識別效果更好,但行為識別檢測算法的模型的復(fù)雜程度越高,不可避免地帶來算法效率變低的問題。所以從發(fā)展的角度來看,將低延遲的高性能算法和特征融合的模型兩者并行提高是符合技術(shù)發(fā)展的必然趨勢。
近年伴隨著人工智能技術(shù)的發(fā)展,異常行為檢測也取得了很多成就,而異常行為檢測的主流趨勢就是針對人體的行為檢測。雖然目前有很多利用機(jī)器學(xué)習(xí)方法的人體行為識別檢測技術(shù),但從整體上看,仍有許多研究難點有待解決。
1)實地具體部署困難。由于不同年齡、不同性別和不同心理等不可控因素的影響,并且人體行為具有高復(fù)雜性從而無法準(zhǔn)確預(yù)判下一步,這就對智能設(shè)備的算力水平提出更高的要求,同時較高的復(fù)雜度也給實時檢測帶來了難題。所以在大范圍監(jiān)控環(huán)境的應(yīng)用需求下,如何保證模型識別精度的同時降低其群體識別的復(fù)雜度,具有較高的研究價值。
2)缺少大規(guī)模的數(shù)據(jù)庫。人體行為預(yù)測的訓(xùn)練需要大量標(biāo)簽完整的數(shù)據(jù),但是由于多樣的環(huán)境和人體行為動作類別并且拍攝角度受限,導(dǎo)致了現(xiàn)實中對多變場景內(nèi)的樣本采集變得相對困難,從而導(dǎo)致樣本數(shù)量的缺少,無法進(jìn)行高效的訓(xùn)練。即使提出使用無監(jiān)督對抗網(wǎng)絡(luò)的方法來對有標(biāo)簽的數(shù)據(jù)集進(jìn)行調(diào)整,從而降低對人工標(biāo)簽的依賴性,但是無監(jiān)督或半監(jiān)督的發(fā)展還不夠成熟,在訓(xùn)練過程中會出現(xiàn)各種問題,所以如何在樣本數(shù)據(jù)減少的同時,還能繼續(xù)保持模型算法的高性能和準(zhǔn)確,仍需要進(jìn)一步探索。
3)受限于硬件的水平。基于深度學(xué)習(xí)的行為檢測方法由于受到使用工具GPU 和CPU 處理器等硬件條件的限制,沒有辦法直接將整個視頻或者多個連續(xù)視頻輸入到算法模型當(dāng)中進(jìn)行特征提取,不能達(dá)到實際應(yīng)用的要求。只能利用視頻中出現(xiàn)的連續(xù)幀當(dāng)中包含的冗余信息來替代整個視頻,這樣可能會導(dǎo)致關(guān)鍵信息的缺失而且無法將運(yùn)動信息很好區(qū)分開。所以如何根據(jù)現(xiàn)有設(shè)備提高識別精度,并且是否可以利用手機(jī)等小型設(shè)備輔助人體行為檢測可能是未來的研究熱點。
4)跨場景適應(yīng)力差。目前的行為識別檢測模型大多是在指定的場景下進(jìn)行訓(xùn)練,場景單一化。當(dāng)場景發(fā)生變化時,模型需要遷移到新的場景中重新進(jìn)行訓(xùn)練,增加了大量的時間成本和人力成本。而且行為預(yù)測旨在準(zhǔn)確判斷安全隱患和保護(hù)人員安全,當(dāng)下很多算法只做到了事后檢測,沒有辦法準(zhǔn)確事前預(yù)測。因此對于如何在模型中融入環(huán)境信息,在實時視頻流中遏制可能存在的安全問題的領(lǐng)域研究還需要進(jìn)一步的深入。
人體行為檢測最初的研究是從簡單的人體行為信息分析開始,接著伴隨著科學(xué)技術(shù)的不斷發(fā)展,逐漸開始了對特定性行為和非特定性行為進(jìn)行識別檢測,最后發(fā)展到從更高層次角度對提取出來的行為信息進(jìn)行分析。
從目前的研究現(xiàn)狀來看,對人體行為檢測方法的發(fā)展在理論研究的層面停滯過久,未來在算法、網(wǎng)絡(luò)、感知等方面還需要努力適應(yīng)人體行為的實際需要,繼續(xù)深入研究。從目前的發(fā)展趨勢來看,基于深度學(xué)習(xí)的識別方法無疑是一種非常有效的人體行為檢測手段,很有前途并保持研究熱點。相信隨著科學(xué)技術(shù)的不斷進(jìn)步,未來的人體行為檢測會更加地方便實用、抗干擾能力強(qiáng)、應(yīng)用廣泛,并且可以與智慧建筑、智能工廠和智慧園區(qū)建設(shè)等社會領(lǐng)域相融合,在社會公共安全等方面發(fā)揮重要作用。