周義 范樓苗 張舟
摘要:行為識(shí)別是計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)重要研究課題,具有廣泛的應(yīng)用前景。針對(duì)現(xiàn)實(shí)中對(duì)視頻整體序列結(jié)構(gòu)建模會(huì)增加大量的冗余信息,提出了一種基于時(shí)空關(guān)注度長(zhǎng)短期記憶網(wǎng)絡(luò)(spatial-Temporal Attention Long-Short Term Memory.STA-LSTM)的行為識(shí)別框架,提高了行為識(shí)別效率。利用GoogLeNet逐層卷積視頻幀,自動(dòng)聚合蘊(yùn)含邊、角和線等底層特征以生成具有顯著結(jié)構(gòu)性的高層語(yǔ)義特征。在LSTM中引入關(guān)注度網(wǎng)絡(luò)來(lái)學(xué)習(xí)關(guān)注度權(quán)重,利用光流掩膜分割有效的運(yùn)動(dòng)前景區(qū)域,從而優(yōu)化關(guān)注度權(quán)重,將其與卷積特征相結(jié)合作為STA-LSTM模型的輸入特征,從而進(jìn)行行為識(shí)別。在UCF101數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文方法優(yōu)于當(dāng)前的一些先進(jìn)方法。
關(guān)鍵詞:行為識(shí)別;長(zhǎng)短期記憶網(wǎng)絡(luò);關(guān)注度;光流掩膜
0引言
識(shí)別視頻中的行為動(dòng)作是計(jì)算機(jī)視覺(jué)重要任務(wù)之一,其目的是從視頻中提取、分析和表達(dá)行為動(dòng)作信息。該技術(shù)正被廣泛應(yīng)用于視頻監(jiān)控、人機(jī)交互、醫(yī)療看護(hù)等領(lǐng)域。隨著深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺(jué)中越來(lái)越多的應(yīng)用,也為研究行為識(shí)別開(kāi)拓了新的方向。然而深度學(xué)習(xí)本身由于需要大數(shù)據(jù)量和網(wǎng)絡(luò)參數(shù)數(shù)目過(guò)多等局限性,使得模型在計(jì)算方面付出了較大的代價(jià)。對(duì)此,本文重點(diǎn)研究如何挖掘視頻中的有效信息,設(shè)計(jì)泛華能力強(qiáng)的深度神經(jīng)網(wǎng)絡(luò),識(shí)別視頻中的行為動(dòng)作。
早期的一些研究主要是利用卷積神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)視頻中行為的深度表達(dá)。Karpathy等人介紹了一種多規(guī)模Sports-1M視頻數(shù)據(jù)集,來(lái)訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)。Simonyan等人提出一種雙流卷積神經(jīng)網(wǎng)絡(luò),通過(guò)分別處理RGB圖像和光流圖中的外觀和運(yùn)動(dòng)信息達(dá)到了比較好的行為識(shí)別效果。然而,使用卷積神經(jīng)網(wǎng)絡(luò)僅能捕捉極少的時(shí)序信息。對(duì)此,循環(huán)神經(jīng)網(wǎng)絡(luò)能夠較好地解決這個(gè)問(wèn)題,尤其是LSMe.在視頻序列建模方面效果顯著。然而現(xiàn)實(shí)場(chǎng)景中,由于視頻時(shí)長(zhǎng)以及視頻中動(dòng)作所發(fā)生的區(qū)域不同,對(duì)視頻整體序列結(jié)構(gòu)建模會(huì)增加大量的冗余信息。對(duì)此,本文在循環(huán)神經(jīng)網(wǎng)絡(luò)中引入關(guān)注度機(jī)制,其能夠模擬人類視覺(jué)注意力轉(zhuǎn)移機(jī)制,將有限的認(rèn)知資源聚集于場(chǎng)景中重要的刺激,而抑制那些不重要的信息。具體來(lái)說(shuō),利用GoogLeNet逐層卷積視頻幀,自動(dòng)聚合蘊(yùn)含邊、角和線等底層特征,以生成具有顯著結(jié)構(gòu)性的高層語(yǔ)義特征。在LSTM模型中引入關(guān)注度機(jī)制,來(lái)學(xué)習(xí)關(guān)注度權(quán)重系數(shù)矩陣。由于視頻中的背景噪聲和相機(jī)移動(dòng)等因素的影響,利用卷積神經(jīng)網(wǎng)絡(luò)作用于RGB圖像得到的特征不能準(zhǔn)確地捕捉視頻中的行為動(dòng)作信息。針對(duì)這個(gè)問(wèn)題,本文利用光流掩膜對(duì)視頻中的運(yùn)動(dòng)前景區(qū)域進(jìn)行分割,以此來(lái)校正網(wǎng)絡(luò)所學(xué)習(xí)到的關(guān)注度權(quán)重。將關(guān)注度系數(shù)和卷積特征相結(jié)合,生成新的特征激活圖序列。其中高值表示顯著性區(qū)域,即得到STA-LSTM網(wǎng)絡(luò)的顯著性輸入特征,然后對(duì)特征進(jìn)行學(xué)習(xí),從而識(shí)別視頻中的行為。本文主要貢獻(xiàn)是:
(1)提出了一種新穎的深度學(xué)習(xí)框架——STA-LSTM用于視頻中的行為識(shí)別,在端到端的處理過(guò)程中,本文方法可以準(zhǔn)確地捕捉行為的外觀信息和動(dòng)作信息。
(2)提出的STA-LSTM模型能夠有效地去除冗余信息,提取行為發(fā)生的有效區(qū)域,提高模型識(shí)別效率。
(3)將本文方法應(yīng)用于UCF101數(shù)據(jù)集取得了良好的識(shí)別效果,與當(dāng)前一些優(yōu)秀的研究工作相比,在識(shí)別性能方面得到了顯著地提升。
1相關(guān)工作
行為識(shí)別的目的是從未知視頻或圖像序列中自動(dòng)識(shí)別其中進(jìn)行的行為動(dòng)作,行為本身是相關(guān)聯(lián)的一系列二維空間圖像在時(shí)間方向上的連接。因此,行為本身具有空間和時(shí)間上的結(jié)構(gòu)關(guān)聯(lián)特性。行為特有的空間和時(shí)間結(jié)構(gòu)特性,為許多研究者指明了行為識(shí)別的正確方向。
早期行為識(shí)別主要使用一些傳統(tǒng)算法,Vemulapalli等人在Lie群組中用曲線表示每個(gè)動(dòng)作并且使用SVM分類器來(lái)識(shí)別行為,Zanfir等人提出了一種移動(dòng)姿態(tài)框架,結(jié)合修改后的kNN分類器進(jìn)行低延遲行為識(shí)別。Carlsson等人通過(guò)從動(dòng)作視頻中提取到的關(guān)鍵幀以及保存的動(dòng)作原型之間做模板來(lái)完成行為,其中,形狀信息是用Canny邊緣檢測(cè)器得到的邊緣數(shù)據(jù)來(lái)表示的。這種方法能夠容忍圖像和樣本之間一定程度的形變,且能夠準(zhǔn)確識(shí)別不同人體姿態(tài)形成的相似的形狀。Tang等人采用隱馬爾科夫(HMM)模型建模行為的隱狀態(tài)變化過(guò)程。Pei等人將行為分解為具有語(yǔ)義原子動(dòng)作集合并定義原子為行為體與目標(biāo)交互關(guān)系的集合,通過(guò)與或圖學(xué)習(xí)原子動(dòng)作的時(shí)序關(guān)系,能夠有效剔除時(shí)序錯(cuò)誤的與或圖行為解釋,提升了識(shí)別及預(yù)測(cè)行為的性能。
后來(lái)深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺(jué)中得到廣泛應(yīng)用,Heilbron等人)使用序列編碼器(即LSTM),可以模擬隨著時(shí)間推移的C3D特征的演變,使用定位模塊生成整個(gè)輸入視頻中不同時(shí)間長(zhǎng)度的候選提議的開(kāi)始和結(jié)束時(shí)間,以進(jìn)行行為提議。Simonyan等人通過(guò)在光流上訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)整合運(yùn)動(dòng)信息。利用外觀和光流特性,動(dòng)作識(shí)別的準(zhǔn)確性顯著提高。Lin等人嘗試使用序列過(guò)程提取時(shí)空特征,即提取一維時(shí)間信息到二維空間信息。該端到端系統(tǒng)考慮長(zhǎng)短運(yùn)動(dòng)模式,并實(shí)現(xiàn)良好的性能。NC等人運(yùn)用深度神經(jīng)網(wǎng)絡(luò)模型,結(jié)合幀序列分析視頻的長(zhǎng)期依賴信息用于行為識(shí)別。Srivastava等人提出了一種基于興趣點(diǎn)LSTM的無(wú)監(jiān)督訓(xùn)練方法,使用編碼器LSTM將輸入序列映射成固定長(zhǎng)度表示;然后使用單個(gè)或多個(gè)解碼器LSTm.對(duì)其進(jìn)行解碼以執(zhí)行輸入序列的重構(gòu)或預(yù)測(cè)未來(lái)序列:最后對(duì)這個(gè)無(wú)監(jiān)督的預(yù)訓(xùn)練LSTM進(jìn)行微調(diào),以適應(yīng)人類行為識(shí)別任務(wù)。
融入注意力機(jī)制的循環(huán)網(wǎng)絡(luò)模型可以提取行為發(fā)生的時(shí)空有效區(qū)域,有效剔除視頻中的冗余信息。Yao等人介紹了一種時(shí)序注意力機(jī)制用于視頻標(biāo)題生成。Bazzani等人提出一種關(guān)注度模型學(xué)習(xí)視頻中的重要區(qū)域,對(duì)每一幀使用高斯混合進(jìn)行視覺(jué)關(guān)注度建模。Sharma等人使用三層LSTM網(wǎng)絡(luò),引人注意力機(jī)制,在網(wǎng)絡(luò)中加入關(guān)注區(qū)域的移動(dòng)、縮放機(jī)制,連續(xù)部分信息的序列化輸入,學(xué)習(xí)視頻的關(guān)鍵運(yùn)動(dòng)部位。受這些研究工作的啟發(fā),本文使用光流掩膜對(duì)視頻中的運(yùn)動(dòng)前景區(qū)域進(jìn)行分割,在不增加模型復(fù)雜度的情況下,還能利用重要的運(yùn)動(dòng)信息,能夠有效提取場(chǎng)景中顯著性區(qū)域,實(shí)驗(yàn)結(jié)果表明本文方法取得了良好的識(shí)別正確率。
2 模型框架
本文的模型架構(gòu)如圖1所示。首先利用GoogLeNet對(duì)視頻幀序列進(jìn)行卷積,提取最后一層卷積層特征:在LSTM中引入關(guān)注度機(jī)制,作用于卷積層特征的每一個(gè)區(qū)域;利用光流掩膜提取每一幀的運(yùn)動(dòng)前景區(qū)域作用于關(guān)注度網(wǎng)絡(luò),得到新的關(guān)注度權(quán)重矩陣,將之與卷積層特征相結(jié)合。作為STA-LSTM模型的輸入特征,通過(guò)對(duì)特征的學(xué)習(xí),進(jìn)而對(duì)視頻中的行為進(jìn)行識(shí)別。
2.1 特征提取
本文使用在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練好的GoogLeNet模型,逐層卷積已重新調(diào)節(jié)大小為224×224的視頻幀序列,提取最后一層卷積層特征。此卷積層包含1024個(gè)特征圖,包含了輸入視頻幀的空間外觀信息,其形狀為7x7×1024大小的特征立方體。因此,在每一個(gè)時(shí)間步長(zhǎng)t.提取的向量維度是49x 1024。將這些特征立方體分解為特征片段:Gt=[Gt.1,Gt.2,…Gt.49],這49個(gè)特征片段對(duì)應(yīng)于輸入視頻幀的不同區(qū)域,本文的關(guān)注度模型就是選擇性地關(guān)注這49個(gè)區(qū)域。
2.2 時(shí)空關(guān)注度的表達(dá)
使用GoogLeNet得到最后一層卷積層特征之后,在LSTM中引入關(guān)注度機(jī)制,作用于卷積層特征的每一個(gè)區(qū)域。同時(shí),利用光流掩膜分割有效的運(yùn)動(dòng)前景,從而修正行為發(fā)生的有效區(qū)域,即本文提出的STA-LSTM模型,如圖2所示。圖中左側(cè)藍(lán)色框內(nèi)為初始化記憶單元和隱單元。為了達(dá)到快速收斂的效果,使用兩個(gè)三層感知器來(lái)初始化STA-LSTM模型的記憶單元和隱單元,以此來(lái)計(jì)算初始的關(guān)注度得分公式如下:
行為識(shí)別中,視頻幀中僅有一部分區(qū)域和行為發(fā)生相關(guān)。顯然,為視頻幀中不同的區(qū)域分配不同的關(guān)注度權(quán)重,只需要關(guān)注這些行為發(fā)生的區(qū)域。如圖1所示,針對(duì)打網(wǎng)球這一行為而言,主要關(guān)注點(diǎn)為手臂、球拍和網(wǎng)球本身。由于視頻幀本身是連續(xù)的,相鄰幀之間存在強(qiáng)烈的時(shí)序依賴關(guān)系,所以可以利用t-1時(shí)刻的編碼特征來(lái)預(yù)測(cè)t時(shí)刻的關(guān)注度權(quán)重,然后用此權(quán)重來(lái)精煉模型的輸入特征,t時(shí)刻單個(gè)STA-LSTM單元結(jié)構(gòu)如圖2所示。使用關(guān)注度模型作用于視頻幀中的7x7個(gè)區(qū)域來(lái)預(yù)測(cè)49個(gè)區(qū)域的關(guān)注度權(quán)重,其得分lt.i可以表示為:
其中,Wl.i表示softmax函數(shù)對(duì)應(yīng)于第i個(gè)位置的權(quán)重,i=1.2.…,49.t=1.2.…,T;T為序列化幀數(shù)的長(zhǎng)度;lt.i表示第‘幀的第i個(gè)區(qū)域的關(guān)注度權(quán)重。
由于場(chǎng)景中存在背景噪聲的干擾,而且同種行為可以發(fā)生在不同的場(chǎng)景中,因此,人們利用光流掩膜對(duì)運(yùn)動(dòng)前景和后景進(jìn)行分割,對(duì)行為的發(fā)生區(qū)域進(jìn)行初始劃分,表示為mt.i,當(dāng)分割后的第i個(gè)區(qū)域?yàn)檫\(yùn)動(dòng)前景時(shí),mt.i為1;當(dāng)分割后的第i個(gè)區(qū)域?yàn)楸尘霸肼晻r(shí),mt.i為0。對(duì)視頻幀的前景和后景進(jìn)行分割可以對(duì)關(guān)注度模型掃描區(qū)域加以有效地限制。提取出前景區(qū)域后,對(duì)前景區(qū)域中的關(guān)注度得分進(jìn)行統(tǒng)計(jì)求和。此處,設(shè)置和的閾值為Th.定義新的時(shí)空關(guān)注度得分St.i,如下所示:
2.3 STA-LSTM模型
使用光流掩膜對(duì)行為前景和后景進(jìn)行分割,有效地限制了關(guān)注度模型的關(guān)注范圍,而不是利用光流特征和外觀特征分別計(jì)算關(guān)注度得分。在利用外觀和動(dòng)作特征的同時(shí)還降低了網(wǎng)絡(luò)復(fù)雜度,減少了計(jì)算量。得到上述關(guān)注度得分后,如圖2所示,STA-LSTM模型的輸入可以表示為:
其中,W和b表示LSTM參數(shù)。公式(5)、(6)和(8)中的ft真是忘記門,it是輸入門,ot是輸出門。gt如公式(7)計(jì)算所得,表示t時(shí)刻候選記憶單元狀態(tài)。公式(9)和(10)中的ct和ht表示t時(shí)刻記憶單元狀態(tài)和隱單元狀態(tài),xt代表t時(shí)刻的輸入特征。σ(·)和tanh(·)表示sigmoid和tanh激活函數(shù),⊙表示哈達(dá)馬積。
STA-LSTM模型的核心就是忘記門和輸入門,忘記門根據(jù)當(dāng)前的輸入xt、上一時(shí)刻狀態(tài)ct-1和上一時(shí)刻輸出ht-1,共同決定哪一部分記憶需要被遺忘。輸入門根據(jù)xt,Ct-1和ht-1決定哪些部分將進(jìn)入當(dāng)前時(shí)刻的狀態(tài)Ct。STA-LSTM結(jié)構(gòu)在計(jì)算得到新的狀態(tài)Ct后,通過(guò)輸出門根據(jù)最新的狀態(tài)Ct、上一時(shí)刻的輸出ht-1和當(dāng)前的輸入xt來(lái)決定該時(shí)刻的輸出ht。
最后,使用sofimax函數(shù)作用于最后一個(gè)隱單元得到最終結(jié)果:
yd=softmax(WshT+bs),(11)
其中,yd代表模型預(yù)測(cè)值;d表示子序列的樣本編號(hào);Ws和bs為softmax函數(shù)的參數(shù)。
2.4 損失函數(shù)
本文的樣本損失函數(shù)如下:
其中,第一項(xiàng)表示交叉熵?fù)p失函數(shù),第二項(xiàng)表示模型其它參數(shù)的正則化約束。
3 實(shí)驗(yàn)
3.1數(shù)據(jù)集
本文方法所用的數(shù)據(jù)集為UCFl01.其中包含13320個(gè)視頻,分為101種行為類別,選取每個(gè)類別視頻總數(shù)的三分之二作為訓(xùn)練集,剩下的作為測(cè)試集。所有視頻均采集于現(xiàn)實(shí)場(chǎng)景,在相機(jī)移動(dòng)、物體外觀、人物姿態(tài)等方面變化多樣,因此廣泛應(yīng)用于各種行為分析的研究。
3.2 實(shí)驗(yàn)細(xì)節(jié)及評(píng)價(jià)標(biāo)準(zhǔn)
將所有視頻分解為視頻幀序列,并將分辨率重新調(diào)整為224×224大小,將視頻幀序列輸入在ImageNet數(shù)據(jù)集預(yù)訓(xùn)練好的GoogLeNet模型中。本實(shí)驗(yàn)取其最后一層卷積層特征作為STA-LSTM模型的輸入,STA-LSTM結(jié)構(gòu)隱單元的數(shù)量為1024.權(quán)值衰減系數(shù)人設(shè)為10-5,優(yōu)化算法使用Adadelta.深度學(xué)習(xí)框架為了heano。模型在訓(xùn)練和測(cè)試時(shí)序列化輸入幀的數(shù)量均為了(T=16)幀,將視頻幀按照步長(zhǎng)為1分成多個(gè)T幀的子序列。在測(cè)試階段,針對(duì)每個(gè)視頻預(yù)測(cè)其所有子序列的所屬類別,并和標(biāo)簽值相比較統(tǒng)計(jì)正確的類別數(shù),作為該視頻的識(shí)別正確率,最后對(duì)所有視頻的正確率求均值作為最終的識(shí)別正確率。
3.3 實(shí)驗(yàn)結(jié)果及分析
首先,通過(guò)表1來(lái)驗(yàn)證本文的時(shí)空關(guān)注度對(duì)識(shí)別效果產(chǎn)生的影響。其次,通過(guò)設(shè)置前景區(qū)域中時(shí)空關(guān)注度得分和不同閾值(Th),觀察模型在UCF101數(shù)據(jù)集上的識(shí)別效果,見(jiàn)表2。最后將本文方法和當(dāng)前一些優(yōu)秀方法進(jìn)行比較,比較結(jié)果見(jiàn)表3。由表1可明顯看出,在引人時(shí)空關(guān)注度后,本文所提出的新模型所取得的效果顯著,從而證實(shí)了本文方法可以應(yīng)用于行為識(shí)別。
由表2可知,不同的Th值對(duì)實(shí)驗(yàn)結(jié)果有很大的影響。當(dāng)Th較小時(shí),不能提供有效的參考區(qū)域,當(dāng)Th較大時(shí),由于背景噪聲、相機(jī)移動(dòng)、光照條件等影響,造成前景分割的不準(zhǔn)確,容易對(duì)關(guān)注度模型矯正過(guò)度。經(jīng)實(shí)驗(yàn)驗(yàn)證,當(dāng)Th值為0.7時(shí),識(shí)別效果最佳。
表3表明,與當(dāng)前一些優(yōu)秀方法相比,本文方法所達(dá)到的識(shí)別正確率更高。而且,相比于其它關(guān)注度方法而言,本文通過(guò)光流掩膜分割運(yùn)動(dòng)前景區(qū)域后,模型能夠更有效地關(guān)注視頻中顯著區(qū)域,提高識(shí)別效率的同時(shí)并沒(méi)有增加模型復(fù)雜度。如圖3所示,圖中(a)、(b)、(c)分別表示原始視頻幀、本文方法所學(xué)習(xí)到的顯著性區(qū)域、Soft Attention Model學(xué)習(xí)到的顯著性區(qū)域,可以看出本文方法能夠更準(zhǔn)確地學(xué)習(xí)顯著性區(qū)域。為了進(jìn)一步論證本文關(guān)注度網(wǎng)絡(luò)的效果,如圖4所示,在“顛球”這一行為中,本文方法可以準(zhǔn)確地捕捉足球、膝蓋和腳等顯著性區(qū)域。
為了更詳細(xì)地觀察本文方法的細(xì)節(jié)效果,逐幀定位單個(gè)視頻的具體識(shí)別情況。這里以該幀為首的子序列的識(shí)別正確率作為該幀的識(shí)別正確率。抽取一個(gè)行為類別為“扣籃(Basketball Dunk)”的視頻,如圖5所示,觀察該視頻全部幀的識(shí)別情況。為了便于觀察,本圖只選取識(shí)別正確率排名前三的類別,如圖6所示,分別為“扣籃”、“投籃(BasketballShooting)”和“扣球(Volleyball Spiking)”。顯然,本文方法將該視頻正確地識(shí)別為“扣籃”,因?yàn)椤巴痘@”和“扣籃”的相同點(diǎn)就是這兩種行為都需要籃球,“扣球”和“扣籃”相似之處在于“扣”這一動(dòng)作特性,在不影響判別準(zhǔn)確性的前提下,本文方法也將“扣籃”這一行為以微小的概率預(yù)測(cè)成“投籃”或者“扣球”這兩種行為。
4 結(jié)束語(yǔ)
本文提出一種循環(huán)時(shí)空關(guān)注度網(wǎng)絡(luò),用于視頻中的行為識(shí)別。通過(guò)外觀等特征學(xué)習(xí)視頻中的顯著性區(qū)域,同時(shí)利用光流掩膜分割運(yùn)動(dòng)前景區(qū)域?qū)﹃P(guān)注度網(wǎng)絡(luò)學(xué)習(xí)到的顯著性區(qū)域進(jìn)行校準(zhǔn)劃分,使得模型能夠更準(zhǔn)確地關(guān)注視頻中的顯著性區(qū)域從而捕捉更重要的信息,提高行為識(shí)別效率。實(shí)驗(yàn)結(jié)果表明,與當(dāng)前一些優(yōu)秀方法相比,本文方法所達(dá)到的識(shí)別正確率更高。相對(duì)于UCF101的行為類別較為簡(jiǎn)單易理解。未來(lái),希望本文的方法可以應(yīng)用于更加復(fù)雜的視頻場(chǎng)景中,如大型監(jiān)控場(chǎng)景下的視頻理解、異常檢測(cè)等,將有助于維護(hù)公共安全等領(lǐng)域。