李紅 臧晶
摘 ?要:人體行為識(shí)別是計(jì)算機(jī)視覺(jué)領(lǐng)域研究的一個(gè)熱點(diǎn),為了提高視頻中的人體行為識(shí)別的準(zhǔn)確率,提出了一種基于3D卷積神經(jīng)網(wǎng)絡(luò)的行為識(shí)別方法,首先構(gòu)建3D CNN模型,通過(guò)三維卷積核,來(lái)提取視頻中人體行為的時(shí)-空域信息,最終并在UCF-101數(shù)據(jù)集上進(jìn)行訓(xùn)練與測(cè)試,證明了該方法具有較好的識(shí)別效果。
關(guān)鍵詞:人體行為識(shí)別 ?3D卷積神經(jīng)網(wǎng)絡(luò) ?UCF-101數(shù)據(jù)集
中圖分類(lèi)號(hào):TP391.41 ? 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2019)10(b)-0023-02
作為智能視頻分析領(lǐng)域中必不可少的一部分,人體行為識(shí)別技術(shù)成為計(jì)算機(jī)視覺(jué)領(lǐng)域中研究的熱點(diǎn),在人體交互、安全監(jiān)控、安全防護(hù)和公共場(chǎng)所等多個(gè)領(lǐng)域具有廣泛的應(yīng)用前景。
1 ?卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)由低隱藏層和高層兩部分構(gòu)成,低隱藏層即特征提取層,是由若各個(gè)卷積層和下采樣層交替構(gòu)成,用來(lái)提取局部特征。CNN的高層是由全連接層、輸出層以及邏輯回歸分類(lèi)器構(gòu)成。
1.1 卷積層
卷積層每個(gè)輸出矩陣的大小是(N-m+1),詳細(xì)運(yùn)算過(guò)程如式(1)所示。
其中,Xil,j中的l表示第l個(gè)卷積層,i表示第i個(gè)卷積輸出矩陣的某個(gè)值,j表示對(duì)應(yīng)的輸出矩陣的編號(hào),f表示非線性函數(shù)。
1.2 池化層
池化層采用局部求均值的方式進(jìn)行降維[1]。詳細(xì)運(yùn)算過(guò)程如式(2)所示。
其中,Xil,j為進(jìn)行池化過(guò)程后局部的一個(gè)輸出項(xiàng),它是由上一層大小為n×n的局部小矩陣進(jìn)行均值運(yùn)算得到的。
2 ?基于3D卷積神經(jīng)網(wǎng)絡(luò)的行為識(shí)別模型
3D卷積神經(jīng)網(wǎng)絡(luò)的是由8個(gè)卷積層、5個(gè)池化層、兩個(gè)全連接層和一個(gè)softmax分類(lèi)層組成的,該文采用大小為 3×3×3的卷積核,步長(zhǎng)均為1×1×1。所有池化層都采用最大池化,除第一個(gè)池化層外,所有池化層的池化核大小均設(shè)為2×2×2,步長(zhǎng)也為2×2×2。第一個(gè)池化層的池化核大小和步長(zhǎng)均設(shè)為2×2×1。這是為了避免時(shí)間維度上過(guò)早地縮短為1。經(jīng)過(guò)兩個(gè)全連接層之后,每個(gè)連接層的輸出節(jié)點(diǎn)為4096個(gè),再經(jīng)過(guò)了softmax分類(lèi)器后得到最終的分類(lèi)結(jié)果(見(jiàn)圖1)。
3 ?實(shí)驗(yàn)結(jié)果與分析
3.1 數(shù)據(jù)集
該文在UCF-101人體行為數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),UCF-101包含身體動(dòng)作、人與人之間的交互動(dòng)作、體育運(yùn)動(dòng)等101個(gè)動(dòng)作類(lèi)別,總共計(jì)13320個(gè)視頻片段,該文選取了數(shù)據(jù)集中的27類(lèi)動(dòng)作類(lèi)別進(jìn)行實(shí)驗(yàn)。
3.2 實(shí)驗(yàn)過(guò)程
3D卷積神經(jīng)網(wǎng)絡(luò)接收的輸入為視頻,輸出為視頻的類(lèi)別,每幀視頻尺寸需要重新調(diào)整為128×171,對(duì)于UCF101數(shù)據(jù)集來(lái)說(shuō),這個(gè)分辨率大約是原始視頻幀的0.5倍,在訓(xùn)練期間進(jìn)一步調(diào)整為112×112,每個(gè)視頻隨機(jī)抽取一個(gè)連續(xù)的16幀堆疊的片段來(lái)作為輸入。3D卷積神經(jīng)網(wǎng)絡(luò)使用一個(gè)形狀為16×112×112×3的四維張量來(lái)表示一個(gè)視頻剪輯,意思就是說(shuō)每個(gè)輸入的視頻剪輯是16個(gè)大小為 112×112且有3個(gè)RGB通道的圖像幀序列。
3.3 實(shí)驗(yàn)結(jié)果
通過(guò)圖2、圖3、表1的實(shí)驗(yàn)結(jié)果可以看出,3D CNN的總體平均識(shí)別率達(dá)到了54.8%。識(shí)別準(zhǔn)確率比2D CNN總體高了8.6%。由于快走和慢跑的相似度比較高,所以識(shí)別率還有待提高。
4 ?結(jié)語(yǔ)
該文構(gòu)建了3D卷積神經(jīng)網(wǎng)絡(luò)模型,使用3D卷積神經(jīng)網(wǎng)絡(luò)來(lái)對(duì)原始視頻數(shù)據(jù)進(jìn)行預(yù)處理并作為網(wǎng)絡(luò)的輸入。并在UCF-101數(shù)據(jù)集上進(jìn)行訓(xùn)練與測(cè)試,最終完成視頻中的人體行為的識(shí)別。與二維卷積神經(jīng)網(wǎng)絡(luò)相比,3D CNN可以提取時(shí)間和空間特征,使得視頻中的人體行為識(shí)別更加準(zhǔn)確。
參考文獻(xiàn)
[1] 鄭胤,陳權(quán)崎,章毓晉.深度學(xué)習(xí)及其在目標(biāo)和行為識(shí)別中的新進(jìn)展[J].中國(guó)圖像圖形學(xué)報(bào),2014,19(2):175-184.
[2] 張穎,袁和金.基于3D卷積神經(jīng)網(wǎng)絡(luò)的人體行為識(shí)別方法[J].軟件導(dǎo)刊,2017,167(1):9-11.
[3] Du T,Bourdev L,F(xiàn)ergus R,et al.Learning Spatiotemporal Features with 3D Convolutional Networks[A].2015 IEEE International Conference on Computer Vision(ICCV)[C].2015.