劉蘭淇,劉鐘濤
(河南財(cái)經(jīng)政法大學(xué) 現(xiàn)代教育技術(shù)中心,河南 鄭州 450046)
隨著互聯(lián)網(wǎng)信息化時(shí)代的到來,光學(xué)圖像處理及識別技術(shù)在人們?nèi)粘I钆c社會生產(chǎn)的多個(gè)領(lǐng)域表現(xiàn)出巨大的發(fā)展?jié)摿?。行為檢測[1]是近年來目標(biāo)檢測領(lǐng)域的一個(gè)重要方向,吸引了大量研究人員的關(guān)注。目前,科研工作者在老人跌倒行為檢測[2]、異常行為檢測[3]、人群行為檢測[4]以及駕駛行為檢測[5]等任務(wù)上取得了一定的進(jìn)展,這些解決方案大多基于視頻序列而提出。傳統(tǒng)基于視頻序列的行為檢測模型大多重點(diǎn)分析視頻序列的關(guān)鍵幀,并結(jié)合光流法[6]提取目標(biāo)的移動軌跡,可實(shí)現(xiàn)較高的行為檢測準(zhǔn)確性。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,許多研究人員利用深度神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)視頻序列的時(shí)域信息,進(jìn)一步提高了基于視頻序列的行為檢測性能,其中較典型的神經(jīng)網(wǎng)絡(luò)模型有長短期記憶(Long Short-Term Memory,LSTM)[7]、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[8]、門控循環(huán)單元(Gate Recurrent Unit,GRU)[9]等。
隨機(jī)移動互聯(lián)網(wǎng)的普及,單目視覺采集的單幅光學(xué)圖像是目前常見的數(shù)據(jù)格式之一,相較于視頻序列,檢測單幅光學(xué)圖像中的人體行為具有更廣泛的應(yīng)用空間?;谝曨l序列行為檢測與基于單幅圖像行為檢測之間存在2個(gè)不同之處[10]:① 視頻序列提供關(guān)鍵幀,而單幅圖像中行為的顯著性差異較大。② 視頻序列可同時(shí)提取時(shí)域信息與空間信息,而靜態(tài)圖像僅能捕獲二維空間有限的視覺信息。上述2點(diǎn)差異導(dǎo)致基于單幅圖像的行為檢測精度低于視頻序列。
為提高基于單幅圖像的多人場景行為檢測精度,文獻(xiàn)[11]從圖像局部區(qū)域提取姿態(tài)特征,從整體圖像中提取深度視覺特征,通過混合姿態(tài)特征與深度特征極大地提升了行為識別性能。該模型存在2點(diǎn)局限性:① 圖像中需要包含完整的人體才可準(zhǔn)確提取姿態(tài)特征;② 所提取的深度視覺特征容易受背景影響。文獻(xiàn)[12]利用Kinect采集的關(guān)節(jié)點(diǎn)數(shù)據(jù)提高了姿態(tài)特征的魯棒性,再分析5個(gè)重點(diǎn)區(qū)域的向量夾角離散化以表示不同的行為狀態(tài)。該模型解決了使用單幅圖像進(jìn)行特征提取時(shí)容易受背景因素干擾的問題,但需要額外增加Kinect設(shè)備。文獻(xiàn)[13]提出了一種由3個(gè)子網(wǎng)絡(luò)構(gòu)成的深度網(wǎng)絡(luò)模型來挖掘單幅圖像有限的視覺信息,通過多個(gè)代價(jià)函數(shù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),所提取的特征具有互補(bǔ)性,提高了基于單幅圖像的行為檢測精度。雖然該模型無需額外增加成像設(shè)備,但容易受背景干擾。文獻(xiàn)[14]采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)提取圖像中的成對目標(biāo)關(guān)系,結(jié)合圖像中目標(biāo)特征與關(guān)系特征判斷圖像中的行為。該方法的優(yōu)勢是無需先驗(yàn)條件即可捕捉每對目標(biāo)之間的潛在關(guān)系,該關(guān)系包含了目標(biāo)的重要性與移動特征。文獻(xiàn)[15]提取了人體的關(guān)節(jié)關(guān)鍵點(diǎn)與人體輪廓特征,該方法還考慮了目標(biāo)的局部特征與強(qiáng)度變化信息以及目標(biāo)間的距離關(guān)系,將多種特征融合來提高行為檢測的性能。文獻(xiàn)[16-17]提出了一種分層LSTM網(wǎng)絡(luò)與并發(fā)LSTM網(wǎng)絡(luò),這2種網(wǎng)絡(luò)均通過建模多人之間的交互關(guān)系,通過多人的關(guān)聯(lián)關(guān)系來檢測圖像中的主要行為。分層LSTM網(wǎng)絡(luò)重點(diǎn)關(guān)注目標(biāo)間交互的動態(tài)變化信息,并發(fā)LSTM網(wǎng)絡(luò)則重點(diǎn)關(guān)注目標(biāo)間交互的靜態(tài)信息。文獻(xiàn)[18]提出了一種基于視覺特征詞袋的行為檢測模型,以檢測出的時(shí)空興趣點(diǎn)為中心建立基于多面體模型的時(shí)空梯度描述子,深入挖掘人體動作在時(shí)空上的視覺特征。文獻(xiàn)[14-18]均通過CNN提取整個(gè)圖像或視頻幀的視覺信息,一些復(fù)雜的背景信息可能對前景目標(biāo)產(chǎn)生干擾,進(jìn)而導(dǎo)致目標(biāo)行為識別性能下降。
本文提出了一種新的深度網(wǎng)絡(luò)模型,該網(wǎng)絡(luò)由3個(gè)子網(wǎng)絡(luò)模塊組成。通過神經(jīng)網(wǎng)絡(luò)提取單幅圖像中的感興趣區(qū)域(Region of Interest,RoI),且通過注意力機(jī)制篩選出最顯著的RoI集。將RoI集與人體骨架關(guān)節(jié)點(diǎn)結(jié)合來表示單幅圖像的行為,采用融合特征集訓(xùn)練CNN作為單幅圖像的行為分類器。本文行為檢測模型有2個(gè)優(yōu)點(diǎn):① 模型提取了行為相關(guān)的空間特征,排除圖像中不相關(guān)信息對行為檢測的影響,因此對背景變化具有魯棒性。② 模型無需額外增加Kinect等設(shè)備來采集輔助信息,因此具有更廣的應(yīng)用范圍。
行為檢測模型的主要框架如圖1所示。
圖1 模型總體結(jié)構(gòu)
輸入圖像分別傳入姿態(tài)估計(jì)模塊與RoI檢測模塊,前者采用OpenPose網(wǎng)絡(luò)輸出圖中所有人體的骨架關(guān)鍵點(diǎn)向量;后者提取圖中所有的目標(biāo)特征向量。最終,將2種特征向量聚合成特征矩陣傳入CNN,CNN根據(jù)輸入的特征矩陣預(yù)測輸入圖像中包含的人體行為。
光學(xué)圖像傳感器采集的單幅RGB圖像傳入姿勢估計(jì)的OpenPose神經(jīng)網(wǎng)絡(luò)[19],該網(wǎng)絡(luò)計(jì)算人體骨架的二維關(guān)節(jié)關(guān)鍵點(diǎn)。人體骨架25個(gè)關(guān)節(jié)關(guān)鍵點(diǎn)的位置如圖2所示。
圖2 人體骨架的25個(gè)關(guān)節(jié)關(guān)鍵點(diǎn)
2.1.1 基于OpenPose的姿勢估計(jì)
采用開源的OpenPose網(wǎng)絡(luò)估計(jì)單幅圖像中的人體關(guān)節(jié)關(guān)鍵點(diǎn),主要處理過程如圖3所示。假設(shè)輸入圖像的大小為W×H,網(wǎng)絡(luò)輸出圖中每個(gè)人體的關(guān)節(jié)關(guān)鍵點(diǎn)信息。OpenPose網(wǎng)絡(luò)主要包含2個(gè)階段:① 產(chǎn)生圖像中的二維置信圖集S;② 生成部件關(guān)聯(lián)場(Part Association Field,PAF)向量集L。最終,通過分析置信圖與PAF輸出人體的二維關(guān)節(jié)關(guān)鍵點(diǎn)向量。OpenPose網(wǎng)絡(luò)輸出每個(gè)人體骨架的25個(gè)關(guān)節(jié)關(guān)鍵點(diǎn),每個(gè)點(diǎn)包含了關(guān)節(jié)關(guān)鍵點(diǎn)在圖像中的x和y坐標(biāo)。
圖3 基于OpenPose的姿勢估計(jì)主要流程
2.1.2 置信圖
輸入圖像傳入CNN VGG-19生成特征圖集合F,再將F傳入CNN輸出置信圖集S與PAF集??蓪⒅眯艌DS表示為:
S=(S1,S2,…,SJ),
(1)
式中,J為OpenPose模型默認(rèn)的身體部位總數(shù)量。置信圖反映了指定身體部位出現(xiàn)在各像素的概率。如果輸入圖像中包含一個(gè)人體,那么每個(gè)置信圖中應(yīng)當(dāng)存在一個(gè)峰值;如果包含多個(gè)人體,那么每個(gè)置信圖中每個(gè)人體均存在一個(gè)峰值。
2.1.3 部件關(guān)聯(lián)場
PAF集L保留了RoI的位置與方向信息??蓪AF集L表示為:
L=(L1,L2,…,LC),
(2)
式中,C為OpenPose模型默認(rèn)的肢體總數(shù)量。元素Li為一個(gè)大小為W×H的特征圖,包含了每對元素的方向信息。
單幅圖像中前景目標(biāo)也包含人體行為相關(guān)的信息,本文設(shè)計(jì)了新的目標(biāo)RoI檢測網(wǎng)絡(luò)模型,其主要結(jié)構(gòu)如圖4所示。
圖4 RoI檢測網(wǎng)絡(luò)
2.2.1 區(qū)域候選網(wǎng)絡(luò)
將區(qū)域候選網(wǎng)絡(luò)(Region Proposal Networks,RPN)重新在實(shí)驗(yàn)數(shù)據(jù)集上訓(xùn)練,通過VGG-16網(wǎng)絡(luò)模型提取圖像的深度特征,這些特征輸入RPN生成初始化區(qū)域候選(Region Proposal,RP)。
2.2.2 方向感知分類網(wǎng)絡(luò)
訓(xùn)練階段將每個(gè)RP與一個(gè)正定邊框關(guān)聯(lián):如果RP與正定邊框之間交并比(Intersection of Union,IoU)大于等于0.5,那么認(rèn)為該RP為前景目標(biāo),并將其屬性設(shè)為正定邊框的類標(biāo)簽與邊框偏差值;如果0.1≤IoU<0.5,那么認(rèn)為該RP為背景。本文模型對RP的分類標(biāo)簽有人體、目標(biāo)與背景。
采用RoI池化機(jī)制將所有特征池化成固定大小,然后將特征輸入2個(gè)全連接層,全連接層分別負(fù)責(zé)目標(biāo)分類與邊框回歸。
(1)目標(biāo)分類。采用交叉熵代價(jià)函數(shù)作為目標(biāo)分類的代價(jià)函數(shù),該代價(jià)函數(shù)可表示為:
(3)
式中,pf為該RP預(yù)測為目標(biāo)的概率;uf(i,j)為類標(biāo)簽,uf(i,j)={1,0,0}表示人體,uf(i,j)={0,1,0}表示RoI,uf(i,j)={0,0,1}表示背景;nf=3為分類數(shù)量;nb為每個(gè)batch包含的RP數(shù)量。
(2)邊框回歸。通過邊框回歸來確定目標(biāo)的位置,邊框回歸的代價(jià)函數(shù)可表示為:
(4)
式中,pb=(px,py,pw,ph)為預(yù)測的邊框偏差;ub=(ux,uy,uw,uh)為正定邊框偏差;δi為指示變量,其值等于1與0分別對應(yīng)目標(biāo)與非目標(biāo),該指示變量的作用是在訓(xùn)練過程中忽略背景與人體部分;S()為平滑函數(shù),定義如下:
(5)
將上述2個(gè)代價(jià)函數(shù)結(jié)合成神經(jīng)網(wǎng)絡(luò)的總代價(jià)函數(shù),可表示為:
(6)
式中,α與β為權(quán)重因子,決定了2個(gè)子代價(jià)函數(shù)的重要性,本文取α=β=0.5。
2.2.3 注意力機(jī)制
采用自下而上(Bottom-up)的注意力機(jī)制為每個(gè)RP產(chǎn)生一個(gè)空間注意力圖,該注意力圖有助于利用與人體行為相關(guān)的信息,忽略不相關(guān)的信息,引入注意力機(jī)制有助于提高行為檢測的準(zhǔn)確性。自下而上注意力機(jī)制的網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
圖5 自下而上注意力機(jī)制的網(wǎng)絡(luò)結(jié)構(gòu)
每個(gè)輸入圖像經(jīng)過RPN生成若干個(gè)RP,假設(shè)生成的RP數(shù)量為N,通道數(shù)量為K,每個(gè)區(qū)域的大小為M×M,每個(gè)圖像生成N×K×M×M的數(shù)據(jù)量。自下而上注意力機(jī)制使用1×1卷積層將每個(gè)RP的所有通道融合,1×1卷積層的運(yùn)算可表示為:
sk=wT⊙Xk,
(7)
式中,Xk為池化的RP特征;wT為注意力權(quán)重;sk為自下而上的注意力圖。
注意力機(jī)制通過訓(xùn)練學(xué)習(xí)最優(yōu)的特征通道組合,最終產(chǎn)生一個(gè)空間注意力圖sk;然后將sk與每個(gè)通道相乘獲得一個(gè)加權(quán)的RP特征集:
X′k=sk·Xk,i,
(8)
式中,Xk,i為RP特征集的第i層;X′k為空間加權(quán)的RP特征集。
由于骨架關(guān)節(jié)點(diǎn)向量(姿勢特征提取)的維度為25,因此將RoI目標(biāo)向量(包含目標(biāo)分類與邊框信息)的末尾元素填充0,將RoI向量維度擴(kuò)展成25。將聚合后大小為25×n的特征矩陣傳入CNN進(jìn)行處理,識別單幅圖像中的行為。
CNN各神經(jīng)層的參數(shù)如圖6所示。
圖6 行為識別的CNN結(jié)構(gòu)
第1層卷積層的大小為25×16,dropout=0.5;第2層最大池化層對特征圖進(jìn)行正則化并減少數(shù)據(jù)量;第3層卷積層的大小為12×128,dropout=0.4;第4層最大池化層對特征圖再次進(jìn)行正則化并減少數(shù)據(jù)量;第5層卷積層的大小為6×50;第6層平均池化層將特征圖平坦化成一維數(shù)據(jù);最終,Softmax層預(yù)測輸入圖像中包含的人體行為。
實(shí)驗(yàn)環(huán)境為Intel i7 6700HQ處理器,16 GB內(nèi)存與NVidia GTX 960M GPU,操作系統(tǒng)為Ubuntu 14.04。
本文3個(gè)網(wǎng)絡(luò)模型的相關(guān)參數(shù)設(shè)置如下:
① 姿勢估計(jì)網(wǎng)絡(luò):采取OpenPose作者推薦的參數(shù)配置,采用訓(xùn)練好的VGG-19[20]作為骨干網(wǎng)絡(luò),圖像輸入VGG-19網(wǎng)絡(luò),將網(wǎng)絡(luò)前10層產(chǎn)生的特征圖作為OpenPose網(wǎng)絡(luò)的輸入特征圖。
② 目標(biāo)檢測網(wǎng)絡(luò):采用訓(xùn)練好的VGG-16[21]作為骨干網(wǎng)絡(luò),圖像輸入VGG-16網(wǎng)絡(luò),將網(wǎng)絡(luò)第5個(gè)block、第3個(gè)卷積層輸出的特征圖作為目標(biāo)檢測網(wǎng)絡(luò)的特征圖。
③ CNN:隱藏層的激活函數(shù)為線性整流函數(shù)(Rectified Linear Unit,ReLU)。
在4個(gè)不同的單目圖像行為識別數(shù)據(jù)集上驗(yàn)證本文模型的有效性,分別為Pascal VOC 2012數(shù)據(jù)集、Stanford40數(shù)據(jù)集、VCOCO數(shù)據(jù)集與MPII數(shù)據(jù)集。
① Pascal VOC 2012數(shù)據(jù)集共有4 588幅圖像。該數(shù)據(jù)集為平衡數(shù)據(jù)集,共包含10個(gè)行為分類,每個(gè)分類均包含500幅圖像。該數(shù)據(jù)集提供了推薦的訓(xùn)練集、驗(yàn)證集與測試集的版本,且提供了正定的類標(biāo)簽。
② Stanford40數(shù)據(jù)集共有9 532幅圖像。該數(shù)據(jù)集為不平衡數(shù)據(jù)集,共包含40個(gè)行為分類,每個(gè)分類包含數(shù)量不等的圖像。該數(shù)據(jù)集提供了推薦的訓(xùn)練集與測試集的版本,且提供了正定的類標(biāo)簽。
③ VCOCO數(shù)據(jù)集共有18 787幅圖像。該數(shù)據(jù)集為不平衡數(shù)據(jù)集,共包含22個(gè)行為分類,每個(gè)分類包含數(shù)量不等的圖像。該數(shù)據(jù)集提供了推薦的訓(xùn)練集與測試集的版本,且提供了正定的類標(biāo)簽。
④ MPII數(shù)據(jù)集共有15 181幅圖像。該數(shù)據(jù)集為不平衡數(shù)據(jù)集,共包含398個(gè)行為分類,每個(gè)分類包含數(shù)量不等的圖像。該數(shù)據(jù)集提供了推薦的訓(xùn)練集與測試集的版本,且提供了正定的類標(biāo)簽。
部分行為檢測數(shù)據(jù)集的單幅圖像實(shí)例如圖7所示。圖7(a),(b),(c)為單一行為檢測圖像數(shù)據(jù),行為標(biāo)簽分別為drinking,feeding hourse,fixing car;圖7(d),(e),(f)為多行為檢測圖像數(shù)據(jù),行為標(biāo)簽分別為take photo,play instrument,Drink。
(a)圖像1
使用TensorFlow的Keras API搭建文中的神經(jīng)網(wǎng)絡(luò)模型,3個(gè)網(wǎng)絡(luò)的參數(shù)設(shè)置方法如下:
① 姿勢估計(jì)網(wǎng)絡(luò)(OpenPose神經(jīng)網(wǎng)絡(luò))的參數(shù)為關(guān)節(jié)關(guān)鍵點(diǎn)數(shù)量,實(shí)驗(yàn)將該參數(shù)設(shè)為25。該網(wǎng)絡(luò)的復(fù)雜度為5層卷積層。
② 目標(biāo)檢測網(wǎng)絡(luò)(RPN網(wǎng)絡(luò))的參數(shù)包括RoI數(shù)量、epoch數(shù)量、patch size和學(xué)習(xí)率參數(shù)。實(shí)驗(yàn)采用SGD優(yōu)化器訓(xùn)練該網(wǎng)絡(luò)模型,所有數(shù)據(jù)集訓(xùn)練的epoch數(shù)量均設(shè)為200。訓(xùn)練中采用64的patch size,Pascal VOC 2012數(shù)據(jù)集與Stanford40數(shù)據(jù)集的初始化學(xué)習(xí)率設(shè)為0.001,VCOCO數(shù)據(jù)集與MPII數(shù)據(jù)集的初始化學(xué)習(xí)率設(shè)為0.000 1,衰減因子為0.000 5。該網(wǎng)絡(luò)的復(fù)雜度為5層卷積層。
③ CNN的參數(shù)包括epoch數(shù)量與patch size。實(shí)驗(yàn)采用SGD優(yōu)化器訓(xùn)練該網(wǎng)絡(luò)模型,所有數(shù)據(jù)集訓(xùn)練的epoch數(shù)量均設(shè)為100。訓(xùn)練中采用16的patch size。該網(wǎng)絡(luò)的復(fù)雜度為3個(gè)卷積層與3個(gè)池化層。
采用平均精度均值(mean Average Precision,mAP)作為行為檢測的性能評估指標(biāo),計(jì)算式為:
(9)
式中,K為數(shù)據(jù)集的分類數(shù)量;APk為第k個(gè)分類的檢測精度,計(jì)算式為:
(10)
式中,TP表示正類別判斷為正類別的數(shù)量;FP表示負(fù)類別判斷為正類別的數(shù)量。
為觀察目標(biāo)檢測網(wǎng)絡(luò)中的RoI數(shù)量對圖像行為檢測性能的影響,將RoI數(shù)量分別設(shè)為{5,10,15,20,25,30,35,40,45,50,55,60,65,70},觀察本系統(tǒng)在各訓(xùn)練數(shù)據(jù)集上訓(xùn)練的mAP性能。各訓(xùn)練數(shù)據(jù)集上不同RoI數(shù)量所獲得的mAP結(jié)果如圖8所示。由圖8可以看出,Pascal VOC 2012數(shù)據(jù)集、Stanford40數(shù)據(jù)集、VCOCO數(shù)據(jù)集以及MPII數(shù)據(jù)集分別在RoI數(shù)量為20,30,45,40時(shí)取得最佳的mAP性能。究其原因:Pascal VOC 2012數(shù)據(jù)集中的目標(biāo)數(shù)量較少,大多圖像中僅有單一人體,因此RoI池化所需的區(qū)域較少;Stanford40數(shù)據(jù)集中大多的圖像也包含單一人體,而背景中包含復(fù)雜的紋理信息與視覺信息,因此RoI池化所需的區(qū)域多于Pascal VOC 2012數(shù)據(jù)集;VCOCO數(shù)據(jù)集與MPII數(shù)據(jù)集中大量的圖像包含了多個(gè)目標(biāo),且包含體育館、廣場以及音樂會等常見地點(diǎn),因此感興趣目標(biāo)數(shù)量較多,進(jìn)而RoI池化所需的區(qū)域數(shù)量較多。實(shí)驗(yàn)將本文模型在各數(shù)據(jù)集上的RoI數(shù)量分別設(shè)為上述最優(yōu)值。
圖8 各數(shù)據(jù)集上不同RoI數(shù)量的訓(xùn)練結(jié)果
4.5.1 對比模型介紹
本文行為檢測模型與POHA[14],RSTF[15],HLSTCM[16],CLSS[17],F(xiàn)eatureBag[18]檢測模型進(jìn)行了比較實(shí)驗(yàn)。
4.5.2 量化實(shí)驗(yàn)結(jié)果
Pascal VOC 2012數(shù)據(jù)集每個(gè)行為類別的檢測精度結(jié)果如圖9所示。可以看出,POHA,RSTF,HLSTCM,CLSS與FeatureBag對“usecomputer”行為類別的檢測精度較低,而本文模型對該行為的檢測精度達(dá)到0.82,明顯高于其他5種對比模型。HLSTCM網(wǎng)絡(luò)與CLSS網(wǎng)絡(luò)均通過建模多人之間的交互關(guān)系,通過多人的關(guān)聯(lián)關(guān)系來檢測圖像中的主要行為,然而Pascal VOC 2012數(shù)據(jù)集的圖像大多為單一受試者,所以難以發(fā)揮這2種網(wǎng)絡(luò)的優(yōu)勢,因此其檢測精度較低。
圖9 Pascal VOC 2012測試數(shù)據(jù)集各類別的檢測精度
4.5.3 消融實(shí)驗(yàn)結(jié)果
首先,通過消融實(shí)驗(yàn)評估2種特征對行為檢測性能的影響,表1比較了RoI特征、姿態(tài)特征與融合特征3種網(wǎng)絡(luò)模型在4個(gè)測試數(shù)據(jù)集上的mAP。由表1中結(jié)果可知,姿態(tài)特征的mAP較低,可見僅通過人體骨架特征難以準(zhǔn)確檢測人體行為。RoI特征包含了圖像中前景目標(biāo)豐富的視覺信息,因此RoI特征的mAP優(yōu)于姿態(tài)特征。RoI特征與姿態(tài)特征融合的特征集不僅包含了人體骨架的特點(diǎn),也包含了前景目標(biāo)的視覺信息,所包含的行為相關(guān)信息更豐富,有利于提高行為檢測的準(zhǔn)確性。
表1 消融實(shí)驗(yàn)的mAP結(jié)果
4.5.4 對比實(shí)驗(yàn)結(jié)果
Pascal VOC 2012數(shù)據(jù)集行為檢測的mAP如表2所示。觀察表2中結(jié)果可以發(fā)現(xiàn),HLSTCM網(wǎng)絡(luò)與CLSS網(wǎng)絡(luò)對單一受試者的檢測精度較低,POHA,RSTF與FeatureBag對單一受試者的檢測精度則較高。本模型通過神經(jīng)網(wǎng)絡(luò)提取了行為相關(guān)的空間特征,排除圖像中不相關(guān)信息對行為檢測的影響,本模型在Pascal VOC 2012數(shù)據(jù)集上的平均檢測精度達(dá)到0.954,高于其他5種對比模型。
表2 Pascal VOC 2012數(shù)據(jù)集的檢測結(jié)果
Stanford40數(shù)據(jù)集行為檢測的mAP如表3所示。觀察表3中結(jié)果可以發(fā)現(xiàn),HLSTCM網(wǎng)絡(luò)與CLSS網(wǎng)絡(luò)在Stanford40數(shù)據(jù)集上的平均檢測精度較低。因?yàn)镾tanford40數(shù)據(jù)集的圖像大多為單一受試者,難以發(fā)揮這2種網(wǎng)絡(luò)的優(yōu)勢,所以檢測精度較低。POHA,RSTF與FeatureBag對單一受試者的檢測精度則明顯高于HLSTCM網(wǎng)絡(luò)與CLSS網(wǎng)絡(luò)。本模型在Stanford40數(shù)據(jù)集上的平均檢測精度達(dá)到0.927,高于其他5種對比模型。
表3 Stanford40數(shù)據(jù)集的檢測結(jié)果
VCOCO數(shù)據(jù)集行為檢測的mAP如表4所示。觀察表4中結(jié)果可以發(fā)現(xiàn),POHA,RSTF與FeatureBag在VCOCO數(shù)據(jù)集上行為檢測的mAP較低。VCOCO數(shù)據(jù)集的圖像中包含多人,且拍攝場景較大。HLSTCM網(wǎng)絡(luò)與CLSS網(wǎng)絡(luò)均通過建模多人之間的交互關(guān)系,通過多人的關(guān)聯(lián)關(guān)系來檢測圖像中的主要行為,對多人場景的檢測精度則較高。本模型通過神經(jīng)網(wǎng)絡(luò)提取單幅圖像中的RoI,且通過注意力機(jī)制篩選出最顯著的RoI集,通過結(jié)合人體骨架關(guān)節(jié)點(diǎn)與顯著RoI集能更準(zhǔn)確地表示圖像中的行為。本模型在Pascal VOC 2012數(shù)據(jù)集上的平均檢測精度高于其他5種對比模型。
表4 VCOCO數(shù)據(jù)集的檢測結(jié)果
MPII數(shù)據(jù)集行為檢測的mAP如表5所示。觀察表5中結(jié)果可以發(fā)現(xiàn),POHA 在MPII數(shù)據(jù)集上行為檢測的mAP較低。MPII數(shù)據(jù)集同時(shí)包含單人圖像與多人圖像,其行為類別數(shù)量高達(dá)398個(gè),且該數(shù)據(jù)集為不平衡數(shù)據(jù)集,因此該數(shù)據(jù)集的檢測難度極大。各檢測算法在該數(shù)據(jù)集上的平均檢測精度均大幅降低,本模型的平均檢測精度為0.363,略高于其他5種對比模型。
表5 MPII數(shù)據(jù)集的檢測結(jié)果
本文方法也存在識別失敗的情況,MPII數(shù)據(jù)集包含398個(gè)行為分類,每個(gè)分類包含數(shù)量不等的圖像,并且分類之間的相似性較高。圖10(a),(b)分別為“Bicycling”與“Unicycling”分類中的一幅圖像,圖10(c),(d)分別為“aerobic”與“Irish step dancing”分類中的一幅圖像。因?yàn)閳D10(a),(b)的相似性較高,本文方法將圖10(a)錯誤識別為“Unicycling”分類,將圖10(c)錯誤識別為“Irish step dancing”分類。
(a)Bicycling分類
本文提出一種新的行為檢測模型,用以提高多人場景下的行為檢測精度。該模型通過神經(jīng)網(wǎng)絡(luò)提取單幅圖像中的RoI,借助注意力機(jī)制篩選出最顯著的RoI集,結(jié)合人體骨架關(guān)節(jié)點(diǎn)與顯著RoI集來提高對圖像中行為的表達(dá)能力。本文模型無需額外增加Kinect等設(shè)備來采集輔助信息,因此具有更廣的應(yīng)用范圍。該模型在4組不同場景的數(shù)據(jù)集上完成了訓(xùn)練實(shí)驗(yàn)與測試實(shí)驗(yàn),均獲得了較高的行為檢測精度。