劉繼超,劉 云,王傳旭
(青島科技大學(xué) 信息科學(xué)技術(shù)學(xué)院,山東 青島 266061)
人類行為識(shí)別是一個(gè)具有挑戰(zhàn)性的計(jì)算機(jī)視覺(jué)問(wèn)題,并已引起研究界的廣泛關(guān)注。挑戰(zhàn)包括各種因素,例如動(dòng)作類別內(nèi)的可變性,背景混亂以及不同動(dòng)作類別之間的相似性。群組行為識(shí)別[1-5]特點(diǎn)是其是由多人共同參與完成的,應(yīng)用包括視頻監(jiān)控,體育分析以及視頻搜索和檢索,群組行為識(shí)別的特殊挑戰(zhàn)在于它不僅需要個(gè)人信息,還需要成員間的交互信息,并且群組特征往往是由少數(shù)關(guān)鍵參與者來(lái)定義的。
目前,基于深度學(xué)習(xí)的方法在群組行為識(shí)別中發(fā)揮了巨大作用。在文獻(xiàn)[6]提出了基于深度神經(jīng)網(wǎng)絡(luò)并且考慮時(shí)間信息的分層模型。該模型由兩級(jí)LSTM組成:第一級(jí)LSTM使用從CNN獲得的人員表征,然后對(duì)其進(jìn)行最大池化合并,并作為輸入傳遞給第二級(jí)LSTM捕獲場(chǎng)景級(jí)別表征。但是此種方法會(huì)丟失群組中成員之間的關(guān)系信息。因此,文獻(xiàn)[2]提出了一種基于LSTM網(wǎng)絡(luò)的遞歸交互上下文建模方案。通過(guò)利用LSTM的信息傳播/聚集能力,來(lái)捕獲成員之間的交互關(guān)系。提出的方案統(tǒng)一了單人動(dòng)態(tài),組內(nèi)和組間交互的交互特征建模過(guò)程。提出的高階上下文建模方案產(chǎn)生了更多的可判別性交互特征用于群組識(shí)別。但是此種方法沒(méi)有考慮到在多人參加的場(chǎng)景中,并不是所有人都參與了主要事件,往往只是其中一部分人占主導(dǎo),定義了主要事件。為了解決此問(wèn)題,文獻(xiàn)[3]定義了群組中具有“長(zhǎng)距離運(yùn)動(dòng)”和“閃光運(yùn)動(dòng)”特征的,為關(guān)鍵參與者。但是它沒(méi)有考慮到,往往群組中只有一個(gè)核心人物,其他關(guān)鍵人物應(yīng)該根據(jù)與核心人物的相關(guān)性來(lái)定義。因此,為了解決以上問(wèn)題,本研究提出了一種新的基于深度學(xué)習(xí)的網(wǎng)絡(luò)架構(gòu),結(jié)合層級(jí)關(guān)系網(wǎng)路和關(guān)鍵人物建模,來(lái)進(jìn)行群組識(shí)別,并進(jìn)行了實(shí)驗(yàn)驗(yàn)證。
整個(gè)網(wǎng)絡(luò)框架如圖1所示,分為三部分,第一部分特征提取網(wǎng)絡(luò),第二部分為層級(jí)關(guān)系網(wǎng)絡(luò),第三部分為基于關(guān)鍵人物的網(wǎng)絡(luò)模型。
首先將每幀中邊界框中的個(gè)人圖像和光流[7]信息分別作為空間CNN和時(shí)間CNN網(wǎng)絡(luò)的輸入,得到的時(shí)空特征經(jīng)LSTM后進(jìn)一步利用視頻的長(zhǎng)時(shí)序上下文關(guān)系,形成組群的時(shí)空級(jí)聯(lián)特征,作為下一層的輸入。
其次,融合后的群組時(shí)空特征進(jìn)入堆疊的關(guān)系層,關(guān)系層每層把所有人作為一個(gè)團(tuán),利用共享的MLP計(jì)算相鄰參與者的邊的特征表示,然后堆疊多個(gè)關(guān)系層將深層的網(wǎng)絡(luò)層合并在一起,這些深層的網(wǎng)絡(luò)層結(jié)合了來(lái)自相鄰人的信息,所以合并了這些單獨(dú)的特征表示。從而得到了帶有人與人關(guān)系信息的特征,并作為下一層的輸入。
圖1 基于視頻的群組行為識(shí)別系統(tǒng)框架圖Fig.1 Overview of video-based group behavior recognition system
同時(shí),在關(guān)鍵人物檢測(cè)網(wǎng)絡(luò),定義運(yùn)動(dòng)特征最強(qiáng)的一個(gè)成員為核心人物,依據(jù)與核心人物的空間距離和運(yùn)動(dòng)特征相關(guān)性,定義其他關(guān)鍵人物;再將所有關(guān)鍵人物的特征輸入到Bi-LSTM,學(xué)習(xí)關(guān)鍵人物之間隱含的交互關(guān)系。為了進(jìn)一步優(yōu)化識(shí)別結(jié)果,將通過(guò)softmax層獲得的群組識(shí)別候選標(biāo)簽的概率值輸入CRF層,利用二元?jiǎng)莺瘮?shù)鼓勵(lì)外觀特征和運(yùn)動(dòng)特征相近的群組分配相同標(biāo)簽,糾正由于學(xué)習(xí)偏差引起的錯(cuò)誤。
假設(shè)視頻中每個(gè)人的邊界框是已經(jīng)給定的,對(duì)于空間CNN,從視頻中提取視頻幀作為輸入。對(duì)于時(shí)間CNN,首先采用稠密過(guò)流算法[7],利用OpenCV獲取視頻中的光流作為時(shí)間CNN的輸入。相比于網(wǎng)絡(luò)中的卷積層特征,全連接層(full connected)的特征具有更好的語(yǔ)義和更高層的抽象信息,因此更適合作為L(zhǎng)STM的輸入。因此分別抽取空間CNN和時(shí)間CNN的FC6層作為L(zhǎng)STM的輸入。
最終第i個(gè)人在第t幀的輸出定義為,所以第t幀的所有人的特征輸出表示為Ft=(P1,P2…Pi…PN)。⊕表示級(jí)聯(lián)操作符,?表示池化操作符。
群組行為是由多個(gè)成員目標(biāo)共同協(xié)作完成的,僅使用單人的時(shí)空模型難以正確區(qū)分它。因此設(shè)計(jì)了一種新的層級(jí)關(guān)系網(wǎng)絡(luò)來(lái)捕獲人與人之間的關(guān)系特征。
層級(jí)關(guān)系網(wǎng)絡(luò)一次處理一個(gè)視頻幀,輸入的視頻幀具有與多個(gè)潛在關(guān)系圖,以及相關(guān)聯(lián)的N個(gè)初始人物特征向量。向單個(gè)關(guān)系層提供N個(gè)特征向量和一個(gè)關(guān)系圖,并將它們映射到N個(gè)新的關(guān)系表示形式。層級(jí)關(guān)系的基本模塊是個(gè)人關(guān)系處理單元如圖2所示,用于處理場(chǎng)景中的個(gè)人。通過(guò)匯總關(guān)系圖中每個(gè)相鄰人的信息,將每個(gè)人的特征向量映射到新的表示形式。在一個(gè)關(guān)系層內(nèi),使用此人關(guān)系處理單元處理場(chǎng)景中的每個(gè)人。這樣就為場(chǎng)景中的每個(gè)人提供了新的特征表示,可以捕獲他們的個(gè)人特征以及鄰居的特征。然后,通過(guò)如圖3所示的殘差結(jié)構(gòu),構(gòu)建多個(gè)關(guān)系層,每個(gè)層都有自己的圖結(jié)構(gòu)和關(guān)系單元參數(shù),學(xué)習(xí)參與者的高階關(guān)系表征。最終合并人物的特征來(lái)用于構(gòu)建場(chǎng)景特征。
圖2 個(gè)人特征關(guān)系處理單元Fig.2 Relational unit for processing one person
圖3 殘差結(jié)構(gòu)圖Fig.3 Residual structure diagram
具體的說(shuō),給定個(gè)人及其初始特征向量,這些向量將饋送到堆疊的關(guān)系層。每個(gè)關(guān)系層都與圖形相關(guān)聯(lián)(在本文實(shí)驗(yàn)中每層都用的完整的圖)。每層共享的MLP計(jì)算2個(gè)相鄰參與者的特征表示,輸出的池化特征向量作為下一層的輸入。
公式表示如下,給定一個(gè)視頻幀,第L個(gè)關(guān)系層中的第i個(gè)人的表示的計(jì)算如下
函數(shù)MLPl是共享參數(shù)為θl的第l個(gè)網(wǎng)絡(luò)層的MLP,是端到端可微分模型。MLP的輸入大小是2Nl-1和輸出大小Nt。給定兩個(gè)串聯(lián)的向量,MLPl將它們映射到新向量,新向量中捕獲了成員之間的關(guān)系特征。
通過(guò)如圖3的殘差結(jié)構(gòu),將多個(gè)壓縮關(guān)系層級(jí)聯(lián),并且每個(gè)壓縮關(guān)系層都有各自的圖結(jié)構(gòu),可以從一個(gè)層到另一層構(gòu)造降維的個(gè)人特征,直到形成所需的緊湊關(guān)系表示。最終場(chǎng)景表示S是來(lái)自最后一個(gè)關(guān)系層輸出的人員表示的集合,并定義為:
群組行為中通常只有少數(shù)參與者本質(zhì)上定義了群組的行為屬性,因此,文獻(xiàn)[3]將關(guān)鍵人物定義為在視頻中平均運(yùn)動(dòng)強(qiáng)度大的人,并且根據(jù)運(yùn)動(dòng)強(qiáng)度排序,取排名靠前的為關(guān)鍵人物,有效的提高了識(shí)別精度。但是,群組中的核心人物往往只有一個(gè),其他關(guān)鍵人物往往取決于和核心人物的相關(guān)性。因此,本文提出了一種新的關(guān)鍵人物建模方法,將關(guān)鍵人物可以細(xì)分為核心人物和活躍人物。
首先,計(jì)算視頻中每個(gè)人的平均運(yùn)動(dòng)強(qiáng)度。公式如下:
其中,xs表示運(yùn)動(dòng)特征,表示兩人之間的運(yùn)動(dòng)特征相關(guān)性,本研究利用點(diǎn)積來(lái)計(jì)算運(yùn)動(dòng)相關(guān)性。
其中,xd表示邊界框的中心坐標(biāo),表示兩個(gè)人的距離相關(guān)性,采用歐式距離來(lái)表示空間距離相關(guān)性。
然后將兩個(gè)函數(shù)融合,形成標(biāo)量權(quán)重,以綜合考慮兩個(gè)人的運(yùn)動(dòng)特征關(guān)系和空間距離關(guān)系,公式如下:
然后根據(jù)相關(guān)性將群組的成員特征按降序排列,保留相關(guān)性最強(qiáng)的4個(gè)人作為活躍人物,將所以關(guān)鍵人物如圖4所示。
圖4 基于關(guān)鍵人物的網(wǎng)絡(luò)模型Fig.4 Network model based on key persons
輸入關(guān)鍵人物網(wǎng)絡(luò)的BiLSTM,BiLSTM產(chǎn)生的前向隱藏狀態(tài)序列和后向隱藏狀態(tài)序列}在時(shí)間t的最終表示為},是通過(guò)逐級(jí)求和來(lái)計(jì)算的輸出。令H為由輸出向量[h1,h2,…,hT]組成的矩陣BiLSTM層產(chǎn)生的特征向量,其中T是場(chǎng)景中人的個(gè)數(shù)。場(chǎng)景的表示r由這些輸出向量的加權(quán)和表示為
在此設(shè)置中,使用softmax分類器從場(chǎng)景r集合中預(yù)測(cè)標(biāo)簽。分類器將隱藏狀態(tài)h*作為輸入:
成本函數(shù)是真實(shí)類別標(biāo)簽y的負(fù)對(duì)數(shù)似然:
其中t∈Rm是one-hot表示的ground truth,y∈Rm是每個(gè)類別通過(guò)softmax估計(jì)的概率(m是目標(biāo)類別的數(shù)量),而λ是L2正則化超參數(shù)。在本研究中,將dropout與L2正則化相結(jié)合以緩解過(guò)度擬合,最終得到相應(yīng)的權(quán)重值,權(quán)重值越大對(duì)于群組就越重要反之亦然。
為了更好的提高識(shí)別精度,把softmax層獲得的群組識(shí)別候選標(biāo)簽的概率值輸入CRF層,利用二元?jiǎng)莺瘮?shù)鼓勵(lì)交互關(guān)系強(qiáng)的特征分配相同的類別標(biāo)簽,從而可以糾正判錯(cuò)類別的視頻幀,最終達(dá)到優(yōu)化視頻精度的目的。與傳統(tǒng)方法不同,本研究把每一幀作為一個(gè)節(jié)點(diǎn),視頻序列幀與幀的關(guān)系作為邊,構(gòu)成一個(gè)全連接隨機(jī)場(chǎng),以捕獲長(zhǎng)距離的依賴關(guān)系。則全連接的條件隨機(jī)場(chǎng)模型中的基普斯能量表示為
由此,通過(guò)變量ri,以及幀與幀之間的交互關(guān)系(邊)來(lái)重新判定第i幀對(duì)應(yīng)的類別標(biāo)簽yi。其中ψu(yù)(yi)是一元?jiǎng)莺瘮?shù),二元?jiǎng)莺瘮?shù)定義為
其中,μ(yi,yj)μ(yi,yj)是標(biāo)簽兼容性函數(shù)(label compatibility function),由Potts模型μ(yi,yj)=[yi,≠yj]給出,對(duì)于相似度高但是分配了不同標(biāo)簽的幀特征引入這種懲罰機(jī)制;向量fi和fj分別表示第i幀和第j幀的特征向量,和分別是第i和第j幀的外觀特征,和分別是第i和第j幀的運(yùn)動(dòng)特征;k(fi,fj)代表高斯核函數(shù),ω,θ1和θ2是核參數(shù),表示如下:
可以看出核函數(shù)受特征向量影響,即相同群組應(yīng)該有相近的底層外觀特征和運(yùn)動(dòng)特征,然后將CRF層的輸出候選標(biāo)簽概率重新辨別,最終得到優(yōu)化后的分類結(jié)果。
Collective Activity Dataset[8],該數(shù)據(jù)集是使用低分辨率的手持?jǐn)z像機(jī)獲取的44個(gè)視頻片段,每個(gè)視頻的幀數(shù)從193到1 800不等。標(biāo)記此數(shù)據(jù)集有5種行為(action)標(biāo)簽:Crossing,Queuing,Walking,Talking,Waiting;8種姿勢(shì)標(biāo)簽(實(shí)驗(yàn)中未使用);五種行為標(biāo)簽即每幀行為中N個(gè)人共同完成的場(chǎng)景標(biāo)簽:Crossing,Queuing,Walking,Talking,Waiting。每個(gè)人都有一個(gè)行為標(biāo)簽,群組的行為標(biāo)簽大多數(shù)人的行為標(biāo)簽確定。本研究遵循文獻(xiàn)[9]提供的訓(xùn)練/測(cè)試拆分。按照文獻(xiàn)[2]中的實(shí)驗(yàn)設(shè)置,本研究將“Walking”和“Crossing”類合并 為“Moving”,并報(bào)告由于測(cè)試集不平衡而導(dǎo)致的平均分類準(zhǔn)確度(MPCA)。
Volleyball Database[6],由55個(gè)視頻組成,包含4 830個(gè)注釋幀。此數(shù)據(jù)集有9類個(gè)人行為(action)標(biāo)簽:waiting,setting,digging,falling,spiking,blocking,jumping,moving,standing。8種組群行為標(biāo)簽,即每幀行為中N個(gè)人共同完成的場(chǎng)景標(biāo)簽:right set,right spike,right pass,right winpoint,left winpoint,left pass,left spike,left set。每個(gè)人都有一個(gè)行為標(biāo)簽,每幀圖像都有一個(gè)場(chǎng)景行為標(biāo)簽。本研究對(duì)訓(xùn)練和測(cè)試集的劃分與[6]中的相同,其中2/3用于訓(xùn)練,1/3用于測(cè)試與驗(yàn)證,并且使用多類分類準(zhǔn)確度(MCA)和平均分類準(zhǔn)確度(MPCA)。
為了與相關(guān)作品進(jìn)行公平的比較,在兩個(gè)數(shù)據(jù)集上使用T=10幀作為模型輸入:中間幀之前5幀和之后4幀。對(duì)于排球數(shù)據(jù)集,本文將每幀的大小調(diào)整為720×1 280分辨率,對(duì)于集體數(shù)據(jù)集將其調(diào)整為480×720。模型的輸入是由在Dlib庫(kù)[10]中實(shí)現(xiàn)的對(duì)象跟蹤器在T幀上跟蹤的每個(gè)人周圍的一組邊界框(小軌跡)。本研究提出的框架適用于各種復(fù)雜的網(wǎng)絡(luò)(例如VGG[11],Res Net[12]和Goog LeNet[13]),并且可以用于在個(gè)人動(dòng)作識(shí)別階段進(jìn)行特征表示。采用了預(yù)先訓(xùn)練的Alex Net模型[14]來(lái)提取每個(gè)人對(duì)應(yīng)的邊界框上的CNN特征。在訓(xùn)練方式上,采用分階段的方式來(lái)訓(xùn)練網(wǎng)絡(luò)。具體來(lái)說(shuō),首先以端到端的方式訓(xùn)練由CNN和LSTM層組成的個(gè)人網(wǎng)絡(luò),以識(shí)別個(gè)人的行為。然后,將空間CNN和從個(gè)人網(wǎng)絡(luò)輸出的時(shí)間特征的級(jí)聯(lián)傳遞到殘差層級(jí)關(guān)系網(wǎng)絡(luò)進(jìn)行訓(xùn)練。接著將關(guān)系網(wǎng)絡(luò)的輸出的帶有關(guān)系的特征傳遞到BiLSTMCRF網(wǎng)絡(luò),最終完成群組識(shí)別。
所有實(shí)驗(yàn)硬件平臺(tái)中CPU是Intel酷睿四核I7-7700k,GPU是NVIDIA GTX1080Ti(12 GB RAM),內(nèi)存64 G。實(shí)驗(yàn)的第一步和第三步在Py-Torch框架上實(shí)現(xiàn)。網(wǎng)絡(luò)使用0.001的學(xué)習(xí)率的Adam算法[15]來(lái)最小化代價(jià)函數(shù),并且每10個(gè)周期后,學(xué)習(xí)率就會(huì)降低到原始值的1/10。在排球數(shù)據(jù)集的實(shí)驗(yàn)中,個(gè)人LSTM使用10個(gè)時(shí)間步長(zhǎng)和3 000個(gè)隱藏節(jié)點(diǎn)。Bi-LSTM具有6個(gè)時(shí)間步長(zhǎng)(一個(gè)子組中有6個(gè)人)和1 000個(gè)節(jié)點(diǎn)。在“集體行為數(shù)據(jù)集”上的實(shí)驗(yàn)中,單人LSTM使用10個(gè)時(shí)間步長(zhǎng)和3 000個(gè)隱藏節(jié)點(diǎn)。Bi-LSTM具有5個(gè)時(shí)間步長(zhǎng)(一個(gè)子組中有6個(gè)人)和1 000個(gè)節(jié)點(diǎn)。由于此數(shù)據(jù)集中的人數(shù)從1到12不等。為每個(gè)框架選擇5個(gè)有效人員,并將其視為一個(gè)整體。如果人數(shù)少于5,將全零矩陣作為新人物的軌跡。第二步中的層級(jí)關(guān)系網(wǎng)絡(luò)使用Lasagne框架[16]。用隨機(jī)梯度下降法,通過(guò)ADAM[15]優(yōu)化器將模型訓(xùn)練200個(gè)周期,初始學(xué)習(xí)率為0.000 1,固定的超參數(shù)為β1=0.9,β2=0.999和ε=10-8的。模型中使用的批次大小為200。關(guān)系模型中的輸入層后面是50%的dropout層。使用大小為的兩層MLP網(wǎng)絡(luò)。第一層使用線性激活函數(shù)(f(x)=x),第二層使用Re-LU非線性。利用網(wǎng)格搜索算法對(duì)ω,θ1和θ2在訓(xùn)練集上進(jìn)行學(xué)習(xí),并對(duì)所有核函數(shù)參數(shù)進(jìn)行交叉驗(yàn)證以尋找最優(yōu)解。
在實(shí)驗(yàn)中基本方法設(shè)置如下(為了比較,默認(rèn)是RGB圖像作為輸入):
Baseline1:特征提取網(wǎng)絡(luò)+群組成員特征最大池化。
Baseline2:特征提取網(wǎng)絡(luò)+層級(jí)關(guān)系網(wǎng)絡(luò)。以驗(yàn)證層級(jí)關(guān)系網(wǎng)絡(luò)的有效性。
Baseline3:特征提取網(wǎng)絡(luò)+關(guān)鍵人物網(wǎng)絡(luò)。以驗(yàn)證關(guān)鍵人物網(wǎng)絡(luò)的有效性。
Baseline4:特征提取網(wǎng)絡(luò)+層級(jí)關(guān)系網(wǎng)絡(luò)+關(guān)鍵人物網(wǎng)絡(luò)。以驗(yàn)證層級(jí)關(guān)系網(wǎng)絡(luò)和關(guān)鍵人物網(wǎng)絡(luò)結(jié)合的有效性。
Baseline5:特征提取網(wǎng)絡(luò)+層級(jí)關(guān)系網(wǎng)絡(luò)+關(guān)鍵人物網(wǎng)絡(luò)+CRF。以驗(yàn)證CRF的有效性。
Baseline6(光流):特征提取網(wǎng)絡(luò)+層級(jí)關(guān)系網(wǎng)絡(luò)+關(guān)鍵人物網(wǎng)絡(luò)+CRF。
Ours(RGB+光流):特征提取網(wǎng)絡(luò)+層級(jí)關(guān)系網(wǎng)絡(luò)+關(guān)鍵人物網(wǎng)絡(luò)+CRF。以驗(yàn)證時(shí)空特征結(jié)合的有效性。
與基本方法比較:表1顯示了與基線相比所提高的識(shí)別精度。Baseline2和Baseline3分別比Baseline1的結(jié)果提高了6.4%和12.1%,充分說(shuō)明了層級(jí)關(guān)系網(wǎng)絡(luò)(HRLN)和關(guān)鍵人物網(wǎng)絡(luò)(KN)的重要性。Baseline5比Baseline4提高了1.6%,說(shuō)明了CRF層的有效性。Ours是本研究最終的模型所采取的方式,與Baseline5比較提高了2.4%,與Baseline6比較提高了6.9%,既說(shuō)明了時(shí)空特征的重要性也說(shuō)明了層級(jí)關(guān)系網(wǎng)絡(luò)和關(guān)鍵人物網(wǎng)絡(luò)相結(jié)合的有效性。
表1 基于CAD數(shù)據(jù)集與基本方法的比較Table 1 Comparison with baseline model
與其他方法的比較:表2顯示了在CAD數(shù)據(jù)集上使用不同方法進(jìn)行的比較。本研究類似文獻(xiàn)[3,17],將“Walking”和“Crossing”合并為“Moving”類別,并且根據(jù)文獻(xiàn)[6,10,12]中報(bào)告的混淆矩陣計(jì)算了幾種方法有關(guān)MPCA的結(jié)果。本研究方法不但高于相同的主干網(wǎng)絡(luò)的方法文獻(xiàn)[6](4.3%)和文獻(xiàn)[3](1.7%),還高于用了更深層網(wǎng)絡(luò)的文獻(xiàn)[17,18,19]。分別比用了VGG16的文獻(xiàn)[17]高了5.6%,比用了Inception-v3的文獻(xiàn)[18]提高了4.0%。文獻(xiàn)[6]只是簡(jiǎn)單的將所有人特征最大池化后作為群組識(shí)別的特征,文獻(xiàn)[17]是采用了層級(jí)能量層來(lái)進(jìn)行群組識(shí)別,文獻(xiàn)[18]是通過(guò)個(gè)人特征產(chǎn)生個(gè)人標(biāo)簽然后群組基于語(yǔ)義識(shí)別,文獻(xiàn)[3]是將群組行為的關(guān)鍵的參與者定義為“長(zhǎng)動(dòng)作”和“快動(dòng)作”的參與者。文獻(xiàn)[3,6,17,18]都沒(méi)有充分考慮人與人之間關(guān)系特征,所以和他們比較充分證明本研究的網(wǎng)絡(luò)在不丟失每個(gè)人的信息同時(shí)能更好的包括了每個(gè)人的關(guān)系特征來(lái)進(jìn)行群組識(shí)別。文獻(xiàn)[20]利用了表示各個(gè)人之間的空間關(guān)系的行為圖作為中間件來(lái)進(jìn)行群組識(shí)別文獻(xiàn)[20]采用了高層的語(yǔ)義關(guān)系圖,本研究的方法優(yōu)于最新方法文獻(xiàn)[19](0.1%),盡管他用了更深的網(wǎng)絡(luò)VGG16,并且僅僅比用了I3D網(wǎng)絡(luò)的文獻(xiàn)[20]少了0.3%。因?yàn)镮3D網(wǎng)絡(luò)比本研究的網(wǎng)絡(luò)大得多,沒(méi)有可比性,所以充分證明本研究的方法在在CAD數(shù)據(jù)集上的有效性。
表2 基于CAD數(shù)據(jù)集與其他方法的比較Table 2 Comparison with other methods
此外,通過(guò)圖5的混淆矩陣,可以看出Moving,Queuing和Talking已經(jīng)能很好的被區(qū)分,Queuing識(shí)別率已經(jīng)達(dá)到100%。但是Waiting識(shí)別率只有78%,把22%的Waiting錯(cuò)判成Moving,究其原因是因?yàn)閯?dòng)作類“Waiting”總與“Moving”一起發(fā)生。
圖5 本研究方法CAD數(shù)據(jù)集上的混淆矩陣Fig.5 Confusion matrix for CAD
與基本方法比較:表3顯示了本研究方法與基線相比較的識(shí)別精度。Baseline2和Baseline3分別比Baseline1的結(jié)果提高了12%和13.3%,充分說(shuō)明了層級(jí)關(guān)系網(wǎng)絡(luò)(HRLN)和關(guān)鍵人物網(wǎng)絡(luò)(KN)的重要性。Baseline5比Baseline4提高了0.1%,說(shuō)明了CRF層的有效性。Ours是本研究最終的模型,與Baseline5比較提高了0.3%,與Baseline6比較提高了0.9%,說(shuō)明了層級(jí)關(guān)系網(wǎng)絡(luò)和關(guān)鍵人物網(wǎng)絡(luò)相結(jié)合的有效性。
表3 基于CAD數(shù)據(jù)集與基本方法的比較Table 3 Comparison with baseline model
與其他方法的比較:如表4所示,本研究方法的MCA和MPCA均優(yōu)于所有使用相同主干網(wǎng)絡(luò)(Alex Net[14])的最新方法[3,6,21],即使是在本研究只采用RGB特征的情況下。并且本研究的方法甚至優(yōu)于大多數(shù)使用主干網(wǎng)絡(luò)Inception-v3的方法[11-12]和VGG16的方法[4,10,22],與文獻(xiàn)[23-24]中的方法比識(shí)別率相當(dāng),僅僅少于使用I3D網(wǎng)絡(luò)的[24]1.9%(MCA)。I3D比本研究的網(wǎng)絡(luò)(Alex-Net[14])大的多,所以沒(méi)有可比性。所以綜上充分證明了本研究的方法在VD數(shù)據(jù)庫(kù)上的有效性。
表4 基于CAD數(shù)據(jù)集與其他方法的比較Table 4 Comparison with other methods
另外,本研究方法的混淆矩陣如圖6所示,可以看到,本研究的方法在大多數(shù)行為中的識(shí)別率都超過(guò)90%。主要的失敗的類別來(lái)自“rset”和“rwin”,這是由于關(guān)鍵參與者的動(dòng)作和位置非常相似所導(dǎo)致。
圖6 本研究方法VD數(shù)據(jù)集上的混淆矩陣Fig.6 Confusion matrices for VD
針對(duì)群組行為識(shí)別問(wèn)題,提出了一種層級(jí)關(guān)系網(wǎng)絡(luò)與關(guān)鍵人物網(wǎng)絡(luò)相結(jié)合的識(shí)別方法。通過(guò)對(duì)比基線方法和最新方法,證明了本研究提出方法的有效性。在大多數(shù)行為中本研究方法的識(shí)別率都超過(guò)90%。接下來(lái),本研究計(jì)劃研究模型的網(wǎng)絡(luò)優(yōu)化,以減少模型訓(xùn)練時(shí)間,并爭(zhēng)取進(jìn)一步提高模型的識(shí)別精度。另外,為了考慮實(shí)時(shí)性問(wèn)題還需要進(jìn)一步優(yōu)化光流提取技術(shù)。