石祥濱 周金成 劉翠微
摘 要:為解決視頻中的動(dòng)作定位問題,提出一種基于模板匹配的弱監(jiān)督動(dòng)作定位方法。首先在視頻的每一幀上給出若干個(gè)動(dòng)作主體位置的候選框,按時(shí)間順序連接這些候選框形成動(dòng)作提名;然后利用訓(xùn)練集視頻的部分幀得到動(dòng)作模板;最后利用動(dòng)作提名與動(dòng)作模板訓(xùn)練模型,找到最優(yōu)的模型參數(shù)。在UCF-sports數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果顯示,與TLSVM方法相比,所提方法的動(dòng)作分類準(zhǔn)確率提升了0.3個(gè)百分點(diǎn);當(dāng)重疊度閾值取0.2時(shí),與CRANE方法相比,所提方法的動(dòng)作定位準(zhǔn)確率提升了28.21個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果表明,所提方法不但能夠減少數(shù)據(jù)集標(biāo)注的工作量,而且動(dòng)作分類和動(dòng)作定位的準(zhǔn)確率均得到提升。
關(guān)鍵詞:動(dòng)作定位;動(dòng)作模板;弱監(jiān)督;動(dòng)作提名;視頻
中圖分類號(hào):?TP391.4
文獻(xiàn)標(biāo)志碼:A
Weakly supervised action localization based on action template matching
SHI Xiangbin1,2, ZHOU Jincheng1*, LIU Cuiwei2
1.College of Information, Liaoning University, Shenyang Liaoning 110136, China ;
2.College of Computer Science, Shenyang Aerospace University, Shenyang Liaoning 110136, China
Abstract:?In order to solve the problem of action localization in video, a weakly supervised method based on template matching was proposed. Firstly, several candidate bounding boxes of the action subject position were given on each frame of the video, and then these candidate bounding boxes were connected in chronological order to form action proposals. Secondly, action templates were obtained from some frames of the training set video. Finally, the optimal model parameters were obtained after model training by using action proposals and action templates. In the experiments on UCF-sports dataset, the method has the accuracy of the action classification increased by 0.3 percentage points compared with TLSVM (Transfer Latent Support Vector Machine) method; when the overlapping threshold is 0.2, the method has the accuracy of action localization increased by 28.21 percentage points compared with CRANE method. Experimental results show that the proposed method can not only reduce the workload of dataset annotation, but also improve the accuracy of action classification and action localization.
Key words:?action localization; action template; weakly supervised; action proposal; video
0 引言
計(jì)算機(jī)視覺中的動(dòng)作定位任務(wù)[1-19] 不僅需要在空間上和時(shí)序上定位動(dòng)作,而且需要確定動(dòng)作類別。即不僅需要確定動(dòng)作在視頻每一幀上的位置,而且需要確定動(dòng)作從什么時(shí)間開始到什么時(shí)間結(jié)束,以及視頻中動(dòng)作是什么類別的動(dòng)作。動(dòng)作定位有著廣泛的應(yīng)用前景,比如警方需要確定犯罪分子的逃跑路線或是街頭斗毆的經(jīng)過以及球迷希望集中觀看足球場(chǎng)上精彩射門瞬間等。
近些年對(duì)視頻動(dòng)作定位的研究方興未艾。文獻(xiàn)[1-6]雖然能夠做到在時(shí)序上對(duì)動(dòng)作進(jìn)行定位,但是無法在空間上對(duì)動(dòng)作進(jìn)行定位?,F(xiàn)有的能夠?qū)崿F(xiàn)動(dòng)作時(shí)空定位的方法可以概括為兩類,一種是強(qiáng)監(jiān)督方法,另一種是弱監(jiān)督方法。文獻(xiàn)[8-16]利用強(qiáng)監(jiān)督方法定位動(dòng)作,這些方法的缺點(diǎn)在于必須對(duì)數(shù)據(jù)集中視頻的每幀圖像逐一標(biāo)注,使得研究人員將大部分時(shí)間花在標(biāo)注數(shù)據(jù)集這樣簡(jiǎn)單重復(fù)的工作上,犧牲了真正研究算法的時(shí)間。文獻(xiàn)[17-18]采用弱監(jiān)督方法,利用從網(wǎng)絡(luò)上下載的圖像來幫助定位人的動(dòng)作,減少了標(biāo)注數(shù)據(jù)集所花費(fèi)的精力,但是獲取合適的網(wǎng)絡(luò)圖像、處理網(wǎng)絡(luò)圖像同樣不容易。為解決動(dòng)作定位任務(wù)中數(shù)據(jù)集標(biāo)注工作量大且容易標(biāo)錯(cuò)的問題,本文提出一種基于模板匹配的動(dòng)作定位模型,只需要對(duì)視頻作類別標(biāo)注和極少的幀級(jí)別標(biāo)注,是一種弱監(jiān)督方法,減少了處理數(shù)據(jù)集的時(shí)間,同時(shí)也不用借助網(wǎng)絡(luò)圖像。
1 動(dòng)作定位問題的起源與難點(diǎn)
隨著互聯(lián)網(wǎng)、社交媒體的發(fā)展,生活中需要處理的視頻激增,借助計(jì)算機(jī)視覺技術(shù),可以在一定程度上解決有限的人員精力和海量視頻數(shù)據(jù)之間的矛盾。計(jì)算機(jī)視覺中動(dòng)作識(shí)別任務(wù)能夠確定視頻中動(dòng)作的類別,但是有時(shí)不但需要知道動(dòng)作類別還需要知道動(dòng)作發(fā)生的時(shí)空位置,由此產(chǎn)生了動(dòng)作定位。
動(dòng)作識(shí)別本身就是一項(xiàng)困難的工作,對(duì)于未經(jīng)處理的視頻,相機(jī)的抖動(dòng)和復(fù)雜的背景加大了識(shí)別的難度,但是近些年來計(jì)算機(jī)視覺領(lǐng)域的發(fā)展使得這項(xiàng)任務(wù)取得了很大進(jìn)展,處理動(dòng)作識(shí)別數(shù)據(jù)集時(shí)只需要確定每個(gè)視頻的類別標(biāo)簽,這相對(duì)來說不是一件繁重的事情。在動(dòng)作定位中,不但要標(biāo)注動(dòng)作的類別,還要標(biāo)注動(dòng)作在每一幀上發(fā)生的具體位置,對(duì)于大型的數(shù)據(jù)集,靠人工來完成是一項(xiàng)艱巨的工作,不僅量大、耗時(shí)長(zhǎng),而且容易出錯(cuò)。如果在只知道數(shù)據(jù)集中視頻類別的情況下就可以實(shí)現(xiàn)動(dòng)作定位,就可以大大減少研究人員在數(shù)據(jù)集處理上所花費(fèi)的時(shí)間。
2 模型主要思想
為定位視頻中動(dòng)作的位置并確定視頻中動(dòng)作的類別,需要先在視頻的每一幀上給出若干個(gè)動(dòng)作主體(人)的矩形候選框;然后按照時(shí)間順序連接候選框形成多個(gè)候選的動(dòng)作軌跡,即動(dòng)作提名;最后從這些動(dòng)作提名中選擇一個(gè)最合適的提名作為動(dòng)作的位置,同時(shí)判定動(dòng)作的類別。由于本文方法是弱監(jiān)督的,訓(xùn)練視頻只做了動(dòng)作類別標(biāo)注和極少部分幀級(jí)別標(biāo)注,動(dòng)作的實(shí)際位置并未標(biāo)注出來,所以模型訓(xùn)練時(shí)需要利用動(dòng)作模板從動(dòng)作提名中選擇一個(gè)最合適的提名作為視頻中動(dòng)作的真實(shí)位置。每類動(dòng)作的動(dòng)作模板從訓(xùn)練視頻中極少部分幀級(jí)別標(biāo)注的矩形框得到。訓(xùn)練視頻中動(dòng)作的真實(shí)位置未被告知,看作模型的隱變量,模型訓(xùn)練時(shí)從動(dòng)作提名中取值。
模型訓(xùn)練階段,首先在訓(xùn)練視頻每一幀上給出動(dòng)作主體(人)的若干個(gè)候選框,然后按照時(shí)間順序連接候選框形成多個(gè)候選動(dòng)作軌跡,即動(dòng)作提名。從訓(xùn)練視頻中提取的動(dòng)作提名稱作樣本提名,分別提取整個(gè)視頻的C3D(Convolutional 3-Dimension)特征[19]和樣本提名的C3D特征。同時(shí)從訓(xùn)練集中選擇少量視頻幀,人工標(biāo)注出動(dòng)作主體的位置,形成每類動(dòng)作的動(dòng)作模板。模型訓(xùn)練時(shí),訓(xùn)練視頻中動(dòng)作的實(shí)際位置未人工標(biāo)注,通過動(dòng)作模板與樣本提名匹配,促使模型選擇最合適的樣本提名作為視頻中動(dòng)作的位置。利用整個(gè)視頻的C3D特征、樣本提名的C3D特征和動(dòng)作模板訓(xùn)練模型。圖1(a)是訓(xùn)練階段示意圖。
測(cè)試階段,同樣在每個(gè)測(cè)試視頻幀中給出動(dòng)作主體(人)的候選框,連接候選框形成動(dòng)作提名,從測(cè)試視頻中提取的動(dòng)作提名稱作目標(biāo)提名,然后將整個(gè)視頻的C3D特征[19]和目標(biāo)提名的C3D特征代入訓(xùn)練好的模型,確定動(dòng)作類別和動(dòng)作位置。圖1(b)是測(cè)試階段的示意圖。
模型訓(xùn)練需要解決以下幾個(gè)問題:1)獲得每個(gè)測(cè)試視頻的樣本提名;2)得到動(dòng)作模板,以及樣本提名與動(dòng)作模板匹配;3)求解模型參數(shù)。
3 獲取動(dòng)作提名
訓(xùn)練階段和最后的識(shí)別都需要先獲取動(dòng)作提名。首先在每一個(gè)視頻幀上獲得候選框,由于動(dòng)作的主體是人,所以主要提取人的候選框;然后, 按照時(shí)間順序連接這些候選框形成動(dòng)作提名,并利用穩(wěn)定光流去除動(dòng)作提名中不包括動(dòng)作的部分。
3.1 生成候選框
獲取動(dòng)作提名的前提是在視頻幀上生成精度高的候選框,由于目前還沒有一種在精度、速度、召回率這三方面均表現(xiàn)良好的解決方案,所以為了得到高質(zhì)量的候選框,采用多種方法,取長(zhǎng)補(bǔ)短。這里采用三種方法來獲得幀上的候選框,分別是YOLOv3(You Only Look Once in version 3)[20]、EdgeBoxes[21]和Objectness[22]。Objectness根據(jù)目標(biāo)框之間的NG(Normed Gradients)[22]特征具有顯著的共性,以及目標(biāo)框和背景框的NG特征明顯不同,確定哪些候選框框住的是目標(biāo)。雖然這種方法計(jì)算速度快、召回率高,但是結(jié)果不夠精確。EdgeBoxes利用邊緣信息確定框內(nèi)的輪廓個(gè)數(shù)和與框邊緣重疊的輪廓個(gè)數(shù),然后給出候選框,這種方法的缺陷在于評(píng)分較高的框近乎是整幅圖像的大小,雖然召回率高但是不夠精確。相比前兩種方法,YOLOv3的優(yōu)點(diǎn)是給出的候選框精確度高,同時(shí)可以判定類別,缺點(diǎn)是召回率較低。
提取候選框時(shí),YOLOv3能夠提取高質(zhì)量的人的候選框,但是由于人的姿態(tài)豐富多變,會(huì)出現(xiàn)在某些幀上丟失檢測(cè)的情況。EdgeBoxes和Objectness得到的候選框比較豐富,召回率較高,但是大多數(shù)都不精確且不知道框住的物體是什么。三種方法各有利弊,為提升候選框的數(shù)量和質(zhì)量,對(duì)YOLOv3設(shè)定一個(gè)較高閾值獲得高質(zhì)量的人的候選框,并利用EdgeBoxes和Objectness繼續(xù)在每一幀上提取物體候選框,最后每一個(gè)視頻幀上得到的候選框包括所有的YOLOv3候選框,以及得分排名靠前的EdgeBoxes和Objectness候選框各500個(gè)。連接過程中優(yōu)先連接YOLOv3候選框,在出現(xiàn)丟失檢測(cè)的幀上用另外兩種候選框替代。
3.2 連接候選框
獲取幀級(jí)別的候選框后,需要在幀與幀之間無間斷地連接候選框,所形成的候選框序列就是動(dòng)作提名。動(dòng)作提名最大的特性就是平滑性和相似性,幀與幀之間的連接要平滑,前一個(gè)框和后一個(gè)框要具有很強(qiáng)的相似性。
框與框的連接是一個(gè)沿著時(shí)間順序按照連接得分大小決定是否進(jìn)行連接的過程。后一個(gè)框與前一個(gè)框的連接得分由下式計(jì)算得到:
score=α1·IOU+α2·A+α3·S
(1)
IOU= box1∩box2 box1∪box2
(2)
A=1- ?| area1-area2 | ?area1+area2
(3)
α1+α2+α3=1
(4)
其中:IOU表示兩個(gè)框的重疊度,A表示兩個(gè)框面積的相似性,area1和area2是框的面積,S表示顏色直方圖的相似性。IOU和A約束動(dòng)作提名的平滑性,S約束動(dòng)作提名上框與框之間的相似性。連接時(shí)先連接得分較高的YOLOv3框,在沒有滿足條件的YOLOv3框的情況下嘗試連接滿足條件的EdgeBoxes或Objectness候選框。動(dòng)作主體是人,而YOLOv3提取人的候選框,所以每個(gè)動(dòng)作提名的第一個(gè)矩形框總是YOLOv3框,由于YOLOv3框數(shù)量較少,減少了無效連接的數(shù)量。經(jīng)過實(shí)驗(yàn)發(fā)現(xiàn),候選框重疊度和候選框大小相似性兩個(gè)因素對(duì)獲得動(dòng)作提名一樣重要,候選框顏色直方圖相似性要比其他兩個(gè)因素影響更大,所以實(shí)驗(yàn)中候選框連接得分公式中的參數(shù)α1、α2和α3分別設(shè)置成0.3、0.3和0.4。每個(gè)動(dòng)作提名連接時(shí),如果與下一幀上候選框連接的最高得分score<0.2,則結(jié)束該提名的后續(xù)連接。
3.3 確定時(shí)間位置
為便于標(biāo)記時(shí)間位置,使從視頻中提取的每個(gè)動(dòng)作提名的長(zhǎng)度與該視頻的長(zhǎng)度相等,把動(dòng)作提名沒有覆蓋到的視頻幀上的位置標(biāo)記成(0,0,0,0),四個(gè)數(shù)分別是矩形框左上角坐標(biāo)和右下角坐標(biāo)。每個(gè)動(dòng)作提名的有效長(zhǎng)度不包括標(biāo)記成(0,0,0,0)的部分,本文其他地方提到的動(dòng)作提名都是指有效長(zhǎng)度部分。對(duì)動(dòng)作提名使用穩(wěn)定光流[23]來確定動(dòng)作的開始位置和結(jié)束位置。計(jì)算每一幀的平均光流幅值和相應(yīng)的動(dòng)作提名上矩形框的平均光流幅值來舍棄動(dòng)作提名的頭部和尾部中不是動(dòng)作的部分。
γ>f/F
(5)
其中:f是矩形框內(nèi)的平均光流幅值,F(xiàn)是整個(gè)視頻幀的平均光流幅值。當(dāng)f/F小于閾值γ時(shí),將動(dòng)作提名當(dāng)前的矩形框標(biāo)記成(0,0,0,0);當(dāng)f/F大于于閾值γ時(shí)停止。γ取值1.5。
4 動(dòng)作模板
每類動(dòng)作的動(dòng)作模板是該類動(dòng)作各種動(dòng)作姿態(tài)的集合,從訓(xùn)練集得到。數(shù)據(jù)集中有c類動(dòng)作,就會(huì)形成c種動(dòng)作模板。由于訓(xùn)練視頻中動(dòng)作位置未被人工標(biāo)注,動(dòng)作模板的作用在于使模型訓(xùn)練時(shí)選擇最合適的樣本提名作為訓(xùn)練視頻中動(dòng)作的位置。
分別從每個(gè)動(dòng)作類別的訓(xùn)練視頻中隨機(jī)選擇200幀圖像,在這些視頻幀上人工標(biāo)注出動(dòng)作的位置,然后提取標(biāo)注框的VGG(Visual Geometry Group)特征[24],特征的維度用dim表示。將標(biāo)注框的特征按列合并成矩陣 M ,將 M 看作動(dòng)作模板,若每個(gè)動(dòng)作模板包含n個(gè)標(biāo)注框,則 M 是一個(gè)dim×n維矩陣。為使得到的動(dòng)作模板更具代表性和可靠性,能夠很好地表征一類動(dòng)作,并且 M 的維數(shù)不至于過大,將標(biāo)注框集合隨機(jī)且有重合地形成3組,也就是每類動(dòng)作形成3個(gè)動(dòng)作模板。為解決動(dòng)作模板中同一姿態(tài)出現(xiàn)次數(shù)過多、動(dòng)作姿態(tài)不夠多樣的問題,對(duì)矩陣 M 的列向量組求極大線性無關(guān)組,組中不符合條件的動(dòng)作姿態(tài)從標(biāo)注框集合中隨機(jī)選擇一個(gè)替換,直至最終確定合適的動(dòng)作模板。
同時(shí),對(duì)每個(gè)樣本提名關(guān)鍵幀上的候選框提取VGG特征,關(guān)鍵幀選取的步長(zhǎng)是ρ,按列合并這些特征形成矩陣 P , P 的行數(shù)是特征的維數(shù),列數(shù)是框的個(gè)數(shù)。
樣本提名與動(dòng)作模板的匹配等價(jià)于矩陣 P 中所有列向量能否被矩陣 M 近似地表示。將模板匹配轉(zhuǎn)化成優(yōu)化問題,如式(6)所示:
min u (‖ P - M · u ‖2F+λ1‖ u - u ?‖2F+λ2‖ u ‖1)
(6)
用文獻(xiàn)[7]中方法求解出此優(yōu)化問題的參數(shù)矩陣 u ,其中 u ?是 u 行向量均值在列上的級(jí)聯(lián)。式(6)中‖ P - M · u ‖2F是匹配誤差,與動(dòng)作實(shí)際位置重疊度越高的樣本提名和動(dòng)作模板之間匹配誤差越小。由于一個(gè)連續(xù)動(dòng)作軌跡上的矩形框具有時(shí)序性,框與框的特征之間具有相似性,因此參數(shù)矩陣 u 中列向量之間應(yīng)具有相似性。式(6)中‖ u - u ?‖2F約束參數(shù)矩陣 u 中列向量的相似性。
比如,對(duì)于跳水動(dòng)作,利用訓(xùn)練集中跳水視頻的部分幀可以得到跳水動(dòng)作的動(dòng)作模板。將跳水動(dòng)作模板與某個(gè)跳水視頻的眾多動(dòng)作提名逐一匹配,匹配誤差最小的動(dòng)作提名就是最優(yōu)提名,在模型訓(xùn)練階段將找到的最優(yōu)提名看作視頻中動(dòng)作的位置。
5 基于模板匹配的動(dòng)作定位模型
獲得訓(xùn)練視頻的樣本提名和每類動(dòng)作的動(dòng)作模板后,下一步建立基于模板匹配的動(dòng)作定位模型,通過模型確定視頻中動(dòng)作的類別和時(shí)空位置。下面介紹模型訓(xùn)練過程,以及模型訓(xùn)練好后如何判定視頻中動(dòng)作的類別和位置。
5.1 模型訓(xùn)練
令V={(xi,yi)i=1:N}表示訓(xùn)練集,其中:xi表示第i個(gè)視頻;Y是動(dòng)作類別集合;yi是視頻xi的動(dòng)作類別標(biāo)簽,yi∈Y;N是視頻的數(shù)量。Hi是從視頻xi提取的樣本提名集合。視頻xi中動(dòng)作的實(shí)際位置在訓(xùn)練之前未被人工標(biāo)注,模型訓(xùn)練時(shí)選擇一個(gè)最合適的樣本提名h*i作為視頻xi中動(dòng)作的位置,h*i∈Hi,h*i視作模型的隱變量。
定義判別函數(shù)F(x,h):
F(x,h)=max y,h? f w y(x,h)
(7)
f w y(x,h)= w y Φ (x,h)
(8)
分區(qū)
圖2 聯(lián)合特征的提取過程 和聯(lián)合特征的結(jié)構(gòu)
Fig. 2 Extraction of joint features ??and structure of joint features
其中:y表示動(dòng)作類別,y∈Y;令H表示從視頻x中提取的樣本提名集合,h∈H; Φ (x,h)是由整個(gè)視頻x的C3D特征和視頻x中樣本提名h的C3D特征組成的聯(lián)合特征,如圖2所示; w y表示與動(dòng)作類別y相關(guān)的模型參數(shù)向量,f w y(x,h)是視頻x和其樣本提名h的聯(lián)合特征與 w y的乘積。整個(gè)模型的參數(shù) w 由全部的 w y組成。
為學(xué)習(xí)判別函數(shù)F(x,h)的參數(shù),引入隱變量支持向量機(jī),與普通支持向量機(jī)相比,唯一不同點(diǎn)在于模型訓(xùn)練時(shí)視頻xi中動(dòng)作位置h*i沒有顯式地告知,需要在參數(shù)學(xué)習(xí)過程中確定,將h*i看作隱變量。隱變量支持向量機(jī)參數(shù)優(yōu)化問題定義為:
min ?w ,ξi,ξsi?? 1 2 ‖ w ‖2+c1∑ N i=1 ξi+c2∑ N i=1 ξsi
(9)
s.t.
fwyi(xi,h*i)-f w y′(xi,h′i)≥Δ(yi,y′)-ξi;? y′,h′i,i
(10)
min j:yi=yj? 1 zxi ?Θ(h*i,tj)≤ξsi;? i
(11)
其中:c1、c2是懲罰系數(shù);ξi、ξsi是松弛變量;N是視頻的數(shù)量;y′從所有的動(dòng)作類別中取值,y′∈Y;yi表示視頻xi的真實(shí)動(dòng)作類別;Hi是視頻xi所對(duì)應(yīng)的樣本提名集合;h*i表示視頻xi的動(dòng)作位置,h*i∈Hi;對(duì)Δ(yi,y′),當(dāng)yi≠y′時(shí),Δ=1,否則Δ=0。
約束(10)是含有隱變量的支持向量機(jī)中最大間隔約束,確保模型能夠?qū)σ曨l進(jìn)行正確的類別判定。
tj是動(dòng)作類別yj的動(dòng)作模板;Θ(h*i,tj)表示h*i與tj的匹配誤差,由式(6)計(jì)算,用來評(píng)估樣本提名與動(dòng)作模板的相似性,誤差值越小說明相似性越大;
zxi=max h′i min j:yi=yj Θ(h′i,tj),h′i是視頻xi中的樣本提名,h′i∈Hi,zxi的值是確定的,用來歸一化Θ(h′i,tj),使得ξsi的值始終在[0,1]范圍內(nèi)。由于視頻xi中動(dòng)作位置h*i未被人工標(biāo)注,在訓(xùn)練階段未知,看作是隱變量,約束(11)利用動(dòng)作模板促使模型傾向于選擇與動(dòng)作實(shí)際位置一致的樣本提名,提高動(dòng)作定位的準(zhǔn)確性。
利用文獻(xiàn)[18,25]中的方法求解優(yōu)化問題(9),得到模型的參數(shù) w 。
5.2 識(shí)別和定位
利用學(xué)習(xí)到的參數(shù) w ,將視頻x的C3D特征和目標(biāo)提名h的C3D特征代入式(12),可以知道任意視頻x的動(dòng)作類別y*和動(dòng)作位置h*。h∈H,H是從視頻x中提取的目標(biāo)提名集合;y∈Y,Y是所有動(dòng)作類別集合。算法1是判定動(dòng)作類別和定位動(dòng)作的偽代碼。
(y*,h*)=max y,h? f w y(x,h)
(12)
算法1? 判定動(dòng)作類別和定位動(dòng)作。
輸入? 待處理視頻x;
輸出? 動(dòng)作類別y*和動(dòng)作位置h*。
程序前
從視頻x中提取動(dòng)作主體(人)的候選框
按照算法2得到目標(biāo)提名集合H
將視頻x的C3D特征和目標(biāo)提名的C3D特征代入訓(xùn)練好的F(x,h),h∈H
程序后
算法2? 按照時(shí)間順序連接候選框得到目標(biāo)提名。
輸入? 用YOLOv2,EdgeBoxes,Objectness方法在視頻x每幀上獲取的候選框;
輸出? 動(dòng)作提名集合H。
程序前
fo r t=0 to frames
//從第t幀開始搜索直到最后一幀
if? numPath>500
//如果找到的提名數(shù)大于500
break
end if
wh ile pbs[t].size() != 0
//當(dāng)?shù)趖幀上的候選框數(shù)不為0
if? numPath>500
break
end if
+ +numPath
將動(dòng)作提名的第一個(gè)框從第t幀上候選框集合移除
fo r j=t+1 to frames
if? 在第j幀上找到滿足連接條件的候選框
將j幀上連接的候選框從候選框集合中移除
el se
轉(zhuǎn)至第一個(gè)for循環(huán)判定條件處
end if
end for
end while
end for
程序后
6 實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)所使用的數(shù)據(jù)集是UCF-sports,該數(shù)據(jù)集包含多個(gè)運(yùn)動(dòng)視頻,一共10類動(dòng)作150個(gè)視頻。其中:跳水動(dòng)作(Diving-Side, DS)有14個(gè)視頻,打高爾夫(Golf-Swing, GS)有18個(gè)視頻,踢(Kicking, K)有20個(gè)視頻,舉重(Lifting, L)有6個(gè)視頻,騎馬(Riding-Horse, RH)有12個(gè)視頻,跑步(Run-Side)有13個(gè)視頻,玩滑板(Skateboarding, S)有12個(gè)視頻,鞍馬(Swing-Bench, SB)有20個(gè)視頻,單杠(Swing-Sideangle, SS)有13個(gè)視頻,走(Walk-Front, WF)有22個(gè)視頻。UCF-sports數(shù)據(jù)集中視頻的時(shí)間長(zhǎng)度不一,視頻幀的分辨率不一,背景復(fù)雜,對(duì)于動(dòng)作定位來說十分具有挑戰(zhàn)性。
遵循UCF-sports數(shù)據(jù)集官網(wǎng)對(duì)動(dòng)作定位任務(wù)中數(shù)據(jù)集分類的建議,數(shù)據(jù)集中的103個(gè)視頻作為訓(xùn)練數(shù)據(jù),47個(gè)視頻作為測(cè)試數(shù)據(jù),訓(xùn)練集和測(cè)試集的比例大概是2∶ 1。實(shí)驗(yàn)中判定動(dòng)作起止時(shí)間位置參數(shù)γ設(shè)置成1.5,動(dòng)作提名中關(guān)鍵幀步長(zhǎng)ρ是6,每個(gè)動(dòng)作模板中包含20個(gè)人工標(biāo)注的候選框。候選框連接階段會(huì)舍棄長(zhǎng)度過短的提名,提名中候選框少于10個(gè)認(rèn)為不可靠。實(shí)驗(yàn)中用C3D網(wǎng)絡(luò)[19]提取4096維的視頻特征和動(dòng)作提名特征,用VGG網(wǎng)絡(luò)[20]提取4096維矩形框內(nèi)的圖像特征。
在UCF-sports數(shù)據(jù)集上,分類效果如表1和2所示。表1中的大寫字符是每類動(dòng)作的英文首字母縮寫,表中數(shù)字是模型對(duì)測(cè)試集視頻的分類結(jié)果,可以計(jì)算出總體的識(shí)別準(zhǔn)確率是87.2%。從表3中可以看出本文方法在動(dòng)作定位任務(wù)中識(shí)別精度優(yōu)于其他方法,比TLSVM(Transfer Latent Support Vector Machine)[18]方法識(shí)別準(zhǔn)確率提高了0.3個(gè)百分點(diǎn)。
實(shí)驗(yàn)定位效果如圖3所示,圖中虛線框是測(cè)試集中人工標(biāo)注的位置,實(shí)線框由本文方法定位產(chǎn)生,定位效果的衡量標(biāo)準(zhǔn)按照式(13):
τ= 1 n ∑ n i=1 IOUi(b1,b2)
(13)
其中:τ是定位結(jié)果和動(dòng)作真實(shí)位置之間的重疊度,表示定位的效果;n是動(dòng)作持續(xù)的幀數(shù);IOUi(b1,b2)是第i幀上定位框b1與實(shí)際框b2之間的交并比。在閾值τ取0.2的情況下,即定位結(jié)果如果與動(dòng)作真實(shí)位置重疊度大于0.2時(shí)認(rèn)為定位結(jié)果正確,將定位的精度與CRANE(Concept Ranking According to Negative Exemplars)[28]、Siva等[29]提出的方法和Sultani等[17]進(jìn)行對(duì)比,結(jié)果如表4所示。
CRANE[28]、Siva等[29]提出的方法和Sultani等[17]都是弱監(jiān)督方法,其中效果最好的Sultani等[17]先給出動(dòng)作提名,然后利用網(wǎng)絡(luò)圖像來對(duì)動(dòng)作提名排序,選出得分最高的動(dòng)作提名作為定位結(jié)果。而本文方法動(dòng)作的定位和識(shí)別同時(shí)進(jìn)行,兩者之間相互促進(jìn),知道動(dòng)作類別可以幫助定位,知道動(dòng)作位置也可以幫助判定類別,提高了各自的精度。另外,本文方法利用視頻幀幫助定位動(dòng)作比Sultani等[17]利用網(wǎng)絡(luò)圖像更加合適,因?yàn)橐曨l幀中動(dòng)作姿態(tài)來自一個(gè)完整連續(xù)的動(dòng)作視頻,比靜止孤立的網(wǎng)絡(luò)圖像能夠更好地表現(xiàn)動(dòng)作的特點(diǎn)。從表4定位效果來看,本文方法要明顯好于其他幾種方法。
在UCF-sports數(shù)據(jù)集上的實(shí)驗(yàn),如果使用強(qiáng)監(jiān)督方法需要人工標(biāo)注6605張訓(xùn)練集視頻幀,而使用本文方法只需要分別從每個(gè)動(dòng)作類別的訓(xùn)練視頻中隨機(jī)選擇200幀圖像人工標(biāo)注即可,其余視頻幀不用標(biāo)注。由于UCF-sports數(shù)據(jù)集包含10個(gè)動(dòng)作類別,所以人工標(biāo)注2000張訓(xùn)練集視頻幀,數(shù)據(jù)集標(biāo)注的工作量將減少69.7%。
7 結(jié)語(yǔ)
本文提出一種只需對(duì)數(shù)據(jù)集中視頻做動(dòng)作類別和極少幀級(jí)別標(biāo)注就可以定位動(dòng)作的弱監(jiān)督方法,訓(xùn)練時(shí)將動(dòng)作真實(shí)位置看成是隱變量[30],利用動(dòng)作模板在短時(shí)間內(nèi)完成模型參數(shù)的學(xué)習(xí)。本文方法受相機(jī)抖動(dòng)影響較小,并且可以處理任意長(zhǎng)度視頻,方法應(yīng)用范圍廣。在數(shù)據(jù)集UCF-sports上的實(shí)驗(yàn)結(jié)果顯示,相比CRANE[28]、Siva等[29]提出的方法和Sultani等[17]提出的方法,本文方法的定位效果分別提升了28.21個(gè)百分點(diǎn)、30.61個(gè)百分點(diǎn)和0.9個(gè)百分點(diǎn)。本文方法能處理包含單個(gè)主要?jiǎng)幼鞯囊曨l,但是當(dāng)視頻中出現(xiàn)兩個(gè)及以上不同類型動(dòng)作同時(shí)發(fā)生的情況,則不能很好地將這些動(dòng)作都定位出來,這是未來需要繼續(xù)研究的方向。
參考文獻(xiàn)
[1]?YUAN Z, STROUD J C, LU T, et al. Temporal action localization by structured maximal sums [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 3215-3223.
[2]?LIN T, ZHAO X, SHOU Z. Single shot temporal action detection [C]// Proceedings of the 25th ACM International Conference on Multimedia. New York: ACM, 2017: 988-996.
[3]?SHOU Z, WANG D, CHANG S. Action temporal localization in untrimmed videos via multi-stage CNNs [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 1049-1058.
[4]?SHOU Z, CHAN J, ZAREIAN A. CDC:convolutional-de-convolutional networks for precise temporal action localization in untrimmed videos [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 1417-1426.
[5]?XU H, DAS A, SAENKO K. R-C3D: region convolutional 3D network for temporal activity detection [C]// Proceedings of the 2016 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2017: 5794-5803.
[6]??ZHAO Y, XIONG Y, WANG L, et al. Temporal action detection with structured segment networks [C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2017: 2933-2942.
[7]?SCHMIDT M. Graphical model structure learning with l1-regularization [D]. Berkeley: University of British Columbia, 2010: 27-32.
[8]?SAHA S, SINGH G, SAPIENZA M, et al. Deep learning for detecting multiple space-time action tubes in videos [C]// Proceedings of the 2016 British Machine Vision Conference. Guildford, UK: BMVA Press, 2016: No.58.
http://www.bmva.org/bmvc/2016/papers/paper058/abstract058.pdf
https://arxiv.org/abs/1608.01529?context=cs
[9]?ZOLFAGHARI M, OLIVEIRA G L, SEDAGHAT N, et al. Chained multi-stream networks exploiting pose, motion, and appearance for action classification and detection [C]// Proceedings of the 2017 IEEE Conference on International Conference on Computer Vision. Piscataway, NJ: IEEE, 2017: 2923-2932.
[10]?SINGH K K, LEE Y J. Hide-and-Seek: forcing a network to be meticulous for weakly-supervised object and action localization [C]// Proceedings of the 2017 IEEE Conference on International Conference on Computer Vision. Piscataway, NJ: IEEE, 2017: 3544-3553.
[11]?BAGAUTDINOV T, ALAHI A, FLEURET F, et al. Social scene understanding: end-to-end multi-person action localization and collective activity recognition [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 3425-3434.
[12]?CHEN L, ZHAI M, MORI G. Attending to distinctive moments: weakly-supervised attention models for action localization in video [C]// Proceedings of the 2017 IEEE International Conference on Computer Vision Workshops. Piscataway, NJ: IEEE, 2017: 328-336.
[13]?HOU R, CHEN C, SHAH M. Tube Convolutional Neural Network (T-CNN) for action detection in videos [C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2017: 5823-5832.
[14]?WANG L M, XIONG Y J, LIN D H, et al. UntrimmedNets for weakly supervised action recognition and detection [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 6402-6411.
[15]?KLSER A, MARSZAEK M, SCHMID C, et al. Human focused action localization in video [C]// Proceedings of the 2010 European Conference on Computer Vision, LNCS 6553. Berlin: Springer, 2010: 219-233.
[16]??WEINZAEPFEL P, HARCHAOUI Z, SCHMID C. Learning to? track for spatio-temporal action localization [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2015: 3164-3172.
[17]?SULTANI W, SHAH M. What if we do not have multiple videos of the same action? — video action localization using Web images [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 1077-1085.
[18]??LIU C W, WU X, JIA Y. Weakly supervised action recognition? and localization using Web images [C]// Proceedings of the 2014 Asian Conference on Computer Vision, LNCS 9007. Berlin: Springer, 2014: 642-657.
[19]?TRAN D, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3D convolutional networks [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2015: 4489-4497.
[20]??REDMON J, FARHADI A. YOLOv3: An incremental improvement [J]. arXiv E-print, 2018: arXiv:1804.02767.?[EB/OL]. [2018-09-23]. https://arxiv.org/pdf/1804.02767.pdf.
[21]??ZITNICK L, DOLLR P. Edge boxes: locating object proposals? from edges [C]// Proceedings of the 2014 European Conference on Computer Vision, LNCS 8693. Berlin: Springer, 2014: 391-405.
[22]?CHENG M, ZHANG Z, LIN W, et al. BING: binarized normed gradients for objectness estimation at 300fps [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2014: 3286-3293.
[23]?WANG H, SCHMID C. Action recognition with improved trajectories [C]// Proceedings of the 2013 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2013: 3551-3558.
[24]?SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [J]. arXiv E-print, 2015: arXiv:1409.1556.?[EB/OL]. [2018-09-23]. https://arxiv.org/pdf/1409.1556.pdf.
[25]?DO T, ARTIRES T. Regularized bundle methods for convex and non-convex risks [J]. The Journal of Machine Learning Research, 2012, 13(1): 3539-3583.
[26]?LAN T, WANG Y, MORI G. Discriminative figure-centric models for joint action localization and recognition [C]// Proceedings of the 2011 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2011: 2003-2010.
[27]??MOSABBEB E A, CABRAL R, TORRE F de la, et al. Multi-label discriminative weakly-supervised human activity recognition and localization [C]// Proceedings of the 2014 Asian Conference on Computer Vision, LNCS 9007. Berlin: Springer, 2014: 241-258.
[28]??TANG K, SUKTHANKAR R, YAGNIK J, et al. Discriminative? segment annotation in weakly labeled video [C]// Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2013: 2483-2490.
[29]?SIVA P, RUSSELL C, XIANG T. In defence of negative mining for annotating weakly labelled data [C]// Proceedings of the 2012 European Conference on Computer Vision, LNCS 7574. Berlin: Springer, 2012: 594-608.
[30]?劉翠微.視頻中人的動(dòng)作分析與理解[D].北京:北京理工大學(xué),2015:77-78. (LIU C W. Analysis and understanding of human action in video [D]. Beijing: Beijing Institute of Technology, 2015: 77-78.)