陳 潔,詹永照
(江蘇大學(xué) 計(jì)算機(jī)科學(xué)與通信工程學(xué)院,江蘇 鎮(zhèn)江 212013)
近年來,在通信技術(shù)和手機(jī)APP大發(fā)展的環(huán)境下,視頻已經(jīng)成為人們分享狀態(tài)和表達(dá)情感的主要形式之一,網(wǎng)絡(luò)中的視頻數(shù)量呈爆發(fā)式增長,視頻類型趨于多元化[1].為了能高效地檢索出用戶關(guān)注的視頻,對(duì)網(wǎng)絡(luò)上的海量視頻進(jìn)行分類和識(shí)別的技術(shù)具有愈加廣闊的應(yīng)用前景.
視頻動(dòng)作識(shí)別的流程主要包含特征提取和分類兩個(gè)步驟,其中特征提取是關(guān)鍵.傳統(tǒng)視頻動(dòng)作識(shí)別分類方法如基于標(biāo)簽文本的關(guān)鍵字匹配,在應(yīng)對(duì)互聯(lián)網(wǎng)海量視頻數(shù)據(jù)及視頻內(nèi)容復(fù)雜度區(qū)分方面表現(xiàn)有待提升,而先獲取HOG、Sift、LBP等局部特征描述子或基于原始視頻圖像幀的整體特征(顏色、邊緣檢測、Cabor等)的方法,又或是應(yīng)用WANG M.等[2]將局部特征轉(zhuǎn)換成全局特征描述,最后載入分類器的方法都不可避免手動(dòng)特征提取的問題.相對(duì)于傳統(tǒng)的方法,深度學(xué)習(xí)通過一種深層非線性網(wǎng)絡(luò)結(jié)構(gòu)[3],使用可訓(xùn)練的過濾器層次結(jié)構(gòu)和特征池化操作,實(shí)現(xiàn)復(fù)雜函數(shù)逼近,能夠魯棒且自動(dòng)地提取樣本的復(fù)雜特征,從而能夠刻畫樣本的豐富內(nèi)在信息,使得更加容易分類或預(yù)測.其在機(jī)器人交互、人機(jī)交互、智能監(jiān)控、體育視頻分析等領(lǐng)域取得成功應(yīng)用[4-5].
由于卷積神經(jīng)網(wǎng)絡(luò)在ImageNet大規(guī)模視覺識(shí)別挑戰(zhàn)賽(ILSVRC)上表現(xiàn)出的卓越性能,文獻(xiàn)[6-8]提出了將卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)應(yīng)用于動(dòng)作識(shí)別任務(wù).然而,因?yàn)槊總€(gè)單獨(dú)的視頻幀只構(gòu)成了視頻故事的一小部分,當(dāng)兩個(gè)視頻的背景極為相似時(shí),原始的空間流很容易被愚弄.例如UCF101數(shù)據(jù)集中的FieldHockeyPenalty(曲棍球點(diǎn)球)和FrisbeeCatch(飛盤接住),對(duì)于這兩個(gè)類別,相似的場地導(dǎo)致類別極易混淆.除了使用標(biāo)準(zhǔn)的CNN捕獲靜態(tài)語義信息外,幾種最新的方法[9-11]嘗試使用光流數(shù)據(jù)構(gòu)成CNN 的第2個(gè)流來捕獲運(yùn)動(dòng)信息;但是,仔細(xì)研究這些模型時(shí),筆者發(fā)現(xiàn)原始光流僅接收10個(gè)連續(xù)的堆疊光流幀.因此如果在這樣一個(gè)簡短的視頻段中有兩個(gè)類似的動(dòng)作,模型可能會(huì)導(dǎo)致混亂和錯(cuò)誤.另外,視頻中物體時(shí)序信息的時(shí)間依賴度是不同的,即不同的動(dòng)作運(yùn)動(dòng)速度不同,造成的時(shí)間跨度不同,故而如何最大化地挖掘利用視頻中隱藏的時(shí)序信息,建立更好的視頻動(dòng)作識(shí)別模型有待解決.
文中在雙流網(wǎng)絡(luò)的基礎(chǔ)上引入了置信融合的策略,并且考慮到視頻序列中隱藏的不同的上下文信息,提出利用CNN-LSTM網(wǎng)絡(luò)學(xué)習(xí)并提取視頻中的多時(shí)域特征表達(dá).文中的方法實(shí)現(xiàn)包括:① 利用均值采樣的方法對(duì)視頻進(jìn)行下采樣,保證輸入樣本的統(tǒng)一性,在此基礎(chǔ)上擴(kuò)大時(shí)間間隔,提取不同時(shí)間尺度的關(guān)鍵幀序列;② 利用卷積神經(jīng)網(wǎng)絡(luò)提取序列的原始幀特征和光流圖像特征,并饋送到長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)提取視頻的動(dòng)態(tài)語義信息;③ 對(duì)多個(gè)分類器產(chǎn)生的不同結(jié)果進(jìn)行置信決策融合.
視頻動(dòng)作分類識(shí)別任務(wù)相對(duì)于圖像分類等識(shí)別任務(wù)內(nèi)容更加豐富復(fù)雜,表現(xiàn)出目標(biāo)的旋轉(zhuǎn)、平移、縮放等現(xiàn)象.除了包括目標(biāo)人物、背景等靜態(tài)語義信息,視頻分析為識(shí)別任務(wù)提供了更多的信息——時(shí)序信息.很多工作針對(duì)學(xué)習(xí)并提取視頻的靜態(tài)幀外觀信息和運(yùn)動(dòng)時(shí)序信息已經(jīng)設(shè)計(jì)了各種有效的深度卷積神經(jīng)網(wǎng)絡(luò).JI S.W.等[6]首次提出利用3D卷積核進(jìn)行3D卷積,對(duì)視頻沿著空間和時(shí)間維度直接提取時(shí)空特征;在此基礎(chǔ)上,D.TRAN等[12]系統(tǒng)化地研究了3D卷積核的時(shí)序卷積核長度,從稠密的RGB幀序列中提取特征進(jìn)行分類識(shí)別.然而,由于視頻連續(xù)幀中的冗余,密集幀序列上的3D卷積計(jì)算成本非常高昂.K.SIMONYAN等[9]提出了雙流網(wǎng)絡(luò),分別把視頻幀的原始圖像和相應(yīng)的光流圖像作為網(wǎng)絡(luò)輸入,提取視頻的空域信息和時(shí)域信息,把每幀的分類結(jié)果得分作為特征輸入,對(duì)多類線性SVM進(jìn)行訓(xùn)練,最終融合成視頻的分類結(jié)果.C.FEICHTENHOFER等[10]探討了如何融合兩流網(wǎng)絡(luò),提出在網(wǎng)絡(luò)之間添加一個(gè)新的卷積融合層,融合之后保留時(shí)間網(wǎng)絡(luò),在最后再把結(jié)果融合一次,另外還添加了一個(gè)新的包含三維卷積和池化的時(shí)間融合層來把兩個(gè)網(wǎng)絡(luò)的一系列在時(shí)間上的特征圖融合分類.除了使用3D卷積和雙流網(wǎng)絡(luò)學(xué)習(xí)動(dòng)作識(shí)別任務(wù)外,通過將CNN與遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)相結(jié)合建模來解決該問題的方法在計(jì)算機(jī)視覺社區(qū)中也越來越流行.J.DONAHUE等[13]介紹了一種長期遞歸卷積網(wǎng)絡(luò),該網(wǎng)絡(luò)通過從2DCNN中提取特征并將其作為LSTM的輸入;與文中挖掘多序列特征的方法不同,該工作預(yù)測了視頻序列的每一幀的動(dòng)作類別,之后通過平均各個(gè)預(yù)測來確定最終結(jié)果.M.BACCOUCHE等[7]進(jìn)一步擴(kuò)展了這個(gè)想法,他們利用3DCNN而不是2DCNN網(wǎng)絡(luò)來提取特征;每次從原始視頻序列中獲取9幀視頻幀作為一組輸入進(jìn)行卷積,然后送入LSTM學(xué)習(xí)預(yù)測9幀序列的相關(guān)動(dòng)作類別.C.FEICHTENHOFER等[14]考慮如何在時(shí)間維度上更好地處理運(yùn)動(dòng)信息,提出了一種快慢結(jié)合的網(wǎng)絡(luò)來用于視頻分類:其中一路為slow網(wǎng)絡(luò),輸入為低幀率,用來捕獲空間語義信息;另一路為fast網(wǎng)絡(luò),輸入為高幀率,用來捕獲運(yùn)動(dòng)信息.因?yàn)檩斎刖W(wǎng)絡(luò)序列幀長度的限制,所以上述方法很難在這些幀中學(xué)習(xí)到長期的時(shí)序關(guān)系.為了解決如上問題,提出了多時(shí)間尺度雙流CNN與置信融合的動(dòng)作識(shí)別網(wǎng)絡(luò),可以在多個(gè)時(shí)間尺度上有效捕捉時(shí)序信息并進(jìn)行動(dòng)作預(yù)測,同時(shí)考慮更合理的置信融合方法進(jìn)行決策識(shí)別,以獲取更佳的識(shí)別準(zhǔn)確率.
鑒于視頻采樣的變化和目標(biāo)主體在視頻中運(yùn)動(dòng)速度的不同,單一的動(dòng)作可以包含多種時(shí)序信息.為了捕捉多種時(shí)空變化特征,文中提出了多時(shí)間尺度雙流CNN與置信融合的動(dòng)作識(shí)別網(wǎng)絡(luò),其總體處理框架如圖1所示.
圖1 多時(shí)域特征提取與置信度融合網(wǎng)絡(luò)
該模型分為2個(gè)階段:對(duì)采樣的不同序列特征學(xué)習(xí)并預(yù)測階段和多分類器置信融合階段.對(duì)每一段視頻進(jìn)行多序列采樣,然后通過卷積神經(jīng)網(wǎng)絡(luò)將視頻幀序列和光流圖像序列分別進(jìn)行空間流特征提取和運(yùn)動(dòng)流特征提取,之后輸入到長LSTM網(wǎng)絡(luò)中進(jìn)行時(shí)間序列特征建模,最后對(duì)每一種尺度與模態(tài)的動(dòng)作分類器進(jìn)行置信融合得到最終試驗(yàn)結(jié)果.
具體來說,該網(wǎng)絡(luò)旨在利用整個(gè)視頻的不同序列之間的上下文信息.不是在單個(gè)幀或者幀堆上工作,而是從整個(gè)視頻中稀疏采樣多個(gè)時(shí)間尺度序列視頻幀,每個(gè)序列都將對(duì)動(dòng)作類別產(chǎn)生初步預(yù)測,然后通過置信融合的決策方法融合雙流網(wǎng)絡(luò)的各個(gè)時(shí)間尺度的分類器得分,獲得最終結(jié)果.
用于提取圖像特征的卷積網(wǎng)絡(luò)在視覺識(shí)別任務(wù)中起著重要作用[15].大多數(shù)傳統(tǒng)的學(xué)習(xí)方法只能接受有限數(shù)量的訓(xùn)練樣本,而深度網(wǎng)絡(luò)隨著訓(xùn)練數(shù)據(jù)量的增加可獲得更高的性能.因此,需要大量數(shù)據(jù)來訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)以獲得更高的性能.然而,對(duì)于視頻分類識(shí)別任務(wù),使用當(dāng)前可用的數(shù)據(jù)集來從頭訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)是非常艱巨的.為了克服有限訓(xùn)練數(shù)據(jù)的問題,并確保準(zhǔn)確性和效率之間的良好平衡,獲得更具分辨性的空間特征,文中使用在大型圖像分類數(shù)據(jù)集(ImageNet挑戰(zhàn)數(shù)據(jù)集)上進(jìn)行預(yù)訓(xùn)練的Inception-V3模型,并在試驗(yàn)中進(jìn)行微調(diào),用來分別學(xué)習(xí)提取空間流特征和運(yùn)動(dòng)流特征.
由于視頻包含動(dòng)態(tài)內(nèi)容,因此視頻幀之間的變化可能會(huì)編碼其他信息,這些信息有助于做出更準(zhǔn)確的預(yù)測.遞歸神經(jīng)網(wǎng)絡(luò)是一種非常適合處理并學(xué)習(xí)順序數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu).S.HOCHREITER等[16]介紹了一種改進(jìn)的遞歸網(wǎng)絡(luò)架構(gòu),稱為長短時(shí)記憶網(wǎng)絡(luò)(LSTM),它引入了非線性乘法門結(jié)構(gòu)和存儲(chǔ)單元,可以有選擇地記憶信息,能夠克服常規(guī)循環(huán)網(wǎng)絡(luò)的梯度消失或爆炸問題,從而對(duì)特征向量內(nèi)的長時(shí)間對(duì)應(yīng)關(guān)系進(jìn)行建模.LSTM架構(gòu)使用存儲(chǔ)單元來存儲(chǔ)和輸出信息,如圖2所示.
圖2 LSTM單元的結(jié)構(gòu)
LSTM架構(gòu)隱藏層h的計(jì)算如下:
i(t)=σ(Wxix(t)+Whih(t-1)+Wcic(t)+bi),
(1)
f(t)=σ(Wxfx(t)+Whfh(f)+Wcfc(t)+bf) ,
(2)
c(t)=f(t)c(t-1)+ittanh(Wxcx(t)+
Whch(t-1)+bc),
(3)
o(t)=σ(Wxox(t)+Whoh(t-1)+Wcoc(t)+bo),
(4)
h(t)=o(t)tanh(c(t)) ,
(5)
式中:σ為激活函數(shù)sigmod;i(t)、f(t)、c(t)和o(t)分別為輸入門、遺忘門、存儲(chǔ)單元和輸出門的激活向量;而Wαβ為α和β之間的權(quán)重矩陣,例如,輸入向量x(t)到遺忘門f(t)的權(quán)重矩陣為Wxf.
盡管LSTM能夠長時(shí)間建模,但前期的工作并沒有學(xué)習(xí)視頻中豐富的序列信息.視頻中無論場景的變化速度還是人物物體的運(yùn)動(dòng)速度不盡相同,因此視頻中人或物的運(yùn)動(dòng)時(shí)域尺度是不同的,即動(dòng)作變化周期不同.在文中的視頻分類框架中,利用LSTM來捕獲不同關(guān)鍵序列幀的時(shí)間依賴性,學(xué)習(xí)不同時(shí)間跨度的動(dòng)作類別的上下文信息.文中從Inception-V3網(wǎng)絡(luò)的最后池化層獲取輸入,并將其饋送到LSTM網(wǎng)絡(luò)中學(xué)習(xí)不同視頻序列中的編碼信息.第i個(gè)尺度下關(guān)鍵子序列最后一層輸出的特征為
(6)
式中:mi為視頻關(guān)鍵子序列中的幀數(shù).經(jīng)過LSTM網(wǎng)絡(luò)得到的序列特征定義為
(7)
獲取到的不同時(shí)間尺度的關(guān)鍵序列特征分別送入各個(gè)分類器得到相應(yīng)的類別得分為
(8)
再之后對(duì)原始幀和光流幀多個(gè)序列的網(wǎng)絡(luò)Softmax層的輸出進(jìn)行置信度融合.
空間流特征和運(yùn)動(dòng)流特征之間以及不同時(shí)間尺度序列特征之間有很強(qiáng)的互補(bǔ)性,選擇合適的融合方法能夠有效地提升視頻分類精度.K.SIMONYAN等[9]提出的雙流網(wǎng)絡(luò)使用固定權(quán)重進(jìn)行幀間預(yù)測值融合,但是其沒有討論融合權(quán)重的選擇方法.僅僅對(duì)視頻幀的預(yù)測結(jié)果進(jìn)行融合,并不能保證涵蓋視頻的所有信息,因此會(huì)產(chǎn)生較大的誤差.分類器的置信度是分類任務(wù)中的一個(gè)重要參量,它決定了拒識(shí)門限,在多分類器集成中起著關(guān)鍵作用.鑒于樣本的隨機(jī)分布性,合理地權(quán)衡樣本所屬類別與其他類別的總體差異性和所屬類別的唯一性.文中采用加權(quán)融合樣本所屬某個(gè)類別的最大概率與次大概率的誤差和樣本所屬某個(gè)類別的最大概率與樣本所屬其他各類別的平均概率誤差,來確定空間流網(wǎng)絡(luò)中不同時(shí)間尺度分類器和光流網(wǎng)絡(luò)中不同時(shí)間尺度分類器的置信度[17],該置信度算式如下:
(9)
(10)
將類別得分矢量記為yfinal(x)=(p1,p2,…,pn),則樣本x的動(dòng)作類別標(biāo)簽為
(11)
在UCF101數(shù)據(jù)集上訓(xùn)練和評(píng)估模型的有效性.該數(shù)據(jù)集選取來源于YouTube的13 320個(gè)視頻,包含了5個(gè)大類的動(dòng)作類別:人-物交互、人-人交互、肢體運(yùn)動(dòng)、彈奏樂器、運(yùn)動(dòng),共計(jì)101類動(dòng)作,總時(shí)長達(dá)27 h.每個(gè)類別有25個(gè)組,每組有4個(gè)以上的視頻片段,包含多樣的內(nèi)容,同一組中的視頻具有相同的目標(biāo)、類似的角度和類似的背景等特點(diǎn).遵從文獻(xiàn)[11]的驗(yàn)證方法,分別在數(shù)據(jù)集的3個(gè)splits上進(jìn)行訓(xùn)練和測試.在處理數(shù)據(jù)集時(shí),首先對(duì)每個(gè)視頻進(jìn)行了統(tǒng)一的格式轉(zhuǎn)換,然后將原始視頻幀轉(zhuǎn)換成了統(tǒng)一大小的彩色圖像.在數(shù)據(jù)集上,利用2.1提出的方法進(jìn)行關(guān)鍵幀序列提取,然后在這些關(guān)鍵序列的基礎(chǔ)上,利用文中提出的算法進(jìn)行分類識(shí)別任務(wù).硬件試驗(yàn)環(huán)境如下:處理器為i9,GPU為NVIDIA 2080 Ti,內(nèi)存為64 GB;軟件環(huán)境如下:python,CUDA10.0,tensorflow1.1.8.
試驗(yàn)參數(shù)的選取會(huì)直接影響最后的試驗(yàn)結(jié)果.首先隨機(jī)選擇15%的訓(xùn)練數(shù)據(jù)作為驗(yàn)證集來調(diào)整網(wǎng)絡(luò)中的超參數(shù).對(duì)于初始視頻樣本的下采樣,經(jīng)過反復(fù)試驗(yàn)調(diào)試,最終選擇將N設(shè)置為40.對(duì)于特征提取網(wǎng)絡(luò),將輸入的視頻幀截取為229×229,利用相關(guān)標(biāo)簽學(xué)習(xí)微調(diào)后的Inception-V3模型提取空間和短時(shí)運(yùn)動(dòng)特征,其包含5個(gè)卷積層和3個(gè)池化層及3個(gè)優(yōu)化后的Inception Module結(jié)構(gòu).經(jīng)過多次試驗(yàn),考慮網(wǎng)絡(luò)綜合性能最佳的情形,LSTM底層的隱藏層的維度設(shè)置為2 048,第2層擁有512個(gè)隱藏單元,每層的dropout分別設(shè)置為0.5和0.3.Adam優(yōu)化器的初始學(xué)習(xí)率為10-3,權(quán)重衰減系數(shù)為10-5,批量大小設(shè)置為32.
3.3.1時(shí)間尺度的選擇及融合方法的試驗(yàn)結(jié)果
為了驗(yàn)證提出的多時(shí)間尺度雙流CNN及置信融合方法的有效性,采用準(zhǔn)確率來評(píng)估檢驗(yàn)文中方法的試驗(yàn)結(jié)果.分別選取1-4時(shí)間尺度并采用平均融合[9]和置信融合方法進(jìn)行了動(dòng)作訓(xùn)練與測試的試驗(yàn),其動(dòng)作識(shí)別的準(zhǔn)確率如表1所示.
表1 時(shí)間尺度個(gè)數(shù)及融合方法對(duì)分類性能的影響 %
由表1可見,文中提出的置信度融合方法比平均融合方法具有更高的動(dòng)作識(shí)別準(zhǔn)確率.當(dāng)只有1個(gè)時(shí)間尺度時(shí),平均融合方法得到的識(shí)別準(zhǔn)確率為86.3%,而文中方法精確度達(dá)到87.7%,提升了1.4個(gè)百分點(diǎn).隨著時(shí)間尺度的增多,識(shí)別準(zhǔn)確率逐漸提升;當(dāng)時(shí)間尺度為3時(shí),識(shí)別準(zhǔn)確率達(dá)到最大,為92.2%.當(dāng)選取的時(shí)間尺度繼續(xù)增加,融合后的識(shí)別準(zhǔn)確率出現(xiàn)下降同時(shí)還會(huì)更耗費(fèi)處理時(shí)間.因此,最終將空間流和時(shí)域流的時(shí)間尺度設(shè)置為3.圖3給出了文中多時(shí)間尺度雙流CNN和置信融合的方法在UCF101數(shù)據(jù)集上代表性10類的動(dòng)作識(shí)別準(zhǔn)確率.
圖3 UCF101數(shù)據(jù)集中典型動(dòng)作識(shí)別結(jié)果
由圖3可見,僅僅提取單時(shí)間尺度的視頻序列時(shí),雙流網(wǎng)絡(luò)的識(shí)別率相對(duì)較低,而隨著融合的時(shí)間尺度的個(gè)數(shù)增加,大部分類別的識(shí)別率得到提升,但少許類別的識(shí)別率沒有改變或出現(xiàn)下降.對(duì)于Swing、Skyjet等大多數(shù)類別而言,其運(yùn)動(dòng)周期較長,時(shí)間跨度較大,所以在時(shí)間尺度多的序列特征融合下能夠提高動(dòng)作識(shí)別準(zhǔn)確率.而對(duì)于類別CleanAndJerk,其運(yùn)動(dòng)周期較短,所以在密集幀尺度下就能夠獲得較準(zhǔn)確分類.故文中方法考慮多時(shí)間尺度與多模態(tài)特征學(xué)習(xí)與提取,并采用LSTM進(jìn)行各尺度特征的動(dòng)作分類預(yù)測同時(shí)進(jìn)行置信融合,能夠使得各個(gè)樣本在不同時(shí)間序列下的時(shí)空信息進(jìn)行相互補(bǔ)充,從而獲得更好的動(dòng)作識(shí)別結(jié)果,驗(yàn)證了文中提出方法的有效性.
3.3.2與現(xiàn)有方法的對(duì)比試驗(yàn)結(jié)果
將多尺度雙流CNN與置信融合的動(dòng)作識(shí)別方法與目前優(yōu)秀的分類識(shí)別方法在UCF101數(shù)據(jù)集上的試驗(yàn)結(jié)果進(jìn)行比較,其識(shí)別準(zhǔn)確率對(duì)比見表2.
表2 對(duì)比現(xiàn)有方法的試驗(yàn)結(jié)果
由表2可見,相對(duì)于其他已有的動(dòng)作分類方法,文中提出的多時(shí)間尺度雙流CNN與置信融合的網(wǎng)絡(luò)框架能夠取得較好的分類效果.與DT+MVSV、iDT+HSV、MoFAP等采用傳統(tǒng)手工設(shè)計(jì)特征的方法比,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)深層次特征,從而更具有類別區(qū)分性.與現(xiàn)有的深度學(xué)習(xí)算法相比,文獻(xiàn)[9]采用雙流網(wǎng)絡(luò)并進(jìn)行均值融合的分類方法準(zhǔn)確率達(dá)到了88.0%,文獻(xiàn)[11]在雙流網(wǎng)絡(luò)的基礎(chǔ)上利用LSTM獲取學(xué)習(xí)序列特征的方法準(zhǔn)確率達(dá)到了88.6%,文獻(xiàn)[21]通過雙流網(wǎng)絡(luò)學(xué)習(xí)視頻空間特征和時(shí)間特征,然后利用Fisher向量和VLAD進(jìn)行特征融合準(zhǔn)確率達(dá)到了90.6%.文中采用多時(shí)間尺度多模態(tài)特征學(xué)習(xí)并分別動(dòng)作預(yù)測同時(shí)通過置信融合的方法,比文獻(xiàn)[9]、[11]、[21]分別提升了4.2%、3.6%、1.6%.這說明文中多時(shí)間尺度多模態(tài)特征學(xué)習(xí)方法包含的視頻上下文信息更加豐富,采用置信度融合兩流多個(gè)時(shí)間尺度分類器的方法能更加合理地融合各個(gè)空間網(wǎng)絡(luò)和時(shí)域網(wǎng)絡(luò)對(duì)動(dòng)作的識(shí)別結(jié)果,有效地提高了動(dòng)作識(shí)別準(zhǔn)確率.
視頻的上下文信息能夠豐富視頻特征的表達(dá).針對(duì)目前基于卷積神經(jīng)網(wǎng)絡(luò)的視頻動(dòng)作識(shí)別任務(wù)中未最大化挖掘并利用視頻中的時(shí)序信息導(dǎo)致識(shí)別準(zhǔn)確率較低的問題,提出了多時(shí)間尺度雙流CNN與置信融合的動(dòng)作識(shí)別方法.在UCF101數(shù)據(jù)集上進(jìn)行的試驗(yàn)表明文中的方法更合理地學(xué)習(xí)了視頻的時(shí)空特征,同時(shí)采用多分類器置信融合的方法,為試驗(yàn)分類的101種不同的動(dòng)作行為實(shí)現(xiàn)更好的分類結(jié)果,平均識(shí)別準(zhǔn)確率達(dá)到了92.2%,相較于文獻(xiàn)[21]等新近的動(dòng)作識(shí)別方法,得到了較大的提升.
在未來的工作中,可考慮通過神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)采樣視頻的關(guān)鍵序列,以期實(shí)現(xiàn)更佳動(dòng)作分類識(shí)別.