張冰冰 葛疏雨 王旗龍 李培華
行為識別在智能監(jiān)控、人機交互和視頻檢索等領域中得到了廣泛的應用,引起了眾多研究者的關注.由于行為視頻的拍攝視角、背景和尺度等方面具有多樣性,使得不同行為的類間差異較小,相同行為的類內差異較大,所以基于視頻的人體行為識別是非常具有挑戰(zhàn)性的研究課題[1-3].
2012 年,Hinton 帶領的團隊在大規(guī)模圖像競賽ILSVRC (ImageNet large scale visual recognition challenge) 中憑借卷積神經網絡(Convolutional neural network,CNN) 模型AlexNet[4]贏得了該年度比賽的冠軍.此后,基于卷積神經網絡的方法在圖像分類、物體檢測、圖像分割和人臉識別等計算機視覺領域的研究中占據了重要的位置.雖然卷積神經網絡在處理靜態(tài)圖像任務中的表現(xiàn)令人印象深刻,但是由于無法建模視頻中的時序變化信息,基于卷積神經網絡的行為識別方法在相當長的一段時間內仍然一直無法超越基于人工設計特征的方法[5].2014 年,Simonyan 等[6]提出了雙流卷積神經網絡模型,將基于卷積神經網絡的方法較好地拓展到視頻分析領域.該模型由兩個獨立的空間信息網絡和時間信息網絡構成.空間信息網絡的輸入為視頻的單幀彩色圖像,是視頻中的環(huán)境、物體的空間位置信息的載體.時間信息網絡的輸入是堆疊光流灰度圖像,代表時序變化信息,用來建模行為的動態(tài)特征.通過融合兩路網絡softmax 輸出的分數,得到最后的識別結果.雙流卷積神經網絡模型對于行為識別任務十分有效,研究者們基于此模型提出了多種融合雙流網絡的方法.Feichtenhofer 等[7]在最后一個卷積層融合視頻序列中連續(xù)多幀圖像的空間和時間特征,然后對融合后的時空特征進行3D 卷積和3D 池化操作.Feichtenhofer 等[8-9]進一步研究了使用殘差網[10]作為雙流模型基本架構時的融合方法,提出了在空間流和時間流之間加入短連接,將時間流信息注入到空間流之中,以增強雙流之間的時空交互.其中,ST-ResNet[8]采用直接注入的方式,而ST-multiplier[9]的時間流信息會先經過乘法門函數.在增強了時空信息的交互的同時,這兩個工作中都將網絡中2D 卷積核拓展成了3D 卷積核,擴大了視頻局部特征建模時序的范圍.Wang 等[11]引入了空間和時間二階統(tǒng)計信息,并在最后一個卷積層以金字塔的形式融合雙流網絡,形成了更有效的視頻局部時空特征.Wang 等[12]將視頻片段分成N段,利用一階雙流網絡分別提取每一段的特征,最后對每一段的特征進行加權融合,得到最終的視頻表達.
上述工作主要研究基于RGB 視頻的行為識別.除此之外,學者們也研究了基于RGB-D 視頻的行為識別問題,即采集的視頻圖像中包含深度(Depth)信息.Hu 等[13]提出了一種異質特征融合方法,通過融合動態(tài)骨架特征、動態(tài)顏色模式特征和動態(tài)深度特征,在4 個RGB-D 行為數據庫上取得領先性能.Shahroudy 等[14]提出了一種基于深度自編碼的共享特定特征分解網絡,將輸入的多模態(tài)信號分解成不同的組成成分,并提出使用混合范數作為多特征的正則項,可以選擇不同組合的特征,該方法在5個RGB-D 行為數據庫取得較好結果.與Hu 等[13]和Shahroudy 等[14]的工作不同,本文主要研究基于RGB 視頻的行為識別方法.
目前基于雙流卷積神經網絡的工作中,僅融合了視頻空間和時間特征的一階統(tǒng)計信息,沒有考慮更高階的統(tǒng)計信息.以上的融合方法雖然在訓練時獲得了視頻局部空間和時間特征的一階統(tǒng)計信息或二階統(tǒng)計信息,但是沒有同時利用視頻局部特征的一階和二階信息.盡管在訓練階段都擴大了局部特征建模時序的范圍,但在測試階段僅考慮融合多個視頻局部特征的分類器分數,沒有考慮局部特征之間的統(tǒng)計信息.為了解決雙流卷積神經網絡方法中存在的問題,同時受到多種模態(tài)特征融合方法的啟發(fā),本文提出了基于二階聚合的視頻多階信息融合方法.
本文方法流程如圖1 所示,主要分為兩個階段,第1 階段為一階和二階雙流網絡的訓練,第2 階段是基于二階聚合的多階信息融合.在第1 個階段中,空間流和時間流都利用在ImageNet 數據集[15]上預訓練的網絡,分別在目標數據集上進行微調,微調后的雙流模型可以提取視頻局部空間和時間特征的一階統(tǒng)計信息.對于視頻局部特征二階統(tǒng)計信息的獲取,則受到了圖像分類領域研究方法的啟發(fā).在圖像分類中,特征分布的二階信息有著較為廣泛地應用,對分類準確率的提升也起到重要作用.Lin 等[16-17]提出了一種雙線性池化卷積神經網絡,該網絡將最后一層卷積層的輸出特征進行外積計算,從而得到特征分布的二階信息,該方法在精細粒度圖像分類任務上取得了較高的準確率.Li 等提出了MPNCOV 卷積神經網絡[18]及其快速算法iSQRT-COV卷積神經網絡[19],這兩個網絡通過對卷積層的輸出進行協(xié)方差池化,并對協(xié)方差矩陣進行冪正規(guī)化處理,將正規(guī)化協(xié)方差矩陣進行取上三角矩陣并向量化,作為圖像的表達,該表達包含了特征分布的二階統(tǒng)計信息,這一系列的工作在大規(guī)模圖像分類任務以及精細粒度圖像分類中取得了優(yōu)異的性能.考慮計算速度和收斂速度,本方法基于iSQRT-COV 卷積神經網絡建立了二階雙流網絡模型,用來獲取視頻局部空間和時間特征的二階統(tǒng)計信息.
圖1 基于二階聚合的多階信息融合方法流程圖Fig.1 The flow chart of multi-order information fusion based on second-order aggregation
在基于二階聚合的多階信息融合階段,對基于多階信息的視頻局部特征分別進行聚合.為了獲取視頻局部特征之間的交互信息,通過雙線性池化[16-17]這樣的二階聚合方式處理視頻局部特征,但是雙線性池化后得到的表達維度較高,將帶來較大的計算和存儲代價.為了在降低維度的同時不損失多階信息的表達能力,本文使用壓縮雙線性池化方法[20]對基于多階信息的視頻局部特征分別進行聚合,形成高階視頻全局表達.最后,使用表達級和分類器分數級兩種不同策略融合4 種視頻全局表達.
第1.1 節(jié)闡述使用一階雙流卷積神經網絡模型獲取視頻空間和時間一階信息的過程.第1.2 節(jié)是建立二階雙流卷積神經網絡模型的過程,獲得了視頻局部特征的二階信息.本文選擇ResNet-50 作為一階和二階雙流模型的基本架構.對于雙流網絡的訓練,一般使用遷移學習的方法在ImageNet 數據集預訓練的網絡模型對不同的目標數據集上進行微調,從而獲得更好的效果.對于時間流網絡,為了使輸入能夠接受視頻序列中連續(xù)多幀的水平和豎直光流信息,把第一層卷積核的通道數由原來的3 通道經過復制拓展成2L通道,L為在視頻續(xù)中連續(xù)采樣幀的個數,在經典的雙流卷積神經網絡中L=10.
一階雙流卷積神經網絡模型由空間流網絡和時間流網絡兩部分組成,通常不會直接從參數的重新初始化開始直接獨立訓練雙流網絡,這是由于實驗中所使用的行為數據集的大小有限,容易造成網絡訓練不收斂或者過擬合,這樣得到的網絡效果很差.一般使用在ImageNet 數據集[15]上預訓練的網絡模型對不同目標數據集進行微調.
經過微調后的一階空間流和時間流網絡,其輸入端的單幀RGB 圖像和單組堆疊光流圖像尺寸分別為224×224×3 和224×224×20,經過殘差單元后,最后一層輸出的卷積特征圖尺寸為:7×7×2 048,其特征描述子數目為49,維度為2 048.設該輸出特征為X={x1,x2,···,xM},其中M=49.經過全局均值池化層
z的維度為2 048,表示單幀RGB 圖像的表達,即視頻局部特征的一階統(tǒng)計信息.本文使用Feichtenhofer 等[8]單獨訓練好的空間流模型和時間流模型作為初始化模型提取基于一階統(tǒng)計信息的視頻局部特征.
在一階雙流卷積模型中,使用的預訓練網絡是一階網絡模型,為建立二階雙流卷積神經網絡模型,最直接的辦法是利用預訓練的二階卷積神經網絡模型.在ImageNet 上訓練二階卷積神經網絡的工作主要有以下兩個:分別嵌入了MPN-COV[18]和iSQRT-COV[19]結構層的二階卷積神經網絡,這兩個模塊通常位于網絡的最后一個卷積層,其操作均是對卷積層的特征進行協(xié)方差池化,再對協(xié)方差矩陣進行冪正規(guī)化處理,將輸出作為全連接層的輸入.iSQRT-COV 是MPN-COV 的快速近似算法.
本文以嵌入了iSQRT-COV 結構層的網絡為基礎建立二階雙流網絡模型.使用在ImageNet 上訓練好的iSQRT-COV-ResNet-50-2K 網絡在行為識別數據集的RGB 數據和光流數據上進行微調,雙流網絡微調的過程為:將iSQRT-COV-ResNet-50-2K網絡中的最后一層分類層的1 000 個節(jié)點替換成目標數據集的類別數,其中UCF101 數據集的類別數為101,HMDB51 數據集的類別數為51.隨機初始化該層參數,并以很小的學習率繼續(xù)訓練網絡,網絡收斂后即得到二階空間流網絡和二階時間流網絡.二階雙流模型將作為特征提取器,提取在視頻序列中均勻采樣的N幀圖像空間和時間特征的二階信息.
經過微調后的二階空間流和時間流網絡,其輸入端的單幀RGB 圖像及單組堆疊光流圖像的尺寸分別為:224×224×3 和224×224×20,經過殘差單元,最后一層輸出的卷積特征進入iSQRT-COV結構層,首先經過一個卷積核大小為1×1,通道數為64 的卷積層,使通道數由2 048 減少到64,相當于特征維度由2 048 降低到64,以降低計算復雜性.這一卷積層使得正規(guī)化協(xié)方差形成的特征表達維度降低,從而減少全連接層的參數,同時又不損失性能.將該特征記為X={x1,x2,···,xM},其中M代表特征描述子的數目,此時M=49.X首先經過協(xié)方差池化
其中,U是正交矩陣.diag(λi) 是C的特征值矩陣,且為對角矩陣.則矩陣C的平方根正規(guī)化結果為
式(4) 對協(xié)方差矩陣進行了平方根正規(guī)化.由于矩陣進行本征分解的過程不能充分利用GPU 的計算資源,所以iSQRT-COV 結構層使用迭代法近似求解協(xié)方差矩陣的平方根,其輸出Q經過上三角陣的向量化操作后記作z,是單幀RGB 圖像的表達,即基于二階統(tǒng)計信息的視頻局部特征,維度為2 080(約為2 K).
為了驗證多階信息融合的有效性,首先對一階和二階雙流模型中不同網絡流的組合進行融合,共得到8 種不同的組合,分別計算各組合分類器分數的均值得到最終預測.第3.2 節(jié)在UCF101 和HMDB51 數據集上對這種多階信息融合方式進行了評估,實驗結果表明一階、二階空間和時間網絡流之間具有一定的互補性,初步驗證了多階信息的有效性.在此基礎上,進一步提出了對視頻局部特征的一階和二階信息分別進行二階聚合,并在聚合后形成了高階視頻全局表達,對于該表達的融合,采用了表達級融合和分類器分數級融合兩種策略.
通過從視頻序列V中均勻采樣N幀圖像,使用第1.1 節(jié)和第1.2 節(jié)的雙流一階、二階網絡模型獲取N幀圖像空間和時間特征,是視頻局部特征,獲取了視頻的多階信息.下面將以一種視頻局部特征為例闡述二階聚合的過程.例如,如果使用二階空間流網絡提取N幀圖像的特征,構成集合Z={z1,z2,···,zN},zn ∈Rc,zn是視頻中單幀RGB 圖像的表達,即視頻局部空間特征,c=2 080,Z為視頻局部特征的集合.
N個視頻局部特征經過雙線性池化聚合操作
B(Z) 是N個視頻局部特征的外積,捕捉了采樣幀之間的交互信息,此高階視頻全局表達可以建模整段視頻的空間位置變化信息.B(Z)是一個c×c的對稱矩陣,取其上三角矩陣并進行向量化操作后維度為c(c+1)/2=2 164 240,該視頻級表達維度過高,將會給計算和存儲造成較大負擔,以下將說明對其降維的方法.
為了對這些視頻表達進行分類,一般使用線性支持向量機或者邏輯回歸等線性核分類器.對于兩類不同人體行為的表達為B(Z) 和B(P),使用線性核比較兩類表達
可以看出,B(Z) 和B(P) 是基于二項式核的映射函數,這就相當于對分類器引入了非線性核函數,對最終分類性能非常有幫助.將此二項式核表示為k(z,z).如果可以找到低維映射函數Ψ(z)∈Rd,d?c2,滿足〈Ψ(z),Ψ(p)〉≈k(z,p),則式(6) 可以表示為
由此可以看出,可以使用任意多項式核的低維近似,將高維向量空間向低維向量空間映射,得到壓縮的雙線性池化聚合后的視頻全局表達O(Z)=,進而解決高維雙線性池化表達的計算和存儲問題.
對單個視頻局部特征z進行基于張量速寫算法的壓縮雙線性池化[20]操作
基于張量速寫算法的壓縮雙線性池化操作具體流程如圖2 所示.主要經過以下三個步驟:
步驟1.隨機產生兩組參數并將其固定:hk ∈Nc和sk ∈{+1,-1}c,k=1,2.c是視頻局部特征z的維度,d為經過壓縮雙線性池化編碼后表達的維度,d ?c2,其中hk(i) 服從{1,2,···,d}的均勻分布,sk(i) 服從{+1,-1}的均勻分布.
步驟2.定義張量速寫映射函數
步驟3.根據Count sketch 算法[21],計算z的兩組張量速寫的循環(huán)卷積求取z外積的張量速寫,即
y是視頻局部特征z進行壓縮雙線性池化結果,Z={z1,z2,···,zN}集合中的每個視頻局部特征都經過壓縮的雙線性池化操作,得到視頻局部壓縮雙線性池化特征集合Y={y1,y2,···,yN},對Y進行全局均值池化,得到多個視頻局部特征的二階聚合結果,為視頻的全局表達.以上為以視頻空間二階信息為例說明基于多階信息的視頻局部特征的二階聚合過程.對于視頻局部特征的空間一階信息、時間一階信息和時間二階信息的二階聚合,與上述操作相同,最終可以獲得4 種高階視頻全局表達.
圖2 視頻局部特征z 進行壓縮雙線性池化操作流程圖Fig.2 The flow chart of compact bilinear pooling of one local video feature z
行為識別的方法大多數都是多種特征進行融合的.在經典的人工設計特征中,改進的密集點軌跡(Improved dense trajectory,IDT) 特征[5]是使用最為廣泛的特征,為了描述軌跡周圍的表觀結構信息和運動信息,一般會基于軌跡提取HOG (Histogram of oriented gradient)、HOF (Histogram of flow)和MBH(Motion boundary histogram)特征,最終結果是以上幾種特征融合的結果.視頻數據中存在多種屬性,使融合視頻的特征或者表達成為必然.本文通過兩階段建模的方式獲得了4 種高階視頻全局表達,以下介紹融合這4 種表達的策略并分析其性質.
假設4 種高階視頻全局表達分別為視頻一階空間信息表達Ys1、一階時間信息表達Yt1、二階空間信息表達Ys2和二階時間信息表達Yt2.這4 種表達分別獲取了行為視頻數據中存在的多種屬性.Ys1,Ys2,Yt1和Yt1分別是視頻局部空間特征的一階信息之間、局部空間特征的二階信息之間、局部時間特征的一階信息之間和局部時間特征的二階信息之間的高階統(tǒng)計信息.
與上文中提到的一階、二階空間和時間網絡流的融合方式的組合數量相同,有8 種不同的組合形式,這幾種視頻全局表達之間也會產生8 種不同的組合.在第3.3 節(jié)中將首先對這8 種不同組合進行評估,確定互補性最強的組合.在基于手工特征的方法中,視覺詞袋模型下的特征融合發(fā)生在3 個不同的處理等級:特征級融合、表達級融合和分類器分數級的融合.本文方法中多階信息經二階聚合后形成了視頻級表達,可采用表達級融合和分類器分數級融合這兩種策略,下面以4 種表達的組合為例說明兩種融合策略及其不同的性質.
對于表達級融合策略,融合過程發(fā)生在得到視頻全局表達之后,先將4 個表達串聯(lián)成更長的視頻級表達.圖3 為該種策略的融合過程示意圖.這4 種表達先經過內部歸一化,即Ys1,Yt1,Ys2,Yt2分別經過指數歸一化和L2 范數歸一化處理
其中,cat(·) 表示將4 種視頻全局表達串聯(lián).然后,對串聯(lián)后的視頻全局表達Yfinal進行指數歸一化和L2 范數歸一化.最后,送入支持向量機(Support vector machine,SVM) 進行識別.如果每一種視頻級表達的維度為d,級聯(lián)后的表達維度為4d.此時Yfinal既包含了視頻局部特征多階信息,又包含了視頻局部特征多階信息之間的交互信息,形成了一種更加有效的視頻全局時空表達.
圖3 表達級融合過程示意圖Fig.3 Fusion at the representation level
對于分類器分數級的融合策略,融合過程發(fā)生在每種視頻全局表達獨立地送入SVM 分類器之后,將所有分類器的得分進行融合,得分融合策略使用算術平均.如圖4 所示,這種融合策略分別對Ys1,Yt1,Ys2,Yt2進行指數歸一化和L2 范數歸一化操作,并分別進行SVM 分類,將分類器得分相加,得到最終的預測結果.
圖4 分類器分數級融合過程示意圖Fig.4 Fusion at the classifier score level
這兩種不同處理級別的融合策略各有優(yōu)缺點,具體選擇哪種融合策略要研究這4 種表達在不同處理級別的相關性.如果4 種視頻全局表達之間相關性很大,那么選擇表達級融合策略比較合理.否則,如果表達之間不相關,將其級聯(lián)成更長的表達使得分類過程中產生信息丟失的情況.這些表達相關性比較弱時,則應該選擇分類器分數級的融合.融合能夠提高性能的主要原因是這些表達之間具有一定的互補性,這種互補性存在于不同的描述層次上.
本節(jié)使用兩個數據集對二階雙流網絡模型以及基于二階聚合的視頻多階信息融合方法進行評估實驗,數據集分別為UCF101[22]和HMDB51[23].UCF101 數據集包含101 種人體行為,共13 320 個視頻序列,這個數據集里面的大多數行為是關于體育運動的.HMDB51 數據集包含51 種人體行為,總共6 766 個視頻序列,每一類行為至少有100 個視頻樣本,該數據集視頻主要來源于網絡視頻和電影片段,行為的類內差距非常大,是目前最難的數據集之一.這兩個數據集使用3 種方式劃分訓練集和測試集,在3 個劃分上的平均準確率作為最終的分類結果.
第1 階段訓練一階和二階雙流網絡的參數設置:對一階雙流模型和二階雙流模型在HMDB51 和UCF101 數據集上進行微調的初始學習率為0.001,當驗證錯誤率達到飽和時,學習率除以10.提取視頻局部特征時,一階視頻局部特征的維度c為2 048,二階視頻局部特征的維度是正規(guī)化協(xié)方差矩陣Q取上三角矩陣并進行向量化操作后的維度c為2 080.
第2 階段基于二階聚合的多階信息融合的參數設置:所有指數歸一化的操作中指數的取值為0.45,視頻的表達采用一對多的線性SVM 進行分類,其容錯參數C=100.
表1 是二階網絡空間流網絡和時間網絡在UCF101 和HMDB51 上分別與一階空間流網絡和時間流網絡的性能比較.二階雙流模型在測試時采用了與一階雙流模型[6,9]相同的標準方式,在對一個包含多幀的視頻進行分類時,從視頻片段中隨機選擇25 幀,每一幀圖像中裁剪出10 個crop,對于空間流網絡每個crop 的大小為224×224×3,而對時間流網絡該crop 的大小為224×224×20,最后對每個crop 獨立地進行預測,再計算平均值作為該視頻片段的預測值.
表1 一階、二階空間和時間流網絡在UCF101 和HMDB51 上準確率的比較Table 1 Comparisons of first-order spatial and temporal network with second-order spatial and temporal network on UCF101 and HMDB51
由表1 可知,無論是空間流網絡還是時間流網絡,二階網絡的性能均超過一階網絡.在UCF101上,二階空間流網絡比一階空間流網絡性能提升2.99%,提升較為顯著,在HMDB51 上該提升為0.75%.
在UCF101 和HMDB51 上,對于一階時間流和二階時間流網絡的比較,二階網絡分別比一階網絡提升1.07% 和1.84%.初步證明了引入空間和時間特征的二階統(tǒng)計信息的必要性.
根據第2.1 節(jié)所述,表2 列出了一階和二階雙流模型中網絡流進行組合時的8 種不同情況.表2 中的第1 行是一階雙流模型融合在UCF101 和HMDB51 上的識別準確率.融合方式與經典雙流網絡相同,即計算網絡softmax 輸出分數的均值最為最終的預測.如表2 所示,在HMDB51 上,一階雙流網絡融合的準確率為61.20%.除了一階空間流和二階時間流及一階時間流和二階空間流這兩種組合以外,其他5 種組合均超過了一階雙流網絡融合的識別準確率.識別率最高的組合為一階時間流、二階空間流和二階時間流融合,準確率比一階雙流網絡融合提升4.94%.在UCF101 上,一階雙流網絡融合的準確率為91.70%,一階空間流、二階空間流和二階時間流及一階空間和二階時間流這兩種組合低于一階雙流網絡融合的識別結果,其他5 種組合均高于一階雙流網絡融合.識別率最高的組合和在HMDB51 上具有相同的規(guī)律,比一階雙流網絡融合提高了1.26%.上述實驗初步驗證了在行為識別任務中融合多階信息的必要性.
本小節(jié)實驗首先評估了基于二階聚合的視頻多階信息不同組合情況下融合的準確率.其次,在HMDB51 數據集上評估了對視頻多階信息融合有重要影響的兩個參數,即視頻中均勻采樣幀的數量N.最后,當視頻表達維度d為8 K 到64 K 范圍內變化的情況下,在兩個數據庫上評估兩種不同的視頻多階信息融合策略的性能.
1) 在UCF101 和HMDB51 上評估二階聚合后的視頻不同多階信息進行不同組合時的準確率,實驗設置為:d=8 K,N=25,融合策略為分類器分數級的融合.從表3 中可以看出視頻的多階信息融合在UCF101 和HMDB51 上表現(xiàn)出相同的規(guī)律,當一階空間和時間信息及二階空間和時間信息融合時,性能達到最優(yōu),在兩個數據庫上比一階雙流網絡信息融合提升了3.50% 和3.91%.以上表明在基于二階聚合的視頻多階信息融合方法中,4 種多階信息之間具有較強的互補性.在以下實驗中都基于4種多階信息的融合.
由表2 和表3 可以看出,多階信息的二階聚合方法在UCF101 數據庫上的效果不夠顯著.其主要原因是:在UCF101 上識別性能已經接近飽和,其state-of-the-art 性能已經超過了93%.因此,在UCF101 上特征分布相對簡單,用一階統(tǒng)計信息就可以較好地對行為進行分類;HMDB51 的行為類別更為復雜,類別之間的差異更大.在HMDB51 上,需要用表達能力更強的二階統(tǒng)計特性(建模特征之間的相關性) 才能準確地對行為類別進行分類.
2) 評估從視頻中均勻采樣幀的數量N.實驗設置為:二階聚合后的4 種視頻表達維度d=8 K,融合策略采用分類器分數級的融合.實驗結果如圖5所示,當N從3 逐漸增加至25 的過程中,分類準確率隨著幀數的增加而不斷提高,當N=25 時,分類準確率達到最高.當N繼續(xù)增加至35 幀時,性能有所下降.分析造成以上現(xiàn)象的原因,是由于在HMDB51 數據集中,每段視頻序列的幀數大多在100 到200 幀之間,對于空間流取25 幀時,在時間流網絡則是獲取了250 幀的運動變化信息,能夠建模整段視頻的運動變化情況,而繼續(xù)增加采樣幀數則帶來了信息冗余以及噪聲.本文以下實驗中,視頻采樣幀數N均為25.
表2 UCF101 和HMDB51 上多階信息融合有效性評估Table 2 Evaluation of the effectiveness of multi-order information fusion on UCF101 and HMDB51
表3 UCF101 和HMDB51 上基于二階聚合的視頻不同多階信息融合評估Table 3 Evaluation of fusing different multi-order information of the video based on second-order aggregation on UCF101 and HMDB51
圖5 HMDB51 上對視頻序列中均勻采樣幀數目N 的評估Fig.5 Evaluation of the number N of the frames uniformly sampled from the video on HMDB51
3) 評估兩種不同的融合策略,分別為表達級融合和分類器分數級融合.實驗參數設置:N=25,在不同的視頻表達維度d的情況下進行評估.實驗結果如圖6(a) 所示,在HMDB51 數據庫上,表達級融合和分類器分數級融合的性能基本一致,這說明4 種表達之間具有一定的相關性,同時具有互補性,使得兩種策略的差別較小.在視頻表達維度為8 K時,分類器分數級的融合比表達級的融合準確率提高0.35%,而隨著表達維度的增高,兩種策略的性能差異逐漸減小.分類器分數級的融合方式性能相對較好.如圖6(b)所示,在UCF101 數據庫上,在8 K到64 K 變化過程中,表達層融合的性能比分類器分數級融合的性能低1% 左右.綜上所述,在HMDB51 數據庫和UCF101 數據庫上,分類器分數級融合的策略優(yōu)勢較為明顯.不論在HMDB51還是UCF101 數據庫上,隨著視頻表達維度的增加,性能逐漸提升,綜合計算代價和性能兩方面因素考慮,以下實驗中d=32 K.
圖6 HMDB51 和UCF101 數據集在不同視頻全局表達維度d 下對表達級融合策略和分類器分數級融合策略的評估Fig.6 Evaluation of representation level fusion strategy and class score level fusion strategy under the different dimension of the video representation on HMDB51 and UCF101 dataset
實驗主機配置情況:CPU 為Intel Core i7-4770K,3.50 GHz,32 GB 內存,GPU 為GTX1070.本文算法是在Windows10 系統(tǒng),MATLAB 2017b環(huán)境下實現(xiàn)的,使用了MatConvNet[24]工具包.融合算法時間代價的測試是在HMDB51 數據集的第1 個劃分上進行的,處理每段視頻的時間為測試集所有視頻測試時間的均值.多階信息聚合階段的參數設置是:N=25,d=32 K.
一階雙流網絡的融合方法是預測分數相加,是離線進行的,融合時間則是一階空間流網絡和一階時間流網絡測試時間的加和,一階時間流和一階空間流網絡均采用標準測試方法(10-crop)[6].如表4所示,一階雙流網絡融合算法測試時間為每段視頻9.670 s.二階雙流網絡融合時,空間流網絡和時間流網絡同樣采用標準測試方法,二階雙流網絡融合測試時間為每段視頻10.459 s.一階和二階雙流網絡融合測試時間為兩個一階網絡和兩個二階網絡測試時間的總和,即每段視頻20.129 s.本文提出的多階信息二階聚合融合方法測試方式是“1-crop”,從視頻片段中隨機選擇25 幀,每一幀圖像中隨機裁剪出1 個crop,對于空間流網絡每個crop 的大小為224×224×3,而對于時間流網絡該crop 的大小為224×224×20,這些裁剪后的圖像作為一階和二階雙流網絡的輸入,提取視頻局部特征,這些局部特征進行二階聚合得到視頻全局表達,最終的預測是4 種視頻全局表達融合的結果.在這種測試方式下,本文方法處理每段視頻的時間為6.412 s,提出的多階信息聚合方法在融合時處理每段視頻時沒有帶來額外的時間代價,但本文方法使用SVM 訓練和測試時,是離線進行的,這一部分產生額外的時間代價.所以相比于一階雙流網絡融合的方法,本文提出的多階信息聚合方法在融合時處理每段視頻時沒有帶來額外的時間代價,但本文方法使用SVM 進行訓練和測試時,是離線進行的,這一部分產生額外的時間代價.以HMDB51 第1 個劃分為例,訓練視頻3 570 段,測試視頻1 530 段,使用分類器分數級策略進行融合時,采用分類器分數級策略,訓練SVM分類器和測試的時間共計300 s 左右.
表4 不同融合方法測試時間比較Table 4 Test speed comparison of different fusion methods
為了驗證本文方法的優(yōu)勢,將本文方法與其他基于雙流卷積神經網絡架構的行為識別方法進行了對比,各方法的識別結果列入表5 中.表5 中本文方法的參數設置是:N=25,d=32 K,4 種多階信息進行分類器分數級的融合.在許多基于雙流卷積神經網絡模型的方法中,都會通過與IDT 軌跡特征[5]進行融合來提升性能,本文方法也進一步融合了IDT 軌跡特征,探究其與IDT 軌跡特征的互補性.本文使用Peng 等[25]公開的代碼,在視頻中提取IDT 特征(即HOG,HOF,MBH),用費舍爾向量(Fisher vector,F(xiàn)V) 方法對三種IDT 特征進行編碼并分別訓練SVM 分類器.對IDT 特征進行融合時,分別計算三種IDT 特征的FV 編碼對應的SVM 分數并取均值,然后與本文中的4 種視頻高階全局表達SVM 分數相加作為最后的預測分數.
表5 基于雙流卷積神經網絡架構的行為識別方法比較Table 5 Comparison of different human action recognition arthogram based on two-stream convolutional network
由表5 可知,本文方法在UCF101 和HMDB51上準確率分別達到了93.8% 和69.2%,比經典的two-stream ResNet-50[9]方法提升2.1% 和8.0%.ST-multiplier[9]方法在UCF101 上的準確率為94.2%,略高于本文方法,但該方法所使用的時間流網絡是網絡層數更深,性能更強的ResNet-152 網絡.本文僅采用ResNet-50 作為基本架構就可以與其達到幾乎相同的準確率,且在HMDB51 數據集上的準確率高于ST-mutiplier.在UCF101 數據集上,ST-Pyramid 的識別準確率為93.8%,與本文方法一致,而ST-pyramid[11]在網絡架構中在特征層面上進行了時空金字塔分層聚合,網絡訓練復雜度較高.在HMDB51 數據集上,本文方法比ST-pyramid 高2.7%.本文方法在難度較大的HMDB51 數據集上的優(yōu)勢較為明顯,在準確率趨于飽和狀態(tài)的UCF101 數據集上也獲得了與當前最優(yōu)算法相同的性能.使用空間流和時間流聯(lián)合訓練的一階雙流網絡架構[8]作為一階雙流網絡的初始化模型,本文方法的性能進一步提升,在HMDB51 數據集上比經典的two-stream 融合算法提升9.5%,在UCF101 上該提升為2.4%.本文方法與IDT 軌跡特征互補性良好,融合IDT 特征后識別準確率有所提高,在HMDB51 數據集上優(yōu)勢較為明顯,比性能最好的ST-mutiplier 提高2.2%.
本文針對基于雙流卷積神經網絡存在的兩點不足提出了基于二階聚合的多階信息融合方法.本文的主要貢獻在于:建立了二階雙流網絡模型,獲取了空間和時間特征的二階統(tǒng)計信息,與經典雙流模型獲取的一階統(tǒng)計信息形成了多階信息.基于多階信息的視頻局部特征經過二階聚合后形成了高階視頻全局表達.實驗表明,二階雙流模型具有更好的性能,一階雙流模型和二階雙流模型獲取多階信息融合十分有效,形成的4 種視頻高階全局表達全部參與融合時互補性最強.融合后的表達在難度較大的HMDB51 數據集上優(yōu)勢十分明顯,在UCF101 上也達到了與當前最好算法相同的性能,融合IDT 特征能進一步提高識別準確率.