,
(南京理工大學(xué) 自動(dòng)化學(xué)院,南京 210094)
人體行為識(shí)別的目的是分析并理解視頻中的人體的動(dòng)作和行為,與靜態(tài)圖像中二維空間的物體識(shí)別不同,行為識(shí)別主要研究如何感知目標(biāo)對(duì)象在圖像序列中的時(shí)空運(yùn)動(dòng)變化,將人體行為的表現(xiàn)形式從二維空間拓展到了三維時(shí)空。人體行為識(shí)別有著重要的理論意義且在很多領(lǐng)域有著重要的應(yīng)用價(jià)值,如智能監(jiān)控、視頻檢索和人機(jī)交互等[1]。
隨著大規(guī)模數(shù)據(jù)集的涌現(xiàn),傳統(tǒng)算法已經(jīng)很難滿(mǎn)足如今大數(shù)據(jù)處理的需求,深度學(xué)習(xí)成為近幾年國(guó)內(nèi)外的研究熱點(diǎn)。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域的重點(diǎn)研究問(wèn)題,它模擬人腦認(rèn)知機(jī)制的多層次模型結(jié)構(gòu),通過(guò)組合低層特征形成更為抽象的高層特征來(lái)獲得數(shù)據(jù)更有效的特征表示,相比于傳統(tǒng)的人工提取特征更適合目標(biāo)的檢測(cè)和識(shí)別。
卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)模型的典型代表,應(yīng)用最為廣泛,已經(jīng)成為目前圖像識(shí)別和語(yǔ)音分析等領(lǐng)域的一個(gè)應(yīng)用熱點(diǎn)。在人體行為識(shí)別方面,基于卷積神經(jīng)網(wǎng)絡(luò)的研究也有很多新進(jìn)展。Ji等人[2]在傳統(tǒng)CNN基礎(chǔ)上加入時(shí)間信息構(gòu)成三維CNN,將灰度、垂直和水平方向梯度、垂直和水平方向光流信息作為多通道輸入,對(duì)于多個(gè)連續(xù)幀通過(guò)三維卷積操作實(shí)現(xiàn)視頻數(shù)據(jù)在時(shí)間和空間維度的特征計(jì)算;Karpathy等人[3]提出雙分辨率的CNN模型,使用原始分辨率和低分辨率的視頻幀分別作為輸入,學(xué)習(xí)兩個(gè)CNN模型,并在最后兩個(gè)全連接層實(shí)現(xiàn)數(shù)據(jù)融合,以實(shí)現(xiàn)視頻的最終特征描述用于后續(xù)識(shí)別;Karen等人[4]提出雙流CNN模型,將視頻數(shù)據(jù)分成空間靜態(tài)幀數(shù)據(jù)流和時(shí)域幀間動(dòng)態(tài)數(shù)據(jù)流,分別將原始單幀RGB圖像和多幀堆疊的光流圖像分別作為兩個(gè)CNN模型的輸入進(jìn)行特征提取,最后使用SVM分類(lèi)器進(jìn)行行為識(shí)別;Chéron等人[5]提出使用根據(jù)人體姿勢(shì)的關(guān)節(jié)點(diǎn)分割的單幀RGB圖像和光流圖像分別作為兩個(gè)CNN模型的輸入進(jìn)行特征提取,并使用特征融合策略將視頻數(shù)據(jù)轉(zhuǎn)換為固定維度的特征向量,最后使用SVM分類(lèi)器進(jìn)行行為識(shí)別。
本文借鑒文獻(xiàn)[4]中雙流卷積神經(jīng)網(wǎng)絡(luò)模型中的“雙流”概念,提出了一種基于改進(jìn)雙流卷積神經(jīng)網(wǎng)絡(luò)的人體行為識(shí)別模型,將VGGNet_16模型應(yīng)用于雙流卷積神經(jīng)網(wǎng)絡(luò)的空間流CNN,替換原始的類(lèi)AlexNet模型,從而加深網(wǎng)絡(luò)結(jié)構(gòu);將Flow_Net模型應(yīng)用于雙流卷積神經(jīng)網(wǎng)絡(luò)的時(shí)間流CNN,替換原始的類(lèi)AlexNet模型,使得模型更適用于提取光流圖的特征,然后將空間流CNN模型和的時(shí)間流CNN模型的輸出結(jié)果進(jìn)行加權(quán)融合后作為雙流CNN模型的輸出結(jié)果,最終得到一個(gè)多模型融合的人體行為識(shí)別方法。
卷積神經(jīng)網(wǎng)絡(luò)[6]是一種特殊設(shè)計(jì)的深層模型,最早應(yīng)用于圖像識(shí)別領(lǐng)域。CNN模型通過(guò)卷積和下采樣操作自動(dòng)學(xué)習(xí)圖像特征,并把特征提取和分類(lèi)輸出合并為一個(gè)整體,從而獲得更高的識(shí)別效率和更佳的性能表現(xiàn)。CNN的核心思想是局部感受野、權(quán)值共享以及空間下采樣,這使得網(wǎng)絡(luò)的權(quán)值參數(shù)個(gè)數(shù)大幅減少,并獲得了對(duì)圖像位移、尺度、形變的不變性。典型的CNN網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖
1.1.1 卷積層
卷積層是通過(guò)多個(gè)不同的卷積核對(duì)上一層的輸入做卷積運(yùn)算得到多個(gè)輸出,即多個(gè)特征圖。卷積公式如式(1)所示:
(1)
1.1.2 下采樣層
下采樣層是對(duì)上一層的特征圖進(jìn)行采樣操作,從而減小特征圖的分辨率。采樣操作是指對(duì)采樣范圍區(qū)域內(nèi)所有像素點(diǎn)求平均值或最大值作為該區(qū)域采樣后的值,從而實(shí)現(xiàn)卷積特征的降維并獲得具有空間不變性的特征。本文采用最大值下采樣操作,采樣公式如式(2)所示:
yij=max0 (2) 其中:H,W表示采樣窗口的長(zhǎng)和寬,x表示二維輸入向量,y表示采樣的輸出值。 1.1.3 Softmax分類(lèi)器 深度學(xué)習(xí)網(wǎng)絡(luò)常用的分類(lèi)器包括多分類(lèi)SVM以及Softmax分類(lèi)器。本文選擇使用Softmax作為特征提取后的多分類(lèi)器。對(duì)于一個(gè)k分類(lèi)任務(wù),包含m個(gè)樣本的訓(xùn)練集可表示為: T={(x(1),y(1)),...,(x(m),y(m))} (3) 其中:"x(i)∈Rn+1表示一個(gè)n維向量的樣本,y(i)∈{1,2,...,k}是類(lèi)別標(biāo)簽。對(duì)于輸入樣本x,計(jì)算它屬于每一個(gè)類(lèi)別的概率: P(y=j|x),(j=1,...,k) (4) Softmax輸出即為樣本x(i)屬于每個(gè)類(lèi)別的所有概率值構(gòu)成的一個(gè)k維的向量,計(jì)算函數(shù)如式(5)所示: 再者,美國(guó)對(duì)伊朗的制裁規(guī)則較一般法律文件具有更強(qiáng)的靈活性。這主要是考慮到制裁涉及的外交和政治復(fù)雜性,要為美國(guó)政府留下操作空間。例如,在判斷構(gòu)成受到制裁的“重大交易”問(wèn)題上,制裁規(guī)則要求財(cái)政部綜合考慮交易的數(shù)量、金額、頻率等因素做出判斷,并沒(méi)有規(guī)定明確的判斷標(biāo)準(zhǔn)③Iranian Financial Sanctions Regulations, 31 C.F.R. §561.404.。同時(shí),其制裁方式也具有多樣性。例如,在違反“次級(jí)制裁”的情況下,國(guó)務(wù)卿和財(cái)政部有從12項(xiàng)懲罰措施中任意選擇5項(xiàng)對(duì)相關(guān)主體進(jìn)行制裁的權(quán)力。 (5) 其中:θ是模型參數(shù)。 雙流卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)示意圖如圖2所示,該模型的核心在于空間流 CNN和時(shí)間流CNN構(gòu)成的“雙流”結(jié)構(gòu),其中:空間流CNN 以視頻的單幀RGB 圖像作為輸入,實(shí)現(xiàn)人體在空間域上表觀信息的特征描述;而時(shí)間流CNN 則是以多幀疊加后的光流圖像作為輸入,得到關(guān)于行為的運(yùn)動(dòng)特征表述,從而達(dá)到時(shí)間和空間互補(bǔ)的目的。針對(duì)給定的視頻行為樣本,首先分別通過(guò)時(shí)間流CNN和空間流CNN 進(jìn)行特征提取,最終將兩個(gè)分支的分類(lèi)結(jié)果進(jìn)行加權(quán)融合,以得到關(guān)于視頻中人體行為類(lèi)別的最終決策結(jié)果。 圖2 雙流卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)示意圖 原始雙流卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)設(shè)計(jì)基本上和AlexNet模型是同一種思路,包括5層卷積層和3層全連接層,網(wǎng)絡(luò)的輸入圖像尺寸被固定為224×224。與AlexNet相比,原始雙流CNN包含更多的卷積濾波器,第一層卷積層的卷積核尺寸縮小為7×7,卷積步長(zhǎng)減小為2,其他層次的參數(shù)都與AlexNet相同。 隨著對(duì)深度學(xué)習(xí)研究的深入,現(xiàn)在的網(wǎng)絡(luò)結(jié)構(gòu)發(fā)展呈現(xiàn)出層次結(jié)構(gòu)更深,卷積核尺寸更小,濾波器數(shù)量更多,卷積操作步長(zhǎng)更小的趨勢(shì),這些轉(zhuǎn)變應(yīng)用在物體檢測(cè)任務(wù)上并獲得了較好的效果。目前應(yīng)用較廣泛的深層次卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)有GoogleNet和VGGNet和ResNet等。 本文選用VGGNet-16模型作為空間流CNN模型,VGGNet-16是在數(shù)據(jù)庫(kù)ImageNet上訓(xùn)練得到的具有1000個(gè)分類(lèi)的模型,在2014年大規(guī)模視覺(jué)識(shí)別挑戰(zhàn)賽(ILSVRC)中獲得了第二名的成績(jī)。VGGNet-16模型繼承了AlexNet模型的網(wǎng)絡(luò)框架,采用了16層的深度網(wǎng)絡(luò),包含13個(gè)卷積層和3層全連接層,與AlexNet模型相比,VGGNet-16模型使用了更深的網(wǎng)絡(luò),且所有卷積層都使用大小為3×3的卷積核,卷積步長(zhǎng)也縮小到1,能夠模仿出更大的感受野,且減少了自由參數(shù)數(shù)目。VGGNet-16模型結(jié)構(gòu)如表1所示。 表1 VGGNet-16網(wǎng)絡(luò)結(jié)構(gòu) 另外,時(shí)間流CNN用來(lái)提取光流信息,因此本文采用在光流圖像上預(yù)訓(xùn)練的Flow_Net[8]模型,F(xiàn)low_Net模型是在包含13320個(gè)視頻101類(lèi)行為的UCF101數(shù)據(jù)庫(kù)上訓(xùn)練光流圖得到的模型,適合于用來(lái)進(jìn)行光流圖像的特征描述。Flow_Net模型的網(wǎng)絡(luò)結(jié)構(gòu)如表2所示。 表2 Flow_Net網(wǎng)絡(luò)結(jié)構(gòu) 為避免因訓(xùn)練樣本數(shù)量不足出現(xiàn)深度網(wǎng)絡(luò)學(xué)習(xí)過(guò)擬合的情況,本文采用遷移學(xué)習(xí)的方法。遷移學(xué)習(xí)[9-10]是指利用已學(xué)習(xí)到的知識(shí)解決不同但類(lèi)似問(wèn)題的方法,本文利用預(yù)訓(xùn)練好的模型初始化用于人體行為識(shí)別的雙流卷積網(wǎng)絡(luò)模型。 原始雙流卷積神經(jīng)網(wǎng)絡(luò)只在空間流CNN上使用預(yù)訓(xùn)練,本文在空間流和時(shí)間流上分別使用VGGNet-16和Flow_Net預(yù)訓(xùn)練模型初始化網(wǎng)絡(luò)參數(shù),并利用目標(biāo)任務(wù)數(shù)據(jù)庫(kù)對(duì)網(wǎng)絡(luò)進(jìn)行精調(diào),得到目標(biāo)任務(wù)網(wǎng)絡(luò)模型。對(duì)于空間流CNN,輸入為RGB圖像,而VGGNet-16模型由ImageNet數(shù)據(jù)庫(kù)中的RGB圖像訓(xùn)練得到,該數(shù)據(jù)庫(kù)包含各種物體和生物,模型能夠很好地獲取圖像低級(jí)、局部的特征,將其遷移到其他圖片數(shù)據(jù)上的泛化性非常好,適合進(jìn)行人體行為識(shí)別;而對(duì)于時(shí)間流CNN,輸入為光流圖像,因此使用UCF101數(shù)據(jù)庫(kù)上光流圖像訓(xùn)練得到的Flow_Net模型初始化時(shí)間流模型。另外,需要調(diào)小模型訓(xùn)練初始的學(xué)習(xí)率,并根據(jù)訓(xùn)練的迭代次數(shù)對(duì)學(xué)習(xí)率實(shí)時(shí)進(jìn)行調(diào)整,隨著迭代次數(shù)的增多,減小學(xué)習(xí)率。 通過(guò)雙流卷積神經(jīng)網(wǎng)絡(luò)獲取視頻幀的RGB特征以及光流特征后,需要將空間流CNN和時(shí)間流CNN的Softmax輸出進(jìn)行加權(quán)融合得到最終概率輸出,選取概率最大的類(lèi)別作為分類(lèi)結(jié)果。 對(duì)于人體行為識(shí)別的分類(lèi)任務(wù),模型的輸入是單幀圖像,而樣本是以單個(gè)行為視頻為單位的,因此需要對(duì)視頻中所有圖像對(duì)應(yīng)輸出的概率矢量進(jìn)行融合,得到某個(gè)視頻單個(gè)模型的預(yù)測(cè)概率矢量,再將時(shí)間流以及空間流模型所得到的概率矢量以不同的權(quán)值相加,得到預(yù)測(cè)樣本屬于各個(gè)類(lèi)別的概率向量Vec: (6) 其中:λ是一個(gè)介于(0,1)的常量,n是視頻幀數(shù)。 本文實(shí)驗(yàn)基于Caffe和GPU,GPU型號(hào)為NVIDIA Titan X,該顯卡的顯存容量大小為12G。 為驗(yàn)證模型的有效性,采用JHMDB人體行為數(shù)據(jù)庫(kù)進(jìn)行模型的性能測(cè)試,JHMDB數(shù)據(jù)庫(kù)是HMDB51的子數(shù)據(jù)集,包含21類(lèi)行為,共有928個(gè)視頻片段,視頻幀分辨率為320×240,其提供了訓(xùn)練集和測(cè)試集的劃分,共有3個(gè)splits。為滿(mǎn)足網(wǎng)絡(luò)訓(xùn)練需求,抑制過(guò)擬合,本文對(duì)圖像樣本做了一系列的數(shù)據(jù)擴(kuò)充,通過(guò)對(duì)視頻幀進(jìn)行隨機(jī)剪裁、隨機(jī)旋轉(zhuǎn)、水平翻轉(zhuǎn)、對(duì)比度變化、亮度變化、加噪和模糊等處理,將圖像樣本擴(kuò)充了10倍,同時(shí)增強(qiáng)了樣本數(shù)據(jù)的多樣性。 根據(jù)JHMDB數(shù)據(jù)庫(kù)包含的行為類(lèi)別數(shù)將VGG-16模型和Flow_Net模型的最后一個(gè)Fc層分類(lèi)參數(shù)設(shè)置為21;將RGB圖像尺寸規(guī)范化到224×224,光流圖根據(jù)文獻(xiàn)[10]計(jì)算得到,并將尺寸規(guī)范化到227×227,每三幀光流圖疊加作為一個(gè)輸入樣本,然后將單幀RGB原圖和光流圖像分別輸入到VGGNet-16模型和Flow_Net模型中,VGGNet-16模型的初始學(xué)習(xí)率設(shè)為0.001,每經(jīng)過(guò)10000次迭代學(xué)習(xí)率降為原來(lái)的10%,總共迭代60000次,F(xiàn)low_Net模型的初始學(xué)習(xí)率設(shè)為0.001,每經(jīng)過(guò)2000次迭代學(xué)習(xí)率降為原來(lái)的10%,總共迭代10000次,用測(cè)試集分別測(cè)試VGG-16模型和Flow_Net模型。將兩個(gè)模型得出的預(yù)測(cè)值進(jìn)行融合,通過(guò)選取5種不同的權(quán)重融合,得出最終識(shí)別結(jié)果,表3為不同權(quán)重融合下得到的對(duì)JHMDB數(shù)據(jù)庫(kù)中行為識(shí)別準(zhǔn)確率的對(duì)比。 表3 不同權(quán)重融合的效果比較 從表3可以看出,時(shí)間流CNN比空間流CNN模型識(shí)別效果好,而經(jīng)過(guò)模型融合得到的識(shí)別效果與不同模型預(yù)測(cè)結(jié)果的所占比重有關(guān),總的來(lái)說(shuō),使用模型融合的方法要比單模型的分類(lèi)效果好,且當(dāng)()即空間流CNN模型和時(shí)間流CNN模型的輸出以1/3和2/3的比重進(jìn)行融合時(shí),得到的最終分類(lèi)結(jié)果效果最好,在JHMDB數(shù)據(jù)庫(kù)split1上測(cè)試混淆矩陣如圖3所示。 圖3 JHMDB-split1雙流CNN混淆矩陣 從圖3可以看出,改進(jìn)的雙流CNN通過(guò)在新的數(shù)據(jù)庫(kù)上進(jìn)行微調(diào),可以有效實(shí)現(xiàn)人體行為識(shí)別。其中,golf的識(shí)別率最高,而kick_ball的識(shí)別率最低,很容易被錯(cuò)分為catch或jump。 本文提出的方法與其他人體行為識(shí)別方法的準(zhǔn)確度進(jìn)行對(duì)比,比較結(jié)果如表4所示。 表4 與其他方法的效果比較 從表4可以看出,本文提出的改進(jìn)雙流卷積神經(jīng)網(wǎng)絡(luò)相比于原始的雙流卷積神經(jīng)網(wǎng)絡(luò)和文獻(xiàn)[8]的方法在人體行為識(shí)別任務(wù)上的識(shí)別率略有提高。 本文提出了一種改進(jìn)的雙流卷積神經(jīng)網(wǎng)絡(luò)模型,將VGGNet_16模型應(yīng)用于空間流CNN,替換原始的類(lèi)AlexNet模型,從而加深網(wǎng)絡(luò)結(jié)構(gòu);將Flow_Net模型應(yīng)用于時(shí)間流CNN,替換原始的類(lèi)AlexNet模型,使得模型更適用于提取光流圖的特征,然后將空間流CNN和的時(shí)間流CNN的Softmax輸出進(jìn)行加權(quán)融合作為雙流CNN模型的輸出結(jié)果,最終實(shí)現(xiàn)人體行為識(shí)別。為了避免由于訓(xùn)練樣本不足而出現(xiàn)模型過(guò)擬合現(xiàn)象,本文采用了訓(xùn)練樣本集擴(kuò)充和遷移學(xué)習(xí)的方法。最后,基于JHMDB數(shù)據(jù)庫(kù)的實(shí)驗(yàn)得到改進(jìn)的雙流卷積神經(jīng)網(wǎng)絡(luò)模型的識(shí)別率達(dá)到60.14%,證明了其在人體行為識(shí)別任務(wù)上的有效性。1.2 雙流CNN網(wǎng)絡(luò)結(jié)構(gòu)
1.3 基于遷移學(xué)習(xí)的模型訓(xùn)練
1.4 模型融合
2 實(shí)驗(yàn)結(jié)果與分析
2.1 實(shí)驗(yàn)平臺(tái)與數(shù)據(jù)庫(kù)
2.2 模型訓(xùn)練與結(jié)果分析
3 結(jié)論