裴頌文,楊保國(guó),顧春華
1(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)
2(復(fù)旦大學(xué) 管理學(xué)院,上海 200433)
在過(guò)去的幾年里,圖像分類以深度學(xué)習(xí)的方式引起人們廣泛關(guān)注.研究人員相繼設(shè)計(jì)了眾多先進(jìn)模型(如AlexNet、VGGNet、ResNet、Inception-v3),它們都能有效地識(shí)別靜態(tài)圖像.分類圖像的重要基礎(chǔ)是開(kāi)源免費(fèi)的高分辨率大規(guī)模圖像數(shù)據(jù)庫(kù)和相對(duì)便宜成本的GPU提供的高吞吐量的運(yùn)算.深度學(xué)習(xí)模型的預(yù)測(cè)準(zhǔn)確率接近甚至超過(guò)人類的表現(xiàn).靜態(tài)圖像識(shí)別由于只包含二維信息,優(yōu)秀的訓(xùn)練模型基本取得了較好的識(shí)別效果.這個(gè)方向的下一步不是靜態(tài)圖像中的對(duì)象識(shí)別,而是動(dòng)作識(shí)別、視頻分類的三維信息.給出一段包含了時(shí)間、空間信息的視頻,根據(jù)這些信息來(lái)判斷人或者感興趣的物體在進(jìn)行什么行為,稱為視頻行為識(shí)別[1,2,4].事實(shí)上,成功的動(dòng)作識(shí)別方法與目標(biāo)識(shí)別采取類似的技術(shù),通過(guò)本地視頻描述符的統(tǒng)計(jì)模型來(lái)表示動(dòng)作.然而與靜止對(duì)象不同,動(dòng)作的特征在于由運(yùn)動(dòng)控制并隨時(shí)間變化.與這現(xiàn)象一致,基于運(yùn)動(dòng)的視頻描述符(如HOF和MBH)以及最近的基于CNN的運(yùn)動(dòng)表征已經(jīng)在實(shí)踐中顯示出動(dòng)作識(shí)別帶來(lái)的經(jīng)濟(jì)效益.
卷積神經(jīng)網(wǎng)絡(luò)(CNN)的興起展示了學(xué)習(xí)視覺(jué)表征的力量.CNN在大規(guī)模的數(shù)據(jù)集中訓(xùn)練,迅速占據(jù)了大多數(shù)靜態(tài)圖像識(shí)別任務(wù)如對(duì)象、場(chǎng)景和人臉識(shí)別.近期的研究工作已經(jīng)提出了CNN對(duì)視頻中動(dòng)作識(shí)別的擴(kuò)展[3,5].然而這種方法目前僅顯示對(duì)早期使用手工制作的視頻特征方法進(jìn)行適度改進(jìn).目前的動(dòng)作識(shí)別方法通常面向靜態(tài)圖像的擴(kuò)展CNN架構(gòu),學(xué)習(xí)1到16幀的短視頻間隔動(dòng)作行為[7].
集成學(xué)習(xí)(Ensemble Learning)方法采樣規(guī)則常見(jiàn)的Boosting、Bagging、Stacking,原理是把各個(gè)學(xué)習(xí)結(jié)果進(jìn)行整合從而獲得比單個(gè)學(xué)習(xí)器更好的學(xué)習(xí)效果的一種機(jī)器學(xué)習(xí)方法.本文使用Tensorflow作為后端的Keras框架的merge融合也是集成學(xué)習(xí)的一種,建立3DConvNet_Ensemble模型在UCF-101數(shù)據(jù)集上進(jìn)行視頻流分類研究.
視頻分類問(wèn)題已經(jīng)研究了很多年,使用手工特征的方式提出了許多解決問(wèn)題的方法.GPU的應(yīng)用和Krizhevsky等人在ImageNet競(jìng)賽中獲勝使得深度學(xué)習(xí)方法廣受歡迎[12].Inception-v3模型獲得僅0~3%的top-5錯(cuò)誤率.Ding等人提出了3D深度學(xué)習(xí)方法應(yīng)用于超分辨圖像重建[6,17,18].Karpathy等人提出在Sports-1M,UCF-101等數(shù)據(jù)集上使用多分辨率CNN模型方法[16].Jeff等人在UCF-101基準(zhǔn)測(cè)試中提出了長(zhǎng)期遞歸循環(huán)卷積(LRCNs)架構(gòu)[13].Zhou等人提出訓(xùn)練更深層次的圖像特征進(jìn)行場(chǎng)景識(shí)別任務(wù)研究[ [14],Girshick等人提出豐富特征層次方法進(jìn)行分類[15].Wu,Wang等人提出多維度視頻流的方式,即使用時(shí)間維度、空間維度、聲音三個(gè)通道[8,9].早期關(guān)于動(dòng)作識(shí)別的研究工作主要集中于本地視頻功能與Bagof-特征直方圖或Fisher矢量表示相結(jié)合的方法.盡管典型的流水線和早期的用于對(duì)象識(shí)別的方法類似,但是已經(jīng)發(fā)現(xiàn)使用局部運(yùn)動(dòng)特征,特別是運(yùn)動(dòng)邊界直方圖在實(shí)踐中對(duì)于動(dòng)作識(shí)別非常重要.對(duì)動(dòng)作的時(shí)間結(jié)構(gòu)的顯式表示很少被用于一些例外情況,如使用時(shí)間因子進(jìn)一步提取特征用來(lái)表征視頻外觀和動(dòng)作的評(píng)估.使用CNN學(xué)習(xí)視覺(jué)表征與靜態(tài)圖像中許多識(shí)別任務(wù)的“手工提取”特征相比,顯示出明顯的優(yōu)勢(shì).文獻(xiàn)[10,11]已經(jīng)提出了CNN對(duì)視頻中動(dòng)作識(shí)別表示的擴(kuò)展,其中一些方法使用靜態(tài)CNN功能對(duì)單個(gè)視頻幀進(jìn)行編碼.對(duì)視頻幀被視為2D CNNs的多通道輸入的短視頻剪輯的擴(kuò)展也研究.針對(duì)原始像素輸入和預(yù)先計(jì)算的光流特征已經(jīng)解決了動(dòng)作識(shí)別學(xué)習(xí)的CNN表示.與前期使用手工表示獲得結(jié)果一致,基于運(yùn)動(dòng)的CNN通常優(yōu)于針對(duì)RGB輸入學(xué)習(xí)的CNN表示.研究運(yùn)動(dòng)和外觀的多分辨率表示,其中基于運(yùn)動(dòng)的CNN模型證明高質(zhì)量光流估計(jì)的重要性.最近已經(jīng)證實(shí)類似的發(fā)現(xiàn),研究人員將從高質(zhì)量光流算法轉(zhuǎn)移到運(yùn)動(dòng)矢量編碼表示[10].
目前的CNN方法大多數(shù)都使用具有2D卷積的架構(gòu),從而在圖像平面中實(shí)現(xiàn)了位移不變的表示.由于動(dòng)作的開(kāi)始和結(jié)束一般是未知的,時(shí)間維度的轉(zhuǎn)換不變性對(duì)于動(dòng)作識(shí)別也很重要.具有3D時(shí)空卷積[11,16]的CNN解決了這個(gè)問(wèn)題,并且向視頻提供2DCNN的自然延伸.3DConvNet已被廣泛研究而逐漸獲得認(rèn)可.然而,所有這些方法都學(xué)習(xí)RGB輸入的視頻表示.此外,它們通??紤]非常短的視頻幀間間隔.本文將3DConvNet進(jìn)行融合集成,能夠做到接近全部時(shí)間尺度上實(shí)現(xiàn)動(dòng)作表示;還探討了光流輸入對(duì)動(dòng)作識(shí)別的影響.實(shí)驗(yàn)證明,采用本文擴(kuò)展后的方法具有明顯的優(yōu)勢(shì).
基于3DConvNet[1]模型,本文提出融合的三維卷積神經(jīng)網(wǎng)絡(luò)模型3DConvNet_Ensemble.3DConvNet模型是由輸入層、3D卷積層、3D最大池化(Maxpool)層、DropOut層、Flatten層、Dense層、Activation層構(gòu)成,如圖1所示.通過(guò)構(gòu)建10個(gè)3DConvNet模型序列,把10個(gè)輸出結(jié)果merge再次進(jìn)行輸出而構(gòu)成3DConvNet_Ensemble模型,如圖2所示.
圖1 3DConvNet模結(jié)構(gòu)與參數(shù)Fig.1 Structure and parameters of 3DConvNet model
圖2 3DConvNet_Ensemble模型Fig.2 3DConvNet_Ensemble model
1)輸入層
模型輸入是連續(xù)的視頻序列,所以需要對(duì)他們進(jìn)行規(guī)范化.本文用最近鄰插值的方法來(lái)刪除或者重復(fù)一些幀,從而構(gòu)建出32個(gè)幀的視頻序列.
2)3D卷積層
三維卷積對(duì)三維的輸入進(jìn)行滑動(dòng)窗卷積,當(dāng)使用該層作為第一層時(shí),應(yīng)提供輸入層的輸入?yún)?shù).考慮一個(gè)視頻段輸入,其大小為 c*h*w*l,其中c為圖像通道(3為彩色視頻圖像,1為黑白圖像),h和w分別為視頻的寬與高,l為視頻序列的長(zhǎng)度.圖3中in_depth(同depth)代表一個(gè)sample輸入幾個(gè)幀,每幀代表一個(gè)圖片.由圖1可知,初始3D卷積層輸入?yún)?shù)為1*32*32*10.圖中的None為batch,可以通過(guò)運(yùn)行時(shí)傳入?yún)?shù),不傳默認(rèn)為128.進(jìn)行一次kernel size為3*3*3,stride為1,濾波器個(gè)數(shù)為32的3D 卷積后,輸出的大小為32*32*32*10.因?yàn)?D卷積是對(duì)空間和時(shí)間的維度進(jìn)行處理,當(dāng)輸入視頻列的長(zhǎng)度為10幀,代表截取10張圖片.經(jīng)過(guò)cv的一系列函數(shù)來(lái)提取時(shí)間維度的信息,光流場(chǎng)是圖片中每個(gè)像素都有一個(gè)x方向和y方向的位移.得到x方向的光流和y方向的光流,所以些光流計(jì)算結(jié)束后得到的光流flow是個(gè)和原來(lái)圖像大小相等的雙通道圖像,如圖3所示.實(shí)線路徑為單張圖片通道,包含空間信息;虛線路徑提取視頻時(shí)間維度,包含時(shí)間信息,即虛實(shí)線構(gòu)成卷積層的雙通道.
圖3 conv3d原理圖Fig.3 Schematic diagram of conv3d
3)DropOut層
Dropout層將在訓(xùn)練過(guò)程中每次更新參數(shù)時(shí)隨機(jī)斷開(kāi)一定百分比(rate)的輸入神經(jīng)元,Dropout用于防止過(guò)擬合.Dropout 的思想其實(shí)就是把深度神經(jīng)網(wǎng)絡(luò)模型當(dāng)作一個(gè)集成模型來(lái)訓(xùn)練,之后取所有值的平均值,而不只是訓(xùn)練單個(gè)模型.網(wǎng)絡(luò)模型將Dropout率設(shè)置為 p,即一個(gè)神經(jīng)元被保留的概率是 1-p.當(dāng)一個(gè)神經(jīng)元被丟棄時(shí),無(wú)論輸入或者相關(guān)的參數(shù)是什么,它的輸出值就會(huì)被設(shè)置為0.DropOut_1和DropOut_2層的p值設(shè)置為0.25,DropOut_3層的p值設(shè)置為0.5.
4)Maxpool3d層
Maxpool3d層的目的為3D信號(hào)(一般為空域或時(shí)空域)施加最大值池化.池化尺寸為長(zhǎng)為3的元組,代表在三個(gè)維度上的下采樣因子.模型中的pool_size為(3,3,3)將使信號(hào)在每個(gè)維度都變?yōu)樵瓉?lái)的三分之一長(zhǎng),所以經(jīng)過(guò)這一層后,輸出為32*11*11*4,32是特征圖的數(shù)量,保持不變.
5)Flatten層
Flatten層的目的是將輸入平鋪,即把多維的輸入一維化,一般用在從具有多個(gè)map的層級(jí)到全連接層的過(guò)渡.Flatten不影響batch大小,因此輸出變?yōu)橐粋€(gè)維度,為64*32=2048.
6)Merge層
Merge層的目的是用來(lái)合并多個(gè)model的,因此提供了一系列用于融合兩個(gè)層或兩個(gè)張量的層對(duì)象和方法.Merge是一個(gè)層對(duì)象,是層級(jí)類,而merge是張量的函數(shù),張量函數(shù)在內(nèi)部實(shí)際上是調(diào)用了Merge層.論文模型使用的是ave函數(shù).
輸入:input_shape,nb_classes //輸入形狀、分類類別
輸出:model
1. model= Sequential()//建立順序模型
2. for k=0,1 do //循環(huán)兩次
3. model.add(Convolution3D());//3D卷積層1
4. model.add(Convolution3D());//3D卷積層2
5. model.add(MaxPooling3D());
6. model.add(Dropout(0.25));
7. model.add(Flatten())
8. model.add(Dense());
9. model.add(Dropout(0.5));
10. model.add(Dense());
11. model.add(Activation(′softmax′));
12. model.add(Merge(models,mode=′ave′))//融合(集成)模型13. return model;
模型對(duì)3D卷積層、Maxpool3d層、Dense層進(jìn)行relu優(yōu)化.融合后的模型使用adm優(yōu)化器.算法設(shè)置的詳細(xì)參數(shù)如表1所示.
表1 超參數(shù)配置表Table 1 Configuration tables of super parameter
實(shí)驗(yàn)運(yùn)行在8G內(nèi)存、GTX 750Ti的機(jī)器上.本文用Keras搭建模型,使用 TensorFlow平臺(tái)作為后端,Python3.5的環(huán)境下開(kāi)展研究.需要安裝的Python庫(kù)分別為Keras,Tensoflow.由于要處理視頻序列,安裝的是opencv3(-with ffmpeg)版本,還需要numpy,tqdm庫(kù)的支持.TensorFlow使用的是r1.0.1版.環(huán)境的搭建主要通過(guò)pip命令進(jìn)行安裝.
UCF-101是包括真實(shí)動(dòng)作視頻的動(dòng)作識(shí)別數(shù)據(jù)集,來(lái)自YouTube,具有101個(gè)行為類別.這組數(shù)據(jù)是具有50個(gè)動(dòng)作類別UCF-50數(shù)據(jù)集的擴(kuò)展.UCF-101數(shù)據(jù)集中的101個(gè)動(dòng)作類別含有13320個(gè)視頻,在動(dòng)作方面提供了最大多樣性.該數(shù)據(jù)集在相機(jī)運(yùn)動(dòng)、物體外觀和姿勢(shì)、目標(biāo)尺度、視點(diǎn)、雜亂背景、照明條件等方面存在著較大變化.UCF101旨在鼓勵(lì)通過(guò)學(xué)習(xí)和探索新的切實(shí)可行的動(dòng)作類別來(lái)進(jìn)一步研究動(dòng)作識(shí)別.101個(gè)動(dòng)作類別的視頻被分成25組,其中每組可由4-7個(gè)動(dòng)作視頻組成.從同一組中的視頻可以共享一些共同的特征,如相似的背景,同樣的視點(diǎn)等.
1)10類場(chǎng)景的實(shí)驗(yàn)
UCF-101數(shù)據(jù)集為101類的場(chǎng)景動(dòng)作視頻集合,本文在101類場(chǎng)景中隨機(jī)選擇10類動(dòng)作場(chǎng)景視頻用于對(duì)提出的3DConvNet模型做分類識(shí)別準(zhǔn)確率實(shí)驗(yàn)研究.分別對(duì)2DConvNet 和3D ConvNet模型進(jìn)行了實(shí)驗(yàn)分析.實(shí)驗(yàn)結(jié)果如圖4、圖5所示,標(biāo)注加號(hào)的曲線為訓(xùn)練的精確度,標(biāo)注四邊形的曲線刻畫(huà)了評(píng)估測(cè)試的精確度,下同.本文取數(shù)據(jù)集的80%的用作訓(xùn)練,剩下的20%用作對(duì)訓(xùn)練后的模型進(jìn)行評(píng)估.可以有效防止模型出現(xiàn)訓(xùn)練過(guò)好,未經(jīng)過(guò)測(cè)試評(píng)估過(guò)程造成的模型泛化能力(新樣本的適應(yīng)能力)較差的問(wèn)題.
圖4、圖5的訓(xùn)練均差不多在30個(gè)epoch就逐漸趨于穩(wěn)定.訓(xùn)練模型具有充分地?cái)?shù)據(jù)進(jìn)行訓(xùn)練,表現(xiàn)都越來(lái)接近1,然而訓(xùn)練的結(jié)果不能很好地判斷一個(gè)模型的好壞.將模型未見(jiàn)過(guò)的數(shù)據(jù)來(lái)進(jìn)行評(píng)估,能很好地了解模型的適應(yīng)能力.所以將評(píng)估的準(zhǔn)確率作為判斷模型的標(biāo)準(zhǔn),下同(不同的另行敘述).
圖4 2DConvNet在10類場(chǎng)景分類的識(shí)別率Fig.4 Ten scenes classification rate of 2DConvNet
圖5 3DConvNet在10類場(chǎng)景分類的識(shí)別率Fig.5 Ten scenes classification rate of 3DConvNet
由表2可知,3DConvNet在數(shù)據(jù)集上的表現(xiàn)比2DConvNet的分類精確度高5%~6%.在場(chǎng)景少的情況下,還有一定程度的數(shù)據(jù)提高,顯示出3DConvNet對(duì)時(shí)空信息的特征提取與訓(xùn)練是比較充分與有效的.而2DConvNet則丟失時(shí)間維度的信息,在少類別的場(chǎng)景下,差距還不是非常明顯.接下來(lái)本文就對(duì)完整的UCF-101數(shù)據(jù)集來(lái)進(jìn)行分類,對(duì)比各模型的表現(xiàn).
表2 10類場(chǎng)景分類結(jié)果Table 2 Result of 10 types scene classification
2)101類場(chǎng)景的實(shí)驗(yàn)
101類的場(chǎng)景由于包含的種類繁多,數(shù)據(jù)規(guī)模增加9倍,先使用2DConvNet、3DConvNet模型進(jìn)行分類.隨著訓(xùn)練的不停迭代,loss逐漸下降,然而無(wú)法下降到較小的值.2DConvNet模型的loss為0.43,3DConvNet模型的loss為0.54,均無(wú)法接近0.因此模型在數(shù)據(jù)集上的效果不好,分類的準(zhǔn)確率也無(wú)法得到一個(gè)滿意的結(jié)果,實(shí)驗(yàn)結(jié)果如圖6、圖7所示.對(duì)比10類場(chǎng)景,兩個(gè)模型在101類的場(chǎng)景下的訓(xùn)練差不多在80個(gè)epoch上才趨于穩(wěn)定,達(dá)到模型的最好狀態(tài).這說(shuō)明數(shù)據(jù)量的提高對(duì)執(zhí)行時(shí)間復(fù)雜度有著直接的影響.圖6為2DConvNet在101類視頻上的表現(xiàn),基本說(shuō)明2D的模型無(wú)法適應(yīng)這種多維度信息的訓(xùn)練.而3DConvNet由于包含了對(duì)時(shí)間維度上的訓(xùn)練,比2DConvNet模型的分類精確度提高了13%.然而在這種視頻大數(shù)據(jù)下,單模型的訓(xùn)練會(huì)充分暴露訓(xùn)練的不充分性,會(huì)丟失大量幀與幀之間的關(guān)聯(lián)信息.這時(shí)融合模型的優(yōu)勢(shì)就完全得以體現(xiàn),顯示其多樣性和強(qiáng)大的適應(yīng)面.但是多少個(gè)模型的融合才是最優(yōu)的方式,需要實(shí)驗(yàn)的驗(yàn)證判斷選擇.
圖6 2DConvNet在101類場(chǎng)景分類的識(shí)別率Fig.6 101 scenes classification rate of 2DConvNet
圖7 3DConvNet在101類場(chǎng)景分類的識(shí)別率Fig.7 101 scenes classification rate of 3DConvNet
3DConvNet_Ensemble模型是在UCF-101數(shù)據(jù)集上進(jìn)行兩次模型融合實(shí)驗(yàn)對(duì)比,分為10個(gè)3DConvNet和20個(gè)3DConvNet模型融合而成的實(shí)驗(yàn).模型也都進(jìn)行100次周期的迭代,隨著每次的迭代,識(shí)別率會(huì)不斷的提升.最后會(huì)逐漸穩(wěn)定在一個(gè)值,達(dá)到了穩(wěn)定狀態(tài).本文發(fā)現(xiàn)10個(gè)以上的模型融合效果與10個(gè)3DConvNet融合的結(jié)果相差無(wú)幾,且較10個(gè)執(zhí)行時(shí)間還偏長(zhǎng),因此選擇10個(gè)模型進(jìn)行融合即可.因此下面的實(shí)驗(yàn)執(zhí)行10次,nmodel參數(shù)設(shè)為10,訓(xùn)練結(jié)果如圖8所示.對(duì)比單模型的3DConvNet,3DConvNet_Ensemble在60個(gè)epoch就趨于穩(wěn)定達(dá)到平衡,而且分類準(zhǔn)確率得到很大的提升,提高了17%.實(shí)驗(yàn)結(jié)果表明,融合模型能夠有效地挖掘并訓(xùn)練數(shù)據(jù)之間的關(guān)聯(lián)信息,增強(qiáng)了3DConvNet模型的適應(yīng)能力.如圖8所示,本文選取的是訓(xùn)練的精確度,與前文都選擇評(píng)估的曲線的方式不一致.原因在于本文模型的構(gòu)建就是在一些模型訓(xùn)練完的基礎(chǔ)上進(jìn)行的合并融合,這時(shí)的單模型訓(xùn)練精確度的泛化性較高,整體對(duì)多種數(shù)據(jù)的輸入也就能很好地進(jìn)行分類.而且模型本身均通過(guò)訓(xùn)練評(píng)估階段,這樣使用100%的完整數(shù)據(jù)訓(xùn)練完,才能進(jìn)行高效一致性的評(píng)比.表3顯示了3種模型在101類場(chǎng)景分類下的結(jié)果.2DConvNet在101類的場(chǎng)景下分類效果很差,使用3DConvNet的方式有效地提高了分類效果,接近70%的比率.與LRCN等模型方法比較,效果還是相差很遠(yuǎn).本文的3DConvNet_Ensemble集成模型經(jīng)過(guò)模型的融合,并再次進(jìn)行訓(xùn)練,達(dá)到了87.7%的分類準(zhǔn)確率.對(duì)比傳統(tǒng)單模型3DConvNet的訓(xùn)練過(guò)程,3DConvNet_Ensemble模型則并行執(zhí)行10次后,再將結(jié)果合并訓(xùn)練.采用2G顯存的GPU加速計(jì)算,3DConvNet的執(zhí)行時(shí)間為4小時(shí)30分鐘.而3DConvNet_Ensemble執(zhí)行時(shí)間為19小時(shí)40分鐘,本文模型的執(zhí)行時(shí)間比3DConvNet模型的執(zhí)行時(shí)間增加了4.37倍.
圖8 3DConvNet_Ensemble的最優(yōu)與最差的實(shí)驗(yàn)結(jié)果Fig.8 Optimal/worst results of 3DConvNet_Ensemble model
表3 101類場(chǎng)景分類結(jié)果Table 3 Result of 101 types scene classification
實(shí)驗(yàn)結(jié)果還表明了,采用本文算法的分類準(zhǔn)確率低于采用長(zhǎng)期時(shí)間卷積(LTC)模型[2]所獲得的92.7%的分類準(zhǔn)確率.文獻(xiàn)[2]使用了Titan X GPU和8核CPU進(jìn)行長(zhǎng)期時(shí)間卷積模型訓(xùn)練,模型增添時(shí)間的區(qū)段,因此實(shí)驗(yàn)過(guò)程中訓(xùn)練的時(shí)間較長(zhǎng).而本文的融合模型通過(guò)提取幀與幀的關(guān)聯(lián)特征,減少時(shí)間區(qū)段的累積訓(xùn)練以減少訓(xùn)練時(shí)間.
本文主要在Tensorflow平臺(tái)上對(duì)UCF-101數(shù)據(jù)集研究視頻分類及評(píng)估方法,并對(duì)不同類別、不同卷積計(jì)算模型進(jìn)行實(shí)驗(yàn)對(duì)比.由于UCF數(shù)據(jù)集10分類類別少于101分類類別,故執(zhí)行速度較快,且對(duì)它采用2DconvNet、3DConvNet模型的分類準(zhǔn)確率也都是比較高的.而101類的視頻場(chǎng)景分類,用2DConvNet、3DConvNet模型進(jìn)行分類的準(zhǔn)確率明顯偏低,而采用3DConvNet_Ensemble模型對(duì)于UCF數(shù)據(jù)集101類的視頻場(chǎng)景分類準(zhǔn)確率有顯著提高.下一步工作計(jì)劃嘗試用不同結(jié)構(gòu)類型的卷積計(jì)算模型進(jìn)行多維度視頻分類研究.