王輝濤,胡 燕
(武漢理工大學(xué) 計(jì)算機(jī)學(xué)院,武漢 430070)E-mail:huyan@whut.edu.cn
視頻分類是計(jì)算機(jī)視覺領(lǐng)域的一項(xiàng)基礎(chǔ)性工作,是視頻描述、動作檢測、視頻跟蹤等高級任務(wù)的重要基礎(chǔ).近年來基于深度學(xué)習(xí)的方法已經(jīng)取得了很大的進(jìn)展,由于卷積神經(jīng)網(wǎng)絡(luò)(CNN)主要用于從靜止圖像中提取空間特征,而視頻可以自然地看作是三維時空信號,因此有許多方法將CNN從圖像擴(kuò)展到視頻進(jìn)行信息提取.我們將利用時空信息進(jìn)行視頻分類的方法分為五類:雙流CNN、2D CNN+LSTM方法、3D CNN、2D CNN+3D CNN的混合架構(gòu)以及3D CNN+圖卷積(GCN).為了提取時空信息,雙流CNN架構(gòu)[1-4]將RGB幀作為CNN的輸入來建??臻g特征,將運(yùn)動相關(guān)信息,如光流[1,2]、光流引導(dǎo)特征[3]及運(yùn)動矢量[4]作為CNN的輸入來建模時間特征.為了提取更加有效的空間特征,Hu等人[5]提出了在ResNet網(wǎng)絡(luò)[6]和Inception網(wǎng)絡(luò)[7]中引入通道注意力機(jī)制的SENet網(wǎng)絡(luò),通過學(xué)習(xí)自動獲取到每個特征通道的權(quán)重,然后依照權(quán)重去提升有用的特征并抑制對當(dāng)前任務(wù)用處不大的特征.Sanghyun等人[8]在ResNet[6]和VGG網(wǎng)絡(luò)[9]中引入一種結(jié)合空間和通道注意力機(jī)制的模塊,相比SENet網(wǎng)絡(luò)只關(guān)注通道的注意力機(jī)制,空間和通道注意力機(jī)制還可以增強(qiáng)特定區(qū)域的表征,獲得更好的分類效果.Li等人[10]提出了類似于SENet網(wǎng)絡(luò)的SKNet網(wǎng)絡(luò),在建模特征通道依賴的同時,可以自適應(yīng)捕獲不同感受野的特征.然而雙流架構(gòu)在建模時間特征時,運(yùn)動相關(guān)信息的提取非常耗時,難以達(dá)到應(yīng)用要求.另一種建立幀間時間關(guān)系模型的方法是使用循環(huán)神經(jīng)網(wǎng)絡(luò).Ge等人[11]使用LSTM來整合2D CNN提取的特征.然而目前循環(huán)神經(jīng)網(wǎng)絡(luò)在視頻分類領(lǐng)域的性能落后于最近的基于CNN的方法,這可能表明它們對長期動作的建模不夠充分[12,13].
還有一些研究[14-17]利用三維卷積網(wǎng)絡(luò)同時對視頻剪輯的外觀和運(yùn)動特征進(jìn)行建模,Tran等人[15]提出了一種具有3D卷積核的三維體系結(jié)構(gòu),直接從一堆圖像中捕獲時空特征.Sun等人[16]提出了一種時空卷積因子分解算法,將三維卷積分解為二維卷積和一維卷積,從而得到了更有效的時空表示.Hara等人[17]分別對具有3D內(nèi)核的ResNet網(wǎng)絡(luò)[6]、預(yù)激活ResNet網(wǎng)絡(luò)[18]、RexNext網(wǎng)絡(luò)[19]以及DenseNet網(wǎng)絡(luò)[20]在動力學(xué)數(shù)據(jù)集上做了精度對比,其中3D ResNext101網(wǎng)絡(luò)[19]效果最好,并成為當(dāng)前視頻分類方法的基準(zhǔn).然而在上述研究工作中卷積濾波器都是對局部區(qū)域進(jìn)行操作,無法捕獲大范圍的時空依賴關(guān)系,Wang等人[21]受非局部均值思想的啟發(fā),在I3D網(wǎng)絡(luò)[22]中引入一個非局部操作建模一定距離的像素之間的關(guān)系,用來捕獲長距離時空特征依賴.Qiu等人[23]提出利用全局特征和局部特征融合的方法,然后再反饋給全局特征,使得全局特征和局部特征在3D ResNet101層網(wǎng)絡(luò)中一起傳播的LGD網(wǎng)絡(luò)架構(gòu).此外還有研究通過3D網(wǎng)絡(luò)提取的視頻特征和物體檢測算法獲取的物體框構(gòu)造圖中的節(jié)點(diǎn),再計(jì)算節(jié)點(diǎn)之間的關(guān)聯(lián)性,進(jìn)而構(gòu)建整個圖,然后送入圖卷積(GCN)中對圖的特征進(jìn)行分類[24].然而在模型計(jì)算復(fù)雜度方面,3D CNN比2D CNN昂貴的多,并且容易出現(xiàn)過擬合,同樣很難達(dá)到應(yīng)用要求.
為了在速度和準(zhǔn)確性之間尋求平衡,一些研究提出了類似的2D+3D混合架構(gòu)[25-27],其中Zolfaghari等人提出的ECO方法[25]使用的3D ResNet18網(wǎng)絡(luò),相比于Tran等人[26]使用的3D ResNet34網(wǎng)絡(luò)以及Xie等人[27]使用的復(fù)雜I3D網(wǎng)絡(luò),ECO方法具有更低的計(jì)算量,更適用于實(shí)時的應(yīng)用場景中.ECO方法將3D ResNet18網(wǎng)絡(luò)底部替換為2D BN-Inception網(wǎng)絡(luò)進(jìn)行低級語義特征提取,在速度和精度上獲得了較好的結(jié)果,這表明在高級語義特征上的時間表示學(xué)習(xí)更有用.然而ECO方法在底層網(wǎng)絡(luò)進(jìn)行外觀特征提取時,易受背景的影響,并且在高層網(wǎng)絡(luò)學(xué)習(xí)時間表示時只關(guān)注局部時間窗內(nèi)的動態(tài),沒有考慮動作的長期時間結(jié)構(gòu),同時使用的傳統(tǒng)3D卷積核所需要的時空特征融合帶來的訓(xùn)練復(fù)雜度以及所需的存儲消耗限制了ECO方法的表現(xiàn).
針對ECO方法中的缺點(diǎn)和限制,提出基于全局時空感受野的高效視頻分類方法(CS-NL-SECO),CS是Channel-Spatial的首字母縮寫,代表通道和空間注意力方法,NL是Non-Local的首字母縮寫,代表全局時空感受野,SECO代表三維卷積核分解后的網(wǎng)絡(luò).首先將三維卷積核分解,不僅可以減少計(jì)算量,還可以增強(qiáng)3D網(wǎng)絡(luò)學(xué)習(xí)時空特征的表現(xiàn).其次在2D BN-Inception網(wǎng)絡(luò)提取空間特征時引入通道和空間注意力方法,通過學(xué)習(xí)自動獲取到每個特征通道以及每個特征中特定區(qū)域的權(quán)重,然后根據(jù)通道維度上的權(quán)重關(guān)注重要的特征通道,根據(jù)空間維度上的權(quán)重增強(qiáng)特定區(qū)域的表征.最后在3D ResNet網(wǎng)絡(luò)對時空特征建模時,引入全局時空感受野方法來捕獲大范圍的時空特征依賴關(guān)系.我們將優(yōu)化后的方法和原方法以及其他一些最新的方法進(jìn)行對比,同時和自身也進(jìn)行了分步對比,分析通道和空間注意力、全局時空感受野以及三維卷積核分解給原方法帶來的效果提升.
我們的視頻分類方法總體結(jié)構(gòu)如圖1所示,方法主體主要有以下4個模塊組成:
圖1 CS-NL-SECO方法總體結(jié)構(gòu)
a)視頻特征提取模塊;
b)引入通道和空間注意力機(jī)制的二維CS-BN-Inception網(wǎng)絡(luò)模塊;
c)時域擴(kuò)展模塊;
d)引入非局部感受野和三維卷積核分解的三維NL-SResNet網(wǎng)絡(luò)模塊.
給定一段視頻,把它按相等間隔分為k段{S1,S2,…,Sk},則整個視頻可表示如下:
V={T1,T2,…,Tk}
(1)
其中T1,T2,…,Tk代表片段序列,每個片段從它對應(yīng)的剪輯S1,S2,...,Sk中隨機(jī)采樣得到.
每個幀由一個二維卷積網(wǎng)絡(luò)(權(quán)值共享)處理,該網(wǎng)絡(luò)產(chǎn)生一個特征表示編碼幀的外觀.通過對覆蓋整個視頻的時間片段的幀進(jìn)行聯(lián)合處理,我們確保能夠捕捉到一個動作在一段時間內(nèi)最相關(guān)的部分,以及這些部分之間的關(guān)系.隨機(jī)選取采樣幀的位置比總是使用相同的位置更有優(yōu)勢,因?yàn)樗谟?xùn)練過程中帶來了更多的多樣性,并提高網(wǎng)絡(luò)泛化能力.
對于2D網(wǎng)絡(luò),我們使用BN-Inception的第一部分(直到inception-3c層).它有2D過濾器和帶BN的池化內(nèi)核.我們選擇這個架構(gòu)是因?yàn)樗母咝?為了更好建模特征通道依賴關(guān)系,我們在BN-Inception中的每一層引入通道和空間注意力(CS)機(jī)制.
為了解隨著時間的推移動作在場景中的表示,我們將所有幀的表示疊加起來,并將其擴(kuò)展到時域上,輸入到一個3D卷積神經(jīng)網(wǎng)絡(luò)中.時域擴(kuò)展公式如下:
(2)
我們使用3D ResNet18網(wǎng)絡(luò)的部分層,第一層是resnet3a_2層,之后跟3D ResNet18網(wǎng)絡(luò)結(jié)構(gòu)相同.為了減少計(jì)算量,并且更好地對視頻進(jìn)行時空特征建模,我們首先將三維卷積核分解,來更好地學(xué)習(xí)時空特征,并減少網(wǎng)絡(luò)計(jì)算量,其次引入全局感受野來捕獲大范圍的時空依賴關(guān)系.
BN-Inception網(wǎng)絡(luò)雖然可以捕獲多尺度的空間特征,但忽視了特征通道間的依賴關(guān)系以及特征中位置的相關(guān)程度.因此我們在BN-Inception網(wǎng)絡(luò)中的每一層引入通道和空間注意力(CS)方法,通過學(xué)習(xí)自動獲取到每個特征通道以及每個特征中特定區(qū)域的權(quán)重,然后根據(jù)通道維度上的權(quán)重關(guān)注重要的特征通道,根據(jù)空間維度上的權(quán)重增強(qiáng)特定區(qū)域的表征,抑制不相關(guān)的背景,從而獲得更有效的空間特征.如圖2所示,當(dāng)前2D BN-Inception層輸出特征圖F∈RC×H×W作為通道和空間注意力方法的輸入,首先經(jīng)過通道注意力模塊得到1維的通道注意力特征圖Mc∈RC×1×1,其次經(jīng)過空間注意力模塊得到空間注意力特征圖Ms∈R1×H×W,計(jì)算公式如下:
圖2 通道和空間注意力結(jié)構(gòu)
F′=Mc(F)?FF″=Ms(F′)?F′
(3)
其中?代表點(diǎn)乘,Mc表示經(jīng)過通道注意力提取的特征,Ms表示經(jīng)過空間注意力提取的特征,F(xiàn)′代表Mc與輸入特征F點(diǎn)乘得到的通道注意力優(yōu)化的中間特征圖,F(xiàn)″代表經(jīng)過通道和空間注意力最終優(yōu)化后的輸出.
3.1.1 通道注意力模塊
圖3 通道注意力結(jié)構(gòu)
Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))
(4)
其中σ代表激活函數(shù),W0∈RC/r×C,W1∈RC×C/r是多層感知機(jī)中的權(quán)重,對于兩個中間特征圖是權(quán)重共享的.
3.1.2 空間注意力模塊
圖4 空間注意力結(jié)構(gòu)
Ms(F)=σ(f7×7([AvgPool(F));MaxPool(F)]))
(5)
其中σ代表激活函數(shù),7×7表示卷積核的大小,7×7的卷積核比3×3的卷積核效果更好.
ResNet網(wǎng)絡(luò)無法捕獲大范圍的時空特征依賴關(guān)系.因此我們在ResNet網(wǎng)絡(luò)中引入全局時空感受野方法,通過計(jì)算某個位置的響應(yīng)時,考慮所有位置特征的加權(quán),所有位置可以是空間的,時間的,時空的,因此可以捕獲時空特征的長范圍依賴關(guān)系.計(jì)算公式如下:
(6)
其中x表示輸入特征,y表示輸出特征,其維度和x相同.f是配對計(jì)算函數(shù),來計(jì)算當(dāng)前i和所有可能關(guān)聯(lián)的位置j之間的相關(guān)度.g用于計(jì)算輸入特征在j位置的特征值.C(x)是歸一化參數(shù).
為了建模兩個位置之間的相關(guān)程度,這里我們選用嵌入高斯函數(shù),它的優(yōu)點(diǎn)是更加通用,在嵌入空間中計(jì)算高斯距離.計(jì)算公式如下:
f(xi,xj)=eθ(xi)Tφ(xj)
(7)
其中θ(xi)=Wθxi和φ(xj)=Wφxj是兩個嵌入函數(shù),歸一化函數(shù)C(x)=∑?jf(xi,xj).
為了簡化,我們只考慮g是線性的情況計(jì)算輸入特征在j位置的特征值.計(jì)算公式如下:
g(xj)=Wgxj
(8)
圖5 全局感受野結(jié)構(gòu)
傳統(tǒng)的3D卷積神經(jīng)網(wǎng)絡(luò)所需要的時空特征融合帶來的訓(xùn)練復(fù)雜度以及所需的存儲消耗限制了3D網(wǎng)絡(luò)的表現(xiàn).因此我們將傳統(tǒng)的3×3×3的卷積核分解為1×3×3的空間二維濾波器和3×1×1的時間一維濾波器.如圖6所示,通過使時間一維濾波器級聯(lián)地跟隨空間二維濾波器來考慮堆疊,這兩種濾波器可以在同一路徑上直接相互影響,只有時間一維濾波器直接連接到最終輸出,公式如下:
圖6 分解后的三維卷積核
xt+1=T(S(xt))
(9)
其中xt為第t層的輸入,xt+1為第t層的輸出,S為空間二維濾波器,T為一維時間濾波器.
算法1.視頻分類CS-NL-SECO訓(xùn)練算法
輸入:原始視頻流
輸出:收斂的CS-NL-SECO方法
//構(gòu)建數(shù)據(jù)集
1.Ω←φ
2.for r = 0 to N-1 do //N表示視頻的總數(shù)
3.Vr={S0,S1,…,Sk-1} //其中k表示第k幀
4.Lr=get_label(Vr) //得到視頻的標(biāo)簽
5. 將一個訓(xùn)練實(shí)例{Vr,Lr}放入Ω
6.end for
//訓(xùn)練模型
7.初始化CS-NL-SECO方法所有參數(shù)?all,將數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集Ωt和測試集Ωv
8.do{
9. 從訓(xùn)練集中隨機(jī)選取一個batch的示例
10. for i = 0 to S-1 do //S表示采樣幀數(shù)
11. if(BN-Inception模塊)
//Lb表示BN-Inception模塊的卷積層數(shù)
12. for j = 0 toLb-1 do
13. if(通道和空間注意力模塊)
14. 根據(jù)公式(3),將特征經(jīng)過公式(4)和公式(5)的連續(xù)推理,得到提煉的特征
15. end if
16. 連續(xù)Conv-BN-ReLU操作
17. end for
18. end if
19. end for
20. if(時域轉(zhuǎn)換模塊)
21. 根據(jù)公式(2)將所有采樣幀的表示疊加起來,并將其擴(kuò)展到時域上
22. end if
23. if(三維卷積核分解后的ResNet模塊)
//Lm表示ResNet模塊的卷積層數(shù)
24. for k = 0 toLm-1 do
25. 連續(xù)Conv-BN-ReLU-殘差連接操作
26. if(全局感受野方法模塊)
27. 根據(jù)公式(6)捕獲長范圍時空特征依賴關(guān)系
28. end if
29. end for
30. end if
31. 最后,通過交叉熵?fù)p失函數(shù)求得誤差,更新全局參數(shù)?all
32.}while(滿足優(yōu)化條件則停止)
5.1.1 實(shí)驗(yàn)環(huán)境
操作系統(tǒng)Ubuntu 18.0.4,64位;Pytorch框架;16核i9-9900k處理器;內(nèi)存大小為32GB;RTX2080Ti圖形處理器,4塊,顯存大小為11GB.
5.1.2 數(shù)據(jù)集
本文在視頻分類領(lǐng)域最流行的4個視頻數(shù)據(jù)集上評估了所提出的方法:
UCF101數(shù)據(jù)集[28]是最流行的視頻動作識別基準(zhǔn),包含來自101個動作類別的13320個視頻.數(shù)據(jù)集組織者提供了三個訓(xùn)練/測試片段,UCF101中的每個片段包括大約9.5K的訓(xùn)練視頻和3.7K的測試視頻.
HMDB51數(shù)據(jù)集[29]包含來自51個動作類別的6849個視頻片段,HMDB51和UCF101數(shù)據(jù)集遵從THUMOS13驗(yàn)證方法,分別在這兩個數(shù)據(jù)集的3個split上進(jìn)行訓(xùn)練和測試,最后取測試結(jié)果的平均值作為最后結(jié)果.
Something-something數(shù)據(jù)集[30]包含來自174種物體和動作類別的108499個標(biāo)注視頻片段,其中標(biāo)注是基于模板的文字描述,比如“把某物丟進(jìn)某物”,每個視頻的時長在2-6秒,該數(shù)據(jù)集包括86K的訓(xùn)練視頻和11.5K的測試視頻.
Kinetics數(shù)據(jù)集[22]由大約300000個視頻剪輯組成,涵蓋400個人類動作類,每個動作類至少有600個視頻剪輯.每個剪輯持續(xù)大約10秒鐘,并標(biāo)有一個類.所有剪輯都經(jīng)過多輪人工注釋,每個剪輯均來自一個獨(dú)特的YouTube視頻.這些動作涵蓋了廣泛的課程,包括人與物體交互,如演奏樂器,以及人與人之間的互動,如握手和擁抱.
我們采用Top-1、Top-5準(zhǔn)確率來評價視頻分類方法的性能,其計(jì)算方法如下:
(10)
其中P表示Top-1、Top-5準(zhǔn)確率,TP表示分類正確的樣本數(shù),Top-1分類正確:即對網(wǎng)絡(luò)輸出的C維向量(該視頻屬于各類別的概率值,C為類別數(shù))中的元素降序排列,如果概率最大值所對應(yīng)的類別與真實(shí)視頻標(biāo)簽相符,則該視頻分類正確,否則分類錯誤.Top-5分類正確:只要概率排名前五個中有對應(yīng)的類別與真實(shí)視頻標(biāo)簽相符,則該視頻分類正確,否則分類錯誤.FP為分類錯誤的樣本數(shù).
另外,我們使用網(wǎng)絡(luò)的參數(shù)量(Params)和計(jì)算量(FLOPs)去評判網(wǎng)絡(luò)的空間復(fù)雜度和時間復(fù)雜度.
對于視頻幀采樣策略,我們將訓(xùn)練集和測試集中的每個視頻片段均分為k段,并在訓(xùn)練和測試時隨機(jī)在每個時間片段中選取一張幀,這種采樣方法不僅可以減少幀與幀之間的數(shù)據(jù)冗余,還可以充分利用視頻中的所有幀得到視頻級的表示,提高了方法的魯棒性.對于k的設(shè)置,我們設(shè)為8、16以及32進(jìn)行訓(xùn)練和測試.主要因?yàn)橐曨l時長較低,解碼完以后通常可以得到120至200張圖片,如果采樣過多,則幀之間的場景幾乎沒有變化,并且在視頻分類的研究中一般稀疏采樣16幀或者32幀就可以得到最佳的結(jié)果.
對于數(shù)據(jù)增強(qiáng),我們首先將幀尺寸調(diào)整為240×320,對調(diào)整后的幀使用固定角裁剪、尺寸抖動以及水平翻轉(zhuǎn)等數(shù)據(jù)增強(qiáng)技術(shù).其次運(yùn)用去中心化方法,將逐個樣本減去對應(yīng)維度的統(tǒng)計(jì)平均值,來消除公共的部分,以凸顯個體之間的特征和差異.最后調(diào)整裁剪區(qū)域的大小為224×224.
對于網(wǎng)絡(luò)訓(xùn)練,我們使用原方法提供的預(yù)訓(xùn)練權(quán)重在四個數(shù)據(jù)集上重新測試得到新的基準(zhǔn).使用ECO方法在Kinetics數(shù)據(jù)集上的權(quán)重對Inception網(wǎng)絡(luò)初始化,使用2D ResNet18在ImageNet數(shù)據(jù)集[31]上預(yù)訓(xùn)練的權(quán)重對3D卷積核分解后的空域卷積核進(jìn)行權(quán)重初始化,時域卷積核被作為恒等映射進(jìn)行隨機(jī)初始化.我們參考原方法使用較小的學(xué)習(xí)率0.001進(jìn)行微調(diào),當(dāng)驗(yàn)證損失趨于穩(wěn)定時將學(xué)習(xí)率降低10倍.使用Xavier來隨機(jī)初始化權(quán)重參數(shù),使用交叉熵作為損失函數(shù)對模型的參數(shù)求梯度進(jìn)行更新,使用隨機(jī)梯度下降優(yōu)化(SGD)算法對模型進(jìn)行優(yōu)化.動量參考原方法設(shè)為0.9,權(quán)重衰減為0.0005,因?yàn)镵inetics數(shù)據(jù)集過大,batch-size設(shè)置為4.為了防止過擬合,在全連接層前使用dropout層,dropout ratio設(shè)為0.3,經(jīng)過測試發(fā)現(xiàn)設(shè)為0.5的結(jié)果沒有0.3好.當(dāng)三維卷積核分解后的網(wǎng)絡(luò)訓(xùn)練完成后,將訓(xùn)練得到的權(quán)重對新引入的通道和空間注意力模塊以及全局時空感受野模塊分別進(jìn)行微調(diào),將新引入的模塊學(xué)習(xí)率設(shè)置為0.01,原模塊學(xué)習(xí)率保持0.001不變,我們也測試了新引入的模塊學(xué)習(xí)率設(shè)為0.1和0.001的情況,結(jié)果顯示設(shè)為0.1時精度較低,設(shè)為0.001時收斂速度略慢.我們在Kinetics數(shù)據(jù)集上訓(xùn)練完后分別在UCF101、HMDB51以及Something-something數(shù)據(jù)集上僅對全連接層微調(diào),學(xué)習(xí)率設(shè)置為0.001,batch-size設(shè)置為64,其他參數(shù)與在Kinetics數(shù)據(jù)集上訓(xùn)練的設(shè)置保持相同.
5.4.1 消融實(shí)驗(yàn)
本節(jié)在Kinetics數(shù)據(jù)集上采樣32幀進(jìn)行實(shí)驗(yàn),對比不同方法的提升效果,其中SECO代表將3D時空卷積核分解成空域卷積和時域卷積的方法,SE代表使用了通道注意力方法,CS代表通道和空間注意力方法,SK代表自適應(yīng)感受野方法,NL代表全局感受野方法,2D代表僅在二維網(wǎng)絡(luò)中實(shí)驗(yàn),3D代表僅在三維網(wǎng)絡(luò)中實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果如表1所示.
表1 Kinetics數(shù)據(jù)集消融實(shí)驗(yàn)
從表1可以看出,我們在原有方法基礎(chǔ)上分解三維卷積核以后,SECO方法不僅精度高,而且參數(shù)少,計(jì)算量小,我們認(rèn)為這種三維卷積核分解有利于減少過擬合,同時并沒有降低模型的表達(dá)能力.在此基礎(chǔ)上對特征通道依賴關(guān)系建模,首先在2D網(wǎng)絡(luò)中使用通道注意力方法以后,參數(shù)量和計(jì)算量增加可忽略不計(jì),精度提升了0.4%,在此基礎(chǔ)上引入空間注意力以后,精度提升了0.7%.為了嘗試Inception網(wǎng)絡(luò)中引入自適應(yīng)感受野方法,我們調(diào)整3×3和5×5的通道數(shù),讓二者保持一致,在增加一部分參數(shù)和計(jì)算量的情況下,精度有所下降,我們認(rèn)為自適應(yīng)感受野方法本身借鑒了Inception多尺度的思想,同時建模了通道依賴關(guān)系,引入到我們的Inception網(wǎng)絡(luò)中,改變了原有的Inception架構(gòu),破壞了Inception的高效.在對長期時空特征依賴關(guān)系進(jìn)行建模時,我們首先在Inception網(wǎng)絡(luò)中引入全局感受野方法,我們可以看到參數(shù)量和計(jì)算量比通道和空間注意力方法高出很多,這是因?yàn)榈讓泳W(wǎng)絡(luò)的尺寸較大.但是精度卻沒有通道和空間注意力好,我們認(rèn)為通道和空間注意力在關(guān)注通道的同時,也增強(qiáng)了特定區(qū)域的表征,而全局感受野方法存在通道依賴關(guān)系上的建模不足.其次在3D網(wǎng)絡(luò)中引入全局時空感受野方法,參數(shù)量和計(jì)算量增加不大的情況下,精度有了很大的提升.我們認(rèn)為視頻中相關(guān)的物體可能出現(xiàn)在較遠(yuǎn)的空間和較長的時間,而原方法中沒有能力去捕獲這些相關(guān)性,但是我們的方法可以捕獲它們的相關(guān)性.最后我們在2D和3D網(wǎng)絡(luò)中同時去優(yōu)化,我們發(fā)現(xiàn)在二維網(wǎng)絡(luò)中引入通道和空間注意力,三維網(wǎng)絡(luò)中引入全局時空感受野比只引入全局時空感受野的精度更好,這是因?yàn)橥ǖ篮涂臻g注意力可以彌補(bǔ)全局時空感受野在通道上建模的不足,同時參數(shù)量和計(jì)算量相比SECO方法僅有些許增加.
5.4.2 不同采樣幀數(shù)下的對比實(shí)驗(yàn)
本節(jié)探索了不同的采樣幀數(shù)對視頻分類的影響,我們分別測試了采樣8幀、16幀以及32幀時在四個數(shù)據(jù)集上的的分類效果,實(shí)驗(yàn)結(jié)果結(jié)果如表2所示.
從表2可以看出,在UCF101、HMDB51和Kinetics數(shù)據(jù)集上,隨著采樣數(shù)的增加,分類的精度越高,這證實(shí)了文獻(xiàn)[22]和文獻(xiàn)[32]中的觀察結(jié)果.而在Something數(shù)據(jù)集上,當(dāng)采樣幀數(shù)為32與采樣幀數(shù)為16相比時,分類精度反而下降了,這是因?yàn)殡S著采樣數(shù)增加,幀級預(yù)測的準(zhǔn)確率越來越高,而視頻級預(yù)測作為所有幀級預(yù)測結(jié)果的平均,融合的效果就不會再那么明顯了.同時我們也可以觀察到,隨著采樣幀數(shù)的增加,通道和空間注意力和全局時空感受野對原方法提升的效果更好.我們認(rèn)為采樣幀數(shù)的增加帶來了更豐富的時空特征,從而提升效果更好.
表2 不同采樣幀數(shù)的實(shí)驗(yàn)對比
為了進(jìn)一步證明我們提出的方法有效性,我們在較小的UCF101數(shù)據(jù)集上給出一個定性的分類結(jié)果,如圖7所示.圖7展示了原方法和我們改進(jìn)后的方法在UCF101數(shù)據(jù)集split1片段上的Top-5預(yù)測結(jié)果的比較.結(jié)果表明,在空間特征相似的情況下,原有的ECO方法無法通過外觀特征簡單的區(qū)分類別,容易被短期的時空特征依賴關(guān)系所欺騙.例如拳擊沙袋和拳擊速度袋雖然在短期片段中看起來類似,但在長期片段中有很大差異.而我們的方法可以捕獲長期的動作片段,提供更準(zhǔn)確的全局特征,所以可以區(qū)分在短期片段中看起來相似但在長期中可能有很大差異的動作.
圖7 與ECO在Top-5分類結(jié)果上對比
5.4.3 與最新方法對比
本節(jié)在UCF101、HMDB51和Kinetics數(shù)據(jù)集上與其他以RGB幀為輸入的最新方法上的精度和速度進(jìn)行對比,結(jié)果如表3所示.
表3 與最新方法在速度和精度上的對比
從表3可以看出,與I3D方法、STC方法、ARTNet方法以及ECO方法相比,我們的方法無論是精度還是速度都遠(yuǎn)遠(yuǎn)優(yōu)于它們;與NLI3D方法和LGD-3D相比,雖然我們的方法精度比其略低,但它們是建立在101層網(wǎng)絡(luò)的基礎(chǔ)上,我們的方法計(jì)算量遠(yuǎn)遠(yuǎn)小于它們.與MFNet方法相比,雖然我們的計(jì)算量比它大一些,但是在三個數(shù)據(jù)集上的精度卻比它高.與S3D-G方法、R3D-34方法以及FASTER32方法相比,雖然在三個數(shù)據(jù)集的精度很接近,但是我們的計(jì)算量要小于它們.
為了更清晰地的看到我們的方法在精度和速度上的優(yōu)勢,我們對最新的方法做了一個精度和速度對比圖,如圖8所示,最優(yōu)的方法更接近左上角,可以明顯的看到,一些方法取得了很高的精度,但是在速度上犧牲很大.一些方法取得了很快的速度,但是精度上略有不足.而我們的方法位于左上角,在速度和精度上達(dá)到了較好的平衡.
圖8 與最新方法在Kinetics上精度和速度對比
本文提出了一種基于全局感受野的高效視頻分類方法,該方法通過分離三維卷積核來減少計(jì)算量和更好地學(xué)習(xí)時空特征,引入通道和空間注意力機(jī)制自動獲取每個特征通道以及每個特征中特定區(qū)域的權(quán)重,然后根據(jù)通道維度上的權(quán)重關(guān)注重要的特征通道,根據(jù)空間維度上的權(quán)重增強(qiáng)特定區(qū)域的表征,抑制不相關(guān)的背景.引入全局感受野方法深度建模長期的時空特征依賴關(guān)系.在四個公共數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,我們提出的方法是有效的、可行的,并且對基于混合架構(gòu)(2D+3D)的視頻分類方法有一定的貢獻(xiàn).在未來的研究工作中,我們將光流引入到我們的方法中,將基于光流和RGB特征的損失和標(biāo)準(zhǔn)交叉熵?fù)p失進(jìn)行線性組合來設(shè)計(jì)新的損失函數(shù),實(shí)現(xiàn)光流獲取的知識通過輸入的RGB流傳遞到我們的網(wǎng)絡(luò)中以避免在測試時進(jìn)行光流計(jì)算,在保證推理速度不下降的情況下,進(jìn)一步提升精度.