王昊飛 李俊峰
摘? 要:針對ResNeXt網(wǎng)絡(殘差網(wǎng)絡)中存在的對特征提取不充分,以及數(shù)據(jù)集中背景信息干擾的問題,將ResNeXt網(wǎng)絡和注意力機制相結(jié)合,提出了一種基于注意力機制的ResNeXt模型。首先,在ResNeXt網(wǎng)絡的基礎上,將淺層和深層的特征融合生成新型網(wǎng)絡結(jié)構(gòu)。其次,將全連接層由全局平均池化層替代,然后在通道空間注意力機制中添加一個條件因子,同時將改進后的注意力機制嵌入上述網(wǎng)絡中。最后,在UCF101和HMDB51上分別進行實驗,得到了95.2%和65.6%的準確率。研究表明,本文提出的模型可以有效地提取關鍵特征,充分利用不同層次的特征信息獲得較好的準確率。
關鍵詞:人體行為識別;注意力機制;ResNeXt;全局平均池化
中圖分類號:TP183? ? ?文獻標識碼:A
Human Action Recognition Method based on Attention
Mechanism and Improved ResNeXt Network
WANG Haofei, LI Junfeng
(Faculty of Mechanical Engineering & Automation, Zhejiang Sci-Tech University, Hangzhou 310018, China)
haofeiwang@yeah.net; ljf2003zz@163.com
Abstract: Aiming at problems of insufficient feature extraction in ResNeXt network and background information interference in the dataset, this paper proposes a ResNeXt model based on attention mechanism, which combines the ResNeXt network and attention mechanism. First, based on ResNeXt network, shallow and deep features are merged to generate a new network structure. Second, the fully connected layer is replaced by a global average pooling layer. Then channel attention mechanism is improved by adding a condition factor. At the same time, the improved attention mechanism is embedded in the above-mentioned network. Finally, experiments are performed on UCF101 and HMDB51 respectively, and the accuracy rates of 95.2% and 65.6% are obtained. Experiments show that the proposed model can effectively extract key features, and make full use of feature information of different layers to achieve better accuracy.
Keywords: human action recognition; attention mechanism; ResNeXt network; global average pooling
1? ?引 言(Introduction)
人體行為識別技術是從包含運動信息的圖像、視頻中進行識別的。在視頻監(jiān)控、智能家居、運動分析以及VR等領域都離不開人體行為的識別。人體行為識別已成為計算機視覺研究中的一個非常重要的領域[1]。由于視點的不同、背景的復雜性以及光照條件等的影響,人體行為識別仍然是一項非常具有挑戰(zhàn)性的課題。傳統(tǒng)人體行為識別是基于手工設計的特征[2]進行識別,并且依賴數(shù)據(jù)集特征提取的先驗知識,耗費大量的時間和精力。隨著深度學習的興起,解決了手動設計特征的不足,在人體行為識別領域取得了重大進展[3],已經(jīng)明顯超過了手工設計的特征。XIE等[4]提出了ResNeXt網(wǎng)絡,用一種平行堆疊相同拓撲結(jié)構(gòu)的blocks來代替殘差網(wǎng)絡三層卷積的block,同時增加了“基數(shù)”這一概念,減少了超參數(shù)數(shù)量,計算效率高,準確率高。注意力機制可以將其他不重要的信息忽略掉,重點關注關鍵信息[5]。將注意力機制應用到視頻中的行為識別,能夠有效提取視頻幀中的關鍵信息?;谏鲜龇椒?,為了充分提取視頻中的特征,本文對ResNeXt網(wǎng)絡進行改進并嵌入了改進后的通道空間注意力機制模型。
2? 改進后的ResNeXt網(wǎng)絡結(jié)構(gòu)(Improved ResNeXt network architecture)
首先,本文將使用改進后的ResNeXt網(wǎng)絡作為特征提取網(wǎng)絡來提取時空特征,并將不同層次的特征進行融合,以充分利用各類特征信息。其次,網(wǎng)絡中嵌入改進后的通道空間注意力機制,使網(wǎng)絡更加關注有強反饋能力的特征。最后,經(jīng)過全局平均池化操作后送入softmax函數(shù)進行分類,得到最終結(jié)果。本文提出的網(wǎng)絡結(jié)構(gòu)如圖1所示。
本文采用的卷積網(wǎng)絡為ResNeXt101,主體由四個殘差模塊組成。殘差模塊的結(jié)構(gòu)如圖2所示,1×1×1和3×3×3表示卷積核大小,F(xiàn)表示通道數(shù),group表示分組卷積的組數(shù),即將特征圖分成group組的小特征圖。ResNeXt網(wǎng)絡結(jié)構(gòu)采用VGG網(wǎng)絡和inception網(wǎng)絡中轉(zhuǎn)換合并的思想,用一種平行的相同拓撲結(jié)構(gòu)的block進行堆疊來進行分組卷積,用來控制分組數(shù)量,在沒有增加參數(shù)復雜度的情況下提高了準確率。
本文中網(wǎng)絡的殘差模塊分別用layer1、layer2、layer3、layer4表示,網(wǎng)絡的具體結(jié)構(gòu)如圖3所示。隨著網(wǎng)絡的加深,一些細節(jié)特征被過濾掉,導致對提取到的特征利用不充分。本文改進后的ResNeXt網(wǎng)絡將淺層網(wǎng)絡提取的細節(jié)特征和深層網(wǎng)絡提取的特征相融合,以充分利用各個層次所提取的特征信息。
對注意力機制輸出的特征進行步長為2、卷積核大小為1的卷積,卷積操作后的特征和layer2輸出的特征相融合輸入layer3中繼續(xù)進行卷積操作。同理,將和layer2融合后的特征進行兩次步長為2、卷積核大小為1的卷積操作,并和layer4輸出的特征相融合。進行卷積操作的目的是為了降低維度,使特征圖能夠進行融合。文中沒有采用逐層特征融合,而是采用跳層融合的方式,首先是為了降低模型參數(shù),減少計算量;其次,如果采用逐層融合的方式,包含過多的特征,會造成冗余的信息。兩種特征采用element-wise進行融合。
3? ?注意力機制(Attention mechanism)
注意力機制模型[6]如圖4所示,由通道注意力機制和空間注意力機制串聯(lián)組成,對特征圖在通道和空間維度上進行注意力生成,可以在不明顯增加計算量的基礎上提高準確率。
(1)通道注意力機制
本文對通道注意力機制進行了改進,由于平均池化和最大池化提取到的特征有所區(qū)別,添加了條件因子來對不同的特征進行權重分配。改進后的通道注意力機制如圖5所示。首先將輸入特征圖在空間維度上進行壓縮,分別進行平均池化和最大池化操作,得到和。然后對得到的這兩個特征圖進行權重分配,將這兩個重新分配的特征輸入一個共享網(wǎng)絡中,該共享網(wǎng)絡是包含一個隱藏層的多層感知機(MLP),經(jīng)過共享網(wǎng)絡的處理后,用element-wise求和輸出特征向量。
(2)空間注意力機制
空間注意力機制如圖6所示,將特征圖在通道維度上進行壓縮。對輸入的特征圖分別在通道維度做平均池化和最大池化操作,得到兩個二維特征;然后,按照通道將特征進行拼接得到一個特征圖;最后,對其進行卷積操作,使得最終得到的特征圖和輸入的特征圖在空間維度上一致。
4? ?全局平均池化(Global average pooling)
傳統(tǒng)的卷積神經(jīng)網(wǎng)絡分類時使用全連接層和softmax回歸層。但是,由于全連接層參數(shù)過多,計算量大,容易造成過擬合,同時全連接層容易導致特征圖損失空間位置信息。因此,本文采用全局平均池化層[7]來代替ResNeXt的全連接層,使特征圖和行為類別之間的聯(lián)系更加直觀,轉(zhuǎn)換為分類的概率更加容易,對空間位置信息的魯棒性更強。
全局平均池化是對每一個通道圖的所有像素求平均值,在特征提取的最后一個卷積層生成k 個特征圖;經(jīng)過全局平均池化層后得到k 個1×1的特征圖,將這些特征圖輸入softmax層,輸出結(jié)果就是k 個類別的置信度。
圖7為全局平均池化示意圖,圖8為全連接示意圖。本文對圖7和圖8進行參數(shù)計算,假設輸入特征圖大小為3×3×3,則全連接層產(chǎn)生的參數(shù)個數(shù)為3×3×3×3=81 個,而全局平均池化層將輸入特征進行池化后直接送入softmax,所以參數(shù)個數(shù)為3×1×1×3=9 個。相比于全連接層,全局平均池化層的參數(shù)成倍數(shù)減少。
5? ?實驗(Experiment)
5.1? ?數(shù)據(jù)集
(1)UCF101數(shù)據(jù)集
UCF101[8]是行為類別和樣本數(shù)量最多的數(shù)據(jù)庫之一,其中包含13,320 個視頻和101 個類別。數(shù)據(jù)庫的樣本取自從BBC/ESPN收集并從網(wǎng)絡上下載的各種運動的樣本。UCF101多樣性較強,在相機運動,人體的外形、形態(tài)、視點、背景、光照條件等各種不同的條件下存在較大差異,是目前為止最具挑戰(zhàn)性的數(shù)據(jù)庫之一。101 類行為被分成25 組,每組包括4—7 個視頻,主要分為人與物體之間的交互、人與人之間的交互、人體自身的行為、演奏樂器和運動五類,如畫眼妝、打籃球、打太極拳、彈吉他、攀巖等。同一組視頻可能有一些共同的特征,如背景、視點等。如圖9所示為部分動作示意圖。
(2)HMDB51數(shù)據(jù)集
HMDB51[9]包含6,849 個視頻,總共51 個類別,每個類別至少包含101 個視頻。大多數(shù)視頻來自電影片段,有些來自公共數(shù)據(jù)庫,例如YouTube。動作主要包含一般面部的行為、面部的操作與對象的操作、身體的行為、身體與對象交互的行為和人體自身的行為五類,如交談、喝水、倒立、騎自行車、擁抱等。部分動作示意圖如圖10所示。
5.2? ?視頻采樣與參數(shù)設置
本文將視頻隨機的一個位置進行均勻采樣生成16 幀的輸入片段,并通過裁剪的方式將樣本尺寸統(tǒng)一為112×112,所以網(wǎng)絡的輸入樣本大小為3×16×112×112。訓練過程中,初始學習率設置為0.05,并在驗證損失達到飽和后將其除以10,進行學習率衰減優(yōu)化。使用動量為0.9的隨機梯度下降優(yōu)化器來對網(wǎng)絡進行優(yōu)化,使用ReLU激活函數(shù),采用交叉熵損失函數(shù)計算損失。
5.3? ?結(jié)果與分析
(1)不同條件因子下的比較實驗
該部分就改進的注意力機制中的條件因子的不同取值進行實驗,分別在UCF101和HMDB51數(shù)據(jù)集劃分的spilt1部分進行實驗,條件因子分別取0.1、0.3、0.5、0.7、0.9,得到的結(jié)果如圖11所示。可以看出,在UCF101上,當取值為0.5時,效果較好;在HMDB51上,當取值為0.7時,效果較好。所以本文選取為0.5和0.7分別進行實驗。
(2)拆分實驗
該部分將數(shù)據(jù)集UCF101和HMDB51分別拆分成三個部分進行實驗,取三者的平均值作為最終結(jié)果。UCF101數(shù)據(jù)集被分成三個部分,每個部分包含測試集和訓練集,每類行為的測試集和訓練集總共為25 組,其中測試集包含7 組,訓練集包含18 組。三種不同的拆分方式中的測試集交叉取前中后7 組,訓練集取剩下的18 組,三個部分的測試集和訓練集一一對應。而HMDB51數(shù)據(jù)集隨機生成三種拆分方式。首先選擇元標簽分布最平衡的片段,然后選擇與之關聯(lián)最小的第二、第三片段,一次得到三種不同的拆分方式。每種拆分方式的每類行為都包含70 組訓練片段和30 組測試片段,結(jié)果如表1所示。
(3)有無注意力機制對比實驗
該部分對添加了注意力機制的特征圖進行了可視化,將生成的熱力圖和原圖相結(jié)合,如圖12所示。圖中熱力圖深色區(qū)域表示所預測到的行為,淺色區(qū)域表示背景部分,深色越深代表所受的關注越多??梢钥闯?,添加注意力機制模型后,能夠更有效地集中在關鍵信息處,能夠更好地提取行為的關鍵信息,以便提高識別的準確率。本部分有無注意力機制模型進行對比的實驗結(jié)果如表2所示。由表2可知,添加注意力機制后,無論是在UCF101還是在HMDB51上的準確率都有一定的提升。
(4)與其他算法的對比實驗
為了驗證本文算法的有效性,在數(shù)據(jù)集UCF101和HMDB51上,與近年來主流的iDT[10]、TSN[11]、Two-Stream CNN[12]等人體行為識別方法進行了比較,實驗結(jié)果如表3所示。結(jié)果表明,本文的識別模型相比一些主流模型準確率有了大幅度提高,尤其在UCF101數(shù)據(jù)集上比iDT、Two-Stream分別提高了8.8%和7.2%。
6? ?結(jié)論(Conclusion)
本文提出了一種基于注意力機制的改進ResNeXt模型,并將其用于視頻中的人體行為識別,將ResNeXt網(wǎng)絡中的淺層特征和高層特征相融合,充分利用不同層次的特征。在通道空間注意力機制中加入條件因子,對不同的池化分配權重,并嵌入改進后的ResNeXt網(wǎng)絡中,能夠有效提取行為的關鍵特征;網(wǎng)絡的最后用全局平均池化層取代全連接層,降低了網(wǎng)絡過擬合的可能性,同時減少了參數(shù)。實驗結(jié)果表明,本文提出的改進ResNeXt人體行為識別模型在UCF101和HMDB51數(shù)據(jù)集上獲得了較好的識別率,具有一定的泛化性。
參考文獻(References)
[1] 周波,李俊峰.結(jié)合目標檢測的人體行為識別[J].自動化學報,2020,46(09):1961-1970.
[2] 朱煜,趙江坤,王逸寧,等.基于深度學習的人體行為識別算法綜述[J].自動化學報,2016,42(6):848-857.
[3] 周風余,尹建芹,楊陽,等.基于時序深度置信網(wǎng)絡的在線人體動作識別[J].自動化學報,2016,42(7):1030-1039.
[4] XIE S, GIRSHICK R. Aggregated residual transformations for deep neural networks[C]// IEEE.IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, Hawaii, USA: IEEE, 2017:1492-1500.
[5] 王翔,任佳.基于多注意力機制的深度神經(jīng)網(wǎng)絡故障診斷算法[J].浙江理工大學學報(自然科學版),2020,43(02):224-231.
[6] 徐巖,李曉振,吳作宏,等.基于殘差注意力網(wǎng)絡的馬鈴薯葉部病害識別[J].山東科技大學學報(自然科學版),2021,40(02):
76-83.
[7] LIN M, CHEN Q, YAN S. Network in network[J/OL]. (2013-10-16)[2021-3-18]. https://arxiv.org/abs/1312.4400.
[8] SOOMRO K, ZAMIR A R, SHAH M. UCF101: A dataset of 101 human actions classes from videos in the wild[J/OL]. (2012-10-3)[2021-3-18]. https://arxiv.org/abs/1212.0402.
[9] 朱紅蕾,朱昶勝,徐志剛.人體行為識別數(shù)據(jù)集研究進展[J].自動化學報,2018,44(6):978-1004.
[10] 程海粟,李慶武,仇春春,等.基于改進密集軌跡的人體行為識別算法[J].計算機工程,2016,42(08):199-205.
[11] WANG L, XIONG Y, WANG Z, et al. Temporal segment networks: Towards good practices for deep action recognition[C]// ECCV. The 14th European Conference on Computer Vision. Berlin, Germany: Springer, 2016:20-36.
[12] SIMONYAN K, ZISSERMAN A. Two-stream convolutional networks for action recognition in videos[J/OL]. (2014-6-9)[2021-3-18]. https://arxiv.org/abs/1406.2199.
作者簡介:
王昊飛(1994-),女,碩士生.研究領域:模式識別與智能系統(tǒng).
李俊峰(1978-),男,博士,副教授.研究領域:智能信息處理,缺陷檢測.