張舟 吳克偉 高揚
摘要:人類行為識別作為視頻分類中的重要問題,正成為計算機視覺中的熱門話題。由于視頻信息較多,有的視頻冗余信息過量,判別性幀較少,因此如何無監(jiān)督地提取關(guān)鍵幀對于行為識別至關(guān)重要。為此,本文提出了一種新的基于順序驗證的關(guān)鍵幀提取方法,并將其應用到行為識別中。首先,本文定義了一種順序驗證的模塊,驗證局部區(qū)間中幀的順序,學習局部區(qū)間中幀的關(guān)鍵性描述,接著將其整合得到整段視頻中每一幀的關(guān)鍵性描述;其次,根據(jù)學習到的視頻幀關(guān)鍵性描述提取關(guān)鍵幀;最后通過實驗討論分析提取多少關(guān)鍵幀對行為識別最有利。實驗結(jié)果表明,本文的方法在UCF-101上可以達到95.40%,在HMDB51上可以達到68.80%,均優(yōu)于當前的一些先進的方法。
關(guān)鍵詞: 行為識別; 關(guān)鍵幀提取; 順序驗證; 關(guān)鍵性描述
【Abstract】 As an important issue in video classification, human action recognition is becoming a hot topic in computer vision. Since there are many video information, some videos have redundant information and few discriminative frames, so how to extract key frames unsupervised is very important for action recognition. To this end, the paper proposes a new key frame extraction method based on order verification and apply it to action recognition. First, this paper defines an order verification module that verifies the order of frames in a local interval, learns the key description of the frames in the local interval, and then integrates them to obtain the key description of each frame in the entire video; Second, key frames are extracted based on the learned key descriptions of the video frames; Finally, the paper discusses experimentally how many key frames are extracted to be most beneficial for action recognition. Experimental results show that the proposed method can reach 95.40% on UCF-101 and 68.80% on HMDB51, which are all better than some current advanced methods.
【Key words】 ?action recognition; key frame extraction; order verification; key description
0 引 言
視頻中的人體行為識別是計算機視覺領(lǐng)域的一項既基礎(chǔ)又具有挑戰(zhàn)性的任務,最近幾年正被廣泛應用于視頻監(jiān)控、人機交互、醫(yī)療看護等領(lǐng)域[1]。這個任務是指從視頻序列中提取相關(guān)的視覺信息,并用合適的方式表達出來,然后通過對視覺信息的解釋來分析和識別人類的行為模式。真實的視頻大多以人類活動為背景,在視頻某些時間段里背景比較復雜,很難準確、魯棒地識別人類行為,因此行為識別仍是一個復雜的問題。
現(xiàn)有的深度學習模型,將行為識別任務視為多分類問題。其早期研究關(guān)注于利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)來學習視頻中行為的深度表達,包括雙流CNN模型[2],隱雙流CNN 模型[3],以及3D-CNN 模型[4]。卷積神經(jīng)網(wǎng)絡(luò)擅長于捕獲場景的空間信息,然而其對時序信息的捕獲能力不強?,F(xiàn)有深度學習模型通常使用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),尤其是長短期記憶網(wǎng)絡(luò)(LSTM)模型來描述行為中時序信息?,F(xiàn)有行為識別的難點在于,目標動作僅僅占長視頻中的一小部分,同時運動目標被大量的背景信息干擾,因此,從長視頻中提取行為發(fā)生的有效信息,成為行為識別的關(guān)鍵問題。
針對現(xiàn)有方法無法有效區(qū)分視頻中時序背景混雜信息,導致行為識別準確率和效率不高的情況,研究發(fā)掘了一種基于長視頻序列順序驗證的新的關(guān)鍵幀提取方法,并將這種方法應用到行為識別中去。 在此方法中,通過抑制視頻中的低質(zhì)量時序信息,學習到具有辨別性的視頻幀的表示,提高行為表達的判決能力,從而實現(xiàn)可靠的行為識別。綜上所述,本次研究做出以下貢獻:
(1)本文提出了一種新的基于順序驗證提取關(guān)鍵幀的行為識別方法。其中,這種關(guān)鍵幀機制用于去除低質(zhì)量背景復雜的冗余幀,然后將這種關(guān)鍵幀機制應用到行為識別任務中。
(2)本文設(shè)計了一種順序驗證的方法來學習視頻幀的關(guān)鍵性描述。首先驗證局部區(qū)間中幀之間的順序關(guān)系,獲取局部區(qū)間中幀的關(guān)鍵性描述;然后以某種方式結(jié)合各階段局部區(qū)間中幀的關(guān)鍵性描述,得到整段視頻中每一幀的關(guān)鍵性描述。
(3)本文進一步將關(guān)鍵幀提取應用到了行為識別上,并在UCF101和HMDB51這2個公認的數(shù)據(jù)集上進行實驗驗證。實驗結(jié)果表明,在UCF101上提取12幀關(guān)鍵幀表現(xiàn)最好,識別精度為95.40%,在HMDB51上提取10幀關(guān)鍵幀表現(xiàn)最好,識別精度為68.80%,均優(yōu)于目前大部分先進的方法。
1 相關(guān)工作
視頻相比圖像來說信息更加豐富,但是一個視頻序列中冗余信息太多,如何高效準確地提取關(guān)鍵幀的信息對于很多任務都是至關(guān)重要的。與此同時人類行為識別是計算機視覺領(lǐng)域一個長期存在的課題,也是當今一個研究熱點。在這部分,分別介紹了關(guān)鍵幀提取和行為識別兩方面的相關(guān)工作。
(1)關(guān)鍵幀提取。許多早期的關(guān)鍵幀提取方法依賴于使用基于管道的分割,此類方法通常提取光流和SIFT特征。較早的方法[5]通過視頻的光流檢測了連續(xù)幀之間的相似性的局部最小變化。之后的方法通過在特征提取中使用關(guān)鍵點檢測[6-7]改進了這一點,后者通過SIFT描述符提取局部特征,并匯總了關(guān)鍵點以實現(xiàn)視頻中的關(guān)鍵幀提取。但是,所有這些方法都具有以下缺點:當相同的內(nèi)容再次出現(xiàn)在視頻中時,就可能會提取相似的關(guān)鍵幀。另一類方法是將視頻幀的特征(如HS顏色直方圖)聚類成組。這些方法通過從每個組中檢測有代表性的幀來確定視頻中的關(guān)鍵幀。Zhuang等人[8]提出了一種基于視覺內(nèi)容和運動分析的關(guān)鍵幀非監(jiān)督聚類方法。Vázquez等人[9]提出了一種基于頻譜聚類的關(guān)鍵幀檢測方法,該方法構(gòu)建了一個圖來捕獲圖像視頻序列中的特征局部性,而不是依靠由2個圖像之間共享的特征所計算出的相似性度量。最后由于CNN在圖像分類中的流行,已將CNN引入視頻的關(guān)鍵幀提取中。Mahasseni等人[10]首先將生成對抗網(wǎng)絡(luò)(GAN)應用于視頻中的關(guān)鍵幀提取。
(2)行為識別方法。同時,CNN在圖像分析任務中深度特征提取的成功,為視頻中行為分類的研究提供了靈感。CNN側(cè)重空間模式的提取,可以有效增強行為特征在空間域上的表現(xiàn)能力,比如在ImageNet[11]數(shù)據(jù)集上預訓練的Vggnet[12]、GoogleNet[13]和ResNet[14],并將其用作特征提取器。此外,Zhu等人[3]提出了一種新型的Hidden Two-stream CNN架構(gòu),隱式地捕獲相鄰幀之間的運動信息。Wang等人[15]提出了一種新的架構(gòu),稱為外觀-關(guān)系網(wǎng)絡(luò)(ARTNet),以端到端的方式學習視頻表示,ARTNet是通過堆疊多個SMART塊來構(gòu)建的。Shou等人[16]提出了一種輕量級的生成器網(wǎng)絡(luò),該網(wǎng)絡(luò)減少了運動矢量中的噪聲,捕獲了精細的運動細節(jié),實現(xiàn)了一種更具鑒別性的運動線索(DMC)表示。但是由于CNN對時序信息的捕獲能力不強,而RNN具有學習幀之間時序關(guān)系的強大能力,尤其是LSTM網(wǎng)絡(luò)由于其靈活的門機制,可以避免在反向傳播過程中梯度消失或梯度爆炸。Li等人[17]提出了一個新穎的框架,通過結(jié)合CNN和LSTM來學習視頻中的時序動態(tài)特征,從而達到增強行為識別的效果。Ng等人[18]通過實驗證明,相較于傳統(tǒng)的雙流方法[2],加入LSTM整合時序信息可以顯著提高行為識別的準確率。
(3)關(guān)鍵幀提取用于行為識別。視頻并非每一幀都有對行為識別有利的信息,因此去除冗余幀,將關(guān)鍵幀機制加入行為識別任務有著重大的意義。Wang等人[19]提出了一種從視頻序列中提取人類動作識別關(guān)鍵幀的新方法,主要利用研究提出的一種自適應加權(quán)親和傳播算法(SWAP),以提取關(guān)鍵幀,最后結(jié)合SVM進行行為識別。但是這種方法對識別精度貢獻并不大,只是改善了識別速度。Zhou等人[20]提出一種實時的行為識別方法,通過這種從視頻幀的時間窗口中檢測關(guān)鍵幀的新算法來提高識別速度,再采用隱馬爾可夫模型(HMM)來分析檢測到的關(guān)鍵幀的時間關(guān)系,從而保證識別的準確性。同樣,為了彌補高斯混合隱馬爾可夫模型(GMM-HMM)需要定義高斯混合模型(GMM)和隱馬爾可夫模型(HMM)分類的數(shù)量,從而引起的識別速度下降,Li等人[21]提出了一種基于關(guān)鍵幀的GMM-HMM運動識別方法,使用最小重建誤差方法來確定關(guān)鍵幀的數(shù)量,從而減少GMM和HMM分類的數(shù)量提高識別速率。Zhao等人[22]提出一種新的基于關(guān)鍵幀提取和多特征融合技術(shù)的行為識別方法,既利用關(guān)鍵幀機制解決了數(shù)據(jù)冗余的問題,又通過多特征融合不同流的信息,提高了識別精度。Zhu等人[23]通過挖掘視頻中關(guān)鍵幀所在視頻段來提高識別正確率。Kar等人[24]采用含有時空網(wǎng)絡(luò)和MIL框架的雙流CNN來檢測視頻中得分較高的關(guān)鍵幀,進而應用于行為識別。
受到文獻[25-26]采用順序驗證來進行行為識別的啟發(fā),且目前沒有基于順序驗證來學習關(guān)鍵幀的方法,本文提出一種順序驗證的方法,提取視頻中的關(guān)鍵幀,去除冗余信息,進而再將這種新的關(guān)鍵幀提取方法用于視頻中的行為識別,實驗結(jié)果表明本文的方法取得了較好的識別正確率。
2 模型框架
在本節(jié)中,首先對所提出的方法給出簡要論述,然后將本文方法的每個部分進行詳細闡明。這里,以UCF101數(shù)據(jù)集為例,研究得到的本文模型的視頻整體序列化處理過程如圖1所示。相應地,行為識別的網(wǎng)絡(luò)架構(gòu)可以分為以下4個模塊:提取CNN特征(2.1節(jié));順序驗證(2.2節(jié));學習關(guān)鍵幀(2.3節(jié));最終的行為識別(2.4節(jié))。首先,采用CNN是因其在圖像特征提取方面的成功應用;其次,設(shè)計了一個局部的順序驗證模型,通過對局部順序驗證結(jié)果的分析,計算局部區(qū)間中幀的關(guān)鍵性描述;再者,將局部區(qū)間中幀的關(guān)鍵性描述相結(jié)合,形成整段視頻中幀的關(guān)鍵性描述,并進行關(guān)鍵幀提取;討論截取關(guān)鍵幀的數(shù)目,提取出相應數(shù)目的關(guān)鍵幀;最后,設(shè)計了一種新的基于順序驗證的關(guān)鍵幀提取的行為識別框架來識別人類的行為。
本文模型的主要創(chuàng)新價值在于:
(1)提出了一種新的基于順序驗證的關(guān)鍵幀提取方法,并將其用于視頻的行為識別中。
(2)為了有效估計視頻幀的關(guān)鍵性,設(shè)計了一個順序驗證模塊來驗證局部視頻段中幀之間的順序。將局部視頻段的長度設(shè)置為2個連續(xù)視頻幀,通過對局部順序驗證結(jié)果的分析,計算局部區(qū)間中幀的關(guān)鍵性描述;再者,將每段視頻內(nèi)局部區(qū)間中幀的關(guān)鍵性描述相結(jié)合,形成整段視頻中每一幀的關(guān)鍵性描述,并排序。
(3)為了達到最佳的識別效果,進行了多組對比實驗分析提取關(guān)鍵幀的數(shù)目,最終確定在UCF101上每段視頻提取12個視頻幀,在HMDB51上每段視頻提取10個視頻幀。
2.1 特征提取
識別視頻中的行為往往不需要通過視頻中的所有幀,只需選擇一些幀組成序列來代表這個視頻。因此將一個有L幀的視頻分成16=L/α個非重疊的單元,每個單元包含α個連續(xù)的幀。然后在每個單元中選擇第一幀,組合形成幀序列V={vt},(t=1,2,…,16)。研究中提取這些視頻幀的外觀特征用于行為表達,為此,本文使用在ImageNet數(shù)據(jù)集上預訓練好的ResNet-152模型,對已經(jīng)重新調(diào)節(jié)大小為224×224的RGB圖像序列進行預處理,對于第t幀提取輸入最后一層全連接層之前的結(jié)果作為最終特征:zt,在此基礎(chǔ)上,通過時序SVM網(wǎng)絡(luò)對特征序列進行建模。
2.2 順序驗證
所提出的順序驗證模塊如圖2所示。由圖2可知,該模塊具有3個主要組成部分:二元組采樣;使用時序SVM進行局部區(qū)間順序驗證得到局部區(qū)間內(nèi)視頻幀的關(guān)鍵性描述;將局部區(qū)間內(nèi)視頻幀的關(guān)鍵性描述整合到整段視頻中,得到每個視頻幀最終的關(guān)鍵性描述。對此可做闡釋分述如下 。
3 實驗
本節(jié)中,首先對數(shù)據(jù)集做了整體概述,然后闡述本文的實驗過程及評價標準,最后對實驗結(jié)果進行說明及討論。
3.1 數(shù)據(jù)集
本文方法所用的數(shù)據(jù)集為UCF101[27]和HMDB51[28]。UCF101數(shù)據(jù)集包含13 320個視頻,分為101個類別,使用9 990個視頻用于訓練,剩下的3 330個視頻用于測試。UCF101數(shù)據(jù)集在行為類別方面提供了多樣性,并且在目標外觀和姿態(tài)、背景雜亂、光照條件等方面存在巨大的變化。
HMDB51數(shù)據(jù)集中包含6 849個視頻,共51個行為類別,本文選取4 794個視頻用于訓練,其余的2 055個視頻用于測試。HMDB51數(shù)據(jù)集在物體外觀和人物姿態(tài)等方面變化多樣,具有行為識別研究的挑戰(zhàn)性。
3.2 實驗設(shè)計及評價標準
為了準備訓練特征集合,首先,依次提取各視頻的RGB視頻幀,并將分辨率重新調(diào)整為224×224。其次,使用ImageNet數(shù)據(jù)集上預訓練的ResNet模型,提取外觀特征,具體來說,本文取ResNet輸入最后一層全連接層之前的特征作為LSTM模型的輸入特征,該特征的大小為1×2 048,即LSTM模型的隱狀態(tài)和記憶狀態(tài)的維度為2 048。
本文實驗所采用的PC機配置為Intel Core i7-5960X、CPU 3 GHz×8 cores RAM 8 GB、圖像顯卡為2張NVIDIA GeForce GTX 1080 Ti、Linux16.04操作系統(tǒng)。深度學習框架為Pytorch[29]。訓練時,使用Adam算法,迭代次數(shù)為50,批處理大小為128,學習率初始化為10-3。
本文采用識別正確率,作為行為識別的評價標準,即統(tǒng)計一個類別中的所有視頻的預測標記被識別為真實標記的數(shù)值,與預測視頻總數(shù)的比值,作為該類別的識別正確率;最后使用所有類別正確率的均值,作為本文方法的識別正確率。
3.3 實驗結(jié)果及分析
本文與當前比較先進的行為識別方法進行了對比, 根據(jù)加入關(guān)鍵幀機制與否,可以分為以下2組:
(1)帶有關(guān)鍵幀機制的模型,包括:傳統(tǒng)的雙流CNN模型Two-stream mode[2],使用 CNN 進行還原分辨率隱式運動預測的模型Hidden Two-Stream[13],雙流通道的時間池化模型Beyond Short Snippets Models[5],輕量級的生成器網(wǎng)絡(luò)DMC-Net[16],通過堆疊多個可以同時對外觀和時間關(guān)系進行建模的SMART模塊的ARTNet[15]模型。
(2)帶有關(guān)鍵幀機制的模型,包括挖掘識別關(guān)鍵幀所在視頻段進行行為識別的模型 Key Volume Mining[23],使用深度網(wǎng)絡(luò)獲得的特征經(jīng)過Adaptive Pooling的方法進行關(guān)鍵幀提取的AdaScan[24]行為識別模型。
不同方法的識別性能對比見表1。由表1分析可知,與當前一些優(yōu)秀方法相比,本文方法所得到的識別正確率更高。相比于不帶關(guān)鍵幀機制的方法而言,本文將關(guān)鍵幀提取加入到行為識別中去,在識別的過程中,因為減少了冗余幀,大大提升了識別的效率和準確率;相比于帶關(guān)鍵幀的模型,本文先是精確定位到具有判別性的幀,相較于Key Volume Mining方法定位到關(guān)鍵幀所在視頻段更為精確,再者較AdaScan采用pooling的方式對視頻幀的關(guān)鍵性進行判定從而在測試過程中舍去冗余幀,本文既考慮前后幀之間的時序關(guān)系采用一種新的方法來判別幀的關(guān)鍵性,又通過LSTM的結(jié)構(gòu)將視頻中新的時序關(guān)系加以整合,顯著提升了識別正確率。為了更進一步證明本文加入關(guān)鍵幀機制對行為識別貢獻顯著,本文在UCF101和HMDB51兩個數(shù)據(jù)集上進行了消融實驗,結(jié)果見表2。
通過表2可以看到:
(1)本文提出的關(guān)鍵幀機制在UCF101數(shù)據(jù)集上,隨著從初始的16幀按照關(guān)鍵性描述由低到高逐一去除冗余幀,識別正確率一路上升,直到去除4幀時達到最高的識別正確率95.40%,此后繼續(xù)去除則造成識別正確率下降,所以提取12個關(guān)鍵幀能達到最佳的識別效果;同理,在HMDB51數(shù)據(jù)集上,提取10個關(guān)鍵幀能達到最佳的識別效果。
(2)在UCF101和HMDB51兩個數(shù)據(jù)集中,本文提出的加入關(guān)鍵幀機制的行為識別模型的行為識別正確率全面優(yōu)于無關(guān)鍵幀機制的行為識別模型,UCF101上提升了4.2%,HMDB51上提升了5.1%。由此說明本文所提出的關(guān)鍵幀機制可以有效地提取有辨別性的特征,從而可以增強行為的表達。
2.2節(jié)中學習到了視頻中每一幀的關(guān)鍵性描述,接著就是要進行關(guān)鍵幀提取,本次研究用實例圖來表現(xiàn)關(guān)鍵幀提取的結(jié)果,如圖3所示。在UCF101和HMDB51數(shù)據(jù)集中,分別隨機選取代表3種行為的視頻,觀察其幀序列中每一幀的關(guān)鍵性描述,進而了解提取關(guān)鍵幀的過程。圖3(a)上、中、下三組分別表示的行為是“Baseball Pitch”、“High Jump”和“Balance Beam”,圖3(b)上、中、下三組分別表示的行為是“Throw”、“Kick Ball”和 “Golf ”。每組圖片中,第一行表示原始視頻幀序列;第二行表示視頻幀對應的歸一化之后的關(guān)鍵性描述,數(shù)字越大,代表這一幀關(guān)鍵程度越高;第三行嘗試去除關(guān)鍵性最低四幀后重新組合的視頻幀序列,即提取出的關(guān)鍵幀序列。
分析圖3可以看出,前后兩幀幾乎沒有變化的動作幀,關(guān)鍵程度都比較低,進而本文的模型會抓取對判別該行為貢獻較大的幀、即關(guān)鍵程度較高的幀,更加體現(xiàn)本文模型的判別能力。
4 結(jié)束語
針對現(xiàn)有基于視頻整體結(jié)構(gòu)建模的行為識別方法,無法有效區(qū)分關(guān)鍵幀與冗余幀,造成行為表達效率低下,行為識別準確率不高的問題,本文提出了一種基于順序驗證提取關(guān)鍵幀的行為識別模型。通過在UCF101和HMDB51兩個公認數(shù)據(jù)集上進行實驗驗證,可以證明本文的順序驗證模塊能夠識別關(guān)鍵幀,提高了行為表達的判決能力。在UCF101和HMDB51兩個公認數(shù)據(jù)集上進行實驗驗證,與現(xiàn)有多種優(yōu)秀的行為識別方法進行比較。實驗結(jié)果表明,本文方法優(yōu)于現(xiàn)有大部分行為識別方法。未來可以預期的是,本文的方法可以應用于更加復雜的視頻場景中,如大型監(jiān)控場景下的視頻理解,異常檢測等,將有助于維護公共安全等領(lǐng)域。
參考文獻
[1] POPPE R. A survey on vision-based human action recognition[J]. Image and Vision Computing, 2010, 28(6): 976.
[2]SIMONYAN K , ZISSERMAN A. Two-stream convolutional networks for action recognition in videos[J]. Computational Linguistics, 2014, 1(4):568.
[3]ZHU Yi , LAN Zhenzhong, NEWSAM S , et al. Hidden two-stream convolutional networks for action recognition[J]. arXiv preprint arXiv:1704.00389, 2017.
[4]JI S, XU W, YANG M, et al. 3D convolutional neural networks for human action recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 35(1): 221.
[5]KULHARE S, SAH S, PILLAI S, et al. Key frame extraction for salient activity recognition[C]//2016 23rd International Conference on Pattern Recognition (ICPR). Cancun,Mexico:IEEE, 2016: 835.
[6]LOWE D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91.
[7]GUAN Genliang, WANG Zhiyong, LU Shiyang, et al. Keypoint-based keyframe selection[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2012, 23(4): 729.
[8]ZHUANG Y, RUI Y, HUANG T S, et al. Adaptive key frame extraction using unsupervised clustering[C]//Proceedings of International Conference on Image Processing. ICIP98 (Cat. No. 98CB36269). Washington DC,USA:IEEE, 1998, 1: 866.
[9]VZQUEZ-MARTN R, BANDERA A. Spatio-temporal feature-based keyframe detection from video shots using spectral clustering[J]. Pattern Recognition Letters, 2013, 34(7): 770.
[10]MAHASSENI B, LAM M, TODOROVIC S. Unsupervised video summarization with adversarial LSTM networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu,HI:IEEE, 2017: 202.
[23]ZHU W, HU J, SUN G, et al. A key volume mining deep framework for action recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. San Francisco, CA, USA:IEEE,2016: 1991.
[24]KAR A, RAI N, SIKKA K, et al. Adascan: Adaptive scan pooling in deep convolutional neural networks for human action recognition in videos[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu,HI, USA:IEEE,2017: 3376.
[25]MISRA I , ZITNICK C L , HEBERT M . Shuffle and learn: Unsupervised learning using temporal order verification[C]//14th European Conference on Computer Vision(ECCV). Amsterdam, The Netherlands:dblp ,2016:524.
[26]LEE H Y , HUANG J B , SINGH M K, et al. Unsupervised representation learning by sorting sequences[C]//IEEE International Conference on ComputerVision (ICCV). Venice, Italy:IEEE,2017:1.
[27]SOOMRO K, ZAMIR A R, SHAH M. UCF101: A dataset of 101 human actions classes from videos in the wild[J]. arXiv preprint arXiv:1212.0402, 2012.
[28]KUEHNE H, JHUANG H, GARROTE E, et al. HMDB: a large video database for human motion recognition[C]//2011 IEEE International Conference on Computer Vision(ICCV). Barcelona, Spain:IEEE, 2011: 2556.
[29]PASZKE A, GROSS S, MASSA F, et al. PyTorch: An imperative style, high-performance deep learning library[C]//33rd Conference on Neural Information Processing System(NeurIPS 2019). Vancouver, Canada: NIPS, 2019: 8024.