高文靜,琚行松
基于無(wú)監(jiān)督學(xué)習(xí)的視頻中人體動(dòng)作識(shí)別綜述
高文靜,琚行松
(唐山師范學(xué)院 信息技術(shù)中心,河北 唐山 063000)
對(duì)視頻中無(wú)監(jiān)督的人體動(dòng)作識(shí)別方法進(jìn)行了綜述?;诰垲?lèi)和基于降維的傳統(tǒng)無(wú)監(jiān)督學(xué)習(xí)識(shí)別算法,對(duì)前期動(dòng)作特征的設(shè)計(jì)和提取有較高的依賴(lài)及敏感性;基于卷積神經(jīng)網(wǎng)絡(luò)和基于遞歸神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)無(wú)監(jiān)督識(shí)別方法能夠自動(dòng)提取動(dòng)作特征,因而彌補(bǔ)了傳統(tǒng)方法手工提取特征的不足,但也帶來(lái)了新挑戰(zhàn)。
動(dòng)作識(shí)別;無(wú)監(jiān)督學(xué)習(xí);聚類(lèi);降維;深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);遞歸神經(jīng)網(wǎng)絡(luò)
視頻中的人體動(dòng)作識(shí)別已經(jīng)成為計(jì)算機(jī)視覺(jué)領(lǐng)域研究的熱點(diǎn)并廣泛應(yīng)用于視頻監(jiān)控、人機(jī)交互、自動(dòng)標(biāo)簽、賽事分析等多個(gè)領(lǐng)域[1,2]。然而,通過(guò)對(duì)視頻幀的處理,檢測(cè)跟蹤人體肢體動(dòng)作,建立視頻數(shù)據(jù)與實(shí)際動(dòng)作間的聯(lián)系,從而使得機(jī)器像人類(lèi)一樣理解視頻并給出分類(lèi)結(jié)果,仍然是一項(xiàng)重大的挑戰(zhàn)。
根據(jù)識(shí)別過(guò)程中是否對(duì)樣本加注標(biāo)簽可將人體動(dòng)作識(shí)別方法主要分為有監(jiān)督的(supervised)和無(wú)監(jiān)督的(unsupervised)動(dòng)作識(shí)別方法,如圖1所示。有監(jiān)督的動(dòng)作識(shí)別方法首先需要將樣本集中所有樣本加注分類(lèi)標(biāo)簽。將樣本集分為訓(xùn)練樣本子集1(對(duì)應(yīng)標(biāo)簽集(1))與測(cè)試樣本子集2(對(duì)應(yīng)標(biāo)簽集(2))。()為分類(lèi)算法對(duì)應(yīng)的輸出。分類(lèi)過(guò)程分為訓(xùn)練過(guò)程和測(cè)試過(guò)程。訓(xùn)練過(guò)程的目標(biāo)是找到使得(1)與(1)不同的次數(shù)最少的損失函數(shù)。然后,在測(cè)試過(guò)程中利用訓(xùn)練過(guò)程找到的損失函數(shù),測(cè)試(2)與(2)間的差距[4-7]。
圖1 有監(jiān)督與無(wú)監(jiān)督圖示[3]
有監(jiān)督的動(dòng)作識(shí)別方法需要在早期對(duì)訓(xùn)練集創(chuàng)建標(biāo)簽進(jìn)行預(yù)訓(xùn)練,需要消耗大量的人力進(jìn)行手工標(biāo)簽。但是,在現(xiàn)實(shí)的分類(lèi)問(wèn)題中,創(chuàng)建帶標(biāo)簽的訓(xùn)練數(shù)據(jù)集并不可行,而且對(duì)特定樣本的訓(xùn)練過(guò)程難以推廣到實(shí)際通用的環(huán)境中,因此,越來(lái)越多的研究轉(zhuǎn)向不加標(biāo)簽的樣本數(shù)據(jù)識(shí)別,稱(chēng)為無(wú)監(jiān)督的動(dòng)作識(shí)別方法[8-12]。
無(wú)監(jiān)督學(xué)習(xí)是以無(wú)標(biāo)簽的樣本數(shù)據(jù)集
={1,2,3, …,n}
為研究對(duì)象,學(xué)習(xí)樣本數(shù)據(jù)內(nèi)部的潛在規(guī)律和結(jié)構(gòu)信息,比如人體動(dòng)作,并獲得相應(yīng)的輸出
()=[(1),(X),(3), …,(n)],
進(jìn)而依據(jù)輸出信息把無(wú)標(biāo)簽樣本數(shù)據(jù)信息劃分到不同類(lèi)別的簇、生成輸入數(shù)據(jù)的高維樣本數(shù)據(jù)的低維結(jié)構(gòu),或者直接輸出分類(lèi)結(jié)果。最后,將輸出結(jié)果與真實(shí)情況比較得到算法的精確度。
動(dòng)作特征是視頻中描述人體動(dòng)作、反映運(yùn)動(dòng)信息的重要部分[13]。根據(jù)是否手工設(shè)計(jì)動(dòng)作特征可將無(wú)監(jiān)督的動(dòng)作識(shí)別算法分為傳統(tǒng)的動(dòng)作識(shí)別方法與基于深度學(xué)習(xí)的動(dòng)作識(shí)別方法。如圖2所示。
圖2 無(wú)監(jiān)督動(dòng)作識(shí)別方法分類(lèi)
傳統(tǒng)的人體動(dòng)作識(shí)別方法首先需要手工設(shè)計(jì)并提取動(dòng)作特征,之后基于提取的動(dòng)作特征進(jìn)行動(dòng)作識(shí)別或分類(lèi)[14]。廣泛采用的動(dòng)作特征主要分為全局特征和局部特征。全局特征主要通過(guò)計(jì)算視頻幀的運(yùn)動(dòng)能量圖(motion energy image,MEI)、運(yùn)動(dòng)歷史圖(motion history image,MHI)提取動(dòng)作模板特征;局部特征是通過(guò)對(duì)人體發(fā)生運(yùn)動(dòng)的部位進(jìn)行跟蹤,計(jì)算局部區(qū)域的亮度梯度(gradient of brightness)、梯度直方圖(histogram of gradient,HOG)、光流直方圖(histogram of optical flow,HOF)、運(yùn)動(dòng)邊界直方圖(motion boundary histo- gram,MBH)等,提取時(shí)空關(guān)鍵點(diǎn)特征、運(yùn)動(dòng)部位的軌跡特征。還有一些算法通過(guò)計(jì)算視頻幀的局部二值模式(local binary pattern,LBP)提取圖像紋理等外觀(guān)特征[15]。在得到相應(yīng)動(dòng)作特征后主要采用聚類(lèi)或降維的方法對(duì)特征進(jìn)行處理或建模,進(jìn)而得到分類(lèi)結(jié)果。
2.1.1 基于聚類(lèi)
聚類(lèi)算法是在提取到樣本的動(dòng)作特征后,計(jì)算樣本特征的距離(通常計(jì)算歐氏距離)。將距離最近的樣本特征劃分到相同的類(lèi)別中,從而得到分類(lèi)結(jié)果[16]。
圖3 聚類(lèi)算法一般流程[16]
Lui[17]和Niebles[18]在提取到時(shí)空關(guān)鍵點(diǎn)組成的時(shí)空立方體的亮度梯度特征后,將視頻表示成張量,再把張量映射成Grassmann乘積流形上的一點(diǎn),如圖4中的圓點(diǎn)。然后通過(guò)計(jì)算流形上兩個(gè)點(diǎn)之間的測(cè)地距離進(jìn)行聚類(lèi)從而實(shí)現(xiàn)動(dòng)作分類(lèi)。
圖4 乘積流形距離[17]
Nater[19]通過(guò)采用自頂向下的層次聚類(lèi)(hier- archical cluster,HC)對(duì)人體動(dòng)作進(jìn)行分類(lèi)識(shí)別。首先提取到樣本局部時(shí)空特征后,將所有的樣本都置于同一個(gè)動(dòng)作類(lèi)中,然后不斷迭代計(jì)算不同樣本特征的距離。在每次迭代中,一個(gè)動(dòng)作類(lèi)被分裂為更小的動(dòng)作類(lèi),直到每個(gè)視頻樣本被歸入相應(yīng)的某種單獨(dú)類(lèi)中,最終得到分類(lèi)結(jié)果。如圖5所示。
在一個(gè)完全無(wú)監(jiān)督學(xué)習(xí)的環(huán)境中,動(dòng)作的類(lèi)別數(shù)是未知的,層次聚類(lèi)不需要在開(kāi)始設(shè)定類(lèi)別的個(gè)數(shù),因而更符合實(shí)際情況。
圖5 在不同層C(i)上的聚類(lèi)結(jié)果[19]
2.1.2 基于降維
廣泛使用的基于降維思想的動(dòng)作識(shí)別方法主要有主成分分析法(principal component analysis,PCA)。PCA方法首先將樣本的特征矩陣投影到一個(gè)超平面;然后選取方差盡可能大的、相互正交的、互不相關(guān)的特征作為樣本的主成分,使樣本的特征矩陣在超平面上的投影盡可能分散,從而實(shí)現(xiàn)分類(lèi)。通過(guò)映射得到樣本主成分特征,既消除了冗余的樣本特征數(shù)據(jù),又盡可能多地保留了樣本原始特征數(shù)據(jù)。
圖6 PCA降維[20]
劉志強(qiáng)等人[21]借助kinect傳感器提取到人體骨骼關(guān)鍵點(diǎn)的動(dòng)作特征后,采用PCA對(duì)特征進(jìn)行過(guò)濾重組,并采用了兩種協(xié)方差矩陣構(gòu)造方法進(jìn)行主成分分析。呂想[22]跟蹤人體運(yùn)動(dòng)曲線(xiàn),提取手、腳、軀體輪廓的光流特征,然后將收集到的特征通過(guò)PCA進(jìn)行降維得到特征矩陣。
傳統(tǒng)的無(wú)監(jiān)督動(dòng)作識(shí)別方法,在手工提取特征階段存在設(shè)計(jì)失誤和嚴(yán)重耗時(shí)等現(xiàn)象,降低了動(dòng)作識(shí)別的準(zhǔn)確率和時(shí)效性?;谏疃葘W(xué)習(xí)的動(dòng)作識(shí)別使用深度網(wǎng)絡(luò)從原始視頻中自動(dòng)學(xué)習(xí)特征并輸出分類(lèi)結(jié)果,是一種端到端的方法,具有更強(qiáng)的魯棒性。根據(jù)學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)的不同,無(wú)監(jiān)督的深度學(xué)習(xí)動(dòng)作識(shí)別方法主要分為基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)的動(dòng)作識(shí)別和基于遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN)的動(dòng)作識(shí)別。
2.2.1 基于卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)是一種前饋人工神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)對(duì)特征學(xué)習(xí)的過(guò)程是從數(shù)據(jù)的底層開(kāi)始,向頂層逐層訓(xùn)練參數(shù),整個(gè)過(guò)程是無(wú)監(jiān)督的[8-12]。在學(xué)習(xí)過(guò)程中,首先以無(wú)標(biāo)記的數(shù)據(jù)訓(xùn)練第一層的參數(shù)。根據(jù)模型的容量限制和稀疏性約束條件,模型學(xué)習(xí)到數(shù)據(jù)的自身結(jié)構(gòu),得到數(shù)據(jù)更具表征的特征。然后,將下一層的輸出作為上一層的輸入,再進(jìn)行訓(xùn)練得到每層參數(shù)。在第層的第個(gè)特征的映射(,)的計(jì)算如式(1)[23]:
式中,是一個(gè)非線(xiàn)性的激活函數(shù),是權(quán)重矩陣,和是卷積核的高和寬。
以上工作沒(méi)有利用視頻中的時(shí)間信息,而一些動(dòng)作是能夠通過(guò)時(shí)間信息來(lái)重點(diǎn)區(qū)分的,例如行走和跑步?,F(xiàn)有兩種方式可以引入時(shí)間信息。
2.2.1.1 3D CNN
Kim等人[24-26]通過(guò)3D CNN引入時(shí)間信息:
式中,、、和與式(1)相同,是卷積核內(nèi)核的時(shí)間長(zhǎng)度。
Tran等人[27]在前者的基礎(chǔ)上提出了一種基于線(xiàn)性分類(lèi)器的C3D方法(convolutional 3D),其網(wǎng)絡(luò)由5個(gè)卷積層、5個(gè)最大池化層、2個(gè)全連接層和1個(gè)softmax損失層組成。為了進(jìn)一步提高三維卷積網(wǎng)絡(luò)的泛化能力,Qiu 等人[28]提出了另一種構(gòu)建深度三維卷積網(wǎng)絡(luò)的方法——偽三維殘差網(wǎng)(pseudo-3D residual net,P3D ResNet),使用一個(gè)1×3×3卷積層和一個(gè)3×1×1卷積層的組合來(lái)代替標(biāo)準(zhǔn)的3D 卷積。
3D CNN通??紤]比較短的時(shí)間間隔,因此無(wú)法捕獲長(zhǎng)期的時(shí)間信息。
2.2.1.2 基于雙流CNN
Simonyan[29]等人為引入時(shí)間信息,提出了基于CNN的空間流與時(shí)間流的雙流模型進(jìn)行動(dòng)作識(shí)別,如圖7所示??臻g流采用CNN獲取視頻中所描述的場(chǎng)景和對(duì)象的信息,時(shí)間流以跨幀的運(yùn)動(dòng)形式獲取觀(guān)察者(相機(jī))和物體運(yùn)動(dòng)的時(shí)間信息。得到兩種特征后,將兩種流的softmax得分進(jìn)行融合,得到最終識(shí)別結(jié)果。
圖7 動(dòng)作識(shí)別的雙流結(jié)構(gòu)[29]
Wang[30]在此基礎(chǔ)上采用GoogleNet和VGG- 16深度CNN 結(jié)構(gòu),設(shè)計(jì)了一個(gè)非常深的雙流模型,同時(shí)在訓(xùn)練時(shí)做了一些改進(jìn),包括對(duì)兩個(gè)流都進(jìn)行預(yù)訓(xùn)練,使用更小的學(xué)習(xí)率,更多數(shù)據(jù)增強(qiáng)和高的丟棄(dropout)率。為了最大化利用雙流模型中的時(shí)空信息,F(xiàn)eichtenhofer[31]等人在研究了多種時(shí)空流的融合方法后,提出了一種改進(jìn)的雙流模型。該模型在兩個(gè)流之間引入了一種新的卷積融合層和一個(gè)包含了3D 卷積和3D池化的新型時(shí)間融合層,得到了更好的識(shí)別效果。
2.2.2 基于遞歸神經(jīng)網(wǎng)絡(luò)
視頻樣本包含很多幀,并不是所有幀對(duì)動(dòng)作識(shí)別都能起到正向激勵(lì)作用。如果將視頻中的所有幀加入計(jì)算會(huì)增加成本,而且可能降低識(shí)別的性能。RNN選擇性地關(guān)注每一幀的輸入動(dòng)作,并對(duì)不同幀的輸出給予不同程度的關(guān)注,同時(shí)提取視頻幀序列的上下文語(yǔ)義信息。因此RNN對(duì)高層時(shí)空特征序列的建模效果更好[32,33]。
Du[34]等人將人體分為左右上肢、軀干、左右下肢5個(gè)部分,并分別將此5個(gè)部分輸入到5個(gè)RNN子網(wǎng)中。在第一層中提取到5種動(dòng)作特征后,將驅(qū)干子網(wǎng)的動(dòng)作特征與其他4種子網(wǎng)進(jìn)行融合變成4種特征,然后將此4種特征輸入到4個(gè)RNN子網(wǎng)中進(jìn)行第二次特征提取。一直到子網(wǎng)提取的特征融合了全部人體的5個(gè)部分,最后輸入一個(gè)RNN網(wǎng)絡(luò)中,得到識(shí)別結(jié)果,如圖8所示。該方法克服了背景、遮擋等干擾,將注意力集中于發(fā)生動(dòng)作的人體,并分別從人體局部到人體整體的動(dòng)作特征分別給予關(guān)注,從而有效減少了對(duì)分類(lèi)結(jié)果的干擾。
圖8 分層子網(wǎng)融合遞歸神經(jīng)網(wǎng)絡(luò)識(shí)別[34]
Sharma等人[35]將注意力機(jī)制融合到RNN,提出了長(zhǎng)短期記憶單元(long short term memory,LSTM)。LSTM具有較深的空間和時(shí)間架構(gòu)。Sharma創(chuàng)建的模型有選擇地聚焦于視頻幀中存在運(yùn)動(dòng)的部分,學(xué)習(xí)與當(dāng)前任務(wù)相關(guān)的視頻幀,并對(duì)這些幀給予更高的重視,在注意幾次后對(duì)視頻進(jìn)行分類(lèi)。李等人[36]引入VideoLSTM,將注意力機(jī)制應(yīng)用于卷積模型以發(fā)現(xiàn)相關(guān)的時(shí)空體。除此之外,VideoLSTM還采用了從光流圖像中獲得基于運(yùn)動(dòng)的注意力,以更好地定位動(dòng)作。
視頻中的人體動(dòng)作識(shí)別是計(jì)算機(jī)視覺(jué)中十分重要的研究領(lǐng)域,具有廣泛的應(yīng)用前景。本文通過(guò)是否手工設(shè)計(jì)特征對(duì)無(wú)監(jiān)督的視頻中人體動(dòng)作識(shí)別的傳統(tǒng)方法和基于深度學(xué)習(xí)的方法進(jìn)行了討論。最新的發(fā)展已經(jīng)證明深度學(xué)習(xí)對(duì)于無(wú)監(jiān)督的視頻中人體動(dòng)作識(shí)別的有效性?,F(xiàn)有的深度模型方法然雖然取得了很好的成果,但依然面臨諸多挑戰(zhàn),仍有很多技術(shù)難關(guān)需要攻克。例如,視頻數(shù)據(jù)包含豐富的空間、時(shí)間和聲音信息,深度模型的進(jìn)一步發(fā)展需要充分利用這些不同維度的信息,以更好地完成視頻識(shí)別的任務(wù)。
[1] Wang Z, She Q, Smolic A. ACTION-Net: Multipath Excita- tion for Action Recognition[EB/OL]. [2021-06-05]. https:// arxiv.org/abs/2103.07372, 2021: 13209- 13218.
[2] Nagrani A, Chen S, Ross D, et al. Speech2Action: Cross- modal Supervision for Action Recognition[C]// Pro- ceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, IEEE, 2020: 10314-10323.
[3] Schmarje L, Santarossa M, Schrder S M, et al. A survey on Semi-, Self- and Unsupervised Learning in Image Classifi- cation[J]. IEEE Access, 2021, 9: 82146- 82168.
[4] Bobick A, Davis J. An appearance-based representation of action[C]// Intl. Conf. on Pattern Recognition, 1996: 307- 312.
[5] C Yu, H Cheng, C Cheng, et al. Efficient Human Action and Gait Analysis Using Multiresolution Motion Energy Histo- gram[J]. EURASIP Journal on Advances in Signal Process- ing, 2010.
[6] Marszalek M, Laptev I, Schmid C. Actions in context[C] // IEEE Conference on Computer Vision and Pattern Reco- gnition, IEEE, 2009.
[7] Wang H, Yuan C, Hu W, et al. Supervised class-specific dictionary learning for sparse modeling in action recog- nition[J]. Pattern Recognition, 2012, 45(11): 3902-3911.
[8] Jain M, van Gemert J, Snoek C G M. University of Amsterdam at THUMOS challenge 2014[C]// THUMOS Challenge: Notebook Papers, 2014.
[9] Oneata D, Verbeek J, Schmid C. The LEAR submission at Thumos 2014[C]// Proc. ECCV THUMOS Challenge Workshop, 2014: 4-10.
[10] Wang L, Yu Q, Tang X. Action Recognition and Detection by Combining Motion and Appearance Features[C]// THUMOS’14 Action Recognition Challenge, 2014: 1-6.
[11] S Karaman, L Seidenari, A Bimbo. Fast saliency based pooling of Fisher encoded dense trajectories[C]// THUMOS’14 Action Recognition Challenge, 2014.
[12] Jain M, Gemert J, Snoek C. What do 15, 000 object categories tell us about classifying and localizing actions? [C]// IEEE Conference on Computer Vision and Pattern Recognition, 2015: 46-55.
[13] 李亞瑋.視頻動(dòng)作識(shí)別中關(guān)于運(yùn)動(dòng)特征的研究[D].南京:東南大學(xué),2018:8.
[14] 黃位.基于多特征融合的人體動(dòng)作識(shí)別[D].西安:西北大學(xué),2021:15.
[15] Zhu Fan, Ling Shao, Jin Xie, et al. From handcrafted to learned representations for human action recognition: A survey. [J]. Image and Visionuting, 2016, 55(2): 42-52.
[16] Xu R, Wunsch Donald. Survey of Clustering Algori- thms[J]. IEEE Transactions on Neural Networks, 2005, 16(3): 645-678.
[17] Lui Y M, Beveridge J R, Kirby M. Action classification on product manifolds[C]// 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, CA: IEEE, 2010.
[18] Niebles J C, Wang H, Fei-Fei L. Unsupervised Learning of Human Action Categories Using Spatial-Temporal Words [J]. International Journal of Computer Vision, 2008, 79(3): 299-318.
[19] Nater F, Gr Ab Ner H, Gool L V. Exploiting simple hierarchies for unsupervised human behavior analysis [C] // 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, CA: IEEE, 2010.
[20] Muktabh Mayank. Ten Machine Learning Algorithms, You Should Know to Become a Data Scientis[EB/OL]. [2021- 06-05]. https://www.kdnuggets.com/2018/04/10-machine- learning-algorithms-data-scientist.html.
[21] 劉志強(qiáng),尹建芹,張玲,等.基于Kinect數(shù)據(jù)主成分分析的人體動(dòng)作識(shí)別[C]//2015光學(xué)精密工程論壇論文集, 長(zhǎng)春:中科院長(zhǎng)春光機(jī)所,2015.
[22] 呂想.基于運(yùn)動(dòng)曲線(xiàn)的主成分分析方法的人類(lèi)行為識(shí)別研究[D].長(zhǎng)春:吉林大學(xué),2013.
[23] Yao G, Lei T, Zhong J. A Review of Convolutional Neural Network Based Action Recognition[J]. Pattern Recog- nition Letters, 2018, 118(FEB.): 14-22.
[24] H Kim, J Lee, H Yang. Human action recognition using a modified convolutional neural network[C]// International Symposium on Advances in Neural Networks, Berlin: Springer-Verlag, 2007: 715-723.
[25] M Baccouche, F Mamalet, C Wolf, et al. Sequential deep learning for human action recognition[C]// Inter- national Conference on Human Behavior Under- standing, 2011: 29-39.
[26] S Ji, W Xu, M Yang, et al. 3D convolutional neural networks for human action recognition[C]// Interna- tional Conference on Machine Learing, 2010: 495-502.
[27] Tran D, Bourdev L, Fergus R, et al. Learning spatio- temporal features with 3D convolutional networks[C]// 15th IEEE International Conference on Computer Vision, 2015: 4489-4497.
[28] Qiu Z, Yao T, Mei T. Learning spatio-temporal represen- tation with pseudo-3d residual networks[C]// 17th IEEE International Conference on Computer Vision, 2017: 5534-5542.
[29] Simonyan K, Zisserman A. Two-Stream Convolutional Networks for Action Recognition in Videos[C]// Advan- ces in neural information processing systems, 2014: 568- 576.
[30] Wang L, Qiao Y, Tang X. Action Recognition with Trajectory-Pooled Deep-Convolutional Descriptors [C]// Proceedings of the IEEE Computer Society Con- ference on Computer Vision and Pattern Recognition, 2015: 4305-4314.
[31] Feichtenhofer C, Pinz A, Zisserman A. Convolutional Two-Stream Network Fusion for Video Action Recog- nition[C]// Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recog- nition, 2016: 1933-1941.
[32] Wang X, Miao Z, Zhang R, et al. I3D-LSTM: A New Model for Human Action Recognition[C]// IOP Con- ference Series: Materials Science and Engineering, 2019: 569-571.
[33] Song S, Lan C, Xing J, et al. An End-to-End Spatio- Temporal Attention Model for Human Action Recog- nition from Skeleton Data[C]// 31st AAAI Conference on Artificial Intelligence, AAAI, 2017: 4263-4270.
[34] Du Y, Wang W, Wang L. Hierarchical recurrent neural net- work for skeleton based action recognition[C]// Proceed- ings of the IEEE Computer Society Conference on Com- puter Vision and Pattern Recognition, 2015: 1110- 1118.
[35] Sharma S, Kiros R, Salakhutdinov R. Action Recog- nition using Visual Attention[C]// Neural Information Process- ing Systems: Time Series Workshop, 2015.
[36] Li Z, Gavrilyuk K, Gavves E, et al. Video LSTM convolves, attends and flows for action recognition[J]. Computer Vision and Image Understanding, 2018, 166: 41-50.
[37] Hassner Tal. A Critical Review of Action Recognition Benchmarks[C]// IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops, 2013: 245-250.
A Summary of Human Action Recognition in Video Based on Unsupervised Learning
GAO Wen-jing, JU Xing-song
(Information and Technique Center, Tangshan Normal University, Tangshan 063000, China)
The unsupervised recognition algorithms of human actions in video were summarized. The traditional unsupervised action recognition algorithms including clustering algorithm and dimension reduction algorithm have high dependence and sensitivity on the design and extraction of early action features. The unsupervised deep learning action recognition algorithms including the ones based on convolution neural network and the ones based on recurrent neural network can automatically extract action features, which makes up for the deficiency of manual feature extraction in traditional algorithms, but new challenges are brought about.
action recognition; unsupervised learning; clustering; deep learning; demonsion reduction; convolution neural network; recurrent neural network
TP391
A
1009-9115(2021)06-0057-06
10.3969/j.issn.1009-9115.2021.06.015
唐山師范學(xué)院科學(xué)研究基金項(xiàng)目(2021B36)
2021-07-29
2021-10-25
高文靜(1988-),女,河北唐山人,碩士,講師,研究方向?yàn)槿斯ぶ悄?、網(wǎng)絡(luò)。
(責(zé)任編輯、校對(duì):田敬軍)