• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      人體運動視頻關(guān)鍵幀優(yōu)化及行為識別

      2018-07-12 06:32:02宣士斌
      圖學(xué)學(xué)報 2018年3期
      關(guān)鍵詞:關(guān)節(jié)點關(guān)鍵幀聚類

      趙 洪,宣士斌

      ?

      人體運動視頻關(guān)鍵幀優(yōu)化及行為識別

      趙 洪,宣士斌

      (廣西民族大學(xué)信息科學(xué)與工程學(xué)院,廣西 南寧 530006)

      在行為識別過程中,提取視頻關(guān)鍵幀可以有效減少視頻索引的數(shù)據(jù)量,從而提高動作識別的準(zhǔn)確性和實時性。為提高關(guān)鍵幀的代表性,提出一種關(guān)鍵幀序列優(yōu)化方法,并在此基礎(chǔ)上進(jìn)行行為識別。首先根據(jù)3D人體骨架特征利用K-均值聚類算法提取人體運動視頻序列中的關(guān)鍵幀,然后根據(jù)關(guān)鍵幀所在序列中的位置進(jìn)行二次優(yōu)化以提取最優(yōu)關(guān)鍵幀,解決了傳統(tǒng)方法中關(guān)鍵幀序列冗余等問題。最后根據(jù)最優(yōu)關(guān)鍵幀利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)分類器對行為視頻進(jìn)行識別。在Florence3D-Action數(shù)據(jù)庫上的實驗結(jié)果表明,該方法具有較高的識別率,并且與傳統(tǒng)方法相比大幅度縮短了識別時間。

      行為識別;關(guān)鍵幀;K-均值;卷積神經(jīng)網(wǎng)絡(luò)

      人體行為識別是近年來計算機(jī)視覺領(lǐng)域的一個研究熱點,廣泛應(yīng)用于人機(jī)智能交互、視屏監(jiān)控、虛擬現(xiàn)實等領(lǐng)域[1]。隨著多媒體技術(shù)和網(wǎng)絡(luò)信息的飛速發(fā)展,視頻數(shù)據(jù)大量充斥在我們周邊,如何在規(guī)定的時間內(nèi)從大量視頻數(shù)據(jù)中檢索出有效的、關(guān)鍵的信息進(jìn)行應(yīng)用是當(dāng)前一個急需解決的關(guān)鍵問題。關(guān)鍵幀則是反映鏡頭主要內(nèi)容的一幀或者若干幀圖像,不僅可以簡單、概括的描述視頻主要視覺內(nèi)容,而且相比于原始視頻中所含圖像幀的數(shù)目,關(guān)鍵幀的使用可以大幅度減少視頻索引的數(shù)據(jù)量,為后期的應(yīng)用提供了很好的數(shù)據(jù)預(yù)處理作用。目前,關(guān)鍵幀提取技術(shù)主要包括以下4類:①基于鏡頭邊界法[2]。該方法通常提取鏡頭固定位置上的幀作為關(guān)鍵幀,例如首幀、中間幀或尾幀。此類方法簡單易行,但提取的關(guān)鍵幀有時因為視頻數(shù)據(jù)的類型不能很好地反映鏡頭內(nèi)容。②基于視覺內(nèi)容分析法[3-4]。該方法將視頻內(nèi)容變化程度作為選擇關(guān)鍵幀的標(biāo)準(zhǔn),但當(dāng)有鏡頭運動時,此類方法容易選取過多的關(guān)鍵幀,造成數(shù)據(jù)冗余并且所提關(guān)鍵幀不一定具有代表性。③基于運動分析法[5-6]。該方法通過計算鏡頭中的運動量,在運動量達(dá)到局部最小值處選取關(guān)鍵幀,該方法能很好地表達(dá)視頻內(nèi)的全局性運動,但計算量較大,耗時較長。④基于聚類的方法[7-9]。該方法在預(yù)先設(shè)定好聚類數(shù)目的前提下提取的關(guān)鍵幀能夠很好地表達(dá)視頻主要內(nèi)容,提取關(guān)鍵幀的數(shù)量也可以根據(jù)視頻內(nèi)容和種類來動態(tài)確定,此類方法已經(jīng)成為目前主流的關(guān)鍵幀提取方法。但這些方法提取的關(guān)鍵幀往往存在大量冗余,為此本文在由K-均值聚類的方法提取的初始視頻關(guān)鍵幀的基礎(chǔ)上,提取距離每個聚類中心最近的幀作為關(guān)鍵幀,構(gòu)造初始關(guān)鍵幀序列然后根據(jù)關(guān)鍵幀幀間位置對初始關(guān)鍵幀序列進(jìn)行二次優(yōu)化,提高關(guān)鍵幀質(zhì)量,消減冗余信息構(gòu)建最優(yōu)關(guān)鍵幀序列,最后利用CNN在Florence3D-Action數(shù)據(jù)庫上進(jìn)行識別實驗。

      1 運動特征表示

      在人體行為識別中,利用Kinect獲取3D骨架信息,可以有效避免物體遮擋或者重疊問題,并很好地適應(yīng)環(huán)境的變化,具有很好的魯棒性。而在實際運動中,人體主要部位的骨骼運動對動作識別結(jié)果起到?jīng)Q定性的作用,細(xì)節(jié)骨骼運動對人體的整體運動起到的影響有限,因此,采用文獻(xiàn)[10]中的15個主要關(guān)節(jié)點的骨架模型,骨架表示及關(guān)節(jié)點索引如圖1所示。選取髖關(guān)節(jié)(點)為根節(jié)點即局部坐標(biāo)系原點,將關(guān)節(jié)點坐標(biāo)數(shù)據(jù)和人體剛體部分之間的骨架角度作為特征用于人體動作識別。

      1.1 關(guān)節(jié)點位置

      本文使用15個主要關(guān)節(jié)點位置作為人體動作識別的特征。每一個關(guān)節(jié)點為(,,)三維坐標(biāo)組成,每一幀圖像提取15個關(guān)節(jié)點,所以一幀圖像就可以得到一個45維的特征向量,如關(guān)節(jié)點的3D坐標(biāo)為(x,y,z),每一幀圖像得到的45維特征向量表示為

      1.2 角度信息

      利用提取的關(guān)節(jié)點3D坐標(biāo)計算人體剛體部分之間的角度作為人體動作識別的特征,從一幀圖像的關(guān)節(jié)位置中計算出的15個角度組成的特征向量[11]為

      2 關(guān)鍵幀提取

      關(guān)鍵幀即特征幀,是在一個動作視頻序列中可以概括反映該動作的視頻幀,需要體現(xiàn)動作視頻中具有代表意義的關(guān)鍵姿態(tài)。有效的關(guān)鍵幀序列意味著可以代表性的表示該行為,最大限度的使該行為區(qū)別于其他類型的行為,同時減少數(shù)據(jù)存儲空間的使用。在動作識別過程中可以利用從關(guān)鍵幀中提取的特征識別人體動作,考慮每一個動作執(zhí)行動作速率不一致問題,本文利用K-均值聚類算法進(jìn)行聚類,提取出相似數(shù)據(jù)的聚類中心,然后進(jìn)行關(guān)鍵幀的提取。

      2.1 K-means聚類算法

      (4) 重復(fù)步驟(2)、(3)直到函數(shù)收斂。

      在進(jìn)行聚類前,K-means 需要指定聚類個數(shù),且初始聚類中心選取具有隨機(jī)性,所以實驗中提取=8、=10、=12時的關(guān)鍵幀。以Florence3D-Action數(shù)據(jù)集中的動作:wave、drink、sit down為例,=10時提取關(guān)鍵幀如圖2所示,其中圖2(a) “揮手”序列關(guān)鍵幀從左至右依次為:1幀、5幀、9幀、15幀、19幀、22幀、24幀、26幀、29幀、30幀;圖2(b) “坐下”序列關(guān)鍵幀從左至右依次為:1幀、3幀、9幀、11幀、14幀、15幀、18幀、22幀、27幀、29幀。

      圖2 視頻序列關(guān)鍵幀提取

      2.2 二次優(yōu)化關(guān)鍵幀

      從圖2發(fā)現(xiàn)初次提取的關(guān)鍵幀有大量的重復(fù),對比這些重復(fù)的關(guān)鍵幀,可以發(fā)現(xiàn)有些是因為動作運動過快,有些則是由于動作過于緩慢,最終導(dǎo)致相似的兩幀相似度變小,誤判為關(guān)鍵幀,例如在揮手關(guān)鍵幀序列中22幀與24幀;坐下關(guān)鍵幀序列中14幀與15幀。另外還可以看出重復(fù)的關(guān)鍵幀在視頻鏡頭中的位置序列比較近,因此本文提出基于視頻幀間隔的二次提取關(guān)鍵幀的方法,對初次聚類得到的關(guān)鍵幀進(jìn)行二次提取,優(yōu)化關(guān)鍵幀序列,具體方法如下:

      ①記錄初次提取的關(guān)鍵幀在視頻中的位置可得序列號數(shù)組p,即

      ④最終得到的最優(yōu)后的關(guān)鍵幀序列(圖3),其中圖3(a) “揮手”序列關(guān)鍵幀從左至右依次為:1幀、5幀、9幀、15幀、19幀、22幀、29幀,共7幀;圖3(b) “坐下”序列關(guān)鍵幀從左至右依次為:1幀、9幀、14幀、18幀、22幀、27幀,共6幀。

      圖3 二次優(yōu)化后的關(guān)鍵幀

      3 行為識別

      卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)[13]最先應(yīng)用到手寫識別,后來廣泛應(yīng)于模式識別各領(lǐng)域,共有3種類型的層:卷積層、下采樣層和全連接層。全連接層的連接方式與以往的神經(jīng)網(wǎng)絡(luò)連接方式相同,即一個神經(jīng)元連接上一層所有的輸出。卷積層的輸出是通過一些核來卷積上一層的輸入得到的,卷積操作公式為

      圖4 算法流程圖

      4 實驗結(jié)果與分析

      在實驗中,使用K-means聚類算法聚類出原始關(guān)鍵幀序列,然后對初始關(guān)鍵幀序列進(jìn)行二次優(yōu)化,得到最優(yōu)關(guān)鍵幀序列。最后使用CNN分類器進(jìn)行人體動作的分類和識別。實驗結(jié)果表明,對行為視頻進(jìn)行關(guān)鍵幀提取后,通過分析關(guān)鍵幀進(jìn)行行為識別不但沒有降低識別的效果,而且在識別時間上與直接對原始視頻進(jìn)行識別有大幅度的縮減。在Florence3D-Action數(shù)據(jù)集上進(jìn)行了驗證。

      Florence3D-Action數(shù)據(jù)集由一個固定的Kinect傳感器獲得,含有10個人執(zhí)行的9個基本動作,即:揮手(wave)、喝水(drink)、接電話(answer phone)拍手(clap)、系鞋帶(tight lace)、坐下(sit down)和站起來(stand up)、看手表(read watch)、彎腰(bow)共215個行為序列。

      實驗中選取數(shù)據(jù)集中9種動作視頻序列,記錄K-means聚類算法提取=8、=10、=12時的關(guān)鍵幀、經(jīng)過本文二次優(yōu)化算法得到的關(guān)鍵幀以及消除冗余關(guān)鍵幀。實驗結(jié)果見表1。

      表1 關(guān)鍵幀提取及優(yōu)化實驗結(jié)果

      從表1可以看出,本文算法提取出的關(guān)鍵幀準(zhǔn)確率高,冗余度小。經(jīng)K-means聚類算法提取出的關(guān)鍵幀存在一定的冗余,但是通過對初始關(guān)鍵幀序列進(jìn)行二次優(yōu)化處理后,基本上消除了冗余幀,達(dá)到了預(yù)期優(yōu)化目的。由于數(shù)據(jù)集中的視頻序列的總幀數(shù)有限,初次提取的關(guān)鍵幀和二次優(yōu)化的關(guān)鍵幀數(shù)目也有限。但隨著視頻總幀數(shù)的增加,消除冗余關(guān)鍵幀的效果會越來越明顯。

      表2展示了文獻(xiàn)[6]、文獻(xiàn)[14]、文獻(xiàn)[15]、文獻(xiàn)[16]以及本文算法在Florence3D-Action數(shù)據(jù)集上的實驗結(jié)果。文獻(xiàn)[6]和文獻(xiàn)[14]對原始視頻序列進(jìn)行識別,平均識別率88.0%和94.5%,用本文算法提取關(guān)鍵幀后利用二次優(yōu)化后的關(guān)鍵幀序列進(jìn)行識別的平均識別率為93.1%,在保證識別精度的前提下大幅度縮短了識別時間,提高了識別效率。相比文獻(xiàn)[15]、文獻(xiàn)[16]同樣對關(guān)鍵幀序列進(jìn)行識別,本文采用的二次優(yōu)化后的關(guān)鍵幀序列識別的精度分別提高了2.7%和0.8%。實驗結(jié)果表明,使用基于關(guān)鍵幀運動序列識別的方法,提取人體骨架角度特征進(jìn)行分類識別所需的時間最短。相比于傳統(tǒng)方法中直接對原始視頻序列進(jìn)行識別大大縮減了識別時間,在保證識別精度的前提下提高了識別效率?;谝曨l關(guān)鍵幀的識別在視頻監(jiān)控、網(wǎng)絡(luò)視頻數(shù)據(jù)庫等大數(shù)據(jù)中有更突出的表現(xiàn),可以大幅度的減少識別時間,減少人力物力的消耗。

      表2 各方法在Florence3D-Action數(shù)據(jù)集上的實驗結(jié)果

      使用本文提出的基于關(guān)鍵幀序列的行為識別的方法,采用人體骨架剛體部分之間的角度特征,得到的Florence3D-Action數(shù)據(jù)集的混淆矩陣如圖5所示,其中drink和answer phone這兩個動作由于都是頭面上的運動,并且手臂對頭部也有一定的遮擋作用,使得識別過程中容易混淆。而tight lace、sit down、stand up和bow這些近似全身運動的動作具有很高的識別率,分別為98%、98%、100%、99%。所以在今后的研究和改進(jìn)中對混淆動作或者只調(diào)動局部肢體部分動作的識別是一項挑戰(zhàn)性任務(wù)。

      圖5 Florence3D-Action數(shù)據(jù)集混淆矩陣

      5 結(jié)束語

      本文提出了一種基于視頻關(guān)鍵幀序列的人體行為識別方法,主要思想是對原始視頻運動序列聚類獲取關(guān)鍵幀序列,再對初始關(guān)鍵幀序列進(jìn)行二次優(yōu)化,提高關(guān)鍵幀質(zhì)量,獲得最優(yōu)關(guān)鍵幀序列。實驗表明使用該方法提取的關(guān)鍵幀能較好地反映視頻鏡頭的內(nèi)容,利用卷積神經(jīng)網(wǎng)絡(luò)在Florence3D-Action數(shù)據(jù)庫上的識別實驗結(jié)果表明對視頻關(guān)鍵幀序列進(jìn)行識別在保證識別精度的前提下與傳統(tǒng)方法相比提高了識別效率。

      盡管實驗結(jié)果達(dá)到了預(yù)期效果,但在以下方面還可以進(jìn)行改進(jìn):①實驗中只使用了人體骨架關(guān)節(jié)角度作為關(guān)鍵幀的特征,在下一步的工作中,將會添加更多特征,如:形狀,紋理等,以期得到更好的效果。②對數(shù)據(jù)集中的混淆動作的識別結(jié)果還有待于提高,在今后的研究中對局部動作或者極易混淆動作識別會更加努力。此外,基于視頻關(guān)鍵幀的識別可以應(yīng)用于日常視頻監(jiān)控調(diào)看、互聯(lián)網(wǎng)視頻數(shù)據(jù)篩選等領(lǐng)域。

      [1] 朱煜, 趙江坤, 王逸寧, 等. 基于深度學(xué)習(xí)的人體行為識別算法綜述[J]. 自動化學(xué)報, 2016, 42(6): 848-857.

      [2] PRIYA G G, DOMNIC S. Shot based keyframe extraction for ecological video indexing and retrieval [J]. Ecological Informatics, 2014, 23 (9): 107-117.

      [3] SUN Z H, JIA K B, CHEN H X. Video key frames extraction based on spatial-temporal color distribution [C]//International Conference on Intelligent Information Hiding and Multimedia Signal Processing. Los Alamitos: IEEE Computer Society Press, 2008: 196-199.

      [4] HANNANE R, ELBOUSHAKI A, AFDEL K, et al. An efficient method for video shot boundary detection and keyframe extraction using SIFT-point distribution histogram [J]. International Journal of Multunedia Information Retrieval, 2016, 5(2): 89-104.

      [5] 潘志庚, 呂培, 徐明亮, 等. 低維人體運動數(shù)據(jù)驅(qū)動的角色動畫生成方法綜述[J]. 計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報, 2013, 25(12): 1775-1785.

      [6] DEVANNE M, WANNOUS H, BERRETTI S, et al. 3-D human action recognition by shape analysis of motion trajectories on riemannian manifold [J]. IEEE Transactions on Cybernetics, 2014, 45(7): 1340-1352.

      [7] LIU F, ZHUANG Y T, WU F, et al. 3D motion retrieval with motion index tree [J]. Computer Vision and Image Understanding, 2003, 92(2/3): 265-284.

      [8] 王方石, 須德, 吳偉鑫. 基于自適應(yīng)閾值的自動提取關(guān)鍵幀的聚類算法[J]. 計算機(jī)研究與發(fā)展, 2005, 42(10): 1752-1757.

      [9] SONG X M, FAN G L. Joint key-frame extraction and object segmentation for content-based video analysis [J] IEEE Transactions on Circuits and Systems for Video Technology, 2006 16(7): 904-914.

      [10] 田國會, 尹建芹, 韓旭, 等. 一種基于關(guān)節(jié)點信息的人體行為識別新方法[J]. 機(jī)器人, 2014, 36(3): 285-292.

      [11] 石祥濱, 劉拴朋, 張德園. 基于關(guān)鍵幀的人體動作識別方法[J]. 系統(tǒng)仿真學(xué)報, 2015, 27(10): 2401-2408.

      [12] 孫淑敏, 張建明, 孫春梅. 基于改進(jìn)K-means算法的關(guān)鍵幀提取[J]. 計算機(jī)工程, 2012, 38(23): 169-172.

      [13] SIMONYAN K, ZISSERMAN A. Two-stream convolutional networks for action recognition in videos. [J]. Computational Linguistics, 2014, 1(4): 568-576.

      [14] VEMULAPALLI R, ARRATE F, CHELLAPPA R. Human action recognition by representing 3D skeletons as points in a lie group [C]//2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Los Alamitos: IEEE Computer Society Press, 2014: 588-595.

      [15] ZHANG Q, YU S P. An Efficient method of keyframe extraction based on a cluster algorithm [J]. Journal of Human Kinetics, 2013, 39(1): 5-14.

      [16] WANG C Y, WANG Y Z, YUILLE A L. Mining 3D key-pose-motifs for action recognition [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Los Alamitos: IEEE Computer Society Press, 2016: 289-293.

      Optimization and Behavior Identification of Keyframes in Human Action Video

      ZHAO Hong, XUAN Shibin

      (School of Information Science and Engineering, Guangxi University for Nationalities, Nanning Guangxi 530006, China)

      In the course of behavior identification, extracting keyframes from the video can effectively reduce the amount of video index data, so as to improve the accuracy and real-time performance of behavior identification. A method for optimizing the keyframe sequence is proposed to improve the representativeness of keyframes, on which the behavior identification is based. Firstly, the K-means clustering algorithm is employed to extract keyframes in the human action video sequence according to 3D human skeleton features. Then, the quadratic optimization is performed in the light of the location of keyframes to extract the optimal keyframe, and it can reduce the redundancy of keyframe sequence, compared with traditional ways. Finally, the behavior video is identified by convolutional neural network (CNN) classifiers in accordance with the optimal keyframe. The experiment results on the Florence 3D Action dataset indicate that the method has a high identification rate, and drastically shortens the identification time, compared with the traditional method.

      behavior identification; keyframes; K-means; convolutional neural network

      TP 399

      10.11996/JG.j.2095-302X.2018030463

      A

      2095-302X(2018)03-0463-07

      2017-07-18;

      2017-09-01

      廣西自然科學(xué)基金項目(2015GXNSFAA139311)

      趙 洪(1991-),女,山東濟(jì)南人,碩士研究生。主要研究方向為視頻圖像處理及行為識別。E-mail:15777169369@163.com

      宣士斌(1964-),男,廣西南寧人,教授,博士。主要研究方向為圖像處理、模式識別。E-mail:xuanshibin@mail.gxun.cn

      猜你喜歡
      關(guān)節(jié)點關(guān)鍵幀聚類
      基于深度學(xué)習(xí)和視覺檢測的地鐵違規(guī)行為預(yù)警系統(tǒng)研究與應(yīng)用
      關(guān)節(jié)點連接歷史圖與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的雙人交互動作識別
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      基于改進(jìn)關(guān)鍵幀選擇的RGB-D SLAM算法
      搞好新形勢下軍營美術(shù)活動需把握的關(guān)節(jié)點
      基于相關(guān)系數(shù)的道路監(jiān)控視頻關(guān)鍵幀提取算法
      基于改進(jìn)的遺傳算法的模糊聚類算法
      基于聚散熵及運動目標(biāo)檢測的監(jiān)控視頻關(guān)鍵幀提取
      一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
      論“關(guān)鍵幀”在動畫制作中的作用
      南宫市| 定日县| 泾阳县| 昌吉市| 汉源县| 城步| 原阳县| 开化县| 安塞县| 延安市| 甘德县| 贵溪市| 凭祥市| 冷水江市| 翼城县| 策勒县| 西藏| 广安市| 玛曲县| 十堰市| 弋阳县| 盘山县| 陕西省| 炎陵县| 尉犁县| 讷河市| 乳源| 潮安县| 韶关市| 玉树县| 罗田县| 高雄县| 曲周县| 阿克陶县| 南城县| 丰都县| 阿拉善盟| 延寿县| 石楼县| 永嘉县| 双辽市|