• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于運(yùn)動(dòng)姿態(tài)描述子特征和詞袋模型的行為識(shí)別

      2018-05-22 03:49:44
      計(jì)算機(jī)時(shí)代 2018年5期
      關(guān)鍵詞:編碼方式編碼向量

      姚 旭

      (河南大學(xué)計(jì)算機(jī)與信息工程學(xué)院,河南 開封 475000)

      0 引言

      人體行為識(shí)別是計(jì)算機(jī)視覺的一項(xiàng)挑戰(zhàn),它在視頻監(jiān)控、人機(jī)交互、虛擬現(xiàn)實(shí)、體感游戲等領(lǐng)域有廣泛應(yīng)用,受到研究人員的關(guān)注[1-3]。人體行為識(shí)別中一大難點(diǎn)是數(shù)據(jù)提取過程中由于受到視角、光照及背景等因素的影響會(huì)使得識(shí)別的精度大幅度下降。微軟Kinect傳感器的發(fā)布,使得傳感器可以從深度圖像中精確的估計(jì)出人體骨架關(guān)節(jié)點(diǎn)的信息。因此引起了研究人員的關(guān)注。

      Wang J[4]等人提出了基于三維人體骨架關(guān)節(jié)點(diǎn)子集的行為識(shí)別方法,MihaiZanfir[5]等人提出了基于運(yùn)動(dòng)姿態(tài)描述子的三維人體行為識(shí)別方法。SharafA[6]等人提出了基于角度描述子協(xié)方差特征的三維人體行為識(shí)別。雖然基于三維人體骨架序列的研究取得了一定進(jìn)展,但是在識(shí)別精度上依然有很大的提升空間。

      本文基于三維骨架序列信息采用詞袋模型[7]和運(yùn)動(dòng)姿態(tài)描述子[5]并運(yùn)用改進(jìn)硬向量編碼的方式,最后在數(shù)據(jù)集MSR Action3D上用Lib linear分類器分類,獲得了很好的分類精度。實(shí)驗(yàn)結(jié)果優(yōu)于其他方法。

      1 詞袋模型研究

      詞袋(bag of word)模型最早是文檔的一種建模方法,把一個(gè)文檔表示為向量數(shù)據(jù),從而使計(jì)算機(jī)處理文檔數(shù)據(jù)更加便捷,而后運(yùn)用到圖像和視頻處理中。

      BOW模型一般分為五個(gè)基本步驟。①提取人體特征信息,就是要從圖片或者視頻去提取有用的信息,這屬于底層特征提取.本文用的是提取三維骨架信息。②特征描述,這一步就是為了獲得更多信息,屬于對(duì)步驟1的提純,本文運(yùn)用MP描述符來描述特征信息。③生成視覺單詞,這一步的主要目的就是獲得最能代表動(dòng)作的信息,通過對(duì)從描述符運(yùn)用K-mean方法去聚類得到視覺單詞。④特征編碼,輸入每幀的特征描述符以及生成的視覺單詞,獲得編碼矩陣。這步會(huì)對(duì)每個(gè)描述符運(yùn)用視覺單詞重新被編碼從而得到編碼向量,它的長(zhǎng)度和視覺單詞大小一致。不同的編碼方式會(huì)得到不同的編碼矩陣,本文采用改進(jìn)的硬向量編碼方式。⑤匯聚特征,這個(gè)步驟的輸入是一個(gè)編碼矩陣輸出,是每個(gè)動(dòng)作的一個(gè)集合矢量,常用的方法有兩種,分別為average pooling和MAX pooling。本文采用后一種匯聚方法。最后就是訓(xùn)練分類器獲得優(yōu)良的分類精度,本文采用Lib linear線性分類器。

      2 運(yùn)動(dòng)姿態(tài)描述子研究

      運(yùn)動(dòng)姿態(tài)描述子(motion posture descriptor),是一個(gè)基于幀的并在其周圍的短時(shí)間窗口內(nèi),幀的動(dòng)態(tài)提取三維人體姿態(tài)信息及相關(guān)關(guān)節(jié)速度和加速度的信息的描述符。由于像慣性這樣的物理約束,或者在肌肉驅(qū)動(dòng)上的延遲,研究發(fā)現(xiàn)人體運(yùn)動(dòng)和該運(yùn)動(dòng)姿態(tài)基于時(shí)間上的以用一階、二階導(dǎo)數(shù)表示的二次函數(shù)很接近,由此提出MP描述符。

      從視頻中提取的每一幀中的每個(gè)3D關(guān)節(jié)位置用pi=(px,py,pz)來表示,i{1,...,N},這里的N表示人體關(guān)節(jié)總數(shù)。每一幀我們計(jì)算出一個(gè)MP并將3D關(guān)節(jié)點(diǎn)歸一化串聯(lián)即P=[p1,p2,…,pn],還有其一階二階導(dǎo)數(shù)δP(t0)和δ2P(t0),導(dǎo)數(shù)被當(dāng)前處理中的5幀時(shí)間窗口來估算,δP(t0)≈P(t1)-P(t-1)和δ2P(t0)≈P(t2)P(t-2)-2P(t0)。為了更好的數(shù)值近似我們先在時(shí)間維度采用5乘1的高斯濾波器(σ=1)平滑每個(gè)坐標(biāo)歸一化向量。注意,高斯平滑會(huì)產(chǎn)生兩幀的滯后,這在實(shí)踐中不會(huì)顯著影響整體延遲。

      為了抑制估計(jì)的輸入姿勢(shì)中的噪聲,并補(bǔ)償不同主體之間的骨骼變化,我們按照以下所述對(duì)姿勢(shì)進(jìn)行歸一化。導(dǎo)數(shù)矢量也進(jìn)行了重新調(diào)整,以使它們具有單位范數(shù),這種標(biāo)準(zhǔn)化還消除了不同輸入序列間絕對(duì)速度和加速度的無關(guān)變化,同時(shí)保留了不同關(guān)節(jié)之間的相對(duì)分布。時(shí)間t處的幀的最終描述符Xt是通過連接時(shí)間上的姿態(tài)信息及其導(dǎo)數(shù)得到的:Xt=[Pt,αδPt,βδ2Pt]。參數(shù)α和β加權(quán)兩個(gè)導(dǎo)數(shù)的相對(duì)重要性,并且在訓(xùn)練集上進(jìn)行優(yōu)化。

      3 改進(jìn)硬向量編碼研究

      從BOW模型中可以看出其第4步就是采用編碼方式,由于提取的每一幀描述子中包含了大量的冗余與噪聲,為提高特征表示的魯棒性,需要對(duì)描述子進(jìn)行特征編碼,從而獲得更具判別能力的特征表示。不同的編碼方式會(huì)有不同的分類精度,硬向量編碼方式在對(duì)向量進(jìn)行編碼時(shí),要計(jì)算向量和碼本中所有碼值的歐式距離,以此來尋找符合條件的視覺單詞并賦權(quán)值。

      傳統(tǒng)的硬向量編碼[8]描述如下:讓X=[x1,x2,…,xn]∈RD×N表示N個(gè)從視頻序列中提取出來的D維特征向量,B=[b1,b2,…,bm]∈RD×M表示有M個(gè)視覺單詞的字典,V=[v1,v2,…,vn]表示編碼后對(duì)應(yīng)的N個(gè)特征。公式如下:

      從傳統(tǒng)的硬向量編碼可以看出,在特征編碼過程中對(duì)最近的那個(gè)視覺單詞加權(quán)值1,其他均標(biāo)0。因此它只是對(duì)局部特征進(jìn)行很粗糙的重構(gòu),這很容易丟失很多重要的信息。

      所以在硬向量編碼的基礎(chǔ)上進(jìn)行改進(jìn),改進(jìn)的公式如下:

      與傳統(tǒng)的硬向量編碼相比,改進(jìn)的編碼方式給最近的K個(gè)視覺單詞加權(quán),這樣,有效地解決了視覺單詞的模糊性問題,提高了識(shí)別的精度。

      4 實(shí)驗(yàn)結(jié)果與分析

      本文設(shè)計(jì)的識(shí)別系統(tǒng)在BOW的基礎(chǔ)上從深度圖像中提取出人體骨架信息,用MP描述符描述并用K-means方法聚類出視覺單詞,然后用改進(jìn)的硬向量編碼方式編碼特征,匯聚出整個(gè)動(dòng)作序列的密碼向量最后用lib linear分類器訓(xùn)練分類。整個(gè)流程如圖:

      圖1 整體流程圖

      本實(shí)驗(yàn)在MSR-Action3D數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),MSR-Action3D數(shù)據(jù)集由RGB-D相機(jī)捕獲的時(shí)間分段動(dòng)作序列組成,數(shù)據(jù)集中有20個(gè)動(dòng)作,有10位實(shí)驗(yàn)者,并且每位實(shí)驗(yàn)者重復(fù)這20個(gè)動(dòng)作2-3次。總共有567個(gè)序列其中有些序列嚴(yán)重?fù)p壞,所以實(shí)驗(yàn)最終選取其中的557個(gè)進(jìn)行實(shí)驗(yàn),本文采取與文獻(xiàn)[5]相同的對(duì)α,β的設(shè)置。設(shè)計(jì)好系統(tǒng)后發(fā)現(xiàn)影響實(shí)驗(yàn)的因素有三個(gè)分別是視覺字典的大小、距離視覺單詞最近的K取值還有訓(xùn)練-測(cè)試的分配比例上。為了實(shí)驗(yàn)的穩(wěn)定性,每次實(shí)驗(yàn)重復(fù)進(jìn)行5次取均值。

      首先分析距離視覺單詞最近的K取值對(duì)分類精度的影響,與此同時(shí)選取視覺字典的大小為4096,訓(xùn)練-測(cè)試的比例為1:1即選取(1,3,5,7,9)5人為訓(xùn)練集其余為測(cè)試集。得出如圖2所示結(jié)果。

      圖2 K對(duì)精度的影響

      從圖2可見,K的取值對(duì)分類精度是有影響的,在K=5之前隨著K的增大分類精度也逐漸增加,而后出現(xiàn)下降趨勢(shì)??紤]降低運(yùn)算量,本文取K=4。

      研究完K對(duì)精度的影響后,接著研究視覺詞典的大小對(duì)分類精度的影響。同樣的選取K=4,(1,3,5,7,9)5人為訓(xùn)練集其余為測(cè)試集。實(shí)驗(yàn)結(jié)果如圖3所示。

      圖3 字典對(duì)精度的影響

      從圖3可以看出字典大小對(duì)精度也是有影響的,當(dāng)字典在2048之前精度呈上升趨勢(shì),而后有回落。故本文采取的字典大小為2048。

      最后研究訓(xùn)練-測(cè)試比例不同對(duì)精度的影響,得出如圖4所示結(jié)果。

      圖4 訓(xùn)練-測(cè)試比例對(duì)精度的影響

      從以上實(shí)驗(yàn)看出訓(xùn)練-測(cè)試集的比例不同對(duì)分類精度也是有影響的,但是當(dāng)過多的數(shù)據(jù)用于訓(xùn)練是會(huì)出現(xiàn)過擬合現(xiàn)象,這樣不利于客觀分析。所以本實(shí)驗(yàn)采用訓(xùn)練-測(cè)試比例為1:1。

      以上是對(duì)影響本文設(shè)計(jì)的因素的研究,為了說明本設(shè)計(jì)的實(shí)用性還需與相關(guān)的實(shí)驗(yàn)進(jìn)行對(duì)比,為確保設(shè)計(jì)的有效性和公平性,本實(shí)驗(yàn)參照文獻(xiàn)[5,9],選取1、3、5、7、9這五位單號(hào)表演者的行為骨架序列數(shù)據(jù)為訓(xùn)練集,其余表演者的骨架序列數(shù)據(jù)為測(cè)試集。

      表1 各種方法在MSR Action3D數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

      從表1中可以看出本文方法在識(shí)別精度上要優(yōu)于其他方法,相比于早期隱馬爾科夫模型[10]在精度上提升了將近30%;而且也要比三維點(diǎn)包上的動(dòng)作圖方法[11在精度上提升了約18%;最后相比同樣運(yùn)用運(yùn)動(dòng)姿態(tài)描述子的文獻(xiàn)[8],該文獻(xiàn)運(yùn)用MP描述子和KNN方法也取得了很好的精度,但是本文運(yùn)用MP描述子與詞袋模型相結(jié)合的方法使得精度比之提升了0.82%。上述結(jié)果表明,本文所提方法能夠提高識(shí)別精度。

      5 結(jié)束語

      為了提升基于三維骨架序列的人體行為識(shí)別的精度,本文選用詞袋模型在提取骨架信息后用運(yùn)動(dòng)描述子來描述,同時(shí)選出一種改進(jìn)的硬向量編碼方式來編碼特征,在簡(jiǎn)化特征向量的同時(shí)進(jìn)一步提煉特征信息。最后在數(shù)據(jù)集MSR Action3D上實(shí)驗(yàn)并在識(shí)別精度上取得了很好的成果。但是在識(shí)別精度上依然有很大的提升空間,這值得我們?nèi)パ芯?,比如在描述子不同或者編碼方式不同時(shí),可能會(huì)取得更高的識(shí)別精度,獲得魯棒性更好的識(shí)別方法,這也是我們以后的研究方向。

      參考文獻(xiàn)(References):

      [1]胡瓊,秦磊,黃慶明.基于視覺的人體動(dòng)作識(shí)別綜述[J].計(jì)算機(jī)學(xué)報(bào),2013.36(12):2512-2524

      [2]Presti LL,Cascia ML.3Dskeleton-based humanactionclassification:A survey[J].Pattern Recognition,2016.53(3):130-147

      [3]ZhangJ,LiWOgunbonaPO,etal.RGB-D-based actionrecognition datasets:A survey[J].Pattern Recognition,2016.60(12):86-105

      [4]Wang J,Liu Z,Wu Y,et al.Miningactionlet ensemble for action recognition withdepth cameras[C].Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,2012:1290-1297

      [5]Zanfir M,Leordean M,Sminchisescu C.The moving pose:An efficient3D kinematicsdescriptorforlow-latency action recognition and detection[C]. Proceedings of IEEE Conference on Computer Vision,2013:2752-2759

      [6]SharafA,TorkiM,Hussein ME,etal.Real-Time Multi-scale Action Detection from 3D Skeleton Data[C].IEEE Winter Conference on Applications of Computer Vision,2015:998-1005

      [7]G.Csurka,C.Bray,C.Dance,and L.Fan,"Visual Categorizationwith BagsofKeypoints,"Proc.ECCV Int'lWorkshop StatisticalLearningin ComputerVision,2004.

      [8]Sivic J,Zisserman A.Video Google:A Text Retrieval Approach to Object Matching in Videos[C].IEEE InternationalConference on ComputerVision,2003:1470-1477

      [9] VemulapalliR, Arrate F, ChellappaR.Humanaction recognition by representing3dskeletons as points in a liegroup[C]. Proceedings of IEEE Conference on ComputerVision and Pattern Recognition,2014:588-595

      [10]F.Lv and R.Nevatia.Recognition andsegmentation of 3-d human action usinghmm and multi-classadaboost.InECCV,2006.

      [11]W.Li,Z.Zhang,and Z.Liu.Action recognition based on abag of 3d points.InWCBA-CVPR,2010.

      猜你喜歡
      編碼方式編碼向量
      向量的分解
      基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達(dá)圖像配準(zhǔn)
      聚焦“向量與三角”創(chuàng)新題
      《全元詩(shī)》未編碼疑難字考辨十五則
      子帶編碼在圖像壓縮編碼中的應(yīng)用
      電子制作(2019年22期)2020-01-14 03:16:24
      Genome and healthcare
      GCOA算法
      可穿戴式多通道傳感系統(tǒng)功能需求分析及設(shè)計(jì)
      混合編碼方式自適應(yīng)差分進(jìn)化算法優(yōu)化設(shè)計(jì)寬帶天線
      向量垂直在解析幾何中的應(yīng)用
      乌兰浩特市| 秦皇岛市| 井研县| 东兰县| 宝清县| 界首市| 鄂伦春自治旗| 辽源市| 新乐市| 临沧市| 辛集市| 宝山区| 广水市| 罗田县| 电白县| 蕲春县| 乐亭县| 榆社县| 元阳县| 都匀市| 兖州市| 新绛县| 广水市| 江永县| 佳木斯市| 邳州市| 若尔盖县| 鄂州市| 高要市| 玉林市| 商城县| 太和县| 资源县| 松桃| 玛沁县| 新邵县| 南江县| 云安县| 历史| 普陀区| 英山县|