• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于RGB-D視頻的多模態(tài)手勢(shì)識(shí)別①

      2019-01-07 02:41:26馬正文蔡堅(jiān)勇歐陽(yáng)樂(lè)峰
      關(guān)鍵詞:空域子集手勢(shì)

      馬正文,蔡堅(jiān)勇,2,3,4,5,劉 磊,歐陽(yáng)樂(lè)峰,李 楠

      1(福建師范大學(xué) 光電與信息工程學(xué)院,福州 350007)

      2(福建師范大學(xué) 醫(yī)學(xué)光電科學(xué)與技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,福州 350007)

      3(福建師范大學(xué) 福建省光子技術(shù)重點(diǎn)實(shí)驗(yàn)室,福州 350007)

      4(福建師范大學(xué) 福建省光電傳感應(yīng)用工程技術(shù)研究中心,福州 350007)

      5(福建師范大學(xué) 智能光電系統(tǒng)工程研究中心,福州 350007)

      1 引言

      人們對(duì)手勢(shì)識(shí)別技術(shù)的研究已有幾十年的歷程,經(jīng)歷了不同的發(fā)展階段.手勢(shì)識(shí)別開(kāi)始于1983年,來(lái)自AT&T的Grimes[1]發(fā)明了數(shù)據(jù)手套,其通過(guò)數(shù)據(jù)線與計(jì)算機(jī)相互連接來(lái)進(jìn)行手勢(shì)定位跟蹤和時(shí)序信息的檢測(cè)處理.采用數(shù)據(jù)手套的方法數(shù)據(jù)量小、穩(wěn)定性和識(shí)別準(zhǔn)確性高,但由于需要穿戴昂貴的硬件設(shè)備,操作不方便的同時(shí)也對(duì)人體進(jìn)行了限制,因而難以得到有效的推廣,這也迫使研究者尋求更為自然的方法.隨后的彩色相機(jī)的出現(xiàn),基于視覺(jué)的方式成為主流.傳統(tǒng)的動(dòng)態(tài)手勢(shì)識(shí)別方法主要基于動(dòng)態(tài)時(shí)間規(guī)整(DTW)[2]和基于隱馬爾可夫模型(HMM)[3].2010年微軟推出的Kinect傳感器為計(jì)算機(jī)視覺(jué)提供了全新的數(shù)據(jù)類型,即深度信息,它包含著物體到攝像頭的距離信息,深度信息的利用使得視覺(jué)處理中較困難的分割過(guò)程更為容易,正是由于可以提供這種有用的深度信息,使得RGB-D相機(jī)在手勢(shì)識(shí)別研究被廣泛使用.

      近年來(lái),深度學(xué)習(xí)在圖像分類[4]、目標(biāo)檢測(cè)[5]、語(yǔ)義分割[6]、場(chǎng)景理解[7]等計(jì)算機(jī)視覺(jué)領(lǐng)域得到廣泛使用,該技術(shù)可以對(duì)特征進(jìn)行分層抽象學(xué)習(xí),通過(guò)網(wǎng)絡(luò)訓(xùn)練自動(dòng)提取特征.利用深度學(xué)習(xí)技術(shù)進(jìn)行手勢(shì)的識(shí)別是目前主流的研究方法,國(guó)內(nèi)外研究人員在各種手勢(shì)數(shù)據(jù)集上進(jìn)行了研究工作.李宇楠等[8]利用手勢(shì)RGB圖像序列及通過(guò)RGB圖像序列計(jì)算出的光流序列,分別使用 3DCNN(3D Convolutional Neural Networks)網(wǎng)絡(luò)進(jìn)行特征提取,然后對(duì)提取的特征進(jìn)行融合,利用支持向量機(jī)(SVM)來(lái)進(jìn)行手勢(shì)識(shí)別;清華大學(xué)的Chen X等[9]提出一種運(yùn)動(dòng)特征增強(qiáng)的RNN網(wǎng)絡(luò),對(duì)基于骨架結(jié)構(gòu)的手勢(shì)序列進(jìn)行動(dòng)態(tài)手勢(shì)識(shí)別;Molchanov等[10]等利用3DCNN網(wǎng)絡(luò)對(duì)手勢(shì)時(shí)空域進(jìn)行特征提取,配合時(shí)空特征增強(qiáng)方法,在VIVA數(shù)據(jù)集上達(dá)到77.5%的識(shí)別率.目前絕大部分的研究都采用了深度學(xué)習(xí)技術(shù)處理基于視頻的手勢(shì)識(shí)別.

      本文是對(duì)SKIG RGB-D多模態(tài)的孤立手勢(shì)視頻進(jìn)行手勢(shì)識(shí)別研究.對(duì)采樣出的32幀RGB圖像序列和Depth圖像序列,分別利用本文提出的稠密連接的3DCNN組件學(xué)習(xí)短期的時(shí)空域特征,然后將提取的時(shí)空域特征輸入到卷積GRU網(wǎng)絡(luò)進(jìn)行長(zhǎng)期的時(shí)空域特征學(xué)習(xí),最終對(duì)單模態(tài)訓(xùn)練好的網(wǎng)絡(luò)進(jìn)行多模態(tài)融合,提升網(wǎng)絡(luò)識(shí)別準(zhǔn)確率.本文在SKIG數(shù)據(jù)集上取得了99.07%的識(shí)別準(zhǔn)確率.

      2 模型架構(gòu)

      基于視頻的手勢(shì)識(shí)別涉及到時(shí)間和空間因素,因而不僅要考慮手勢(shì)的空域特征,還要考慮時(shí)域特征.對(duì)時(shí)空域的特征學(xué)習(xí)是手勢(shì)乃至其它人體行為識(shí)別[11]的重點(diǎn).LRCN[12]將CNN與LSTM結(jié)合用來(lái)提取時(shí)空域特征,先對(duì)視頻采樣出的幀,通過(guò)CNN進(jìn)行空域特征提取,然后對(duì)按序提取出來(lái)的空域特征,利用LSTM來(lái)學(xué)習(xí)其時(shí)域特征.雙流CNN網(wǎng)絡(luò)利用兩條分支分別從RGB圖像中提取空域特征和堆疊的光流圖像中提取時(shí)域特征,對(duì)最終的分類進(jìn)行融合.這兩種具有代表性的方式,前者采用分階段學(xué)習(xí)時(shí)空域特征,而后者是對(duì)時(shí)空域特征各自獨(dú)立學(xué)習(xí).考慮到手勢(shì)背景復(fù)雜多變,對(duì)時(shí)空域特征同時(shí)學(xué)習(xí),是更為有效的方式.3DCNN網(wǎng)絡(luò)就是基于這種理念,利用三維卷積核對(duì)時(shí)域和空域同時(shí)處理,這種方式比前兩種更為有效,因而被眾多研究者用來(lái)對(duì)視頻進(jìn)行時(shí)空域特征的提取.GRU對(duì)時(shí)間序列數(shù)據(jù)有很好的學(xué)習(xí)效果,但是采用全聯(lián)接的方式,對(duì)空域特征的學(xué)習(xí)能力較弱.利用卷積GRU網(wǎng)絡(luò)可以學(xué)習(xí)長(zhǎng)期的時(shí)空域特征.利用本文提出的稠密連接的3DCNN學(xué)習(xí)視頻短期的時(shí)空域特征,進(jìn)而使用卷積GRU從短期時(shí)空域特征來(lái)學(xué)習(xí)視頻長(zhǎng)期的時(shí)空域特征是合理的組合方式.本文采用的單模態(tài)的網(wǎng)絡(luò)模型結(jié)構(gòu)見(jiàn)圖1.

      圖1 單模態(tài)的網(wǎng)絡(luò)模型結(jié)構(gòu)

      如圖1所示,單模態(tài)的網(wǎng)絡(luò)模型結(jié)構(gòu)分為五個(gè)部分:(1)預(yù)處理好的32幀圖像序列,作為網(wǎng)絡(luò)的輸入部分;(2)本文提出的稠密連接的3DCNN結(jié)構(gòu),用于對(duì)輸入的序列提取短期時(shí)空域特征;(3)雙層卷積GRU網(wǎng)絡(luò),更進(jìn)一步對(duì)提取的短期時(shí)空域特征進(jìn)行長(zhǎng)期時(shí)空域特征的學(xué)習(xí);(4)空間金字塔池化層用于降維;(5)全連接FC層的輸出使用Softmax分類器得到概率向量,對(duì)最終的網(wǎng)絡(luò)輸出進(jìn)行分類預(yù)測(cè).具體各部分將依次介紹。

      2.1 稠密連接的3DCNN組件

      稠密卷積網(wǎng)絡(luò)[13](DenseNets)使用合適的特征尺寸,將所有層的特征都進(jìn)行相互聯(lián)接,來(lái)獲取網(wǎng)絡(luò)各層間的最大信息,為了保持前饋性,每層都對(duì)之前的所有層的輸出進(jìn)行拼接后作為本層輸入,得到的輸出特征圖傳遞給后續(xù)所有層.依據(jù)DenseNets網(wǎng)絡(luò)Dense block的思想,將其應(yīng)用到3DCNN,本文提出稠密連接的3DCNN結(jié)構(gòu)用于對(duì)手勢(shì)視頻進(jìn)行短期時(shí)空域特征提取.對(duì)提出稠密連接的3DCNN結(jié)構(gòu)一些參數(shù)的情況加以說(shuō)明:

      (1)規(guī)定網(wǎng)絡(luò)輸入的層的輸入圖像序列的格式以及特征圖的格式按“通道數(shù)@長(zhǎng)度×高度×寬度”方式標(biāo)記.

      (2)3D卷積核和3D池化核的大小為d×k×k,其中d表示時(shí)間長(zhǎng)度,k為空間大小.每個(gè)卷積核大小為3×3×3,卷積核步長(zhǎng)大小均為 1×1×1,Padding 方式選用‘SAME’.

      (3)3D池化核使用是最大值池化.

      如圖2所示的結(jié)構(gòu)中,輸入部分是對(duì)視頻采樣出的32幀組成的圖像序列.通過(guò)64個(gè)3D卷積核進(jìn)行卷積操作得到64@32×112×112的特征圖,空間尺寸保持不變,然后利用 1×2×2 池化操作,保持時(shí)間維度不變,空間尺寸縮小為原來(lái)的1/4.稠密連接部分每個(gè)卷積層的3D卷積核個(gè)數(shù)為32,通過(guò)跨層拼接的方式,依次得到的特征圖個(gè)數(shù)為:32,64+32=96,64+32+32=128,64+32+32+32=160,然后通過(guò)32個(gè)3D卷積核卷積操作,提取特征后利用 2×2×2池化進(jìn)行降維得到32@16×56×56的最終輸出特征,作為后續(xù)雙層卷積GRU的輸入.

      (2)規(guī)?;s化效益明顯。河北省在“礦產(chǎn)資源整合”、“露天礦山整治”等專項(xiàng)行動(dòng)中關(guān)、停、取締了一些高耗能、低產(chǎn)出,開(kāi)采技術(shù)設(shè)備落后、污染重、規(guī)模小的礦山企業(yè);關(guān)小促大、保優(yōu)壓劣促使礦業(yè)結(jié)構(gòu)進(jìn)一步優(yōu)化,“三率”提高,礦山企業(yè)規(guī)?;s化效益明顯,這是河北省礦山企業(yè)健康發(fā)展、創(chuàng)新發(fā)展和綠色發(fā)展的開(kāi)端。

      圖2 稠密連接的 3DCNN 結(jié)構(gòu)

      2.2 雙層卷積GRU

      傳統(tǒng)的GUR輸入到狀態(tài),狀態(tài)到狀態(tài)之間的轉(zhuǎn)換是采用全連接的方式,而全連接方式對(duì)空間維度沒(méi)有進(jìn)行有效利用,因而本文使用卷積GRU,將全連接方式使用卷積操作代替,用來(lái)對(duì)長(zhǎng)期的時(shí)空域特征同時(shí)提取,具體如公式(1)所示:

      其中,x1,···,xt為不同時(shí)刻的輸入信息,h1,···,ht對(duì)應(yīng)不同時(shí)刻的隱藏狀態(tài),zt是更新門,用來(lái)控制當(dāng)前的狀態(tài)需要遺忘多少的歷史信息和接受多少的新信息,rt重置門,用來(lái)控制候選狀態(tài)中有多少信息是從歷史信息中得到,是候選隱含狀態(tài),ht是當(dāng)前時(shí)刻的隱含狀態(tài),W?和U?均是2維卷積核,σ為Sigmoid激活函數(shù),′°′表示矩陣Hadamard積.

      本文使用雙層的卷積GRU,第一層的卷積核數(shù)目為256,第二層的卷積核數(shù)目設(shè)為384,卷積核的大小均為 3×3,卷積核步長(zhǎng)大小均為 1×1,Padding 方式選用‘SAME’.將第二層最終學(xué)習(xí)到的特征作為雙層卷積GUR 的輸出,384@1×28×28,其中 384 指特征圖個(gè)數(shù),28×28為每個(gè)特征圖的空間大小,時(shí)間長(zhǎng)度為1.

      2.3 空間金字塔池化層

      雙層卷積GRU輸出為384@1×28×28,總的維度太高,要先進(jìn)行降維處理,本文使用了4種層次的SPP,分別是 1×1、2×2、4×4、7×7 結(jié)構(gòu),如圖3所示,最終生成1+4+16+49=70個(gè)384維的特征,Flatten變平化為1維向量后的結(jié)果為1×70×384=26880,再與全連接層相連.采用多層SPP降維的同時(shí)對(duì)同一特征圖多種尺度的提取特征,對(duì)網(wǎng)絡(luò)識(shí)別精度有所提高.

      圖3 空間金字塔池化層

      2.4 模型融合

      多模態(tài)融合是常用的提升模型準(zhǔn)確度的方法,本文融合模型是對(duì)訓(xùn)練好的兩種模態(tài)網(wǎng)絡(luò)的Softmax層輸出的概率向量進(jìn)行相加除以2,選取最終得到的融合概率向量中數(shù)值最大的概率所對(duì)應(yīng)的類別作為分類的結(jié)果,融合模型如圖4所示.

      圖4 多種模態(tài)的融合模型結(jié)構(gòu)

      3 實(shí)驗(yàn)驗(yàn)證及結(jié)果分析

      3.1 數(shù)據(jù)集

      本文基于 Sheffield Kinect Gesture (SKIG)Dataset[14]RGB-D孤立手勢(shì)視頻數(shù)據(jù)集,對(duì)提出的手勢(shì)識(shí)別網(wǎng)絡(luò)模型進(jìn)行實(shí)驗(yàn),數(shù)據(jù)集類別共10類,如圖5所示,圖中展示了RGB圖像及所對(duì)應(yīng)的Depth圖像.

      SKIG數(shù)據(jù)集包含手勢(shì)的RGB視頻及Depth視頻兩種模態(tài),該手勢(shì)數(shù)據(jù)集是利用微軟Kinect設(shè)備的RGB攝像頭和深度攝像頭,同步采集人體手勢(shì)而得到,數(shù)據(jù)集沒(méi)有劃分訓(xùn)練集與測(cè)試集.具體細(xì)節(jié)如下:

      圖5 SKIG 前后 5 種手勢(shì)類別

      (1)一共采集了6人(subject)的手勢(shì),每個(gè)手勢(shì)的RGB視頻有相應(yīng)的Depth視頻.(2)包含10個(gè)手勢(shì)類別:Circle(畫(huà)圓)、Triangle(畫(huà)三角形)、Up-down(上下移動(dòng))、Right-left(右左移動(dòng))、Wave(揮手)、‘Z’(畫(huà)Z 字形)、Cross(畫(huà)十字形)、Come here(招喚動(dòng)作)、Turn around(翻轉(zhuǎn))以及 Pat(輕拍).(3)每種手勢(shì)分別使用3種手形執(zhí)行:握拳、伸食指和張開(kāi)手掌.(4)采用3 種背景:木板、白紙和報(bào)紙.(5)2 種光照:較亮和較暗.(5)總視頻數(shù)2160,RGB視頻和Depth視頻各占一半 (6×10×3×3×2=1080 個(gè)).

      3.2 實(shí)驗(yàn)環(huán)境

      (1)硬件環(huán)境:NVIDIA Tesla P40 24 GB 顯卡 8 核32 GB CPU

      (2)軟件環(huán)境:CentOS7 操作系統(tǒng) Python 3.5.2 版TensorFlow 1.2.1 版 TensorLayer 1.6.5 版 CUDA8.0 cuDNN5.0

      3.3 模型參數(shù)

      因?yàn)閷?shí)驗(yàn)用到的網(wǎng)絡(luò)模型是第一次提出,整個(gè)網(wǎng)絡(luò)從頭開(kāi)始訓(xùn)練,RGB模態(tài)和Depth模態(tài)數(shù)據(jù)集各自獨(dú)立訓(xùn)練,兩種模態(tài)的網(wǎng)絡(luò)訓(xùn)練參數(shù)設(shè)為一致.批次大小為18;學(xué)習(xí)率初值設(shè)為0.001;權(quán)重衰減系數(shù)設(shè)為0.0004;每 6000 次迭代,學(xué)習(xí)率下降為原來(lái)的 1/10;網(wǎng)絡(luò)訓(xùn)練時(shí)每迭代500個(gè)批次,就對(duì)測(cè)試集進(jìn)行一次測(cè)試;訓(xùn)練的周期數(shù),設(shè)為 300 個(gè)周期,對(duì)應(yīng) 12000 左右的迭代次數(shù).

      3.4 實(shí)驗(yàn)及結(jié)果分析

      數(shù)據(jù)集沒(méi)有劃分訓(xùn)練集與測(cè)試集,采用文獻(xiàn)[15]中的 3 折交叉驗(yàn)證,將 6 個(gè) subjects,劃分成三個(gè)子集,其中子集 1 為:subject1+subject2;子集 2 為:subject3+subject4;子集 3 為:subject5+suject6.

      分組1:訓(xùn)練集為子集1和子集2,測(cè)試集為子集3,結(jié)果如圖6所示,經(jīng)測(cè)試選取的兩個(gè)訓(xùn)練好的單模態(tài)網(wǎng)絡(luò)模型參數(shù)為:RGB數(shù)據(jù)集11 000次迭代時(shí)測(cè)試準(zhǔn)確度為98.33%的模型參數(shù)和Depth數(shù)據(jù)集10 000次迭代時(shí)測(cè)試準(zhǔn)確度為99.17%的模型參數(shù).

      圖6 分組 1 的測(cè)試結(jié)果

      分組2:訓(xùn)練集為子集1和子集3,測(cè)試集為子集2,結(jié)果如圖7所示,經(jīng)測(cè)試選取兩個(gè)訓(xùn)練好的單模態(tài)網(wǎng)絡(luò)模型參數(shù)為:RGB數(shù)據(jù)集10 000次迭代時(shí)測(cè)試準(zhǔn)確度為96.94 %的模型參數(shù)和Depth數(shù)據(jù)集10 500迭代時(shí)準(zhǔn)確度為97.78 %的模型參數(shù).

      分組3:訓(xùn)練集為子集2和子集3,測(cè)試集為子集1,結(jié)果如圖8所示,經(jīng)測(cè)試選取的最優(yōu)的兩個(gè)訓(xùn)練好的單模態(tài)網(wǎng)絡(luò)模型參數(shù)為:RGB數(shù)據(jù)集11500次迭代時(shí)準(zhǔn)確度為93.06%的模型參數(shù)和Depth數(shù)據(jù)集9000迭代時(shí)準(zhǔn)確度為99.17 %的模型參數(shù).

      對(duì)每個(gè)分組單模態(tài)網(wǎng)絡(luò)各自訓(xùn)練好的模型,按本文所用的方法進(jìn)行模型融合,得到各分組多模態(tài)融合后的準(zhǔn)確率,如表1所示.

      圖7 分組 2 的測(cè)試結(jié)果

      圖8 分組 3 的測(cè)試結(jié)果

      將本文方法結(jié)果與近幾年在SKIG數(shù)據(jù)集上相關(guān)實(shí)驗(yàn)的結(jié)果進(jìn)行對(duì)比,如表2所示,本文提出的方法具有更高的準(zhǔn)確率,達(dá)到99.07%.其中RGGP+RGB-D方法使用受限圖形遺傳編程(RGGP)方法,從視頻中自動(dòng)提取具有鑒別性的時(shí)空特征,對(duì)RGB和Depth信息的融合來(lái)進(jìn)分類,識(shí)別率為88.7%,與本文準(zhǔn)確率相差10.37%.MRNN方法利用2DCNN對(duì)視頻的空間特征進(jìn)行學(xué)習(xí),學(xué)習(xí)到的特征輸入到MRNN網(wǎng)絡(luò)進(jìn)行手勢(shì)分類,與本文準(zhǔn)確率差了1.27%.3DCNN+CLSTM利用3DCNN結(jié)合CLSTM的方法來(lái)進(jìn)行時(shí)空域的學(xué)習(xí),達(dá)到了98.89%的準(zhǔn)確率,它使用的是傳統(tǒng)的3DCNN,與本文提出的稠密連接的3DCNN在特征的處理上并不相同,本文的模型參數(shù)少于其一半,約 930 萬(wàn),大幅降低模型參數(shù)的同時(shí)保持相對(duì)應(yīng)的性能,本文模型提升了約0.2%.

      表2 不同方法在 SKIG 上的比較

      4 結(jié)語(yǔ)

      本文提出的稠密連接的3DCNN結(jié)構(gòu),實(shí)現(xiàn)對(duì)多層特征圖進(jìn)行重復(fù)利用,使得參數(shù)利用效率更高,更加容易進(jìn)行網(wǎng)絡(luò)的訓(xùn)練.通過(guò)對(duì)不同層的特征進(jìn)行稠密的組合,可以對(duì)后續(xù)層的輸入增強(qiáng)多樣性,在提升網(wǎng)絡(luò)的性能的同時(shí),降低網(wǎng)絡(luò)模型的參數(shù)量.利用卷積GRU相比傳統(tǒng)的GRU而言增加了對(duì)空間信息的處理能力,因而能更好的對(duì)長(zhǎng)期時(shí)空域特征進(jìn)行提取.本文模型參數(shù)及卷積核個(gè)數(shù)的設(shè)置并不是最優(yōu),雙向卷積GRU可能會(huì)進(jìn)一步提升模型準(zhǔn)確率.后續(xù)計(jì)劃將注意力機(jī)制引入,期望有更好的性能提升.

      猜你喜歡
      空域子集手勢(shì)
      由一道有關(guān)集合的子集個(gè)數(shù)題引發(fā)的思考
      拓?fù)淇臻g中緊致子集的性質(zhì)研究
      我國(guó)全空域防空體系精彩亮相珠海航展
      關(guān)于奇數(shù)階二元子集的分離序列
      挑戰(zhàn)!神秘手勢(shì)
      V字手勢(shì)的由來(lái)
      勝利的手勢(shì)
      基于貝葉斯估計(jì)的短時(shí)空域扇區(qū)交通流量預(yù)測(cè)
      淺談我國(guó)低空空域運(yùn)行管理現(xiàn)狀及發(fā)展
      基于能量空域調(diào)控的射頻加熱花生醬均勻性研究
      鹿邑县| 邢台县| 修水县| 九龙县| 惠水县| 翼城县| 孝感市| 宕昌县| 蓝田县| 新巴尔虎左旗| 建湖县| 临清市| 肇庆市| 石泉县| 合阳县| 朝阳区| 黎城县| 颍上县| 贺州市| 柳江县| 宣恩县| 邓州市| 新泰市| 普宁市| 咸宁市| 茶陵县| 兴安盟| 财经| 洛川县| 宁乡县| 永宁县| 桐梓县| 中牟县| 襄汾县| 如东县| 麻阳| 苍梧县| 芜湖市| 斗六市| 章丘市| 亚东县|