劉翔宇+楊越佳+胡令昊+李沐鑫+張健
摘要:基于視覺的體感交互人體動作識別是由圖像處理、計算機(jī)視覺、模式識別、機(jī)器學(xué)習(xí)、人工智能等多個學(xué)科交叉組合而成的研究課題。該文通過采用改進(jìn)創(chuàng)新的人體檢測算法,模板匹配算法,在結(jié)合人體目標(biāo)Meanshift跟蹤算法的基礎(chǔ)之上,通過模板匹配算法將所提取數(shù)據(jù)與虛擬環(huán)境對應(yīng)創(chuàng)新人物模型取得關(guān)聯(lián),從而完成本系統(tǒng)的研究目標(biāo),達(dá)到人體基本動作識別,人動而虛擬環(huán)境模動的效果。
關(guān)鍵詞: 虛擬環(huán)境;體感交互;計算機(jī)視覺;人體動作識別
中圖分類號:TP18 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2018)01-0193-02
隨著計算機(jī)網(wǎng)絡(luò)和視頻圖像采集設(shè)備的快速發(fā)展和普及,圖像已經(jīng)成為我們?nèi)粘I钪械闹匾d體之一,同時圖像的數(shù)據(jù)量呈現(xiàn)爆炸式的增長,時時刻刻都會有數(shù)以萬計的新內(nèi)容產(chǎn)生,所以,如何更加準(zhǔn)確,更加迅速的獲取圖像中的各種信息,尤其是人體肢體動作信息以及其他相關(guān)領(lǐng)域的研究,就成為了一個亟待解決的關(guān)鍵性問題。
人機(jī)交互技術(shù)也逐漸從過去以計算機(jī)為中心的鍵盤鼠標(biāo)交互方式轉(zhuǎn)變?yōu)槿缃褚匀藶橹行牡男滦徒换ツJ剑藱C(jī)交互使得用戶自身可以通過肢體動作直接與計算機(jī)進(jìn)行互動,也讓我們的計算機(jī)能夠更加聰明,更加自然地去感知這個世界,本文系統(tǒng)的研究將人機(jī)交互技術(shù)與計算機(jī)視覺領(lǐng)域的圖像處理有機(jī)結(jié)合,通過固定位置的視頻圖像采集設(shè)備,實時獲取用戶的肢體動作圖像數(shù)據(jù),通過人體檢測,跟蹤以及模板匹配相關(guān)算法,對所獲取數(shù)據(jù)進(jìn)行解釋分析,以達(dá)到人體動作識別基本的功能需要。
1 虛擬環(huán)境人體動作識別方法
基于視覺的人體動作識別感應(yīng)系統(tǒng)相應(yīng)控制流程如圖1所示,分為人體運動目標(biāo)檢測,人體運動目標(biāo)跟蹤,模板匹配以及虛擬環(huán)境模擬四個大的部分,目標(biāo)檢測部分采用基于二次連通域處理的人體檢測方法,目標(biāo)跟蹤部分采用的是被廣泛應(yīng)用于計算機(jī)視覺和模式識別領(lǐng)域的Meanshift算法,圖像模板匹配部分本系統(tǒng)采用改進(jìn)SIFT算法,在虛擬環(huán)境交互部分,由虛擬現(xiàn)實引擎,如Denlta3D,Uity3D等對所接收到的人體動作模板匹配數(shù)據(jù)進(jìn)行解釋,然后發(fā)出相應(yīng)控制命令,實現(xiàn)對虛擬環(huán)境的交互控制,達(dá)到人動模動,模擬真實用戶動作的效果。
2 人體動作感應(yīng)識別系統(tǒng)原理綜述
2.1 圖像人體運動目標(biāo)獲取檢測
對于圖像而言,背景的復(fù)雜化會對人體檢測產(chǎn)生干擾,如產(chǎn)生圖像噪聲,圖像空洞等,由此本研究應(yīng)用基于二次連通域處理的人體目標(biāo)檢測算法,整體上先用三幀差法來提取我們研究所需的運動目標(biāo),三幀差法公式:
是當(dāng)前幀對應(yīng)的像素灰度值大小,滿足上式的像素點我們就可以定義為運動的點,其中 是算法設(shè)定的閾值。
得到二值圖像后,對二值圖像進(jìn)行膨脹腐蝕處理,針對腐蝕膨脹而言,轉(zhuǎn)化為集合的運算算法較為簡單,在硬件上易于實現(xiàn)的前提下,也更加的適合于并行處理,常常被應(yīng)用于圖像分割,邊緣提取以及對二值圖像進(jìn)行細(xì)化等,我們不可以忽視的一點是,場合與探針并不一定總是一一對應(yīng),同理,結(jié)構(gòu)和運算方法也不盡相同,場合不同,對應(yīng)的我們設(shè)計的結(jié)構(gòu)元素,運算方法也會不同,這也常常是影響待處理圖像效果的關(guān)鍵。再就是運用連通域三次掃描標(biāo)記法等來去除空洞的同時也將斷開的區(qū)域相應(yīng)的連接起來,簡而言之,三次掃描標(biāo)記法判斷和標(biāo)記進(jìn)行的工作就是對各個點進(jìn)行標(biāo)記,逐個判斷,如果是我們理論意義上的目標(biāo)點,則查看標(biāo)記并更新。
那么如何來判斷運動目標(biāo)是我們系統(tǒng)研究所需要的人體,本研究采用的是HOG特征訓(xùn)練分類器,總的來說,它是一種基于梯度,基于邊緣的直方圖方法,相應(yīng)的,直方圖顯示了方塊內(nèi)所有像素方向梯度,考察各個待測窗口,由BLOCK到CELL網(wǎng)格,再將得到的CELL圖像梯度投影到各個方向,就能得到我們研究所需的方向直方圖,最后將CELL直方圖集合起來,再歸一化處理,就能得到HOG特征向量。
2.2 圖像人體運動目標(biāo)跟蹤
本文系統(tǒng)研究采用的是Mean Shift 跟蹤算法,含義也就是我們通常所說的均值偏移向量。時代在進(jìn)步,Mean Shift也逐漸演變?yōu)榱艘粋€具體的迭代過程,先通過計算,得到我們當(dāng)前研究點均值偏移量,以其值大小來變換其位置,再將到達(dá)新位置的點作為我們計算中新的基準(zhǔn),繼續(xù)進(jìn)行我們的均值偏移的計算。對上述迭代過程進(jìn)行不斷重復(fù),當(dāng)結(jié)果達(dá)到我們實驗所設(shè)定的預(yù)設(shè)界限時則停止,因為這種方法的核心特性是一種核函數(shù)密度估計的無參數(shù)估計,所以能夠使概率密度沿著相應(yīng)的梯度方向,高效的收斂。
運用 Mean Shift 算法,首先應(yīng)當(dāng)選擇適當(dāng)?shù)哪繕?biāo)模型,同時,還要在候選目標(biāo)區(qū)域中,正確的建立起候選模型,再計算上述兩種模型的匹配系數(shù),根據(jù)結(jié)果進(jìn)行迭代,直到找到新的目標(biāo)中心為止,達(dá)到我們跟蹤的目的,流程簡述如下:
(1) 讀入視頻,分析得出第一幀中目標(biāo)模型的直方圖和概率密度;
(2) 設(shè)對象幀的中心為 ,求它其需要繼續(xù)深層分析的直方圖和模型概率密度;
(3) 計算與的相似性系數(shù);
(4) 運用迭代算法得到原來目標(biāo)新的位置中心;
(5) 求?。?)獲得新點的直方圖、 和 的相似性系數(shù);
(6) 當(dāng)時,令;
(7) 若,則循環(huán)結(jié)束;否則,返回至步驟(2)。
2.3 模板匹配
本系統(tǒng)研究采用的模板匹配算法為改進(jìn)的SIFT算法,SIFT算法本身包括SIFT特征向量的提取及其匹配兩個階段。
SIFT特征向量的提取包括a.構(gòu)建尺度空間,檢測局部極值點,初步確定特征點的尺度和位置;b.特征點的過濾及精確定位;c.為特征點分配方向值;d.生成特征描述子四大部分。
SIFT 特征向量的匹配:當(dāng)?shù)玫絻煞鶊D像的SIFT特征向量之后,以歐氏距離來作為兩幅圖像的特征點的相似性判定度量,在第一幅圖中選擇某個特征點,接著遍歷搜索第二幅圖,找出距離最近的兩個特征點,當(dāng)次近距離除以最近距離達(dá)到我們預(yù)先設(shè)置的閾值要求時,則可認(rèn)定這是一對成功匹配的點。endprint
當(dāng)然,為了避免一個特征點與多個特征點匹配的錯誤情況出現(xiàn),本研究采用雙向匹配算法,提高匹配精度減少錯誤的發(fā)生,這種方法總的來說也是基于SIFT算法的思想,在已經(jīng)得到的兩個特征匹配點集合中,按照與之前方向相反的方式,再次進(jìn)行一次映射,以此得到基于SIFT的改進(jìn)算法,相應(yīng)步驟表述如下:
① 將待匹配的兩幅圖像特征點全部提出,組成兩個特征點集合;
②運用 SIFT 算法,找出待匹配兩幅圖像之間單方向的匹配點對,并整理成一個匹配點對集合;
③ 同理,按照與之前相反的方式,再進(jìn)行一次映射,從而找出最終的匹配點對。
3 系統(tǒng)原理檢測與結(jié)果分析
3.1 人體運動目標(biāo)檢測與跟蹤
測試庫本系統(tǒng)研究選用的是 Inria 圖像庫,表1列舉了三種方法的前景檢出率和誤檢率,可以看出由于幀間相減會存在干擾的信息,基于單幀差的目標(biāo)提取在檢出率和誤檢率方面是三種方法效果相對較差的,三幀差法的檢出率和誤檢率由于缺乏后期空洞的再處理,檢測結(jié)果也相對較差,本文采用的方法在檢出率方面明顯高于其他兩種方法,且誤檢率在 6%以下,在目標(biāo)提取檢測方法中是相對優(yōu)秀的。
根據(jù)Meanshift 的人體跟蹤算法原理流程,本研究選取了室內(nèi)環(huán)境下的視頻圖像來進(jìn)行實驗測試,相應(yīng)測試結(jié)果如圖所示:
根據(jù)測試結(jié)果顯示,對于室內(nèi)運動目標(biāo)背景相對簡單的情況Meanshift算法表現(xiàn)出了極強(qiáng)的準(zhǔn)確性和實用性,與本文所研究系統(tǒng)的功能需求基本符合,視頻總幀數(shù)與識別出有運動物體的幀數(shù)基本一致,在室外運動目標(biāo)跟蹤方面,Meanshift方法也能做到自動選取運動目標(biāo)跟蹤區(qū)域,即便出現(xiàn)有部分重合、遮擋的情況,也依舊維持正確穩(wěn)定的跟蹤狀態(tài),顯示了Meanshift 方法在室外運動目標(biāo)跟蹤應(yīng)用方面也是一種相對魯棒的跟蹤方法。
3.2 模板匹配
本次實驗選取的是具有代表性的圖片,如有一定旋轉(zhuǎn)角度的兩幅圖像,亮度、遠(yuǎn)近不同的兩幅圖像,包含與被包含的兩幅圖像等。
經(jīng)過實驗分析,記錄下SIFT及其改進(jìn)算法總匹配數(shù),錯誤匹配數(shù)以及相應(yīng)運算所消耗時間(單位:S),具體數(shù)據(jù)如表2所示:
根據(jù)表2數(shù)據(jù)可以分析出,算法改進(jìn)后在總匹配數(shù)上有一定的減少,但明顯降低了圖像匹配的誤配率,匹配的精度得到了一定程度上的提高,改進(jìn)后的SIFT算法較原算法而言較長,但總體增加不多,不會影響到實時性要求。
4 結(jié)論
本系統(tǒng)在人體動作識別方面具備較好的魯棒性,同時系統(tǒng)的原理采用的也是在原有技術(shù)理論基礎(chǔ)之上改進(jìn)的算法,本身也在性能上有一定的提升,同時也更加滿足本系統(tǒng)研究的功能需求,準(zhǔn)確性較高,但是實時性有待進(jìn)一步提高。
參考文獻(xiàn):
[1] 胡瓊, 秦磊, 黃慶明. 基于視覺的人體動作識別綜述[J]. 計算機(jī)學(xué)報, 2013, 36(12):2512-2524.
[2] 胡瓊, 秦磊, 黃慶明,等.基于特征點軌跡的動作識別[J]. 計算機(jī)學(xué)報, 2014, 37(6):1281-1288.
[3] 蔡林沁,張建榮,劉彬彬.基于手勢識別的虛擬環(huán)境體感交互控制[J]. 華中科技大學(xué)學(xué)報, 2015, 43(1):136-139.endprint