王俊峰
摘 要: 提出以圖像識別為基礎(chǔ)分解識別人體武術(shù)動作的方法。首先,通過形態(tài)學(xué)梯度操作使大部分噪聲背景可以消除,進(jìn)而取得人體輪廓邊緣,將視頻中每幀圖像輪廓邊緣提取出來并在同一幅圖像中實現(xiàn)累積,利用累積邊緣圖像計算出以網(wǎng)格為基礎(chǔ)的HOG,獲取圖像動作特征向量;其次,運(yùn)用改良動態(tài)時間規(guī)整理論結(jié)合動作時間序列下各關(guān)節(jié)角度變化的特征,即可識別出各類武術(shù)動作間關(guān)節(jié)變化序列的相似性,再設(shè)計分類器并向其輸入圖像中人體動作時變特征數(shù)據(jù),從而實現(xiàn)基于圖像識別的武術(shù)動作分解過程。實驗結(jié)果表明,利用圖像識別可有效分解武術(shù)動作。
關(guān)鍵詞: 人體動作; 圖像識別; 動作時間序列; 動作分解
中圖分類號: TN911.73?34; TP391 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2017)15?0033?04
Abstract: A method based on image recognition to identify and decompose the human?body Wushu action is proposed. The operation of morphological gradient is used to eliminate most of background noise to obtain the edge of the human?body contour. The contour edge of each frame image is extracted in the image, and accumulated in the same image. The cumulative edge image is used to calculate the HOG based on grid, and acquire the action feature vector of the image. The improved dynamic characteristics of time warping theory is combined with the change characteristic of the angle of each joint under movement time series to recognize the similarity of joint change sequence among various Wushu movements. The classifier was designed, and the time?varying characteristic data of human?body movement in the image is input into it to realize the Wushu movement decomposition based on image recognition. The experimental results show that the image recognition can decompose the Wushu movement effectively.
Keywords: human?body movement; image recognition; movement time series; movement decomposition
0 引 言
文獻(xiàn)[1]中提到使計算機(jī)擁有與人類相同的視覺感知功能,并像人類一樣可以識別外界事物、感知場景、解析周圍事物活動情況是計算機(jī)視覺研究的最終目標(biāo)。運(yùn)用計算機(jī)分析和理解人體動作具有挑戰(zhàn)性,這一課題涉及多個學(xué)科領(lǐng)域,包括認(rèn)知科學(xué)、模式識別、機(jī)器學(xué)習(xí)等,具有一定學(xué)術(shù)研究價值。該技術(shù)應(yīng)用會使計算機(jī)具備觀察外部世界的能力,然后通過圖像信息的自動分析和理解做出決策響應(yīng),計算機(jī)將具備更優(yōu)秀的適應(yīng)環(huán)境能力[2?4]。
文獻(xiàn)[5]指出分析與理解視頻中人的動作可以總結(jié)為:通過在視頻中提取運(yùn)動及表現(xiàn)特征,對動作類別以及動作發(fā)生方位給出合理判斷,細(xì)致分析出與動作相對應(yīng)的語義信息,最終確定人的行為意圖。動作表示、動作分割、動作識別和動作定位是人體動作分析與理解過程中最為重要的幾項研究。動作表示指的是通過提取輸入視頻中表現(xiàn)運(yùn)動和結(jié)構(gòu)等信息,獲得描述該視頻的特征向量。文獻(xiàn)[6]中定義動作分割是通過分割連續(xù)視頻流,使其成為若干組只包含一個動作事例的子視頻段。通過建立視頻內(nèi)容與動作類別之間的關(guān)聯(lián)實現(xiàn)人體動作識別。
因此文中運(yùn)用此項技術(shù),提出以圖像識別為基礎(chǔ)實現(xiàn)分解識別人體武術(shù)動作的方法。首先,利用形態(tài)學(xué)梯度操作去除掉大部分噪聲背景,獲取人體輪廓邊緣界限,在視頻中獲得每幀圖像的形狀邊緣同時累積在一幅圖像中,通過累積邊緣圖像計算出以網(wǎng)格為基礎(chǔ)的HOG,得出圖像動作特征向量;其次,結(jié)合動作時間序列下各關(guān)節(jié)角度的變化特征,運(yùn)用改進(jìn)動態(tài)時間規(guī)整理論對各類武術(shù)動作間關(guān)節(jié)變化序列的相似性進(jìn)行識別,通過設(shè)計分類器并將圖像中人體動作時變特征數(shù)據(jù)輸入其中,最終完成基于圖像識別的武術(shù)動作分解過程[7?8]。
1 基于圖像的武術(shù)動作分解識別過程
1.1 基于累積邊緣圖像的動作特征提取
利用組合形態(tài)學(xué)操作能夠消除視頻圖像上部分背景,形態(tài)特征能夠完好保留,獲得人體側(cè)影輪廓圖像,其與背景相減技術(shù)的作用非常相似。則組合形態(tài)學(xué)操作公式可表述為:
式中:表示通過組合形態(tài)學(xué)操作處理完成的圖像;表示原視頻中一幀圖像;表示結(jié)構(gòu)元素;表示閉合操作。通過式(1)閉合操作可將原始圖像中比背景暗,且尺寸比結(jié)果元素尺寸小的區(qū)域去除,選擇合適的結(jié)構(gòu)元素,通過閉合操作得到剩余背景圖像,使其與原始圖像相減就能夠完成目標(biāo)提取。
人體武術(shù)動作視頻圖像中一幀圖像并不能充分表述一個動作,一般都需要提取多幀圖像特征才能完整展示一個人體動作。由于存在動作速率差異,即便是同一動作,每個視頻圖像的幀數(shù)也可能不同。為了處理這兩種速率的變化,考慮到速率變化特征,文中將同一時間窗口上每一幀邊緣圖像灰度特征累積到同一幅圖像當(dāng)中,利用建立的累積邊緣圖像提取出其特征,用于表示人體武術(shù)動作。
累積邊緣圖像操作流程為:視頻圖像中通過形態(tài)學(xué)梯度操作處理后的一幀圖像用表示;運(yùn)用邊緣檢測算子在上獲取的邊緣檢測圖像用表示,此圖像是二值圖像;通過和在每個像素點(diǎn)上相乘得到的邊緣圖像即為,灰度圖像由表示,灰度信息處在邊緣點(diǎn)上,若像素點(diǎn)處于邊緣之外,則灰度值為0;累積邊緣圖像用表示,其尺度與大小一致,獲取是為了累積視頻圖像中所有處于某一時間窗口上的到一幅圖像上。
針對進(jìn)行初始化,設(shè)置所有像素為0,時間條件為=0;基于邊緣檢測能夠在視頻時間窗口的第一幀形態(tài)學(xué)梯度圖像上得出邊緣圖像;灰度圖像通過梯度圖像和邊緣圖像相乘獲得;在全部像素點(diǎn)上比較和上一幀取得的累積邊緣圖像,灰度值較大的像素點(diǎn)其灰度值將作為的新值;重復(fù)邊緣檢測步驟,直至全部圖像操作完成。
本文方法的主要思想是壓縮視頻序列中的信息成為一幀圖像來表達(dá)動作,累積邊緣圖像中信息含量巨大,時刻在點(diǎn)上累積邊緣圖像的公式可描述為:
累積邊緣圖像是在每個像素點(diǎn)讓二值圖像和形態(tài)學(xué)梯度圖像相乘,獲得具有灰度信息的邊緣圖像后,累積全部邊緣圖像到一幅圖像中,并不是累積每一幀二值圖像到一幅圖像中。0和1是二值圖像像素灰度值僅有的兩個值,若邊緣圖像所對應(yīng)的二值圖像中像素值為1,則該點(diǎn)處灰度值范圍相比二值圖像信息更多。
針對目標(biāo)圖像進(jìn)行累積邊緣圖像,則圖像信息中心已包含了較多幀圖像的邊緣信息,因此不需再提取邊緣特征,可在累積邊緣圖像的每一點(diǎn)上直接求解方向梯度直方圖。
計算以網(wǎng)格為基礎(chǔ)的方向梯度直方圖就是求解在累積邊緣圖像上所有點(diǎn)的方向梯度。將累積邊緣圖像分為個空間網(wǎng)格,計算每個網(wǎng)格上的直方圖向量,將其中一個尺度特征向量提取出來并作為動作特征,統(tǒng)計該目標(biāo)獲取的局部形狀,進(jìn)而獲得累積邊緣圖像的特征向量。
1.2 基于動態(tài)時間規(guī)整的人體武術(shù)動作識別
動作表達(dá)具有時間上的持續(xù)性,即動作可在某一時段上是一系列靜態(tài)動作的集合。人體運(yùn)動過程可以通過關(guān)節(jié)角度曲線變化反映出動作的變化趨勢,隨著時間變化關(guān)節(jié)產(chǎn)生角度變化曲線可稱之為關(guān)節(jié)角度時間序列。人體運(yùn)動特征利用關(guān)節(jié)角度時間序列描述,若某一武術(shù)動作持續(xù)時間設(shè)為則可定義運(yùn)動特征為:
式中:某一關(guān)節(jié)角度時間序列由行向量表示;運(yùn)動特征數(shù)量為時的行向量由表示;運(yùn)動特征數(shù)量由表示,且范圍為。
行向量可理解為時變一維信號,則演化成以簡單動作識別歸類為時變特征數(shù)據(jù)的分類問題。由先驗數(shù)據(jù)能夠看出,當(dāng)測試者自由展示武術(shù)動作時,相同動作具有不同的波形和幅值,無法排除與相近的可能性。因此,動作識別利用對比時間序列的相似度來實現(xiàn),即武術(shù)動作分解判斷通過比較不同長度向量之間的距離來實現(xiàn)。
曲線之間相似度的比較是時間序列變化趨勢關(guān)注的重點(diǎn),因為視頻反饋系統(tǒng)與測試者等都存在不確定性因素,會導(dǎo)致數(shù)據(jù)的偏差與波動,所以利用下式對序列完成光滑處理:
式中:序列中第個時間點(diǎn)的關(guān)節(jié)角度值由表示;分別為及階時關(guān)節(jié)角度值;為大于0的整數(shù)。
基于動態(tài)規(guī)劃思想的動態(tài)時間規(guī)整理論,其目的是找出2個不同長度的測試樣本與參考模板間的最優(yōu)匹配路徑以及最短距離。參考時間序列設(shè)為測試樣本設(shè)為。時間的關(guān)節(jié)角度值分別用和表示;與表示向量長度,若向量和非線性匹配,則可描述累計距離矩陣為:
若要使時間序列上的點(diǎn)和具有不同的關(guān)節(jié)角度軸值,需要基于點(diǎn)和構(gòu)建一個三維向量重新定義替代原來的歐氏距離,即和,下面依次描述參考序列一階導(dǎo)數(shù)與參考序列二階導(dǎo)數(shù):
式中:表示第個時間點(diǎn)關(guān)節(jié)角度值;表示第個時間點(diǎn)關(guān)節(jié)角度值。由于構(gòu)造了上述向量有利于映射的準(zhǔn)確性,則可定義為:
式中:表示測試樣本序列關(guān)節(jié)角度一階導(dǎo)數(shù)值;表示測試樣本序列關(guān)節(jié)角度二階導(dǎo)數(shù)值;分別表示調(diào)節(jié)關(guān)節(jié)角度值最短距離的權(quán)值、調(diào)節(jié)關(guān)節(jié)角度一階導(dǎo)數(shù)值最短距離權(quán)值及調(diào)節(jié)關(guān)節(jié)角度二階導(dǎo)數(shù)值最短距離權(quán)值。
根據(jù)式(4),存在運(yùn)動模板特征矩陣和待測樣本若為與的改進(jìn)距離,則與的距離可描述為:
式中:表示樣本間的改進(jìn)距離;表示改進(jìn)距離的運(yùn)動特征數(shù)量;是運(yùn)動特征數(shù)量為時與的改進(jìn)距離。
計算期望距離值為:
式中:為期望距離的權(quán)重值。給定一個武術(shù)動作圖像測試樣本,使期望距離ED獲得最小值的模板對應(yīng)的武術(shù)動作即為識別結(jié)果:
式中表示參考庫中的已知模板。
綜上所述,通過累積邊緣圖像對視頻圖像中的武術(shù)動作特征進(jìn)行特征向量提取,然后運(yùn)用動態(tài)時間規(guī)整理論對武術(shù)動作時間序列進(jìn)行計算,對待識別的武術(shù)動作與參考時間序列樣本進(jìn)行匹配后,完成武術(shù)動作分解識別過程。
2 仿真實驗與結(jié)果分析
為準(zhǔn)確分解武術(shù)動作,文中利用基于累積邊緣圖像的動態(tài)時間規(guī)整方法對武術(shù)動作進(jìn)行識別,通過仿真實驗驗證本文方法的可行性。
實驗1:文中給出兩幅武術(shù)動作圖像為實驗對象,為將目標(biāo)輪廓從圖像中有效提取出來,利用文中的形態(tài)學(xué)操作及活動輪廓模型法對圖像目標(biāo)輪廓進(jìn)行提取,具體圖像處理效果如圖1~圖6所示。
由第一組圖像(圖1~圖3)可以看出,圖1為原圖像,圖2為利用文中形態(tài)學(xué)操作對圖像進(jìn)行輪廓提取后的效果圖,通過觀察圖2形態(tài)學(xué)操作,首先是將圖像變換為二值圖像后進(jìn)行武術(shù)動作輪廓提取,從圖2中可清晰地識別出動作的邊緣圖像;將圖2與圖3進(jìn)行比較后,可以看出,圖3是運(yùn)用活動輪廓模型法對武術(shù)動作輪廓實現(xiàn)提取,但該方法對輪廓邊緣提取并不準(zhǔn)確,不能清楚地識別出動作的輪廓。
由第二組實驗的圖像(圖4~圖6)同樣可以證明運(yùn)用本文形態(tài)學(xué)操作對圖像進(jìn)行處理時,可有效地提取武術(shù)動作輪廓邊緣,表明文中形態(tài)學(xué)操作是提取圖像輪廓邊緣的有效方法。
實驗給出5組圖像,運(yùn)用本文形態(tài)學(xué)操作及活動輪廓模型法對5組圖像實現(xiàn)輪廓提取處理,比較圖像輪廓提取耗時及清晰度,具體數(shù)據(jù)如表1所示。
通過觀察表1可以看出,通過給定圖像數(shù)量運(yùn)用本文形態(tài)學(xué)操作及活動輪模型法對5組圖像實現(xiàn)輪廓邊緣特征提取,采用本文方法對5組圖像進(jìn)行處理,平均圖像輪廓提取時間在1.2 s;而利用活動輪廓模型法對圖像進(jìn)行處理,平均圖像輪廓提取時間耗時嚴(yán)重,都在10 s以上。比較圖像輸出清晰度可以看出,本文形態(tài)學(xué)操作處理后的圖像清晰度明顯要比活動輪廓模型法處理后的圖像清晰度高出很多,顯示本文形態(tài)學(xué)操作的性能優(yōu)越。
實驗2:實驗給出一組不同武術(shù)動作樣本集,每組樣本集中包括4個動作,通過運(yùn)用本文動態(tài)時間規(guī)整法及運(yùn)動歷史圖像識別法對武術(shù)動作樣本進(jìn)行動作識別,對比兩種方法識別動作的成功率,具體數(shù)據(jù)如表2所示。
通過運(yùn)用本文動態(tài)時間規(guī)整法及運(yùn)動歷史圖像法對武術(shù)動作集中的動作進(jìn)行識別,從表2可以看出,采用本文方法識別動作的成功率為95%以上,而利用運(yùn)動歷史圖像法識別動作的成功率為50%以下,表明本文動態(tài)時間規(guī)整法可以有效地對武術(shù)分解動作進(jìn)行識別。
3 結(jié) 論
由于人體動作識別技術(shù)可廣泛地應(yīng)用于很多領(lǐng)域,因此本文提出基于圖像識別對武術(shù)分解動作實現(xiàn)有效識別。利用基于累積邊緣圖像的形態(tài)學(xué)梯度操作對武術(shù)圖像進(jìn)行輪廓邊緣圖像特征提取,累積成為一幅圖像,計算該圖像的方向梯度直方圖,獲取圖像特征向量;運(yùn)用動態(tài)時間規(guī)整法,計算出不同武術(shù)動作的關(guān)節(jié)動作變化序列,形成參考樣本集;最后將待測樣本與參考樣本進(jìn)行比照,實現(xiàn)武術(shù)分解動作的圖像識別。
參考文獻(xiàn)
[1] 李榮,徐燕華.基于視覺信息的圖像特征提取算法研究[J].電子設(shè)計工程,2016,24(9):188?190.
[2] 許麗娟,劉大龍.公交車危險動作視覺圖像識別仿真[J].計算機(jī)仿真,2015,32(6):150?153.
[3] 王明良,孫懷江.基于分層運(yùn)動姿態(tài)協(xié)方差的人體動作識別[J].計算機(jī)應(yīng)用研究,2015,32(12):3794?3797.
[4] 白琛,孫軍華.基于局域性約束線性編碼的人體動作識別[J].北京航空航天大學(xué)學(xué)報,2015,41(6):1122?1127.
[5] 萬劍鋒,黎洪松.基于圖像識別的生產(chǎn)線零件分揀系統(tǒng)[J].現(xiàn)代電子技術(shù),2016,39(12):62?65.
[6] 余萍,趙繼生,張潔.基于非線性修正函數(shù)的卷積神經(jīng)網(wǎng)絡(luò)圖像識別研究[J].科學(xué)技術(shù)與工程,2015,15(34):221?225.
[7] 林濤,柳孝云,張相芬,等.基于新的形態(tài)學(xué)梯度參數(shù)的DTI圖像分割算法[J].電視技術(shù),2015,39(6):5?7.
[8] 汪成峰,陳洪,張瑞萱,等.帶有關(guān)節(jié)權(quán)重的DTW動作識別算法研究[J].圖學(xué)學(xué)報,2016,37(4):537?544.
[9] 黃菲菲,曹江濤,姬曉飛.基于多通道信息融合的雙人交互動作識別算法[J].計算機(jī)技術(shù)與發(fā)展,2016,26(3):58?62.
[10] 宋健明,張樺,高贊,等.基于深度稠密時空興趣點(diǎn)的人體動作描述算法[J].模式識別與人工智能,2015,28(10):939?945.