魏麗芬
(福建信息職業(yè)技術(shù)學(xué)院 物聯(lián)網(wǎng)與人工智能學(xué)院,福建 福州 350003)
人體動(dòng)作識(shí)別主要包括目標(biāo)檢測(cè)、識(shí)別和操作分割等。在人體動(dòng)作識(shí)別研究中,需要準(zhǔn)確地將人體動(dòng)作轉(zhuǎn)換成能夠運(yùn)算和分析的數(shù)據(jù),并設(shè)計(jì)程序讓計(jì)算機(jī)處理這些數(shù)據(jù),這需要大量的人體運(yùn)動(dòng)數(shù)據(jù)作為研究素材。傳統(tǒng)的人體動(dòng)作識(shí)別技術(shù)應(yīng)用OI-LSTM神經(jīng)網(wǎng)絡(luò)分析算法、深度學(xué)習(xí)方法、CNN算法等建立模型[1],但在建立人體模型和程序算法的過(guò)程中,運(yùn)算準(zhǔn)確率并不理想,錯(cuò)誤率較高,關(guān)鍵原因在于未能將三維動(dòng)作轉(zhuǎn)換為二維數(shù)據(jù)。因此,為提高數(shù)據(jù)轉(zhuǎn)換的準(zhǔn)確率,將AR技術(shù)引入人體動(dòng)作識(shí)別,建立了一個(gè)人體運(yùn)動(dòng)關(guān)鍵點(diǎn)存儲(chǔ)數(shù)據(jù)庫(kù)[2],然后進(jìn)行人體動(dòng)作圖像預(yù)處理。其中,最關(guān)鍵的步驟就是利用AR動(dòng)態(tài)圖像技術(shù),將攝像數(shù)據(jù)導(dǎo)入計(jì)算機(jī)中,構(gòu)建人體特征三維模型并進(jìn)行動(dòng)態(tài)跟蹤識(shí)別,再根據(jù)三維模型的具體信息實(shí)現(xiàn)人體動(dòng)作識(shí)別。
采用AR動(dòng)態(tài)圖像技術(shù)進(jìn)行三維動(dòng)作模型分析和三維動(dòng)態(tài)跟蹤識(shí)別,能夠直接用動(dòng)作增強(qiáng)技術(shù)分割人物輪廓,構(gòu)造人體動(dòng)作三維影像,并對(duì)人體三維影像各節(jié)點(diǎn)進(jìn)行像素捕捉,使人體的每個(gè)動(dòng)作都能轉(zhuǎn)換為數(shù)據(jù)并輸入數(shù)據(jù)處理程序中。
傳統(tǒng)的人體信息采集是將人體動(dòng)作的相關(guān)影像傳輸?shù)接?jì)算機(jī)內(nèi),根據(jù)一定的算法識(shí)別出人體各部位的動(dòng)作,但這種采集方式效率低且錯(cuò)誤率較高,即使目標(biāo)人物做出了相同的動(dòng)作,但若人物的站立角度發(fā)生偏轉(zhuǎn),計(jì)算機(jī)程序得到的判斷也會(huì)發(fā)生分歧[3]。為了采集到準(zhǔn)確的人體信息,本研究直接以構(gòu)建三維模型為目標(biāo),記錄人體信息數(shù)據(jù),結(jié)合數(shù)字圖像技術(shù),以骨骼數(shù)據(jù)為三維圖像的骨架,結(jié)合邊緣檢測(cè)技術(shù)確定人體區(qū)域,完善人體三維模型的輪廓。然后,分別構(gòu)建出頭部、軀干、四肢等人體部位,得到人體特征與三維模型的質(zhì)量概率,并通過(guò)位移的方式推斷出人體關(guān)節(jié),利用生物學(xué)知識(shí)對(duì)人體骨骼進(jìn)行擬合構(gòu)造,獲得與人物動(dòng)作相關(guān)的脊椎、脖子、頭部、臀部、胸部、左手、左腳、左小臂、左大臂、左小腿、左大腿、左肩、右手、右腳、右小臂、右大臂、右小腿、右大腿、右肩共19個(gè)關(guān)節(jié)點(diǎn)[4]。對(duì)關(guān)節(jié)點(diǎn)的位置坐標(biāo)分別進(jìn)行標(biāo)記,以便后續(xù)人體模型的構(gòu)建。
在獲得完整的人體模型數(shù)據(jù)之后,就可以搭建人體特征三維模型。三維模型需要將人體上、下、前、后、左、右的數(shù)據(jù)全部完整地體現(xiàn)出來(lái),并且以動(dòng)態(tài)人物圖像的方式構(gòu)建三維模型的矢量坐標(biāo),自動(dòng)匹配人體動(dòng)作的特征識(shí)別坐標(biāo)。具體的模型構(gòu)建流程見(jiàn)圖1。
圖1 人體特征三維模型構(gòu)建流程Fig.1 Flowchart of 3D modeling of human features
如圖1所示,對(duì)人體動(dòng)作特征進(jìn)行識(shí)別,分別收集人體特征三維模型中左手前伸、左手高舉、左手揮手、左手握拳、右手前伸、右手高舉、右手揮手、右手握拳、左腿前踢、右腿前踢、跳起、下蹲等常見(jiàn)的人體動(dòng)作特征數(shù)據(jù)[5]。使用分割的方法,用以上幾組動(dòng)作的特征數(shù)據(jù)分別確定其身體組成部位的特征分量,并計(jì)算相應(yīng)的角分量和點(diǎn)分量。設(shè)人體動(dòng)作的動(dòng)態(tài)特征量為f(z),得到人體動(dòng)作變化重構(gòu)的動(dòng)態(tài)特征量計(jì)算公式:
f(z)′=Z-1exp(-U*Sgiv),
(1)
式中:f(z)′表示人體動(dòng)作變化重構(gòu)的動(dòng)態(tài)特征量;Z表示人體動(dòng)作的特征分量;U表示動(dòng)作變化的二值函數(shù);Sgiv表示圖像的均值灰度參數(shù)。
將AR技術(shù)應(yīng)用在人體特征三維模型的構(gòu)建中,可將人體特征三維模型引入二維空間,模擬現(xiàn)實(shí)場(chǎng)景,并計(jì)算該條件下的人體動(dòng)作與理論意義上的人體動(dòng)作之間的區(qū)別[6],得到人體動(dòng)作矩陣的衍射灰度直方圖。采用灰度值分割法,得到基于AR動(dòng)態(tài)圖像的人體特征三維模型。
采用三維動(dòng)態(tài)跟蹤識(shí)別方法對(duì)人物信息進(jìn)行特征點(diǎn)定位,在公式(1)的約束條件下,對(duì)AR動(dòng)態(tài)圖像中的人物圖像進(jìn)行切割,分出人體動(dòng)作的分向量,并在基于AR的人物變化下得到動(dòng)作分向量的集合。每幀圖像的變化都需要重新構(gòu)建灰度像素系數(shù),得到人體動(dòng)作跟蹤識(shí)別特征函數(shù)如下:
(2)
式中:G(x,y,z)表示人物動(dòng)態(tài)變化下動(dòng)作分向量的集合;ωi表示高斯函數(shù)的邊緣函數(shù)集;P(x,y)iv和P(x,y)if是灰度像素(x,y)處的特征向量映射點(diǎn)[7]。如此,能夠得到人體三維模型的各動(dòng)作分量數(shù)據(jù),將各動(dòng)作分量連接起來(lái)就可得到人體動(dòng)作的數(shù)據(jù)集合。
在構(gòu)建人體動(dòng)作數(shù)據(jù)集合的基礎(chǔ)上,進(jìn)行人體動(dòng)作識(shí)別的算法優(yōu)化。首先,計(jì)算動(dòng)作概率,公式如下:
(3)
式中:P表示運(yùn)動(dòng)數(shù)據(jù)在人體特征三維模型中實(shí)現(xiàn)的概率,即拍攝的動(dòng)作是人體特征三維模型數(shù)據(jù)集中某項(xiàng)動(dòng)作的概率;N表示數(shù)據(jù)集中的樣本容量;t表示與當(dāng)前動(dòng)作具備相同動(dòng)作分量的數(shù)據(jù)樣本數(shù)。然后,提取人體動(dòng)作識(shí)別特征量:
(4)
本實(shí)驗(yàn)旨在驗(yàn)證基于AR動(dòng)態(tài)圖像的人體動(dòng)作識(shí)別方法是否能夠確切地提高三維動(dòng)作轉(zhuǎn)換為二維數(shù)據(jù)的準(zhǔn)確率,并與OI-LSTM神經(jīng)網(wǎng)絡(luò)分析算法、深度學(xué)習(xí)方法、CNN算法等進(jìn)行比較,判斷本方法與傳統(tǒng)方法的優(yōu)劣。
搭建本實(shí)驗(yàn)的軟件和硬件平臺(tái),具體實(shí)驗(yàn)環(huán)境如表1所示。
表1 實(shí)驗(yàn)環(huán)境Tab.1 Experimental platform
由表1可知,使用攝像機(jī)進(jìn)行人體信息采集,然后將采集到的人體信息導(dǎo)入計(jì)算機(jī),使用Unity 3D模擬軟件進(jìn)行人體特征三維模型的構(gòu)建,并依據(jù)該軟件計(jì)算出人體動(dòng)作所需的特征分量數(shù)據(jù),使用MATLAB軟件對(duì)得到的數(shù)據(jù)進(jìn)行分析。為了驗(yàn)證本方法在準(zhǔn)確率和計(jì)算效率方面比傳統(tǒng)方法更具優(yōu)越性,通過(guò)動(dòng)態(tài)成像儀,做出走路、抬起右手、踢左腿、握左拳、喝水、下蹲、起跳、彎腰、轉(zhuǎn)圈、搖頭共10個(gè)動(dòng)作,每個(gè)動(dòng)作由20人完成,每人分別做幅度不同的20次,分別計(jì)算使用這4種方法進(jìn)行人體動(dòng)作識(shí)別的準(zhǔn)確率。
對(duì)使用這4種方法所得到的特征數(shù)據(jù)歸納整理,對(duì)比分析結(jié)果如表2所示。
表2 4種方法的識(shí)別準(zhǔn)確率Tab.2 Recognition accuracy of four methods %
由表2可知,使用本方法的動(dòng)作識(shí)別平均準(zhǔn)確率達(dá)到了97.9%,而其他3種方法的平均準(zhǔn)確率分別是94.0%、93.0%、93.2%,可以明顯看出本方法在人體動(dòng)作識(shí)別中的準(zhǔn)確率高于OI-LSTM神經(jīng)網(wǎng)絡(luò)算法、深度學(xué)習(xí)方法和CNN算法,進(jìn)而推斷在同樣的動(dòng)態(tài)成像儀及動(dòng)作分析軟件中,動(dòng)作識(shí)別準(zhǔn)確率較高的AR動(dòng)態(tài)圖像方法在三維動(dòng)作轉(zhuǎn)換為二維數(shù)據(jù)的過(guò)程中正確率和計(jì)算效率更高,設(shè)計(jì)的動(dòng)作識(shí)別方法達(dá)到了預(yù)期效果,更具優(yōu)越性與實(shí)用性。
隨著科技的發(fā)展,人工智能將成為未來(lái)科技發(fā)展的主流,本研究提出了基于AR動(dòng)態(tài)圖像的人體動(dòng)作識(shí)別方法并對(duì)其進(jìn)行驗(yàn)證,證明該方法能夠更好地識(shí)別人體動(dòng)作,為人機(jī)交互技術(shù)的進(jìn)一步發(fā)展提供了參考。