郭天曉,胡慶銳,李建偉,沈燕飛
(1.北京體育大學(xué)運動人體科學(xué)學(xué)院,北京 100084;2.北京體育大學(xué)體育工程學(xué)院,北京 100084)
(*通信作者電子郵箱jianwei@bsu.edu.cn)
隨著計算機視覺和圖像處理技術(shù)的高速發(fā)展,基于視覺信息處理的智能化訓(xùn)練系統(tǒng)逐漸被應(yīng)用于運動訓(xùn)練[1]和康復(fù)醫(yī)療領(lǐng)域[2]。對于初學(xué)者而言,接受及時有效的指導(dǎo)和反饋不僅能夠幫助其掌握動作[3],還能夠有效避免運動損傷[4-5]。傳統(tǒng)的健身動作指導(dǎo)是在教練員的監(jiān)督引導(dǎo)下糾正錯誤動作以實現(xiàn)良好的鍛煉效果,要求在特定場地下由專人指導(dǎo)進行練習(xí),不適用于居家環(huán)境以及利用碎片化時間鍛煉的場景。而當(dāng)前已經(jīng)出現(xiàn)的依托智能設(shè)備的健身指導(dǎo)方案[6]大多缺少對運動過程的有效監(jiān)控且無法給出反饋和建議,不利于初學(xué)者掌握動作[7]。運動技能學(xué)習(xí)過程的起始階段為泛化階段[8],其學(xué)習(xí)重點為掌握動作要領(lǐng),需要通過重復(fù)觀看示范和接收反饋來糾正錯誤動作[9]。通過技術(shù)手段對運動過程進行監(jiān)控和評估,不僅能夠幫助運動者掌握動作,還能夠節(jié)省人力成本,增加訓(xùn)練過程的趣味性和互動性。
智能健身系統(tǒng)[10-11]是集成了人體運動信息采集,數(shù)據(jù)處理與交互,用戶終端與設(shè)備等模塊的綜合訓(xùn)練平臺。健身動作識別作為其中的核心環(huán)節(jié)之一,通過采集和分析人體運動特征區(qū)分受試者執(zhí)行的不同動作。目前,人體動作識別主要分為基于慣性傳感器[12-13]和基于視覺特征采集[1,14]的兩大類方法。前者通過可穿戴設(shè)備采集人體運動學(xué)信息完成動作識別,但在各關(guān)節(jié)處附著傳感器不僅提高了成本,也會影響運動體驗;而采集視覺特征進行動作識別的方法能夠依托各類相機完成非侵入式[15]的動作識別,更適用于健身場景。
當(dāng)前,利用人體視覺特征進行動作識別的方法主要分為基于傳統(tǒng)特征提取和基于深度學(xué)習(xí)的兩大類:基于深度學(xué)習(xí)的動作識別方法構(gòu)建神經(jīng)網(wǎng)絡(luò)[16-20]描述人體運動特征,在大型動作數(shù)據(jù)集上實現(xiàn)良好的檢測效果,此類方法通常依賴大量數(shù)據(jù)進行模型訓(xùn)練且對計算資源要求較高,限制了其在不同場景下的應(yīng)用;相對而言,基于傳統(tǒng)特征提取的方法[21-22]對數(shù)據(jù)量和計算資源的要求較小,能夠根據(jù)不同需要提取相應(yīng)動作特征完成識別。在運動訓(xùn)練領(lǐng)域的相關(guān)研究中,研究者根據(jù)訓(xùn)練目的和項目特點設(shè)計動作特征提取方法來完成各類動作的識別和分析:?rücü 等[14]針對上肢力量訓(xùn)練中對動作執(zhí)行標準程度的評價和指導(dǎo)問題,依托Kinect V2設(shè)計了一套智能訓(xùn)練系統(tǒng),該系統(tǒng)通過提取受試者上肢各關(guān)節(jié)點的運動數(shù)據(jù)監(jiān)控和評估日常訓(xùn)練過程,實驗結(jié)果證明該系統(tǒng)能有效改善動作質(zhì)量;Li等[23]為了對比賽視頻中運動員的動作進行分析,通過分層提取視頻特征獲取運動員動作的關(guān)鍵運動學(xué)參數(shù)并據(jù)此完成動作識別,輔助教練員完成比賽錄像分析;Ting等[1]針對羽毛球運動中復(fù)雜技術(shù)動作的分類問題,采集各動作RGB-D視頻并提取四元數(shù)特征向量對10類羽毛球動作進行識別,所選取的三維動作特征能有效表示各類羽毛球動作。
針對健身動作的識別問題,除了考慮所選取特征對動作的描述能力外,還應(yīng)當(dāng)考慮后續(xù)動作評價的可行性。健身動作評價通過捕捉人體各環(huán)節(jié)間的相對運動來評估動作執(zhí)行的標準程度。人體整體位移是無關(guān)的干擾特征,如跑步時在水平方向的行進位移、跳躍時的垂直高度等。因此,提取健身動作中人體各環(huán)節(jié)間的相對運動特征不僅有利于區(qū)分相似動作,而且能為動作評價創(chuàng)造條件。但在以往基于傳統(tǒng)特征提取的動作識別方法[24-29]中,很少考慮到人體運動過程中無關(guān)位移對動作識別的影響。此外,健身動作識別場景通常包含多變的背景和光照條件,而基于背景消除提取人體特征的方法對于多變背景的魯棒性相對較差[30-31]。隨著人體姿態(tài)估計技術(shù)[32-33]的發(fā)展,語義特征提取方法[34]為人體動作特征的提取提供了新的思路:通過提取圖像中的人體骨架信息來描述動作特征并進行動作識別。提取出的人體關(guān)節(jié)位置信息是具有高度代表性的人體運動特征,能夠表示動作視頻中的人體活動空間分布[35],有利于捕捉人體各環(huán)節(jié)間的組合特征[36],且在一定程度上避免了傳統(tǒng)特征提取方法依賴于圖像分割效果的問題,對于視頻中多變的背景和光照條件也具有較好的魯棒性[34],能夠為健身動作識別任務(wù)提供具有高度代表性的人體運動骨架信息。
針對上述問題,本文提出了一種基于人體骨架特征編碼的健身動作識別方法,包含3 個步驟:首先,根據(jù)健身動作特點構(gòu)建包含15 個關(guān)節(jié)點的精簡人體模型,并利用人體姿態(tài)估計技術(shù)[33]獲取視頻中的運動骨架信息;然后,通過人體中心投影法消除運動過程中整體位移對識別結(jié)果的干擾,并對投影區(qū)域的軌跡特征進行縮放以降低人體體型差異對識別結(jié)果的影響并提高識別速度,通過優(yōu)化函數(shù)確定縮放比例以在保證識別率的基礎(chǔ)上獲得有效特征更為集中的動作特征區(qū)域;最后,對特征區(qū)域進行線性編碼以獲得描述健身動作的特征向量,并設(shè)計了一個基于支持向量機(Support Vector Machine,SVM)[37]的多分類器進行模型訓(xùn)練和識別。為了檢驗本方法對健身動作的識別效果,構(gòu)建了一個包含28 種健身動作的數(shù)據(jù)集進行實驗,結(jié)果表明本方法能夠有效識別健身動作,識別率達到了97.24%。在公開的KTH(Kungliga Tekniska H?gskolan)數(shù)據(jù)集[26]和Weizmann數(shù)據(jù)集[24]上,本方法的識別率分別達到91.67%和90%。
本文貢獻主要體現(xiàn)在以下3 個方面:1)通過人體中心投影法消除健身動作中人體整體位移對動作識別的影響,對利用骨架信息進行動作識別的方法具有普適性;2)提出一種高效的骨架信息編碼方法,能夠有效表示健身動作,并使得方法具有較高的識別精度和速度;3)構(gòu)建了一個健身動作數(shù)據(jù)集,能夠支持健身動作識別以及后續(xù)動作評價方法的研究。
圖1 所示為本文提出的健身動作識別方法流程,首先通過人體姿態(tài)估計技術(shù)提取運動骨架信息,然后通過人體中心投影法和縮放投影區(qū)域消除干擾,最后將特征區(qū)域進行線性編碼實現(xiàn)動作分類。
圖1 本文健身動作識別方法流程Fig.1 Flowchart of the proposed fitness action recognition method
從健身動作視頻中提取動作特征區(qū)域包括兩個步驟:人體運動骨架信息提取和基于人體中心的動作特征區(qū)域提取。
人體骨架信息是具有高度代表性的人體運動特征。本方法利用人體姿態(tài)估計技術(shù)[33]獲取運動過程中人體各環(huán)節(jié)位置信息并據(jù)此提取動作特征。根據(jù)健身動作的特點,選取包含25個關(guān)節(jié)點的Body_25人體模型進行簡化,刪除對動作識別貢獻有限的雙目特征點、雙耳特征點,以及足趾和足跟關(guān)節(jié)點。獲得包含15 個關(guān)節(jié)點的精簡人體模型,相比原模型更關(guān)注人體軀干和四肢的動作,有利于提高計算效率。
圖2所示為Body_25模型和精簡人體模型和對比。根據(jù)精簡人體模型,對包含N幀圖像的健身動作視頻進行姿態(tài)估計,提取出人體關(guān)節(jié)坐標序列{(xi,j,yi,j)},其中1 ≤i≤N,1 ≤j≤15,xi,j∈R和yi,j∈R分別為第i幀中第j個關(guān)節(jié)點在圖像坐標系中的坐標。
圖2 模型對比Fig.2 Comparison of models
動作特征區(qū)域提取主要是基于人體中心投影法,在人體中心坐標系中提取動作特征所在區(qū)域。
1.2.1 人體中心投影法
健身動作一般由人體各環(huán)節(jié)間的相對運動和人體整體位移兩部分組成,其中前者是健身動作識別和評價的主要內(nèi)容,反映動作執(zhí)行是否標準有效,而人體整體位移通常不納入評價體系中,對動作識別而言是無關(guān)的干擾特征。另外,健身動作識別可看作相似序列的搜索匹配問題[38],同類動作不同樣本間的時間差異會增加樣本的類內(nèi)差異性,從而影響動作識別結(jié)果。
綜合考慮上述因素,本文提出基于髖關(guān)節(jié)中點的人體中心投影法消除人體整體位移和動作執(zhí)行時間差異。如圖3 所示(O-XY表示圖像坐標系,B-UV表示人體中心坐標系),以位于人體中心的髖關(guān)節(jié)中點作為坐標系原點建立人體中心坐標系B-UV,通過投影變換獲取在人體中心坐標系下的運動骨架信息。在齊次坐標下的人體中心投影過程如式(1)所示:
圖3 人體中心投影法Fig.3 Human central projection method
其中:(ui,j,vi,j)和(xi,j,yi,j)分別為第i幀中第j個關(guān)節(jié)點在人體中心坐標系和圖像坐標系下的坐標,(xi,hip,yi,hip)為圖像坐標系中髖關(guān)節(jié)中點坐標。
通過人體中心投影法可以將關(guān)節(jié)坐標序列轉(zhuǎn)換至人體中心坐標系,使得動作軌跡圍繞人體髖關(guān)節(jié)中點分布,消除了人體整體位移和動作執(zhí)行時間差異對動作識別的影響。
1.2.2 特征區(qū)域提取
特征區(qū)域提取的目的是獲取動作軌跡的空間分布信息,尋找一個最小區(qū)域使其能包含全部關(guān)節(jié)坐標點。在人體中心坐標系中,假設(shè)存在一個以坐標系原點為對角線交點的正方形區(qū)域Q,能夠包含任一關(guān)節(jié)坐標(ui,j,vi,j),即滿足式(2):
其中:l為特征區(qū)域的邊長,其取值如式(3)所示:
式(3)基于人體最大活動范圍獲取投影區(qū)域,原始尺寸l×l較大,完整保留了不同動作執(zhí)行者之間的體型差異。為了降低體型差異的影響并提升動作識別算法的效率,對投影區(qū)域進一步壓縮以獲得更為有效的特征區(qū)域Q′。即將投影區(qū)域縮放為一個尺寸為l′×l′的特征區(qū)域Q′,在l′充分小的情況下能夠包含足夠的有效特征。假設(shè)特征區(qū)域Q′中包含K個動作軌跡特征點,則縮放投影區(qū)域變換如式(4)所示:
其中(uk,vk)表示第k(1 ≤k≤K)個動作特征點坐標。通過投影變換,不僅獲得了有效特征更為集中的特征區(qū)域表示人體動作,而且可以降低體型差異對動作識別的影響。
從動作特征區(qū)域中提取特征向量進行動作識別包括兩個步驟:動作特征區(qū)域線性編碼和基于SVM的健身動作識別。
將特征區(qū)域進行線性編碼的目的是提取動作特征向量。令S={sk}表示含有K個元素的集合,sk為第k個動作特征點(uk,vk)在特征區(qū)域中的位置編碼。集合大小K隨特征區(qū)域Q′中包含動作特征點多少而變化,sk取值如式(5)所示:
則集合S中包含特征區(qū)域中動作特征點的位置分布信息。基于集合S繼續(xù)構(gòu)造一個長度為l′×l′的特征向量Z表示特征區(qū)域Q′。特征向量Z的初值為全零向量,根據(jù)特征區(qū)域中動作特征點的位置分布更新各元素:將Z中sk位置的值置1以表示特征向量中的運動軌跡信息,其余值不變表示背景區(qū)域。經(jīng)過以上步驟,可以獲得一個固定長度的特征向量Z來表示一次動作特征。
2.2.1 基于SVM的健身動作分類
本文基于SVM 設(shè)計了一個多類分類器對特征向量集進行分類。假設(shè)D={(Za,La)}(1 ≤a≤n)是一組含有n個樣本的特征向量集,Za∈Rl′×l′是第a個樣本的特征向量,La是第a個樣本的類別。對樣本的分類識別可以等價于一個約束最優(yōu)化問題,如式(6)所示:
s.t.La(wZa+b) ≥1-ξa,ξa≥0,1 ≤a≤n
其中:ξa為松弛變量;C為懲罰因子,取值越大對誤差的容忍程度越低,相對來說容易出現(xiàn)過擬合,反之則容易欠擬合。針對數(shù)據(jù)集的樣本量和特征向量維度,選用徑向基函數(shù)(Radial Basis Function,RBF)作為核函數(shù)[37]。懲罰因子C和核函數(shù)參數(shù)gamma的選擇決定分類器的性能,前者調(diào)整擬合和預(yù)測樣本的能力,后者則與樣本劃分有關(guān)。在本文的實驗中,通過對特征向量訓(xùn)練集進行網(wǎng)格尋優(yōu)以獲取最優(yōu)參數(shù)(C=64,gamma=0.007 812 5)完成模型訓(xùn)練,實現(xiàn)動作識別。
2.2.2 特征向量長度優(yōu)化
由于不同長度的特征向量中包含的動作特征點數(shù)量不同,會對識別精度和速度產(chǎn)生影響。在本方法中,特征區(qū)域Q′的尺寸l′×l′決定特征向量的長度。為了兼顧識別精度與速度,需要對l′取值進行優(yōu)化。
本方法預(yù)設(shè)了一系列l(wèi)′的離散取值,通過比較實驗結(jié)果進行參數(shù)選擇。對于特征向量集D,當(dāng)l′取一定值時,將D中第a個樣本識別為類別且=La的概率為pa(l′)=p(L~a=La|l′),識別該樣本的時間為ta(l′)。l′的取值應(yīng)當(dāng)在保證識別率的基礎(chǔ)上提高檢測速度,其優(yōu)化函數(shù)如式(7)所示:
其中:β為平衡識別精度和識別速度的權(quán)重值,在本實驗中取值為0.5。
本章首先介紹所使用的三個數(shù)據(jù)集,然后介紹在不同數(shù)據(jù)集上的實驗結(jié)果及討論。實驗均在Inter CoreTM i7-7700 CPU 3.60 GHz處理器,Ubuntu16.04系統(tǒng)的計算機上實現(xiàn)。
本實驗使用的3 個動作識別數(shù)據(jù)集,分別是健身動作數(shù)據(jù)集、KTH數(shù)據(jù)集和Weizmann數(shù)據(jù)集。
健身動作數(shù)據(jù)集 該數(shù)據(jù)集使用兩臺主光軸相互垂直的GoPro Hero 7 Black 對15 名運動者進行同步拍攝,分別命名為主機位和副機位,主機位相機用于拍攝主動作特征平面。在執(zhí)行不同的動作時,根據(jù)動作特點決定使用主機位拍攝運動者的矢狀面或冠狀面。每位受試者執(zhí)行28 種健身動作,動作分類和部分動作示例如表1和圖4所示,這些動作包含力量練習(xí)、拉伸練習(xí)和綜合練習(xí),進一步可細化為器械和徒手練習(xí)、靜態(tài)和動態(tài)練習(xí)。選擇主機位和副機位相機拍攝的24 人次共5 854組(每組包含主副機位)視頻作為視頻數(shù)據(jù)集,數(shù)據(jù)集拍攝及受試者相關(guān)信息如表2所示。
圖4 健身動作數(shù)據(jù)集部分動作Fig.4 Some actions in fitness action dataset
表1 健身動作數(shù)據(jù)集的動作分類Tab.1 Classification of actions in fitness action dataset
表2 健身動作數(shù)據(jù)集信息Tab.2 Information of fitness action dataset
KTH數(shù)據(jù)集包含6種人體動作(行走、慢跑、奔跑、拳擊、揮手和鼓掌),由25 名受試者在四種不同的場景下完成:室外環(huán)境、室外環(huán)境(縮放鏡頭)、室外環(huán)境(不同著裝)和室內(nèi)環(huán)境。共包含598 段平均時長為4 s 的視頻,由固定相機拍攝完成,拍攝幀率為25 fps,分辨率為160×120。
Weizmann數(shù)據(jù)集 包含10種人體動作(彎腰、開合跳、跳躍移動、原地跳躍、奔跑、側(cè)向跨步移動、單腿跳躍移動、行走、單側(cè)揮手、雙側(cè)揮手)。該數(shù)據(jù)集由9 名受試者拍攝完成,共包含90段視頻,拍攝幀率為50 fps,分辨率為188×144。
3.2.1 健身動作數(shù)據(jù)集上的實驗結(jié)果
為了驗證本方法各模塊對識別結(jié)果的影響,在健身數(shù)據(jù)集上分別進行了以下3 部分實驗:1)分別在包含主副機位拍攝動作的數(shù)據(jù)集上使用不同長度的特征向量表示動作,觀察其對識別結(jié)果的影響并驗證算法對拍攝視角和背景變化的魯棒性;2)應(yīng)用人體中心投影法,觀察其對識別結(jié)果的影響;3)使用不同數(shù)據(jù)量的訓(xùn)練集訓(xùn)練模型,觀察其對識別結(jié)果的影響,并驗證本方法在較小樣本量數(shù)據(jù)集上的可遷移性。
特征向量長度對識別結(jié)果的影響 為了探究特征向量長度對識別結(jié)果的影響并驗證算法對拍攝視角和背景變化的魯棒性,在包含主副機位動作視頻的數(shù)據(jù)集上進行實驗。隨機選取9人次共2 062組視頻作為測試集,其余15人次共3 792組視頻作為訓(xùn)練集。分別使用長度為16、64、144、256、400、576、784、1 024的特征向量表示動作。實驗結(jié)果如圖5~6所示。
圖5 不同長度特征向量的識別率對比Fig.5 Comparison of recognition rate of different feature vector lengths
對比不同特征向量長度下的識別率,長度為16 的特征向量描述動作特征的能力較弱,難以捕捉一些位于四肢環(huán)節(jié)處的動作區(qū)分特征導(dǎo)致識別結(jié)果欠佳;當(dāng)特征向量的長度增加到64 時,對于大多數(shù)動作都能夠較好地識別,同時主機位拍攝動作的識別率達到接近90%;使用長度為144 及以上的特征向量時,識別主機位動作的正確率基本穩(wěn)定在95%以上,副機位識別率也超過80%。當(dāng)長度為576 的特征向量作為分類器輸入時,主機位識別率最高達到了97.24%,副機位識別率也超過90%。測試不同長度特征向量下的識別速度結(jié)果如圖6 所示,識別樣本的時間與特征向量長度同向變化且上升趨勢明顯。識別主副機位動作在使用相同長度特征向量時識別速度相同,故圖6 只顯示主機位數(shù)據(jù)集上的實驗結(jié)果。綜合識別精度和速度,根據(jù)式(7)特征向量長度優(yōu)化函數(shù)確定參數(shù)l′為24,對應(yīng)特征向量長度為576。
圖6 不同長度特征向量的識別時間對比Fig.6 Comparison of recognition time different feature vector lengths
對比算法對主副機位拍攝動作的識別率,對副機位拍攝動作的識別率總體低于主機位。其原因有兩部分:1)相比主機位拍攝健身動作的主特征平面,副機位所拍攝平面中關(guān)節(jié)遮擋較為嚴重,造成提取動作特征更加困難;2)主副機位的拍攝背景不同也會對識別結(jié)果造成影響。盡管如此,算法對副機位拍攝動作的識別率最高仍能達到91.77%,證明方法對相機視角的變化和背景改變具有一定魯棒性。
人體中心投影法對識別結(jié)果的影響 為了驗證所提出的人體中心投影法對識別結(jié)果的影響,對比了應(yīng)用人體中心投影法和圖像坐標系投影識別主機位拍攝健身動作的結(jié)果。對比結(jié)果如圖7 所示,相比圖像坐標系投影,應(yīng)用人體中心投影法使得動作識別率在大部分情況下都有所提升。
圖7 人體中心投影法與圖像坐標系投影的識別率對比Fig.7 Comparison of recognition rates of human central projection and image coordinate system projection
由于健身動作數(shù)據(jù)集中所有動作均在原地執(zhí)行,運動過程中整體無關(guān)位移對動作識別造成的影響較小,故人體中心投影法對動作識別性能的提升幅度有限。
訓(xùn)練集大小對識別結(jié)果的影響 為了驗證本文方法在數(shù)據(jù)量較小的數(shù)據(jù)集上的識別能力,在主機位拍攝的健身動作數(shù)據(jù)集中進行實驗。分別使用包含1、2、3、7、10、13和15人次動作視頻的訓(xùn)練集進行訓(xùn)練,仍用包含9 人次視頻的測試集進行測試。實驗結(jié)果如表3 所示:識別率與訓(xùn)練集數(shù)據(jù)量同向變化,但隨著數(shù)據(jù)量的增長,增加訓(xùn)練樣本對于識別正確率的提升幅度逐漸下降。當(dāng)使用1人次健身動作視頻(每類動作含有1~10 個樣本不等)作為訓(xùn)練集時,測試能夠獲得85.45%的正確率,這是由于一方面本文方法使用了最優(yōu)化長度的特征向量表示動作,另一方面所使用的分類器對于小樣本量數(shù)據(jù)集也有較好的識別效果。結(jié)果說明本方法在較小樣本量的數(shù)據(jù)集上擁有較好的識別能力。
表3 不同訓(xùn)練集數(shù)據(jù)量的識別率對比 單位:%Tab.3 Recognition rate comparison with different training data sizes unit:%
3.2.2 公開數(shù)據(jù)集上的實驗結(jié)果
KTH 數(shù)據(jù)集 按照Schüldt 等[26]的方法劃分測試集和訓(xùn)練集,訓(xùn)練集包含16名受試者的動作視頻,測試集包含9名受試者的動作視頻,用本文方法對其進行數(shù)據(jù)處理,實驗結(jié)果如表4所示。
表4 本文方法在KTH數(shù)據(jù)集上識別率結(jié)果 單位:%Tab.4 Recognition rate of the proposed method on KTH dataset unit:%
應(yīng)用人體中心投影法對識別結(jié)果的改善對比如圖8所示。結(jié)果顯示,對于KTH 數(shù)據(jù)集中的6個動作,應(yīng)用人體中心投影能夠?qū)Τ瓝魟幼魍獾奈鍌€動作進行更為精確的識別,特別是對行走、慢跑、奔跑三個動作的改進效果更為明顯。這是由于在圖像坐標系中,行走、慢跑、奔跑動作中大范圍的人體整體位移覆蓋了動作間的有效區(qū)分特征,在將其消除后識別率得到大幅提高。最終在KTH數(shù)據(jù)集上算法識別率達到91.67%,應(yīng)用人體中心投影法使得整體識別率提升了14.57%。
圖8 應(yīng)用人體中心投影法前后識別率對比Fig.8 Comparison of recognition rate before and after applying human central projection
拳擊動作是唯一在應(yīng)用人體中心投影法后識別率下降的動作類別,誤識別為慢跑或奔跑。其原因是:在消除了較大范圍的整體位移后提取出奔跑和慢跑動作的特征與拳擊動作發(fā)生混淆。通過觀察動作識別結(jié)果,發(fā)生誤檢的拳擊動作中受試者出拳幅度往往較小且方向水平,與奔跑和慢跑動作的上肢環(huán)節(jié)運動軌跡相似,從而引起誤檢。針對此類個別動作類別間的混淆問題,后續(xù)可通過增加局部運動特征權(quán)重予以解決。
Weizmann數(shù)據(jù)集 將數(shù)據(jù)集劃分為包含6名受試者的訓(xùn)練集和包含3 名受試者的測試集,用本文方法進行數(shù)據(jù)處理、訓(xùn)練和測試,實驗結(jié)果如表5和圖9所示。除奔跑和原地跳躍兩個動作外,對其余8 個動作的識別率均為100%,在Weizmann數(shù)據(jù)集上平均識別率為90%。
表5 Weizmann數(shù)據(jù)集識別率 單位:%Tab.5 Recognition rate on Weizmann dataset unit:%
圖9 應(yīng)用人體中心投影法前后識別率對比Fig.9 Comparison of recognition rate before and after applying human central projection
圖9 中呈現(xiàn)的四類動作在應(yīng)用人體中心投影法前識別率較低,通過消除運動中的整體位移使得各自的識別率得到了較大程度改善,其中跳躍移動和側(cè)向跨步移動的識別率達到了100%。對該數(shù)據(jù)集總體識別率提升了16.67%。
在KTH 數(shù)據(jù)集和Weizmann 數(shù)據(jù)集上的實驗結(jié)果表明,本方法對于同類型的數(shù)據(jù)集具有較好的泛化能力,能夠應(yīng)用于類似的動作識別任務(wù)。另外,應(yīng)用人體中心投影法能夠消除健身動作中的人體整體位移從而提升識別率。盡管改進投影策略使得對KTH 數(shù)據(jù)集中拳擊動作識別率降低,但從整體上較大幅度地提高了算法對各類動作的識別率。另外,消除人體整體位移使得算法能夠提取各關(guān)節(jié)間的相對運動特征完成動作識別,這對于進一步提取人體局部運動特征和進行動作質(zhì)量評價是非常重要的。
本文方法與其他方法實驗比較 為了驗證本文方法在公開數(shù)據(jù)集上的識別能力,與其他同類型方法進行了比較。表6 列出四種動作識別方法在兩個公開數(shù)據(jù)集上的識別結(jié)果,均為基于特征提取的動作識別方法。四類方法分別利用局部時空特征[26]、時空興趣點[27]、隨機時間規(guī)劃[28]和方向梯度直方圖[29]描述動作特征,并結(jié)合分類算法完成動作識別。如表6 所示,本文方法在兩個公開動作識別數(shù)據(jù)集上的識別精度均高于同類型其他方法。
表6 本文方法與其他方法識別率對比Tab.6 Comparison of recognition rate of the proposed method with other methods
針對健身動作識別場景,本文結(jié)合人體中心投影法和運動骨架編碼提出了一種高效的動作識別方法,能夠有效且快速識別健身動作。首先,基于精簡人體骨架模型提取人體運動骨架信息;然后,通過人體中心投影提取運動特征區(qū)域,消除健身動作中人體整體位移的干擾;最后,進行骨架信息編碼和動作識別。在自建健身數(shù)據(jù)集和公開數(shù)據(jù)集上均獲得了較好的識別效果,并證明本方法在由固定相機位拍攝的動作數(shù)據(jù)上有較好的可遷移性,所提出的人體中心投影法能夠消除運動過程中人體無關(guān)位移的影響從而改善動作識別效果。在今后的研究中,將考慮關(guān)節(jié)點之間的相對關(guān)系以及人體局部運動特征,進一步提高動作識別率并為動作評估創(chuàng)造條件。未來的工作將在本文的研究基礎(chǔ)上對健身動作進行相應(yīng)的評級和評分,完善智能健身指導(dǎo)系統(tǒng)。