宋震,張宇姝,楊剛
(1.中央戲劇學院,北京 100710;2.北京林業(yè)大學,北京 100083)
近年來,對人體動作進行識別和評價正逐漸成為研究和應(yīng)用熱點。動作識別是指對給定的動作序列數(shù)據(jù)(視頻或三維動作序列)進行分析,從中識別并判斷出其包含的動作類別。自動人體動作識別在監(jiān)控[1-4],人機交互[5],輔助技術(shù)[6]和消費者行為分析[7]等方面都有著廣泛的應(yīng)用。動作評價則是對某一標準動作的完成質(zhì)量進行評價,其多應(yīng)用于體操、劃船、舞蹈等專業(yè)領(lǐng)域的動作評判和動作訓(xùn)練中。動作評價往往需要在動作識別的基礎(chǔ)上進行,通過增加專家知識來對專業(yè)領(lǐng)域動作的規(guī)范性、流暢性、藝術(shù)性進行判斷。
動作識別與動作評價之間有顯著區(qū)別:動作識別可以看作一個多分類問題,主要在于定量地比較輸入數(shù)據(jù)和標準參考的相似性,然后輸出動作類型的標簽;在動作評價中,則并非單純地進行數(shù)據(jù)相似性判定,而是側(cè)重于在專家知識的指導(dǎo)下,對專業(yè)領(lǐng)域動作的規(guī)范性、流暢性、藝術(shù)性甚至是人體肌肉發(fā)力程度的分析評價,衡量的是一種更深層次、更具專業(yè)性質(zhì)的相似度。但動作識別和動作評價并不是完全獨立的兩項工作,兩者在技術(shù)環(huán)節(jié)和技術(shù)方法上有著密不可分的關(guān)系,例如,二者都需要對動作序列進行時空對齊等預(yù)處理、都需要對動作進行特征提取等。而動作評價往往需要在動作識別中特征提取基礎(chǔ)之上,進一步結(jié)合專家知識展開評價計算。
經(jīng)過數(shù)十年的發(fā)展,動作識別的相關(guān)研究工作不僅數(shù)量豐富,而且已經(jīng)取得了很好的效果。而動作評價相關(guān)研究還處于探索階段,目前雖然已有一些關(guān)于動作評價的文章、系統(tǒng),但他們所針對的主要還是簡單、重復(fù)性的動作,比如高爾夫球[8]、羽毛球[9]、劃船等體育動作;比較的也是定量的數(shù)據(jù),如關(guān)節(jié)角度、速度、加速度等。而健美操[10]、舞蹈[11]、太極拳[12]、京劇表演[13]等動作的評價則具有更高的復(fù)雜性,對他們的評價不能僅限于簡單的姿態(tài)參數(shù),還要分析更高層面的專業(yè)“相似度”。
在廣泛分析相關(guān)研究工作的基礎(chǔ)上,本文對動作識別與動作評價的關(guān)鍵技術(shù)環(huán)節(jié)、主要技術(shù)方法進行了系統(tǒng)分析與梳理,得到了如圖1所示的技術(shù)框架圖。根據(jù)圖1 所示,動作識別和動作評價首先都需要進行數(shù)據(jù)輸入、數(shù)據(jù)預(yù)處理和特征提?。恢?,動作識別會基于所提取的特征進行動作分類;而動作評價則需要結(jié)合領(lǐng)域?qū)<抑R,在動作特征的基礎(chǔ)上進一步提取出評價特征,以進行動作評價。
本文將基于圖1 所示的技術(shù)路線展開討論,分別從數(shù)據(jù)對象、數(shù)據(jù)預(yù)處理、特征提取、動作識別的分類方法和動作評價研究這幾個方面出發(fā)對相關(guān)研究工作進行系統(tǒng)、全面地歸納;分析各種典型方法的研究進展、優(yōu)缺點及其應(yīng)用情況;并對當前研究的難點問題以及未來的發(fā)展趨勢進行總結(jié)與展望。
圖1 動作識別與動作評價的技術(shù)框架圖
人體動作識別和動作評價中所使用的輸入數(shù)據(jù)一般有兩種:視頻數(shù)據(jù)和3D骨骼數(shù)據(jù)。
基于視頻數(shù)據(jù)的動作識別就是從相機拍攝的動作視頻序列中識別出人體動作,解決這種基于視頻的動作識別問題有兩種思路:一是直接抽取并分類序列的時空特征的方法;二是提取骨骼信息(2D 或3D 骨骼信息)進行訓(xùn)練的方法?;谝曨l的動作識別和圖像分類很相似,只是相比于圖像分類,視頻多了一個時序維度。由于視頻數(shù)據(jù)的獲取非常方便,因此受到研究和應(yīng)用的青睞,相關(guān)工作層出不窮。但視頻數(shù)據(jù)在拍攝時容易出現(xiàn)遮擋、抖動、視角變化等情況,這也為動作識別帶來了困難。
隨著光學和慣性動作捕捉設(shè)備的進步,人們可以直接捕捉人體動作的3D 骨骼數(shù)據(jù)。3D 骨骼數(shù)據(jù)具體來說就是骨骼動畫數(shù)據(jù),它是以圖形形式對人體所進行的描述。如圖2 是一個典型的人體骨骼示例圖。模型骨骼數(shù)量一般都有一個限制,以使得既能全面覆蓋所需骨骼信息,又能減少數(shù)據(jù)冗余。而且通常會選擇模型的盆骨做為模型的根骨骼,基于根骨骼,可以遞推出各個骨骼相對于根骨的轉(zhuǎn)換矩陣。3D 骨骼數(shù)據(jù)可以更加直接的表示身體部位運動相關(guān)特征,如關(guān)節(jié)角度、速度等,從而可以更方便準確地進行動作識別[14]。
圖2 人體骨骼示意圖
為了使數(shù)據(jù)更加精確且便于進行后續(xù)工作,對其進行預(yù)處理是動作識別首先要完成的步驟,預(yù)處理包括去噪和時空對齊問題。
3D 骨骼數(shù)據(jù)基本不受采集環(huán)境的影響,噪聲很少,因此無需去噪處理。而視頻數(shù)據(jù),由于測量時受到一些外在不確定因素的影響,原始數(shù)據(jù)會存在信息不穩(wěn)定或者冗余的現(xiàn)象,所以必須進行處理。視頻數(shù)據(jù)的去噪處理包括空洞修復(fù)、圖像平滑等操作[15]。Diebel 等人[16]最先提出了一種基于馬爾可夫隨機場的深度升采樣方法進行圖像平滑處理。Park 等人[17]通過改進原始馬爾可夫隨機場模型中的平滑約束項,并使用彩色圖像的分割信息以及彩色圖像的梯度信息作為新的約束項,解決了之前方法處理結(jié)果中的深度圖像邊緣過平滑的問題。
所謂“時空對齊問題”是指:在比較兩個骨骼動作時,需要保證所比較的兩套動作在時間上快慢基本一致,在空間上大小基本相同。具體而言,時間上,人完成動作的快慢是不同的,必須先對齊兩個序列,使關(guān)鍵幀能對應(yīng)起來;空間上,不同人的骨骼大小不同,這對某些參數(shù)的比較會造成干擾,比如關(guān)節(jié)角度、角速度等,所以要先進行骨骼標準化處理。
關(guān)于對齊時間序列,Nowozin和Shotton[18]采用了一個固定的滑動窗口,引入了時間錨定動作的動作點概念[19]。關(guān)于對齊空間骨骼,F(xiàn)otini等[14]在數(shù)據(jù)分析之前,應(yīng)用骨骼標準化作為預(yù)處理步驟,旨在防止由于身體結(jié)構(gòu)差異導(dǎo)致的錯誤分析。Asteriadis等[20]使用身體之間(由肩部和軀干3D位置提?。┑男D(zhuǎn)偏移實現(xiàn)空間動作對齊。
特征描述是動作識別和分析的前提,它是將原始特征轉(zhuǎn)換為一組具有明顯物理意義(如幾何特征、紋理)或者統(tǒng)計意義的特征,以突出更具有代表性的特征,是一種提取有效信息的方法。從序列中將描述人體姿勢的有效特征提取出來是保證準確識別動作的重要前提。
視頻數(shù)據(jù)和3D骨骼數(shù)據(jù)差異比較大,對其進行特征描述的方式也是不同的。視頻數(shù)據(jù)的特征描述可以分為局部描述和全局描述兩類。3D骨骼數(shù)據(jù)的特征描述可以分為三類:(1)基于關(guān)節(jié)的描述符;(2)基于挖掘的描述符;(3)基于動力學的描述符。
下面我們對這些特征描述方法分別進行介紹。
3.1.1局部特征描述
局部特征描述是一種由下到上的描述方式,是從特征點周圍提取出有用的幾何區(qū)域,并生成一個標識性的向量來代表這個區(qū)域的特征[21]。局部特征不容易受環(huán)境噪聲、物體遮擋或者人體運動變化的影響,對縮放、平移和旋轉(zhuǎn)等操作也具有較好的穩(wěn)定性。
局部特征的提取一般分為局部特征區(qū)域的檢測和對局部特征區(qū)域描述兩部分。局部特征區(qū)域檢測一般針對由運動突變引起的時空興趣點,因為在運動突變時產(chǎn)生的點包含了對人體動作進行分析的大部分信息。Laptev[22]提出的3Dharris算子在Moravec角點算子的基礎(chǔ)之上進行了嚴格的數(shù)學建模和改進,它能夠檢測運動目標在局部的時空維度里同時產(chǎn)生顯著變化的點,將二維Harris角點檢測擴展到了時空域。
而局部特征區(qū)域描述,它的核心問題是可區(qū)分性和不變性(魯棒性),其描述子應(yīng)該對背景的雜亂程度,尺度和方向變化等均不敏感。局部特征區(qū)域描述中最常用的方法是SIFT描述符,它利用圖像局部的梯度方向,為每個關(guān)鍵點分配一個或多個方向參數(shù),通過局部梯度的分布或者目標邊緣方向來對局部目標的外觀和形狀進行特征描述。Wang[23]比較了各種局部描述算子,并發(fā)現(xiàn)在大多數(shù)情況下整合了梯度和光流信息的描述算子其效果最好。
3.1.2全局特征描述
全局特征描述就是把識別目標當作一個整體進行描述[24],全面涵蓋了人體信息,代表著圖像中的高層特征或語意。但由于容易受到識別目標定位的準確性以及背景剔除等圖像預(yù)處理的影響,全局特征描述也具有一定的局限性,例如對噪聲、遮擋以及攝像機視角變化等因素十分敏感。
Bobick等人[25]以兩種方式把監(jiān)測視頻里運動目標的輪廓變化信息聚合成二維圖像,采用運動歷史圖(Motion History Image,MHI)來反映不同姿勢在運動過程中存在的先后順序。TASWEER 等[26]利用歸一化距離和關(guān)節(jié)流的特征來處理與某些動作最相關(guān)的注意關(guān)節(jié),并設(shè)計了一種新的基于骨骼的動作識別的注意關(guān)節(jié)圖卷積神經(jīng)網(wǎng)絡(luò),在三個公共基準上達到了最先進的性能。
3.2.1基于關(guān)節(jié)的描述符
基于關(guān)節(jié)的描述符旨在建立身體關(guān)節(jié)位置之間的相關(guān)性。最簡單的關(guān)聯(lián)身體關(guān)節(jié)位置的方法就是考慮所有3D關(guān)節(jié)之間兩兩成對的距離。Masood 等人[27]在文獻中,通過(1)當前幀中所有可能的關(guān)節(jié)對之間的距離;(2)當前幀和前一幀中的關(guān)節(jié)之間的距離;(3)當前幀和中性姿勢(通過平均所有動作序列的初始骨架計算)的關(guān)節(jié)之間的距離來表示身體姿勢。每個單獨的特征值通過K-means聚類為5個組中的一個,并用二進制向量來表示每個聚類索引。但這種描述符缺少時間信息,對動作的描述不夠精確。
3.2.2基于挖掘的描述符
基于挖掘的描述符指根據(jù)身體部位對動作的參與情況來區(qū)分動作類別。Wang 等人[28]將人體分成五個身體部位,采用空間域中的對比挖掘算法[29]來檢測身體部位的各種姿勢,這些身體部位的集合可以形成一個數(shù)據(jù)字典,通過采用詞袋模型(bag-of-words)方法,動作序列被表示為檢測到的子集的直方圖,并且采用1對1交叉核SVM(1-vs-1 intersection kernel SVMs)來對序列進行分類。雖然每個人執(zhí)行相同的動作會有自己的特性,但是通常動作涉及的關(guān)節(jié)子集是類似的,因此檢測參與動作的關(guān)節(jié)子集可以幫助區(qū)分不同的動作類別。
3.2.3基于動力學的描述符
基于動力學的描述符著重于將動作表示為關(guān)節(jié)三維軌跡的集合,可以更加清晰直觀地描述骨骼的特征。Zanfir等人[30]將動作表示為隨著時間的推移身體關(guān)節(jié)位置的連續(xù)和可微函數(shù),可以在當前時間步的周圍設(shè)置一個窗口,在窗口中通過二階泰勒變換,在局部近似地逼近這個表示人體動作的函數(shù)。這樣就可以通過當前的關(guān)節(jié)位置和人體關(guān)節(jié)的速度和加速度等微分特性來表征局部三維人體姿態(tài)。
通過以上步驟提取出特征之后,就可以基于特征來構(gòu)建分類器以進行動作的分類。分類算法是動作識別過程中最后也是最關(guān)鍵的一部分,它根據(jù)特征向量進行訓(xùn)練,從而給每一個被測對象進行不同類別的標記。分類算法有很多,在這里分成兩種:傳統(tǒng)的方法和基于深度學習的方法進行介紹。傳統(tǒng)的方法包括隱馬爾可夫模型、支持向量機等;而基于深度學習的方法是目前使用最廣、性能最先進的方法。
隱馬爾可夫模型(HMMs)是歷史比較長、應(yīng)用非常廣泛的一種方法。HMMs是一種與時序有關(guān)的,基于轉(zhuǎn)移概率和傳輸概率的隨機模型,系統(tǒng)當前所處狀態(tài)的概率只與前一個時刻的狀態(tài)有關(guān),與其它歷史狀態(tài)條件無關(guān)。在HMMs的識別過程中,首先提取出特征向量序列,然后通過學習算法進行模型參數(shù)訓(xùn)練,最后對未知的運動序列進行識別分類。Yamato等人[31]首次用HMMs進行人體動作姿態(tài)的識別,之后又出現(xiàn)了HMMs的各種改進模型并成為人體動作識別的主流方法。Duong等人[32]提出了S-HSMM(Switching Hidden-semi Markov Model)模型,S-HSMM的識別性能高于HHMMs,但是算法復(fù)雜度較高。
支持向量機(Support Vector Machine,SVM)是機器學習領(lǐng)域最常用的一種分類方法,它是一類按監(jiān)督學習方式對數(shù)據(jù)進行二元分類的廣義線性分類器,其決策邊界是對學習樣本求解的最大邊距超平面[33,34]。使用SVM進行姿態(tài)識別的文獻很多,1995年,Corinna Cortes 和Vapnik提出了軟邊距的非線性SVM并將其應(yīng)用于手寫字符識別問題,這份研究為SVM在各領(lǐng)域的應(yīng)用提供了參考。Manzi 等人[35]利用X-means 算法提取關(guān)鍵位姿特征,經(jīng)過自組織特征映射網(wǎng)絡(luò)優(yōu)化訓(xùn)練后采用多類SVM進行分類識別。該方法識別準確率高,但是不能識別數(shù)據(jù)集以外的未知動作。
近年來,動作識別的算法研究仍然在逐步地發(fā)展,尤其是基于深度學習的動作識別算法,使得動作識別的準確率大大提高。
卷積神經(jīng)網(wǎng)絡(luò)是深度學習的代表算法之一,在動作識別領(lǐng)域也有廣泛的應(yīng)用。Mohamed等人[36]利用RGB-D相機提供的不同類型的視覺數(shù)據(jù),分別采用SVM和CNN兩種方法進行了對比。SVM使用的是3D基礎(chǔ)骨骼特征,CNN使用的是2D深度圖像。最后在FLIC數(shù)據(jù)集和LSP數(shù)據(jù)集上的實驗結(jié)果表明,這兩種方法性能差異不大且都具有較高的精度,在深度圖像上應(yīng)用時,基于CNN的方法更勝一籌。
而Simonyan 等[37]提出的雙流網(wǎng)絡(luò)(Two-Stream Network)采用兩個分支的網(wǎng)絡(luò)架構(gòu),分別捕捉視頻的空間和時間信息??沼蚶肦GB圖像作為輸入提取外觀特征,時域利用光流信息作為輸入提取時序特征,并通過多任務(wù)訓(xùn)練的方法對兩個行為識別數(shù)據(jù)集進行分類,去除過擬合,進而獲得更好的效果。這是目前的基準之一,許多網(wǎng)絡(luò)結(jié)構(gòu)也是在此基礎(chǔ)上進行的后續(xù)探索。雙流結(jié)構(gòu)的優(yōu)點在于精度高,但它的速度比較慢。
綜上所述,不同的動作識別算法由于自身算法結(jié)構(gòu)的差異性以及所采用的特征描述不同,因此適用范圍也有差別,不存在適用所有的分類問題的完美通用的算法,因此要使人體動作識別效果達到相對較高的水平,根據(jù)不同的特征描述和適用范圍選取合適的算法具有重要意義。
動作評價是近些年才逐步發(fā)展起來的研究領(lǐng)域,目前尚沒有研究者對其給出明確的概念定義和理論闡述。根據(jù)動作評價的目的和主要處理過程,本文認為:動作評價是指將輸入的“學習者”數(shù)據(jù)在動作識別之后,與相應(yīng)的“專家”數(shù)據(jù)進行對比,綜合定量相似性和專家知識,對專業(yè)領(lǐng)域動作的規(guī)范性、流暢性、藝術(shù)性分析評價,并給“學習者”以反饋。
動作評價的整體流程和步驟與動作識別有一些共通之處,比如對輸入數(shù)據(jù)的預(yù)處理,對序列的特征描述等。但是針對動作評價的特征描述,是決定評價結(jié)果是否和人類的感受一致以及是否符合專家知識非常關(guān)鍵的一步,而且它和動作識別中的特征描述的側(cè)重點也不太相同,因此,動作評價的特征描述是今后需要研究的重點,下面對已經(jīng)出現(xiàn)的動作評價研究中關(guān)于特征描述的一些想法進行思考討論。
動作評價的工作都會試圖引入更獨特的特征描述方法,目的是尋找一種更具各領(lǐng)域?qū)I(yè)性的數(shù)學表達來表示身體關(guān)節(jié)特征。第一,對于不同的專業(yè)動作,每個身體關(guān)節(jié)在動作中起到的作用是不同的,那么就可以根據(jù)專家知識給各關(guān)節(jié)分配權(quán)重,這會給動作評價打下更好的基礎(chǔ);第二,可以將動作評價與大數(shù)據(jù)結(jié)合起來,這樣一來,對每一個動作細節(jié)如何進行評價都有據(jù)可依,大大增加了動作評價的可靠性;第三,對于某些糾正性的研究,可以自定義規(guī)則并給所有可能的錯誤制定標簽,評價動作執(zhí)行的正確性。
Julia Richter等[38]提出了一種自動和動態(tài)加權(quán)的方法,基于動作參與程度,賦予不同骨骼關(guān)節(jié)不同的重要性,再加上基于動能的描述符采樣,將自動分段和識別的動作實例饋送到動作評估組件,該組件將它們與相應(yīng)的標準參考進行比較,判定它們的相似性。然后利用模糊邏輯提供語義反饋,便于用戶更準確地執(zhí)行操作。呂默等[10]為了輔助裁判對健美操難度動作打分,設(shè)計了基于大數(shù)據(jù)和動作識別算法的健美操輔助評審系統(tǒng)。文中通過擴充動作數(shù)據(jù)建立了評分比對標準數(shù)據(jù)庫?,F(xiàn)有的數(shù)據(jù)庫中記錄的數(shù)據(jù)多為簡單的動作,并不能滿足健美操中高難度動作的識別和評價,故他們在MSR Action3D 數(shù)據(jù)集的基礎(chǔ)上,采集大量高水平運動員的標準動作,再結(jié)合國際權(quán)威標準制作出了比對數(shù)據(jù)庫和評分比對體系。Fotini Patrona等[14]關(guān)于治療性相關(guān)鍛煉的研究也有一定參考價值。他們自己先定義特定于運動的規(guī)則,并確定適當?shù)拈撝?。正確的運動練習動作帶有類別標簽C,其余的類別標簽UB,F(xiàn)O,BK,WP和NBK對應(yīng)于自己規(guī)定的運動錯誤,這樣就可以分析病人的動作執(zhí)行情況,給出評價和指導(dǎo)。
引言中提到過,動作評價的標準和動作識別的相似性是不能混為一談的。動作識別判定相似性是通過定量數(shù)據(jù),如關(guān)節(jié)角度、速度、加速度等,對比待識別動作和標準參考,從而將待識別動作分類。而動作評價則不僅要對比定量相似性,還要對比更高層次的規(guī)范性、流暢性、藝術(shù)性等,側(cè)重于對各種專業(yè)領(lǐng)域的動作,結(jié)合專家知識的指導(dǎo),提出獨特的特征描述方法,再進行分析與評價,衡量的是一種專業(yè)相似性。因此,提出獨特的評價標準是動作評價非常關(guān)鍵的一部分。
首先是定量數(shù)據(jù)(關(guān)節(jié)角度、速度、加速度等)的對比,它也是動作評價中不可或缺的一部分。陳學梅等[8]所研制出的高爾夫揮桿評價系統(tǒng),可以將訓(xùn)練者進行揮桿動作時的關(guān)節(jié)角度與標準揮桿動作進行對比,并給出關(guān)鍵動作處訓(xùn)練者的姿態(tài)與標準姿態(tài)的差異,輔助球員的練習。李奎[9]的工作定義了標準羽毛球揮拍動作,并用非定長稠密軌跡算法對這些動作進行表征,然后以這些標準動作為基準,通過計算待分析動作與標準動作之間的切比雪夫距離來衡量他們之間的相似度,再運用評分公式對羽毛球揮拍動作進行分析評估。
然后是更深層面動作流暢性、藝術(shù)性等的比較。但結(jié)合了專家知識的動作評價研究目前非常稀少,很大程度是因為許多領(lǐng)域的專家知識是專家常年積累出的感性感受,是一種經(jīng)驗式的知識,而且“使用基于動作的特征面臨的最大挑戰(zhàn)之一,就是語義相似的動作可能不一定在數(shù)值上相似”[39]。王臺瑞等人在京劇教學中,基于3D動捕得到的數(shù)據(jù)分析了專業(yè)表演者與學習者動作的異同。京劇表演的內(nèi)容、形式,演員的表情、招式都是按照一定的程式來呈現(xiàn)的,而非由演員隨意發(fā)揮,如何從客觀定量數(shù)據(jù)中評價演員對藝術(shù)性的表現(xiàn),是一件很困難的工作。研究有9個受試者,其中有科班學生、戲曲學校學生(非科班)、有扎實的舞蹈基礎(chǔ)的學生以及其他普通學生,實驗監(jiān)測了每個人的速度、加速度、角速度,并讓京劇專家分別對他們的表現(xiàn)評分。結(jié)果專家評分高的學生,骨骼數(shù)據(jù)與專家之間的相似性并不一定高,所以要把客觀數(shù)據(jù)與藝術(shù)性等的評價很好地結(jié)合起來有著巨大的挑戰(zhàn)性,是今后研究的重點內(nèi)容。
近年來,人體動作的識別和評價研究已經(jīng)取得了非常重要的成果,展現(xiàn)出了良好的發(fā)展前景。但下述幾個方面仍是今后研究的難點問題:
(1)特征選擇的困難。特征向量的選擇非常關(guān)鍵,直接影響到所采用的識別、評價方法以及識別、評價的性能。如果選取過多的特征,特征向量維數(shù)就會過大,相應(yīng)地就會增加計算的復(fù)雜度,相反,如果選取的特征過少,又可能無法獲取較高的識別準確率。因此必須在選取合適的特征和獲取較高的識別、評價準確率之間進行折中權(quán)衡。
(2)專家知識應(yīng)用的難度。進行動作評價時,特征描述必須基于各領(lǐng)域的專家知識。但專家知識專業(yè)性非常強,而且一般與計算機領(lǐng)域沒有過多的聯(lián)系,要想找到能夠較好表征專業(yè)性動作的特征描述方法還是非常具有挑戰(zhàn)性的。
根據(jù)本文的廣泛調(diào)研,之前的大部分研究側(cè)重于自動人體動作識別,并且已經(jīng)取得了很不錯的成果,而動作識別和動作評價雖然是兩種不相同的工作,但動作評價有很多部分是基于動作識別的,他們之間有著千絲萬縷的聯(lián)系,關(guān)于未來發(fā)展趨勢的展望如下:
1.動作識別方面
(1)運用深度學習,一般性動作識別已經(jīng)可以達到相當高的程度,彭偉等人[40]首次基于神經(jīng)架構(gòu)搜索自動生成圖卷積結(jié)構(gòu),在NTU RGB+D和Kinetics數(shù)據(jù)集上準確性已經(jīng)高達95.7%,刷新了人體動作識別準確率。
(2)但對于專業(yè)性更強的復(fù)雜動作識別,其實當前的模型還是有著“力不從心”的問題:
(a)對一些密集、快速的運動,如健美操里的各種空翻,不一定能準確識別出每一次的動作;
(b)空間語義信息存在細微差別,如在健美操或者京劇表演中腿部姿態(tài)的些微不同可能代表著不同的語義,但目前并不能很好地識別出它們之間的不同。因此高層視覺的理解表示是一個巨大的難題。
2.動作評價方面
(1)目前雖然有一些關(guān)于動作評價的文章,以及高爾夫、健美操、舞蹈、太極等方面的評價系統(tǒng),但他們所分析評價的基本還是簡單、規(guī)范、標準的動作。不過他們提出的一些對特征進行描述的思想也可以運用到之后的研究中,比如給各個關(guān)節(jié)分配不同的權(quán)重、考慮動作質(zhì)量與運動學和動力學的聯(lián)系等等。
(2)復(fù)雜動作評價還面臨著如下挑戰(zhàn):
(a)如何提出更獨特的特征描述方法來對專業(yè)動作進行評價,這將是今后研究的一個重點;
(b)怎么將人類的感知和量化的數(shù)據(jù)通過一定的規(guī)則進行轉(zhuǎn)換,將專家知識更好地融入評價標準中,深層地理解動作的語義以更好地進行評價。
集前人的工作精華,有助于更好地實現(xiàn)動作識別和動作評價。未來研究可以著眼于深入研究動作的高層語義理解,從而實現(xiàn)真正的“智能”識別與評價。