• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于姿態(tài)估計(jì)與GRU 網(wǎng)絡(luò)的人體康復(fù)動(dòng)作識別

    2021-01-15 07:17:16胡北辰
    計(jì)算機(jī)工程 2021年1期
    關(guān)鍵詞:關(guān)節(jié)點(diǎn)姿態(tài)準(zhǔn)確率

    閆 航,陳 剛,佟 瑤,姬 波,胡北辰

    (1.鄭州大學(xué) 信息工程學(xué)院,鄭州 450001;2.鄭州大學(xué) 互聯(lián)網(wǎng)醫(yī)療與健康服務(wù)協(xié)同創(chuàng)新中心,鄭州 450001;3.鄭州大學(xué) 護(hù)理與健康學(xué)院,鄭州 450001)

    0 概述

    腦卒中發(fā)病人數(shù)逐年上升,已成為威脅全球居民生命健康的重大疾病,具有極高的致殘率,其中重度殘疾者約占40%[1]。大量研究表明,由于大腦的可塑性,因此長期規(guī)范化的康復(fù)訓(xùn)練能夠有效幫助腦卒中患者恢復(fù)大部分的運(yùn)動(dòng)控制和日常生活能力,也是患者出院后進(jìn)行中長期康復(fù)的主要途徑[2]。而居家環(huán)境下的康復(fù)過程缺乏必要的指導(dǎo),家屬由于外出工作等原因也難以做到實(shí)時(shí)監(jiān)督,因此患者普遍存在康復(fù)訓(xùn)練依從性較差的問題[3],而將基于視頻的動(dòng)作識別技術(shù)用于識別人體的康復(fù)鍛煉動(dòng)作,實(shí)時(shí)監(jiān)督和指導(dǎo)患者的康復(fù)過程,可以提高中長期訓(xùn)練的康復(fù)效果。

    目前,學(xué)者們對基于可穿戴設(shè)備的康復(fù)動(dòng)作識別方法進(jìn)行大量研究。文獻(xiàn)[4]采用三軸加速度計(jì)獲取患者的運(yùn)動(dòng)信息,通過支持向量機(jī)(Support Vector Machine,SVM)識別肩關(guān)節(jié)屈伸、手臂伸展等多種康復(fù)動(dòng)作。文獻(xiàn)[5]采用加速度傳感器采集腦癱兒童的活動(dòng)數(shù)據(jù),分別結(jié)合決策樹、SVM 和隨機(jī)森林識別患者動(dòng)作。文獻(xiàn)[6]通過可穿戴設(shè)備獲得上肢康復(fù)訓(xùn)練的常見動(dòng)作樣本,提出改進(jìn)的SVM 分類器,實(shí)現(xiàn)對6 種康復(fù)動(dòng)作的識別。然而,此類方式會對人體活動(dòng)造成一定干擾,患者需要同時(shí)佩戴多個(gè)設(shè)備才能實(shí)現(xiàn)更好的識別效果。

    基于機(jī)器視覺的康復(fù)動(dòng)作識別不會對人體活動(dòng)造成過多干擾,因此具有更好的應(yīng)用前景,但是視頻處理的復(fù)雜性導(dǎo)致該領(lǐng)域的研究充滿挑戰(zhàn)[7]。相比吃飯、喝水、刷牙等簡單的日常行為,腦卒中康復(fù)動(dòng)作更加復(fù)雜,通常可分解為多個(gè)元?jiǎng)幼?,并且?dòng)作持續(xù)時(shí)間較長,因此識別難度較大。傳統(tǒng)人工特征用于動(dòng)作識別時(shí)缺乏足夠的判別能力,難以對復(fù)雜場景的行為進(jìn)行有效建模[8]。深度學(xué)習(xí)能夠自主提取關(guān)鍵特征,包括3D CNN[9]、LRCN[10]、Two-Stream[11]等典型方法,但深度學(xué)習(xí)模型通常參數(shù)量龐大,計(jì)算復(fù)雜度高,制約了其在現(xiàn)實(shí)場景中的應(yīng)用[8]。人體姿態(tài)特征對背景或無關(guān)對象具有較強(qiáng)的魯棒性,包含的運(yùn)動(dòng)信息也更豐富[12]。文獻(xiàn)[13]基于國際生物力學(xué)學(xué)會規(guī)范的康復(fù)動(dòng)作,采用深度相機(jī)Kinect 提取人體姿態(tài)并通過分析關(guān)節(jié)角度的變化進(jìn)行動(dòng)作識別。文獻(xiàn)[14]基于Kinect 獲取骨架關(guān)節(jié)點(diǎn),然后結(jié)合隨機(jī)森林識別老年人的室內(nèi)活動(dòng)動(dòng)作。以上通過傳統(tǒng)分類器或者關(guān)節(jié)角度比對的識別方式需要人工建立復(fù)雜的對照模型,泛化能力較差。文獻(xiàn)[15]采用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)從骨架數(shù)據(jù)中提取時(shí)空特征,顯著提高了對康復(fù)動(dòng)作的識別能力,而RNN 在挖掘時(shí)序關(guān)系時(shí)仍存在一定的局限性。此外,多數(shù)識別算法的輸入需要依賴已獲取的姿態(tài)特征,對RGB 視頻的通用性較差。

    針對上述問題,本文以鄭州大學(xué)第二附屬醫(yī)院神經(jīng)康復(fù)科設(shè)計(jì)的家庭腦卒中康復(fù)動(dòng)作為研究基礎(chǔ),提出一種基于姿態(tài)估計(jì)與門控循環(huán)單元(Gated Recurrent Unit,GRU)網(wǎng)絡(luò)的人體動(dòng)作識別算法Pose-AMGRU。引入OpenPose 姿態(tài)估計(jì)方法[16]對RGB 視頻中等間隔采樣的圖像幀提取骨架關(guān)節(jié)點(diǎn),并通過預(yù)處理進(jìn)一步提高姿態(tài)數(shù)據(jù)的可靠性。結(jié)合注意力機(jī)制構(gòu)建融合三層時(shí)序特征的GRU 網(wǎng)絡(luò),從輸入動(dòng)作特征序列中提取豐富的時(shí)空信息,并通過Softmax 分類器進(jìn)行人體康復(fù)動(dòng)作識別。

    1 人體康復(fù)動(dòng)作識別算法

    本文提出的人體康復(fù)動(dòng)作識別算法主要由人體姿態(tài)估計(jì)、預(yù)處理、特征提取和分類網(wǎng)絡(luò)組成。Pose-AMGRU 識別框架如圖1 所示。

    圖1 Pose-AMGRU 識別框架Fig.1 Framework of Pose-AMGRU recognition

    該框架的輸入為RGB 視頻流,以一定間隔截取視頻幀,通過OpenPose 姿態(tài)估計(jì)方法從中提取包括手臂、腿部以及頸部等18 個(gè)2D 骨架關(guān)節(jié)點(diǎn)。針對姿態(tài)估計(jì)過程中缺失的關(guān)節(jié)點(diǎn),通過計(jì)算相鄰幀中相同關(guān)節(jié)點(diǎn)坐標(biāo)的均值以填充缺失點(diǎn),然后通過霍爾特指數(shù)平滑法減小原始關(guān)節(jié)坐標(biāo)的抖動(dòng)。在直角坐標(biāo)系中將骨架關(guān)節(jié)點(diǎn)轉(zhuǎn)化為26 個(gè)動(dòng)作特征并進(jìn)行歸一化處理,結(jié)合注意力機(jī)制構(gòu)建多層GRU 網(wǎng)絡(luò)挖掘豐富的時(shí)空關(guān)系并融合初級、中級和高級時(shí)序的特征,融合后的特征通過全連接神經(jīng)網(wǎng)絡(luò)(FC)與Softmax 分類器進(jìn)行多種康復(fù)動(dòng)作識別。該算法利用2D 骨架關(guān)節(jié)點(diǎn)的多層次時(shí)序關(guān)系進(jìn)行動(dòng)作識別,相比于3D CNN 等算法具有更強(qiáng)的速度優(yōu)勢,并且由于每一幀只對提取的26 個(gè)關(guān)鍵動(dòng)作特征進(jìn)行處理,構(gòu)建的多層GRU 網(wǎng)絡(luò)相對于主流方法中的CNN網(wǎng)絡(luò)大幅減小了參數(shù)規(guī)模,降低了對海量數(shù)據(jù)集的依賴,模型更易于優(yōu)化。

    1.1 視頻姿態(tài)估計(jì)

    本文采用兼具速度與精度的OpenPose 姿態(tài)估計(jì)方法從視頻中檢測骨架關(guān)節(jié)點(diǎn)。OpenPose 是一種自頂向下、基于深度學(xué)習(xí)的實(shí)時(shí)姿態(tài)估計(jì)方法,能夠?qū)崿F(xiàn)人體面部、軀干、四肢以及手部關(guān)節(jié)點(diǎn)的提取,在多人場景中也能保持速度優(yōu)勢。

    OpenPose 網(wǎng)絡(luò)采取多階段預(yù)測的方式,結(jié)構(gòu)如圖2 所示,引入VGG-19 模型的前10 層作為基礎(chǔ)網(wǎng)絡(luò),將輸入的圖像轉(zhuǎn)化為特征F,通過多層卷積神經(jīng)網(wǎng)絡(luò)(C)分階段回歸L(p)與S(p),其中:L(p)為親和度向量場(Part Affinity Fields,PAFs),描述關(guān)節(jié)點(diǎn)在骨架中的指向;S(p)表示關(guān)節(jié)點(diǎn)的置信度,描述關(guān)節(jié)點(diǎn)的位置信息。

    圖2 OpenPose 網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Structure of OpenPose network

    預(yù)測過程通過前TP個(gè)階段預(yù)測親和度向量場Lt,后TC個(gè)階段預(yù)測置信度St。在每個(gè)階段都將前一階段的結(jié)果與原始特征相融合,用以保留圖像較低與較高層次的特征。當(dāng)1≤t≤TP時(shí),Lt的計(jì)算公式為:

    當(dāng)TP≤t≤TP+Tc時(shí),St的計(jì)算公式為:

    預(yù)測出關(guān)節(jié)點(diǎn)的位置與親和度向量后,采用匈牙利算法對相鄰關(guān)節(jié)點(diǎn)進(jìn)行二分最優(yōu)匹配,最終得到屬于同一個(gè)人體的姿態(tài)信息。姿態(tài)估計(jì)模型需要大量標(biāo)注關(guān)節(jié)點(diǎn)的圖像樣本進(jìn)行訓(xùn)練,本文預(yù)先加載在超大規(guī)模圖像數(shù)據(jù)集COCO 中訓(xùn)練的網(wǎng)絡(luò)參數(shù),在保證檢測精度的同時(shí)能夠簡化訓(xùn)練過程。為加快姿態(tài)估計(jì)速度并減少相鄰視頻幀中的冗余信息,每間隔兩個(gè)視頻幀進(jìn)行一次姿態(tài)運(yùn)算。

    1.2 數(shù)據(jù)預(yù)處理

    OpenPose 兼顧了速度與精度,但應(yīng)用于視頻中時(shí)會出現(xiàn)一定強(qiáng)度的節(jié)點(diǎn)抖動(dòng),且在短暫遮擋、光照劇烈變化、目標(biāo)移動(dòng)過快等復(fù)雜場景下存在關(guān)節(jié)點(diǎn)丟失問題。為了盡可能地補(bǔ)全漏檢的節(jié)點(diǎn)坐標(biāo),假定短時(shí)間內(nèi)關(guān)節(jié)點(diǎn)的移動(dòng)位近似勻速,在時(shí)域上通過結(jié)合相鄰視頻幀的節(jié)點(diǎn)信息計(jì)算缺失點(diǎn)坐標(biāo)。

    時(shí)域均值填充方法如圖3 所示,假設(shè)第i幀存在丟失的關(guān)節(jié)點(diǎn),j表示人體關(guān)節(jié)編號,通過求取間隔K幀內(nèi)的關(guān)節(jié)點(diǎn)均值來填充缺失點(diǎn),缺失點(diǎn)的計(jì)算方法為:

    圖3 時(shí)域均值填充示意圖Fig.3 Schematic diagram of time domain mean filling

    通過在未缺失關(guān)節(jié)點(diǎn)上的實(shí)驗(yàn)結(jié)果表明,當(dāng)K=2 時(shí)能取得較好的填充效果。然后采用霍爾特指數(shù)平滑法對關(guān)節(jié)點(diǎn)坐標(biāo)進(jìn)行平滑操作,去除原始姿態(tài)數(shù)據(jù)中的極值點(diǎn)以減小抖動(dòng),同時(shí)進(jìn)一步修正所填充的關(guān)節(jié)點(diǎn)坐標(biāo),計(jì)算公式為:

    其中:α、β為平滑參數(shù)且通常均設(shè)為0.5;xi、Si、bi分別為第i幀的關(guān)節(jié)點(diǎn)坐標(biāo)檢測值、平滑值和趨勢增量;Si、bi在初始時(shí)分別設(shè)置為第1 幀的關(guān)節(jié)點(diǎn)坐標(biāo)平滑值、第2 幀與第1 幀的關(guān)節(jié)點(diǎn)坐標(biāo)之差。圖4 為坐站活動(dòng)中左手關(guān)節(jié)點(diǎn)的平滑過程。

    圖4 坐站活動(dòng)中左手關(guān)節(jié)點(diǎn)的平滑過程Fig.4 Smoothing process of the left hand joint point in sit-down activities

    1.3 動(dòng)作特征提取

    單個(gè)視頻幀能夠獲取到運(yùn)動(dòng)目標(biāo)的18 個(gè)2D 骨架關(guān)節(jié)點(diǎn)即36 個(gè)特征,為進(jìn)一步減小冗余特征,從中提取能夠表達(dá)人體運(yùn)動(dòng)的顯著性特征。首先去除左右眼、左右耳共4 個(gè)對于所研究動(dòng)作無關(guān)的關(guān)節(jié)點(diǎn),保留的關(guān)節(jié)點(diǎn)為鼻(x1,y1)、頸(x2,y2)、左肩(x3,y3)、右肩(x4,y4)、左肘(x5,y5)、右肘(x6,y6)、左手(x7,y7)、右手(x8,y8)、左腰(x9,y9)、右腰(x10,y10)、左膝(x11,y11)、右膝(x12,y12)、左足(x13,y13)和右足(x14,y14)。人體骨架關(guān)節(jié)點(diǎn)為直角坐標(biāo)系下的絕對坐標(biāo)對于目標(biāo)遠(yuǎn)近、位置和視角變化比較敏感,本文從14 個(gè)關(guān)節(jié)點(diǎn)中基于肢體劃分進(jìn)行矢量運(yùn)算,提取出反映肢體活動(dòng)的13 個(gè)動(dòng)作矢量。

    動(dòng)作矢量提取方式如圖5 所示,計(jì)算方法為同一視頻幀中相鄰的兩個(gè)關(guān)節(jié)點(diǎn)坐標(biāo)之差,計(jì)算公式為:

    其中,Va,Vb,…,Vm為提取的13 個(gè)動(dòng)作矢量,每一個(gè)動(dòng)作矢量為直角坐標(biāo)系下(x,y)兩個(gè)坐標(biāo)值,表征了每個(gè)肢體活動(dòng)的角度與幅度信息。

    圖5 動(dòng)作矢量提取示意圖Fig.5 Schematic diagram of action vector extraction

    骨架關(guān)節(jié)點(diǎn)的取值范圍與視頻分辨率成正比,為統(tǒng)一不同樣本的尺度大小并且減少樣本間的差異,將動(dòng)作矢量V(x,y)進(jìn)行如下處理:

    其中,(vw,vh)為視頻源的分辨率為歸一化為[0,1]的動(dòng)作矢量。由于不同視頻樣本的時(shí)長不一致,因此通過補(bǔ)0 的方式統(tǒng)一時(shí)間步長的大小并將其設(shè)置為T,每個(gè)時(shí)間步長的特征維度為26。

    1.4 分類網(wǎng)絡(luò)

    人體動(dòng)作能夠通過具備時(shí)序關(guān)系的一系列姿態(tài)關(guān)節(jié)點(diǎn)進(jìn)行描述,本文結(jié)合注意力機(jī)制并融合多層時(shí)序信息挖掘具有明顯辨別性的動(dòng)作特征。循環(huán)神經(jīng)網(wǎng)絡(luò)利用可遞歸的循環(huán)單元,通過分析上下文狀態(tài)挖掘時(shí)序信息,但傳統(tǒng)的RNN 無法解決長期依賴問題,限制了其預(yù)測能力。長短時(shí)記憶(Long Short Term Memory,LSTM)網(wǎng)絡(luò)的出現(xiàn)解決了長時(shí)間序列訓(xùn)練過程中的梯度消失問題,并廣泛應(yīng)用于語音識別、機(jī)器翻譯等領(lǐng)域。文獻(xiàn)[17]在LSTM 的基礎(chǔ)上提出GRU 網(wǎng)絡(luò),其在保證性能的同時(shí)相比LSTM 結(jié)構(gòu)更加簡單,并減小了神經(jīng)網(wǎng)絡(luò)的參數(shù)量,其網(wǎng)絡(luò)結(jié)構(gòu)如圖6 所示。

    圖6 GRU 網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Structure of GRU network

    在圖6 中,σ表示Sigmoid 激活函數(shù),GRU單元網(wǎng)絡(luò)將原LSTM 中的輸入門、遺忘門和輸出門整合為更新門zt和重置門rt,并去除了LSTM 的單元狀態(tài)c,僅保留一個(gè)輸出狀態(tài)h。若當(dāng)前時(shí)刻序列的輸入為xt,則GRU 單元網(wǎng)絡(luò)的一次前向計(jì)算為:

    融合多級空間特征的SSD[18]等卷積神經(jīng)網(wǎng)絡(luò)在目標(biāo)檢測領(lǐng)域取得了較好的結(jié)果。受該思想啟發(fā),本文融合不同層次的時(shí)序特征進(jìn)行動(dòng)作識別,同時(shí)結(jié)合注意力機(jī)制增強(qiáng)特征的顯著性,所設(shè)計(jì)的分類網(wǎng)絡(luò)如圖7 所示。

    圖7 分類網(wǎng)絡(luò)結(jié)構(gòu)Fig.7 Structure of classification network

    分類網(wǎng)絡(luò)模型的輸入是從每幀圖像中提取26 個(gè)動(dòng)作特征,時(shí)間步長大小為T。MK 為Masking 層,用于支持變長序列,在GRU 遞歸計(jì)算中忽略特征值全為0 的時(shí)間步長。BN 為Batch Normalization 層,引入可學(xué)習(xí)參數(shù)β、γ,對輸入樣本進(jìn)行批標(biāo)準(zhǔn)化處理,將其轉(zhuǎn)化為均值為0 且方差為1 的分布,能夠改善網(wǎng)絡(luò)梯度并加快訓(xùn)練時(shí)的收斂過程。設(shè)計(jì)三層堆疊的GRU 單元網(wǎng)絡(luò),每層網(wǎng)絡(luò)神經(jīng)元的個(gè)數(shù)為64,底層單元網(wǎng)絡(luò)所有時(shí)刻的輸出狀態(tài)h傳遞給下一層。視頻中每幀圖像對于特定動(dòng)作的分類并非同等重要,為增強(qiáng)關(guān)鍵視頻幀的表達(dá)能力,引入注意力機(jī)制計(jì)算每個(gè)時(shí)間步長輸出特征ht的注意力權(quán)重αt,通過每一時(shí)刻輸出特征與注意力權(quán)重的加權(quán)求和得到每一層的時(shí)空特征v。本文通過神經(jīng)網(wǎng)絡(luò)得到注意力打分函數(shù),計(jì)算公式為:

    其中,Watt、batt分別為注意力網(wǎng)絡(luò)的權(quán)重和偏置。第一層~第三層GRU 單元網(wǎng)絡(luò)通過注意力機(jī)制提取的向量v1、v2、v3分別表達(dá)了低層、中層和高層時(shí)序特征,并將三層時(shí)序特征拼接為融合的特征F:

    然后將融合的時(shí)序特征F通過全連接神經(jīng)網(wǎng)絡(luò)進(jìn)一步整合關(guān)鍵特征,輸出層采用Softmax 分類器進(jìn)行多種康復(fù)動(dòng)作的分類。通過Softmax 激活函數(shù)將多個(gè)神經(jīng)元的輸出轉(zhuǎn)換為0 到1 范圍的置信概率,假設(shè)為Softmax激活函數(shù)輸入向量的第i個(gè)特征,計(jì)算公式為:

    其中,K表示輸入特征個(gè)數(shù),即待分類的類別數(shù),通過將輸入轉(zhuǎn)為概率分布??紤]到人體活動(dòng)過程中除康復(fù)動(dòng)作外,還會出現(xiàn)其他的動(dòng)作類型。為提高算法魯棒性,將日?;顒?dòng)所發(fā)生的動(dòng)作與行為歸為一類并與K-1 種康復(fù)動(dòng)作同時(shí)進(jìn)行分類。對于多分類問題采用交叉熵?fù)p失函數(shù),并引入L2 正則化降低模型過擬合風(fēng)險(xiǎn):

    其中,n表示輸入的樣本批量大小,標(biāo)簽yi為one-hot編碼函數(shù)運(yùn)算時(shí)只保留正確預(yù)測的置信概率,其他值則為0。之后采用Adam 優(yōu)化算法來最小化損失函數(shù),Adam 結(jié)合了多種優(yōu)化算法的優(yōu)勢,通過計(jì)算梯度的一階矩陣和二階矩陣估計(jì)動(dòng)態(tài)調(diào)整每個(gè)參數(shù)的學(xué)習(xí)率,具有計(jì)算高效、迭代過程穩(wěn)定的特點(diǎn)。經(jīng)過多次迭代來訓(xùn)練神經(jīng)網(wǎng)絡(luò)直到參數(shù)收斂,Pose-AMGRU 算法的分類網(wǎng)絡(luò)通過加載訓(xùn)練好的模型對輸入的視頻進(jìn)行動(dòng)作識別。

    分類網(wǎng)絡(luò)應(yīng)結(jié)合實(shí)際動(dòng)作的特點(diǎn)、持續(xù)時(shí)長和視頻幀率選擇輸入的序列長度即時(shí)間步長T,因?yàn)檫^短的時(shí)間步長不能覆蓋一個(gè)完整的動(dòng)作,過長的時(shí)間步長存在的冗余信息不但會降低識別精度,而且會增加模型預(yù)測時(shí)間,所以合理的時(shí)間步長對于識別精度與計(jì)算速度至關(guān)重要。

    2 實(shí)驗(yàn)結(jié)果與分析

    2.1 實(shí)驗(yàn)平臺

    本文實(shí)驗(yàn)處理器采用Intel i7-8750,內(nèi)存為8 GB,顯卡為GTX1060,顯存為6 GB,通過1080P 攝像頭采集視頻,基于Tensorflow 深度學(xué)習(xí)框架進(jìn)行姿態(tài)估計(jì)模型及分類網(wǎng)絡(luò)的搭建,并使用GPU 加速姿態(tài)估計(jì)模型的識別過程。

    2.2 數(shù)據(jù)集

    本文根據(jù)參考文獻(xiàn)[19]設(shè)計(jì)的腦卒中患者家庭康復(fù)動(dòng)作并在專業(yè)護(hù)理醫(yī)師的指導(dǎo)下自建一組康復(fù)動(dòng)作數(shù)據(jù)集,同時(shí)為客觀評價(jià)Pose-AMGRU 算法性能,選取了KTH 公開數(shù)據(jù)集[20]作為對比,數(shù)據(jù)集示例如圖8 所示。

    圖8 數(shù)據(jù)集示例Fig.8 Datasets examples

    KTH 是動(dòng)作識別領(lǐng)域的經(jīng)典數(shù)據(jù)集,包含由25個(gè)志愿者錄制的拳擊、拍手、揮手、慢跑、跑步和步行6 種動(dòng)作。該數(shù)據(jù)集共有599 個(gè)視頻,可細(xì)分為2 391 個(gè)動(dòng)作片段。KTH 中的視頻包含整個(gè)目標(biāo)人體,能夠檢測到完整的姿態(tài)關(guān)節(jié)點(diǎn)。

    康復(fù)動(dòng)作數(shù)據(jù)集由10 位志愿者在6 種不同環(huán)境下采集的動(dòng)作組成,共有2 075 個(gè)視頻。動(dòng)作類型分為5 種康復(fù)動(dòng)作及1 種日?;顒?dòng)動(dòng)作,其中康復(fù)動(dòng)作的具體說明如表1 所示。日?;顒?dòng)動(dòng)作包括慢走、伸展、靜止坐、靜止站等多個(gè)行為狀態(tài)。視頻幀率為15 frame/s,持續(xù)時(shí)長為7 s~15 s。

    表1 腦卒中康復(fù)動(dòng)作描述Table 1 Description of stroke rehabilitation actions

    2.3 訓(xùn)練策略

    KTH 數(shù)據(jù)集參考文獻(xiàn)[19]的劃分規(guī)則選取訓(xùn)練集與測試集,其中訓(xùn)練集的視頻樣本通過對稱變換、隨機(jī)裁剪等方式進(jìn)行數(shù)據(jù)增強(qiáng),將訓(xùn)練集擴(kuò)增1 倍??祻?fù)動(dòng)作數(shù)據(jù)集中按照7∶3 的比例劃分訓(xùn)練集和測試集,并保證測試集中每類動(dòng)作的樣本比例保持平衡。分類網(wǎng)絡(luò)的訓(xùn)練參數(shù)通過高斯分布獲取的隨機(jī)值進(jìn)行初始化,樣本分批量(batch-size)輸入到分類網(wǎng)絡(luò)中。初始學(xué)習(xí)率設(shè)置為0.001,batch-size 為32,時(shí)間步長為500。

    2.4 結(jié)果分析

    2.4.1 識別結(jié)果可視化及序列長度對準(zhǔn)確率的影響

    圖9 為Pose-AMGRU 算法對康復(fù)動(dòng)作識別的可視化結(jié)果,所測試的動(dòng)作類型分別為站位扣手上舉、坐位扣手上舉、站位扣手左右平舉、坐位扣手左右平舉、坐站和日?;顒?dòng)。本文算法對每種康復(fù)動(dòng)作都預(yù)測出較高的置信概率值,表現(xiàn)出較強(qiáng)的區(qū)分能力,在顯卡GTX1060 上的運(yùn)行速度達(dá)到14.23 frame/s。

    為分析輸入的序列長度對識別準(zhǔn)確率的影響,設(shè)置不同的時(shí)間步長輸入到分類網(wǎng)絡(luò)。實(shí)驗(yàn)結(jié)果如圖10 所示,KTH 和康復(fù)動(dòng)作數(shù)據(jù)集分別在80、70 的時(shí)間步長下達(dá)到最優(yōu)識別準(zhǔn)確率,且隨著時(shí)間步長的增加,識別性能出現(xiàn)下降的趨勢。

    圖9 康復(fù)動(dòng)作識別的可視化結(jié)果Fig.9 Visualized results of rehabilitation action recognition

    圖10 不同時(shí)間步長下的識別準(zhǔn)確率比較Fig.10 Comparison of recognition accuracy under different time steps

    2.4.2 網(wǎng)絡(luò)模型結(jié)構(gòu)與數(shù)據(jù)預(yù)處理對準(zhǔn)確率的影響

    本文驗(yàn)證融合多級時(shí)序特征與引入注意力機(jī)制的網(wǎng)絡(luò)模型有效性,實(shí)驗(yàn)結(jié)果如表2 所示。可以看出,引入注意力機(jī)制的GRU 網(wǎng)絡(luò)顯著提高了識別效果,未融合三層時(shí)序特征的GRU 網(wǎng)絡(luò)識別效果也優(yōu)于單層GRU 網(wǎng)絡(luò),而融合三層時(shí)序特征的GRU 網(wǎng)絡(luò)進(jìn)一步提高了識別準(zhǔn)確率,其在KTH 和康復(fù)動(dòng)作數(shù)據(jù)集中的識別準(zhǔn)確率相比單層GRU 網(wǎng)絡(luò)分別提高了6.48 和0.97 個(gè)百分點(diǎn)。

    表2 不同網(wǎng)絡(luò)模型結(jié)構(gòu)的識別準(zhǔn)確率對比Table 2 Comparison of recognition accuracy of different network model structures %

    本文對原始骨架關(guān)節(jié)點(diǎn)進(jìn)行缺失點(diǎn)填充、數(shù)據(jù)平滑和歸一化等數(shù)據(jù)預(yù)處理操作,數(shù)據(jù)預(yù)處理對識別準(zhǔn)確率的影響如表3 所示。相比原始關(guān)節(jié)點(diǎn)數(shù)據(jù),預(yù)處理后的關(guān)節(jié)點(diǎn)數(shù)據(jù)進(jìn)一步提高了姿態(tài)特征的魯棒性和識別準(zhǔn)確率,而康復(fù)動(dòng)作數(shù)據(jù)集中的視頻分辨率較高,因此原始關(guān)節(jié)點(diǎn)也取得了較高的識別準(zhǔn)確率。

    表3 數(shù)據(jù)預(yù)處理對識別準(zhǔn)確率的影響Table 3 Influence of data preprocessing on recognition accuracy %

    2.4.3 不同動(dòng)作識別算法的準(zhǔn)確率對比

    圖11 為本文Pose-AMGRU 算法在KTH 數(shù)據(jù)集上的混淆矩陣??梢钥闯觯琍ose-AMGRU 算法對拳擊、拍手、慢跑和步行這4 種動(dòng)作的識別準(zhǔn)確率高達(dá)100%。

    圖11 Pose-AMGRU 算法在KTH 數(shù)據(jù)集上的混淆矩陣Fig.11 Confusion matrix of Pose-AMGRU algorithm on KTH dataset

    表4 為本文Pose-AMGRU 算法在KTH 數(shù)據(jù)集上與其他人體康復(fù)動(dòng)作識別算法的識別準(zhǔn)確率對比結(jié)果。對比算法具體為:1)基于3D CNN 的人體康復(fù)動(dòng)作識別算法[9],從空間與時(shí)間維度同時(shí)進(jìn)行卷積來提取時(shí)空特征進(jìn)行動(dòng)作識別;2)基于Optical flow-SURF+SVM的人體康復(fù)動(dòng)作識別算法[21],融合光流和加速穩(wěn)健特征后,通過SVM分類器進(jìn)行動(dòng)作識別;3)基于DT+SVM的人體康復(fù)動(dòng)作識別算法[22],采用降維后的稠密軌跡特征與SVM 分類器進(jìn)行動(dòng)作識別;4)基于LC-YOLO的人體康復(fù)動(dòng)作識別算法[23],先從視頻幀中檢測目標(biāo)人體,再結(jié)合CNN 與LSTM 對目標(biāo)人體進(jìn)行動(dòng)作識別;5)基于CNN+SVM-KNN 的人體康復(fù)動(dòng)作識別算法[24],采用混合的SVM 與KNN 分類器對CNN 提取的特征進(jìn)行動(dòng)作識別。

    表4 KTH 數(shù)據(jù)集上人體康復(fù)動(dòng)作識別算法的識別準(zhǔn)確率對比Table 4 Comparison of recognition accuracy of human rehabilitation motion recognition algorithms on KTH dataset %

    在康復(fù)動(dòng)作數(shù)據(jù)集中,首先從視頻中提取骨架關(guān)節(jié)點(diǎn)進(jìn)行預(yù)處理,在姿態(tài)特征的基礎(chǔ)上將本文Pose-AMGRU 算法與其他人體康復(fù)動(dòng)作識別算法進(jìn)行對比,實(shí)驗(yàn)結(jié)果如表5 所示。運(yùn)行時(shí)間為所有測試樣本的預(yù)測總時(shí)長,不包括姿態(tài)估計(jì)與預(yù)處理的計(jì)算耗時(shí)??梢钥闯?,基于RNN 系列的人體康復(fù)動(dòng)作識別算法的識別準(zhǔn)確率優(yōu)于基于傳統(tǒng)隱馬爾科夫模型(Hidden Markov Model,HMM)的人體康復(fù)動(dòng)作識別算法,而Pose-AMGRU 算法取得了最好的識別結(jié)果,但其需要耗費(fèi)更多的運(yùn)算時(shí)間,在一定程度上影響了實(shí)時(shí)性。

    表5 康復(fù)動(dòng)作數(shù)據(jù)集上人體康復(fù)動(dòng)作識別算法的識別準(zhǔn)確率對比Table 5 Comparison of recognition accuracy of human rehabilitation motion recognition algorithms on rehabilitation action datasets

    2.4.4 不同動(dòng)作識別算法的訓(xùn)練參數(shù)量對比

    將本文Pose-AMGRU 算法與基于主流深度學(xué)習(xí)模型的人體康復(fù)動(dòng)作識別算法的訓(xùn)練參數(shù)量進(jìn)行對比,實(shí)驗(yàn)結(jié)果如表6 所示?;赥wo-Stream 的人體康復(fù)動(dòng)作識別算法[11]雖然在動(dòng)作識別領(lǐng)域取得了較好的成果,但是其光流圖的計(jì)算非常耗時(shí),模型也存在參數(shù)量過大的問題。基于C3D 的人體康復(fù)動(dòng)作識別算法[27]由多層3D CNN 構(gòu)成,參數(shù)量龐大?;贚RCN 的人體康復(fù)動(dòng)作識別算法[11]中的卷積網(wǎng)絡(luò)部分可以采取遷移學(xué)習(xí)方法,一定程度上解決了小樣本下的學(xué)習(xí)問題。本文Pose-AMGRU 算法只需對每幀所提取的低維度特征進(jìn)行處理,并通過淺層GRU 網(wǎng)絡(luò)進(jìn)行時(shí)空特征提取,大幅降低了所需訓(xùn)練的參數(shù)量。

    表6 4 種人體康復(fù)動(dòng)作識別算法的訓(xùn)練參數(shù)量對比Table 6 Comparison of training parameter amount of four human rehabilitation motion recognition algorithms

    3 結(jié)束語

    本文提出一種輕量且高效的人體康復(fù)動(dòng)作識別算法。通過姿態(tài)估計(jì)方法獲取骨架數(shù)據(jù)并進(jìn)行預(yù)處理,然后從中提取表征肢體活動(dòng)的動(dòng)作特征序列,結(jié)合注意力機(jī)制構(gòu)建融合多級特征的GRU 網(wǎng)絡(luò)進(jìn)行動(dòng)作識別。實(shí)驗(yàn)結(jié)果表明,該算法在康復(fù)動(dòng)作數(shù)據(jù)集中能夠有效識別5 種典型的腦卒中康復(fù)動(dòng)作,并且具備良好的實(shí)時(shí)性。后續(xù)將增加更多類型的腦卒中康復(fù)動(dòng)作,同時(shí)引入多視角視覺信息以提取更加豐富的特征,進(jìn)一步增強(qiáng)人體康復(fù)動(dòng)作識別算法對復(fù)雜動(dòng)作的識別能力。

    猜你喜歡
    關(guān)節(jié)點(diǎn)姿態(tài)準(zhǔn)確率
    基于深度學(xué)習(xí)和視覺檢測的地鐵違規(guī)行為預(yù)警系統(tǒng)研究與應(yīng)用
    乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
    健康之家(2021年19期)2021-05-23 11:17:39
    不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
    2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
    關(guān)節(jié)點(diǎn)連接歷史圖與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的雙人交互動(dòng)作識別
    攀爬的姿態(tài)
    全新一代宋的新姿態(tài)
    汽車觀察(2018年9期)2018-10-23 05:46:40
    跑與走的姿態(tài)
    中國自行車(2018年8期)2018-09-26 06:53:44
    高速公路車牌識別標(biāo)識站準(zhǔn)確率驗(yàn)證法
    搞好新形勢下軍營美術(shù)活動(dòng)需把握的關(guān)節(jié)點(diǎn)
    乌拉特中旗| 柳林县| 玉门市| 忻城县| 禄丰县| 分宜县| 衢州市| 南京市| 公主岭市| 江北区| 简阳市| 遂平县| 崇阳县| 临澧县| 白沙| 富源县| 金湖县| 广南县| 金川县| 通道| 于田县| 宁强县| 健康| 丁青县| 灵宝市| 尚志市| 仲巴县| 天长市| 闵行区| 陆河县| 惠东县| 信阳市| 山阴县| 壤塘县| 施甸县| 搜索| 广宁县| 长子县| 冷水江市| 西宁市| 湖北省|