朱連章,陳殿明,郭加樹,張紅霞
(中國石油大學(xué)(華東) 計算機(jī)與通信工程學(xué)院,山東 青島 266580)
隨著科學(xué)技術(shù)的飛速發(fā)展,便攜式和穿戴式智能設(shè)備逐漸在生活與工作領(lǐng)域中發(fā)揮著重要的作用,如人機(jī)交互、虛擬現(xiàn)實、運動和醫(yī)療保健等[1]。而通過利用智能設(shè)備和計算機(jī)技術(shù)處理人體行為數(shù)據(jù)從而實現(xiàn)行為識別成為了國內(nèi)外的研究熱點。
目前人體行為識別的研究主要有兩種方式,一是通過錄像、拍照的方式獲取人體行為的視頻、圖像數(shù)據(jù)[2-3],并對數(shù)據(jù)進(jìn)行處理分析。然而該方法較為復(fù)雜,不僅對采集、處理數(shù)據(jù)的設(shè)備要求較高,而且計算量龐大,另一方面可能存在各種無法預(yù)料的環(huán)境因素對數(shù)據(jù)處理造成不同程度的干擾,并且在隱私保護(hù)、便攜性等方面也表現(xiàn)出不足;另一種通過單一或多種傳感器獲得多維動作數(shù)據(jù)[4],再對數(shù)據(jù)進(jìn)行處理分析從而實現(xiàn)行為識別。
隨著智能終端設(shè)備領(lǐng)域的不斷發(fā)展與進(jìn)步,在智能終端上集成豐富的傳感設(shè)備已經(jīng)非常方便,例如加速度傳感器、磁力計、陀螺儀、全球定位系統(tǒng)等已經(jīng)可以集成在如智能手機(jī)、智能手環(huán)等可便攜、穿戴的設(shè)備上,這樣就為智能終端設(shè)備應(yīng)用于行為識別提供了可行性[5-6]。
Ling等[7]用5個小雙軸加速度傳感器同時佩戴在四肢和右髖部位來收集個體日常動作數(shù)據(jù),并比較不同分類器后發(fā)現(xiàn)使用決策樹能夠獲得最佳性能,識別準(zhǔn)確率為84%。Tapia等[8]利用心率監(jiān)視器以及附在四肢及腰部的五個三軸加速度計來組成識別系統(tǒng),對三十個體育項目動作進(jìn)行識別,獲得了80.6%的識別準(zhǔn)確率。文獻(xiàn)[9-10]中使用了神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí),雖然特征提取工程量小,但是網(wǎng)絡(luò)結(jié)構(gòu)簡單,且識別準(zhǔn)確率不足。李鋒等[11]使用單一的加速度傳感器進(jìn)行識別,雖然識別準(zhǔn)確率達(dá)到96.13%,但特征提取工程量太大,需要專業(yè)的運動領(lǐng)域知識,實用性不足。
針對上述問題,提出了一種改進(jìn)的基于協(xié)同長短期記憶模塊的神經(jīng)網(wǎng)絡(luò),并基于該神經(jīng)網(wǎng)絡(luò)構(gòu)建了人體行為識別模型,并通過實驗對其進(jìn)行驗證。
RNN是包含循環(huán)的網(wǎng)絡(luò),在RNN網(wǎng)絡(luò)結(jié)構(gòu)中,隱層節(jié)點讀取輸入層的信息,然后在輸出信息的同時,通過循環(huán)結(jié)構(gòu)將信息輸入下一步從而實現(xiàn)信息的傳遞。RNN的鏈?zhǔn)浇Y(jié)構(gòu)與時間序列類的數(shù)據(jù)結(jié)構(gòu)契合,是一種適合處理該類數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。RNN在語音識別、語言建模等領(lǐng)域都取得了一定的成就。但是隨著RNN模塊之間的間距增加,RNN會很難達(dá)到長范圍的依賴,從而出現(xiàn)梯度消失[12]問題。
長短期記憶(long short term memory,LSTM)網(wǎng)絡(luò)由Hochreiter & Schmidhuber在1997提出[13]。Alex Graves近期對其進(jìn)行了改良和推廣,將LSTM應(yīng)用在很多領(lǐng)域,并取得了相當(dāng)大的成功[14-16]。
RNN模塊結(jié)構(gòu)簡單,比如有的結(jié)構(gòu)中只有一個單一的tanh層,而LSTM通過刻意的設(shè)計來避免梯度消失問題。
圖1是標(biāo)準(zhǔn)LSTM模塊的內(nèi)部結(jié)構(gòu)。
圖1 單個LSTM模塊結(jié)構(gòu)
LSTM的關(guān)鍵就在細(xì)胞狀態(tài)Ct-1→Ct,細(xì)胞狀態(tài)類與傳送帶相似,直接在整個鏈上運行,只有少量的線性信息交互,使得細(xì)胞信息便于保持。
LSTM通過特別設(shè)計的一種被稱為“門”(gates)的結(jié)構(gòu)來擁有增加或去除細(xì)胞狀態(tài)上的信息的能力。
遺忘門的原理如式1所示:
ft=σ(Wf·[ht-1,xt]+bf)
(1)
輸入門的原理如式2所示:
(2)
細(xì)胞更新狀態(tài)的方式如式3所示:
(3)
輸出門原理如式4所示:
(4)
Gers & Schmidhuber提出了基于peephole connection變體結(jié)構(gòu)的LSTM[17],該結(jié)構(gòu)使各門層也接受細(xì)胞狀態(tài)的輸入,實驗結(jié)果表示基于這種變體結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)比普通的LSTM網(wǎng)絡(luò)表現(xiàn)更好。楊年峰研究了步態(tài)特征及其影響因素,并為量化描述人體運動協(xié)調(diào)規(guī)律提供了有效手段[18]。受peephole connection結(jié)構(gòu)與人體運動協(xié)調(diào)規(guī)律的啟發(fā),文中對LSTM模塊的結(jié)構(gòu)進(jìn)行了改進(jìn)。
設(shè)計了協(xié)同LSTM模塊(synergistical LSTM,S-LSTM),新的結(jié)構(gòu)中對于更新細(xì)胞狀態(tài)信息時,遺忘門與輸入門以同步互補(bǔ)的方式替換標(biāo)準(zhǔn)結(jié)構(gòu)中的分離式更新方法,更改后的細(xì)胞狀態(tài)信息更新方法如式5所示:
(5)
S-LSTM模塊的內(nèi)部結(jié)構(gòu)如圖2所示。
圖2 S-LSTM模塊結(jié)構(gòu)
模塊中將peephole connection結(jié)構(gòu)應(yīng)用在細(xì)胞歷史狀態(tài)與遺忘門之間,由于式5中的更改方式使得遺忘門與輸入門同步互補(bǔ)更新,記憶細(xì)胞狀態(tài)在輸出部分于式4中已有體現(xiàn),故而輸入門與輸出門部分不再添加peephole connection結(jié)構(gòu)。此時遺忘門與輸入門的更新方式如式6所示:
(6)
文中所用的S-LSTM神經(jīng)網(wǎng)絡(luò)由以下部分構(gòu)成:輸入層、6個S-LSTM層、Softmax分類層和輸出層。
文中構(gòu)建了基于S-LSTM網(wǎng)絡(luò)的人體行為識別模型,如圖3所示。
圖3 基于S-LSTM網(wǎng)絡(luò)的人體行為識別模型
使用調(diào)整后的Z-score標(biāo)準(zhǔn)化方法對數(shù)據(jù)進(jìn)行預(yù)處理,Z-score標(biāo)準(zhǔn)化公式如式7所示:
(7)
其中,μ為均值;σ為標(biāo)準(zhǔn)差。
文中對式7做了一定的變更,如式8所示:
(8)
為避免特定動作使某一軸數(shù)據(jù)固定從而導(dǎo)致式7出現(xiàn)除零錯誤,引入極小量ε。
使用的數(shù)據(jù)集來自公開的UCI機(jī)器學(xué)習(xí)知識庫(smartphone-based recognition of human activities and postural transitions data set)[19],實驗數(shù)據(jù)由30名年齡在19~48歲的志愿者完成,采集設(shè)備為Samsung Galaxy S Ⅱ,通過使用加速度傳感器與陀螺儀以50 Hz的頻率獲取加速度與角速度數(shù)據(jù)。志愿者在實驗中執(zhí)行了由6項行為動作組成的活動:3項靜態(tài)活動(站立、坐立和躺平)和3項動態(tài)活動(行走、上樓和下樓)。傳感器信號數(shù)據(jù)通過噪聲濾波處理,在50%重疊的固定寬度的滑動窗口(2.56 s)中采樣,然后使用Butterworth低通濾波器分離身體加速度和重力,最終得到10 929個樣本。
實驗基于Windows 10專業(yè)版(版本號1607),處理器為Intel Core i7(2.5 GHz),內(nèi)存為8 G,使用支持訓(xùn)練神經(jīng)網(wǎng)絡(luò)的NVIDIA顯卡來提升訓(xùn)練速度。為了驗證提出模型的有效性,選擇深度卷積神經(jīng)網(wǎng)絡(luò)CNN和標(biāo)準(zhǔn)LSTM神經(jīng)網(wǎng)絡(luò)在相同的數(shù)據(jù)集上進(jìn)行實驗對比。
實驗所用數(shù)據(jù)集被分為兩部分:訓(xùn)練集占70%,測試集占30%。將樣本標(biāo)簽數(shù)據(jù)做one-hot處理,使其與樣本數(shù)據(jù)對應(yīng)。鑒于顯存容量有限,使用mini-batches方法來進(jìn)行批梯度下降。由于已經(jīng)做了標(biāo)準(zhǔn)化處理(見式8),L2損失函數(shù)相比于L1損失函數(shù)變現(xiàn)更佳,所以實驗中均使用L2,優(yōu)化器使用Adam,各模型的學(xué)習(xí)率都設(shè)為0.002,迭代次數(shù)為1 000。
三種網(wǎng)絡(luò)模型在實驗中隨著迭代次數(shù)增加,不斷優(yōu)化參數(shù),并在數(shù)據(jù)集上進(jìn)行識別準(zhǔn)確率的驗證對比。各模型在訓(xùn)練集和測試集上的表現(xiàn)分別如圖4和圖5所示。
圖4 各模型在訓(xùn)練過程中的識別準(zhǔn)確率
圖5 各模型在測試過程中的識別準(zhǔn)確率
可以看到,隨著迭代次數(shù)的增加,各模型的準(zhǔn)確率不斷上升,剛開始CNN的收斂速度最快,S-LSTM次之,LSTM最慢,各模型在測試集上的識別準(zhǔn)確率要低于在訓(xùn)練集上的表現(xiàn)。
因為實驗本身在一定程度上受參數(shù)隨機(jī)初始化效果的影響,所以對各模型在測試集上都進(jìn)行5次實驗,然后取其平均準(zhǔn)確率作為對比依據(jù),其對比結(jié)果如表1所示。
表1 各模型在測試集上的平均識別準(zhǔn)確率 %
由表1可知,三種模型中,S-LSTM表現(xiàn)最好,準(zhǔn)確率達(dá)到95.81%,而CNN表現(xiàn)平穩(wěn),識別準(zhǔn)確率為91.53%,而標(biāo)準(zhǔn)LSTM在迭代過程中的識別準(zhǔn)確率波動較大,但最終與CNN相差較小,為90.47%。實驗結(jié)果表明,提出的基于S-LSTM神經(jīng)網(wǎng)絡(luò)的人體行為識別模型表現(xiàn)最好,是一種有效的人體行為識別方法。
基于S-LSTM神經(jīng)網(wǎng)絡(luò)的模型實現(xiàn)了人體行為識別,通過與CNN、標(biāo)準(zhǔn)LSTM神經(jīng)網(wǎng)絡(luò)模型在UCI人體行為識別數(shù)據(jù)集上進(jìn)行了實驗對比,表明該方法識別效果最好,說明該方法適合處理人體行為時域數(shù)據(jù),能夠充分挖掘其數(shù)據(jù)特征,提高識別準(zhǔn)確率。實驗使用的是加速度傳感器與陀螺儀獲取的6軸傳感數(shù)據(jù),目前隨著科技的發(fā)展,更多的傳感器可以集成在便攜智能終端設(shè)備上,比如磁力計、GPS、攝像頭和麥克風(fēng)等,可以大大豐富數(shù)據(jù)的多維性。相信在未來的工作中,人們可以通過使用更優(yōu)秀的網(wǎng)絡(luò)模型和方法處理基于多傳感器的人體行為數(shù)據(jù),從而更好地提升識別準(zhǔn)確率。