周 鵬,袁國良,張 穎,孫 莉
(上海海事大學(xué) 信息工程學(xué)院,上海 201306)
在人體行為識別領(lǐng)域,便攜式可穿戴傳感器可以精確地獲取人體運(yùn)動過程中的加速度、角速度、姿態(tài)角等信息,而且克服了給用戶帶來的隱私問題[1,2],能夠?qū)崿F(xiàn)對不同人體行為的識別。因此,基于可穿戴傳感器的人體行為識別研究在人機(jī)交互、虛擬現(xiàn)實(shí)、運(yùn)動和醫(yī)療保健等工作和生活領(lǐng)域中極具前景。作為人體行為識別的模型,需要有很好的識別效果和魯棒性,已提出的識別模型有隱馬爾可夫模型(hidden Markov model,HMM)[3]、支持向量機(jī)(support vector machine,SVM)[4]、貝葉斯[5]等傳統(tǒng)識別模型。但用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)模型對日常行為進(jìn)行識別的卻不多。文獻(xiàn)[6]使用長短期記憶網(wǎng)絡(luò)(long short term memory,LSTM)提取特征,在WISDM實(shí)驗(yàn)數(shù)據(jù)集上進(jìn)行人體行為識別,最終識別率達(dá)到92.1 %;文獻(xiàn)[7]用CNN自動地提取特征用于LSTM的輸入,識別率達(dá)到99.4 %;文獻(xiàn)[8]提出的深度卷積網(wǎng)絡(luò)(deep convolutional neural network,DCNN)層數(shù)不夠深,且沒有將加速度和角速度進(jìn)行信號融合,最終的識別率達(dá)到91.2 %。在日?;顒又校剐袨榈淖R別相對較困難,容易與躺下、跳躍等非跌倒行為混淆。文獻(xiàn)[9]表明在發(fā)生跌倒行為時,身體俯仰角會發(fā)生明顯的變化。受此啟發(fā),可以考慮將其作為補(bǔ)償信息,與加速度和角速度信息進(jìn)行融合,提高行為識別率。
傳統(tǒng)上,DCNN常用于對復(fù)雜圖像進(jìn)行檢測和識別,該模型能夠?qū)崿F(xiàn)不同通道信息的深度融合,且省去了繁瑣的特征提取過程。因此,本文提出一種改進(jìn)的DCNN,即融合DCNN(fusion DCNN,F-DCNN),將其應(yīng)用于人體行為識別領(lǐng)域。
UCI機(jī)器學(xué)習(xí)知識庫提供的人體行為識別數(shù)據(jù)集Simulated Falls and Daily Living Activities Dataset[10],通過分布在身體上的6個部位(頭部、胸部、腰部、右手腕、右大腿、右腳踝)的傳感器,以50 Hz的采樣頻率采集不同動作的加速度、角速度和姿態(tài)角數(shù)據(jù),采集過程由30名年齡在19~48歲的志愿者完成??紤]到放置在腰部的傳感器所采集的數(shù)據(jù)變化微小,故選用腰部傳感器數(shù)據(jù)作為此次實(shí)驗(yàn)的數(shù)據(jù)集。由于采集的加速度數(shù)據(jù)包含重力,為排除重力因素對實(shí)驗(yàn)的干擾,需使用低通濾波器分離身體加速度和重力。
對數(shù)據(jù)進(jìn)行初步處理過后,需要計算合加速度、合角速度,方便后續(xù)生成行為圖片。
1)三軸加速度計的合加速度Aas
(1)
式中Aas為三軸合成加速度;Ax,Ay,Az分別為x,y,z軸的加速度。
2)三軸陀螺儀的合角速度Gr
(2)
式中Gr反映人體活動時采集端旋轉(zhuǎn)的強(qiáng)烈程度,Gx,Gy,Gz分別為三個軸的角速度。
對于姿態(tài)角數(shù)據(jù),其俯仰角反映的是人體運(yùn)動過程中水平方向上的角度變化情況,以X軸為人體右手方向,Z軸垂直向上,Y軸為人體前進(jìn)方向,則俯仰角(pitch)為
(3)
當(dāng)俯仰角發(fā)生劇烈變化時,說明人體在水平方向上發(fā)生跌倒,將其作為補(bǔ)償信息與加速度、角速度進(jìn)行融合。
為產(chǎn)生適合模型輸入的行為圖片,在這里首先需要對數(shù)據(jù)進(jìn)行分幀處理。對圖1所示的行為曲線進(jìn)行分析可知,大部分日常行為具有周期性和連續(xù)性的特點(diǎn),不同行為類別在單個周期內(nèi)就能很好地區(qū)分。
圖1 數(shù)據(jù)分幀
設(shè)某段周期序列的采樣點(diǎn)數(shù)為L,對周期序列進(jìn)行分幀,得到分幀Xiw(t),w為幀序號,w={1,2,…,W},t為每幀信號內(nèi)的時間序號。令每幀信號的幀長度l,則t={0,1,…,l-1}。假設(shè)每幀信號之間的重疊采樣點(diǎn)數(shù)為S,則
W=(L-l)/(l-S)+1
(4)
所以,每幀信號Xiw(t)可由式(5)計算
Xiw(t)={Xi(a(w-1)+0),Xi(a(w-1)+1),…,
Xi(a(w-1)+l-1)}
(5)
式中a=l-S。
因?yàn)椴煌膸Ll會對識別準(zhǔn)確率造成影響,為確定合適的l值,需要進(jìn)行對比實(shí)驗(yàn),得到l與準(zhǔn)確率的關(guān)系如圖2所示。
圖2 不同l對準(zhǔn)確率的影響
從圖2可以看出,當(dāng)采樣點(diǎn)數(shù)在275(約5 s)左右,準(zhǔn)確率可以達(dá)到97 %左右,從數(shù)據(jù)處理難度和耗時角度綜合考慮,確定l=256。
經(jīng)過處理得到的每一幀序列在時間上和空間上有著很強(qiáng)的關(guān)聯(lián)性,已提出的有頻率圖方法和直方圖方法可以將時間序列轉(zhuǎn)換成圖片。但這兩種方法在處理生成圖片的過程中非常耗時,考慮到本文使用的數(shù)據(jù)集較大,因此提出一種更為快速的行為圖片生成方法。
圖3中,該過程主要分為三步:
圖3 行為圖片生成過程
1)切片:設(shè)經(jīng)過分幀處理得到的三段幀長為l的時間序列為Xi,Yi,Zi(合加速度、合角速度、俯仰角),同時對這三段時間序列進(jìn)行切片,切片的長度為N,以Xi序列為例,經(jīng)切片后可以得到M個長度為N的切片,即l=M×N。
2)組合:如圖3所示,M個切片按{Xi1,Yi1,Zi1},{Xi2,Yi2,Zi2},…,{Xij,Yij,Zij},(j={1,2,…,M})的順序縱向排列,則三種信號可以構(gòu)成大小為3M×N的時間序列矩陣,矩陣的每一個元素可以用s(k,i),(k=1,2,3;i=1,2,…,M×N)來表示。
3)映射編碼:通過式(6)將步驟(2)得到的時間序列矩陣轉(zhuǎn)換成行為圖片
(6)
其中,S(k,i)=s(k,i)×s(k,i),
經(jīng)式(6)處理后,得到像素取值范圍在[0,255]之間的行為圖片F(xiàn)(m,n),其大小為768×256,以滿足模型對輸入數(shù)據(jù)的要求。
本文提出的模型包括輸入層(1層)、信號融合單元(3個卷積層)、卷積層(9層)、池化層(2層)和全連接層(1層),其結(jié)構(gòu)和參數(shù)如圖4所示。
圖4 F-DCNN模型
輸入數(shù)據(jù)是經(jīng)過預(yù)處理的單通道圖像,大小為768×256,經(jīng)轉(zhuǎn)置后,尺寸變?yōu)?56×768作為模型的輸入。首先,尺寸1×1,深度為30的卷積核與輸入圖像進(jìn)行卷積運(yùn)算。由于卷積核尺寸為1×1,因此原輸入的長和寬均不會改變,但經(jīng)過卷積后,圖像的深度變成30,實(shí)現(xiàn)對原輸入的升維。利用后接的非線性激活函數(shù)RELU6,在保持特征圖尺寸不變的情況下,大幅增加其非線性特性。然后,為方便后續(xù)的處理,卷積核尺寸設(shè)置為1×3,這一步將生成256×256的特征圖,其后1×1,深度為8的卷積核對輸入進(jìn)行降維,原特征圖的深度由30變成8,這樣使得不同通道間信息實(shí)現(xiàn)線性組合變化,同時大大降低參數(shù)的數(shù)目,減少計算量。經(jīng)過信號融合單元后,三種信號可實(shí)現(xiàn)深度融合。
將行為圖片用X′i(H×K),(H=256,k=768)表示,卷積核Xs(w×h)從輸入的左上角開始,以步長s,從左到右,從上到下進(jìn)行卷積
fs=σ(W(1)Xs+b(1))
(7)
式中σ為RELU型函數(shù),W(1)和b(1)分別為顯層單元和隱含層單元之間的權(quán)重和偏置,經(jīng)過卷積運(yùn)算得到的特征圖尺寸為
S(fs)=k×[((H+2×padding-w)/s)+1]×
[((K+2×padding-h)/s)+1]
(8)
式中k為卷積核的個數(shù),padding為邊緣擴(kuò)展參數(shù),這里取默認(rèn)值0,步長s設(shè)置為2,得到的各層輸出大小如圖4所示。
常用的池化方法有最大值池化、平均池化和隨機(jī)池化,在本文中,選用最大值池化
ps=maxm×n(fs)
(9)
文中池化核尺寸均為2×2,以第二卷積層的輸出為例,輸入數(shù)據(jù)尺寸大小為256×256,經(jīng)池化處理后,變成128×128的特征圖輸出至下一層;經(jīng)過最后一次池化處理后,特征圖大小為4×4,池化操作降低了數(shù)據(jù)維度。
通過構(gòu)建行為圖片,最終生成10 900個實(shí)驗(yàn)樣本,每次實(shí)驗(yàn)隨機(jī)選取70%樣本作為訓(xùn)練集,30%作為測試集。
按上述比例劃分訓(xùn)練集和測試集后,分別用單一傳感器數(shù)據(jù)集(Ax,Ay,Az構(gòu)成的行為圖片)和二種傳感器數(shù)據(jù)集(Aas,Gr,Pitch構(gòu)成的行為圖片)作為F-DCNN的輸入,進(jìn)行對比實(shí)驗(yàn)。
圖5表明,相較于單一傳感器,多信號融合方法的Train accuracy和Test accuracy曲線的擬合度更高,在迭代20次后達(dá)到最高值并趨于平穩(wěn),表現(xiàn)出更好的泛化能力和魯棒性。
圖5 訓(xùn)練集和測試集擬合情況
表1中,經(jīng)過10次交叉驗(yàn)證,多信號融合方法對6種行為的識別準(zhǔn)確率均高于單一傳感器,單一傳感器的跌倒識別準(zhǔn)確率只有80.15 %,而融合了角速度、俯仰角(pitch)信號之后,其識別準(zhǔn)確率達(dá)到了96.33 %,表明在加入信號融合單元后,模型對于識別跌倒行為可以表現(xiàn)更好。
表1 各種行為識別結(jié)果的對比 %
傳統(tǒng)模型,如SVM,HMM分類模型需要提取加速度的時域和頻域特征,將特征作為模型輸入進(jìn)行訓(xùn)練,得到模型參數(shù),然后用于識別不同的人體行為?,F(xiàn)將不同幀長的短時行為數(shù)據(jù)代替?zhèn)鹘y(tǒng)的時域和頻域特征,在同樣條件下,比較F-DCNN和傳統(tǒng)模型的識別率。
圖6表明,F(xiàn)-DCNN模型的識別率最高在90 %以上,HMM的最高識別率89 %左右,而SVM卻只有84 %左右的識別率,兩種模型的識別率均低于F-DCNN;此外,F(xiàn)-DCNN顯示出更好的非線性特征提取能力,其自身可以自動提取行為數(shù)據(jù)中的空間和時間特征,使得提取的特征更為精確;相較于SVM和HMM模型,在以不同的幀長作為輸入時,其精度和穩(wěn)定性仍表現(xiàn)較好??傮w來說,本文所提出的模型,其性能優(yōu)于SVM和HMM識別模型。
圖6 F-DCNN和傳統(tǒng)模型的比較
為進(jìn)一步分析F-DCNN在提高識別率上的作用,將其與已提出的卷積神經(jīng)網(wǎng)絡(luò)(CNN)[8]、協(xié)同 LSTM[11]神經(jīng)網(wǎng)絡(luò)模型進(jìn)行比較。表2中,當(dāng)三種模型僅使用加速度數(shù)據(jù)集作為輸入時,隨著幀長的增加,各模型的識別率均顯著增加,CNN,協(xié)同LSTM 模型的識別率在幀長為512時,分別為85.88 %和93.65 %,但F-DCNN模型的識別率達(dá)到96.51 %,優(yōu)于這兩種模型的識別效果。另外,當(dāng)F-DCNN模型融合了角速度、俯仰角信號后,其最高識別率達(dá)到97.78 %,比僅使用加速度數(shù)據(jù)集的識別率高,說明該模型能夠有效融合不同信號,提高行為識別率。
表2 不同卷積模型結(jié)果比較
本文提出一種F-DCNN模型,針對6種日常行為進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明:其信號融合單元可有效提高識別率;與傳統(tǒng)模型相比,該方法具有更高的識別率,且省去了人為提取特征的過程,可操作性更好;另外,與新近提出的CNN、協(xié)同 LSTM神經(jīng)網(wǎng)絡(luò)模型相比,F(xiàn)-DCNN也顯示出更高的識別率。在以后的工作中,可以增加行為的種類,在網(wǎng)絡(luò)結(jié)構(gòu)的選取構(gòu)造上,力求實(shí)現(xiàn)更高的識別率和更好的魯棒性,以及使用更多的信號進(jìn)行融合將是努力方向。