周啟臻,邢建春,楊啟亮,韓德帥
(1.陸軍工程大學(xué)國防工程學(xué)院,江蘇 南京 210007;2.火箭軍工程大學(xué)作戰(zhàn)保障學(xué)院,陜西 西安 710025)
人體行為識別是利用計(jì)算機(jī)技術(shù)實(shí)現(xiàn)肢體運(yùn)動自動檢測、分析和理解的技術(shù),廣泛應(yīng)用于智能家居、安防監(jiān)控、醫(yī)療康復(fù)、人機(jī)交互等新興領(lǐng)域[1-2]。人體行為識別通常可以分為兩類[3]:接觸式和非接觸式??纱┐髟O(shè)備[4-5]是接觸式行為識別系統(tǒng)的關(guān)鍵載體,但是存在設(shè)備昂貴、用戶穿戴不便、注意力侵?jǐn)_等諸多限制。非接觸式的行為識別能提供無設(shè)備的感知服務(wù)和友好的用戶交互,因此得到了研究人員的廣泛關(guān)注。目前非接觸式的行為識別主要依靠深度攝像頭[6]和無線電信號[7]。然而,前者的普及受限于光照條件、視距路徑干擾、監(jiān)控死角和隱私問題;后者通常需要部署專用的實(shí)驗(yàn)設(shè)備,難以大規(guī)模推廣。
作為城市基礎(chǔ)設(shè)施,商用Wi-Fi 設(shè)備[8]所提供的無線信號具有普適、易用、高性價(jià)比、傳輸距離遠(yuǎn)等優(yōu)勢,近年來在人體行為識別領(lǐng)域被廣泛關(guān)注[9],早期工作基于Wi-Fi 接收信號強(qiáng)度(RSS,received signal strength)實(shí)現(xiàn)簡單的室內(nèi)人員運(yùn)動檢測[10]。為了進(jìn)一步提升感知粒度和識別精度,研究人員開始從Wi-Fi 商業(yè)網(wǎng)卡中提取物理層的信道狀態(tài)信息(CSI,channel state information)[11]。CSI 能夠刻畫感知目標(biāo)所引發(fā)多徑鏈路變化,從而利用子載波層次的幅值和相位信息實(shí)現(xiàn)更復(fù)雜精細(xì)的行為識別,如室內(nèi)活動監(jiān)測[12]、摔倒檢測[13]、步態(tài)認(rèn)證[14]和手勢識別[15]。然而大多數(shù)方法在建立Wi-Fi 信號擾動與人體行為之間的映射關(guān)系時(shí),需要豐富的專業(yè)知識和領(lǐng)域經(jīng)驗(yàn)來指導(dǎo)模型設(shè)計(jì)[16]、信號挖掘[17]和特征選取[18],這使系統(tǒng)的穩(wěn)定性、實(shí)用性和整體精度不高。如何利用最少的人為干預(yù),實(shí)現(xiàn)穩(wěn)健、普適、高精度的人體行為識別成為亟需解決的問題[19]。
近年來,受圖像深度學(xué)習(xí)[20]的啟發(fā),研究人員嘗試將信號矩陣轉(zhuǎn)化為灰度圖像并利用卷積神經(jīng)網(wǎng)絡(luò)(CNN,convolutional neural network)自動學(xué)習(xí)尺度不變、位移不變的局部空間特征[21-22]。然而,相比于專業(yè)相機(jī)拍攝的主體清晰、固定尺寸的連續(xù)圖像,直接利用CNN 處理Wi-Fi 信號序列無疑更具挑戰(zhàn)性。不同動作的初始時(shí)間?振幅曲線如圖1 所示,其面臨的技術(shù)挑戰(zhàn)可概括如下。
1) 噪聲干擾嚴(yán)重。盡管CSI 能宏觀地反映人體運(yùn)動狀態(tài)的變化,但是商用Wi-Fi 設(shè)備所提供信號粒度有限,使感知目標(biāo)所產(chǎn)生的信號振幅容易混雜于背景噪聲和多徑干擾中[9,16]?,F(xiàn)有工作往往難以提取運(yùn)動關(guān)鍵信息,導(dǎo)致深度網(wǎng)絡(luò)無法從混雜擾動中學(xué)到目標(biāo)信號的本質(zhì)特征。
2) 信號尺寸不兼容。人體活動的發(fā)生具有隨機(jī)性,因此每一次活動發(fā)生時(shí)刻均不一致,所產(chǎn)生的信號樣本在時(shí)間尺度上并不統(tǒng)一,因此導(dǎo)致其與CNN 模型所要求的固定尺寸輸入存在矛盾[22]?,F(xiàn)有工作通常截取固定長度的信號片段以適配模型輸入,但是這可能遺漏有效信息(過短)或是增加運(yùn)算成本(過長),從而影響系統(tǒng)部署的靈活性和時(shí)間效率。
3) 特征提取不充分,用戶執(zhí)行復(fù)合動作時(shí)通常存在上下文的邏輯關(guān)系,如完成深蹲動作需要依次執(zhí)行站立等待、快速蹲下、快速起身、站立等待的動作,因此會出現(xiàn)先平穩(wěn)、后快速震蕩、最終平穩(wěn)的波形變化。然而,單一的CNN 模型無法對這種時(shí)間尺度上的依賴關(guān)系進(jìn)行有效建模,導(dǎo)致復(fù)雜環(huán)境下的系統(tǒng)精度受限。
針對上述問題,本文將Wi-Fi 信號處理問題轉(zhuǎn)化成圖像領(lǐng)域的連續(xù)目標(biāo)識別問題[23-24],提出一種基于連續(xù)圖像深度學(xué)習(xí)的Wi-Fi 人體行為識別方法——SIL-Fi(sequential image learning with Wi-Fi)。本文的主要創(chuàng)新點(diǎn)如下。
1) 連續(xù)幀低秩分解。通過重構(gòu)固定尺寸的三維信號圖像,將時(shí)變的Wi-Fi CSI 信號序列轉(zhuǎn)化為數(shù)量不一、尺寸固定的連續(xù)圖像幀,同時(shí)設(shè)計(jì)不需要復(fù)雜調(diào)參的低秩矩陣分解算法,提取穩(wěn)健的低秩信號主成分,提高噪聲環(huán)境下運(yùn)動信號的顯著性,進(jìn)而提高模型訓(xùn)練樣本的可靠性。
2) 深度模型融合。通過深度融合CNN 和長短時(shí)記憶(LSTM,long short-term memory)模型,實(shí)現(xiàn)變長圖像序列空間域和時(shí)間域特征的充分萃取,進(jìn)而克服模型輸入限制和特征提取不充分的缺點(diǎn)。
3) 真實(shí)場景驗(yàn)證。本文通過多組真實(shí)場景實(shí)驗(yàn)對模型可行性進(jìn)行驗(yàn)證,并考慮了不同動作、模型組合、測試人員和環(huán)境等諸多因素的影響。與其他基于深度神經(jīng)網(wǎng)絡(luò)的模型相比,本文方法在不同實(shí)驗(yàn)環(huán)境均取得較高的識別精度,因此具備普適場景下的高精度和穩(wěn)健性。
圖1 不同動作的初始時(shí)間?振幅曲線
本文提出的SIL-Fi 的總體框架如圖2 所示。本文的活動數(shù)據(jù)來源于公開數(shù)據(jù)集WiAR[25]和自主采集的真實(shí)數(shù)據(jù)集。在動作信號預(yù)處理模塊,首先對所獲取的CSI 原始幅值序列I進(jìn)行分割,即重構(gòu)成N個縱坐標(biāo)為子載波個數(shù)S′、橫坐標(biāo)為數(shù)據(jù)分組長度、通道數(shù)為天線數(shù)A的三維信號矩陣所組成的序列I′,以確保每個輸入片段的尺寸都保持一致。然后設(shè)計(jì)穩(wěn)健主成分分析法(RPCA,robust principal component analysis),將分割后的三維信號矩陣視作低秩活動信息、背景信息和測量偏差的疊加,通過約束各個通道低秩矩陣的秩和背景矩陣的稀疏度,提取低秩的關(guān)鍵運(yùn)動信息,避免運(yùn)動無關(guān)的信號擾動。在時(shí)空域特征提取與分類模塊,設(shè)計(jì)了一種融合空間域特征和時(shí)間域特征的深度模型,主要包含3 個卷積層、2 個LSTM 層和一個全連接層。其中,多層卷積運(yùn)算通過逐層表征信號矩陣,將低秩矩陣中具有顯著識別力的局部空間特征進(jìn)行抽象并映射到特征圖中;LSTM 層通過控制內(nèi)部門狀態(tài),依次實(shí)現(xiàn)特征圖序列上下文信息的提取和更新,從而對其在時(shí)間尺度的全局依賴關(guān)系進(jìn)行建模;全連接層將動作特征映射至樣本標(biāo)記空間,且防止特征過擬合。最后,由Softmax 層輸出預(yù)測動作的標(biāo)簽類別。
為了探究Wi-Fi CSI 的信號特性,首先介紹CSI的背景知識。CSI 信息來源于當(dāng)前正交頻分復(fù)用技術(shù)中對子載波信道狀態(tài)信息的估計(jì),反映了信號傳輸過程中所產(chǎn)生的時(shí)延、能量衰減和相位偏移。令x為發(fā)射端信號,y為接收端信號,Noise 為測量噪聲,H為CSI 信道估計(jì)矩陣,則有
設(shè)Wi-Fi 設(shè)備持續(xù)采集樣本,A根天線接收到的每個數(shù)據(jù)分組共包含S個子載波的信道響應(yīng),即
當(dāng)A根接收天線以固定采樣頻率Q連續(xù)采集T個數(shù)據(jù)分組時(shí),時(shí)間長度為。為方便描述,以數(shù)據(jù)分組長度T為時(shí)間計(jì)量單位。則在T范圍內(nèi),所有S個子載波的CSI 原始幅值序列I可以表示為
由于持續(xù)工作的Wi-Fi 設(shè)備所采集的CSI 幅值序列I在時(shí)間尺度上不一致,且運(yùn)動信號往往隨機(jī)存在于采集樣本中,無法通過截短或是填充的方式固定信號尺寸。因此,為方便后續(xù)的CNN 運(yùn)算,本文首先將完整的CSI 幅值序列IS×T重構(gòu)為I′S′×T′×A×N,即每個序列I′包括N個大小為S′×T′×A的三維信號矩陣D。具體而言,由于本文采用的無線網(wǎng)卡類型為Intel 5300,接收天線數(shù)量A為3,每根接收天線提供子載波個數(shù)S′為30,每次截取的數(shù)據(jù)分組個數(shù)T′為30,截取重疊部分為15。當(dāng)采樣頻率Q為30 Hz 時(shí),每個輸入大小為30×30×3 的三維信號矩陣D包含了1 s 內(nèi)每個通道(天線)30 個子載波的全部幅值信息,如式(15)所示。
圖2 SIL-Fi 的總體框架
因此,由N個三維矩陣D所組成的重構(gòu)幅值序列I′可以表示為
其中,n∈[1,N],數(shù)量N由數(shù)據(jù)分組長度、每次截取的數(shù)據(jù)分組個數(shù)T′和滑窗重疊片段共同決定,表示為,其中表示數(shù)值向下取整。
為了消除無關(guān)因素對有效信息的干擾,大多數(shù)相關(guān)研究采用主成分分析法進(jìn)行關(guān)聯(lián)信號的提取。本文受圖像前景提取相關(guān)工作的啟發(fā),提出利用RPCA 提取目標(biāo)動作信息[23]。假設(shè)任意時(shí)刻輸入RPCA 的三維信號矩陣D在每個通道的幅值強(qiáng)度矩陣都包含了低秩運(yùn)動信息、稀疏背景信息以及少量測量噪聲。令第n個三維信號矩陣在通道v處的投影為二維矩陣,通過約束其低秩矩陣的秩r和背景矩陣的稀疏度b,實(shí)現(xiàn)如式(7)所示目標(biāo)函數(shù)的最小化。
從而將N個三維信號矩陣中的低秩部分視為前景信息進(jìn)行提取,稀疏的干擾信息視為背景信息進(jìn)行剔除。RPCA 的穩(wěn)健性在于:1) 不需要人為假設(shè)噪聲類型和強(qiáng)弱,因此可以有效應(yīng)對突發(fā)噪聲和嚴(yán)重的離群數(shù)據(jù),而傳統(tǒng)的PCA 只能處理密集分布的高斯噪聲[24];2) 不需要人工挑選信號主成分,只需要提取低秩矩陣就可以表征高度相關(guān)的CSI 活動信號。這是因?yàn)镃SI 信號相鄰子載波之間的運(yùn)動前景信息具有較強(qiáng)的關(guān)聯(lián)性,近似位于同一低秩的子空間中。然而傳統(tǒng)的PCA 很難在運(yùn)動信息豐富的第一主成分[26]和噪聲干擾式微的第二主成分[16]之間做出選擇。利用RPCA 提取低秩主成分的流程如圖3 所示,具體步驟如下。
圖3 RPCA 提取低秩信息的流程
步驟1參數(shù)初始化。需要初始化的參數(shù)包括低秩矩陣約束r、背景矩陣稀疏度b、迭代次數(shù)t、重構(gòu)誤差ε和能量冪值q。令初始低秩矩陣L0為二維矩陣,背景矩陣B0為零矩陣。
步驟2比較重構(gòu)矩陣誤差。通過增廣拉格朗日交替方向乘子法,依次計(jì)算第t步迭代時(shí),第n個片段在通道v處的計(jì)算誤差,并與ε比較。若各通道計(jì)算誤差同時(shí)小于ε,則執(zhí)行步驟6;否則,執(zhí)行步驟3。
步驟3雙邊隨機(jī)投影。采取雙邊隨機(jī)投影,對每個通道的低秩矩陣進(jìn)行逼近。
步驟4比較重構(gòu)矩陣秩。若各個通道矩陣秩均小于預(yù)設(shè)值r,則令其等于矩陣GT2Y1的秩,執(zhí)行步驟2;否則,執(zhí)行步驟5。
步驟5更新各個通道的低秩矩陣。
本文方法通過計(jì)算矩陣的F 范數(shù)來近似矩陣低秩的約束。秩越低,信號矩陣的線性相關(guān)度越高,表明越多的天線子載波表現(xiàn)出相同的變化規(guī)律。本文設(shè)置最終輸出的低秩矩陣約束r=1,目的是希望從噪聲湮沒的CSI 信號中恢復(fù)每根天線30 個子載波的統(tǒng)一變化規(guī)律。同時(shí),由于背景干擾隨機(jī)影響每根天線的每個子載波,符合誤差稀疏性的約束,因此設(shè)置背景矩陣稀疏度b=100,誤差ε=10?6,以控制計(jì)算復(fù)雜度。因此,最終分離出的低秩矩陣L包含了最豐富的運(yùn)動信息和最少的噪聲干擾。圖4為經(jīng)過RPCA 處理后不同動作的連續(xù)信號低秩圖,縱軸從上到下分別表示第1、2 和3 根天線,橫軸從左到右分別表示第1、3、5、7 和9 幀。通過觀察圖4(a)的第7、9 幀和圖4(b)的第5、7 幀的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),RPCA 提取的信號低秩成分能夠從不同的空間維度上清晰地揭露運(yùn)動信號的變化特征,具有顯著的辨別力;通過觀察圖4(a)的第1、3、5 幀和圖4(b)的第1、3 幀可以發(fā)現(xiàn),RPCA 有效抑制了背景因素和測量噪聲的干擾,一定程度上提升了信號幀的分辨能力。
經(jīng)過預(yù)處理后的連續(xù)信號序列I′′需要按照從1到N的順序,依次將其中的三維低秩矩陣輸入CNN 進(jìn)行空間特征提取。CNN 優(yōu)勢在于:1) CNN可以通過多層的卷積運(yùn)算逐層自動提取抽象特征,而人體活動天然具有分層結(jié)構(gòu)[9];2) CNN 的局部感知特性有利于局部空間域信息的獲取,而人體活動往往發(fā)生在特定的時(shí)間片段內(nèi);3) CNN 不需要復(fù)雜經(jīng)驗(yàn)來指導(dǎo)參數(shù)設(shè)置,就可以提供位移、尺度和旋轉(zhuǎn)不變的空間特征,提高數(shù)據(jù)處理的容錯率。對于一個j層的CNN 模型,第m層的卷積運(yùn)算式可以表示為
其中,Y(m)和X(m)分別為第m個卷積層的輸出和輸入,第m個卷積層輸出即為第m+1 個卷積層的輸入,即X(m)=Y(m?1)。g(m)、M(m)和δ(m)分別表示第m個卷積層的激活函數(shù)、權(quán)重矩陣和偏置矩陣。特別地,對于第一個卷積層來說,輸入為經(jīng)RPCA 處理后的第n個低秩矩陣,即;對于最后一個卷積層,輸出Y(j)=Y。如圖5 所示,本文搭建了一種適用于低分辨率信號幀的空間特征提取模型。借鑒文獻(xiàn)[27]的設(shè)計(jì)思路,僅采用3 層卷積運(yùn)算以提取場景無關(guān)且具有辨別力的空間特征,防止模型過深所導(dǎo)致的特征過擬合。每個卷積層(Conv)后都做批歸一化和ReLu 激活處理,以提高模型的穩(wěn)健性和訓(xùn)練速度。每次運(yùn)算均采用較小的3×3 卷積核壓縮模型的參數(shù)量,并在池化操作后翻倍特征通道數(shù),從而保證特征提取的完整性。最大池化層負(fù)責(zé)對前一輪的卷積特征圖進(jìn)行二次采樣,以縮減模型大?。蛔詈笠粋€全局平均層負(fù)責(zé)提取每個通道全局信息,并輸出維度為3×3×64 的張量至后續(xù)的LSTM 層中。第三個卷積層輸出的特征圖序列F為
圖4 經(jīng)過RPCA 處理后不同動作的連續(xù)信號低秩圖
圖5 空間特征提取模型結(jié)構(gòu)
當(dāng)模型設(shè)置默認(rèn)參數(shù)值的情況下,以WiAR 數(shù)據(jù)集中走路樣本的第7 幀為例,可以看出所構(gòu)建的空間特征提取模型可以從多個維度逐層表征具有辨別力的空間特征。
由于動作執(zhí)行存在前后邏輯關(guān)系,單一的CNN模型無法建模時(shí)間尺度上的依賴關(guān)系。本文添加LSTM 層,可以建立連續(xù)卷積特征圖F中的時(shí)域關(guān)聯(lián),提升識別系統(tǒng)的可靠性。原因在于,LSTM 可以通過控制內(nèi)部門的狀態(tài),實(shí)現(xiàn)記憶單元的存儲和更新。具體而言,每個LSTM 內(nèi)部主要包括輸入門in、輸出門on和遺忘門fn。輸入門in決定新信息流入當(dāng)前記憶單元狀態(tài)cn的數(shù)量(式(15)),輸出門on負(fù)責(zé)控制前一幀記憶單元cn?1的信息輸出(式(16)),遺忘門fn負(fù)責(zé)判斷cn?1中何種信息應(yīng)當(dāng)被保留至當(dāng)前時(shí)刻,以防止梯度消失或者梯度爆炸(式(17))。LSTM 結(jié)構(gòu)如圖6 所示,根據(jù)第n個信號幀獲得輸入卷積特征圖、前一幀的記憶單元狀態(tài)cn?1,以及上一時(shí)刻的信息輸出hn?1,得到當(dāng)前時(shí)刻的記憶單元狀態(tài)cn(式(18)、式(19))和輸出hn(式(20))。
其中,Wi、Wo、Wf、Wc和bi、bo、bf、bc分別為相應(yīng)的權(quán)重和偏置矩陣,σ表示激活函數(shù)sigmoid,?表示2 個矩陣的逐元素相乘運(yùn)算。
圖6 LSTM 結(jié)構(gòu)
在實(shí)際操作中,需要預(yù)先在CNN-LSTM 中分別添加“序列折疊層”和“序列展開層”,以便實(shí)現(xiàn)圖像序列批次和圖像批次之間的轉(zhuǎn)換。當(dāng)最后一個卷積層輸出特征圖為3×3×64 的張量時(shí),需要經(jīng)過flatten 層的處理,轉(zhuǎn)換成576×1 的向量后再輸入兩層LSTM 單元中。LSTM 的單元數(shù)為128,兩層LSTM 單元之間dropout 概率設(shè)置為0.5,以應(yīng)對過擬合問題。將最后一次迭代的LSTM 輸出信息送入一個全連接層(fc),隱單元數(shù)量對應(yīng)動作的種類。最后,由Softmax 層輸出動作的最大概率,并預(yù)測對應(yīng)的標(biāo)簽。本文采用的模型訓(xùn)練優(yōu)化器為動量梯度下降法(SGDM,stochastic gradient descent with momentum),每次隨機(jī)選擇小批量進(jìn)行梯度下降,從而實(shí)現(xiàn)權(quán)值的快速迭代更新和損失函數(shù)的最小化。選擇L2 正則化作為損失函數(shù)的懲罰項(xiàng),目的是控制模型復(fù)雜度,防止模型過擬合。相應(yīng)的動量超參數(shù)默認(rèn)為0.9,輪次上限設(shè)置為50,每次更新所需的小批量大小為28。初始學(xué)習(xí)率設(shè)為0.01,當(dāng)?shù)?5 輪以后,再將學(xué)習(xí)率調(diào)整為0.001,以期用更小的步長尋找最優(yōu)值。本文采用5 折交叉運(yùn)算法來驗(yàn)證算法的有效性,實(shí)驗(yàn)訓(xùn)練和測試均部署在Intel i7-5700HQ 2.70 GHz CPU 的臺式機(jī),并利用MATLAB 2019a 進(jìn)行模型實(shí)現(xiàn),訓(xùn)練過程如圖7所示。
本文所采用的公開數(shù)據(jù)集WiAR[25]是Wi-Fi 動作識別領(lǐng)域最新的數(shù)據(jù)集,包含三類室內(nèi)場景、16個動作類別,涵蓋了4 800 個采集數(shù)據(jù)。該數(shù)據(jù)集的動作類別包括10 個上肢運(yùn)動、2 個下肢運(yùn)動和4個全身運(yùn)動。每個動作均由10 名測試人員(5 名男性、5 名女性)按照指令執(zhí)行30 次,持續(xù)時(shí)間超過7 s,包括動作準(zhǔn)備時(shí)間、執(zhí)行時(shí)間和完成后等待時(shí)間。配置Intel 5300 網(wǎng)卡的商用Wi-Fi 設(shè)備以30 Hz的采樣率持續(xù)接收CSI 數(shù)據(jù)分組,接收端的天線數(shù)量為3 根。由于該數(shù)據(jù)集來源于真實(shí)場景,包含場景噪聲、習(xí)慣差異、人員多樣性等諸多不利因素,故具有一定的挑戰(zhàn)性。
本文還使用了自主采集的真實(shí)場景數(shù)據(jù)進(jìn)行測試。參考WiAR[25]的實(shí)驗(yàn)設(shè)置,實(shí)驗(yàn)安排在如圖8所示的6 m×6 m 相對空曠的會議室和6 m×12 m 噪聲復(fù)雜的辦公室環(huán)境中進(jìn)行。選擇5 名無相關(guān)專業(yè)背景的研究生作為測試人員全程參與實(shí)驗(yàn),其中,2 名為女性,3 名為男性。為了增加動作識別的難度,挑選4 個相似的全身動作和4 個上肢運(yùn)動,全身動作包括原地踏步、深蹲、跳躍和摔倒,上肢動作包括喝水、接聽電話、揮手和敬禮。在一周內(nèi)每人每天在不同場景分2 次完成共計(jì)20 組動作,以避免勞累所導(dǎo)致的動作變形。數(shù)據(jù)采集階段,提前為兩臺ThinkPad 筆記本電腦配置Intel 5300 網(wǎng)卡和CSITool[11],其中一臺裝配一根外置天線,作為發(fā)射端(AP);另一臺裝備3 根外置天線,作為接收端(MP)。兩臺筆記本放置距離為4 m,放置高度為1.5 m,分別工作在監(jiān)控模式下,以30 Hz 的采樣率持續(xù)發(fā)送和接收數(shù)據(jù)分組。
圖7 MATLAB 平臺模型訓(xùn)練過程
圖8 本文設(shè)置的實(shí)驗(yàn)環(huán)境
為了準(zhǔn)確評估SIL-Fi 的模型優(yōu)勢,本文選取2種基于CNN-LSTM 模型的同類工作進(jìn)行對比實(shí)驗(yàn)。
如表1 所示,文獻(xiàn)[28]采用了低通濾波、PCA去噪和有效區(qū)域的組合去噪方式,以0.96 的精度對8 種活動進(jìn)行識別;文獻(xiàn)[29]前期利用盲源信號分解法(BSS,blind signal separation)對原始的幅值和相位信息進(jìn)行分解,并利用隱馬爾可夫模型(HMM,hidden Markov model)對識別結(jié)果進(jìn)行修正,最終以0.85 的精度識別4 種門窗開關(guān)的方式。本文方法在模型主體結(jié)構(gòu)基本類似的情況下,在信號預(yù)處理階段僅利用RPCA 對運(yùn)動信號主成分進(jìn)行提取,避免引入煩瑣的信號表征步驟(文獻(xiàn)[28])或是額外信號參數(shù)及糾正手段(文獻(xiàn)[29]),并在公開數(shù)據(jù)集WiAR 和自主采集數(shù)據(jù)集上均取得理想的識別精度。為了進(jìn)一步闡述本文方法的優(yōu)勢,復(fù)現(xiàn)了表1中同類工作的方法,采用5 折交叉驗(yàn)證法分別對WiAR 和自主采集數(shù)據(jù)集的各類活動數(shù)據(jù)進(jìn)行比較。其中,表2 為WiAR 數(shù)據(jù)集上16 類活動的識別正確率,表3 所示為自主采集數(shù)據(jù)集上8 類相似活動的識別正確率。綜合表2 和表3 的實(shí)驗(yàn)結(jié)果,文獻(xiàn)[29]方法在識別彎腰、坐下、深蹲等全身動作時(shí)效果較好,識別喝水、打電話等相似動作時(shí)效果較差,這可能來源于BSS 算法的局限性,即來自人體軀干和門窗等表面積較大的反射信號更有利于分離。文獻(xiàn)[28]在2 個數(shù)據(jù)集上的平均識別精度最低,分別約為0.91 和0.94,這可能是因?yàn)樵摲椒ㄒ筇炀€遠(yuǎn)距離擺放以獲取空間多樣性,而在本文實(shí)驗(yàn)場景中,煩瑣的信號預(yù)處理方法在處理噪聲干擾的同時(shí),也更容易丟棄有益的運(yùn)動信息。本文方法在面對不同動作時(shí)均能取得較好的識別效果,平均精度分別為0.94 和0.96,說明本文模型在僅需要RPCA 和原始幅值連續(xù)幀的情況下,依然能夠有效提取運(yùn)動信號主成分;在不進(jìn)行深度模型參數(shù)復(fù)雜調(diào)優(yōu)的情況下,依然能夠提取顯著性特征。
表1 本文方法與基于CNN-LSTM 的同類工作的比較
表2 WiAR 數(shù)據(jù)集上識別正確率比較
表3 自主采集數(shù)據(jù)集上識別正確率比較
為了進(jìn)一步探究不同動作對本文方法識別準(zhǔn)確率的影響,以混淆矩陣的形式對本文方法在2 個數(shù)據(jù)集的驗(yàn)證結(jié)果進(jìn)行呈現(xiàn),如圖9 所示,縱坐標(biāo)為真實(shí)標(biāo)簽,橫坐標(biāo)為預(yù)測標(biāo)簽,每個混淆矩陣的像素(i,j)表示第i個預(yù)測動作被估計(jì)成第j個真實(shí)動作的個數(shù)。圖9(a)中動作編號1~16 所代表的動作如表2 注所示,圖9(b)中動作編號1~8 所代表的動作如表3 注所示。如圖9(a)所示,在WiAR 數(shù)據(jù)集上的主要誤差來源于手臂畫勾和前向踢腿等肢體動作。其中,手臂畫勾動作最容易被識別成手臂畫叉和搖晃紙張等具有相似邏輯關(guān)系的動作,分別有15 例和18 例;前向踢腿動作最容易被識別成相似的側(cè)向踢腿和走路,分別有12 例和24 例。在圖9(b)中,由于全身運(yùn)動和肢體運(yùn)動具有顯著差異,因此對應(yīng)的全身(肢體)動作全部被識別成類似的全身(肢體動作)。在全身動作中,深蹲動作是最容易被誤識別的,僅有0.949 的識別正確率;在肢體動作中,喝水和敬禮動作的識別精度最低,分別為0.939 和0.933。通過總結(jié)實(shí)驗(yàn)結(jié)果觀察到,連續(xù)且具有較大擺動幅度的全身動作最容易被識別,而孤立的、具有相似邏輯關(guān)系且擺動幅度較小的肢體動作最難被正確分類。
本節(jié)實(shí)驗(yàn)分析了不同卷積(Conv)層和LSTM層組合方式對訓(xùn)練時(shí)間和平均精度的影響,以WiAR 數(shù)據(jù)集為例,實(shí)驗(yàn)結(jié)果如表4 所示。其中,設(shè)置每個Conv 層后緊跟最大池化層、批歸一化層和激活層ReLu,其一層、2 層和3 層Conv 的隱神經(jīng)元個數(shù)分別是(64)、(32,64)和(16,32,64),LSTM的單元數(shù)統(tǒng)一設(shè)置為128,全連接層的單元數(shù)為16,其余設(shè)置與前文所述一致。觀察到,當(dāng)以序號1 的方式組合時(shí),耗時(shí)最長,平均精度最低。這是由于缺乏Conv 層的抽象特征提取和最大池化層的降采樣操作,導(dǎo)致LSTM 需要處理多達(dá)14 400 個信號批次。隨著Conv 層數(shù)和最大池化層數(shù)的增加,訓(xùn)練時(shí)間逐漸減小,平均精度也得到了顯著的提升,說明網(wǎng)絡(luò)開始逐層學(xué)習(xí)具有判別性語義的特征。當(dāng)固定Conv 層數(shù),進(jìn)一步增加LSTM 層數(shù)時(shí),觀察到從序號2 到序號3,由于模型過度擬合,盡管訓(xùn)練時(shí)間增加了299 s,但是精度卻反而下滑。相比序號4,當(dāng)采用序號5 的組合方式時(shí),僅需要多訓(xùn)練1 464 s,即每個訓(xùn)練樣本訓(xùn)練1.75 s,就可以得到超過序號4 組合方式0.12 的精度提升。
為了直觀凸顯SIL-Fi 在特征提取方面的優(yōu)勢,本文分別選取基于手動特征提取[14,18]、基于CNN[22]和基于LSTM[30]的相關(guān)工作進(jìn)行復(fù)現(xiàn)并進(jìn)行對比實(shí)驗(yàn)?;谑謩犹卣魈崛〉墓ぷ饕话惴譃閮深悾阂活愡\(yùn)用專家經(jīng)驗(yàn),試圖枚舉時(shí)頻域顯著性特征,從而構(gòu)建完備的特征集合,如文獻(xiàn)[14];另一類是在前者的基礎(chǔ)上,對特征集合的有效性和冗余性進(jìn)行計(jì)算,從而篩選出代表性特征,如文獻(xiàn)[18]。為確保對比實(shí)驗(yàn)的公平性,在復(fù)現(xiàn)文獻(xiàn)[18]的方法時(shí),所采用的特征均來源于文獻(xiàn)[14],二者僅在特征篩選環(huán)節(jié)有所不同。對比文獻(xiàn)[22,30]是為了說明單一的空間/時(shí)域特征對于系統(tǒng)穩(wěn)健性的影響。文獻(xiàn)[22]利用改進(jìn)的CNN網(wǎng)絡(luò)提取變尺寸的幅值?相位圖像的空間特征,文獻(xiàn)[30]則首次將LSTM 應(yīng)用于Wi-Fi活動信號的時(shí)域關(guān)系建模。
圖9 2 個數(shù)據(jù)集上不同動作的混淆矩陣
由于WiAR 數(shù)據(jù)集缺乏樣本采集時(shí)的環(huán)境描述,因此在自主采集數(shù)據(jù)集上對不同特征提取方式的穩(wěn)健性進(jìn)行探究。自主采集數(shù)據(jù)集上不同特征提取方法對系統(tǒng)穩(wěn)健性的影響如表5 所示??梢缘贸鲆韵陆Y(jié)論。1) 文獻(xiàn)[14]的枚舉特征集合無法在自主采集數(shù)據(jù)集上使用,該特征集合僅能片面地刻畫自主采集數(shù)據(jù)集活動的特征,因此平均精度最低,僅為0.77。2) 采用有監(jiān)督式的特征篩選方法[18]通過剔除冗余的、無益的時(shí)頻特征,可以將系統(tǒng)識別精度提高至0.85,這說明在理想情況下,若能針對領(lǐng)域特點(diǎn)設(shè)計(jì)出一個考慮足夠全面、精煉和顯著的特征集合,則可以確保系統(tǒng)識別的穩(wěn)健性。然而這種方法極大地依賴設(shè)計(jì)者的背景知識、調(diào)參經(jīng)驗(yàn)和總結(jié)規(guī)律能力。3) 即使是單一的CNN 或者LSTM 方法,在面對場景遷移和個體差異時(shí),都能通過自動提取空間域/時(shí)間域上的顯著特征,取得理想的識別精度,分別為0.935 和0.934。4) SIL-Fi通過深度融合CNN 和LSTM 模型,在不同的實(shí)驗(yàn)室環(huán)境、不同的受試個體中均取得了最高的實(shí)驗(yàn)精度,驗(yàn)證了本文方法的穩(wěn)健性。注意到測試人員的個體差異對識別精度的影響,SIL-Fi 在經(jīng)過適當(dāng)修改后還適用于用戶認(rèn)證、手勢密碼和智能推薦等個性化服務(wù)。
針對現(xiàn)有基于深度學(xué)習(xí)的Wi-Fi 行為識別方法存在的抗噪聲能力差、信號輸入不兼容以及特征提取不充分的問題,本文提出一種基于連續(xù)圖像深度學(xué)習(xí)的Wi-Fi 人體行為識別方法——SIL-Fi。首先將采集到的CSI 原始幅值序列分割成若干個固定尺寸幀圖,克服模型輸入限制;進(jìn)而設(shè)計(jì)低秩分解算法法提取關(guān)鍵的運(yùn)動主成分信息;并將每一幀低秩矩陣分別輸入空間特征模塊和時(shí)間特征提取模塊中。其中,空間特征模塊通過逐層表征信號矩陣,將低秩矩陣中具有顯著識別力的空間尺度特征抽象并映射到特征圖中;時(shí)間特征模塊接納變長的特征圖序列,并借助其記憶特性對其在時(shí)間尺度的上下文依賴關(guān)系進(jìn)行建模。通過整合模型,既能實(shí)現(xiàn)低分辨率圖像空間域和時(shí)間域特征的深度萃取,又可以有效解決CNN 模型輸入和特征提取不足的問題。本文方法分別在WiAR 公開數(shù)據(jù)集和自主采集數(shù)據(jù)集上進(jìn)行測試,并考慮了不同動作、模型組合、測試人員、特征提取方式等諸多因素的影響。實(shí)驗(yàn)結(jié)果表明,本文方法相較于同類工作具有良好的性能,具備普適場景下的高精度和穩(wěn)健性。
表4 WiAR 數(shù)據(jù)集上不同深度模型組合方式對實(shí)驗(yàn)結(jié)果的影響
表5 自主采集數(shù)據(jù)集上不同特征提取方法對系統(tǒng)穩(wěn)健性的影響
為進(jìn)一步提高方法的實(shí)用性,下一步工作還需要解決以下問題:1) 如何在少樣本或者零樣本的情況下,實(shí)現(xiàn)場景獨(dú)立的人體行為識別;2) 如何在多人或多變量并發(fā)的情況,實(shí)現(xiàn)目標(biāo)人體活動信號的分離和提?。?) 如何通過合理修改模型結(jié)構(gòu),在計(jì)算資源有限的情況下進(jìn)一步提高工作效率。