劉纖纖, 唐智靈, 黃燕紅
(桂林電子科技大學(xué) 信息與通信學(xué)院,廣西 桂林 541004)
隨著無線通信及人工智能技術(shù)的發(fā)展,人機(jī)交互技術(shù)(human-computer interaction,簡(jiǎn)稱HCI)在人們生活中扮演著越來越重要的角色。傳統(tǒng)的人機(jī)交互方式包括鍵盤鼠標(biāo)操作、觸屏感知及語音識(shí)別等,但這些交互方式都存在弱點(diǎn),如鼠標(biāo)鍵盤需要額外的硬件設(shè)備,不方便攜帶;觸屏感知需要接在顯示屏上操控,這限制了其應(yīng)用范圍;語音識(shí)別在操作過程中會(huì)產(chǎn)生聲音而影響他人,也容易泄露信息,不具備安全性。與這些設(shè)備相比,通過感知手勢(shì)對(duì)無線信道影響的手勢(shì)識(shí)別技術(shù)具有獨(dú)特的優(yōu)勢(shì)。
接收信號(hào)強(qiáng)度指示(received signal strength indicator,簡(jiǎn)稱RSSI)和信道狀態(tài)信息(channel state information,簡(jiǎn)稱CSI)是WiFi信號(hào)的2種重要物理特性。WiFi信號(hào)在空中傳播時(shí)會(huì)受到障礙物的影響而產(chǎn)生反射、直射和散射等現(xiàn)象,導(dǎo)致無線信號(hào)的衰落;而環(huán)境因素的改變?cè)诓煌瑫r(shí)刻會(huì)對(duì)RSS產(chǎn)生不同程度的影響?;赪iFi的定位[1]、人體活動(dòng)檢測(cè)[2]、步態(tài)識(shí)別[3]、唇語識(shí)別[4]、手勢(shì)識(shí)別等采用RSS作為無線信道度量。因?yàn)镽SS的獲取無需額外設(shè)備,所以利用RSS 信息識(shí)別手勢(shì)具有普適性。但RSS受到多徑的影響使識(shí)別結(jié)果精確度降低,且RSS對(duì)測(cè)量較敏感。若利用CSI,則能揭示信號(hào)傳播的細(xì)粒度信息,包括每個(gè)子載波上的多個(gè)路徑的不同時(shí)間延遲、幅度衰減和相移。利用CSI數(shù)據(jù)提供豐富的幅度和相位信息,對(duì)運(yùn)動(dòng)物體進(jìn)行感知會(huì)有更精細(xì)的分辨率。通過分析由手勢(shì)運(yùn)動(dòng)引起的CSI變化來識(shí)別手勢(shì)動(dòng)作,其優(yōu)勢(shì)在于無需用戶攜帶任何設(shè)備,不受光線強(qiáng)弱影響等限制,不會(huì)泄露隱私,精度高,成本低,易部署?,F(xiàn)有的手勢(shì)識(shí)別算法包括支持向量機(jī)(SVM)等淺層學(xué)習(xí)算法[5-8]、主成分分析算法(PCA)[9-10]、小波變換算法[11-12]、動(dòng)態(tài)時(shí)間規(guī)整算法(DTW)[13-15]、深度學(xué)習(xí)算法[16-19]等。上述算法除了深度學(xué)習(xí)算法外,都需要手動(dòng)提取手勢(shì)特征,手勢(shì)識(shí)別過程繁瑣、效率低。深度學(xué)習(xí)在數(shù)據(jù)處理及特征提取方面有較大優(yōu)勢(shì),且能有效降低模型訓(xùn)練時(shí)過多的人為干預(yù),高效地提取樣本特征。
雖然已有的基于深度學(xué)習(xí)手勢(shì)識(shí)別技術(shù)的研究可以正確識(shí)別手勢(shì),但對(duì)多個(gè)用戶的多類手勢(shì)而言,并不具有較好的穩(wěn)健性及高識(shí)別度。另外,手勢(shì)動(dòng)作往往與時(shí)間因素有關(guān),而現(xiàn)有的手勢(shì)識(shí)別技術(shù)未能將時(shí)間相關(guān)性作為手勢(shì)固有特征。對(duì)這些手勢(shì)的識(shí)別性能比較如表1所示。如何對(duì)手勢(shì)的CSI數(shù)據(jù)特征進(jìn)行更全面的提取,以及如何提高識(shí)別多個(gè)用戶的多類手勢(shì)的正確率,成為現(xiàn)在迫切需要解決的問題。
表1 各系統(tǒng)手勢(shì)識(shí)別性能比較
鑒于此,提出一種并行LSTM-FCN 深度時(shí)空網(wǎng)絡(luò)模型。選取5個(gè)實(shí)驗(yàn)人員,采用美國(guó)手勢(shì)語言庫(kù)(ASL)中50 類常用的基本手勢(shì)作為識(shí)別目標(biāo)。LSTM 能學(xué)習(xí)復(fù)雜的時(shí)間動(dòng)態(tài),FCN 能高效地學(xué)習(xí)手勢(shì)抽象的空間特征[21]。并行LSTM-FCN 能夠從手勢(shì)數(shù)據(jù)中挖掘隱藏的空間和時(shí)間關(guān)系,通過將時(shí)間和空間維度的特征進(jìn)行聯(lián)合,獲得較全面且與時(shí)間有關(guān)的手勢(shì)特征映射。并行LSTM-FCN 深度時(shí)空神經(jīng)網(wǎng)絡(luò)可適應(yīng)個(gè)體差異和手勢(shì)不一致的情況,能夠識(shí)別多個(gè)用戶的多類手勢(shì)。
基于并行LSTM-FCN 的手勢(shì)識(shí)別系統(tǒng)能分別提取手勢(shì)動(dòng)作的空間和時(shí)間特征。通過全面且細(xì)粒度的時(shí)間空間特征能較好地區(qū)分每類手勢(shì)及每個(gè)用戶之間的細(xì)微差別。手勢(shì)識(shí)別系統(tǒng)的結(jié)構(gòu)如圖1所示。
圖1 手勢(shì)識(shí)別系統(tǒng)的結(jié)構(gòu)
收集日常生活中經(jīng)常使用的50個(gè)標(biāo)志手勢(shì)的CSI數(shù)據(jù)包,實(shí)驗(yàn)室大小為9 m×7 m,實(shí)驗(yàn)室的平面圖如圖2所示。發(fā)射端為帶有3根天線的無線路由器,接收端為內(nèi)置Intel5300網(wǎng)卡的筆記本電腦和一根外置天線,可工作于IEEE 802.11a/b/g/n協(xié)議,傳輸速率最高為300 Mbit/s,工作頻段采用常用的2.4 GHz頻段。發(fā)射端與接收端相距180 cm,置于同一水平高處,在筆記本電腦安裝CSI Tool,通過終端命令無線路由以一定的速率連續(xù)不斷地發(fā)送數(shù)據(jù),用戶在發(fā)射與接收端之間連線的中點(diǎn)O處分別做出不同手勢(shì),采樣率為100 Hz。通過5個(gè)用戶在實(shí)驗(yàn)環(huán)境中執(zhí)行50種ASL手勢(shì),評(píng)估手勢(shì)識(shí)別的準(zhǔn)確性及系統(tǒng)對(duì)不同用戶的有效性。
圖2 實(shí)驗(yàn)環(huán)境平面圖
WiFi信號(hào)易受多徑傳播等因素影響,直接獲取的手勢(shì)數(shù)據(jù)含有較多干擾噪聲。因此,需對(duì)采集的CSI數(shù)據(jù)進(jìn)行預(yù)處理。數(shù)據(jù)預(yù)處理部分包括局部異常值去除和巴特沃斯低通濾波。
1.2.1 局部異常值去除
在靜止環(huán)境下,CSI數(shù)據(jù)很平穩(wěn),幅度波形無太大起伏。而做手勢(shì)動(dòng)作時(shí),CSI數(shù)據(jù)發(fā)生變化,幅度波形變化較大的部分即為手勢(shì)動(dòng)作。由于傳輸功率變化和傳輸速率自適應(yīng)等引起的設(shè)備內(nèi)部本身狀態(tài)的變化,導(dǎo)致采集到的CSI數(shù)據(jù)中存在一些較大的突發(fā)噪聲,這些異常值并非手勢(shì)動(dòng)作引起的,會(huì)對(duì)手勢(shì)識(shí)別造成干擾。局部異常因子(LOF)算法通過比較數(shù)據(jù)點(diǎn)與相鄰點(diǎn)的相對(duì)密度來衡量它們的孤立程度,并對(duì)每個(gè)點(diǎn)賦予一個(gè)局部異常系數(shù):
其中L k(p)為p點(diǎn)的k-局部可達(dá)密度。p點(diǎn)的局部異常系數(shù)LOF(p)等于p點(diǎn)鄰域的平均可達(dá)密度與p點(diǎn)自身可達(dá)密度之比,用來衡量p點(diǎn)相對(duì)于k-距離近鄰點(diǎn)而言成為異常點(diǎn)的概率。若LOF系數(shù)較大,則反映該點(diǎn)局部范圍包含的點(diǎn)比較稀疏,成為異常點(diǎn)的可能性就大,反之成為異常點(diǎn)的可能性就小。這里取LOF>1時(shí)的點(diǎn)作為局部異常點(diǎn),將其從CSI數(shù)據(jù)中刪除。
1.2.2 巴特沃斯去噪
由于手勢(shì)信號(hào)是低頻信號(hào),需經(jīng)過濾波器將高頻段噪聲去除。采用巴特沃斯低通濾波器對(duì)手勢(shì)的CSI數(shù)據(jù)進(jìn)行去噪,去除實(shí)驗(yàn)環(huán)境的背景噪聲。圖3為其中一個(gè)原始手勢(shì)的子載波序列,幅度起伏較大的中間部分表示手勢(shì)動(dòng)作。經(jīng)過濾波器低通濾波后的手勢(shì)子載波序列如圖4所示。
圖3 原始手勢(shì)的子載波序列
圖4 低通濾波后的手勢(shì)子載波序列
并行的LSTM-FCN 網(wǎng)絡(luò)模型融合了手勢(shì)在時(shí)間和空間維度的特征映射,能夠較全面地提取各類手勢(shì)的特征。該模型利用并行的方式獲取不同層的特征映射來豐富細(xì)節(jié)信息和全局信息。FCN 主要提取全局抽象的非線性特征,但同時(shí)也會(huì)失掉一些細(xì)節(jié)信息。LSTM 具有時(shí)間記憶性,能夠?qū)W習(xí)到長(zhǎng)期依賴關(guān)系。人的手勢(shì)動(dòng)作與時(shí)間因素密切相關(guān),不同手勢(shì)動(dòng)作有不同的時(shí)間周期性,運(yùn)用LSTM 可以很方便地提取手勢(shì)動(dòng)作在時(shí)間維度的特征,便于識(shí)別出手勢(shì)。因此,將LSTM 與FCN 聯(lián)合,可融合不同維度的手勢(shì)特征圖,以獲得更好的識(shí)別結(jié)果。并行LSTM-FCN網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。將接收天線信號(hào)的30個(gè)子載波整合到一起作為輸入數(shù)據(jù),發(fā)射端與接收端的天線數(shù)量之比為3∶1,每個(gè)數(shù)據(jù)包有30個(gè)子載波,每個(gè)手勢(shì)的CSI序列長(zhǎng)200,因此得到的手勢(shì)CSI數(shù)據(jù)為(200,30,3)的三維矩陣。本系統(tǒng)將大小為(200,30,3)的CSI樣本數(shù)據(jù)轉(zhuǎn)變換為(18 000,1)的向量,作為每個(gè)分支的輸入。
圖5 并行LSTM-CNN網(wǎng)絡(luò)結(jié)構(gòu)
LSTM 的每個(gè)神經(jīng)元包括輸入門、遺忘門、輸出門,通過這3個(gè)門保留和控制神經(jīng)元狀態(tài)。每個(gè)神經(jīng)元內(nèi)部結(jié)構(gòu)一致。LSTM 鏈狀網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。
圖6 LSTM 鏈狀網(wǎng)絡(luò)結(jié)構(gòu)
遺忘門是以一定的概率控制是否遺忘上一層的隱藏細(xì)胞狀態(tài),決定了上一時(shí)刻的單元狀態(tài)的信息是否可以保留到當(dāng)前時(shí)刻,即
其中:f t為遺忘門的輸出信息;δ為Sigmoid激活函數(shù),取值范圍為(0,1),1表示信息被完全保留,0表示信息被完全舍棄。
輸入門決定當(dāng)前時(shí)刻的輸入可以保存到單元狀態(tài)的信息。輸入門信息i t的計(jì)算式為
卷積神經(jīng)網(wǎng)絡(luò)能夠直接從原始手勢(shì)數(shù)據(jù)中自動(dòng)提取有效特征。與CNN相比,FCN可以接受任意尺寸的數(shù)據(jù)輸入,能夠提取像素級(jí)別的空間特征。FCN可以充分挖掘CSI數(shù)據(jù)之間隱藏的信息,對(duì)CSI數(shù)據(jù)序列進(jìn)行處理,獲得像素級(jí)中間特征圖,然后再利用卷積層對(duì)該特征進(jìn)行學(xué)習(xí)。
卷積層后的池化層采用全局平均池化層,可以減少計(jì)算資源的耗費(fèi),加快計(jì)算速度,防止訓(xùn)練過擬合,實(shí)現(xiàn)任意維度大小的數(shù)據(jù)輸入。為了克服神經(jīng)網(wǎng)絡(luò)層數(shù)加深,導(dǎo)致梯度消失或梯度爆炸,需要引入BN來規(guī)范某些層的輸入。BN 能加速網(wǎng)絡(luò)訓(xùn)練并降低對(duì)網(wǎng)絡(luò)初始化的敏感度,提高學(xué)習(xí)速度,還有助于防止過度擬合。當(dāng)訓(xùn)練數(shù)據(jù)集包含來自不同用戶的數(shù)據(jù)時(shí),它還可以提高卷積神經(jīng)網(wǎng)絡(luò)的泛化能力。引入激活函數(shù)能增加網(wǎng)絡(luò)的非線性分割能力。在反向傳播求誤差梯度時(shí)間時(shí),計(jì)算量相對(duì)大,對(duì)于深層網(wǎng)絡(luò),Sigmoid函數(shù)反向傳播時(shí)易出現(xiàn)梯度爆炸的情況,所以采用ReLU 函數(shù)。FCN網(wǎng)絡(luò)輸入的同樣是大小為(18 000,1)的CSI向量,手勢(shì)數(shù)據(jù)經(jīng)過FCN 分支訓(xùn)練后得到的特征為F=[F1,F2,…,F256]。 最后2個(gè)并行分支利用concatenate函數(shù)將輸出層的特征信息進(jìn)行聯(lián)合,聯(lián)合的特征M=[L1,L2,…,L8,F1,F2,…,F256]。由于本系統(tǒng)是一個(gè)多分類系統(tǒng),采用Softmax函數(shù)對(duì)聯(lián)合特征進(jìn)行分類。
5個(gè)實(shí)驗(yàn)人員在圖3所示的實(shí)驗(yàn)環(huán)境中執(zhí)行50類手勢(shì),一共采集1 250組實(shí)例數(shù)據(jù),手勢(shì)動(dòng)作如圖7所示。數(shù)據(jù)集中70%劃分為訓(xùn)練數(shù)據(jù)集,30%為驗(yàn)證數(shù)據(jù)集。網(wǎng)絡(luò)第一個(gè)并行分支Dropout層參數(shù)設(shè)置為0.8,防止模型發(fā)生過擬合。實(shí)驗(yàn)同時(shí)對(duì)比了多個(gè)優(yōu)化器的優(yōu)化效果,Adam 的收斂速度比SGD 要快且效果更好,較適合該模型,其中的Lr學(xué)習(xí)率設(shè)置為0.001,beta_1設(shè)置為0.9,beta_2設(shè)置為0.99,epsilon設(shè)置為1×10-8。共訓(xùn)練了50個(gè)批次,每個(gè)訓(xùn)練批次樣本為32,采用5折交叉驗(yàn)證。
圖7 50類手勢(shì)動(dòng)作
手勢(shì)識(shí)別系統(tǒng)模型性能評(píng)估指標(biāo)主要為識(shí)別精度、損失函數(shù)及混淆矩陣。手勢(shì)識(shí)別系統(tǒng)仿真識(shí)別精度如圖8所示,損失函數(shù)如圖9所示,混淆矩陣如圖10所示,方法對(duì)比實(shí)驗(yàn)結(jié)果如圖11所示。
圖8 識(shí)別精度
圖9 訓(xùn)練集與測(cè)試集損失
圖10 50類手勢(shì)識(shí)別混淆矩陣
圖11 3種模型對(duì)比
從圖8可看出,隨著訓(xùn)練批次增加,手勢(shì)識(shí)別精度逐漸上升,樣本訓(xùn)練到10個(gè)批次時(shí),模型開始收斂,當(dāng)訓(xùn)練集識(shí)別精度為100%時(shí),5個(gè)用戶的50類手勢(shì)在測(cè)試集上的平均識(shí)別精度為98.4%,表明并行的LSTM-FCN網(wǎng)絡(luò)能較好地識(shí)別多個(gè)用戶的多類手勢(shì)。
損失函數(shù)是評(píng)估模型性能好壞的一個(gè)指標(biāo),在分類問題中用于度量測(cè)量值與實(shí)際觀測(cè)值的差異,本研究采用categotical_accuracy損失函數(shù)觀測(cè)多分類問題預(yù)測(cè)的準(zhǔn)確率。從圖9可看出,隨著訓(xùn)練批次的增加,訓(xùn)練集的損失低至0,測(cè)試集損失最終約為0.2。
從圖10可看出,對(duì)角線上方形格子顏色越深,表明識(shí)別準(zhǔn)確率越高,其中有5類手勢(shì)識(shí)別精度相對(duì)較低,絕大部分手勢(shì)能被準(zhǔn)確識(shí)別,表明本并行LSTM-FCN網(wǎng)絡(luò)在識(shí)別多個(gè)用戶的多類手勢(shì)時(shí)具有較高準(zhǔn)確率。
采用LSTM-FCN、LSCN和CNN方法進(jìn)行對(duì)比實(shí)驗(yàn)。LSCN模型是LSTM 和CNN 的串行連接。3種方法實(shí)驗(yàn)結(jié)果如圖11所示,平均識(shí)別準(zhǔn)確率分別為98.4%、97.8%和90.4%。對(duì)比結(jié)果表明,并行的LSTM-CNN網(wǎng)絡(luò)在多個(gè)用戶的多類手勢(shì)識(shí)別中效果優(yōu)于其它2種方法,在多用戶的多類型手勢(shì)識(shí)別中表現(xiàn)最佳。其中,LSCN 模型的識(shí)別準(zhǔn)確率與并行LSTM-FCN網(wǎng)絡(luò)相差較小,但LSCN訓(xùn)練時(shí)間更長(zhǎng)。
針對(duì)現(xiàn)有的手勢(shì)識(shí)別系統(tǒng)未兼具用戶差異性與手勢(shì)種類多樣性的問題,提出了一種基于并行LSTM-FCN網(wǎng)絡(luò)的CSI手勢(shì)識(shí)別方法。無需使用特殊設(shè)備和硬件即可通過更細(xì)粒度的CSI來識(shí)別手勢(shì)。采集5個(gè)用戶的50類手勢(shì)數(shù)據(jù)包,通過局部異常點(diǎn)去除和巴特沃斯濾波去噪等數(shù)據(jù)預(yù)處理后,利用LSTM-FCN網(wǎng)絡(luò)進(jìn)行訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,基于并行LSTM-FCN網(wǎng)絡(luò)的手勢(shì)識(shí)別系統(tǒng)的平均識(shí)別率可達(dá)98.4%。對(duì)于相同的樣本,識(shí)別精度明顯高于CNN,且訓(xùn)練時(shí)間比LSCN短。并行LSTM-FCN系統(tǒng)可適應(yīng)不同的用戶和多種類型的手勢(shì),即在不同用戶和多個(gè)手勢(shì)類別的情況下,也具有較好的魯棒性??紤]到不同的用戶在不同的場(chǎng)景也會(huì)影響手勢(shì)識(shí)別,如何減少環(huán)境因素對(duì)手勢(shì)識(shí)別的影響,提高識(shí)別準(zhǔn)確率,是將來基于CSI手勢(shì)識(shí)別可研究的方向。