黨小超, 殷 杰, 郝占軍, 喬志強(qiáng)
(1.西北師范大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,甘肅 蘭州 730070; 2.甘肅省物聯(lián)網(wǎng)工程研究中心,甘肅 蘭州 730070)
隨著人工智能與虛擬現(xiàn)實(shí)技術(shù)的快速發(fā)展,人們的生活逐漸變得智能化,因而各類人機(jī)交互的需求也在不斷增加。相比于傳統(tǒng)的鼠標(biāo)、 鍵盤等通過硬件建立的人機(jī)交互模式相比,手勢(shì)識(shí)別顯得更加便捷與自然。目前對(duì)手勢(shì)識(shí)別的研究方法主要包括有三種:1)基于傳感器的方法[1~4],有便攜性差、硬件設(shè)備昂貴等缺點(diǎn);2)基于計(jì)算機(jī)視覺的方法[5~7]受環(huán)境影響及視距情況影響較大;3)基于WiFi信號(hào)的識(shí)別方法已成為人機(jī)交互領(lǐng)域重要的研究方向。
在以往基于WiFi信號(hào)的方法中大多使用接收信號(hào)強(qiáng)度(received signal strength,RSS) 進(jìn)行研究,但由于RSS受多徑效應(yīng)和窄帶干擾的影響較大導(dǎo)致實(shí)驗(yàn)效果不佳。與之相比,信道狀態(tài)信息(channel state information,CSI)信號(hào)則具有穩(wěn)定性高,受多徑效應(yīng)影響小,對(duì)室內(nèi)環(huán)境變化敏感等優(yōu)勢(shì)[8],文獻(xiàn)[9]提出的WiFall系統(tǒng)通過CSI信號(hào)對(duì)人員進(jìn)行跌倒檢測(cè);文獻(xiàn)[10]提出的WiHear系統(tǒng)可使用WiFi信號(hào)檢測(cè)人員口語(yǔ);文獻(xiàn)[11]研究了CSI與人體運(yùn)動(dòng)速度的關(guān)系。
收稿日期:2020—09—02
*基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(61662070,61762079); 甘肅省科技重點(diǎn)研發(fā)資助項(xiàng)目(1604FKCA097,17YF1GA015); 甘肅省科技創(chuàng)新項(xiàng)目(17CX2JA037,17CX2JA039)
與手勢(shì)的識(shí)別相比,數(shù)字的多樣性與復(fù)雜性使得對(duì)其的識(shí)別更具有挑戰(zhàn)性。文獻(xiàn)[12]提出的WiKey方法通過CSI信號(hào)用戶手部輸入動(dòng)作;文獻(xiàn)[13]使用到達(dá)角度(AOA)算法測(cè)量CSI信號(hào)的到達(dá)角識(shí)別手勢(shì)動(dòng)作,但動(dòng)作軌跡較相似時(shí)精度有明顯下降;文獻(xiàn)[14]提出的WiG方法設(shè)計(jì)識(shí)別前、后、左、右4種揮手手勢(shì),選取4種統(tǒng)計(jì)特征進(jìn)行區(qū)分,但SVM方法在多分類問題中效果較差且特征選取較為復(fù)雜;文獻(xiàn)[15]中WiGest模型通過離散小波變換(DTW)算法進(jìn)行手勢(shì)識(shí)別。WiG方法與WiGest方法均只識(shí)別4種手勢(shì)且較為簡(jiǎn)單。
本文提出一種空中手寫數(shù)字識(shí)別AirNum方法,研究數(shù)字0~9的空中書寫。實(shí)驗(yàn)表明本文方法有效提高了空中手寫數(shù)字的識(shí)別率。
本文方法首先采集受試者的手寫動(dòng)作的CSI原始信號(hào),使用巴特沃斯低通濾波器和主成分分析算法對(duì)采集到的數(shù)據(jù)進(jìn)行降噪處理后提取出基于時(shí)序信息的兩種特征值,將每個(gè)樣本的特征值重新排序,按照3︰1︰1的比例將所有樣本分為訓(xùn)練集、測(cè)試集、交叉驗(yàn)證集輸入引入注意力機(jī)制的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(bidirectional recurrent neural network,BRNN)模型進(jìn)行訓(xùn)練。
1.1.1 巴特沃斯低通濾波器
巴特沃斯低通濾波器表達(dá)式如式(1)
(1)
式中G0為直流增益,ωf為截止頻率,N為濾波層級(jí),其中,ωf=2π×f/F,f為信號(hào)頻率,F(xiàn)為采樣頻率,本文設(shè)置采樣頻率F為1 024 Hz,濾波層級(jí)N為5。
1.1.2 PCA
1)數(shù)據(jù)歸一化處理:將3條鏈路中每條鏈路的30條子載波的CSI數(shù)據(jù)組合成為一個(gè)90×N矩陣如式(2)所示,N為發(fā)送數(shù)據(jù)包的數(shù)量,設(shè)矩陣為C。使用式(3)對(duì)數(shù)據(jù)進(jìn)行歸一化處理
(2)
Ci,j=(Ci,j-μi)/Si
(3)
式中Si為矩陣第i行的標(biāo)準(zhǔn)差,μi為矩陣第i行的均值。
2)計(jì)算協(xié)方差矩陣:協(xié)方差矩陣計(jì)算式(4)如下
(4)
由取得的CSI數(shù)據(jù)計(jì)算得出的協(xié)方差矩陣(5)如下
(5)
3)特征分解:對(duì)協(xié)方差矩陣H進(jìn)行特征值分解,得到相關(guān)性由大到小排列的特征向量矩陣Q,Q中的特征向量互不相關(guān)。
4)矩陣重構(gòu):將歸一化后的CSI矩陣C與Q矩陣的前q列進(jìn)行矩陣相乘得到矩陣C{1︰q},此時(shí)的矩陣C{1︰q}即為C的主成分矩陣。圖1(a)為CSI原始波形,圖1(b)為降噪后的CSI波形。
圖1 CSI波形
本文從包含寫入動(dòng)作的去噪CSI時(shí)間序列中提取特征。每個(gè)手寫動(dòng)作數(shù)據(jù)采集時(shí)間為5 s,受試人員靜止1 s后開始手寫動(dòng)作,書寫完成后保持動(dòng)作不變至?xí)r間結(jié)束,圖2、圖3為兩個(gè)受試人員書寫數(shù)字8和4時(shí)的CSI波形圖。從圖中易看出不同人員書寫相同數(shù)字時(shí)波形較為相像,同一人員書寫不同數(shù)字時(shí)波形有較大差別。故本文選用2個(gè)代表CSI波形形狀與趨勢(shì)的特征值:1)峰值因子,一個(gè)滑動(dòng)窗口內(nèi)的峰值與均方根值之比;2)自相關(guān)系數(shù),描述波形前一時(shí)刻與后一時(shí)刻之間的關(guān)系,其變換反映波形的起伏狀態(tài)。
圖2 2名人員手寫數(shù)字8的CSI波形
圖3 2名人員手寫數(shù)字4的CSI波形
將預(yù)處理后的CSI數(shù)據(jù)以200 ms窗口大小的滑動(dòng)窗口分割計(jì)算每個(gè)窗口的2個(gè)特征值,重新排列后組成新的特征值序列X={x1,x2,…,xn}。
圖4 引入注意力機(jī)制的 BRNN模型
計(jì)算分類概率識(shí)別過程如下:
(6)
Step2 反向傳播
計(jì)算Step1中算出的輸出層值o與實(shí)際的輸出值O的誤差,損失函數(shù)為J(o,O)
(7)
(8)
(9)
(10)
(11)
最后使用梯度下降方法更新權(quán)重U,V,U′和V′。
Step3 將兩個(gè)隱狀態(tài)的值拼接為一個(gè)隱狀態(tài)向量st
(12)
(13)
(14)
(15)
(16)
Step6 計(jì)算分類概率yt,Ws為注意力的隱含層變量的參數(shù)
(17)
實(shí)驗(yàn)所用設(shè)備包括1對(duì)收發(fā)天線,2臺(tái)裝有Inter5300網(wǎng)卡的臺(tái)式電腦分別作為接收端和發(fā)射端,天線選擇1根發(fā)射天線和3根接收天線共3條傳輸鏈路,工作頻段選擇5 GHz以采集細(xì)粒度信息,收發(fā)天線相距1.5 m離地高度為1 m,采樣頻率設(shè)置為1 024 Hz。由于不同環(huán)境、不同人員以及不同收發(fā)端視距都會(huì)對(duì)手勢(shì)信息的采集造成影響,故本文設(shè)置了多組對(duì)照實(shí)驗(yàn)驗(yàn)證。在保持天線距離與離地高度不變的前提下,4名受試人員分別在實(shí)驗(yàn)室與空曠教室采集30組數(shù)據(jù),每組包含10個(gè)數(shù)字。圖5為實(shí)驗(yàn)場(chǎng)景圖,圖6為實(shí)驗(yàn)場(chǎng)景平面圖,圖5(a)為實(shí)驗(yàn)室場(chǎng)景,實(shí)驗(yàn)室大小為7 m×8 m,圖5(b)為空曠教室場(chǎng)景圖,空曠教室大小為7 m×6 m。
圖5 實(shí)驗(yàn)場(chǎng)景
圖6 實(shí)驗(yàn)場(chǎng)景平面
為驗(yàn)證不同人員對(duì)實(shí)驗(yàn)的影響,實(shí)驗(yàn)挑選了4名受試人員(2男2女)分別在兩個(gè)場(chǎng)景,以離接收端和發(fā)射端0.5 m的視距距離,每個(gè)場(chǎng)景采集30組數(shù)據(jù),訓(xùn)練樣本為120組。表1是4名受試人員位于空曠教室、實(shí)驗(yàn)室的手寫數(shù)字識(shí)別率。
由表1知空曠教室中手寫數(shù)字識(shí)別率明顯高于實(shí)驗(yàn)室中的手寫數(shù)字識(shí)別率,這是由于多徑效應(yīng)的影響,實(shí)驗(yàn)室環(huán)境復(fù)雜,識(shí)別效果相比環(huán)境較簡(jiǎn)單的空曠教室差。從表1中看出不同人員對(duì)同一數(shù)字的識(shí)別率有著較大差異,這是由于男女生間體態(tài)差異較大,且不同人員在空中手寫數(shù)字時(shí)書寫速度有差異??諘缃淌抑?名受試人員的識(shí)別率均在90 %以上,實(shí)驗(yàn)室中識(shí)別率保持在84 %以上,對(duì)單個(gè)數(shù)字的識(shí)別率最高達(dá)到96.2 %。
表1 空曠教室和實(shí)驗(yàn)室中不同人員識(shí)別率 %
4名受試人員分別在視距路徑為0.5,1,1.5,2 m處采集CSI數(shù)據(jù),每個(gè)數(shù)字采集30組。圖7為不同視距鏈路下的平均識(shí)別率。
圖7 不同距離下的平均識(shí)別率
由圖7可知,當(dāng)距離為0.5 m時(shí),圖7(a)中平均識(shí)別率達(dá)到了93 %,圖7(b)中平均識(shí)別率達(dá)到了87 %,由于手寫動(dòng)作較為細(xì)微,對(duì)WiFi信號(hào)的擾動(dòng)會(huì)隨著與收發(fā)端視距距離增加而減弱,因此,AirNum方法的識(shí)別效果會(huì)隨著收發(fā)端視距距離的增大而變差,故在2 m時(shí)空曠教室中的平均識(shí)別率降至77 %,實(shí)驗(yàn)室中的平均識(shí)別率降至69 %,得出實(shí)驗(yàn)最佳的收發(fā)端視距距離為0.5 m。且由于實(shí)驗(yàn)室中多徑效應(yīng)影響大于空曠教室,實(shí)驗(yàn)室中手寫數(shù)字識(shí)別效果相比空曠教室較差。
實(shí)驗(yàn)選擇6名受試人員在離接收端和發(fā)射端0.5 m的視距距離、收發(fā)端間距1.5 m條件下,空曠教室中每人采集的30組CSI數(shù)據(jù)作為數(shù)據(jù)集,輸入AirNum方法進(jìn)行識(shí)別,圖8為不同訓(xùn)練集參與人數(shù)的平均識(shí)別率。
圖8 不同訓(xùn)練集參與人數(shù)的平均識(shí)別率
從圖8中看出,隨著訓(xùn)練集人數(shù)的增加AirNum方法的識(shí)別率在不斷上升,在人數(shù)達(dá)到4人時(shí)上升幅度趨于平緩,且在空曠教室中4人時(shí)的識(shí)別率達(dá)到93 %,實(shí)驗(yàn)室中達(dá)到87 %。這是由于當(dāng)訓(xùn)練集人數(shù)較少時(shí),深度學(xué)習(xí)模型的擬合效果并不好,在人數(shù)增加至4~6人時(shí)識(shí)別效果達(dá)到93 %以上。但隨著訓(xùn)練集人數(shù)的上升訓(xùn)練集的數(shù)據(jù)量會(huì)大大增加,AirNum方法的訓(xùn)練時(shí)長(zhǎng)也會(huì)隨之增加,而訓(xùn)練效果并未有更大的提升,故本文選擇4名受試人員進(jìn)行其他組實(shí)驗(yàn)。
圖9為本文方法的混淆矩陣,顯示每個(gè)動(dòng)作識(shí)別的結(jié)果均高于90 %,平均識(shí)別率達(dá)到93.7 %,證明AirNum方法對(duì)空中手寫數(shù)字0~9的識(shí)別有較好的效果且具有較強(qiáng)的魯棒性。
圖9 識(shí)別結(jié)果綜合混淆矩陣
本文選擇AirNum方法、CNN、決策樹與SVM方法進(jìn)行交叉驗(yàn)證,通過準(zhǔn)確率和F1值來比較幾種方法的性能。準(zhǔn)確率由真正率TP和假正率FP計(jì)算得出,是一種對(duì)方法穩(wěn)定性的評(píng)估指標(biāo)。F1值由精確率與召回率計(jì)算得出,是對(duì)系統(tǒng)整體性能的評(píng)估指標(biāo)。表2中看出本文方法的準(zhǔn)確率與F1值均高于另三種方法,證明本文具有較好的整體性能和識(shí)別效果。
表2 不同算法性能對(duì)比
本文選擇WiG方法與WiGest方法做了多組交叉驗(yàn)證,數(shù)據(jù)集選擇多徑效應(yīng)弱的空曠教室場(chǎng)景0.5 m視距距離4名人員采集的CSI數(shù)據(jù)。WiG模型使用SVM對(duì)CSI數(shù)據(jù)進(jìn)行分類,WiGest模型通過離散小波變換降噪后用DTW算法進(jìn)行手勢(shì)識(shí)別, WiGeR[16]模型通過小波變換提取CSI特征,后用動(dòng)態(tài)時(shí)間規(guī)整算法手勢(shì)進(jìn)行分類。本文選用準(zhǔn)確率和F1值對(duì)三種方法性能進(jìn)行評(píng)估結(jié)果如表3所示。
表3 不同模型性能對(duì)比
從表3可以看出:AirNum方法準(zhǔn)確率與F1值均高于另三種方法,證明AirNum方法可有效提高空中手寫數(shù)字識(shí)別的精度,且相比于其他方法AirNum方法整體性能更好。
本文提出一種基于CSI的空中手寫數(shù)字識(shí)別AirNum方法,在實(shí)驗(yàn)人員采集CSI手寫數(shù)據(jù)后通過巴特沃斯低通濾波器過濾高頻信號(hào)、PCA對(duì)數(shù)據(jù)降維,后提取特征值放入基于注意力機(jī)制的BRNN模型中訓(xùn)練,訓(xùn)練完成后導(dǎo)入測(cè)試集進(jìn)行測(cè)試并給出識(shí)別概率。結(jié)果表明:本文方法具有較好的整體性能與識(shí)別效果。在后續(xù)工作中需要對(duì)本文方法進(jìn)行進(jìn)一步改進(jìn),以實(shí)現(xiàn)在通用環(huán)境下的良好識(shí)別效果。