(沈陽航空航天大學(xué) 電子信息工程學(xué)院,沈陽 110136)
人體動作識別主要應(yīng)用于公共場所、醫(yī)院、安全等方面。雷達作為一種識別人體動作的替代傳感方式,已被證明在人體動作識別方面是成功的[1]。由于該方法不受光線、視距等環(huán)境因素的影響,已經(jīng)成為近幾年的研究熱點。
基于雷達的人體動作識別方法主要有基于統(tǒng)計學(xué)理論的傳統(tǒng)的機器學(xué)習(xí)方法和深度學(xué)習(xí)方法。傳統(tǒng)的基于統(tǒng)計理論的機器學(xué)習(xí)方法從雷達回波數(shù)據(jù)中提取淺層特征,根據(jù)采用的特征提取方案,來選擇突出的淺層特征進人體動作識別,常用的是經(jīng)典的支持向量機(Support Vector Machine,SVM)識別方法。文獻[2]利用距離信息對8種人體動作進行了有效分類,采用主成分分析法提取雷達回波信號的主要分量。該方法對于識別人體的空間動作變化有較好的識別能力,但對過渡姿態(tài)的動作識別易產(chǎn)生混淆。文獻[3]在距離信息的基礎(chǔ)上對信號進行小波變換,為體現(xiàn)細節(jié)信息將每個圖像分解為多個子圖像,采用奇異值分解法進行有效特征提取,把最大的奇異值作為特征對SVM模型進行訓(xùn)練,增強了不同動作的分辨力,但也存在個別動作識別混淆的問題。從傳統(tǒng)的機器學(xué)習(xí)方法可以看出,雷達回波信號的分析、特征的提取和選擇是動作識別的準確性和識別效率的關(guān)鍵,而特征處理方法的選擇在實際應(yīng)用中可能僅限于特定的問題,不具備普適性?;谏疃葘W(xué)習(xí)的方法可以構(gòu)建含有多個隱藏層的機器學(xué)習(xí)模型并通過海量的訓(xùn)練數(shù)據(jù),自動學(xué)習(xí)隱藏的有用特征并生成用于識別的深度特征,自動實現(xiàn)分類識別,并具有很高的準確率。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是深度學(xué)習(xí)中最常用的模型,具有強大的特征提取能力,無需手工特征提取,能夠識別出雷達回波信號的深度特征,在雷達人體動作識別領(lǐng)域引起了廣泛關(guān)注。文獻[4]針對雷達高距離分辨率距離像,對比了CNN、SVM、BP網(wǎng)絡(luò)等方法的識別結(jié)果,表明 CNN的總體識別率要高于其他方法,也說明了CNN能夠?qū)W習(xí)到更易于分辨的特征。文獻[5-7]通過自建數(shù)據(jù)集,根據(jù)雷達回波構(gòu)建了微多普勒特征,通過改進卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進行人體動作識別,對于識別微小動作有較高的準確率?;诶走_的人體姿態(tài)識別方法雖然取得了一定的研究成果,但是基于雷達的人體動作識別采用的數(shù)據(jù)集大部分是基于自測數(shù)據(jù)來實現(xiàn)的,公開的數(shù)據(jù)集少且數(shù)據(jù)集很小,容易引起過擬合和誤差傳遞的問題,所以如何在小型雷達數(shù)據(jù)集中最大可能地提取出有用信息并訓(xùn)練出具有較好識別能力的模型,是當前研究基于深度學(xué)習(xí)方法的雷達人體姿態(tài)識別方法的難點。
綜上分析,本文采用深度學(xué)習(xí)的方法,提出了一種基于時間-距離特征和微多普勒特征相結(jié)合的雷達人體動作識別方法:從調(diào)頻連續(xù)波(Frequency Modulated Continuous Wave,F(xiàn)MCW)雷達回波信號中提取出時間-距離特征和微多普勒特征并生成二維特征圖,采用改進的特征融合卷積神經(jīng)網(wǎng)絡(luò)進行深度特征提取并對動作進行識別。采用格拉斯哥大學(xué)公開的小型雷達數(shù)據(jù)集進行模型驗證,結(jié)果表明從雷達回波信號中提取出不同的特征進行組合對人體動作的識別能力要優(yōu)于單個特征的識別能力。
FMCW雷達在工作時,系統(tǒng)的發(fā)射機和接收機保持在同步打開狀態(tài),其發(fā)射信號的中心頻率在掃描周期內(nèi)線性增加[8-10],可用公式表示為
(1)
式中:AT為發(fā)射功率,φ(t)為發(fā)射機的相位噪聲,fc為Chirp的起始頻率,B為Chirp的帶寬,Tc為Chirp的持續(xù)時間。雷達的接收信號xR(t)包含位于特定距離處的運動目標的信息,用公式可表示為
(2)
式中:α受目標距離和雷達截面積的影響;td=2R(t)/c為雷達信號與距離相關(guān)的傳播往返延遲,R(t)表示雷達與目標的徑向距離,c為光在真空中的速度。一般來說,F(xiàn)MCW雷達系統(tǒng)采用發(fā)射信號和接收信號混合計算的方式來估計目標距離,混頻信號通過低通濾波器產(chǎn)生頻率與目標距離成比例的信號[8],可以表示為
ARej(2πfbt+φb(t)+Δφ(t))。
(3)
最終,I/Q采樣后的拍頻信號可以表示為
(4)
式中:Tf表示快時間軸采樣間隔,Ts表示慢時間軸采樣間隔。
人體的動作和電磁散射特性反映在FMCW雷達回波信號的幅度和頻率調(diào)制中。對雷達回波信號做時頻分析,構(gòu)成時間-距離特征和微多普勒特征,能夠向特征提取網(wǎng)絡(luò)呈現(xiàn)更顯著的人體運動學(xué)特征[11-13]。時間-距離特征和微多普勒特征數(shù)據(jù)集的構(gòu)建流程如圖1所示。
圖1 雷達特征數(shù)據(jù)集生成流程
首先對人體動作雷達回波信號數(shù)據(jù)集中的雷達回波信號使用MTI濾波器濾除靜態(tài)雜波,然后對數(shù)據(jù)進行快速傅里葉變換(Fast Fourier Transform,FFT)得出距離分布信息,距離分布信息隨時間積累成時間-距離特征,最后對時間-距離分布矩陣應(yīng)用持續(xù)時間不同的窗函數(shù)進行短時傅里葉變換(Short Time Fourier Transform,STFT)并取平方模,得到不同窗長下的微多普勒特征圖??捎孟率絹肀硎疚⒍嗥绽仗卣鲌D的計算過程:
(5)
式中:w(t)為窗函數(shù)。S(t,ω)中的目標行為被稱為微多普勒特征,它描述了目標多普勒頻率如何隨時間變化,并反映了由目標運動引起的獨特人體運動學(xué)特征。
CNN是深度學(xué)習(xí)中圖像特征提取常用的模型,相比于傳統(tǒng)手工提取特征的方法,其步驟簡單,在特征提取的穩(wěn)定性、目標變化的適應(yīng)性和識別率上都有較好的表現(xiàn)[4,10]。簡單的CNN通常由輸入層、卷積層、激活函數(shù)、池化層和全連接層組成,如圖2所示。
圖2 CNN示意圖
當訓(xùn)練CNN模型時,輸入層得到二維輸入數(shù)據(jù),卷積核用來執(zhí)行與二維輸入數(shù)據(jù)的卷積計算,以產(chǎn)生二維特征圖。隨著多個卷積層的計算,圖像的特征提取也會更加全面。特征圖no的大小由下式?jīng)Q定:
(6)
式中:ni為輸入特征圖的大小,p為填充的特征圖邊緣像素層數(shù),f為卷積核大小,s為卷積核移動步長。在卷積運算之后要添加激活函數(shù),通過引入非線性因素的方式讓模型的表達能力更強。池化層的作用主要是通過降采樣來擴大感受野,去除冗余信息,減少特征圖中的參數(shù)數(shù)量,有助于減少模型的內(nèi)存消耗。全連接層可以對CNN的尾部特征重新擬合,減少特征信息的損失,通過使用Softmax損失函數(shù)將尾部特征向量映射為輸出的類別。Softmax函數(shù)表達式如下:
(7)
式中:i表示類別,xi為特征向量對應(yīng)的第i個元素。
基于時間-距離特征[11]和微多普勒特征[14]識別動作的方法都存在各自的局限性。時間-距離特征通常對人體移動的方向角和原地運動的識別較為模糊,其單獨用于人體動作識別時魯棒性較差,并不能作為可靠特征。對于微多普勒特征的動作識別,其譜圖形狀是識別的關(guān)鍵,動作的不規(guī)則性也可能會導(dǎo)致識別性能的下降?;诖饲闆r,本文提出一種特征融合的CNN識別方法,將時間-距離特征圖和微多普勒特征圖輸入CNN融合后進行動作識別。優(yōu)化后的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 時間-距離特征和微多普勒特征融合人體動作識別CNN示意圖
實現(xiàn)步驟如下:
Step1 時間-距離特征和微多普勒特征圖分別由輸入層1和輸入層2進入卷積層1-1和卷積層1-2,目的是初步提取兩種特征圖的淺層特征。
Step2 添加Batch Normalization層平滑優(yōu)化空間,可在訓(xùn)練過程中令梯度變化更加平滑,損失函數(shù)值的變化也更穩(wěn)定。
Step3 經(jīng)過ReLU激活函數(shù)計算后,特征圖進入最大池化層,在保持特征不變性的情況下進行特征降維。
Step4 對上述兩個通道池化層輸出的特征圖進行融合,融合后的特征圖同時保留了時間-距離特征和微多普勒特征。
Step5 將融合后的特征圖再經(jīng)過卷積層、Batch Normalization層、激活函數(shù)和最大池化層的計算,獲得更深層次的特征。
Step6 添加兩個全連接層并設(shè)置失活率為0.5的dropout,在輸出層得到動作識別結(jié)果。
其中,兩個卷積層的卷積核大小均為5×5,卷積核數(shù)目分別為16和32,步長為2;兩個池化窗口大小分別為3×3和2×2,步長分別為3和2,具體參數(shù)如表1所示。
表1 特征融合卷積神經(jīng)網(wǎng)絡(luò)參數(shù)
為了訓(xùn)練出更有效的CNN模型,本文在卷積層之后使用了Batch Normalization層[15],利用小批量上的均值和標準差,不斷調(diào)整神經(jīng)網(wǎng)絡(luò)的中間輸出,從而使整個神經(jīng)網(wǎng)絡(luò)在各層的中間輸出數(shù)值更穩(wěn)定。對于小批量B中的任意樣本x(i)∈d,1≤i≤m,Batch Normalization層的輸出為
y(i)=B(x(i)) 。
(8)
B由以下幾步求得:
(9)
(10)
式(10)的平方運算是按照元素求平方。接下來對x(i)進行標準化:
(11)
式中:ε是一個很小的常數(shù),保證根號內(nèi)的數(shù)值大于0。在上述標準化的基礎(chǔ)上,Batch Normalization層引入了γ(拉伸參數(shù))和β(偏移參數(shù))兩個可以學(xué)習(xí)的模型參數(shù),最終得到B的輸出y(i):
(12)
為了避免因小數(shù)據(jù)集和網(wǎng)絡(luò)過深導(dǎo)致的過擬合情況,本文在全連接層后使用了dropout[16]。dropout在訓(xùn)練過程中從神經(jīng)網(wǎng)絡(luò)中隨機刪除單元以及它們的連接,防止單元之間過度相互適應(yīng)。如果一個單元在訓(xùn)練期間以一定概率被保留,那么該單元的輸出權(quán)重在測試時乘以該概率,其預(yù)測結(jié)果與訓(xùn)練時的結(jié)果也應(yīng)近似相同。添加了dropout的網(wǎng)絡(luò)與使用其他正則化方法的訓(xùn)練相比會有更低的泛化誤差。
為了評估時間-距離特征和微多普勒特征對人體動作的識別能力,本文進行以下三組實驗:(1)利用單一時間-距離特征進行人體動作識別;(2)利用單一微多普勒特征進行人體動作識別;(3)融合時間-距離特征和微多普勒特征進行人體動作識別。
實驗數(shù)據(jù)集采用的是英國格拉斯哥大學(xué)公開的雷達識別人體動作數(shù)據(jù)集[17],該數(shù)據(jù)集由FMCW雷達采集,F(xiàn)MCW雷達工作在C頻段(5.8 GHz),帶寬為400 MHz。數(shù)據(jù)集共有83名志愿者參與數(shù)據(jù)采集,年齡跨度為21~88歲,身高跨度為152~188 cm,采集了行走、坐下、起立、撿東西、喝水、跌倒6種動作。
對雷達回波信號進行預(yù)處理后,得到時間-距離特征和微多普勒特征數(shù)據(jù)集。為了平衡6類樣本數(shù)量,最終采用的時間-距離特征和微多普勒特征各自有1 164個樣本,不同動作的時間-距離特征和微多普勒特征如圖4和圖5所示。將這些特征圖大小統(tǒng)一處理為224×224,并按照動作類別進行隨機分組,得到10個數(shù)量近似的子集。每次取9個子集作為訓(xùn)練集,1個子集作為測試集,進行10折交叉驗證。
圖4 4種人體動作的時間-距離特征
圖5 5種人體動作的微多普勒特征
在網(wǎng)絡(luò)訓(xùn)練方面,使用Python語言和Pytorch深度學(xué)習(xí)框架,采用交叉熵損失函數(shù)和Adam優(yōu)化器,初始學(xué)習(xí)率設(shè)置為0.000 5,并利用StepLR學(xué)習(xí)率更新策略,batchsize設(shè)置為32,每個fold進行100輪迭代訓(xùn)練。三組實驗的訓(xùn)練損失值和識別準確率隨迭代次數(shù)的變化情況分別如圖6和圖7所示??梢钥吹皆?0輪迭代后,三組實驗損失函數(shù)值下降均變緩慢,識別準確率也趨于穩(wěn)定。由三組實驗的損失函數(shù)值變化曲線和識別準確率進行對比可以看出,不同特征對6種人體動作的識別能力從高到低依次為融合的時間-距離特征和微多普勒特征、微多普勒特征以及時間-距離特征。融合特征對人體動作的識別準確率為93.97%,微多普勒特征識別準確率可達92.93%,而時間-距離特征的識別準確率只能達到79.6%,由此可以得出結(jié)論:融合特征相比單一特征對人體動作有更好的識別能力,而在單一特征人體動作識別時微多普勒特征比時間-距離特征擁有更高的置信度。
圖6 三組實驗的損失變化曲線
圖7 三組實驗的識別準確率變化曲線
為了分析三組實驗對每種動作的正判率和錯判率,表2~4給出了在輸入時間-距離特征圖、微多普勒特征圖和融合特征圖后的測試混淆矩陣,混淆矩陣的列元素代表實際動作,行元素代表預(yù)測動作,表中數(shù)值代表準確率。從表2和表3中可見,時間-距離特征對起立和坐下的識別率最低約為65%,時間-距離特征和微多普勒特征對行走的識別率均為100%,但兩者對撿東西和喝水的識別能力都較低??傮w看來,微多普勒特征對各個動作的識別正確率均高于時間-距離特征,但時間-距離特征對于喝水誤判為行走、撿東西誤判為行走或跌倒,以及跌倒誤判為行走的錯判概率較低。從表4中可見行走、起立、坐下、跌倒的識別準確率均高于平均識別準確率,而撿東西和喝水的識別準確率較低。根據(jù)輸入的特征圖分析可知,這兩種動作的時間-距離特征和微多普勒特征都存在局部相似性,導(dǎo)致識別的錯誤率升高。從表4與表3的微多普勒特征識別測試混淆矩陣對比可以看出,融合特征對于喝水誤判為行走、撿東西誤判為行走或跌倒以及跌倒誤判為行走的情況有所改善,除跌倒外,其他人體動作經(jīng)過融合特征的判別,識別準確率都有1%以上的提升,說明特征融合不但會分別獲取時間-距離特征和微多普勒特征的關(guān)鍵特征點,還會對兩種特征的識別能力起到促進作用。經(jīng)過特征融合后,總體識別率有所上升,可以證明,時間-距離特征和微多普勒特征的融合可以彌補單一特征識別的不足。
表2 時間-距離特征識別測試集混淆矩陣
表3 微多普勒特征識別測試集混淆矩陣
表4 時間-距離特征和微多普勒特征融合識別測試集混淆矩陣
本文針對小型數(shù)據(jù)集提出了一種基于特征融合卷積神經(jīng)網(wǎng)絡(luò)的FMCW雷達人體動作識別方法。 該方法把雷達回波信號產(chǎn)生的時間-距離特征和微多普勒特征作為輸入經(jīng)過基本CNN模型得到回波信號特征,然后把這兩種特征進行融合;為獲得更深層次的特征,將融合后的特征圖經(jīng)過卷積層和池化層后增加兩個全連接層和失活率為0.5的dropout,在輸出層得出動作識別結(jié)果。采用公開的數(shù)據(jù)集進行實驗,實驗數(shù)據(jù)表明,融合特征的人體動作識別準確率要高于單一特征的識別準確率,可達93.97%,說明了CNN對融合特征所提取的信息能夠補充對單一特征所提取信息的缺失,提高人體動作識別的精度。從本文所做實驗可以看出,對于數(shù)據(jù)預(yù)處理所采用的方法不同會影響最后的識別率,這為以后的研究提供了思路。以后的研究工作主要從兩個方面開展:第一,基于小型數(shù)據(jù)集,對人體動作雷達回波信號的頻譜特征進行分析,提高進入CNN訓(xùn)練網(wǎng)絡(luò)數(shù)據(jù)的質(zhì)量;第二,對CNN網(wǎng)絡(luò)結(jié)構(gòu)展開優(yōu)化研究,進一步提高雷達人體動作識別的準確率。