毛 強,晉良念,2,劉慶華
(1. 桂林電子科技大學信息與通信學院,廣西桂林 541004;2. 廣西無線寬帶通信與信號處理重點實驗室,廣西桂林 541004)
近年來,人類姿態(tài)的非接觸式穿墻探測與分類技術在公共安全與防護、反恐作戰(zhàn)、災害救援等領域具有重要的應用價值,因此受到了廣泛的研究關注[1]。通過對人體姿態(tài)的穿墻檢測和識別,將有助于決策和制定救援策略,極大地提高救援效率和作戰(zhàn)效能。與超聲波、光學、紅外線等傳感器相比,基于雷達的特征提取與識別技術因其全天候的適應性和夜間的可用性而受到眾多研究者的關注[2]。
目前,基于雷達的目標識別多采用距離像或微多普勒特征進行識別,而識別能力取決于特征提取和識別的方法,主要分為參數(shù)化和非參數(shù)化方法。典型的參數(shù)化方法就是從特征譜圖中提取人工特征,采用機器學習進行識別,但是傳統(tǒng)的機器學習需要分別進行特征提取和特征識別,工作量大又容易丟失譜圖的深度信息。而非參數(shù)化方法則采用深度學習實現(xiàn)了特征提取和識別一體化,它直接識別目標的距離像或微多普勒特征譜圖。利用步態(tài)的微多普勒特征譜圖,文獻[3]采用Capsule網(wǎng)絡對跌倒進行檢測,檢測率可達 94.22%;而文獻[4]將微多普勒數(shù)據(jù)分為實部和虛部兩部分學習,采用基于Inception的網(wǎng)絡進行訓練,識別率可達96.9%。利用步態(tài)的高分辨率距離像,文獻[5]使用超寬帶雷達采集了7個動作的數(shù)據(jù),通過3層卷積的神經(jīng)網(wǎng)絡訓練測試,可得95.24%的識別率;文獻[6]采用層數(shù)更多的神經(jīng)網(wǎng)絡對9種動作進行學習,可得96.67%的識別率。以上文獻均沒有擺脫傳統(tǒng)訓練網(wǎng)絡中輸入數(shù)據(jù)特征形式單一的局限性。為了利用人體姿態(tài)的各類特征,文獻[7]構建了一種時間-距離像-微多普勒頻率的三維特征形式,然后提出了一種主成分分析和淺層神經(jīng)網(wǎng)絡相結合的識別方法,識別率最高可達97.2%,但是由于數(shù)據(jù)結構復雜,導致以后的工作量較大,不利于人體姿態(tài)的實時識別。
針對上述問題,本文基于步進頻連續(xù)波(SFCW)雷達體制,生成同一姿態(tài)的慢時間-距離像(Slow Time Range Map, STRM)和慢時間-微多普勒譜圖(Slow Time Micro-Doppler Map, STDM)[8],然后提取STRM的幅值信息以及STDM的幅值信息和相位信息構建三維張量(3D-Tensor)的特征形式,在一定程度上擴展了人體姿態(tài)的特征維度。進一步,采取深度學習的方法進行目標識別,并在神經(jīng)網(wǎng)絡中引入了新型瓶頸殘差模塊(Improved Bottleneck Residual Module, IBRM),設計了一種改進型瓶頸殘差神經(jīng)網(wǎng)絡(Improved Bottleneck Residual Neural Network, IBResNet)來實現(xiàn)人體的姿態(tài)識別,提高了識別的精確度以及運算效能。
假設SFCW雷達發(fā)射信號的起始頻率為fo;Δf為步進的頻率間隔;I表示一個慢時間內的頻點總數(shù),ΔT為每一個頻點的持續(xù)時間;在一個慢時間Ts周期內,則發(fā)射信號可以表示為
exp{j2π(f0+iΔf)t}
(1)
式中,rect(·)表示矩形窗口函數(shù)。
對墻后人體進行探測時,回波信號中主要包括墻體強反射回波、人體目標的回波和周圍的噪聲,表示為
(2)
式中,K表示人體目標總的關節(jié)點數(shù),Ak表示人體目標第k個關節(jié)點的回波強度,τk為第k個關節(jié)點雙程回波延遲時間,swall(t)和snoise(t)分別表示墻體強反射回波和噪聲信號。將sT(t)和sR(t)混頻后,以采樣間隔ΔT進行采樣,并通過低頻濾波器可得到某一個慢時間內基帶回波采樣序列。令第i個慢時間的記為
(3)
式中,Swall和Snoise分別表示為墻體和噪聲的采樣列向量,符號T表示轉置。每列向量SR(i),i=1,2,…,N分別進行離散傅里葉反變換(Inversed Discrete Fourier Transform, IDFT)[9],可得每列向量對應的一維距離像回波信號為
(4)
式中,q=1,2,…,Q,這里的Q表示IDFT的總點數(shù),一般取為2的整數(shù)冪,且大于頻點總數(shù)I,W(q)和N(q)分別表示為墻體和噪聲的第q個快時間采樣值,則可得到慢-快時間回波矩陣(Slow-Fast Time Echo Matrix ,SFEM),表示為
SSFEM=[Raw(1),Raw(2),…,Raw(N)]Q×N
(5)
式中,SSFEM為由N個慢時間所對應的一維距離向按時間流逝方向排列而成[9]。
采用時間窗置零法消除SSFEM中的墻體回波和天線耦合波。接下來采用線性趨勢抑制(LTS)進一步消除回波中存在的靜態(tài)雜波和線性趨勢干擾,可得
SSTRM=SSFEM-SSFEMX(XTX)-1XT
(6)
利用文獻[10]中的方法提取STRM的有效通道范圍,然后對每個有效通道分別進行短時傅里葉變換(STFT),最后在通道范圍上累加可得
h(kΔt-mΔt)e-jknΔw
(7)
式中,M和L分別為有效通道的最小值和最大值,m和n分別為傅里葉點數(shù)和窗口滑動次數(shù),Δt和Δw分別為采樣的時間間隔和頻率間隔,h表示時間寬度固定的窗函數(shù),這里選取邊緣相對平滑的海明窗以削弱回波信號中的旁瓣干擾。
采用一組實測數(shù)據(jù)分析8種人體姿態(tài)的STRM和STDM,結果如圖1所示。從圖中可以看出:行走、小跑和正步走的STRM相似,STDM差異明顯;而跳高和跳遠的STDM相似,STRM差異明顯;4種站立式運動的微多普勒特征相比于距離像更容易區(qū)分。所以,為了適用于多種姿態(tài)的精確識別,需要充分利用這兩類特征數(shù)據(jù)。接下來,我們就構建了一個包含多普勒特征的幅值信息、相位信息和距離信息的三維張量(3D-Tensor)的數(shù)據(jù)結構。為了使數(shù)據(jù)集尺寸保持一致,將每個數(shù)據(jù)集尺寸均縮放為120×120,然后在第三層堆疊,3D-Tensor數(shù)據(jù)可表示為
3D-Tensor=Concat(3,STDM(幅值),
STDM(相位),STRM(幅值))
(8)
式中,Concat代表通道連接。其數(shù)據(jù)結構如圖2所示,第一層為慢時間-多普勒特征的幅值信息,第二層為慢時間-多普勒特征的相位信息,第三層為慢時間-距離特征幅值信息。需要說明的是,第三層反映到特征圖上也是實值圖像,這里直接利用距離幅值并不會丟失原始信息。
(a) 跳高
圖2 三維張量的數(shù)據(jù)結構
數(shù)據(jù)集構建完畢后,接下來設計神經(jīng)網(wǎng)絡對數(shù)據(jù)集進行訓練。網(wǎng)絡梯度是從后向前傳播的,隨著網(wǎng)絡的加深,越靠前的層梯度會越小,這意味著靠前的某些層基本上學習停滯了,因此簡單地去增加網(wǎng)絡的深度反而會使優(yōu)化問題更難,學習網(wǎng)絡雖然收斂了,但出現(xiàn)了更高的訓練誤差。瓶頸殘差模塊中的跳躍連接可以有效地解決網(wǎng)絡梯度退化的問題。然而,ResNet中的瓶頸殘差模塊,其性能低于適當加深的GoogLeNet[11],相比與GoogLeNet中的Inception模塊,殘差模塊雖然網(wǎng)絡深度足夠,但寬度較窄,特征提取的多樣性差于Inception模塊。因此,從網(wǎng)絡的寬度和深度兩方面考慮,本文構建一種改進型瓶頸殘差模塊(Improved Bottleneck Residuals Module, IBRM)。
IBRM是在瓶頸殘差模塊的基礎上,通過引入并行連接的方式擴展網(wǎng)絡的寬度,該結構分為模塊1和模塊2,如圖3所示。模塊前端采用4種不同的特征提取方式,然后把4組不同類型但大小相同的特征數(shù)據(jù)按通道堆疊起來,形成新的特征數(shù)據(jù)。一方面增加了網(wǎng)絡的寬度,另一方面增加了網(wǎng)絡對尺度的適應性;后接瓶頸殘差模塊中的跳躍連接,適當?shù)脑黾泳W(wǎng)絡深度,避免過擬合的情況。圖中,每個卷積層后接了一個批次標準化層(Batch Normalization Layer, BN),該層是用于改善神經(jīng)網(wǎng)絡的性能和穩(wěn)定性,激活函數(shù)為整流線性單元(ReLU);池化層采用最大池化;方框中(3×3@64,1)分別表示卷積核尺寸為3×3,卷積核數(shù)目為64,步長為1×1;深度連接層表示網(wǎng)絡的并行連接;相加層表示相同位置處點加,即跳躍連接方式。
圖3 改進型瓶頸殘差模塊
利用前面的模塊1和模塊2,結合現(xiàn)有的ResNet結構設計,IBResNet結構如圖4所示。網(wǎng)絡前端首先經(jīng)過一個3×3@64卷積層,該層是擴展淺層特征,然后經(jīng)過兩個改進型瓶頸殘差模塊,其中模塊2中的通道數(shù)是模塊1中的2倍,主要是提取深度特征信息,最后分別接丟失層、全連接層和輸出層,丟失層隨機丟棄50%的連接,提高泛化能力,全連接層節(jié)點數(shù)為8,輸出層的激活函數(shù)為Softmax,利用交叉熵損失函數(shù)來構造目標函數(shù),表示為
log(softmax(φ(xn;W,b),θ))+
(9)
式中,W,b分別為各層的權值和偏差,NTR為一次迭代的訓練集個數(shù),xn,yn分別為訓練數(shù)據(jù)和數(shù)據(jù)類別,θ為分類器的參數(shù)。
圖4 改進型瓶頸殘差神經(jīng)網(wǎng)絡
在IBResNet中,需要訓練的參數(shù)量來自于卷積層、全連接層和BN,它們的參數(shù)量分別記為
(10)
式中,k為卷積核尺寸,N為卷積核數(shù)目,L為上一層的通道數(shù),nin,nout分別為該全連接層的輸入節(jié)點數(shù)和輸出節(jié)點數(shù)??梢钥闯鼍W(wǎng)絡中的參數(shù)量主要來自于卷積層,因此,采用多個小尺寸卷積層替代一個大尺寸的卷積層具有更少的參數(shù)量,且非線性更多。
在網(wǎng)絡訓練過程中,池化層、BN、ReLU、Adittion等的計算量很小,主要的計算量來自于卷積層,一個卷積層的計算量記為
(k2*L+1)*N
(11)
式中:H,W,L分別為該層輸入數(shù)據(jù)的高、寬和通道數(shù);Ph,Pw表示在高和寬方向的補零數(shù)目;S為卷積核的移動步長。由式(11)可知,計算量取決于該層的輸入數(shù)據(jù)大小和卷積核的設置。
采用SFCW雷達系統(tǒng),探測場景如圖5(a)所示,發(fā)射信號的頻率為 1~3 GHz,步進間隔為20 MHz,發(fā)射功率為10 dBm,掃描周期為 0.02 s;經(jīng)測量墻體厚0.25 m,介電常數(shù)為 6.4。8種人體姿態(tài)如圖5(b)所示,分別為跳高、揮拳、喝水、下蹲、小跑、步行、正步走、跳遠,每種類型姿態(tài)包含了900個樣本。
(a) 雷達系統(tǒng)場景探測
對STDM、STDM和3D-Tensor數(shù)據(jù)集分別進行網(wǎng)絡訓練,所采用的神經(jīng)網(wǎng)絡為文獻[5]中的三層卷積神經(jīng)網(wǎng)絡(3-CNN),其卷積核分別為: 5×5@16、5×5@32、5×5@64。訓練過程中,設置最大的訓練輪次數(shù)為80,1個輪次表示遍歷全部訓練集一次。圖6給出了這三種數(shù)據(jù)集的測試準確率曲線,測試結果從高到低依次為3D-Tensor、STDM、STRM??梢钥闯觯鄬τ谖墨I[5]中僅對距離像的識別,多維特征數(shù)據(jù)的識別準確率更高,且準確率曲線收斂的速度更快。
圖6 不同數(shù)據(jù)集的測試準確率曲線
將3D-Tensor數(shù)據(jù)集按照7∶2∶1的比例劃分為訓練集、驗證集和測試集[12]。采用的訓練優(yōu)化器為帶一階動量優(yōu)化的隨機梯度下降。網(wǎng)絡訓練過程中,采用周期機制來調整學習率,設置10個輪次更新一次學習率,記為
lr=lr0*(1-a)|Epoch=10
(12)
式中,lr0為初始學習率,a為學習衰減率。
對初始學習率和學習衰減率進行參數(shù)尋優(yōu)。首先將學習衰減率設置為0,然后給出不同的初始學習率,圖7顯示了訓練80個Epoch后不同初始學習率的測試準確率曲線,其中當初始學習率為0.01時準確率較高。圖8給出了初始學習率為0.01時,不同學習衰減率的交叉熵損失值的對比結果,其中當學習衰減率為0.3時的損失值收斂情況最好。因此,IBResNet最終采用的訓練參數(shù)設置如表1所示,最終測試集的混淆矩陣如表2所示,人體姿態(tài)的平均準確率可達97.78%,而且周期性強的動作往往識別的精確度更高。進一步通過在測試集上添加高斯白噪聲驗證網(wǎng)絡的泛化能力,該網(wǎng)絡在不同噪聲強度下的測試準確率如圖9所示。噪聲強度以1 dBW的間隔遍歷10 dBW到30 dBW的范圍,當噪聲強度增加到23 dBW后,該網(wǎng)絡仍有較高的識別率,可達91.05%,而隨著噪聲強度的增加,準確率快速下降。
圖7 不同初始學習率的測試準確率曲線
圖8 不同衰減率的交叉熵損失值
表1 IBResNet的訓練參數(shù)設置
表2 測試集的混淆矩陣
圖9 不同噪聲強度下的測試準確率
分別將STRM、STDM和3D-Tensor數(shù)據(jù)集作為訓練數(shù)據(jù),通過訓練不同的神經(jīng)網(wǎng)絡進行比較。比較的神經(jīng)網(wǎng)絡有文獻[5]中的CNN-based和文獻[4]中的Inception-based,性能對比結果如表3所示。由表可知,使用3D-Tensor數(shù)據(jù)集代替單一特征譜圖作為網(wǎng)絡的輸入可以提高人體姿態(tài)的識別率,其識別率提高了4%~7%;此外,相對于文獻[5]來說,IBResNet結構更加復雜,網(wǎng)絡寬度和深度都有所提升,因此參數(shù)量和計算量也更大,但是識別的準確率卻得到了明顯的提高;相對于文獻[4]來說,IBResNet的參數(shù)量更多,是因為網(wǎng)絡中引入了IBRM,適當?shù)財U展了網(wǎng)絡的深度,使得網(wǎng)絡的搜索空間更大,對數(shù)據(jù)特征的提取更加深入,而計算效率更高則歸功于卷積核尺寸和步長的調整,在保證識別率的前提下,使整個網(wǎng)絡訓練時間下降了1/4,體現(xiàn)了本文網(wǎng)絡的優(yōu)越性。
表3 性能對比
本文通過對人體姿態(tài)的SFCW雷達信號進行距離成像和時頻分析,生成人體姿態(tài)的STDM和STRM,然后提取出STRM的幅值信息以及STDM的幅值信息和相位信息構成3D-Tensor的數(shù)據(jù)集,實現(xiàn)多維特征的融合。實驗證明多維特征數(shù)據(jù)在人體姿態(tài)識別中準確率更高,相比于特征形式單一的數(shù)據(jù),識別率提升了4%~7%;此外,本文基于3D-Tensor的數(shù)據(jù)集,提出了一種改進型瓶頸殘差神經(jīng)網(wǎng)絡的識別方法,實驗表明該方法在測試集上的識別率可達97.78%。因為人體在完成一個動作后才能生成相應的譜圖,如果在固定時間內動作不完整或存在兩種動作時就很難區(qū)分出來,因此接下來將研究穿墻雷達中基于圖像序列的人體姿態(tài)識別方法。