王 勇 王夏莛 馮威威 史治國(guó)
(1.浙江大學(xué)信息與電子工程學(xué)院,浙江杭州 310027;2.浙江省協(xié)同感知與自主無(wú)人系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,浙江杭州 310027)
近年來(lái),基于毫米波雷達(dá)的手勢(shì)分類(lèi)技術(shù)已成為智能家居、智能駕駛等領(lǐng)域中的重要應(yīng)用。與基于視覺(jué)的手勢(shì)分類(lèi)方式相比,毫米波雷達(dá)具有明顯優(yōu)勢(shì)。首先,它不受光照條件的影響,能夠在不同環(huán)境穩(wěn)定工作;其次,由于毫米波雷達(dá)不需要圖像信息,它能夠有效保護(hù)用戶(hù)的隱私。因此,基于毫米波雷達(dá)的手勢(shì)分類(lèi)成為當(dāng)前研究的熱點(diǎn)之一[1]。
在研究中,研究人員利用神經(jīng)網(wǎng)絡(luò)來(lái)提取雷達(dá)的距離多普勒?qǐng)D(Range-Doppler Image,RDI)特征,已取得顯著的進(jìn)展[2-3]。通過(guò)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)和優(yōu)化,RDI特征能夠被準(zhǔn)確提取和表達(dá),從而實(shí)現(xiàn)手勢(shì)分類(lèi)。Wang 等人[2]使用Soli 雷達(dá)收集了一個(gè)包含11 類(lèi)、共2750 個(gè)樣本的動(dòng)態(tài)手勢(shì)數(shù)據(jù)集,將RDI 數(shù)據(jù)輸入到深度卷積和循環(huán)神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,最終達(dá)到了87%的準(zhǔn)確率。Ding 等人[3]收集了一個(gè)包含500000個(gè)樣本的大規(guī)模動(dòng)態(tài)手勢(shì)數(shù)據(jù)集,將復(fù)數(shù)形式的RDI 數(shù)據(jù)輸入到RadarNet 神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,最終取得99%分類(lèi)準(zhǔn)確率。
深度學(xué)習(xí)方法在基于雷達(dá)的手勢(shì)分類(lèi)任務(wù)中取得了顯著的成果,但其依賴(lài)于大規(guī)模的數(shù)據(jù)集。然而,雷達(dá)數(shù)據(jù)的采集過(guò)程費(fèi)時(shí)費(fèi)力,需要根據(jù)實(shí)際場(chǎng)景和目標(biāo)來(lái)配置雷達(dá)參數(shù)。此外,雷達(dá)領(lǐng)域中的開(kāi)源數(shù)據(jù)集相對(duì)較少。這些因素導(dǎo)致研究人員很難獲得足夠的訓(xùn)練樣本。而深度神經(jīng)網(wǎng)絡(luò)的復(fù)雜性使得模型容易出現(xiàn)過(guò)擬合問(wèn)題,這對(duì)手勢(shì)分類(lèi)任務(wù)的性能產(chǎn)生負(fù)面影響[4]。因此,在數(shù)據(jù)樣本不足的情況下,數(shù)據(jù)增強(qiáng)成為了一種有效的技術(shù),通過(guò)增加訓(xùn)練樣本的多樣性和數(shù)量,從而更好訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)模型[5-9]。雷達(dá)傳感器的本身特性決定了信號(hào)會(huì)因使用者和環(huán)境的不同而產(chǎn)生差異,相較于視覺(jué)圖像,雷達(dá)數(shù)據(jù)的語(yǔ)義信息不夠明顯,且手勢(shì)動(dòng)作的RDI 數(shù)據(jù)以連續(xù)幀的三維形式存在。因此,視覺(jué)領(lǐng)域的旋轉(zhuǎn)、翻轉(zhuǎn)、裁剪等數(shù)據(jù)增強(qiáng)方式不適用于RDI數(shù)據(jù)。
在基于雷達(dá)的數(shù)據(jù)增強(qiáng)研究上,存在許多較為成熟的方法,可用于改進(jìn)雷達(dá)任務(wù)的性能,如生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)[7-9]、變分自編碼器(Variational Autoencoder,VAE)[10-12]、卷積自編碼器(Convolutional Auto-Encoder,CAE)[14]等。Shi等人[9]將GAN引入到微多普勒特征分類(lèi),應(yīng)用于人類(lèi)運(yùn)動(dòng)頻譜圖中,經(jīng)過(guò)訓(xùn)練GAN可以生成許多與原始圖像足夠接近的假圖像,從而豐富數(shù)據(jù)集。Zhu等人[10]提出了VAE 生成模型,該模型將編碼空間視為一個(gè)分布,利用神經(jīng)網(wǎng)絡(luò)擬合具有獨(dú)立分量的后驗(yàn)正態(tài)分布。針對(duì)雷達(dá)高分辨率距離剖面數(shù)據(jù)有限的問(wèn)題,Zhang 等人[12]提出了一種基于變分自編碼器(VAE)的生成模型,以提高分類(lèi)性能。以上這些方法局限于語(yǔ)義信息豐富的數(shù)據(jù),但對(duì)于本文研究的RDI數(shù)據(jù)而言,由于特征不明顯,削弱了GAN生成有效樣本的能力。相比VAE 需要計(jì)算多個(gè)分布之間的KL散度[10-13],訓(xùn)練過(guò)程較為復(fù)雜,CAE網(wǎng)絡(luò)搭建簡(jiǎn)單,同時(shí)訓(xùn)練速度較快。Campbell等人[14]利用CAE對(duì)雷達(dá)的微多普勒特征進(jìn)行增強(qiáng),以實(shí)現(xiàn)人類(lèi)活動(dòng)分類(lèi),證明了CAE 在特征提取方面的優(yōu)異能力。然而,該方法僅限于處理雷達(dá)的微多普勒特征,未擴(kuò)展到雷達(dá)的距離多普勒特征RDI數(shù)據(jù)。
為了解決上述問(wèn)題,本文提出了一種融合注意力模塊的距離多普勒?qǐng)D自編碼(Range-Doppler Image AutoEncoder with Attention Module,RDI-AEAM)方法,旨在增強(qiáng)毫米波雷達(dá)手勢(shì)數(shù)據(jù)的RDI 表征。該方法針對(duì)RDI 數(shù)據(jù)缺乏語(yǔ)義信息、難以進(jìn)行標(biāo)注以及特征不明顯等特點(diǎn)進(jìn)行了針對(duì)性設(shè)計(jì),構(gòu)建了一個(gè)融入注意力模塊的自編碼網(wǎng)絡(luò)。首先,自編碼器用于進(jìn)行特征提取和數(shù)據(jù)壓縮,從輸入數(shù)據(jù)中學(xué)習(xí)其分布并提取有用特征,注意力模塊則專(zhuān)注于學(xué)習(xí)通道和空間維度的特征,以強(qiáng)制模型考慮輸入數(shù)據(jù)中哪些部分需要被優(yōu)先提取,解決特征不明顯的問(wèn)題。接著,在訓(xùn)練過(guò)程中,預(yù)定義了原始數(shù)據(jù)的標(biāo)簽,采用最小均方誤差損失函數(shù)來(lái)衡量生成數(shù)據(jù)的質(zhì)量,當(dāng)生成的數(shù)據(jù)達(dá)到預(yù)設(shè)的閾值與原始數(shù)據(jù)近似時(shí),將生成的數(shù)據(jù)與預(yù)定義標(biāo)簽相關(guān)聯(lián),而無(wú)須額外的后期標(biāo)注。最后,生成數(shù)據(jù)與原始數(shù)據(jù)一同嵌入到任何網(wǎng)絡(luò)結(jié)構(gòu)的訓(xùn)練,從而提高手勢(shì)分類(lèi)任務(wù)的準(zhǔn)確率。為了評(píng)估所提出增強(qiáng)方法的有效性,本文搭建了一個(gè)用于分類(lèi)手勢(shì)的三層卷積神經(jīng)網(wǎng)絡(luò),用于測(cè)試增強(qiáng)前后數(shù)據(jù)集的分類(lèi)性能,在一個(gè)自建數(shù)據(jù)集(Phone-HGR)和兩個(gè)公開(kāi)數(shù)據(jù)集(deepSoli 和體感游戲手勢(shì)VR-HGR)上分別進(jìn)行了實(shí)驗(yàn)。在數(shù)據(jù)集劃分上,本文選取原始數(shù)據(jù)集的50%作為測(cè)試集且保持不變,其余50%作為數(shù)據(jù)增強(qiáng)的訓(xùn)練集,用于構(gòu)建新的訓(xùn)練集。首先,實(shí)驗(yàn)選擇100%的訓(xùn)練集進(jìn)行增強(qiáng),與僅使用原始訓(xùn)練集進(jìn)行訓(xùn)練相比,經(jīng)過(guò)數(shù)據(jù)增強(qiáng)后,在自建數(shù)據(jù)集上的準(zhǔn)確率提高了0.83%,在公開(kāi)數(shù)據(jù)集deepSoli 和VR-HGR 上分別提高了0.39%和3.23%,表明該方法提高了手勢(shì)判別性能。本文進(jìn)一步探究了采用更少原始數(shù)據(jù)的增強(qiáng)效果,選擇訓(xùn)練集的25%進(jìn)行增強(qiáng),在三組數(shù)據(jù)集上分別取得1.92%、2.62%和1.56%的提升,驗(yàn)證了在訓(xùn)練集數(shù)量減少的情況下,該方法仍能取得不同程度準(zhǔn)確率的提升,證明了該數(shù)據(jù)增強(qiáng)方法的有效性。
距離多普勒?qǐng)D(Range-Doppler Image,RDI)由調(diào)頻連續(xù)波雷達(dá)獲取。如圖1 所示,通過(guò)對(duì)接收到的雷達(dá)信號(hào)進(jìn)行快速傅里葉變換(FFT),來(lái)獲得檢測(cè)目標(biāo)的距離、速度信息。
圖1 RDI計(jì)算原理Fig.1 The calculation principle of RDI
(1)距離維-FFT:雷達(dá)發(fā)送連續(xù)波雷達(dá)信號(hào)(如調(diào)頻連續(xù)波信號(hào),chirps),檢測(cè)到物體后,信號(hào)反射并返回到雷達(dá)接收天線,接收到的信號(hào)包含了目標(biāo)的距離和速度信息。為了提取這些信息,接收信號(hào)與發(fā)送信號(hào)進(jìn)行混頻處理,得到中頻IF 信號(hào)。中頻信號(hào)的頻率f和物體與雷達(dá)之間距離d的關(guān)系如公式(1)所示:
其中,S為線性調(diào)頻信號(hào)的斜率,c表示信號(hào)速度。通過(guò)對(duì)IF信號(hào)執(zhí)行快速傅里葉變換(1D-FFT),可以提取檢測(cè)目標(biāo)的距離幅度譜。
(2)多普勒維-FFT:根據(jù)公式(2),兩個(gè)相鄰調(diào)頻連續(xù)波信號(hào)之間存在相位差Δ?,可以表示為:
其中,λ是信號(hào)的波長(zhǎng),c是光速,f0表示初始頻率,Tc表示相鄰兩個(gè)線性調(diào)頻脈沖的時(shí)間間隔??赏茖?dǎo)目標(biāo)速度v為:
沿著chirp 維度對(duì)距離幅度譜進(jìn)行FFT 操作(2DFFT),可以獲得相位差Δ?的頻譜圖,通過(guò)進(jìn)一步處理可將相位差轉(zhuǎn)化為目標(biāo)的速度信息。結(jié)合距離維和速度維的FFT 對(duì)原始信號(hào)進(jìn)行處理,即可獲得RDI數(shù)據(jù)。
圖2為融入注意力模塊的距離多普勒?qǐng)D自編碼(RDI-AEAM)數(shù)據(jù)增強(qiáng)方法整體流程。首先,將數(shù)據(jù)輸入到RDI-AEAM 自編碼器中,通過(guò)編碼器對(duì)數(shù)據(jù)進(jìn)行特征提取和壓縮,從而學(xué)習(xí)輸入數(shù)據(jù)的分布并提取有用的特征。然后,通過(guò)調(diào)節(jié)網(wǎng)絡(luò)參數(shù)使用損失函數(shù)來(lái)優(yōu)化自編碼器。訓(xùn)練過(guò)程中,預(yù)先定義原始數(shù)據(jù)的標(biāo)簽,并使用最小均方誤差損失函數(shù)來(lái)評(píng)估生成數(shù)據(jù)的質(zhì)量。一旦達(dá)到設(shè)定的損失閾值,認(rèn)為生成的樣本與原始數(shù)據(jù)近似相同,此時(shí)將生成的數(shù)據(jù)與預(yù)定義的標(biāo)簽相關(guān)聯(lián),而無(wú)須額外的后期標(biāo)注,克服了無(wú)監(jiān)督訓(xùn)練標(biāo)簽標(biāo)注困難的問(wèn)題。
圖2 距離多普勒?qǐng)D自編碼數(shù)據(jù)增強(qiáng)方法整體流程Fig.2 The workflow of RDI autoencoder data augmentation
RDI-AEAM的自編碼部分主要由卷積自編碼器構(gòu)成。卷積自編碼器(CAE)是一種基于卷積神經(jīng)網(wǎng)絡(luò)的無(wú)監(jiān)督學(xué)習(xí)方法,由編碼器和解碼器兩部分組成,用于學(xué)習(xí)輸入數(shù)據(jù)的低維表示,并進(jìn)行數(shù)據(jù)重構(gòu)[14]。編碼器將輸入數(shù)據(jù)進(jìn)行編碼,采用卷積層、池化層等操作來(lái)提取輸入數(shù)據(jù)的特征,并將其壓縮為一個(gè)低維表示,從而提取出最具代表性的特征信息[15]。編碼過(guò)程表示為公式(4):
其中,x為輸入數(shù)據(jù),we和be分別為編碼器的權(quán)重和偏置,?為卷積操作,f為激活函數(shù),h為編碼后的低維表示。
解碼器通常由多個(gè)反卷積層和上采樣層組成,用于將低維表示進(jìn)行解碼,重構(gòu)成與輸入數(shù)據(jù)相似的形式[16]。解碼過(guò)程表示為公式(5):
其中,wd和bd為解碼器的權(quán)重和偏置為解碼器的輸出。
RDI-AEAM 中的自編碼器融入了注意力模塊,具體結(jié)構(gòu)如圖3 所示。編碼器由四個(gè)卷積層組成,核函數(shù)的大小分別為5×5、5×5、3×3 和3×3,對(duì)應(yīng)的核函數(shù)數(shù)量依次為32、24、16 和8。解碼器的過(guò)程與卷積層相反,它包含四個(gè)反卷積層,用于增加數(shù)據(jù)的維度,核函數(shù)的大小分別為3×3、3×3、5×5 和5×5,對(duì)應(yīng)的核函數(shù)數(shù)量依次為8、16、24 和32。為了加快網(wǎng)絡(luò)收斂速度,引入了非線性因子克服梯度消失問(wèn)題,采用ReLU 作為激活函數(shù),同時(shí)使用批歸一化層BatchNorm2d對(duì)張量進(jìn)行批歸一化處理。
圖3 融入注意力模塊自編碼器結(jié)構(gòu)圖Fig.3 Convolutional autoencoder architecture with attention modules
為提高網(wǎng)絡(luò)的特征表示能力,本文在編碼器第一層卷積后和解碼器最后一層卷積前添加了卷積注意力模塊(Convolutional Block Attention Module,CBAM)[17]。卷積注意力模塊由通道注意力模塊和空間注意力模塊組成,分別關(guān)注空間和通道維度,通過(guò)兩次乘法計(jì)算賦權(quán)得到輸出特征結(jié)果,以幫助模型關(guān)注輸入數(shù)據(jù)需要優(yōu)先提取的部分。通道注意力模塊根據(jù)通道重要性加權(quán)特征圖,增強(qiáng)特征明顯的通道,抑制特征不明顯的通道[18]。具體而言,通道注意力模塊對(duì)輸入的特征層分別經(jīng)過(guò)最大池化層MaxPool和平均池化層AvgPool,相加后輸入全連接網(wǎng)絡(luò),經(jīng)過(guò)Sigmoid激活函數(shù)得到注意力權(quán)重Mc。設(shè)輸入特征圖為F∈RH×W×C,權(quán)重Mc∈R1×1×C,計(jì)算過(guò)程如公式(6):
F′表示處理后輸出的特征圖,計(jì)算過(guò)程如公式(7):
其中,?表示通道權(quán)重與特征圖相乘。
空間注意力則是對(duì)通道注意力進(jìn)行補(bǔ)充,可以根據(jù)每個(gè)空間位置的重要性加權(quán)特征圖。考慮到特征圖不同區(qū)域空間位置重要性,輸入特征圖分別經(jīng)過(guò)最大池化層MaxPool 和平均池化層AvgPool,得到兩個(gè)通道的特征圖,用Concatenate 操作連接,經(jīng)過(guò)卷積Conv 處理得到單通道特征圖,最后由Sigmoid 激活處理得到空間注意力權(quán)重Ms。設(shè)輸入特征圖為F∈RH×W×C,權(quán)重為Mc∈R1×1×C,具體計(jì)算過(guò)程如公式(8):
其中,f表示卷積處理。
訓(xùn)練過(guò)程中,自編碼器使用梯度下降更新模型,最小化輸入數(shù)據(jù)和解碼器輸出之間的重構(gòu)誤差,從而學(xué)習(xí)并更新編碼器和解碼器的參數(shù)。損失函數(shù)采用最小均方誤差(Minimum Mean Squared Error,MMSE),表示為公式(9):
式中,v代表輸入樣本,z代表特征重建輸出,L為重構(gòu)誤差,即輸入數(shù)據(jù)與輸出數(shù)據(jù)之間的差異。
在網(wǎng)絡(luò)訓(xùn)練過(guò)程中,使用Adam 優(yōu)化器,初始學(xué)習(xí)率為0.001,每100 個(gè)epoch 以權(quán)值0.1 衰減。損失閾值為0.003,達(dá)到閾值時(shí)認(rèn)為生成數(shù)據(jù)足夠近似輸入數(shù)據(jù),此時(shí)將生成數(shù)據(jù)與預(yù)定義標(biāo)簽相關(guān)聯(lián),而無(wú)須額外的后期標(biāo)注。經(jīng)過(guò)網(wǎng)絡(luò)訓(xùn)練,目標(biāo)的重建結(jié)果如下圖所示。本文選取了deepSoli 數(shù)據(jù)集[19]中的3 種手勢(shì)數(shù)據(jù),在圖4 展示了原始RDI 和重建RDI。從圖中可以看出,經(jīng)過(guò)訓(xùn)練的RDIAEAM 能夠較好地重建原始RDI,說(shuō)明網(wǎng)絡(luò)具有良好的特征提取能力。
圖4 手勢(shì)示意圖及RDI重建前后示意圖Fig.4 Gesture schematic diagram and RDI reconstruction before and after
為了驗(yàn)證RDI-AEAM 數(shù)據(jù)增強(qiáng)方法的有效性,實(shí)驗(yàn)搭建了一個(gè)輕量化的卷積神經(jīng)網(wǎng)絡(luò),主體由三層卷積和一個(gè)全連接層組成,用于測(cè)試增強(qiáng)前后數(shù)據(jù)集的分類(lèi)性能。為了證明提出方法的泛化性,在三個(gè)數(shù)據(jù)集上分別進(jìn)行了實(shí)驗(yàn),數(shù)據(jù)集包含一個(gè)自制數(shù)據(jù)集和兩個(gè)開(kāi)源數(shù)據(jù)集。
原始的手勢(shì)數(shù)據(jù)格式為[幀數(shù),1024],為了方便深度學(xué)習(xí)模型訓(xùn)練,本文將數(shù)據(jù)轉(zhuǎn)換為[幀數(shù),32,32]的格式。生成的數(shù)據(jù)保存格式與原始RDI數(shù)據(jù)一致,便于和原始數(shù)據(jù)一同嵌于任何網(wǎng)絡(luò)結(jié)構(gòu)的訓(xùn)練。由于用戶(hù)采集手勢(shì)的速度不同,導(dǎo)致手勢(shì)序列的幀數(shù)存在差異,而深度學(xué)習(xí)需要規(guī)整的輸入。因此,實(shí)驗(yàn)采用了一種類(lèi)似于內(nèi)插法的方法,在減少信息損失的前提下,將手勢(shì)特征數(shù)據(jù)規(guī)整化為定長(zhǎng)的40幀??紤]到RDI數(shù)據(jù)尺寸較小,最終設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)非常輕量化。如圖5 所示,輸入數(shù)據(jù)共經(jīng)過(guò)3 層卷積核大小為3×3 的Conv1 和3 層卷積核大小為2×2 的最大池化層,進(jìn)行降維和下采樣,接著展開(kāi)并連接到輸入維度為512 的FC1、輸入維度為128 的FC2,最后使用Softmax 函數(shù)進(jìn)行歸一化操作,以得到分類(lèi)結(jié)果。
圖5 手勢(shì)分類(lèi)神經(jīng)網(wǎng)絡(luò)模型Fig.5 Neural network model for gesture classification
在數(shù)據(jù)集劃分上,本文選取原始數(shù)據(jù)集的50%作為測(cè)試集且保持不變,其余50%作為數(shù)據(jù)增強(qiáng)的訓(xùn)練集,用于構(gòu)建新的訓(xùn)練集。實(shí)驗(yàn)選擇交叉熵函數(shù)CrossEntropyLoss 來(lái)計(jì)算損失,使用Adam 優(yōu)化器,設(shè)置初始學(xué)習(xí)速率為0.005,批大小為8,共60個(gè)訓(xùn)練epoch。此外,考慮到網(wǎng)絡(luò)訓(xùn)練過(guò)程中的隨機(jī)因素可能會(huì)影響結(jié)果,將網(wǎng)絡(luò)訓(xùn)練步驟重復(fù)5次,使用平均結(jié)果表示最終性能。
實(shí)驗(yàn)基于自建數(shù)據(jù)集Phone-HGR、公開(kāi)數(shù)據(jù)集deepSoli[19]和體感游戲手勢(shì)數(shù)據(jù)集[20]進(jìn)行。
(1)電話(huà)手勢(shì)(Phone-HGR):該數(shù)據(jù)集為自建數(shù)據(jù)集,采用英飛凌公司的60 GHz 雷達(dá)系統(tǒng)平臺(tái)進(jìn)行采集。對(duì)于調(diào)頻連續(xù)波(FMCW)雷達(dá),首先對(duì)雷達(dá)原始回波信號(hào)進(jìn)行兩次快速傅里葉變換(FFT),生成含距離、多普勒參數(shù)的RDI。共招募8名志愿者進(jìn)行采集,設(shè)定五種基礎(chǔ)手勢(shì)類(lèi)別,具體手勢(shì)如圖6 所示,數(shù)據(jù)集包含400 條數(shù)據(jù),開(kāi)源地址:https://gitee.com/xiao_chens_classmates/Radar_Gesture_Data.git。(2)deepSoli數(shù)據(jù)集(deepSoli):該數(shù)據(jù)集為ETH Zurich 和Google ATAP 團(tuán)隊(duì)開(kāi)源的手勢(shì)數(shù)據(jù)集,涵蓋11 類(lèi)手勢(shì)共2750 條數(shù)據(jù),在文獻(xiàn)[19]中公開(kāi)可用。(3)體感游戲手勢(shì)(VR-HGR):該數(shù)據(jù)集由型號(hào)為IWR1642 的毫米波雷達(dá)設(shè)備采集,涵蓋體感游戲中常用的7 種手勢(shì)共877 條數(shù)據(jù)樣本,在文獻(xiàn)[20]中公開(kāi)可用。
圖6 電話(huà)手勢(shì)Fig.6 Phone gesture
為了探究增強(qiáng)方法的泛化性,分別對(duì)三組數(shù)據(jù)集100%的訓(xùn)練集進(jìn)行實(shí)驗(yàn),與復(fù)制的增強(qiáng)方式進(jìn)行了對(duì)比。結(jié)果如下表1 所示,其中,Baseline 為未進(jìn)行增強(qiáng)的原始訓(xùn)練集結(jié)果,AE 為使用自編碼器方法的結(jié)果,AEAM 為融入注意力模塊的自編碼器(RDI-AEAM)方法的結(jié)果,COPY為簡(jiǎn)單復(fù)制方法結(jié)果。定義Δ1、Δ2、Δ3如公式(10)所示:
表1 三種數(shù)據(jù)集數(shù)據(jù)增強(qiáng)結(jié)果Tab.1 Data augmentation results for three datasets
其中,Δ1、Δ2、Δ3 分別表示使用自編碼器方法、復(fù)制、融入注意力模塊自編碼方法與未用任何增強(qiáng)方式的Baseline結(jié)果相比提高的準(zhǔn)確率。
結(jié)果表明,針對(duì)三種數(shù)據(jù)集使用復(fù)制樣本的增強(qiáng)方式僅在VR-HGR 數(shù)據(jù)集上實(shí)現(xiàn)了提升,而在Phone-HGR 和DeepSoli數(shù)據(jù)集上準(zhǔn)確率下降。說(shuō)明該方法未能顯著提高準(zhǔn)確率,在有些情況下還會(huì)下降。分析其本質(zhì)原因,當(dāng)訓(xùn)練集增加一倍后,在相同的批次大小下會(huì)導(dǎo)致采樣相同樣本的概率翻倍。此外,每個(gè)樣本的采樣概率也是相等的。這相當(dāng)于縮小了批次大小,增加了迭代次數(shù),但并沒(méi)有改變?cè)紭颖尽R虼?,?zhǔn)確率無(wú)法顯著提高。由于數(shù)據(jù)集規(guī)模相對(duì)較小,后續(xù)的實(shí)驗(yàn)結(jié)果證明了簡(jiǎn)單復(fù)制數(shù)據(jù)會(huì)增加過(guò)擬合的風(fēng)險(xiǎn),進(jìn)一步影響網(wǎng)絡(luò)的泛化能力。圖7 展示了deepSoli 數(shù)據(jù)集的損失變化曲線,其中圖(a)為訓(xùn)練集的損失變化情況,而圖(b)是訓(xùn)練集增加一倍后的訓(xùn)練結(jié)果??梢钥闯鰣D(b)訓(xùn)練過(guò)程在40-60 個(gè)epoch 期間loss 不降反升,這表明網(wǎng)絡(luò)出現(xiàn)了過(guò)擬合問(wèn)題。因此,簡(jiǎn)單地復(fù)制數(shù)據(jù)并不能有效提高模型的泛化能力,需要采用其他數(shù)據(jù)增強(qiáng)方法來(lái)提高數(shù)據(jù)的多樣性,降低過(guò)擬合風(fēng)險(xiǎn)。
圖7 訓(xùn)練損失趨勢(shì)圖Fig.7 Training loss trend
相比于無(wú)任何增強(qiáng)操作的準(zhǔn)確率結(jié)果Baseline,使用自編碼器方法和RDI-AEAM方法均能夠在三組數(shù)據(jù)集上取得更高的準(zhǔn)確率,說(shuō)明自編碼器數(shù)據(jù)增強(qiáng)方法有助于增加數(shù)據(jù)集的多樣性。如圖8 所示,(a)為deepSoli 原始數(shù)據(jù)經(jīng)過(guò)t-SNE(t-distributed Stochastic Neighbor Embedding)[21]降維后的分布,(b)為自編碼器方法生成的數(shù)據(jù)經(jīng)過(guò)t-SNE降維后的分布,每種顏色代表一類(lèi)手勢(shì)類(lèi)型,觀察結(jié)果顯示,在數(shù)據(jù)增強(qiáng)前后,數(shù)據(jù)在不同類(lèi)別之間具有相似的分布特征,而同一類(lèi)別內(nèi)的樣本分布存在差異。這表明自編碼器網(wǎng)絡(luò)已經(jīng)成功學(xué)習(xí)到了各類(lèi)數(shù)據(jù)在高維空間中的特征分布。相比于傳統(tǒng)的自編碼器方法,RDIAEAM在編碼和解碼階段引入了注意力模塊。由于這一改進(jìn),網(wǎng)絡(luò)訓(xùn)練過(guò)程更快地收斂,具有更高的運(yùn)行效率。因此,RDI-AEAM 能夠在更短的時(shí)間內(nèi)生成大量重建的RDI數(shù)據(jù)。
圖8 數(shù)據(jù)t-SNE降維分布Fig.8 t-SNE dimensionality reduction distribution of data
在Phone-HGR 和deepSoli 數(shù)據(jù)集上,自編碼器方法和RDI-AEAM 方法上均已得到較好結(jié)果,說(shuō)明這兩種方法具有一定價(jià)值,而對(duì)于VR-HGR 數(shù)據(jù)集,使用RDI-AEAM 方法達(dá)到了更好的效果,特別是使用100%訓(xùn)練集時(shí),相比于Baseline 的準(zhǔn)確率,能夠提升3.23%的效果,其原因是該數(shù)據(jù)集手勢(shì)屬于人體動(dòng)作,手勢(shì)范圍和信號(hào)強(qiáng)度都較大,因此融入注意力模塊后,能夠提取連續(xù)幀中最具有代表性的特征。這一結(jié)果說(shuō)明自編碼器方法與RDI-AEAM數(shù)據(jù)增強(qiáng)方法均有效,且適用于不同環(huán)境。
隨后,為了探究采用更少原始數(shù)據(jù)的增強(qiáng)效果,逐次減少訓(xùn)練集比例,選擇75%到25%的訓(xùn)練集并重新測(cè)試性能?;谌M數(shù)據(jù)集,在數(shù)據(jù)集取原始數(shù)據(jù)集的50%作為測(cè)試集且保持不變、其余50%作為數(shù)據(jù)增強(qiáng)的訓(xùn)練集后,分別取出各組訓(xùn)練集的75%、50%、25%進(jìn)行實(shí)驗(yàn)(deepSoli額外進(jìn)行了占比10%的實(shí)驗(yàn)),與復(fù)制的增強(qiáng)方式進(jìn)行了對(duì)比,結(jié)果如下表2、表3、表4所示。
表2 Phone-HGR在不同比例訓(xùn)練集下的增強(qiáng)結(jié)果Tab.2 Results of data augmentation with different ratios on the Phone-HGR dataset
表3 deepSoli在不同比例訓(xùn)練集下的增強(qiáng)結(jié)果Tab.3 Results of data augmentation with different ratios on the deepSoli dataset
表4 VR-HGR在不同比例訓(xùn)練集下的增強(qiáng)結(jié)果Tab.4 Results of data augmentation with different ratios on the VR-HGR dataset
實(shí)驗(yàn)結(jié)果顯示,使用自編碼器方法和RDIAEAM 方法準(zhǔn)確率均能得到提升。因此,針對(duì)小范圍的訓(xùn)練集,該兩種方法均能起到增強(qiáng)的作用。在訓(xùn)練集所占比例分別為75%、50%、25%時(shí),自建數(shù)據(jù)集Phone-HGR 在自編碼器方法下分別取得1.58%、1.33%、1.92%準(zhǔn)確率的提升;VR-HGR 數(shù)據(jù)集在RDI-AEAM 下分別取得1.45%、1.60%、1.56%的提升。特別地,對(duì)于具有較大樣本數(shù)量的deepSoli數(shù)據(jù)集而言,自編碼器增強(qiáng)方式相較于Baseline分別取得了0.39%、0.51%、0.91%、2.62%、3.60%準(zhǔn)確率的提升(當(dāng)訓(xùn)練集所占比例分別為100%、75%、50%、25%、10%時(shí)),其中,當(dāng)比例為10%時(shí),取得了3.60%的最高提升幅度。說(shuō)明原始數(shù)據(jù)量減少的情況下,該數(shù)據(jù)增強(qiáng)方法仍有效,并且在不同比例的情況有不同程度的提升效果。
本文提出了一種融入注意力模塊的距離多普勒?qǐng)D自編碼(Range-Doppler Image AutoEncoder with Attention Module,RDI-AEAM)方法,針對(duì)RDI 數(shù)據(jù)存在缺乏語(yǔ)義信息、難以進(jìn)行標(biāo)注以及特征不明顯等問(wèn)題,進(jìn)行了針對(duì)性設(shè)計(jì)。RDI-AEAM 結(jié)合了卷積自編碼器網(wǎng)絡(luò)和注意力模塊,通過(guò)自編碼器進(jìn)行特征提取和數(shù)據(jù)壓縮,學(xué)習(xí)輸入數(shù)據(jù)的分布并提取有用特征。結(jié)合注意力模塊,進(jìn)一步提升特征表達(dá)能力,解決了RDI 數(shù)據(jù)特征不明顯的問(wèn)題。在訓(xùn)練過(guò)程中,預(yù)先定義了原始數(shù)據(jù)標(biāo)簽,基于損失函數(shù)閾值將生成數(shù)據(jù)與預(yù)定義標(biāo)簽相關(guān)聯(lián),而無(wú)須額外的后期標(biāo)注。實(shí)驗(yàn)結(jié)果表明,采用50%的原始數(shù)據(jù)作為訓(xùn)練集進(jìn)行數(shù)據(jù)增強(qiáng)后,相比僅使用訓(xùn)練集的訓(xùn)練結(jié)果,在自建數(shù)據(jù)集、deepSoli 數(shù)據(jù)集和VR-HGR數(shù)據(jù)集上取得了準(zhǔn)確率的提升,分別為0.83%、0.39%和3.23%,提高了手勢(shì)判別性能,這驗(yàn)證了RDI-AEAM 的有效性。此外,進(jìn)一步探究了采用更少原始數(shù)據(jù)的增強(qiáng)效果,逐次對(duì)75%、50%和25%的訓(xùn)練集進(jìn)行增強(qiáng),結(jié)果表明,在訓(xùn)練集數(shù)量減少的情況下,該數(shù)據(jù)增強(qiáng)方法也能提高分類(lèi)的準(zhǔn)確率。因此,可以認(rèn)為RDI-AEAM 在RDI 數(shù)據(jù)領(lǐng)域中具有較高的推廣意義。未來(lái)的研究可以進(jìn)一步探索更少數(shù)據(jù)的增強(qiáng)效果,并結(jié)合其他優(yōu)化方法,進(jìn)一步提升毫米波雷達(dá)手勢(shì)分類(lèi)的準(zhǔn)確率和魯棒性。