李育臣,張之江,曾 丹,李 佳
(上海大學(xué) 通信與信息工程學(xué)院,上海 200444)
隨著人口老齡化程度的加深以及護(hù)理服務(wù)需求的增多,老人跌倒監(jiān)測以及其他人體行為感知逐漸成為輔助生活的關(guān)鍵技術(shù)[1-3]。目前,攝像頭、WIFI、雷達(dá)等設(shè)備均可以用于非接觸式行為感知。利用攝像頭監(jiān)控人體行為已經(jīng)成為非常成熟的技術(shù)[4-6],但是也存在一些問題阻礙了其發(fā)展。在家庭環(huán)境下,人們越來越關(guān)注的隱私問題限制了攝像監(jiān)控的應(yīng)用;同時(shí),攝像頭對環(huán)境的干擾比較敏感,易受到光線條件和周圍物體遮擋的影響。此外,利用WIFI[7]也可用于探測人體的行為,但它們精度較低。相比于其他的無線設(shè)備,毫米波雷達(dá)具有精度高和探測距離較遠(yuǎn)的優(yōu)點(diǎn),并且不會涉及隱私問題,也不易受到光照影響,在黑暗環(huán)境下也可正常工作,具有一定的穿透性,因此毫米波雷達(dá)在行為感知方面具有很大的優(yōu)勢[8-10]。
目前較為主流的手段是利用多普勒雷達(dá)收發(fā)毫米波,然后使用時(shí)頻分析法將原始信號映射到時(shí)頻圖上,并觀察不同行為的微多普勒效應(yīng)[2,9,11]。但是這種基于微多普勒圖的行為識別有一定的局限性,即需要對雷達(dá)回波信號進(jìn)行運(yùn)算量比較大的時(shí)頻分析,同時(shí)特征的定義和分類器的設(shè)計(jì)也比較復(fù)雜,并且只通過速度信息來判斷跌倒在某些場合的準(zhǔn)確度并不高。Singh等人[12]在2019年證明了稀疏點(diǎn)云的時(shí)間窗口體素表示可以用于人類行為識別。通過將點(diǎn)云體素化,利用基于深度學(xué)習(xí)的分類器進(jìn)行了測試,可以達(dá)到甚至超過基于微多普勒圖特征分類的效果。但該方法計(jì)算量較大,實(shí)時(shí)處理能力較弱,并且復(fù)雜環(huán)境中的噪聲對點(diǎn)云體素化的效果有較大影響。Gong等人[13]嘗試用圖的方式來表示點(diǎn)云,雖然取得了不錯(cuò)的分類效果,但是由于毫米波雷達(dá)的特殊性,對于人體行為識別系統(tǒng)的抗干擾能力、實(shí)時(shí)性以及魯棒性有著很大的要求,在滿足實(shí)時(shí)性的同時(shí)也要具備很強(qiáng)的抗干擾能力和模型泛化能力,該方法并不能滿足要求。因此,如何在復(fù)雜的環(huán)境中準(zhǔn)確地、快速地識別人類行為仍然存在著巨大挑戰(zhàn)。
現(xiàn)有方法無法在復(fù)雜環(huán)境下有效地提取稀疏點(diǎn)云的空間特征和時(shí)序特征,同時(shí)模型的抗干擾能力和泛化能力較差。綜上,提出了一種通用的基于毫米波雷達(dá)稀疏點(diǎn)云的人體行為識別方法,該方法根據(jù)毫米波雷達(dá)所產(chǎn)生點(diǎn)云的特性,既保留了點(diǎn)云的原始特征,提高了網(wǎng)絡(luò)計(jì)算的效率,同時(shí)使用基于注意力特征融合的點(diǎn)云活動分類網(wǎng)絡(luò)(MM-PCANet,MMwave radar point cloud activity network)進(jìn)行稀疏點(diǎn)云的特征提取和識別。在MMActivity數(shù)據(jù)集[12]和MMGesture數(shù)據(jù)集[14]上評估了所提的方法,分別取得97.50%和94.10%的準(zhǔn)確率,均優(yōu)于所有其它基線。從而證明了所提方法具有很好的魯棒性,也適用于解決毫米波雷達(dá)點(diǎn)云相關(guān)的其它問題。
在過去幾年中,單片毫米波雷達(dá)有著快速的發(fā)展和應(yīng)用,美國德克薩斯儀器公司的毫米波雷達(dá)就是其中一個(gè)具有代表性的設(shè)備,可以利用這些毫米波雷達(dá)來捕獲人體活動相關(guān)的點(diǎn)云。點(diǎn)云指的是一系列包含空間坐標(biāo)、速度以及其它信息的離散點(diǎn)集合,以此來表示人體在空間上的形狀以及姿態(tài)等信息。毫米波雷達(dá)點(diǎn)云生成的整體流程如圖1所示。
圖1 毫米波雷達(dá)點(diǎn)云生成過程
這些毫米波雷達(dá)采用調(diào)頻連續(xù)波(FMCW),其在一個(gè)調(diào)頻周期內(nèi)發(fā)射信號[15]可以表示為:
(1)
式中,AT為發(fā)射信號的幅值,fc為載波中心頻率,B為帶寬,Tc為信號調(diào)頻周期,φ(t)為相位噪聲。經(jīng)過目標(biāo)和環(huán)境反射后,接收天線得到回波信號,回波信號可以表示為:
SR(t)=
(2)
式中,AR為發(fā)射信號的幅值,td表示從雷達(dá)發(fā)射至接收到人體反射信號的時(shí)間,td=R/c,其中R表示目標(biāo)距離,c為光速。
發(fā)射信號與回波信號混頻處理并低通濾波得到中頻信號,對中頻信號執(zhí)行距離快速傅里葉變換(FFT,fast fourier transform)運(yùn)算以分離不同的頻率分量,從而獲得每個(gè)目標(biāo)與雷達(dá)之間的距離。對中頻信號執(zhí)行多普勒FFT操作以測量中頻信號的相位變化,來獲取目標(biāo)的速度信息。
除此之外為了得到目標(biāo)的空間坐標(biāo)x、y和z,還需進(jìn)行角度估計(jì),利用天線之間的相位差計(jì)算出目標(biāo)的方位角和俯仰角。在經(jīng)過角度估計(jì)之后,獲取了目標(biāo)的距離R、方位角θ以及俯仰角φ。假設(shè)笛卡爾坐標(biāo)系中的點(diǎn)坐標(biāo)為(x,y,z),其中x表示橫軸,y表示縱軸,z表示高度,則雷達(dá)坐標(biāo)系轉(zhuǎn)換為笛卡爾坐標(biāo)系的計(jì)算如式(3)所示:
x=R*cos(φ)* sin(θ)
y=R*cos(φ)*cos(θ)
z=R*sin(φ)
(3)
以上是毫米波雷達(dá)生成點(diǎn)云的大致流程,至此就可以獲取到目標(biāo)的三維坐標(biāo)、距離以及速度等信息,供后續(xù)數(shù)據(jù)集構(gòu)建、數(shù)據(jù)處理以及數(shù)據(jù)可視化使用。連續(xù)多幀的點(diǎn)云信息就是后續(xù)方法的輸入,每一幀包含n個(gè)離散的點(diǎn),每個(gè)點(diǎn)都包含空間位置x、y和z以及速度等信息。
在上述所提到的MM-PCANet當(dāng)中,采用PointNet++[16]作為主干網(wǎng)絡(luò),從3D點(diǎn)云中提取空間分層特征。PointNet[17]是使用深度學(xué)習(xí)的方法提取點(diǎn)云特征的先驅(qū)工作,之后出現(xiàn)了類似于PointNet++等許多新穎的基于深度學(xué)習(xí)的點(diǎn)云網(wǎng)絡(luò),但大多數(shù)都是以PointNet為基礎(chǔ)。在PointNet當(dāng)中使用多層感知機(jī)(MLP,multilayer perceptron)來進(jìn)行點(diǎn)云的高級特征表示,并選擇用最大池化來進(jìn)行特征的聚合,PointNet提取特征的方式是對所有點(diǎn)云數(shù)據(jù)提取一個(gè)全局特征,這會帶來很大的局限性,即無法提取到點(diǎn)云的空間局部特征,使得它很難對復(fù)雜場景進(jìn)行分析。PointNet++采用了分層抽取特征的思想,把每一次特征提取操作稱為Set Abstraction。Set Abstraction又分為三部分,分別是采樣層、分組層、特征提取層,它能夠在不同尺度提取局部特征,通過多層網(wǎng)絡(luò)結(jié)構(gòu)得到更深層次的特征,同時(shí)兼顧全局特征以及空間局部特征。因此,在點(diǎn)云稀疏或其它復(fù)雜的場景下,PointNet++有著更好的特征提取能力。
在實(shí)際的人體行為數(shù)據(jù)采集過程中,不同幀的點(diǎn)云數(shù)量是不相同的,在一些復(fù)雜的動作當(dāng)中,生成的點(diǎn)云數(shù)量可能會比簡單動作的要多,為了使每幀點(diǎn)云數(shù)量保持一致,作為后續(xù)分類網(wǎng)絡(luò)的輸入,同時(shí)方便比較每幀固定不同點(diǎn)云數(shù)量時(shí)分類方法的整體性能差異,采用基于K-means++聚類算法進(jìn)行點(diǎn)云的采樣,如果當(dāng)前幀的點(diǎn)云個(gè)數(shù)小于設(shè)定的閾值,則通過重復(fù)一些原有點(diǎn)和聚類中心點(diǎn),完成點(diǎn)云的擴(kuò)充。如果大于設(shè)定的閾值,則只保留聚類中心點(diǎn),剔除中心點(diǎn)以外的其它點(diǎn)。整體流程如圖2所示。
圖2 點(diǎn)云采樣整體流程
2.1.1 方法介紹
K-means聚類是最常用的聚類算法。它的基本思想是通過迭代尋找K個(gè)簇的一種劃分方案,使得聚類結(jié)果對的損失函數(shù)最小。它的優(yōu)點(diǎn)是計(jì)算復(fù)雜度較低,收斂速度較快,但是容易受初始值的影響,為了減少初始值帶來的影響,選擇利用K-means++中選擇初始聚類中心的方法初始化聚類中心。通過給定具體的K值,將點(diǎn)云數(shù)據(jù)聚類成K個(gè)簇,通過保留或重復(fù)聚類中心點(diǎn),完成點(diǎn)云的采樣。具體步驟如下:
1)先從數(shù)據(jù)當(dāng)中隨機(jī)選擇一個(gè)點(diǎn)作為聚類中心。
2)對于其它每個(gè)點(diǎn),都計(jì)算其和最近的一個(gè)聚類中心的歐式距離。
3)用加權(quán)的方式選取聚類中心點(diǎn),離已確定的中心點(diǎn)距離越遠(yuǎn),越有可能被選擇為下一個(gè)中心點(diǎn)。
4)重復(fù)步驟2)和3),直到K個(gè)聚類中心選擇完成。
5)針對每個(gè)點(diǎn)計(jì)算其到所有聚類中心的歐式距離,并將其歸屬到距離最小的聚類中心所對應(yīng)的類別。
6)針對每個(gè)簇類,重新計(jì)算該簇的聚類中心并對聚類中心進(jìn)行更新。
7)重新迭代5)、6)兩步,直到簇的聚類中心不發(fā)生改變或達(dá)到迭代上限。
8)迭代完成后,保留每個(gè)簇的聚類中心作為最終的結(jié)果。
2.1.2 參數(shù)分析
隨機(jī)選取一幀點(diǎn)云個(gè)數(shù)為109的數(shù)據(jù),將聚類中心分別設(shè)置為16、32、64、128和256,代表著將點(diǎn)云個(gè)數(shù)采樣至對應(yīng)的數(shù)值,迭代次數(shù)設(shè)置為300次,選擇用歐式距離作為距離的衡量標(biāo)準(zhǔn),采樣的效果如圖3所示,分別對應(yīng)不同采樣值的采樣效果,可以看出利用所提出的K-means++聚類算法可以很好地保留關(guān)鍵的特征點(diǎn)以及原始的點(diǎn)云空間特征,在進(jìn)行采樣的同時(shí),不會造成點(diǎn)云空間結(jié)構(gòu)的變化。
圖3 點(diǎn)云采樣效果圖
基于毫米波雷達(dá)的特殊性,人體行為識別需要面臨如下兩個(gè)挑戰(zhàn):第一是所采集到人體行為點(diǎn)云較為稀疏;第二是人體的行為并不是單幀的三維點(diǎn)云,而是多幀三維點(diǎn)云的聚合,因此如何從這些連續(xù)且無序的三維點(diǎn)云中高效地提取特征是主要問題。如圖4所示,是所提出的MM-PCANet分類網(wǎng)絡(luò)的整體結(jié)構(gòu)圖,其中主要包含基礎(chǔ)模塊、全局幀模塊、全局點(diǎn)模塊以及注意力特征融合模塊等。
圖4 MM-PCANet分類網(wǎng)絡(luò)
2.2.1 基礎(chǔ)模塊
該模塊的輸入維度是T×N×D,其中T代表著時(shí)間序列幀的個(gè)數(shù),N代表每幀當(dāng)中點(diǎn)云的數(shù)量,D代表每個(gè)點(diǎn)的特征個(gè)數(shù),在所提出的方法中,每個(gè)點(diǎn)有4個(gè)特征,分別是空間位置x、y、z以及速度。該模塊的作用是利用MLP提取出每一幀點(diǎn)云的高級表示,同時(shí)為了提取到幀間的局部特征以及減少計(jì)算量,采用了幀間分組與采樣模塊[18],其包含兩個(gè)部分,即幀間分組模塊和采樣模塊。幀間分組模塊可以通過在短周期內(nèi)找到k個(gè)相鄰點(diǎn)來構(gòu)造局部點(diǎn)云集,從而能夠在更密集的點(diǎn)云中學(xué)習(xí)出更精細(xì)的行為特征,當(dāng)人體快速移動時(shí),也可以學(xué)習(xí)更多的全局運(yùn)動信息。采樣模塊旨在通過在每個(gè)時(shí)刻采樣點(diǎn)云特征來收集局部時(shí)空信息,以降低計(jì)算成本并識別不同尺度的人體行為。
2.2.2 全局幀模塊
因?yàn)槿梭w的行為是連續(xù)幀所疊加而成的,所以幀與幀之間的時(shí)序信息是很重要的,全局幀模塊旨在利用長短時(shí)記憶網(wǎng)絡(luò)[19](LSTM,long short-term memory)來提取連續(xù)幀之間的時(shí)序信息。LSTM是循環(huán)神經(jīng)網(wǎng)絡(luò)的一種特殊自回歸模型,通過加入長期記憶單元和改變門結(jié)構(gòu),緩解了循環(huán)神經(jīng)網(wǎng)絡(luò)中的梯度彌散和梯度爆炸問題,已廣泛應(yīng)用在序列數(shù)據(jù)處理中。該模塊具體的步驟是首先經(jīng)過了幀間分組與采樣模塊以及MLP多層感知機(jī),進(jìn)一步將每一幀的點(diǎn)云特征進(jìn)行更高級的表示,然后送入LSTM層提取連續(xù)幀之間的時(shí)序信息,最后送入注意力特征融合模塊和后續(xù)全局點(diǎn)模塊所輸出的特征相融合。具體計(jì)算方法如公式(4)所示:
ft=σ(Wf[ht-1,yt]+bf)
it=σ(Wi·[ht-1,yt]+bi)
ot=σ(Wo[ht-1,yt]+bo)
ht=ot*tanh(Ct)
(4)
2.2.3 全局點(diǎn)模塊
上述的全局幀模塊是以每一幀的點(diǎn)云信息作為整體,提取幀與幀之間的時(shí)序信息,但是由于點(diǎn)云的特殊性,不僅要關(guān)注幀與幀之間的時(shí)序信息,還要關(guān)注每一幀點(diǎn)云當(dāng)中每個(gè)點(diǎn)在整個(gè)時(shí)間序列當(dāng)中的時(shí)序信息,這樣有助于模型獲取每個(gè)點(diǎn)在整個(gè)行為過程中的一個(gè)特征變化,從而進(jìn)一步的提取到更有用的點(diǎn)特征。受PointLSTM[20]的啟發(fā),通過共享的LSTM層對每個(gè)點(diǎn)云的時(shí)序特征進(jìn)行提取。
h(t),c(t)=LSTM(y(t),h(t-1),c(t-1))
(5)
(6)
(7)
2.2.4 注意力特征融合模塊
上述通過全局幀模塊和全局點(diǎn)模塊之后,分別提取到了幀與幀之間的時(shí)序信息以及每一幀點(diǎn)云當(dāng)中點(diǎn)的空間和時(shí)序特征,最后利用基于注意力的特征融合模塊[21]將這兩部分的特征融合。如圖5所示,其中MS-CAM模塊是當(dāng)中提到的多尺度通道注意力模塊[21],該模塊是為了更好地融合語義和尺度不一致的特征,解決了融合不同尺度給出的特征時(shí)出現(xiàn)的問題。同時(shí)針對初始特征集成對于注意力特征融合影響比較大的問題,使用額外一層注意力特征融合模塊生成更好的初始特征,故稱之為迭代注意力特征融合模塊。具體的計(jì)算方法如下:
(8)
圖5 迭代注意力特征融合模塊
式中,M是MS-CAM多尺度通道注意力模塊[21],X和Y是兩個(gè)維度T×N×D的輸入特征,Z是維度T×N×D的融合特征。
2.2.5 損失函數(shù)
多分類交叉熵(Multiclass Cross-entropy)是一種常用的損失函數(shù),用于衡量多分類問題中模型輸出的概率分布與真實(shí)標(biāo)簽的差距,具體計(jì)算方法如下:
(9)
式中,N代表樣本數(shù),K代表類別數(shù),yic代表真實(shí)標(biāo)簽中第i個(gè)樣本屬于類別c的概率,pic代表模型預(yù)測的第i個(gè)樣本屬于類別c的概率。
在MMActivity數(shù)據(jù)集[12]和MMGesture數(shù)據(jù)集[14]兩個(gè)毫米波雷達(dá)人體數(shù)據(jù)集上進(jìn)行了驗(yàn)證,從而來證明所提方法的魯棒性和通用性。
1)MMActivity數(shù)據(jù)集:該數(shù)據(jù)集是第一個(gè)使用毫米波雷達(dá)收集人體行為點(diǎn)云信息的數(shù)據(jù)集,使用IWR 1 443毫米波雷達(dá)采集來自兩個(gè)不同實(shí)驗(yàn)者的5種人體行為數(shù)據(jù),5種行為分別是跳躍、拳擊、行走、蹲起和開合跳躍,每個(gè)行為在兩秒內(nèi)完成,采樣頻率是每秒30幀,一共收集了93 min的數(shù)據(jù)。
2)MMGesture數(shù)據(jù)集:該數(shù)據(jù)集是第一個(gè)使用毫米波雷達(dá)收集手勢點(diǎn)云信息的數(shù)據(jù)集,使用的是IWR 1 443毫米波雷達(dá),將在其遠(yuǎn)程方案的數(shù)據(jù)當(dāng)中進(jìn)行實(shí)驗(yàn),一共有79個(gè)不同性別的參與者執(zhí)行4種手勢,包含左滑動,右滑動,敲擊和旋轉(zhuǎn),其中不僅直接感應(yīng)了手勢動作,而且在有某些堵塞物的情況下進(jìn)行了感測,收集的點(diǎn)云包含空間坐標(biāo)x、y和z、速度以及反射強(qiáng)度5個(gè)特征信息。
該工作在單塊的3090TI顯卡上完成模型的訓(xùn)練和推理,其余工作是在具有Inteli7-10750H的處理器以及16GB運(yùn)行內(nèi)存的筆記本電腦上完成,使用了PyTorch深度學(xué)習(xí)框架實(shí)現(xiàn)所有模型。設(shè)置初始學(xué)習(xí)率為0.000 1,并采用衰減率為0.005的階梯式學(xué)習(xí)率衰減的Adam優(yōu)化器[22]來訓(xùn)練模型,訓(xùn)練集和測試集的比例為8:2,采用的是多分類交叉熵?fù)p失函數(shù)。其中上述基礎(chǔ)模塊里兩個(gè)MLP層輸出的特征維度分別為64和128,全局幀模塊和全局點(diǎn)模塊里MLP層輸出的特征維度分別為256和1 024,LSTM的層數(shù)為2且單向,輸入輸出的特征維度分別為256和1 024,PointLSTM輸入輸出的特征維度分別為132和256。在3個(gè)幀間分組與采樣模塊中,分別選擇相鄰的4、8、4個(gè)點(diǎn)進(jìn)行分組,并且點(diǎn)云采樣率為0.5。
本小節(jié)將所提出的MM-PCANet劃分為3個(gè)主要部分作為基線,以此來驗(yàn)證網(wǎng)絡(luò)每一部分的特征提取能力以及所做出的改進(jìn)。
1)基礎(chǔ)模塊+全局幀模塊(Baseline A):在該基線中選擇保留了基礎(chǔ)模塊和全局幀模塊,并且將注意力特征融合模塊刪除,其余保持不變。該基線可以作為參照以此來證明全局幀模塊的作用。
2)基礎(chǔ)模塊+全局點(diǎn)模塊(Baseline B):在該基線中選擇保留了基礎(chǔ)模塊和全局點(diǎn)模塊,并將注意力特征融合層去掉,其余保持不變。該基線可以作為參照以此來證明全局點(diǎn)的作用。
3)基礎(chǔ)模塊+全局幀模塊+全局點(diǎn)模塊+特征拼接(Baseline C):在該基線中選擇保留了基礎(chǔ)模塊、全局幀模塊以及全局點(diǎn)模塊,并選擇直接用特征拼接的方法代替注意力特征融合層,其余保持不變,以此來證明全局幀模塊和全局點(diǎn)模塊的互補(bǔ)作用以及注意力特征融合層的作用。
通過以下4個(gè)指標(biāo)來評判所提出模型的可行性。
準(zhǔn)確率:準(zhǔn)確率是最常見的評價(jià)指標(biāo),指的是被分對的樣本數(shù)除以所有的樣本數(shù),通常來說,正確率越高,分類器越好。
(10)
精確率:又稱為查準(zhǔn)率,指的是在模型預(yù)測結(jié)果為正樣本中,真正樣本所占的百分比。
(11)
混淆矩陣:主要用于比較分類結(jié)果和實(shí)際測得值,可以把分類結(jié)果的精度顯示在一個(gè)混淆矩陣?yán)锩?,并直觀地表明所提出模型在哪一類樣本里面表現(xiàn)得不是很好。
推理速度:神經(jīng)網(wǎng)絡(luò)執(zhí)行一次前向傳播所需要的時(shí)間是推理時(shí)間。通常用一秒鐘內(nèi)模型能夠執(zhí)行的推理次數(shù)來表示模型的推理速度,單位用fps表示。
為了驗(yàn)證MM-PCANet網(wǎng)絡(luò)每個(gè)模塊的有效性以及所作出的改進(jìn),利用K-means++方法將點(diǎn)云采樣至64個(gè)點(diǎn),分別在MMActivity和MMGesture兩個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。如圖6和圖7所示,分別按照3.3所提出的3個(gè)基線進(jìn)行了測試,其中Baseline A在兩個(gè)數(shù)據(jù)集的準(zhǔn)確率分別達(dá)到了93.6%和77.6%,說明所提出的基礎(chǔ)模塊和全局幀模塊是具備一定的序列點(diǎn)云特征提取能力。Baseline B在兩個(gè)數(shù)據(jù)集的準(zhǔn)確率分別達(dá)到了95.3%和85.3%,證明了全局點(diǎn)模塊的特征提取效果要略微強(qiáng)于全局幀模塊,能夠更準(zhǔn)確地完成人體行為的識別。Baseline C在兩個(gè)數(shù)據(jù)集的準(zhǔn)確率分別達(dá)到了96.5%和89.5%,該基線將全局幀模塊和全局點(diǎn)模塊同時(shí)利用起來,并通過直接拼接的方式進(jìn)行特征融合,效果要強(qiáng)于Baseline A和Baseline B,證明全局幀模塊和全局點(diǎn)模塊具有互補(bǔ)作用,不僅提取了幀與幀之間的序列信息同時(shí)也很好地提取到了幀中點(diǎn)云的時(shí)序的信息。用注意力特征融合模塊代替了特征的直接拼接,形成了所提出的MM-PCANet模型,在兩個(gè)數(shù)據(jù)集的準(zhǔn)確率分別達(dá)到了97.50%和94.10%,直接說明了注意力特征融合模塊的有效性,能夠更好地融合全局幀模塊和全局點(diǎn)模塊所輸出的特征信息。
圖6 在MMActivity數(shù)據(jù)集上的表現(xiàn)
圖7 在MMGesture數(shù)據(jù)集上的表現(xiàn)
為了驗(yàn)證K-means++采樣方法的有效性,在兩個(gè)數(shù)據(jù)集上分別利用K-means++采樣和隨機(jī)采樣在不同采樣值的情況下進(jìn)行了實(shí)驗(yàn),如圖8所示,上方的兩條線分別代表MM-PCANet在MMActivity數(shù)據(jù)集上兩種采樣方法的表現(xiàn),下方的兩條線分別代表在MMGesture數(shù)據(jù)集上兩種采樣方法的表現(xiàn),可以得出,在不同采樣值下K-means++采樣方法比隨機(jī)采樣方法準(zhǔn)確率平均提升了0.4個(gè)百分點(diǎn),證實(shí)了所提出的K-means++采樣方法的有效性。
圖8 不同點(diǎn)云采樣值在兩個(gè)數(shù)據(jù)集上的表現(xiàn)
從表1中可以看出8種不同方法在MMActivity數(shù)據(jù)集上的表現(xiàn),其中不同的模型點(diǎn)云的表示方式不同,將點(diǎn)云體素化表示的RadHAR[12]準(zhǔn)確率表現(xiàn)不是很好,隨著體素分辨率的增加,該方法的空間成本和計(jì)算復(fù)雜性呈立方增長,同時(shí)點(diǎn)云的密度不均勻也會造成體素分布的不均勻,導(dǎo)致空間特征的丟失,在稀疏點(diǎn)云的數(shù)據(jù)集上這種問題會更加嚴(yán)重。除此之外是傳統(tǒng)的直接對點(diǎn)云處理網(wǎng)絡(luò)PointNet[17]、PointLSTM[20]以及Pantomime[23]和用圖表示點(diǎn)云的MMPointGNN[13]分類網(wǎng)絡(luò),分類準(zhǔn)確率均不如所提出的MM-PCANet,該準(zhǔn)確率達(dá)到了97.50%,是表1所有方法當(dāng)中表現(xiàn)最好的,造成這種現(xiàn)象更多的是因?yàn)樯鲜?個(gè)基線網(wǎng)絡(luò)無法兼顧幀序列的時(shí)序特征和具體點(diǎn)云的時(shí)序特征,而MM-PCANet可以很好地解決這個(gè)問題。如圖9所示MM-PCANet在MMActivity數(shù)據(jù)集的混淆矩陣可以看出整體的分類效果是非常好的,盡管由于跳躍和行走之間的相似性,兩者有點(diǎn)混淆,但并不影響MM-PCANet的整體優(yōu)良表現(xiàn)。
表1 不同方法在MMActivity數(shù)據(jù)集上的表現(xiàn)
圖9 MM-PCANet在MMActivity數(shù)據(jù)集的混淆矩陣
從圖10中可以看出,由于獨(dú)特的運(yùn)動軌跡,旋轉(zhuǎn)手勢具有最高的準(zhǔn)確性,不容易被誤判。其他3個(gè)手勢的準(zhǔn)確度不夠高,因?yàn)檫@3種手勢的運(yùn)動模型相似。表2是不同方法在MMGesture數(shù)據(jù)集上的表現(xiàn),其中PointNet+LSTM的準(zhǔn)確率僅為70.41%,這是因?yàn)槭芟抻赑ointNet的空間特征提取能力,在較為稀疏的手勢數(shù)據(jù)集上表現(xiàn)較差。PointLSTM和MMPointGNN的準(zhǔn)確率分別為90.35%和92.67%,而MM-PCANet有著更高的準(zhǔn)確率94.10%,表明所提出的MM-PCANet在基于毫米波雷達(dá)稀疏點(diǎn)云的手勢識別場景有著更好的特征提取能力。
表2 不同方法在MMGesture數(shù)據(jù)集上的表現(xiàn)
圖10 MM-PCANet在MMGesture數(shù)據(jù)集的混淆矩陣
如表3所示,分別在兩個(gè)數(shù)據(jù)集上測試了MM-PCANet的平均推理速度,可以看出Batch Size越大,網(wǎng)絡(luò)的平均推理速度也越快,在Batch Size為1時(shí),在這兩個(gè)數(shù)據(jù)集上的平均推理速度分別達(dá)到了每秒19.40次和每秒50.02次,也完全滿足使用毫米波雷達(dá)進(jìn)行人體感知的實(shí)時(shí)性。
表3 不同Batch Size下MM-PCANet的平均推理速度 fps
本文提出了一種通用的基于毫米波雷達(dá)稀疏點(diǎn)云的人體行為識別方法,該方法直接對人體原始點(diǎn)云進(jìn)行處理,無需將點(diǎn)云進(jìn)行體素化或者其它方式的表示,利用K-means++算法進(jìn)行點(diǎn)云采樣,在不破壞點(diǎn)云空間結(jié)構(gòu)的同時(shí)有效地提高了模型的計(jì)算效率。此外,使用MM-PCANet進(jìn)行人體行為特征的提取和識別,兼顧點(diǎn)云的空間特征以及時(shí)序特征,對稀疏點(diǎn)云的運(yùn)動有著靈敏的感知能力,同時(shí)也具有較強(qiáng)的抗干擾能力。實(shí)驗(yàn)結(jié)果表明該方法在兩個(gè)毫米波雷達(dá)人體點(diǎn)云數(shù)據(jù)集(MMActivity和MMGesture)上的表現(xiàn)均優(yōu)于所有其它基線,證明所提出方法的魯棒性和通用性。但由于要融合多方面的特征,導(dǎo)致網(wǎng)絡(luò)結(jié)構(gòu)略顯復(fù)雜,因此未來會嘗試將網(wǎng)絡(luò)變得更輕量化。