金 添 宋永坤 戴永鵬 胡錫坤 宋勇平 周小龍 邱志峰
(國防科技大學(xué)電子科學(xué)學(xué)院 長沙 410073)
人體動作識別技術(shù)應(yīng)用于健康監(jiān)護(hù)、運動分析、智能家居、場景監(jiān)控等諸多領(lǐng)域,是計算機(jī)視覺領(lǐng)域的研究熱點[1]。所謂動作識別,即通過對視頻或圖像序列進(jìn)行處理分析,構(gòu)建視頻與人體動作之間的映射關(guān)系,使計算機(jī)能夠像人一樣去理解視頻[2]。隨著深度學(xué)習(xí)的出現(xiàn)和傳感器技術(shù)的發(fā)展,大量的人體動作數(shù)據(jù)可以使用低廉的攝像頭獲取,為深度學(xué)習(xí)的訓(xùn)練提供了數(shù)據(jù)支撐,以可見光、結(jié)構(gòu)光為探測手段的深度學(xué)習(xí)動作識別研究取得了較大成效[3],逐漸取代傳統(tǒng)算法。目前,在計算機(jī)視覺領(lǐng)域,已有眾多基于光學(xué)傳感器的人體動作識別數(shù)據(jù)集,如KTH[4],UCF-101[5],HMDB[6],Kinetics[7],NTU RGB+D[8]等,這些數(shù)據(jù)集中樣本的數(shù)目由幾千到幾十萬不等,為研究者提供了便利的研究條件,進(jìn)一步推動了動作識別技術(shù)的應(yīng)用落地。
隨著時代的進(jìn)步,人們對動作識別系統(tǒng)的應(yīng)用場景和隱私保護(hù)等方面提出了更高的要求。傳統(tǒng)的光學(xué)傳感器無法在無光、遮蔽和非視距等復(fù)雜環(huán)境下工作且存在隱私泄露的風(fēng)險,無法適應(yīng)多樣性的應(yīng)用需求。然而,以電磁波信號為信息傳遞載體的雷達(dá)是一種主動探測系統(tǒng),得益于電磁波的穿透性,雷達(dá)系統(tǒng)可以在遮擋環(huán)境下穩(wěn)定工作。同時,雷達(dá)系統(tǒng)通過分析人體目標(biāo)反射回波提取人體動作信息,不直接獲取人體面部信息,具有較好的隱私保護(hù)性能[9]。因此,相比于被動探測的光學(xué)傳感器,基于雷達(dá)傳感器的人體動作識別系統(tǒng)有更廣泛的使用場景,具有較大的研究價值。
利用雷達(dá)進(jìn)行人體動作識別的一般步驟是,首先選擇合適的人體動作特征,然后從接收的雷達(dá)回波中提取有效特征,最后采用合適的分類器實現(xiàn)動作識別。早期的研究大多使用手工提取特征的方法,采用一定的雷達(dá)信號處理方法,首先提取雷達(dá)信號的幅度、頻率、相位等信號波形特性[10],目標(biāo)的距離、方位、高度等目標(biāo)特性,以及微多普勒運動等信息作為特征,再使用支持向量機(jī)、貝葉斯分類、決策樹等傳統(tǒng)的機(jī)器學(xué)習(xí)方法進(jìn)行分類[11]。然而,此類方法在實現(xiàn)過程中涉及多項操作,需要大量人工干預(yù),且動作識別的精度不高,應(yīng)用受限。近年來,深度學(xué)習(xí)技術(shù)在光學(xué)動作識別領(lǐng)域表現(xiàn)良好,實現(xiàn)了特征設(shè)計、提取和分類識別的一體化的設(shè)計,動作識別精度均優(yōu)于傳統(tǒng)算法,一些學(xué)者開始將此技術(shù)應(yīng)用于雷達(dá)人體動作識別的研究中[12]。加州大學(xué)的Kim等人[13]最早將雷達(dá)回波信號處理得到的微多普勒譜輸入3層卷積神經(jīng)網(wǎng)絡(luò)中,取得了較好的動作識別準(zhǔn)確率。美國約翰霍普金斯大學(xué)Craley等人[14]引入了長短時記憶網(wǎng)絡(luò)(LSTM)對雷達(dá)多普勒圖像進(jìn)行分類識別,充分利用了人體動作特征中的時序信息。電子科技大學(xué)的Wang等人[15]設(shè)計了一種多個LSTM堆疊的網(wǎng)絡(luò)結(jié)構(gòu),并在實測數(shù)據(jù)上進(jìn)行了驗證,動作識別精度優(yōu)于深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)。北京郵電大學(xué)Li等人[16]采用遷移學(xué)習(xí)方法來解決小樣本雷達(dá)數(shù)據(jù)集下的人體行為識別問題,提高了網(wǎng)絡(luò)對于新場景下人體行為識別的泛化能力。國防科技大學(xué)的Du等人[17]提出了基于距離-多普勒-時間的三維點云輸入模式,距離信息的引入提高了不同位置肢體的差異,進(jìn)一步改善了動作識別率。北京大學(xué)李廉林等人[18]基于智能電磁感知技術(shù)使用低成本的超材料天線實現(xiàn)了個體和肢體動作的智能識別,拓寬了人體感知的研究方向[19]。
目前基于雷達(dá)傳感器的人體動作識別數(shù)據(jù)集相對稀缺,在一定程度上制約了深度學(xué)習(xí)在雷達(dá)人體動作識別領(lǐng)域的發(fā)展。盡管部分學(xué)者公布了一些雷達(dá)動作識別領(lǐng)域的數(shù)據(jù)集[20–22],但這些數(shù)據(jù)集大都基于單通道或者較少通道的雷達(dá)回波信號的多普勒特征進(jìn)行動作識別,而多普勒特征包含的信息量遠(yuǎn)不如光學(xué)傳感器提供的人體姿態(tài)圖像特征豐富,使得在人體動作識別領(lǐng)域中雷達(dá)傳感器的實用化遠(yuǎn)遠(yuǎn)滯后于光學(xué)傳感器。近年來,低頻超寬帶多輸入多輸出(Multiple-Input Multiple-Output,MIMO)雷達(dá)技術(shù)逐漸成熟,在實現(xiàn)較好穿透性的同時,具有距離、方位和高度三維信息感知能力,能夠獲取與光學(xué)傳感器類似的人體姿態(tài)圖像序列[23]。另外,相比于單通道或少通道雷達(dá)系統(tǒng),MIMO雷達(dá)具有更好的空間分辨能力,可實現(xiàn)多目標(biāo)的探測和分離,有較大的研究價值。然而,由于缺少相關(guān)公開數(shù)據(jù)集,嚴(yán)重限制了MIMO雷達(dá)傳感器在人體動作識別領(lǐng)域的實用化進(jìn)程。
為了促進(jìn)雷達(dá)人體動作識別研究的發(fā)展,豐富雷達(dá)數(shù)據(jù)集的多樣性,本文基于低頻超寬帶MIMO雷達(dá),構(gòu)建了超寬帶雷達(dá)人體動作四維成像數(shù)據(jù)集(Ultra-Wideband radar Human Activity 4D imaging dataset,UWB-HA4D-1.0)。不同于傳統(tǒng)的基于微多普勒譜進(jìn)行動作識別的數(shù)據(jù)集,該數(shù)據(jù)集是國際首個基于雷達(dá)四維成像的人體動作數(shù)據(jù)集,開辟了人體動作識別領(lǐng)域研究的新路線。本數(shù)據(jù)集包含人體目標(biāo)的距離-方位-高度-時間四維信息,共采集了11個不同體型人體目標(biāo)的10種不同動作,以及3種不同場景的雷達(dá)數(shù)據(jù)。該數(shù)據(jù)集已可通過《雷達(dá)學(xué)報》官網(wǎng)的相關(guān)鏈接(https://radars.ac.cn/web/data/getData?dataType=UWB-HA4D)免費下載使用。另外,本文以PaddlePaddle為網(wǎng)絡(luò)框架,使用了計算機(jī)視覺領(lǐng)域幾種常用的動作識別深度學(xué)習(xí)網(wǎng)絡(luò)對數(shù)據(jù)集進(jìn)行訓(xùn)練和驗證,為該數(shù)據(jù)集的使用和開發(fā)提供參考,方便其他學(xué)者進(jìn)行更進(jìn)一步的探索研究。
結(jié)合雷達(dá)人體動作四維數(shù)據(jù)采集的任務(wù)需求,本節(jié)對所需雷達(dá)系統(tǒng)的參數(shù)進(jìn)行討論分析。關(guān)于雷達(dá)系統(tǒng)的工作頻段的選擇,已知工作于0~3 GHz頻段的低頻雷達(dá)有較好的穿透性,可穿透多種墻體介質(zhì)對遮擋目標(biāo)進(jìn)行探測[24],適用于多種探測場景。而超寬帶雷達(dá)相比于窄帶雷達(dá)具有更優(yōu)的距離分辨率,可獲取目標(biāo)高精度距離信息[25]。對于雷達(dá)系統(tǒng)的信號體制而言,常見的有窄脈沖信號、線性調(diào)頻信號、步進(jìn)頻信號等,相比于其他兩種信號,步進(jìn)頻信號具有高發(fā)射功率,頻帶拓展性好、大時寬、大帶寬的特性,有效克服了窄脈沖信號平均功率較低的缺陷,廣泛應(yīng)用于超寬帶雷達(dá)領(lǐng)域[26]。關(guān)于雷達(dá)系統(tǒng)的陣列構(gòu)型,按照天線的排布可分為一維雷達(dá)、二維雷達(dá)和三維雷達(dá)[27],其中一維雷達(dá)采用單發(fā)單收的天線形式,僅具有距離分辨能力;二維MIMO雷達(dá)的天線采用一維線陣排布,可提供目標(biāo)的距離、方位二維信息;三維MIMO超寬帶雷達(dá)的天線采用二維面陣排布,可獲取目標(biāo)的距離、方位、高度三維信息,對人體的肢體輪廓進(jìn)行描繪。相比于一維和二維雷達(dá),三維雷達(dá)可提供更詳細(xì)的人體目標(biāo)信息,對判定人體目標(biāo)的行為狀態(tài)提供了良好的信息支撐。因此,本文采用二維MIMO雷達(dá)陣列發(fā)射低頻超寬帶步進(jìn)頻信號的雷達(dá)系統(tǒng)技術(shù)方案。
綜合考慮多種因素,本文設(shè)計了一款三維超寬帶MIMO雷達(dá)系統(tǒng),系統(tǒng)參數(shù)指標(biāo)如表1所示。為了獲取更好的方位和高度向分辨率,保證雷達(dá)成像質(zhì)量,系統(tǒng)采用了10發(fā)10收的大規(guī)模MIMO陣列排布形式,陣列尺寸為60 cm×88 cm。由于采用了1.78~2.78 GHz的低頻電磁波信號,雷達(dá)系統(tǒng)具有較好的穿透性,可穿透幕布、木板、塑料、泡沫、磚墻等常見遮擋物進(jìn)行目標(biāo)探測。另外,本系統(tǒng)的信號發(fā)射功率僅為20 dBm,不會對人體造成傷害。
表1 雷達(dá)系統(tǒng)參數(shù)Tab.1 Radar system parameters
本文所設(shè)計的三維超寬帶MIMO雷達(dá)系統(tǒng)樣機(jī)如圖1所示,其中雷達(dá)系統(tǒng)進(jìn)行信號的發(fā)射和接收,計算機(jī)負(fù)責(zé)數(shù)據(jù)的存儲和實時處理。二維MIMO陣列的等效圖如圖2(a)所示,左右兩側(cè)的陣列為發(fā)射天線,上下兩行的陣列為接收天線,10發(fā)10收的陣列等效為100個虛擬陣元,本陣列設(shè)計將發(fā)射天線在高度維不規(guī)則排布來降低旁瓣水平。二維MIMO陣列實物圖如圖2(b)所示,其中天線陣元結(jié)構(gòu)為寬帶蝶形陣子天線。
圖1 三維超寬帶MIMO雷達(dá)系統(tǒng)Fig.1 Three-dimensional UWB MIMO radar system
圖2 二維MIMO陣列Fig.2 Two-dimensional MIMO array
雷達(dá)回波信號的采集和處理流程如圖3所示,首先MIMO雷達(dá)發(fā)射電磁波信號,并接收人體目標(biāo)反射回波,對接收到的100個通道的雷達(dá)回波進(jìn)行動目標(biāo)顯示(Moving Target Indication,MTI)處理[28],濾除靜止雜波。然后進(jìn)行大范圍的方位-距離二維成像,成像區(qū)域為設(shè)定的系統(tǒng)探測范圍,對二維成像結(jié)果進(jìn)行恒虛警率(Constant False Alarm Rate,CFAR)檢測[29]和跟蹤處理來鎖定目標(biāo)在方位-距離二維平面的位置,最后對目標(biāo)所在位置的方位向±1 m、距離向±1 m、高度向0~2.5 m范圍進(jìn)行三維成像(假定目標(biāo)位于地平面)。最后,聯(lián)合時間維度信息構(gòu)成人體動作4D雷達(dá)數(shù)據(jù)。關(guān)于人體目標(biāo)的成像,本文采取的先大范圍二維成像再小范圍三維成像的成像思路,不僅可以避免無目標(biāo)區(qū)域三維成像造成的運算量浪費,節(jié)約成像時間,還可以保證三維成像結(jié)果有足夠的成像網(wǎng)格密度,兼顧了成像效率和成像質(zhì)量。
圖3 數(shù)據(jù)采集與處理流程Fig.3 Data collection and processing flow
本文選擇后向投影(Back Projection,BP)算法[30]作為MIMO雷達(dá)成像算法,該算法是一種典型的時域成像算法,對陣元排布沒有特殊要求,廣泛應(yīng)用于各種MIMO陣列成像領(lǐng)域。BP算法的基本思想是對成像區(qū)域進(jìn)行網(wǎng)格劃分,計算在成像區(qū)域中的像素點到天線陣列的距離從而計算出傳輸?shù)臅r間延遲,根據(jù)這個時間延遲來搜索天線陣列接收到的雷達(dá)回波信號,將每個通道的回波信號進(jìn)行疊加計算[31]。雖然B P 成像算法運算量稍大,但配合G P U強(qiáng)大的并行運算能力,BP算法成像耗時通常并不顯著高于其他成像算法。因此,本數(shù)據(jù)集的數(shù)據(jù)生成階段采用BP算法進(jìn)行雷達(dá)成像。
本數(shù)據(jù)集的采集場景有3個,分別是無遮擋場景S1,3 cm塑料板遮擋場景S2,以及27 cm磚墻遮擋場景S3,具體信息及場景照片如表2和圖4所示。本數(shù)據(jù)集中的訓(xùn)練集只是在S1場景下采集,而測試集包括了S1,S2,S3 3個場景的數(shù)據(jù),其中場景S2和S3的數(shù)據(jù)可以用來測試所設(shè)計的動作識別方法的環(huán)境適應(yīng)性。需要說明的是,本文在不同的場景都采用直接成像的方式獲取四維雷達(dá)圖像,未根據(jù)不同材料墻體遮擋對電磁波信號造成的影響進(jìn)行補(bǔ)償。
圖4 數(shù)據(jù)集采集場景Fig.4 Dataset collection scenes
本數(shù)據(jù)集所采集的10種動作類別示意圖如圖5所示,10種動作分別為開雙臂、打拳、靜坐、踢腿、坐下、站立、向前走、向左走、向右走、揮手。相比于使用運動微多普勒信息進(jìn)行動作識別的數(shù)據(jù)集僅有運動動作,本數(shù)據(jù)集包含了目標(biāo)人體各個身體部位的位置和運動雙重信息,可以對運動和靜止人體動作進(jìn)行識別。因此,本數(shù)據(jù)集中不僅有運動動作還有像靜坐、站立這樣的靜止動作,以及向左走、向右走這類易混淆動作,提供了更加豐富的動作類型。各個動作的組數(shù)如表3所示,每個動作的組數(shù)在269~278組,其中訓(xùn)練集組數(shù)都在149~158組,3個場景的測試集中每個動作為40組,共120組。共采集2757組動作,每組動作40幀三維雷達(dá)數(shù)據(jù),共110280幀數(shù)據(jù)。
表3 不同動作的數(shù)據(jù)量(組)Tab.3 The amount of data for different actions (groups)
圖5 動作類型Fig.5 Activity types
取其中一組開雙臂的雷達(dá)成像數(shù)據(jù)做方位-高度向最大值投影進(jìn)行數(shù)據(jù)預(yù)覽,結(jié)果如圖6所示,分別是第10幀、第24幀、第32幀、第40幀的參考光學(xué)圖像和雷達(dá)圖像投影。由圖6可知,本雷達(dá)系統(tǒng)的成像結(jié)果保留了人體目標(biāo)的身體輪廓和軀干運動信息,可以用于不同動作的識別。
圖6 三維雷達(dá)圖像投影Fig.6 Projection of three-dimensional images
為了保證數(shù)據(jù)集中人體目標(biāo)的多樣性,本文采集了11個不同身高體重的人體目標(biāo),具體信息如表4所示,其中身高范圍是163~186 cm,體重范圍是53~85 kg。本文對人體目標(biāo)進(jìn)行編號,分別是H1—H11,根據(jù)人體目標(biāo)的身高體重分布,選擇不同身高體重段具有代表性的H6和H8為測試目標(biāo)。另外,H1—H11只在S1場景錄制訓(xùn)練集,而H6和H8兩個人體目標(biāo)在S1,S2,S3 3個場景分別錄制測試集。
表4 人體目標(biāo)信息Tab.4 Human target information
本數(shù)據(jù)集對10個不同的動作分別標(biāo)號是A1—A10,真值標(biāo)號為0~9,具體如表5所示。數(shù)據(jù)以mat格式存儲,每個文件的命名規(guī)則為“Am_Hn_Sp_q.mat”,其中Am為動作編號,m=1,2,···,10,Hn為人體目標(biāo)編號,n=1,2,···,11,Sp為場景,p=1,2,3,q為組號。以“A2_H5_S1_9.mat”為例,該文件名即指在S1場景下H5目標(biāo)的A2動作的第9組數(shù)據(jù)。每組數(shù)據(jù)中,存儲雷達(dá)四維圖像的矩陣名稱為“radar_data_sequence”,數(shù)據(jù)的大小為40×64×64×64,其中40是三維雷達(dá)圖像的幀數(shù),64×64×64是三維雷達(dá)圖像的大小,所有三維成像結(jié)果均為歸一化后的幅度圖。同時,本數(shù)據(jù)集提供了4個標(biāo)注文件“train_label.txt”、“test_S1_label.txt”、“test_S2_label.txt”、“test_S3_label.txt”,分別對應(yīng)1個訓(xùn)練集和3個測試集的標(biāo)簽。標(biāo)簽內(nèi)容為“A2/A2_H5_S1_9.mat 3”,其中A2為動作類型文件夾名稱,“A2_H5_S1_9.mat”為四維雷達(dá)數(shù)據(jù)名稱,3為動作類型真值標(biāo)號,與數(shù)據(jù)名以空格隔開。
表5 人體動作標(biāo)號Tab.5 Human activity labels
現(xiàn)有的動作識別方法可分為傳統(tǒng)動作識別方法和基于深度學(xué)習(xí)的動作識別方法,其中傳統(tǒng)動作識別方法包括基于模板匹配的方法[32]、基于時空興趣點檢測的方法[33]、基于關(guān)節(jié)點軌跡跟蹤的方法[34]。對于基于深度學(xué)習(xí)方法的動作識別方法,根據(jù)網(wǎng)絡(luò)卷積維度的不同可以分為基于二維卷積神經(jīng)網(wǎng)絡(luò)(Two Dimensional Convolutional Neural Networks,2D CNN)的方法、基于三維卷積神經(jīng)網(wǎng)絡(luò)(Three Dimensional Convolutional Neural Networks,3D CNN)的方法。由于基于深度學(xué)習(xí)的動作識別方法在實現(xiàn)復(fù)雜度和識別精度方面均有優(yōu)異的表現(xiàn),逐漸取代了傳統(tǒng)動作識別算法,因此,本節(jié)只介紹基于深度學(xué)習(xí)的幾種經(jīng)典動作識別方法。
基于2D CNN的動作識別方法研究主要有基于雙流網(wǎng)絡(luò)和基于時間特征提取模塊的兩個研究分支。Simonyan等人[35]最早提出了基于2D CNN的雙流網(wǎng)絡(luò),該網(wǎng)絡(luò)包含了兩個相互獨立的流,分別是空間流網(wǎng)絡(luò)和時間流網(wǎng)絡(luò),其中空間流用于構(gòu)建外觀特征,時間流用來構(gòu)建運動特征,最后將兩個網(wǎng)絡(luò)流的softmax結(jié)果融合,得到預(yù)測的動作類型。該網(wǎng)絡(luò)存在的缺點是僅考慮了相鄰幀之間的運動特征,對于長時間運動特征的提取具有一定的局限性。為了解決這個問題,Wang等人[36]在雙流網(wǎng)絡(luò)的基礎(chǔ)上提出了一種時域分段網(wǎng)絡(luò)(Time Segment Network,TSN),該網(wǎng)絡(luò)引入了稀疏采樣的方法,將輸入網(wǎng)絡(luò)的視頻分割成若干個視頻片段,再進(jìn)行時空特征提取,最后對各個片段的特征提取結(jié)果進(jìn)行融合,得到預(yù)測結(jié)果。該方法具有全局時空特征的提取能力,有效解決了原始雙流網(wǎng)絡(luò)存在的長時間運動特征提取能力差的問題。但是,TSN的稀疏采樣無法保證有效動作信息的提取。Lin等人[37]提出了一種時間移位模塊(Temporal Shift Module,TSM)用來捕獲時間域上的有效特征。該算法的核心思想是將部分信道沿時間維進(jìn)行移位,便于相鄰幀之間的信息交換,擴(kuò)大了時間感受野。其優(yōu)點是在完成有效時間信息建模的同時,幾乎沒有帶來額外的計算量,并取得了較好的動作識別精度。
基于光學(xué)傳感器的視頻序列中的人體動作是方位-高度-時間的三維數(shù)據(jù),使用3D CNN可以直接獲取人體動作在這3個維度上的特征。Ji等人[38]最早提出采用3D CNN視頻時空特征提取架構(gòu),該架構(gòu)從相鄰幀數(shù)據(jù)中提取多通道的信息,分別進(jìn)行卷積處理,最后綜合各個通道的特征預(yù)測動作類型。Tran等人[39]在3D CNN的基礎(chǔ)上提出了C3D (Convolutional 3D)框架,該框架最終獲得了比2D CNN更加高效的特征提取。基于前期研究,Tran等人[40]將C3D架構(gòu)與Resnet網(wǎng)絡(luò)相結(jié)合,提出了新的Res3D網(wǎng)絡(luò),進(jìn)一步提高了動作識別精度。為了提高動作識別網(wǎng)絡(luò)對于時空特征變化的適應(yīng)性,F(xiàn)eichtenhofer等人[41]提出了快慢網(wǎng)絡(luò)(SlowFast Networks,SFN),該網(wǎng)絡(luò)包含慢幀率和快幀率兩條通道,其中慢幀率通道用來提取動作的空間語義信息,快幀率通道用來提取精細(xì)的動作特征,該網(wǎng)絡(luò)對變化快的動作的識別具有較大的優(yōu)勢。
本文選取計算機(jī)視覺領(lǐng)域的幾種代表性動作識別方法在UWB-HA4D-1.0數(shù)據(jù)集上進(jìn)行實驗驗證,主要有基于2D CNN的TSN,TSM,以及基于3D CNN的Res3D,SFN這幾種算法。由于四維雷達(dá)圖像在網(wǎng)絡(luò)處理的過程中需要消耗大量的運算單元,所以本文采取將人體目標(biāo)的三維成像結(jié)果做方位-距離、方位-高度、距離-高度3個二維平面上的最大值投影,來實現(xiàn)減少數(shù)據(jù)量的目的,即將大小為64×64×64的數(shù)據(jù)轉(zhuǎn)化為大小為3×64×64的數(shù)據(jù),以下實驗均基于投影后的數(shù)據(jù)進(jìn)行處理。
本文設(shè)計的基于TSN網(wǎng)絡(luò)結(jié)構(gòu)的雷達(dá)圖像人體動作識別網(wǎng)絡(luò)如圖7所示,首先將時間為T的一段四維雷達(dá)數(shù)據(jù)分割成N段,S1,S2,...,SN,分別從N段數(shù)據(jù)中取出一幀三維成像結(jié)果,進(jìn)行3個平面的最大值投影,并提取光流信息;然后分別使用二維空間卷積提取每一幀雷達(dá)圖像中的空間特征,使用二維時間卷積提取光流圖中的時間特征,最后再將時間和空間特征融合,得到最后的動作識別結(jié)果。
圖7 TSN結(jié)構(gòu)圖Fig.7 TSN structure
基于TSM結(jié)構(gòu)的雷達(dá)圖像人體動作識別網(wǎng)絡(luò)的預(yù)處理與TSN網(wǎng)絡(luò)一致,首先將四維雷達(dá)數(shù)據(jù)分割成N段,然后分別從每段中取出一幀數(shù)據(jù),共N幀數(shù)據(jù)。然后按照圖8的時間移動方法對N幀數(shù)據(jù)進(jìn)行處理,將數(shù)據(jù)分別沿著時間維進(jìn)行前移和后移,最后使用2D CNN同時提取時間和空間信息,得到動作識別結(jié)果。
圖8 TSM網(wǎng)絡(luò)核心結(jié)構(gòu)Fig.8 The core structure of TSM network
基于Res3D網(wǎng)絡(luò)的雷達(dá)圖像人體動作識別網(wǎng)絡(luò)的處理思路是直接使用3D CNN同時提取連續(xù)幀雷達(dá)圖像中人體動作的時間和空間特征,網(wǎng)絡(luò)結(jié)構(gòu)圖如圖9所示,通過Resnet網(wǎng)絡(luò)提取特征,最后使用全卷積層實現(xiàn)動作識別。
圖9 Res3D網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.9 Res3D network structure
基于STN網(wǎng)絡(luò)結(jié)構(gòu)的雷達(dá)圖像人體動作識別方法的實現(xiàn)框圖如圖10所示,由圖10可知,慢幀率通道相比于快幀率通道的數(shù)據(jù)采樣間隔較大,數(shù)據(jù)量較少,兩個通道分別使用3D CNN提取特征。另外,快速通道的特征通過側(cè)向連接與慢速通道相連,實現(xiàn)特征的融合,最后將兩個通道的結(jié)果融合得到最終的動作預(yù)測結(jié)果。
圖10 SFN結(jié)構(gòu)圖Fig.10 SFN structure
本節(jié)使用在S1場景下采集的9人的10個動作作為訓(xùn)練集對4.1節(jié)設(shè)計的TSN,TSM,Res3D,STN 4個網(wǎng)絡(luò)進(jìn)行訓(xùn)練,將其他2人在S1,S2,S3 3個場景下采集的數(shù)據(jù)作為測試集。在訓(xùn)練的過程中,使用Momentum作為優(yōu)化算法,設(shè)置訓(xùn)練循環(huán)周期數(shù)為100,網(wǎng)絡(luò)的初始學(xué)習(xí)率為0.01,并分別在第25和第60個周期以十分之一遞減,batch size設(shè)置為8,num_workers設(shè)置為4。幾種算法的特征提取網(wǎng)絡(luò)是Resnet網(wǎng)絡(luò),網(wǎng)絡(luò)實現(xiàn)是使用百度公司開發(fā)的飛槳平臺PaddlePaddle框架。網(wǎng)絡(luò)的訓(xùn)練和測試環(huán)境為Ubuntu 20系統(tǒng),顯卡為NVIDIA RXT2070,計算機(jī)運行內(nèi)存為64GB。
對4種網(wǎng)絡(luò)分別進(jìn)行訓(xùn)練,并對3個不同場景的數(shù)據(jù)進(jìn)行測試,得到結(jié)果如表6所示。由表可知,Res3D網(wǎng)絡(luò)在S1測試集上取得了最佳識別精度,達(dá)到了92.25%,優(yōu)于其他幾種方法。對比S1,S2,S3 3個測試場景的動作識別精度可知,S2場景的識別精度與S1場景較為接近。而S3場景由于較厚墻體的遮擋,電磁波能量衰減較大,成像質(zhì)量與無遮擋的S1場景相比下降較多,所以動作識別精度也大幅度降低。同時也可知,基于Res3D的方法在非同一探測場景下比其他網(wǎng)絡(luò)取得了更好的識別精度,具有更好的環(huán)境適應(yīng)性,而TSN方法的環(huán)境適應(yīng)性最差。
表6 實驗結(jié)果對比表Tab.6 Experimental results comparison table
本節(jié)以TSM網(wǎng)絡(luò)為例展開分析,由4.1節(jié)可知,基于2D CNN方法的TSN和TSM網(wǎng)絡(luò)需要對數(shù)據(jù)進(jìn)行分段處理,然后從每段數(shù)據(jù)中取出一幀輸入網(wǎng)絡(luò),本文對網(wǎng)絡(luò)分段數(shù)與最終動作識別的精度之間的關(guān)系進(jìn)行探究。以TSM網(wǎng)絡(luò)為例,網(wǎng)絡(luò)的輸入數(shù)據(jù)的長度為40幀,為了減少非等間距采樣對結(jié)果的影響,本文將輸入數(shù)據(jù)分為可以被40整除的段數(shù),即為4段、5段、8段、10段,以及20段。分別使用幾種分段數(shù)對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并使用S1數(shù)據(jù)進(jìn)行驗證,得到100個訓(xùn)練周期對應(yīng)的測試結(jié)果,具體如圖11所示,其中圖11(a)為不同分割段數(shù)的TSM網(wǎng)絡(luò)測試在不同訓(xùn)練周期得到的動作識別測試精度,圖11(b)是不同分割段數(shù)的最佳測試精度。由圖11可知,隨著分段數(shù)目的增多,網(wǎng)絡(luò)的數(shù)據(jù)量增大,獲取到更多的目標(biāo)運動信息,所以得到了較好的動作識別精度。
圖11 TSM網(wǎng)絡(luò)測試結(jié)果Fig.11 TSM network test results
為了直觀了解不同動作的識別率,本節(jié)對網(wǎng)絡(luò)在不同場景的測試結(jié)果進(jìn)行對比分析,以基于3D CNN的Res3D網(wǎng)絡(luò)為例,得到3個不同場景下的測試結(jié)果如表7所示。由表可知,S1和S2場景中的動作識別率較高,而S3場景由于電磁波能量減弱,對揮手、踢腿等輕微動作的識別率較低。同時,該網(wǎng)絡(luò)對坐下和靜坐兩個動作的識別率都較高。
表7 Res3D網(wǎng)絡(luò)在不同場景下的動作識別精度(%)Tab.7 Human activity recognition accuracy of Res3D networks in different scenes (%)
本節(jié)借鑒計算機(jī)視覺領(lǐng)域的動作識別算法實現(xiàn)了4種基于雷達(dá)四維成像數(shù)據(jù)集的動作識別網(wǎng)絡(luò),分別是TSN,TSM,Res3D和SFN,并對4種網(wǎng)絡(luò)的算法框架進(jìn)行了介紹。為了便于網(wǎng)絡(luò)處理,本文對四維數(shù)據(jù)進(jìn)行了3個方向的最大值投影,然后分別使用S1場景下9人的數(shù)據(jù)進(jìn)行訓(xùn)練,使用其他2人在3個場景下的數(shù)據(jù)分別進(jìn)行測試。對測試結(jié)果進(jìn)行分析可知,Res3D網(wǎng)絡(luò)在同一場景表現(xiàn)良好,測試識別精度達(dá)到了92.25%,同時Res3D網(wǎng)絡(luò)對非訓(xùn)練場景的動作識別精度最高,網(wǎng)絡(luò)的魯棒性更強(qiáng)。與其他幾種方法相比,Res3D網(wǎng)絡(luò)沒有對數(shù)據(jù)進(jìn)行離散采樣,保留了所有幀的雷達(dá)數(shù)據(jù),所以取得了較高的動作識別精度,但也消耗了較多的運算量。
需要說明的是,本文實驗中所采取的投影方式實現(xiàn)了數(shù)據(jù)的壓縮,同時也造成了數(shù)據(jù)的損失,該方法并非最優(yōu),僅供數(shù)據(jù)庫使用者參考,實際應(yīng)用中也可以采取其他數(shù)據(jù)降維策略。另外,本文所使用的動作識別網(wǎng)絡(luò)未根據(jù)雷達(dá)圖像屬性進(jìn)行相應(yīng)修改,識別率仍有較大的提升空間。因此,本文建議該數(shù)據(jù)集的未來研究可以從以下兩個方面入手。
(1) 數(shù)據(jù)降維預(yù)處理。四維雷達(dá)圖像區(qū)別于三維光學(xué)視頻數(shù)據(jù),多了一維距離信息,現(xiàn)有網(wǎng)絡(luò)無法直接處理,因此如何設(shè)計方法對四維數(shù)據(jù)進(jìn)行降維,且最大限度保留人體運動信息具有一定的研究價值。
(2) 網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計。雷達(dá)系統(tǒng)與光學(xué)系統(tǒng)的成像機(jī)理存在差異,人體位置和運動特征分布略有不同。因此,可結(jié)合雷達(dá)系統(tǒng)提取雷達(dá)圖像特有屬性,如多普勒特征,合理設(shè)計網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù),進(jìn)一步提高動作識別精度。
針對基于雷達(dá)傳感器的人體行為感知領(lǐng)域公開數(shù)據(jù)集缺乏的問題,本文公開了一種基于超寬帶雷達(dá)四維成像的人體動作數(shù)據(jù)集,稱為UWB-HA4D-1.0。該數(shù)據(jù)集以具有距離-方位-高度三維空間分辨能力的超寬帶MIMO雷達(dá)為數(shù)據(jù)采集系統(tǒng),通過MIMO雷達(dá)成像方法獲取人體目標(biāo)的三維成像結(jié)果,聯(lián)合時間信息構(gòu)成包含人體動作信息的四維成像。數(shù)據(jù)集有11個身高體重不同的人體目標(biāo)、10種常見的動作類型、3種不同的測試場景,共計2757組人體動作數(shù)據(jù),其中訓(xùn)練集1557組,3個測試集共1200組數(shù)據(jù)。本文對數(shù)據(jù)集的采集和制作、人體目標(biāo)和動作信息,以及系統(tǒng)標(biāo)注做了詳細(xì)介紹。同時,分析了當(dāng)前幾種主流的動作識別方法。并使用了部分動作識別網(wǎng)絡(luò)在本數(shù)據(jù)集上進(jìn)行了實驗測試,對實驗結(jié)果進(jìn)行分析和討論,旨在為數(shù)據(jù)集使用者提供網(wǎng)絡(luò)設(shè)計和動作識別精度參考。
本數(shù)據(jù)集是首個基于雷達(dá)四維成像的人體動作數(shù)據(jù)集,填補(bǔ)了此領(lǐng)域的空白。然而,本數(shù)據(jù)集仍存在一些問題待解決,比如系統(tǒng)成像幀率偏低、人體目標(biāo)位置相對單一、動作類型豐富性不夠、未對動作的起始幀和結(jié)束幀進(jìn)行標(biāo)注等問題。針對現(xiàn)存問題,下一步的任務(wù)有以下幾項。
(1) 優(yōu)化系統(tǒng)參數(shù),提高信號幀率。較高的信號幀率可以更好地捕捉人體目標(biāo)的動作信息,可基于高幀率雷達(dá)信號提取人體目標(biāo)的微多普勒信息,與雷達(dá)四維成像結(jié)合進(jìn)一步提高動作識別精度。
(2) 增加多位置、多人數(shù)據(jù),豐富人體動作類型。三維超寬帶雷達(dá)具有三維空間分辨能力,增加多人場景下的數(shù)據(jù),可進(jìn)行多人動作同時識別的方法研究,具有較大的實用意義。
(3) 對人體動作信息做更加詳細(xì)的標(biāo)注。對人體運動的起始幀和結(jié)束幀進(jìn)行詳細(xì)標(biāo)注有助于人體目標(biāo)動作進(jìn)行定位和識別的多任務(wù)研究,加速推動雷達(dá)動作識別系統(tǒng)的實用化進(jìn)程。
(4) 多傳感器融合。單一傳感器存在探測局限,未來可結(jié)合光學(xué)傳感器、分布式雷達(dá)傳感器等多源傳感器實現(xiàn)對人體目標(biāo)的全方位、多角度探測,提高人體行為感知能力。
附錄
超寬帶雷達(dá)人體動作四維成像數(shù)據(jù)集-1.0 (UWBHA4D-1.0)依托《雷達(dá)學(xué)報》官方網(wǎng)站發(fā)布,數(shù)據(jù)于每次更新后上傳至學(xué)報網(wǎng)站“超寬帶雷達(dá)人體動作四維成像數(shù)據(jù)集-1.0”頁面(附圖1),網(wǎng)址為:https://radars.ac.cn/web/data/getData?dataType=UWBHA4D。由于網(wǎng)站存儲空間限制,本次只上傳了部分?jǐn)?shù)據(jù),完整數(shù)據(jù)的獲取可以聯(lián)系編輯部或作者。
附圖1 超寬帶雷達(dá)人體動作四維成像數(shù)據(jù)集1.0發(fā)布網(wǎng)頁App.Fig.1 Release webpage of ultra-wideband radar human activity 4D imaging dataset