張春杰, 王冠博, 陳 奇, 鄧志安
(1. 哈爾濱工程大學(xué)信息與通信工程學(xué)院, 黑龍江 哈爾濱 150001;2. 先進(jìn)船舶通信與信息技術(shù)工業(yè)和信息化部重點實驗室, 黑龍江 哈爾濱 150001)
60~64 GHz毫米波雷達(dá)相比傳統(tǒng)長波段雷達(dá)對細(xì)微動作的獲取能力更好。雷達(dá)工作環(huán)境受環(huán)境光影響小,不會暴露個人影像信息,與傳統(tǒng)的數(shù)據(jù)手套、攝像頭相比具有豐富的優(yōu)勢。近年來,基于毫米波雷達(dá)的非接觸式人體動作識別在遠(yuǎn)程控制、智慧家居、健康檢測等領(lǐng)域都得到了重點關(guān)注。其中,基于毫米波雷達(dá)的手勢識別系統(tǒng)在智能互聯(lián)設(shè)備操控,殘疾人及行動不便者輔助信息傳達(dá)等領(lǐng)域擁有十分開闊的應(yīng)用前景。
目前,有關(guān)毫米波雷達(dá)對人體姿態(tài),手勢動作識別的算法研究大多是先積累目標(biāo)回波數(shù)據(jù),獲取目標(biāo)動作每一幀的二維快速傅里葉變換(two-dimensional fast Fourier transform, 2D-FFT)矩陣和基于多重信號分類(multiple signal classification, MUSIC)算法獲得的角度信息,將這兩組數(shù)據(jù)處理為圖像,通過兩組并行的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)學(xué)習(xí)其中隱含的特征信息并將這兩組特征進(jìn)行特征融合,再把這些圖像數(shù)據(jù)通過長短時記憶(long short-term memory, LSTM)網(wǎng)絡(luò)來獲得時序特征,最后通過一個全連接層進(jìn)行分類。文獻(xiàn)[1]提出基于CNN的雷達(dá)手勢識別方法,通過對目標(biāo)手勢回波數(shù)據(jù)在慢時間維和快時間維兩個維度做兩次快速傅里葉變換(fast Fourier transform, FFT),獲得目標(biāo)手勢的距離-多普勒圖,設(shè)計數(shù)據(jù)集并將數(shù)據(jù)集輸入CNN進(jìn)行訓(xùn)練,對數(shù)據(jù)集中數(shù)據(jù)進(jìn)行分類。文獻(xiàn)[2]提出基于雙流融合網(wǎng)絡(luò)的毫米波雷達(dá)手勢識別方法,除了獲得目標(biāo)手勢的距離-多普勒圖外,再通過MUSIC算法估計目標(biāo)手勢的角度信息,分別通過兩組CNN進(jìn)行特征提取,再進(jìn)行特征融合,將融合后的特征通過LSTM學(xué)習(xí)時序特性,最后通過全連接層輸出分類結(jié)果。此種方法,增加了角度維特征作為輸入,提高了分類結(jié)果的準(zhǔn)確度,但雙圖譜的并行輸入和MUSIC算法增加了網(wǎng)絡(luò)模型和預(yù)處理算法的復(fù)雜度。文獻(xiàn)[3]提出基于多通道調(diào)頻連續(xù)波(frequency modulated continuous wave, FMCW)的雷達(dá)手勢識別方法,通過對目標(biāo)手勢的雷達(dá)回波數(shù)據(jù)在慢時間、快時間、天線通道3個維度做3次FFT,得到距離-時間、速度-時間、角度-時間3組譜圖,并將3組譜圖按幀編號進(jìn)行拼接,構(gòu)建數(shù)據(jù)集并輸入CNN進(jìn)行訓(xùn)練、分類。此種方法的輸入數(shù)據(jù)維度過大,并沒有直接關(guān)聯(lián)不同幀之間的時序信息,造成網(wǎng)絡(luò)訓(xùn)練的收斂速度較慢。文獻(xiàn)[4]提出了基于串聯(lián)式一維神經(jīng)網(wǎng)絡(luò)的毫米波雷達(dá)手勢識別方法,將采集到的目標(biāo)手勢回波不經(jīng)任何預(yù)處理,直接傳入CNN中獲得特征,將這些學(xué)得的特征通過一維Inception v3結(jié)構(gòu),再將輸出通過LSTM提取時序特征,從而對手勢進(jìn)行分類識別。此種方法嘗試了用純深度學(xué)習(xí)的思想解決雷達(dá)問題,但只依賴CNN來提取特征會造成整體網(wǎng)絡(luò)訓(xùn)練難度增大,且對數(shù)據(jù)量也有較大的需求。文獻(xiàn)[5]提出基于雙視角時序特征融合的毫米波雷達(dá)手勢識別方法,通過兩個毫米波雷達(dá)獲取目標(biāo)手勢信息,將兩個視角的距離-多普勒圖,角度隨時間變化圖分別通過嵌入注意力機制的時序特征融合神經(jīng)網(wǎng)絡(luò),獲得最后手勢目標(biāo)的分類結(jié)果。此種方法通過增加傳感器的方法,進(jìn)一步提升了分類準(zhǔn)確率。然而,上述基于LSTM+CNN組合網(wǎng)絡(luò)的毫米波雷達(dá)手勢識別方法都存在模型復(fù)雜問題、收斂速度較慢。在數(shù)據(jù)集構(gòu)建部分,數(shù)據(jù)集中不同種類的手勢之間特征差異比較明顯,對同類手勢的統(tǒng)一性要求過高,測量環(huán)境較理想化,而這些與實際應(yīng)用是不相符的。
人機交互領(lǐng)域中,使用毫米波雷達(dá)作為傳感器實現(xiàn)非接觸式的命令傳達(dá)或信息交互是十分重要的研究方向之一,此研究方向需要注意保證手勢識別的準(zhǔn)確性和及時性。對此,本文提出一種基于純自注意力機制的毫米波雷達(dá)手勢識別方法,擁有以下創(chuàng)新點:① 采用特定種類特征(固定數(shù)量種類)提取,代替CNN提取目標(biāo)雷達(dá)回波數(shù)據(jù)的特征,對每一幀雷達(dá)回波數(shù)據(jù)的三維(three-dimensional, 3D)-FFT數(shù)據(jù)矩陣進(jìn)行特征提取,通過峰值尋找來獲得目標(biāo)手勢回波的固定定義特征,相比于利用CNN提取特征,既不需要訓(xùn)練時間,計算復(fù)雜度也大幅下降,且不需要將特征拆分再并行輸入,可實現(xiàn)單網(wǎng)絡(luò)分類。② 采用基于純注意力機制的雷達(dá)特征變換(radovr feature transformer, RFT)網(wǎng)絡(luò)來代替LSTM+CNN組合網(wǎng)絡(luò),RFT網(wǎng)絡(luò)可以通過更改位置編碼方式來改變時序關(guān)聯(lián)的順序,增加了時序的靈活性,并且相比LSTM+CNN的組合網(wǎng)絡(luò),模型的算法復(fù)雜度低,在有限的硬件資源下更加利于硬件移植。
毫米波雷達(dá)產(chǎn)生的線性FMCW(linear FMCW, LFMCW)信號為
(1)
式中:T為信號時寬;B為信號帶寬。雷達(dá)回波為經(jīng)過延時的線性調(diào)頻信號為
(2)
式中:td為信號傳輸時延。回波信號與發(fā)射信號混頻后:
(3)
(4)
式中:R為目標(biāo)相距雷達(dá)的距離。首先對混頻后的每一幀中頻信號進(jìn)行模擬數(shù)字轉(zhuǎn)換(analog-to-digital converter, ADC)采樣,按采樣點、線性調(diào)頻、接收通道3個維度進(jìn)行數(shù)據(jù)重組,組成一個三維矩陣。對這個三維矩陣分別在3個維度上依次做FFT,即3D-FFT。分別獲得目標(biāo)的距離R,速度v,角度信息θ,如下所示:
(5)
(6)
(7)
式中:fIF為混頻后的中頻頻率;λ為毫米波雷達(dá)信號的波長;Δφ為兩個連續(xù)線性調(diào)頻之間的相位差;TC為兩個線性調(diào)頻之間的時間間隔;ω為兩個RX對應(yīng)的2D-FFT矩陣峰值處的相位差;d為接收天線之間的間距。
通過3D-FFT算法處理后,得到的是一個與輸入維度相同的三維矩陣,根據(jù)這個三維矩陣即可得到對應(yīng)的距離、速度、角度信息。
因為在本文采集手勢回波數(shù)據(jù)過程中,環(huán)境噪聲是不定的,并且存在多個較強的靜目標(biāo)雜波存在,因此通過動目標(biāo)顯示(moving target indication, MTI)+恒虛警率(constant false alarm rate, CFAR)的方法來對環(huán)境雜波進(jìn)行抑制。具體為對1D-FFT的結(jié)果做MTI,對2D-FFT的結(jié)果(已做完MTI)做CFAR。其中,MTI的作用是濾除靜目標(biāo)的影響[6],在手勢回波采集時,人體和周圍的大雷達(dá)反射截面積的靜物是主要的環(huán)境噪聲因素,MTI算法的主要思想是利用雜波與動目標(biāo)的多普勒頻率的差異使得濾波器的頻率響應(yīng)在直流和脈沖重復(fù)頻率的整數(shù)倍處具有較深的阻帶,而在其他頻點的抑制較弱,從而通過較深的凹口抑制靜目標(biāo)和靜物雜波。本文具體采用的是兩脈沖對消器,其中兩脈沖對消器的時域表達(dá)式和傳遞函數(shù)如下所示:
y(n)=x(n)-x(n-1)
(8)
H(z)=1-z-1
(9)
式中,CFAR的作用是對環(huán)境整體噪聲進(jìn)行估計并濾除[7],其工作原理為首先將輸入的噪聲進(jìn)行相關(guān)處理,得出一個門限,將此門限與輸入的待檢測信號相比,如輸入的待檢測信號超過了這個根據(jù)輸入噪聲所得出的門限,則認(rèn)為有目標(biāo),反之,則認(rèn)為無目標(biāo);本文具體采用的具體CFAR種類是單元平均CFAR(cell-averaging-CFAR, CA-CFAR),CA-CFAR的檢測原理圖如圖1所示。
目前,深度學(xué)習(xí)的應(yīng)用領(lǐng)域主要是自然語言處理(natural language processing, NLP)[8-11]與計算機視覺(computer vision, CV)[12-15],并且深度學(xué)習(xí)領(lǐng)域中大部分網(wǎng)絡(luò)都是服務(wù)這兩個方向[16-19]。在基于毫米波雷達(dá)手勢識別方法研究中,因為3D-FFT矩陣在格式上與圖片數(shù)據(jù)類似,所以絕大部分方法都套用CNN在圖像數(shù)據(jù)處理方面的方法,即把2D-FFT矩陣轉(zhuǎn)為能量分布圖再存為圖像格式,用CNN學(xué)習(xí)這些距離-多普勒圖中的隱含特征。而且因為3D-FFT矩陣的能量分布圖并不能直觀表現(xiàn)出角度信息,所以還需要一組角度-時間圖來表征角度維信息,這樣就造成了必須使用兩組并行的CNN來分別提取信息。然而,雷達(dá)數(shù)據(jù)與圖像數(shù)據(jù)相比,雷達(dá)數(shù)據(jù)中所需獲得的部分重要特征是已知的,通過這些固定種類的特征即可完成分類,而不需要通過深度學(xué)習(xí)的方法再抽取特征。在獲得3D-FFT矩陣后,通過峰值搜索即可獲得目標(biāo)的重要特征信息,這與在獲得3D-FFT矩陣后,處理為兩組圖像數(shù)據(jù)并通過CNN抽取特征的方法相比,可以大幅降低算法復(fù)雜度,并省去此部分特征提取模型的訓(xùn)練時間。本文特征提取方式與其他文獻(xiàn)提取特征方法差異如表1所示。
表1 不同文獻(xiàn)特征提取差異Table 1 Differences in feature extraction of different documents
續(xù)表1Continued Table 1
其中,單層CNN復(fù)雜度部分為每秒浮點運算次數(shù)(floating point operations per second,FLOPs),M為每個卷積核輸出特征圖的邊長,K為每個卷積核的邊長,Cin為每個卷積核的通道數(shù)(輸入通道數(shù),即上一層的輸出通道數(shù)),Cout為本卷積層具有的卷積核個數(shù)(輸出通道數(shù))。本文選取目標(biāo)距離、速度、水平角度、豎直角度、水平角度隨速度的變化、豎直角度隨速度的變化這6種特征來表征某一類目標(biāo)手勢回波,具體如圖2所示。
圖2 某一類手勢特征數(shù)據(jù)Fig.2 A kind of gesture feature data
對于某一類手勢特征數(shù)據(jù),每一列分別表示表征某一類手勢回波的6種特征,其順序如上述特征說明順序一致,每一行表示6種特征中對應(yīng)一種特征在16幀信號中的具體值。6種特征對應(yīng)的單位如表2所示。
表2 手勢特征及對應(yīng)單位Table 2 Gesture feature and corresponding unit
注意力機制目前已廣泛應(yīng)用于NLP[20-22]和CV[23-25]領(lǐng)域,本文方法使用的是基于縮放點積的多頭注意力機制,具體結(jié)構(gòu)如圖3所示。
圖3 基于縮放點積注意力機制的多頭注意力機制結(jié)構(gòu)Fig.3 Multi-head attention mechanism structure based on scaled dot-product attention mechanism
帶縮放點積的注意力函數(shù)公式如下所示:
(10)
MultiHead(Q,K,V)=Concat(head1,head2,…,headH)WO
(11)
headi=Attention(QWQi,KWKi,VWVi)
(12)
式中:WO為不同頭輸出做拼接后對應(yīng)的線性層的可學(xué)習(xí)的權(quán)重矩陣;WQ,WK,WV為Q、K、V對應(yīng)的線性層的可學(xué)習(xí)權(quán)重矩陣。
基于純自注意力機制的手勢識別網(wǎng)絡(luò)模型主要根據(jù)模型Transformer[26]改進(jìn)而來,Transformer網(wǎng)絡(luò)自提出以來,在NLP領(lǐng)域獲得了極好的效果[27],隨著Vit[28]、Swin Transformer[29]此類針對圖像優(yōu)化網(wǎng)絡(luò)的出現(xiàn),注意力機制在圖像領(lǐng)域也獲得了極大的成功[30-31]。并且,自注意力層相比于卷積層和循環(huán)層有著復(fù)雜度低,順序的計算(下一步計算需等待前多少步計算完成)少,信息從一個數(shù)據(jù)點走到另一個數(shù)據(jù)點的步長短。具體如表3所示。
表3 不同類型層比較Table 3 Comparison of different types of layers
其中,n為序列長度,d為向量長度,k為卷積核大小。因此,本文基于Transformer原模型,針對毫米波雷達(dá)手勢識別任務(wù)做了特定的優(yōu)化,網(wǎng)絡(luò)整體架構(gòu)如圖4所示。
圖4 RFT網(wǎng)絡(luò)整體架構(gòu)Fig.4 RFT network overall architecture
RFT模型首先對特征數(shù)據(jù)(維度為6×16)按幀編號進(jìn)行拆分,獲得每一幀的特征數(shù)據(jù)(維度為6×1,共16組),對這16組特征數(shù)據(jù)添加一個分類向量用于最后的分類(組成17組6×1特征向量),再給這17組特征向量添加位置編碼(本文使用的是可學(xué)習(xí)的位置編碼),以關(guān)聯(lián)不同幀之間的時序信息,再將組合后的這17組向量輸入Transformer網(wǎng)絡(luò)的Encoder部分。Transformer的Encoder部分對經(jīng)過預(yù)處理的特征數(shù)據(jù)(原始數(shù)據(jù)經(jīng)過分割,添加分類向量,添加位置編碼)做層歸一化,再經(jīng)過多頭自注意力機制,再做LayerNorm和多層感知機。以上定義為一個Block,將這個Block堆疊L次,每個Block之間采用殘差連接,最后抽取分類向量,通過一個Dense層進(jìn)行分類。
本節(jié)使用TI公司生產(chǎn)的IWR6843ISK-ODS毫米波雷達(dá)開發(fā)板與DCA1000數(shù)據(jù)采集卡,將數(shù)據(jù)采集卡輸出的bin文件(雷達(dá)回波數(shù)據(jù))傳輸?shù)絇C端進(jìn)行保存與處理,PC端重要硬件配置包括GTX1650顯卡和4GDDR3內(nèi)存,其中IWR6843ISK-ODS的收發(fā)天線如圖5所示。通過編號RX1和RX2做豎直方向上的角度估計,用RX1和RX4做水平方向的角度估計。本文使用的天線模式為一發(fā)四收模式。
圖5 IWR6843ISK-ODS天線圖Fig.5 Antenna diagram of IWR6843ISK-ODS
本文實驗的數(shù)據(jù)采集環(huán)境如圖6所示。
圖6 實驗數(shù)據(jù)采集環(huán)境Fig.6 Experimental data collection environment
手掌與天線距離為30 cm(±8 cm)。另外,考慮到手勢識別系統(tǒng)的真實應(yīng)用場景,本文實驗中添加了一個靜坐不動的人,后部存在一個正常坐姿的人,以及不定時在后方行走及周圍出現(xiàn)的人作為復(fù)雜環(huán)境的模擬情況。在此情況下對手勢數(shù)據(jù)進(jìn)行采集。毫米波雷達(dá)開發(fā)板參數(shù)設(shè)置方面具體參數(shù)如表4所示。
表4 雷達(dá)參數(shù)配置Table 4 Radar parameter configuration
在數(shù)據(jù)集構(gòu)建方面,首先通過3D-FFT算法、MTI和CA-CFAR算法,獲得手勢回波的特征數(shù)據(jù),具體表征為距離、速度、水平角度、豎直角度、水平角度隨速度的變化,豎直角度隨速度的變化這6類特征數(shù)據(jù)。將這6類特征數(shù)據(jù)按行放置,以幀序號按列拼接,獲得某一類手勢的特征-時間數(shù)據(jù)(幀序號即表征了時序信息),具體如圖2所示。本文實驗一共采集了13組不同的手勢,分別推拉、逆時針旋轉(zhuǎn)、反z滑動、順時針旋轉(zhuǎn)、下滑、左滑、右滑、斜向左下滑、斜向左上滑、斜向右下滑、斜向右上滑、上滑、正z滑動,每類手勢數(shù)據(jù)采集80組作為訓(xùn)練集,80組作為測試集。具體如圖7所示。
圖7 手勢類別圖Fig.7 Gesture category diagram
在進(jìn)行同一種手勢采集時,要求所采集的手勢盡可能不統(tǒng)一,如圖8所示。
圖8 同類手勢測量規(guī)則(上滑)Fig.8 Same gesture measurement rules(up-slip)
而在進(jìn)行不同種手勢采集時,若可能與其他種類存在混淆情況(不同類手勢數(shù)據(jù)存在特征類似的情況),盡可能增加混淆度,如圖9所示。
圖9 不同類手勢測量規(guī)則(下滑,左滑,逆時針)Fig.9 Different gesture measurement rules(down/left-slip,anticlockwise)
本文采用基于純注意力機制的網(wǎng)絡(luò)模型RFT作為分類模型。其中,模型的輸入維度為6×16,輸入文件格式為xls;網(wǎng)絡(luò)采用6層堆疊Transformer Encoder;訓(xùn)練批次大小設(shè)置為2,學(xué)習(xí)率設(shè)置為動態(tài)學(xué)習(xí)律,初始學(xué)習(xí)律為0.001,最大學(xué)習(xí)率為0.01;損失函數(shù)為分類交叉熵和利用L2范數(shù)計算張量誤差值(優(yōu)化目標(biāo)函數(shù)正則項,避免因參數(shù)過多導(dǎo)致的過擬合)這兩種的混合誤差(相加),衰減權(quán)重為0.000 1;優(yōu)化器采用SGD,共訓(xùn)練100個epoch。對訓(xùn)練數(shù)據(jù)集進(jìn)行打亂操作。RFT模型的重要參數(shù)如表5所示。
表5 RFT模型重要參數(shù)(以batch_size=1為例)Table 5 Important parameters of RFT model (taking batch_size=1 as an example)
其中,添加分類向量用于最后的分類而不是根據(jù)最后一個向量的輸出進(jìn)行分類的方法借鑒了Transformer網(wǎng)絡(luò)中的操作;使用可學(xué)習(xí)的一維位置編碼,而不是采用絕對位置編碼,是借鑒了文獻(xiàn)[32]模型的操作。
為了測試不同Block數(shù)(即Transformer Encoder的深度)對分類效果的影響,本文做了不同Block數(shù)的網(wǎng)絡(luò)性能對比實驗,其中訓(xùn)練部分如圖10和圖11所示。
圖10 不同Block數(shù)的訓(xùn)練準(zhǔn)確率Fig.10 Training accuracy of different Blocks
圖11 不同Block數(shù)的訓(xùn)練損失Fig.11 Training loss of different Blocks
可以看出,在較少的Block數(shù)可以獲得較好效果,最后在測試集上對不同Block數(shù)的模型進(jìn)行測試,結(jié)果如圖12所示。
圖12 不同Block數(shù)的測試準(zhǔn)確率Fig.12 Test accuracy of different Blocks
根據(jù)測試結(jié)果,本文RFT模型Blocks最終選用6。通過訓(xùn)練,本文的RFT模型在100個epoch內(nèi)即可得到較好的效果,且每個epoch訓(xùn)練時間僅為41 ms,證明了此模型可以快速收斂,訓(xùn)練的準(zhǔn)確率與損失函數(shù)曲線如圖10和圖11中紅色線所示。此外,本文額外采集了13類,每類80組的額外手勢數(shù)據(jù)作為RFT模型的測試數(shù)據(jù),所得預(yù)測結(jié)果的混淆矩陣如圖13所示。
圖13 預(yù)測結(jié)果的混淆矩陣Fig.13 Confusion matrix of prediction results
其中,數(shù)字0~12分別代表推拉,逆時針旋轉(zhuǎn),反z,順時針旋轉(zhuǎn),下滑,左滑,右滑,斜向左下滑,斜向左上滑,斜向右下滑,斜向右上滑,上滑,正z這13類手勢。
關(guān)于對比實驗部分,本文采用的數(shù)據(jù)集是提取的特征數(shù)據(jù),本文的數(shù)據(jù)集中每一幀數(shù)據(jù)維度是6×1,而對應(yīng)的圖像格式數(shù)據(jù)集維度是244×244。如果在本文的數(shù)據(jù)集上采用CNN,會因輸入數(shù)據(jù)維度過小導(dǎo)致模型收斂效果很差,造成最終的分類準(zhǔn)確度較低。因此,若采用本文的方法構(gòu)建數(shù)據(jù)集時,RFT網(wǎng)絡(luò)與其他文獻(xiàn)中的網(wǎng)絡(luò)相比會因數(shù)據(jù)集維度方面而導(dǎo)致準(zhǔn)確率有明顯的差異,不一定完全是因為網(wǎng)絡(luò)結(jié)構(gòu)導(dǎo)致,也就無法直接比較模型之間的準(zhǔn)確率優(yōu)劣。所以本文直接根據(jù)不同文獻(xiàn)中結(jié)論給出不同模型的準(zhǔn)確率,如表6所示。
表6 不同文獻(xiàn)的手勢分類準(zhǔn)確率Table 6 Accuracy of gesture classification in different literatures
其中,文獻(xiàn)[4]共采集上下按壓、前后推拉、手掌翻轉(zhuǎn)、手指摩擦、抓握5種手勢,每種手勢采集800組,以其中80%作為訓(xùn)練集。本文RFT模型共采集推拉、逆時針旋轉(zhuǎn)、反z滑動、順時針旋轉(zhuǎn)、下滑、左滑、右滑、斜向左下滑、斜向左上滑、斜向右下滑、斜向右上滑、上滑、正z滑動共13種手勢(且模擬復(fù)雜噪聲環(huán)境下采集),每類手勢采集80組作為訓(xùn)練集。為針對因數(shù)據(jù)集維度差異導(dǎo)致無法直接判別模型優(yōu)劣的情況,在其他復(fù)雜下游任務(wù)中(如雷達(dá)點云成像分類),可以通過增加特征類別和幀數(shù)來增加特征-時間數(shù)據(jù)集的維度,使其可以適應(yīng)于CNN,便可以直接比較這兩種模型之間的準(zhǔn)確率優(yōu)劣。
本文提出了一種基于純注意力機制的RFT網(wǎng)絡(luò)用于毫米波雷達(dá)手勢識別任務(wù)。通過固定類別的特征提取方法,與CNN提取特征相比,計算復(fù)雜度降低,特征的提取可靠性、可用性、高效性得到提升。通過基于自注意力機制的RFT模型可內(nèi)部直接關(guān)聯(lián)時序信息,并直接獲得所有特征輸入。與傳統(tǒng)的采用多組并行CNN提取特征再進(jìn)行特征融合,通過LSTM抽取時序特征的方法相比,系統(tǒng)的結(jié)構(gòu)更簡潔、算法復(fù)雜度更低、收斂速度更快、更容易訓(xùn)練,且保證了較高的準(zhǔn)確率??紤]到RFT模型的高效性和準(zhǔn)確性,后續(xù)的研究可以將此模型套用到手語識別等復(fù)雜分類問題上,且根據(jù)Transformer網(wǎng)絡(luò)已有的研究,在利用此種結(jié)構(gòu)的網(wǎng)絡(luò)進(jìn)行復(fù)雜分類問題時,應(yīng)保證樣本盡可能多,因此可以考慮使用數(shù)據(jù)生成網(wǎng)絡(luò)對數(shù)據(jù)進(jìn)行擴(kuò)充,以獲得更好的分類效果。