劉群坡,盛月琴,高如新,卜旭輝
(1.河南理工大學(xué) 電氣工程與自動(dòng)化學(xué)院,河南 焦作 454003;2.河南省智能裝備直驅(qū)技術(shù)與控制國際聯(lián)合實(shí)驗(yàn)室,河南 焦作 454003)
手語是聾啞人用來與外界接觸的重要工具,手語識(shí)別研究對(duì)于提高聾啞人生活質(zhì)量有著重要意義。手語演示者的手部動(dòng)作在整個(gè)視頻畫面中僅占有小部分區(qū)域,且視頻數(shù)據(jù)具有時(shí)序性,因此如何有效提取空間特征和時(shí)間特征對(duì)于提高識(shí)別率具有重要作用。此外,地區(qū)文化的差異和個(gè)人習(xí)慣的不同使得具有相同含義的手語卻有著不同的表達(dá)方式,考驗(yàn)?zāi)P偷姆夯芰Γ?]。針對(duì)以上問題,研究人員提出了許多解決方案,分為基于傳統(tǒng)方法和基于深度學(xué)習(xí)的手語識(shí)別兩大類。
在傳統(tǒng)方法中,主要使用隱馬爾可夫模型(Hidden Markov Model,HMM)、動(dòng)態(tài)時(shí)間規(guī)整和條件隨機(jī)場來人工提取特征。PU 等[2]構(gòu)造一種基于形狀上下文的軌跡描述符,進(jìn)而提出一種基于HMM的軌跡建模方法來進(jìn)行孤立詞匯手語識(shí)別。WANG等[3]基于深度視頻數(shù)據(jù),提出一種稀疏觀察方法來表示每個(gè)手勢,將手語詞匯之間的匹配轉(zhuǎn)換為對(duì)齊稀疏觀察序列之間的相似度計(jì)算,與傳統(tǒng)HMM 方法相比,精度更高、耗時(shí)更短。然而,傳統(tǒng)方法主要通過人工設(shè)計(jì)并提取特征,無法捕捉到手語視頻中復(fù)雜的深層特征,識(shí)別精度不高。由于深度學(xué)習(xí)在圖像分類[4]、目標(biāo)檢測[5]與識(shí)別[6]等領(lǐng)域表現(xiàn)出顯著優(yōu)勢,基于深度學(xué)習(xí)的手語識(shí)別方法正成為研究的熱點(diǎn)。長短期記憶網(wǎng)絡(luò)能夠很好地處理時(shí)序信息,因此被一些研究者用來處理視頻數(shù)據(jù)[7]。LIU 等[8]將手語演示過程中左右手和左右肘關(guān)節(jié)的軌跡數(shù)據(jù)作為輸入,提出基于長短期記憶網(wǎng)絡(luò)的端到端手語識(shí)別方法,但是骨骼關(guān)節(jié)點(diǎn)數(shù)據(jù)需要用特定設(shè)備獲取,基于機(jī)器視覺的識(shí)別方法在數(shù)據(jù)獲取方面優(yōu)勢顯著,普通攝像設(shè)備即可實(shí)現(xiàn)數(shù)據(jù)采集[9]。三維卷積神經(jīng)網(wǎng)絡(luò)[10]能夠同時(shí)獲取空間和時(shí)間信息,近年來被廣泛應(yīng)用于視頻處理。王粉花等[11]提出一種融合I3D 和注意力機(jī)制的網(wǎng)絡(luò)CBAM-I3D,識(shí)別率達(dá)到了90.76%。ZHOU 等[12]設(shè)計(jì)一種(3+2+1)D 殘差網(wǎng)絡(luò)進(jìn)行手語識(shí)別,該方法采用直方圖、關(guān)節(jié)點(diǎn)和RGB 圖像3 種模態(tài)的數(shù)據(jù)進(jìn)行手語識(shí)別,數(shù)據(jù)提取過程復(fù)雜。上述方法通過改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu),增加通道注意力或空間注意力來提升識(shí)別率,忽略了通道和空間之間存在相互影響的問題。此外,現(xiàn)有方法大多隨機(jī)選取一定數(shù)量的幀、均勻采樣視頻幀或?qū)⑺惺终Z視頻幀作為網(wǎng)絡(luò)輸入,這也是識(shí)別率不高的原因之一。
針對(duì)以上問題,本文通過設(shè)計(jì)一種關(guān)鍵幀提取算法以及改進(jìn)的3D-ResNet 提升手語識(shí)別準(zhǔn)確率。利用關(guān)鍵幀提取算法提取作為神經(jīng)網(wǎng)絡(luò)輸入的關(guān)鍵幀,基于3D-ResNet[13]設(shè)計(jì)小卷積模塊充分提取淺層特征,結(jié)合池化卷積殘差連接方式增強(qiáng)對(duì)細(xì)節(jié)特征的提取能力,同時(shí)設(shè)計(jì)交互式四重注意力模塊嵌入3D-ResNet,增強(qiáng)對(duì)背景以及手語者無關(guān)信息的抗干擾能力,從而提高模型泛化性能。
基于關(guān)鍵幀和注意力殘差網(wǎng)絡(luò)的手語識(shí)別方法整體框架如圖1 所示。首先對(duì)輸入的手語視頻運(yùn)用光流法確定候選關(guān)鍵幀,接著利用基于圖像相似度和模糊程度的關(guān)鍵幀提取算法從候選關(guān)鍵幀中提取出最終的若干關(guān)鍵幀,最后將關(guān)鍵幀序列送入交互式四重注意力三維卷積殘差網(wǎng)絡(luò)進(jìn)行識(shí)別分類。
圖1 基于關(guān)鍵幀和注意力殘差網(wǎng)絡(luò)的手語識(shí)別方法整體框架Fig.1 Overall framework of sign language recognition method based on keyframe and attention residual network
1.1.1 基于光流法的候選關(guān)鍵幀確定
在手語視頻中,視頻開始和結(jié)尾部分為演示者的抬手和放手過程,對(duì)于整個(gè)視頻所代表的含義幾乎沒有任何意義,反而加重了模型訓(xùn)練的負(fù)擔(dān),候選關(guān)鍵幀位于視頻中間部分。因此,利用Farneback 光流法[14]確定每個(gè)手語視頻的關(guān)鍵幀時(shí)間段,主要步驟如下:
1)使用Farneback 光流計(jì)算每幀的運(yùn)動(dòng)速度并歸一化得到vi。
2)設(shè)定初始閾值c,若在vi大于c區(qū)間內(nèi),第一個(gè)極大值對(duì)應(yīng)幀F(xiàn)f和最后一個(gè)極大值對(duì)應(yīng)幀F(xiàn)l之間的幀個(gè)數(shù)大于等于L,則這兩個(gè)極大值點(diǎn)之間的時(shí)間段為候選關(guān)鍵幀的時(shí)間段T。
3)若小于L則閾值c除以2 再進(jìn)行判斷,直到個(gè)數(shù)大于等于L,那么此時(shí)該區(qū)間的第一個(gè)極大值對(duì)應(yīng)幀和最后一個(gè)極大值對(duì)應(yīng)幀之間的時(shí)間段為候選關(guān)鍵幀時(shí)間段T。
1.1.2 基于相似度和模糊程度的關(guān)鍵幀提取算法
在確定時(shí)間段T后,T內(nèi)的圖像序列仍然過多,相鄰圖像內(nèi)容變化幅度小,部分視頻中手部速度過快導(dǎo)致提取的圖像幀出現(xiàn)模糊,因此提出基于圖像相似度和模糊程度的關(guān)鍵幀提取算法,用于提取最終的L個(gè)關(guān)鍵幀,流程如圖2 所示。
圖2 關(guān)鍵幀提取流程Fig.2 Procedure of keyframe extraction
首先將T均勻分為L段,將T前1 幀作為第1 個(gè)參考幀R1,第1 段t1中的每1 幀 和R1的歐氏距離如下:
其中:xij表示t1時(shí)間內(nèi)第i幀的第j個(gè)像素值;xRj表示t1的參考幀的第j個(gè)像素值;N表示像素點(diǎn)個(gè)數(shù);Di表示t1的第i幀和R1的歐氏距離,距離越遠(yuǎn)意味著相似度越低。
對(duì)相似度序列進(jìn)行排序,得到歐氏距離遞增的新序列{Dr,1 ≤r≤n}。然后利用準(zhǔn)則函數(shù)將n幀分割成兩類:一類是前k幀,可視為與參考幀相似的幀;另一類是后n-k幀,可視為與參考幀不相似的幀。由于分割結(jié)果應(yīng)使類間的均方誤差最大,類內(nèi)的均方誤差最小,因此采用式(2)作為確定分割點(diǎn)的準(zhǔn)則函數(shù):
其中:m1和m2表示前k幀和后n-k幀的相似度的均值;σ1和σ2表示前k幀和后n-k幀的相似度的標(biāo)準(zhǔn)差。最佳分割點(diǎn)k*應(yīng)使得此時(shí)的準(zhǔn)則函數(shù)值大于其他分割點(diǎn)計(jì)算出的準(zhǔn)則函數(shù)值,即:
在確定分割點(diǎn)k*后,最終關(guān)鍵幀位于后n-k*幀內(nèi),由于其中存在模糊幀,因此對(duì)后n-k*幀使用Laplacian 算子計(jì)算每幀的模糊程度,選擇模糊程度最低的一幀作為當(dāng)前時(shí)間段的關(guān)鍵幀,同時(shí)作為下一個(gè)時(shí)間段的參考幀。下一個(gè)時(shí)間段的關(guān)鍵幀選取按上述方法操作,最終提取出能夠代表該視頻內(nèi)容的L個(gè)關(guān)鍵幀作為神經(jīng)網(wǎng)絡(luò)的輸入。
1.2.1 基于ResNet 和Inception 的小卷積模塊設(shè)計(jì)
Inception[15]的主要思想是堆疊多個(gè)小卷積層,并在特征維度上將它們拼接到一起,通過增加網(wǎng)絡(luò)寬度來提高網(wǎng)絡(luò)的特征提取能力。ResNet[16]通過殘差連接結(jié)構(gòu)在一定程度上保留了主干網(wǎng)絡(luò)層傳遞信息過程中損失的部分輸入信息。3D-ResNet 網(wǎng)絡(luò)的第一個(gè)卷積層的核大小為7×7×7,大卷積核提取的是粗粒度特征,而手語視頻中手部動(dòng)作的細(xì)粒度特征是識(shí)別手語的關(guān)鍵信息。本文結(jié)合Inception 和ResNet 的思想,設(shè)計(jì)一種基于殘差結(jié)構(gòu)的小卷積模塊,用來替代第一層大卷積層,增強(qiáng)淺層網(wǎng)絡(luò)對(duì)輸入數(shù)據(jù)的細(xì)節(jié)特征提取能力,結(jié)構(gòu)如圖3 所示。
圖3 小卷積模塊Fig.3 Small convolution module
Inception 結(jié)構(gòu)中使用不同大小的卷積核進(jìn)行不同尺度特征的融合,但手語數(shù)據(jù)集中演示者的手部動(dòng)作在圖像中所占的區(qū)域較小,因此小卷積模塊使用3×3×3 的小卷積核。該模塊由3 條支路組成。在通常情況下,Inception 模塊的主分支輸出通道維度相同,因此小卷積模塊的兩條主分支輸出通道維度也相同,均為32。由于卷積層過多會(huì)造成較多的信息損失,因此第1 條主分支和第2 條主分支分別設(shè)計(jì)為1 層和2 層卷積層,核為3×3×3。第1 條主分支:1 層卷積層,通道數(shù)為32。第2 條主分支:第1 個(gè)卷積層通道數(shù)為16,對(duì)圖像進(jìn)行下采樣;第2 層卷積層通道數(shù)為32,用來緩解信息丟失的問題。2 條主分支的特征維度相同,在通道維度上對(duì)它們的輸出結(jié)果進(jìn)行拼接。為了充分提取輸入特征,緩解特征信息在傳遞過程中的損失問題,引入第3 條捷徑分支進(jìn)行殘差學(xué)習(xí)。原始3D-ResNet 的第1 層卷積層輸出通道數(shù)為64,為了使改進(jìn)前后輸出維度相同且能夠進(jìn)行殘差加運(yùn)算,捷徑分支采用通道數(shù)為64、核大小為1×1×1 的卷積層,用于調(diào)整輸入數(shù)據(jù)維度。此外,在每個(gè)卷積層后都連接了BN 層和ReLU 激活函數(shù),加快網(wǎng)絡(luò)的收斂速度。
1.2.2 池化卷積殘差連接方式設(shè)計(jì)
在ResNet 中存在如圖4(a)和圖4(b)所示的兩種殘差連接方式。當(dāng)輸入和輸出的特征圖大小相同時(shí),使用方式1直接進(jìn)行特征映射。當(dāng)輸入和輸出的特征圖大小不同時(shí),使用方式2 進(jìn)行殘差連接,捷徑分支的卷積核尺寸為1×1×1,步長為2×2×2,用于將特征圖尺寸減小為原來的1/2,同時(shí)將通道數(shù)變?yōu)樵瓉淼? 倍。然而,雖然步長為2×2×2 的卷積層可以達(dá)到下采樣的目的,但弱化了細(xì)粒度特征,細(xì)節(jié)信息有所損失,從而減少了后續(xù)網(wǎng)絡(luò)層能夠提取的有效特征。
針對(duì)上述問題,對(duì)連接方式2進(jìn)行改進(jìn),將特征圖尺寸大小減半與通道數(shù)目翻倍分兩步進(jìn)行,結(jié)構(gòu)如圖4(c)所示。首先在捷徑分支中加入步長為2×2×2的最大池化層,達(dá)到特征圖大小減半的目的;然后使用步長為1×1×1 的卷積層,用于改變通道數(shù)。這種先池化再卷積的操作在下采樣的過程中減少了信息損失。本文網(wǎng)絡(luò)部分的殘差塊1 使用方式1 進(jìn)行殘差連接,殘差塊2、3和4使用改進(jìn)方式2進(jìn)行殘差連接。
1.2.3 交互式四重注意力模塊設(shè)計(jì)
在手語識(shí)別過程中,確定手部動(dòng)作的空間位置和時(shí)間位置有利于提高識(shí)別準(zhǔn)確率。近年來常用的注意力有SE[17]和CBAM[18],然而SE 僅在通道維度上計(jì)算了注意力權(quán)重,CBAM 雖然兼顧了通道注意力和空間注意力,但它先對(duì)通道再對(duì)空間進(jìn)行卷積,前者影響了后者空間注意力的使用效果。
Triplet Attention[19]是一種通過旋轉(zhuǎn)操作建立通道維度和空間維度之間交互關(guān)系的二維注意力模塊,本文基于Triplet Attention 設(shè)計(jì)出可應(yīng)用于三維卷積的四重注意力(Quadruplet Attention,QA)模塊,框架如圖5 所示。
圖5 四重注意力模塊Fig.5 Quadruplet attention module
對(duì)于輸入張量x?RC×T×H×W,其中,C、T、H和W依次表示輸入的通道、時(shí)序、高度和寬度,將其送入4 條支路。
支路1 用來獲得通道維度C與空間維度(H,W)的交互式注意力權(quán)重。輸入首先通過跨維度操作建立(C,H,W)維交互,接著依次經(jīng)過Z-Pool 層、卷積層、BN 層和激活函數(shù)得到注意力權(quán)重,然后將其輸出與維度變換后的張量相乘,最后經(jīng)過反向跨維度作用,獲得和原始輸入形狀相同的輸出。此處Z-Pool 是指將最大池化結(jié)果和平均池化結(jié)果進(jìn)行拼接,其數(shù)學(xué)公式如下:
支路2 用于獲取通道維度C和空間維度(T,W)的交互式注意力權(quán)重。它的操作和第一條分支類似,不同的是它的跨維度操作建立的是(C,T,W)維交互,反向跨維度作用是與(C,T,W)維相對(duì)應(yīng)的反向操作。
支路3 用于捕捉通道維度C和空間維度(T,H)之間的交互關(guān)系??缇S度操作建立的是(C,T,H)維交互,反向跨維度是與(C,T,H)維相對(duì)應(yīng)的反向操作。
支路4 僅用于計(jì)算空間維度(T,H,W)的注意力權(quán)重。它不需要進(jìn)行跨維度操作,而是直接將輸入送進(jìn)Z-Pool 層、卷積層以及激活函數(shù),然后將其輸出與輸入相乘,從而獲得最后一條分支的輸出。
最后將4 條支路的注意力權(quán)重進(jìn)行平均即可得到QA 模塊的輸出:
使用兩個(gè)數(shù)據(jù)集,分別是CSL[20]和DEVISIGN[21]數(shù)據(jù)集。
1)CSL 數(shù)據(jù)集包含了500 類詞匯,每類詞匯由50 個(gè)操作者演示5 次。從中選取100 類詞匯,將視頻數(shù)據(jù)按照7∶2∶1 的比例劃分為訓(xùn)練集、驗(yàn)證集和測試集,即訓(xùn)練集、驗(yàn)證集和測試集分別有17 500、5 000、2 500 個(gè)視頻。
2)DEVISIGN 數(shù)據(jù)集包含了500 類常用詞匯,每類詞匯由8 個(gè)操作者演示,其中4 個(gè)操作者每人重復(fù)演示2 次。從中選取100 類詞匯,并進(jìn)行平移變化、翻轉(zhuǎn)變化和數(shù)據(jù)裁剪對(duì)數(shù)據(jù)進(jìn)行擴(kuò)充,最終得到12 000 個(gè)視頻,其中,訓(xùn)練集有8 000 個(gè)視頻,驗(yàn)證集有2 000 個(gè)視頻,剩下2 000 個(gè)用于測試。
實(shí)驗(yàn)環(huán) 境:PyTorch1.6.0+CUDA10.0,NVIDIA GeForce RTX 2080 Ti GPU。關(guān)鍵幀提取的初始閾值c設(shè)為0.2,關(guān)鍵幀個(gè)數(shù)L設(shè)為16。模型訓(xùn)練使用Adam 優(yōu)化器和指數(shù)衰減調(diào)整學(xué)習(xí)率,初始學(xué)習(xí)率為0.000 1,學(xué)習(xí)率調(diào)整倍數(shù)為0.9,訓(xùn)練批次為4,在CSL 和DEVISIGN 數(shù)據(jù)集上分別迭代50 和100 次。
在二分類任務(wù)中,通常使用準(zhǔn)確率(Aaccuracy)、精確率(Pprecision)和召回率(Rrecall)來評(píng)價(jià)模型的性能,它們的計(jì)算公式分別如下:
其 中:TTP、TTN、FFP、FFN表示正 樣本被 正確識(shí) 別的數(shù)量、負(fù)樣本被正確識(shí)別的數(shù)量、誤報(bào)的負(fù)樣本數(shù)量和漏報(bào)的正樣本數(shù)量。對(duì)于本文的多分類問題,采用宏平均的評(píng)價(jià)方法,即先對(duì)每一個(gè)手語詞匯計(jì)算準(zhǔn)確率、精確率和召回率,再對(duì)所有手語詞匯計(jì)算算術(shù)平均值作為模型整體的準(zhǔn)確率、精確率和召回率。
為了分析每種改進(jìn)方法對(duì)模型性能的影響,在CSL 手語數(shù)據(jù)集上進(jìn)行如表1 所示的改進(jìn)實(shí)驗(yàn),其中√表示具有該模塊。實(shí)驗(yàn)A 采用均勻采樣的方法提取出16 幀送入3D-ResNet 網(wǎng)絡(luò)進(jìn)行手語識(shí)別,由于存在靜止幀,含有手語動(dòng)作的幀較少,因此模型識(shí)別效果較差。實(shí)驗(yàn)B 對(duì)手語視頻進(jìn)行關(guān)鍵幀提取操作,獲得了更能代表視頻內(nèi)容的數(shù)據(jù),識(shí)別準(zhǔn)確率明顯提升。實(shí)驗(yàn)C 在實(shí)驗(yàn)B 的基礎(chǔ)上,改進(jìn)了3DResNet 網(wǎng)絡(luò),利用小卷積模塊增強(qiáng)模型對(duì)輸入細(xì)粒度特征的提取能力,使得模型性能有所提升。在實(shí)驗(yàn)D 中,殘差塊捷徑分支的先池化再卷積的操作減少了信息損失,為后續(xù)網(wǎng)絡(luò)層的特征提取打下了良好基礎(chǔ)。在此基礎(chǔ)上,實(shí)驗(yàn)E 在殘差塊中嵌入了四重注意力模塊,捕捉到了通道注意力和空間注意力并且考慮了它們之間的交互關(guān)系,使得模型準(zhǔn)確率高達(dá)92.0%。此外,每個(gè)改進(jìn)實(shí)驗(yàn)都在一定程度上提升了識(shí)別的精確率和召回率。
表1 不同改進(jìn)實(shí)驗(yàn)的結(jié)果對(duì)比Table 1 Comparison of results from different improvement experiments %
為了評(píng)估所提方法網(wǎng)絡(luò)部分的性能,以關(guān)鍵幀提取為前提,將本文改進(jìn)的3D-ResNet和原始3D-ResNet在CSL 和DEVISIGN 數(shù)據(jù)集上進(jìn)行對(duì)比分析,結(jié)果如圖6 和圖7 所示。由圖6 和圖7 可以看出,3D-ResNet在CSL 數(shù)據(jù)集上的驗(yàn)證曲線與訓(xùn)練曲線有著較大的差距,出現(xiàn)了欠擬合現(xiàn)象,然而改進(jìn)的3D-ResNet的擬合效果更好,并且收斂于更高的準(zhǔn)確率和更低的損失。在DEVISIGN 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),改進(jìn)的3D-ResNet迭代約10 次后準(zhǔn)確率有所上升,約35 次后開始收斂,訓(xùn)練速度明顯快于3D-ResNet。在訓(xùn)練后期,在這兩個(gè)數(shù)據(jù)集上,改進(jìn)的3D-ResNet 相比3D-ResNet曲線震蕩幅度更小,模型更加穩(wěn)定。
圖6 CSL 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Fig.6 Experimental results on the CSL dataset
圖7 DEVISIGN 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Fig.7 Experimental results on the DEVISIGN dataset
為了進(jìn)一步說明所提方法的有效性,將其與Adaptive HMM[22]、C3D[23]、B3D ResNet[24]、3D-CNN[25]等手語識(shí)別方法分別在CSL 和DEVISIGN 數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如表2 和表3 所示。由表2 和表3 可以看出,基于深度學(xué)習(xí)的方法相比于傳統(tǒng)方法準(zhǔn)確率更高,使用多模態(tài)數(shù)據(jù)相較于使用單一模態(tài)數(shù)據(jù)具有更好的性能,而所提方法僅用RGB 視頻數(shù)據(jù)模態(tài)就取得了優(yōu)異的效果,并且準(zhǔn)確率在CSL數(shù)據(jù)集上高于同樣使用視頻數(shù)據(jù)的基于B3D ResNet和CBAM-I3D 的手語識(shí)別方法,在DEVISIGN 數(shù)據(jù)集上高于同樣使用視頻數(shù)據(jù)的基于B3D ResNet 的手語識(shí)別方法。綜上,所提方法在CSL 和DEVISIGN 數(shù)據(jù)集上分別取得了92.0%和92.2%的識(shí)別準(zhǔn)確率率,均優(yōu)于其他手語識(shí)別方法。
表2 不同方法在CSL 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 2 Experimental results of different methods on the CSL dataset %
本文提出一種基于關(guān)鍵幀和交互式注意力殘差網(wǎng)絡(luò)的手語識(shí)別方法。通過基于圖像相似度和模糊程度的關(guān)鍵幀提取算法提取能夠代表視頻內(nèi)容的關(guān)鍵幀,減少了冗余數(shù)據(jù)。將3D-ResNet 的大卷積層替換為小卷積殘差模塊,更加有效地提取細(xì)節(jié)特征。采用池化卷積殘差連接方式,解決了下采樣時(shí)信息損失嚴(yán)重的問題,進(jìn)一步提高模型精度。設(shè)計(jì)四重注意力模塊減小背景以及操作者等無關(guān)信息對(duì)模型分類的干擾,提升網(wǎng)絡(luò)的表征能力。實(shí)驗(yàn)結(jié)果表明,所提方法相比于其他手語識(shí)別方法具有更高的準(zhǔn)確率,能夠有效地進(jìn)行手語識(shí)別。后續(xù)將對(duì)手語識(shí)別網(wǎng)絡(luò)結(jié)構(gòu)做進(jìn)一步優(yōu)化,使用含有復(fù)雜背景的手語數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),并搭建真實(shí)環(huán)境下的手語識(shí)別系統(tǒng)。