米娜瓦爾·阿不拉,阿里甫·庫爾班,解啟娜,耿麗婷
新疆大學(xué) 軟件學(xué)院,烏魯木齊830046
手語是進(jìn)行信息交流的一種有效的肢體語言,手部動(dòng)作可以傳遞豐富的語義信息。手語作為聾啞人與外界交流的主要方式,在獲取知識(shí)、與健聽人交流、提高生活質(zhì)量等方面不可或缺。因此,在幫助聾啞人融入社會(huì)的各個(gè)方面中,手語起到至關(guān)重要的作用。隨著人們對特殊群體的深入了解,對手語的關(guān)注也更為廣泛。與口語相同,每種手語都由成千上萬的單詞組成。手語使用身體不同的部位,如手指、手臂、手部運(yùn)動(dòng)軌跡,頭部和面部表情等來傳遞信息[1],是一種結(jié)構(gòu)化的手勢形式。在手語中,每個(gè)手勢都有特定的含義,強(qiáng)有力的上下文信息和語法規(guī)則也是在手語識(shí)別中應(yīng)要考慮的因素。
手語識(shí)別是指利用算法和技術(shù)來識(shí)別所產(chǎn)生的手勢序列,并以文本或語音的形式闡述其意義[2],其相關(guān)識(shí)別技術(shù)也能應(yīng)用到其他領(lǐng)域,如智能家居交互[3]、交警指揮識(shí)別[4]、人機(jī)交互[5]和智能駕駛等。近年來,基于手語識(shí)別的研究通常采用深度學(xué)習(xí)的方式將手勢轉(zhuǎn)換成文本或語音,創(chuàng)造了一種新的人機(jī)交互方式。深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的子領(lǐng)域在圖像處理的諸多領(lǐng)域都展現(xiàn)出了更好的成績,其主要目標(biāo)之一是避免手工提取特征[6]。深度學(xué)習(xí)方法允許多個(gè)處理層的計(jì)算模型來學(xué)習(xí)和表示具有多層次抽象的數(shù)據(jù),以模仿人腦機(jī)制,并捕獲大規(guī)模數(shù)據(jù)的復(fù)雜結(jié)構(gòu)。計(jì)算機(jī)視覺作為人工智能領(lǐng)域的重要部分,主要任務(wù)是對采集的圖片和視頻數(shù)據(jù)進(jìn)行處理以獲得關(guān)鍵信息,而這種處理方式是通過深度學(xué)習(xí)方法來實(shí)現(xiàn)。由于手語識(shí)別是典型的跨學(xué)科問題,涉及計(jì)算機(jī)視覺、自然語言處理、圖像識(shí)別、人機(jī)交互和模式識(shí)別等多個(gè)領(lǐng)域[7],且手語詞匯量多,表達(dá)方式豐富多樣,語義語法結(jié)構(gòu)復(fù)雜,因此手語識(shí)別中的挑戰(zhàn)和困難依然存在。
本文對近年來的手語識(shí)別方法和技術(shù)進(jìn)行了歸納和梳理。手語識(shí)別常用的方法包含動(dòng)態(tài)時(shí)間規(guī)整[8](Dynamic Time Warping,DTW)算法、隱馬爾可夫模型[9](Hidden Markov Model,HMM)、三維卷積神經(jīng)網(wǎng)絡(luò)[10](3D Convolutional Neural Networks,3D-CNN)和長短期記憶網(wǎng)絡(luò)[11](Long Short Term Memory,LSTM)。
手語是一種有效而自然的交流方式,包含視覺運(yùn)動(dòng)和手語的結(jié)構(gòu)化手勢形式。根據(jù)手語數(shù)據(jù)獲取方式的不同,手語識(shí)別類型可以分為基于傳感器的識(shí)別和基于視覺的識(shí)別[12]。
數(shù)據(jù)手套是常見的基于傳感器的設(shè)備,廣泛應(yīng)用于手語識(shí)別研究。在早期的手語識(shí)別研究中,由于計(jì)算機(jī)的計(jì)算能力較差,實(shí)時(shí)圖像處理速度受到了限制,因此基于數(shù)據(jù)手套的識(shí)別技術(shù)占據(jù)了主導(dǎo)地位。數(shù)據(jù)手套可以捕獲佩戴者的手部關(guān)節(jié)信息和運(yùn)動(dòng)軌跡,通常獲取較高的識(shí)別精度。1983年,Grimes等人[13]發(fā)明了最早期的數(shù)據(jù)手套為聾啞人使用。佩戴者單手展示美國手語字母所定義的字符狀態(tài)并將數(shù)據(jù)傳輸至接收設(shè)備。1999年,吳江琴等人[14]利用BP神經(jīng)網(wǎng)絡(luò)和學(xué)習(xí)判定樹的混合方法,使用帶有18個(gè)傳感器的CyberGlove數(shù)據(jù)手套對30個(gè)漢語手指字母進(jìn)行識(shí)別。文獻(xiàn)[15]將基于數(shù)據(jù)手套的識(shí)別和基于視覺的識(shí)別進(jìn)行對比,發(fā)現(xiàn)基于視覺的手勢跟蹤算法對不同的照明條件和動(dòng)態(tài)背景非常敏感,而基于手套的手勢跟蹤算法不依賴于任何背景和照明條件,其識(shí)別精度往往高于基于視覺的手識(shí)別精度,且手勢跟蹤算法都是魯棒和有效的。由于數(shù)據(jù)手套的識(shí)別方法成本高、依賴于硬件設(shè)備、用戶體驗(yàn)較差,基于視覺的手語識(shí)別方法成為了主流。
基于視覺的手語識(shí)別通過攝像頭捕捉手語圖像和視頻,利用算法對連續(xù)畫面分析手語動(dòng)作并識(shí)別出手語動(dòng)作語義信息。該方法是利用圖像處理、深度學(xué)習(xí)等技術(shù),通過計(jì)算機(jī)對圖像或視頻中的手語進(jìn)行分析和處理獲取其特征并利用這些特征進(jìn)行分類識(shí)別的過程。與數(shù)據(jù)手套不同,利用圖像采集設(shè)備進(jìn)行手語數(shù)據(jù)采集沒有過多的束縛,并且圖像采集設(shè)備成本低廉、容易攜帶,從這一點(diǎn)來說基于視覺的手語識(shí)別更有利于推廣和應(yīng)用。伴隨著科技的進(jìn)步,可以采集三通道彩色圖像的設(shè)備和深度圖像的深度相機(jī)逐漸進(jìn)入圖像識(shí)別領(lǐng)域?;谝曈X的手語識(shí)別交互方式簡單、設(shè)備依賴性較低,且符合日常交流。表1將基于傳感器的識(shí)別方法和基于數(shù)據(jù)手套的識(shí)別方法進(jìn)行了比較。本文主要圍繞基于視覺的手語識(shí)別方法進(jìn)行闡述。
表1 基于傳感器和基于視覺方法比較Table 1 Comparison of sensor-based and vision-based approaches
根據(jù)手語識(shí)別研究方法的不同可分為靜態(tài)手語識(shí)別和動(dòng)態(tài)手語識(shí)別。動(dòng)態(tài)手語識(shí)別又可分為孤立詞識(shí)別和連續(xù)語句識(shí)別,其分類如圖1所示。由于手語是一系列動(dòng)作構(gòu)成的具有相似特征的快速運(yùn)動(dòng),傳統(tǒng)的靜態(tài)手語識(shí)別方法很難處理動(dòng)態(tài)手語手部動(dòng)作中復(fù)雜的詞匯表達(dá)方式和大幅度的變化。動(dòng)態(tài)手語是在短時(shí)間內(nèi)由動(dòng)作連接起來的一系列姿勢,其視頻序列既包含時(shí)間特征又包含空間特征,在識(shí)別過程中需要考慮手部運(yùn)動(dòng)軌跡、位置及上下文的語義信息。因此,動(dòng)態(tài)手語識(shí)別算法難度比靜態(tài)手語識(shí)別算法難度大。在動(dòng)態(tài)手語識(shí)別方法中,手的形狀變化和快速移動(dòng)給手語識(shí)別帶來了許多挑戰(zhàn)[16]?;谝曈X的動(dòng)態(tài)手語識(shí)別技術(shù)具有靈活性,可擴(kuò)展性和低成本等特點(diǎn),相比靜態(tài)手語,動(dòng)態(tài)手語詞匯量大,種類多,表達(dá)方式豐富,更具有實(shí)用性,是當(dāng)前手語識(shí)別研究的熱點(diǎn)。
圖1 手語識(shí)別分類圖Fig.1 Sign language recognition classification map
靜態(tài)手語識(shí)別的研究對象為圖像中手部的外觀特征,對手勢進(jìn)行特征提取、分類與識(shí)別的過程。換言之,靜態(tài)手語識(shí)別是一種簡單的圖像分類問題,因此一般識(shí)別較為準(zhǔn)確。通常靜態(tài)手語識(shí)別的研究是對手語字母的識(shí)別,即利用手指的指式狀態(tài)代表字母,其難點(diǎn)在于手語圖像會(huì)受到光照、背景環(huán)境等因素的影響。Amaya和Murray等人[17]提出了基于主成分分析(Principal Component Analysis,PCA)和支持向量機(jī)(Support Vector Machine,SVM)的靜態(tài)手語識(shí)別方法來識(shí)別英文中5個(gè)元音字母,PCA用于對手部區(qū)域進(jìn)行特征提取,SVM用于分類。Aich等人[18]在自己構(gòu)建的數(shù)據(jù)集上使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)來識(shí)別孟加拉手語中的36個(gè)字符,準(zhǔn)確度達(dá)到92.7%,但其圖像背景單一,可擴(kuò)展性不高。Hasan等人[19]利用CNN對美國手語字母進(jìn)行識(shí)別,識(shí)別率達(dá)到97.62%。
孤立詞識(shí)別的識(shí)別對象是單獨(dú)的詞匯,它由連續(xù)時(shí)間段的圖像序列組成。相對于連續(xù)語句識(shí)別,孤立詞視頻較短。1997年,Grobel和Assan等人[20]提出了一種基于HMM的荷蘭孤立詞識(shí)別模型,從兩名操作者收集了262個(gè)單詞進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)發(fā)現(xiàn),若訓(xùn)練和測試均只有一名操作者完成,實(shí)驗(yàn)準(zhǔn)確率均在90%以上。若一名操作者用于訓(xùn)練而另一名操作者用于測試,則準(zhǔn)確率降至56.2%和47.6%。同時(shí)使用兩名操作者對數(shù)據(jù)集進(jìn)行訓(xùn)練可以將準(zhǔn)確率提高到91.3%。
對于視頻中存在許多冗余幀問題,Huang等人[21]提出了一種基于關(guān)鍵幀為中心剪輯(Keyframe-Centered Clip,KCC)的孤立詞識(shí)別方法。該方法將用CNN從RGB視頻流中獲取到的手部關(guān)鍵幀的特征信息與深度運(yùn)動(dòng)地圖的梯度方向直方圖和骨骼關(guān)節(jié)的軌跡特征通過多模態(tài)KCC特征的特征融合層進(jìn)行融合。利用LSTM編譯碼網(wǎng)絡(luò)對該特征融合層進(jìn)行聯(lián)合訓(xùn)練,對中國手語數(shù)據(jù)集中的310個(gè)孤立詞進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明不使用KCC和使用KCC的準(zhǔn)確率分別為89.87%和91.18%,同時(shí)也證明了該方法優(yōu)于HMM、DTW、CNN和LSTM。
Liao等人[22]提出了一種結(jié)合三維卷積殘差網(wǎng)絡(luò)和雙向長短期記憶網(wǎng)絡(luò)的BLSTM-3D殘差網(wǎng)絡(luò)(B3D ResNet)用于孤立詞識(shí)別。利用Faster R-CNN檢測手部,并從背景中分割出手的位置,然后利用雙向長短期記憶網(wǎng)絡(luò)(Bi-directional Long Short Term Memory,BLSTM)對輸入圖像序列進(jìn)行分類,由三維卷積殘差網(wǎng)絡(luò)聯(lián)合提取空間和時(shí)間特征。該方法中,處理的不是整個(gè)視頻幀,而是首先定位手部位置并提取其關(guān)鍵點(diǎn)信息,然后在此基礎(chǔ)上研究剩余幀的特征信息,這一過程減少了網(wǎng)絡(luò)計(jì)算時(shí)間和復(fù)雜性。
連續(xù)語句是由一系列手語及手勢產(chǎn)生的有意義的完整句子?,F(xiàn)有的大多數(shù)連續(xù)語句識(shí)別技術(shù)是將孤立詞作為構(gòu)建塊,在預(yù)處理階段進(jìn)行孤立詞時(shí)間分割,最后進(jìn)行句子合成。連續(xù)語句識(shí)別中的挑戰(zhàn)包括將句子標(biāo)記為單獨(dú)的單詞,標(biāo)記句子的開始與結(jié)束,一個(gè)動(dòng)作的結(jié)束到下一個(gè)動(dòng)作的開始這一時(shí)段的檢測與建模[23]。連續(xù)語句識(shí)別是一項(xiàng)非常具有挑戰(zhàn)性的任務(wù),其手語詞匯量非常龐大,可組成的手語詞組和語句更是不計(jì)其數(shù),且一個(gè)視頻序列同時(shí)包含了時(shí)間特征和空間特征??臻g特征是從視頻幀中提取的,而時(shí)間特征是通過連續(xù)視頻幀獲取語義信息,且不同時(shí)序的視頻幀是相關(guān)聯(lián)的。
Rao等人[24]提出了一種基于人工神經(jīng)網(wǎng)絡(luò)的連續(xù)手語識(shí)別方法,操作者一手拿著自拍桿,另一只手做手語動(dòng)作。為了減少噪聲,操作者穿戴黑色衣服,且只有一只手在做手語動(dòng)作,可擴(kuò)展性和實(shí)用性不高。Ariesta等人[25]提出了一種基于3D-CNN和雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Bi-directional Recurrent Neural Network,BRNN)的連續(xù)語句識(shí)別模型,3D-CNN從每個(gè)視頻幀中提取空間特征,BRNN用于分析特征序列,隨后生成一個(gè)可能的句子。Pu等人[26]在CVPR會(huì)議上提出了一種基于RGB視頻輸入的連續(xù)手語識(shí)別的迭代對齊網(wǎng)絡(luò),該網(wǎng)絡(luò)模型利用三維卷積殘差網(wǎng)絡(luò)(3D-ResNet)和編碼器-解碼器網(wǎng)絡(luò),分別用于特征學(xué)習(xí)和序列建模。將3D殘差網(wǎng)絡(luò)與堆疊擴(kuò)張CNN和連接主義時(shí)態(tài)分類(Connectionist Temporal Classification,CTC)相結(jié)合,用于特征提取,并在序列特征和文本句子之間進(jìn)行映射。使用了一種迭代優(yōu)化策略來克服CTC和CNN參數(shù)關(guān)聯(lián)性差的問題。在使用CTC為視頻剪輯生成一個(gè)初始標(biāo)簽后,對CNN進(jìn)行微調(diào)以完善生成的標(biāo)簽。在RWTH-PHOENIXWeather數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明該模型更具有優(yōu)越性,其單詞錯(cuò)誤率(Word Error Rate,WER)降低了1.4%。然而,從連續(xù)視頻中識(shí)別手語動(dòng)作并檢測其語義時(shí)間位置仍是一個(gè)具有挑戰(zhàn)性的問題。
手語識(shí)別步驟如圖2和圖3所示。其中,由于動(dòng)態(tài)手語識(shí)別需要獲取連續(xù)幀之間的上下文信息,因此需要對手部進(jìn)行跟蹤。本章從圖像預(yù)處理、檢測與分割、跟蹤、特征提取、分類等手語識(shí)別步驟進(jìn)行闡述。
圖2 靜態(tài)手語識(shí)別步驟Fig.2 Steps of static sign language recognition
圖3 動(dòng)態(tài)手語識(shí)別步驟Fig.3 Steps of dynamic sign language recognition
手語識(shí)別中的輸入數(shù)據(jù)是通過圖像或視頻采集裝置,如標(biāo)準(zhǔn)攝像機(jī)、網(wǎng)絡(luò)攝像機(jī)、手機(jī)、微軟Kinect或Leap Motion傳感器等,將采集到的圖像或視頻傳輸?shù)揭曈X算法中進(jìn)行計(jì)算,最終得到所需信息。
Leap Motion傳感器和Kinect是一種可以采集深度信息的三維攝像機(jī),是收集手語數(shù)據(jù)的常用設(shè)備。Leap Motion傳感器[27]是2013年發(fā)布的深度傳感器,它將信號(hào)轉(zhuǎn)換成計(jì)算機(jī)指令。作為一種基于手勢的人機(jī)交互輸入設(shè)備,它能夠準(zhǔn)確地檢測手和手指,使用紅外線成像技術(shù)實(shí)時(shí)確定有限空間內(nèi)預(yù)定義目標(biāo)的位置[28]。Chuan等人[29]利用Leap Motion傳感器收集了美國手語字母表中的26個(gè)字母,分別使用K近鄰算法和SVM進(jìn)行分類。
目前常用的手語數(shù)據(jù)集,如中國手語數(shù)據(jù)集(Chinese Sign Language,CSL)是由Kinect[30]設(shè)備采集的。Kinect由RGB攝像頭、深度傳感器、紅外線發(fā)射器等組成,可實(shí)時(shí)捕捉顏色和深度信息,并準(zhǔn)確地獲得關(guān)節(jié)位置,因此廣泛應(yīng)用于許多現(xiàn)有的手語識(shí)別方法中。其優(yōu)勢在于能夠捕捉每個(gè)動(dòng)作,并通過內(nèi)置的3D傳感相機(jī)將其轉(zhuǎn)換為可用的特征。相較于傳統(tǒng)的三通道彩色圖像,由Kinect獲取的深度圖像可獲取場景中的深度信息,并將其用圖形化表示,每個(gè)像素點(diǎn)的灰度值代表物體距離攝像頭的遠(yuǎn)近,數(shù)值越小表示場景距離伸向頭的距離越近。
在圖像分割和圖像識(shí)別領(lǐng)域,一般在訓(xùn)練模型前需要對數(shù)據(jù)集圖像進(jìn)行預(yù)處理,這是因?yàn)樵谔卣魈崛r(shí),避免圖像中的噪音等干擾因素很強(qiáng)的信息影響最后的訓(xùn)練結(jié)果、精度和處理時(shí)間。常用的圖像預(yù)處理方法包括歸一化處理、灰度轉(zhuǎn)換、平滑濾波處理、降噪以及各種形態(tài)學(xué)變換等。中值濾波和高斯濾波是減少圖像或視頻噪聲的常用技術(shù)。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,一些預(yù)處理方法已經(jīng)融合到深度學(xué)習(xí)模型中。在手語識(shí)別研究中,通常在分割前和后續(xù)階段會(huì)調(diào)整輸入圖像大小,以減少計(jì)算負(fù)載。降低輸入圖像的分辨率也能提高計(jì)算效率。文獻(xiàn)[31]對Sobel邊緣檢測、低通濾波、直方圖均衡化、閾值化和去飽和等圖像預(yù)處理方法進(jìn)行了性能分析和比較。實(shí)驗(yàn)表明,當(dāng)預(yù)處理方法僅有去飽和操作組成時(shí),取得了最佳的效果,分類精度可達(dá)83.15%。Pansare等人[32]在靜態(tài)手語識(shí)別中,首先對圖像進(jìn)行灰度閾值化得到二值圖像,再使用中值濾波和高斯濾波去除噪聲,最后使用形態(tài)學(xué)操作進(jìn)行圖像預(yù)處理。
手語檢測是檢測圖像中的手部信息,并找出圖像中手部的具體位置。分割是在圖像中分離出手部和其他特征,便于后續(xù)操作,有利于減少計(jì)算量,提高識(shí)別精度。分割方法通常分為兩種,即上下文有關(guān)與上下文無關(guān)。上下文有關(guān)分割考慮到特征之間的空間關(guān)系,比如邊緣檢測技術(shù)。而上下文無關(guān)不考慮空間關(guān)系,而是基于全局屬性對像素進(jìn)行分組。深度學(xué)習(xí)的崛起給手語分割帶來了新的契機(jī),通過海量的數(shù)據(jù)來進(jìn)行訓(xùn)練,自動(dòng)學(xué)習(xí)目標(biāo)手語特征從而完成目標(biāo)手語的檢測,通過檢測出來的目標(biāo)手語完成相應(yīng)的手語分割。基于深度學(xué)習(xí)的方法與傳統(tǒng)的識(shí)別方法相比,無需人工分析手語特征,使得分割更加便捷,在手語分割方面有較好的應(yīng)用前景。但也存在一些缺點(diǎn),部分網(wǎng)絡(luò)層次結(jié)構(gòu)復(fù)雜,分割速度緩慢,另一方面,部分邊緣信息比較模糊,邊緣檢測精度有待提高?;谀w色的分割是最常用的分割方法。
Yang等人[33]在進(jìn)行手部檢測時(shí),先利用人臉檢測技術(shù)移除臉部區(qū)域后,采用基于膚色的檢測方法得到手部輪廓。對于連續(xù)手語識(shí)別中的時(shí)間分割問題,Huang等人[34]提出了一種具有潛在空間的分層注意網(wǎng)絡(luò)(LSHAN),該網(wǎng)絡(luò)由三部分組成,用于視頻特征表示生成的雙流3D-CNN、用于橋接語義的潛在空間(LS)和基于潛在空間的分層注意網(wǎng)絡(luò)(HAN),雙流3D-CNN從視頻中提取全局-局部時(shí)空特征,層次關(guān)注網(wǎng)絡(luò)(HAN)是LSTM的一個(gè)擴(kuò)展,用于將手語映射為文本序列,LS對兩種信息進(jìn)行整合。LS-HAN巧妙地規(guī)避了動(dòng)態(tài)手語不易進(jìn)行時(shí)間分割的難題。
動(dòng)態(tài)手語識(shí)別除了進(jìn)行手部檢測和分割外,還需要對手部進(jìn)行跟蹤來識(shí)別其動(dòng)態(tài)特征。跟蹤是追蹤分割出的手部特征信息與時(shí)序上連續(xù)的圖像幀信息相對應(yīng),以理解觀察到的手部變化。成功的跟蹤可以提高識(shí)別精度,從而解釋手部的位置、姿勢或手勢所傳達(dá)的語義。手的形狀變化、物體遮擋或背景環(huán)境等因素使得手部跟蹤更具有挑戰(zhàn)性。常用的手勢跟蹤算法有粒子濾波[35]、Camshift算法[36]、Meanshift[37]算法、KLT[38]算法等。
Roy等人[39]利用膚色檢測和輪廓提取技術(shù)對視頻中的手語進(jìn)行檢測,然后利用Camshift算法對手部進(jìn)行跟蹤,最后利用HMM對手語進(jìn)行分類。Saboo等人[40]進(jìn)行手部檢測時(shí),首先對人臉進(jìn)行檢測和移除,然后使用YCbCr顏色空間進(jìn)行皮膚過濾,三幀差分法用于檢測手的運(yùn)動(dòng)。利用基于特征和基于顏色的跟蹤方法實(shí)現(xiàn)手勢跟蹤。對KTL算法增加了特征點(diǎn)的數(shù)量,大幅減少了手部形狀和照明條件等因素造成的影響。隨后采用基于顏色的Camshift算法對手部邊緣區(qū)域進(jìn)行二次檢測。
將輸入數(shù)據(jù)中的感興趣部分轉(zhuǎn)換成特征集稱為特征提取。完成手部分割和跟蹤后,需要提取圖像中的特征信息。特征不但包括時(shí)間信息,還包括空間信息。動(dòng)態(tài)手語識(shí)別中的特征可以分為局部特征、全局特征和融合特征。局部特征主要提取圖像序列變化較為明顯的局部特征點(diǎn),主要包括角點(diǎn)、興趣點(diǎn)等,旨在尋找圖像中的對應(yīng)點(diǎn)和對應(yīng)區(qū)域。全局特征在深度圖像的基礎(chǔ)上提取特征,包括紋理、形狀等,旨在獲取圖像的表征信息。融合特征主要包含全局特征和局部特征兩種。Pankajakshan等人[41]利用灰度轉(zhuǎn)換和閾值化方法對圖像進(jìn)行預(yù)處理,采用HSV顏色模型對手進(jìn)行分割,Canny邊緣檢測算法作為圖形特征提取方法。Yasir等人[42]首先對歸一化后的手語圖像采用高斯分布和灰度轉(zhuǎn)換技術(shù)進(jìn)行預(yù)處理,尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)用于從手語圖像中提取特征,對獲取的特征利用K-means算法進(jìn)行聚類,利用SVM進(jìn)行分類。基于深度學(xué)習(xí)的手語識(shí)別方法由于強(qiáng)大的自主學(xué)習(xí)能力無需人工提取特征。
手語分類是對提取的手語時(shí)空特征進(jìn)行分類,是實(shí)現(xiàn)手語識(shí)別的最后一個(gè)階段。用提取到的手語特征信息對測試數(shù)據(jù)集進(jìn)行分類和識(shí)別。常見的分類方法有DTW、SVM、HMM和基于神經(jīng)網(wǎng)絡(luò)的方法。近年來,基于深度神經(jīng)網(wǎng)絡(luò)的方法在計(jì)算機(jī)視覺、圖像處理等領(lǐng)域取得了重大突破。因此,基于深度學(xué)習(xí)的手語識(shí)別方法成為了主流。
傳統(tǒng)的識(shí)別方法需要針對手語數(shù)據(jù)集來訓(xùn)練特定的分類模型,且訓(xùn)練的數(shù)據(jù)量有限,不適用于大型數(shù)據(jù)集,難以推廣和使用。基于深度學(xué)習(xí)的識(shí)別方法由于強(qiáng)大的自主學(xué)習(xí)能力和自適應(yīng)性等優(yōu)點(diǎn),普遍應(yīng)用于手語識(shí)別領(lǐng)域。深度學(xué)習(xí)方法可以自動(dòng)提取圖像特征用于自學(xué)習(xí),學(xué)習(xí)分類強(qiáng),容錯(cuò)性高,逐漸成為了研究人員的關(guān)注熱點(diǎn)。
DTW算法是基于模板匹配的方法,在手語識(shí)別中用于比較參考數(shù)據(jù)與捕捉的數(shù)據(jù)之間的相似性。Plouffe等人[43]使用k-Curvate算法在輪廓上定位指尖后,使用DTW算法來選擇手勢候選,并將觀察到的手勢與一系列預(yù)先記錄的參考手勢進(jìn)行比較來識(shí)別手勢。對55種靜態(tài)和動(dòng)態(tài)手勢的平均識(shí)別率為92.4%。但是該方法受數(shù)據(jù)集大小的限制,在手語數(shù)量大、手勢復(fù)雜和手語組合的情況下,識(shí)別效果和穩(wěn)定性較差。Gibran等人[44]利用Kinect收集了20個(gè)孤立詞,骨架關(guān)節(jié)點(diǎn)作為輸入計(jì)算每個(gè)關(guān)節(jié)位置之間的最小歐氏距離,并利用DTW算法進(jìn)行分類。Ahmed等人[45]首先利用基于膚色檢測方法對輸入數(shù)據(jù)進(jìn)行二值化得到臉部和雙手區(qū)域,根據(jù)連續(xù)幀之間手的方向以及距離幀中心的距離跟蹤手部軌跡,然后基于分析手部位置和人臉中心的變化進(jìn)行識(shí)別,并利用DTW算法計(jì)算訓(xùn)練和測試數(shù)據(jù)間的相似性。DTW算法沒有采用統(tǒng)計(jì)模型框架進(jìn)行訓(xùn)練,同時(shí)難以聯(lián)系上下文的語義信息,因此在解決大數(shù)據(jù)量、復(fù)雜手勢等問題時(shí)存在劣勢。
HMM是一種基于貝葉斯的統(tǒng)計(jì)模型,主要用于處理基于時(shí)間序列或狀態(tài)序列的問題。早期HMM在語音識(shí)別和手寫字體識(shí)別中得到了良好的識(shí)別效果。Starner等人[46-47]于1995年提出了一種基于隱馬爾可夫模型的美國手語識(shí)別方法。要求操作者在兩只手上戴著不同的彩色手套,對包含40個(gè)詞匯的99個(gè)測試句子進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,該方法的準(zhǔn)確率達(dá)到90.7%。1998年,他們又提出了基于兩種不同角度的手語識(shí)別方法,并使用HMM實(shí)現(xiàn)了基于計(jì)算機(jī)視覺的手語識(shí)別。Koller等人[48]將CNN嵌入到HMM中,該框架結(jié)合了CNN的強(qiáng)識(shí)別能力和HMM的序列建模能力,并在三種連續(xù)手語識(shí)別數(shù)據(jù)集上進(jìn)行了驗(yàn)證,得到了良好的識(shí)別結(jié)果。
CNN在許多基于圖像的計(jì)算機(jī)視覺任務(wù)中取得了巨大的成功,并被擴(kuò)展到視頻識(shí)別領(lǐng)域。CNN通過不同通道數(shù)的卷積層、池化層等結(jié)構(gòu)盡可能多地提取特征信息,盡量減少人工設(shè)計(jì)細(xì)節(jié),通過監(jiān)督學(xué)習(xí)把計(jì)算機(jī)的計(jì)算能力發(fā)揮出來,主動(dòng)尋找合適的特征數(shù)據(jù)。在機(jī)器學(xué)習(xí)中,CNN是一種深度前饋人工神經(jīng)網(wǎng)絡(luò),其利用多層感知器的變化來達(dá)到最小的預(yù)處理,是一種共享權(quán)值架構(gòu)。CNN主要分為一維、二維和三維卷積神經(jīng)網(wǎng)絡(luò)。在手語識(shí)別中通常采用二維卷積神經(jīng)網(wǎng)絡(luò)和三維卷積神經(jīng)網(wǎng)絡(luò)。
Kopuklu等人[49]提出了一種分層的雙流CNN模型,通過使用滑動(dòng)窗口方法對RGB和深度視頻兩種模式的實(shí)時(shí)手勢檢測和分類進(jìn)行在線高效運(yùn)行。其中,輕量級(jí)CNN用于檢測手勢,再用深度CNN對檢測到的手勢進(jìn)行分類。Pigou等人[50]提出一種基于CNN的手語識(shí)別方法,在ChaLearn數(shù)據(jù)集中的20種單詞進(jìn)行識(shí)別,采用兩組不同的輸入數(shù)據(jù)分別用CNN提取手部特征以及上半身特征。采用滑動(dòng)窗口法進(jìn)行時(shí)間分割,利用人工神經(jīng)網(wǎng)絡(luò)進(jìn)行分類。
三維卷積神經(jīng)網(wǎng)絡(luò)提取整個(gè)視頻的時(shí)空特征,以獲得更全面的信息。3D-CNN通過三維卷積,從空間和時(shí)間維度上提取特征信息,從而捕獲多個(gè)相鄰幀中手語的運(yùn)動(dòng)信息。該模型從輸入幀中生成多個(gè)通道的信息,并將各個(gè)通道的信息結(jié)合起來得到最終的特征表示。Nutisa等人[51]利用Kinect收集了64個(gè)泰語孤立詞作為視頻流,并利用3D-CNN作為網(wǎng)絡(luò)模型來學(xué)習(xí)時(shí)間和空間特征。Jing等人[52]提出了基于3D-CNN的多通道多模態(tài)框架,其中多通道包含顏色、深度和光流信息,多模態(tài)包括手勢、面部表情和身體姿勢。
Huang等人[53]提出了一種基于多模態(tài)輸入的3DCNN網(wǎng)絡(luò)模型,多模態(tài)輸入包括顏色、深度和骨架關(guān)節(jié)點(diǎn)信息。通過對相鄰視頻幀進(jìn)行卷積和次采樣來集成多模態(tài)信息。在自己構(gòu)建的25個(gè)孤立詞數(shù)據(jù)集上比較了3D-CNN和GMM-HMM模型。實(shí)驗(yàn)結(jié)果表明,3D-CNN的準(zhǔn)確率達(dá)到94.2%,高于傳統(tǒng)的GMM-HMM模型。
RNN在語音識(shí)別、機(jī)器翻譯、計(jì)算機(jī)視覺等領(lǐng)域都取得了成功,它的一個(gè)顯著的優(yōu)勢是能處理不同長度的輸入,有效地提取幀間時(shí)序特征。LSTM作為RNN的改進(jìn),加入了一個(gè)用于判斷信息是否有用的處理器,因此LSTM普遍應(yīng)用于時(shí)序分類。LSTM不僅能夠感應(yīng)手語中的時(shí)間變化,而且還能夠?qū)W習(xí)到手勢變化的對應(yīng)關(guān)系,從而進(jìn)一步改進(jìn)手語分類[54]。一些手語動(dòng)作進(jìn)行識(shí)別時(shí)需要較長時(shí)間,因此許多研究人員使用LSTM網(wǎng)絡(luò)來預(yù)測手語的下一步動(dòng)作。Liu等人[55]提出了以4個(gè)骨架關(guān)節(jié)點(diǎn)的運(yùn)動(dòng)軌跡作為輸入的基于LSTM的手語識(shí)別模型。Xiao等人[56]提出了基于雙LSTM和一對HMM的手語識(shí)別方法用于孤立詞和連續(xù)語句識(shí)別,其中雙LSTM用于融合手和骨架序列信息,一對HMM用于分類。
基于混合網(wǎng)絡(luò)模型的手語識(shí)別廣泛應(yīng)用于動(dòng)態(tài)手語識(shí)別領(lǐng)域。其目的是利用各個(gè)模型的優(yōu)點(diǎn)來提高識(shí)別精度。Cui等人[57]提出了一種完全基于視頻序列的RNN用于連續(xù)手語識(shí)別。通過引入RNN進(jìn)行時(shí)空特征和序列學(xué)習(xí)來解決視頻序列和標(biāo)簽序列對齊問題。網(wǎng)絡(luò)模型由4個(gè)部分組成,CNN用于時(shí)空表征學(xué)習(xí);BLSTM用于學(xué)習(xí)特征序列與標(biāo)簽序列的映射;CTC作為對齊方案的目標(biāo)函數(shù);基于滑動(dòng)窗口的檢測網(wǎng)絡(luò)用于正則化預(yù)測序列和檢測結(jié)果之間的一致性。
Ye等人[58]提出了三維循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(3DRCNN),該模型結(jié)合了3D-CNN與全連接循環(huán)神經(jīng)網(wǎng)絡(luò)(FC-RNN),其中3D-CNN從顏色、光流和深度通道中學(xué)習(xí)多模態(tài)特征,F(xiàn)C-RNN獲取從原始視頻分割的視頻序列時(shí)序信息。
Masood等[59]提出了CNN和RNN混合模型,其中CNN網(wǎng)絡(luò)Inception模型用于提取空間特征,RNN用于提取時(shí)間特征。該網(wǎng)絡(luò)模型使用了兩種不同的方法來對時(shí)空特征進(jìn)行分類,第一種方法中,使用Inception模型提取單個(gè)幀的空間特征,使用RNN提取時(shí)間特征。然后,每個(gè)視頻都由CNN對每個(gè)幀的一系列預(yù)測來表示。這將作為RNN的輸入。第二種方法中CNN被用來訓(xùn)練模型的空間特征,并在池化層輸出進(jìn)行預(yù)測之前將池化層輸出傳遞給RNN。得到的結(jié)果分別為80.87%和95.21%。
Zhang等人[60]提出了一種基于3D-CNN和卷積LSTM交替融合的神經(jīng)網(wǎng)絡(luò)模型用于動(dòng)態(tài)手勢識(shí)別,每個(gè)手勢視頻被分割成16個(gè)連續(xù)幀,再把這些幀序列輸入到三組交替出現(xiàn)的3D-CNN和卷積LSTM中進(jìn)行多次特征提取和預(yù)測,分別在三種數(shù)據(jù)集上進(jìn)行了驗(yàn)證。卷積LSTM是基于卷積運(yùn)算和LSTM提出的一種網(wǎng)絡(luò)結(jié)構(gòu),它不僅像CNN一樣提取空間特征,還可以像LSTM一樣構(gòu)建時(shí)間序列模型。
Li等人[61]提出了關(guān)鍵動(dòng)作和聯(lián)合CTC的連續(xù)語句識(shí)別模型。首先ResNet用于提取每幀的空間特征,然后用三層BLSTM從手語視頻中提取關(guān)鍵動(dòng)作的特征,逐步獲得從幀到動(dòng)作,從動(dòng)作到單詞,從單詞到句子的層次關(guān)系。并引入LSTM從目標(biāo)句中捕獲上下文語義,聯(lián)合訓(xùn)練CTC和LSTM來優(yōu)化序列對齊和依賴關(guān)系。
根據(jù)上述提到的手語識(shí)別方法,按手語識(shí)別三個(gè)分支,可以總結(jié)出靜態(tài)手語識(shí)別相關(guān)工作如表2所示,孤立詞識(shí)別技術(shù)及代表性工作如表3所示,基于深度學(xué)習(xí)的連續(xù)語句識(shí)別技術(shù)及代表性工作如表4所示。
表2 靜態(tài)手語識(shí)別相關(guān)工作Table 2 Summary of static sign language recognition
表3 孤立詞識(shí)別相關(guān)工作Table 3 Summary of isolated sign language recognition
表4 連續(xù)語句識(shí)別相關(guān)工作Table 4 Summary of continuous sign language recognition
常用的手語數(shù)據(jù)集如表5所示。其中,CSL和RWTHPHOENIX-Weather是最常用的公開數(shù)據(jù)集。CSL是由中國科學(xué)大學(xué)于2015年采用Kinect 2.0錄制的,包括連續(xù)語句和孤立詞兩部分,每個(gè)實(shí)例均包含RGB視頻、深度視頻和骨架關(guān)節(jié)點(diǎn)坐標(biāo)序列。孤立詞數(shù)據(jù)集包含500個(gè)單詞,由50名操作者演示5次。連續(xù)語句包含100個(gè)句子,總時(shí)長超過100個(gè)小時(shí),詞匯量達(dá)178個(gè),每個(gè)視頻實(shí)例都由一名專業(yè)的手語教師進(jìn)行語義標(biāo)記。
表5 手語數(shù)據(jù)集總結(jié)Table 5 Summary of sign language datasets
RWTH-PHOENIX-Weather數(shù)據(jù)集由德國亞琛工業(yè)大學(xué)錄制,用于德國鳳凰公共電視臺(tái)每日新聞及天氣預(yù)報(bào)節(jié)目的手語解說。分別于2012年、2014年錄制,其中2014年版本是對2012年版本的擴(kuò)充。
中國手語識(shí)別主要是在CSL數(shù)據(jù)集或自制的小型數(shù)據(jù)集上進(jìn)行研究。Pu等人[72]在2016年首次將3D-CNN用于中國手語識(shí)別。作者提出了一種基于RGB視頻和關(guān)節(jié)軌跡兩個(gè)通道數(shù)據(jù)的手語識(shí)別框架,用于CSL中500個(gè)孤立詞的識(shí)別。關(guān)節(jié)軌跡中,關(guān)注雙手和肘部4個(gè)關(guān)節(jié)點(diǎn),形成形狀上下文特征矩陣,利用LeNet進(jìn)行特征提取。在原始RGB視頻中提取出70×70像素的邊界框的手部區(qū)域,使用3D-CNN提取特征。最后,將這兩種特征信息融合起來利用SVM進(jìn)行分類。
對于連續(xù)語句識(shí)別中句子分割和單詞對齊問題,Xiao等人[73]提出了雙向時(shí)空LSTM融合注意力網(wǎng)絡(luò)(Bi-ST-LSTM-A),繞過了序列分割步驟。對于輸入的RGB視頻,使用雙流Faster R-CNN檢測幀圖像中的人臉和手部,分別分析全局運(yùn)動(dòng)信息和局部手勢表示,隨后將這兩類信息輸入ST-LSTM進(jìn)行時(shí)空信息融合。注意力機(jī)制與Bi-ST-LSTM編解碼框架相結(jié)合將特征序列翻譯成文本句子。雖然該方法具有較高的識(shí)別精度,但訓(xùn)練時(shí)間較長。
Hu等人[74]提出了一種全局-局部增強(qiáng)網(wǎng)絡(luò)(Global-Local Enhancement Network,GLE-Net)用于連續(xù)語句識(shí)別,并提出了一個(gè)關(guān)注非手性特征的漢語孤立詞手語數(shù)據(jù)集(NMFs-CSL)。輸入視頻首先通過幾個(gè)卷積層來進(jìn)行特征提取。全局增強(qiáng)模塊捕獲全局上下文關(guān)系,而局部增強(qiáng)模塊用于強(qiáng)調(diào)細(xì)粒度線索。兩個(gè)模塊相互促進(jìn),以相互提升。最后,通過這兩個(gè)分支的融合進(jìn)行預(yù)測。
美國手語(ASL)是美國和加拿大英語地區(qū)聾啞人最常用的語言。Li等人[75]提出了一種新的大型美國孤立詞手語數(shù)據(jù)集,數(shù)據(jù)集以互聯(lián)網(wǎng)為主要來源,經(jīng)過嚴(yán)格篩選和整理,包含2 000多個(gè)單詞,共有20 863個(gè)視頻。該數(shù)據(jù)集有119操作者參與錄制,每個(gè)操作者至少演示3次。且在每個(gè)視頻中,一個(gè)操作者在不同背景下演示同一個(gè)單詞,這將極大提高算法的魯棒性。文獻(xiàn)[76]中,作者提出了一種基于游戲的實(shí)時(shí)美國手語學(xué)習(xí)應(yīng)用程序原型。由于ASL字母中同時(shí)存在靜態(tài)和動(dòng)態(tài)符號(hào)(J,Z),因此采用基于輸入序列處理的LSTM和k-近鄰法的分類方法。使用Leap Motion傳感器,通過提取單手的30個(gè)特征點(diǎn)來進(jìn)行識(shí)別,準(zhǔn)確率為91.82%。但是這項(xiàng)研究有幾個(gè)局限性。首先,Leap Motion傳感器的位置、角度和用戶數(shù)量會(huì)影響模型的準(zhǔn)確性。其次,Leap Motion傳感器可以檢測到多個(gè)手勢,但該方法僅限于識(shí)別一個(gè)手勢。最后,該方法只考慮右手樣本和訓(xùn)練,而實(shí)際手語中需要雙手來進(jìn)行操作。
德國手語識(shí)別主要是基于RWTH-PHOENIX-Weather系列數(shù)據(jù)集進(jìn)行研究。Cui等人[77]提出了一種基于迭代訓(xùn)練實(shí)現(xiàn)連續(xù)手語識(shí)別的深度神經(jīng)框架,采用具有疊加時(shí)間融合層的深度CNN作為特征提取模塊,引入BLSTM作為序列學(xué)習(xí)模塊。將RGB和光流數(shù)據(jù)融合作為輸入在RWTH-PHOENIX-Weather-2014數(shù)據(jù)集上的單詞錯(cuò)誤率為22.86%。Koller等人[78]提出了一種針對視頻流的弱監(jiān)督學(xué)習(xí)方法,側(cè)重于順序并行學(xué)習(xí),在三流HMM中嵌入了CNN-LSTM模型,三流之間具有中間同步約束的弱監(jiān)督學(xué)習(xí)機(jī)制,三流CNN-LSTM-HMM網(wǎng)絡(luò)分別用于學(xué)習(xí)手語標(biāo)簽、嘴形和手形特征。使用該方法后WER降低到26.0%。
主要介紹了手語識(shí)別中最有代表性的三種手語識(shí)別。根據(jù)本文所提到的相關(guān)工作可以發(fā)現(xiàn)隨著深度學(xué)習(xí)技術(shù)的進(jìn)步,手語識(shí)別領(lǐng)域近年來迎來了飛速發(fā)展。由于CNN強(qiáng)大的特征提取能力,大多數(shù)算法都利用CNN從輸入圖像中提取特征。在視頻輸入的情況下,大多數(shù)模型中都使用了RNN和LSTM來學(xué)習(xí)序列信息。此外,一些模型還結(jié)合了兩種或更多的方法,以提高識(shí)別精度。同時(shí),模型中還使用了不同類型的輸入數(shù)據(jù),如RGB信息、深度信息、骨架關(guān)節(jié)點(diǎn)、光流信息等。在具體細(xì)節(jié)方面,攝像機(jī)和Kinect正在成為主要的數(shù)據(jù)獲取方法,HMM和SVM是使用最多的分類方法,CNN也被廣泛應(yīng)用。
美國手語識(shí)別研究主要是以RGB信息為主導(dǎo)。自2015年以來,CSL數(shù)據(jù)集的出現(xiàn)使中國手語識(shí)別迅速發(fā)展。中國手語識(shí)別近年來大多使用深度信息和RGB信息相結(jié)合的方式。德語手語和大多數(shù)其他手語主要基于RGB信息進(jìn)行識(shí)別。從連續(xù)手語識(shí)別研究趨勢的角度來看,RWTH-PHOENIX-Weather數(shù)據(jù)集目前已成為手語識(shí)別領(lǐng)域的標(biāo)準(zhǔn)基準(zhǔn)數(shù)據(jù)集。因該數(shù)據(jù)集詞匯量大的優(yōu)勢,德國手語識(shí)別研究比較領(lǐng)先。中國手語識(shí)別需要考慮的一個(gè)問題是,連續(xù)語句識(shí)別滯后于孤立詞識(shí)別,這將是今后的研究重點(diǎn)。然而無論是什么語種的手語研究,都只針對手形和時(shí)空特征,缺少對面部表情和身體因素的融合。
手語識(shí)別在計(jì)算機(jī)視覺,人機(jī)交互等領(lǐng)域有著廣泛的應(yīng)用潛力,一直是一項(xiàng)持續(xù)的研究熱點(diǎn)。但由于以下原因手語識(shí)別的魯棒性和準(zhǔn)確性仍待提高:
(1)由于視頻數(shù)據(jù)比圖像數(shù)據(jù)規(guī)模大且復(fù)雜,在有限的GPU內(nèi)存中難以有效地處理視頻數(shù)據(jù)。與二維圖像數(shù)據(jù)相比,視頻數(shù)據(jù)中增加了時(shí)間維度,使識(shí)別難度提升。因此動(dòng)態(tài)手語識(shí)別比靜態(tài)手語識(shí)別更有難度和挑戰(zhàn)性。對此,需要在今后的研究中增加模型的上下文語序銜接結(jié)構(gòu),提高模型聚合時(shí)空信息的能力。
(2)大多數(shù)現(xiàn)有的數(shù)據(jù)集均在實(shí)驗(yàn)室環(huán)境下錄制,背景比較單一,難以支撐面向?qū)嶋H復(fù)雜環(huán)境下算法驗(yàn)證的應(yīng)用落地。目前大多數(shù)手語識(shí)別的研究仍停留在使用公開數(shù)據(jù)集或自制數(shù)據(jù)集的層面。這種研究方式不具有泛化性,不易于推廣和使用。對此,在今后的研究發(fā)展中,需要采集詞匯量大、涉及范圍廣、且在自然環(huán)境下錄制的大型連續(xù)語句數(shù)據(jù)集。
(3)在日常手語交流中,除手勢之外,還會(huì)使用面部表情、唇形和頭部運(yùn)動(dòng)等非手性特征。然而,目前絕大多數(shù)手語識(shí)別研究只關(guān)注手部姿勢和位置移動(dòng),而忽略了非手性特征。因此,將手性特征和非手性特征相結(jié)合的手語識(shí)別將成為這一研究領(lǐng)域的重點(diǎn)。在手語識(shí)別中還應(yīng)關(guān)注人臉、身體和手等視覺角度進(jìn)行多模態(tài)集成,提高模型的泛化性。
(4)手部的遮擋、背景環(huán)境、不同的光照背景、操作者服裝等因素對識(shí)別結(jié)果起到了干擾作用,但這些因素與自然環(huán)境息息相關(guān)。在今后的研究中,手語識(shí)別研究應(yīng)將與自然環(huán)境相結(jié)合以提高識(shí)別的適應(yīng)性和魯棒性。
(5)嵌入到實(shí)際應(yīng)用中的模型難以應(yīng)用到低端設(shè)備,開發(fā)輕量級(jí)模型以方便實(shí)際使用。在應(yīng)用方面,深度學(xué)習(xí)方法已成功地應(yīng)用于與手語識(shí)別領(lǐng)域相關(guān)的許多領(lǐng)域,預(yù)計(jì)不久的將來,手語應(yīng)用領(lǐng)域不僅會(huì)擴(kuò)展到聾啞人,也會(huì)擴(kuò)展到社會(huì)中其他依賴手語作為日常交流中語言交流的補(bǔ)充語言的人。因此,還有很多的改進(jìn)空間,需要更多的研究和投資。
雖然已有許多模型應(yīng)用于手語識(shí)別,但需要進(jìn)行進(jìn)一步的研究來提出精度更高且能實(shí)時(shí)應(yīng)用于實(shí)際生活的模型。大多數(shù)的模型是仍停留在孤立詞手語識(shí)別的范疇。然而解決連續(xù)手語識(shí)別仍存在諸多挑戰(zhàn),未來在連續(xù)手語識(shí)別任務(wù)中仍有較大提升空間,包括實(shí)時(shí)進(jìn)行手語識(shí)別、能應(yīng)用于低端設(shè)備、同時(shí)關(guān)注手性特征和非手性特征的模型。手語識(shí)別任務(wù)應(yīng)結(jié)合不同領(lǐng)域交叉融合,構(gòu)建更加輕量、準(zhǔn)確、實(shí)時(shí)的人機(jī)交互方式。