馬春華 邵俊倩 秦 兵
(綏化學院 黑龍江綏化 152061)
作為人口大國的我國,聾啞學生不在少數(shù),聽障學生的教育更是備受矚目,近些年得到國家及全社會的高度重視。黑龍江省擁有聽障基礎(chǔ)教育加高等教育的完整聽障生教育體系,為聽障生高質(zhì)量的課堂教學提供了有力保障。手語是聽障生課堂教學中的主要交流手段,但以健聽人為主的手語識別越來越不能滿足聽障生課堂教學的需求。究其原因,主要有兩個方面:(1)不同課程都存在大量的特有非通用手語,且存在變種表達,不同的聽障生對同一復雜抽象概念的表達存在很大差異,這加大了健聽人對手語識別的難度。首先是詞匯方面的原因。因為現(xiàn)有手語構(gòu)成元素主要來自視覺化元素,包含少量的非視覺和抽象概念元素,其對抽象概念的表述還無法像自然語言那樣豐富有力。當涉及抽象概念的課程教學時,標準手語的現(xiàn)有詞匯有時也不能充分自如地表達這些復雜的抽象概念,甚至這些專業(yè)課中涉及的很多概念在現(xiàn)有《中國手語》手冊和專有詞匯手語手冊里根本沒有對應手語。然后是手語詞匯組合方面的原因。因為手語表達比自然發(fā)音要慢很多,當表達一個句子時,聽障生會自然的省略一些非關(guān)鍵詞以加快速度,同時會有一些詞語順序及組合規(guī)則的變形。不同的聽障生對這種詞語組合規(guī)則存在強烈的個性化特征,所以課堂教學中存在大量的非通用手語表達,這進一步加大了健聽人對手語識別的難度。(2)不同地域聽障生的手語表達習慣差別很大,加之不同課程都有自己特定概念的手語,這導致教師和學生需要記憶并練習大量的非標準手語,進一步導致健聽人手語識別的困難。鑒于健聽人手語識別存在的困境,部分研究者很早就旨在通過技術(shù)手段對手語實現(xiàn)機器識別,如,數(shù)據(jù)手套、Kinect體感攝像機等,但因為其中的軟件對手語的識別準確率太低,從而無法大規(guī)模應用在聽障生課堂教學中。
近年來,基于神經(jīng)網(wǎng)絡(Neural Network,NN)的深度學習在很多領(lǐng)域都實現(xiàn)了技術(shù)突破,其中,圖深度學習的發(fā)展尤其引人注目,有望使手語識別精度大幅度提高從而達到實用水平。目前,已有部分研究者進行了基于深度學習技術(shù)的手語識別研究,但鑒于技術(shù)難度,還遠未達到實用化水平。下面將對國內(nèi)外手語識別的純技術(shù)研究做出梳理,其中重點關(guān)注基于深度學習的手語識別技術(shù)。
有效的手語識別(Sign Language Recognition,SLR)系統(tǒng)可以通過手勢識別促進與聽力障礙者之間的交流。與區(qū)域口語相似,不同地區(qū)也發(fā)展了各自的手勢表征(如美國手語(ASL)、德國手語(GSL)、印度手語(ISL)等)。中國手語(Chinese Sign Language,CSL)是我國聽力障礙人群的主要交際手段,它可以縮短聽障者與健康人之間的距離,幫助他們更好地學習并融入社會。由于手部形狀和動作的變化為識別過程增加了許多難度與挑戰(zhàn),使得SLR成為手語應用研究的重點之一。傳統(tǒng)用于SLR的方法主要有:模板匹配方法(template matching)、隱馬爾可夫模型(Hidden Markov Model,HMM)及NN等方法。其中,模板匹配方法是最簡單的手勢識別方法,該方法的優(yōu)點是易于模板的建立與改進,且能有效地識別,對于小詞匯表孤立詞識別系統(tǒng)十分適用。HMM是概率統(tǒng)計方法中最具有代表性的方法,與HMM結(jié)合最為緊密的算法當屬Viterbi算法。NN方法具有很強的分類特性及抗干擾特性,但由于其處理時間序列的能力不強,目前廣泛用于靜態(tài)手勢的識別。
傳統(tǒng)的SLR方法都有其各自的局限性,隨著科學技術(shù)不斷地發(fā)展與進步,給一些專家學者提供了新的思路??紤]將傳統(tǒng)方法相融合以彌補各自的不足,如將HMM與動態(tài)時間規(guī)整算法(Dynamic Time Warping,DTW)相結(jié)合[1],HMM與支持向量機(Support Vector Machine,SVM)相結(jié)合[2]、HMM與NN相結(jié)合[3-4]及模糊邏輯與NN相結(jié)合[5-6]的手語識別技術(shù)。
(一)HMM與DTW相結(jié)合的手語識別技術(shù)。DTW算法是SLR的經(jīng)典算法,其最顯著的優(yōu)點是識別精度高,系統(tǒng)的復雜度低。該算法的缺點是需要對大量路徑及其中的所有節(jié)點進行匹配計算,導致計算量太大,所以需要通過全局路徑約束和端點限制方法對其改進,使之滿足SLR的需要。為提高大詞匯量SLR速度,姚等人[1]提出了一種將DTW和HMM相結(jié)合的多層次大詞匯量SLR方法。該方法的思想是先進行全局粗略搜索,將要識別的手勢詞歸入某一組范圍較小的詞表中,然后通過更加精確的HMM局部搜索將詞識別出來。實驗結(jié)果表明,相對于僅用HMM單層識別而言,識別速度和識別準確率都有所提高。
(二)HMM與SVM相結(jié)合的手語識別技術(shù)。SVM是一種較為成功的統(tǒng)計學習方法,在模式識別領(lǐng)域尤其是圖像處理領(lǐng)域應用較為廣泛。針對HMM與SVM各自的優(yōu)勢,趙[2]提出了基于HMM的CSL方法,通過應用Sugeno模糊積分,計算機圖形學識別的圖像處理技術(shù),采用直方圖的特征可以將手型的區(qū)域從背景中分離出來,進一步通過降維處理,將得到的手部圖像去除手部以外的區(qū)域,從而得到手的輪廓,使得不攜帶其他相關(guān)手套工具,達到靜態(tài)簡單手語識別,其正確率達到了85%以上,證明這種方法在CSL識別上的可行性。
(三)HMM與NN相結(jié)合的手語識別技術(shù)。一般結(jié)構(gòu)下的HMM方法能夠有效地處理手勢信號的時間特性,因而在SLR領(lǐng)域一直占有主導地位。然而HMM拓撲結(jié)構(gòu)的一般性致使該模型在分析手語信號時過于復雜,特別是對于連續(xù)的或半連續(xù)的HMM,需要計算大量的狀態(tài)概率密度和估計大量的參數(shù),因而一般SLR系統(tǒng)均采用離散的HMM。對于標準的HMM,它的一個主要局限在于要求對應于每個狀態(tài)手勢段的手勢向量是獨立的,并且缺少分類特性。因此,早在1999年,吳等人[3]就給出了NN與HMM相結(jié)合的混合方法作為手語的訓練識別方法,以增加識別方法的分類特性和減少模型的估計參數(shù)的個數(shù)。其實驗結(jié)果表明將NNHMM混合方法應用于有18個傳感器的Cyber Glove型號數(shù)據(jù)手套的CSL識別系統(tǒng)中是有效和可行的。2018年,M.Suresh Anand等人[4]開發(fā)了ISL識別系統(tǒng)。該系統(tǒng)對輸入圖像進行預處理后,采用離散小波變換(DWT)提取手勢特征。使用HMM和ANN進行分類,該系統(tǒng)提高了識別的準確性。
(四)模糊邏輯與NN相結(jié)合的手語識別技術(shù)?,F(xiàn)在的一些識別方法是將傳統(tǒng)的模型與NN模型進行串聯(lián)或者嵌入,以同時利用兩類模型的優(yōu)勢。將模糊邏輯理論運用到手語識別技術(shù)當中,早在2003年,Zou等人利用數(shù)據(jù)手套CAS Glove作為輸入設備,提出了一種基于模糊神經(jīng)網(wǎng)絡(FNN)的中國手語單手靜態(tài)詞匯的識別方法[5]。同年,Zou等人[6]又結(jié)合漢語手語中手勢的特點,采用人手的三維空間位置信息作為觀測向量,將模糊理論與HMM理論有機結(jié)合,提出了一種基于FSMM的CSL手勢識別方法。
經(jīng)典的手語識別方法,由于信息冗余、人的手指遮擋、運動模糊、不同人的簽名風格多樣等,識別精度不夠高。為了克服傳統(tǒng)方法的缺點,國內(nèi)外研究者投入了大量的經(jīng)歷,致力于SLR新方法新技術(shù)的研究,近幾年涌現(xiàn)了大量的SLR新方法。深度學習技術(shù)的蓬勃發(fā)展為更準確和實時的SLR帶來了新的機會。目前出現(xiàn)的基于深度學習的手語識別技術(shù)主要包括基于卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)、圖神經(jīng)網(wǎng)絡(Graph Neural Network,GNN)及多種方法融合的手語識別技術(shù)。
(一)基于CNN的手語識別技術(shù)。CNN是深度學習的一種重要形式,CNN致力于處理具有相似網(wǎng)絡結(jié)構(gòu)的數(shù)據(jù),如時間序列和圖像數(shù)據(jù)。此外,CNN的自學習和自組織能力,在許多應用領(lǐng)域,特別是圖像分類和輔助臨床診斷,具有良好的應用前景。由于二維CNN模型善于提取圖像特征,根特大學手語團隊很早就提出了一個包含雙二維CNN的SLR系統(tǒng)來提取手部和上半身特征。但常用的二維CNN在處理連續(xù)視頻幀的時候會丟失在時間維度上的特征信息,因此降低了識別準確率。于是,Ji等人[7]針對該缺陷提出利用三維CNN網(wǎng)絡來進行視頻動作的識別,其核心思想是通過3D卷積操作,從時間維度和空間維度構(gòu)建視頻特征,取得了良好的結(jié)果。目前,利用CNN進行SLR的方法仍然是國內(nèi)外專家學者熱衷的行之有效的方法之一。
在國外,Pariwat等[8]開發(fā)了一個具有深度學習功能的多筆畫泰國SLR系統(tǒng)。該系統(tǒng)使用CNN進行學習特征和分類。Barbhuiya等人[9]將CNN應用于手語識別背景下靜態(tài)符號的魯棒建模。Rahaf等人[10]引入了一種基于區(qū)域的卷積神經(jīng)網(wǎng)絡(R-CNN)阿拉伯SLR系統(tǒng),該系統(tǒng)能夠更快地定位和識別阿拉伯手語的字母表。Daniels等人[11]采用YOLO方法進行印尼手語識別,開發(fā)一種能夠?qū)崟r使用只看一次(YOLO)處理視頻輸入的SLR系統(tǒng)。YOLO是一種基于CNN的目標檢測方法,具有準確、快速的特點。Marwa等人[12]提出了一種基于CNN作為分類算法的手勢識別系統(tǒng)的框架。通過將該模型與其他深度學習方法的識別準確性進行比較,驗證了該模型所提出框架的有效性超過了其他模型。
在我國,CNN在漢語手語分類中發(fā)揮著非常重要的作用。Lee等人[13]提出了一種新的雙輸出雙流CNN。它不僅結(jié)合了空間流網(wǎng)絡和運動流網(wǎng)絡,而且有效地緩解了雙流CNN的反向傳播問題,提高了其識別精度。趙等人[14]為了提高3D-CNN在進行動態(tài)手語識別任務時的準確率,參考Resnet50網(wǎng)絡提出了一種雙通道的時空特征提取網(wǎng)絡。該網(wǎng)絡包含一個高采樣頻率分支和一個低采樣頻率分支,分別關(guān)注圖像中的運動信息和語義信息,最終融合兩個分支提取到的特征完成分類識別。Gao等人[15]提出一種用于漢語手語分類的九層CNN。
(二)基于RNN的手語識別技術(shù)。SLR通常被表述為序列比對問題,其中連接主義時態(tài)分類(CTC)在構(gòu)建視頻序列與句子級標簽之間的有效比對中起著重要作用。但是,如果輸出標簽序列比輸入視頻序列長,基于CTC的SLR方法往往會失效。由于RNN能夠?qū)r間序列的長期上下文信息建模,因此適合于分析這種類型的集合。Gao等人[16]提出了一種新的基于RNN傳感器的SLR框架,即視覺層次到詞匯序列比對網(wǎng)絡(visual hierarchy to lexical sequence alignment network-H2SNet),在該框架中,設計了一個視覺層次轉(zhuǎn)錄網(wǎng)絡,在多個層次上捕捉符號視頻的空間外觀和時間運動線索。同時,利用詞匯預測網(wǎng)絡從輸出預測中提取有效的語境信息。RNN-Transducer用于學習序列視頻特征與句子級標簽之間的映射。大量實驗驗證了該方法相對于現(xiàn)有方法的有效性和優(yōu)越性。Avola等人[17]利用人手指骨形成的角度作為特征,對RNN進行訓練,識別的準確率達到96%以上。
(三)基于GNN的手語識別技術(shù)。面對結(jié)構(gòu)復雜并且形狀不規(guī)則的圖數(shù)據(jù)時,傳統(tǒng)的CNN無法對其直接進行處理。GNN的誕生,很好地解決了直接對圖數(shù)據(jù)建模的問題。GNN的出現(xiàn),使得圖數(shù)據(jù)可直接應用于學習過程,從而避免了由于數(shù)據(jù)預處理而丟失結(jié)構(gòu)信息的問題。在驚嘆于CNN的強大性能之時,研究人員也開始考慮如何將卷積應用到GNN中。圖卷積神經(jīng)網(wǎng)絡(GCN)研究在一定意義上彌補了傳統(tǒng)CNN的不足。受益于卷積濾波的高效性,圖卷積模型在多項圖數(shù)據(jù)相關(guān)任務上均取得了令人矚目的成績;同時,基于時空域圖卷積的NN模型[18-21]開始涌現(xiàn)。Meng等人[22]提出了一種基于GCN的多尺度雙手語識別網(wǎng)絡。給出了三種不同的注意機制:多尺度注意機制、時空注意機制和時間注意機制,以進一步提高其魯棒性和準確性。
(四)基于深度學習的混合手語識別技術(shù)。
1.CNN與SVM相結(jié)合的手語識別技術(shù)。Vanita等人[23]利用CNN和SVM對ASL進行識別,并計算了單層和雙層CNN的最優(yōu)濾波大小。第一階段從數(shù)據(jù)集中提取特征,并應用了多種預處理技術(shù)后,在訓練數(shù)據(jù)集上分別應用了4種不同核的SVM,以及單層和雙層CNN對模型進行訓練,最后對兩種技術(shù)的精度進行了計算與比較。
2.CNN與HMM相結(jié)合的手語識別技術(shù)。目前,手勢和SLR領(lǐng)域的大多數(shù)方法都忽視了處理訓練和評價序列數(shù)據(jù)的必要性。Oscar等人[24]構(gòu)建的混合CNN-HMM模型結(jié)合了CNN強大的識別能力和HMM的序列建模能力。通過提出的端到端嵌入,能夠在3個具有挑戰(zhàn)性的基準連續(xù)手語識別任務上比目前的先進水平提高15%~38%的錯誤率,并達到20%的絕對量。分析了CNN結(jié)構(gòu)、網(wǎng)絡預訓練和隱藏狀態(tài)數(shù)的影響,并將混合建模方法與串聯(lián)建模方法進行了比較。
3.CNN與RNN相結(jié)合的手語識別技術(shù)。JO等人[25]利用具有預處理和重疊窗口的卷積遞歸神經(jīng)網(wǎng)絡(CRNN)實時魯棒的識別手勢。CRNN是一種深度學習模型,它結(jié)合了用于時間序列信息分類的長短時記憶(LSTM)和用于特征提取的CNN。用于手勢檢測的傳感器采用Myo-armband,對6個手勢進行識別和分類,包括2個握手、3個手征、1個休息。作為肌電信號數(shù)據(jù)特征的必要預處理,現(xiàn)有的短時傅里葉變換(STFT)、連續(xù)時間小波變換(CWT)和新提出的尺度平均小波變換(SAWT)均被采用。因此,SAWT在靜止環(huán)境試驗中表現(xiàn)出較高的精度。無論是靜態(tài)測試還是實時測試,采用SAWT和重疊窗口的CRNN都表現(xiàn)出比其他方法更好的性能。
本文針對國內(nèi)外SLR的純技術(shù)研究做出梳理。首先,對傳統(tǒng)的SLR方法進行歸納,包括模板匹配方法、HMM、NN及多種方法融合的手語識別技術(shù);其次,研究基于深度學習的手語識別技術(shù),主要包括基于CNN、RNN、GNN及多種方法融合的手語識別技術(shù)。由于SLR尚處在技術(shù)研究階段,其識別精度暫時尚難以支持流暢的交流,目前針對SLR的教改活動主要集中在一流聾人本科院校中,包括美國的羅切斯特理工學院國家聾人工學院[26]、俄羅斯鮑曼技術(shù)大學聾人中心[27]、日本的筑波技術(shù)大學[28]都有相應的教學應用探索。在我國,歷史上中國的聾人教育并未體現(xiàn)出很強的技術(shù)導向,主要側(cè)重教學方法的改進,目前還沒見到中國聾人院校關(guān)于SLR設備應用于課堂教學的公開報道。所以,如何將手語識別技術(shù)真正用于聽障教學,將是值得研究與探索的。未來從事SLR技術(shù)研究人員應為SLR設備制造商提供相應技術(shù)支持,國家和地方政府應加大資金的投入,為SLR設備制造商給予一定的政策支持,并鼓勵中國聾人院校積極運用SLR設備進行教學試點。總之,需要社會各界人士一起努力,多方合作,為聽障人士創(chuàng)造更加便捷的溝通渠道。