李 晨,黃元元,胡作進(jìn)
(1.南京航空航天大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 南京 211106; 2.南京特殊教育師范學(xué)院 數(shù)學(xué)與信息科學(xué)學(xué)院,江蘇 南京 210038)
在當(dāng)今的人機(jī)交互技術(shù)中,手勢是輸入信息的一種媒介。作為特殊的手勢類別,手語是聾啞人的重要交際工具。因此,研究手語識(shí)別不僅可以促進(jìn)人機(jī)交互技術(shù)的發(fā)展,還可以促進(jìn)聾啞人和健全人之間的交流。
連續(xù)手語語句是由手語詞和連接手語詞的過渡動(dòng)作組成[1]。由于手語動(dòng)作的連貫性,從手語語句中分割出手語詞變得極其困難,因此如何準(zhǔn)確地檢測手語詞邊界是連續(xù)手語語句識(shí)別的最大挑戰(zhàn)。
在國內(nèi),張繼海等[2]將手語語句進(jìn)行首輪粗分割后得到的多個(gè)片段送入手語詞的隱馬爾可夫模型(hidden Markov model,HMM)中,并借助閾值矩陣和動(dòng)態(tài)時(shí)間規(guī)整算法(dynamic time warping, DTW)確定出可能的候選詞及它們的結(jié)束幀,再根據(jù)比率閾值進(jìn)一步確定本輪粗分割的最優(yōu)候選詞,并以其結(jié)束幀的下一幀為起點(diǎn),繼續(xù)進(jìn)行下一輪的粗分割……最后將得到的多個(gè)最優(yōu)候選詞按照先后順序串聯(lián)起來,即可獲得語句的識(shí)別結(jié)果。該算法在包含34個(gè)詞匯的手語語句庫中取得77.8%的識(shí)別率,但由于它在確定候選詞的結(jié)束幀時(shí)采用逐幀遍歷的方法,因此運(yùn)行效率較低。楊文文等[3]采用基于HMM的逐層構(gòu)筑算法,同時(shí)輔以手語詞幀長的約束和n元語法模型,最終在由21個(gè)詞匯組成的20個(gè)手語語句上取得12.2%的錯(cuò)誤率。然而該算法中語句的平均識(shí)別時(shí)間超過8秒,顯然無法實(shí)現(xiàn)手語語句的實(shí)時(shí)識(shí)別。徐鑫鑫等[4]根據(jù)點(diǎn)密度提取手語的關(guān)鍵幀序列,然后利用若干連續(xù)關(guān)鍵幀的權(quán)值之和對(duì)關(guān)鍵幀序列進(jìn)行分割和識(shí)別,從而獲得手語語句的識(shí)別結(jié)果。該算法的運(yùn)行效率較高,但如果大權(quán)值的關(guān)鍵幀出現(xiàn)漏檢或者誤識(shí),將無法識(shí)別出正確的手語詞邊界。
在國外,Yang等[5]利用基于條件隨機(jī)場(conditional random field,CRF)的閾值模型判斷語句中各幀是手語詞還是過渡動(dòng)作,然后利用CRF對(duì)分割后的手語詞進(jìn)行識(shí)別,最終在由48個(gè)詞匯組成的美國手語語句庫中取得87%的識(shí)別率。由于非特定人群手語數(shù)據(jù)的差異性較大,所以閾值模型在實(shí)際應(yīng)用時(shí)手語詞邊界的檢測效果并不理想。Cui等[6]通過卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)提取每幀圖像的空間特征,再通過疊加的時(shí)間卷積層和時(shí)間池化層提取各手語片段的空間-時(shí)間特征,并將其送入雙向的長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)中建模,最后采用連接時(shí)序分類(connectionist temporal classification,CTC)算法作為整個(gè)架構(gòu)的目標(biāo)函數(shù)。在2012年的德國天氣預(yù)報(bào)手語庫中,該算法的錯(cuò)誤率為38.7%。由于手語片段的類別概率分布大多較分散,所以采用波束搜索法進(jìn)行CTC解碼時(shí),可能剔除部分片段的正確類別,進(jìn)而影響手語詞邊界的準(zhǔn)確性。Koller等[7]先利用CNN計(jì)算出每幀圖像的隱狀態(tài)類別概率分布向量,再通過Viterbi算法、一階隱馬爾可夫過程及n元語法模型求解手語語句的最優(yōu)詞匯序列,最終在2012年的德國天氣預(yù)報(bào)手語庫上取得32%的錯(cuò)誤率。由于該算法在尋找手語詞邊界時(shí)需要對(duì)三個(gè)超參數(shù)進(jìn)行網(wǎng)格搜索,因此算法的時(shí)間損耗較高。
目前,大多數(shù)的手語詞邊界檢測算法對(duì)非特定人群沒有很好的魯棒性,這在一定程度上影響了手語語句的識(shí)別效果。
該文利用軌跡歸一化算法提取手語詞的軌跡特征,同時(shí)利用卷積神經(jīng)網(wǎng)絡(luò)提取手語詞的手型特征,并在此基礎(chǔ)上訓(xùn)練基于長短期記憶網(wǎng)絡(luò)的手語詞分類器。對(duì)于一個(gè)待識(shí)別的手語語句,該文采用基于軌跡信息的分割算法檢測過渡動(dòng)作。由過渡動(dòng)作將語句分割為多個(gè)片段后,考慮到過渡動(dòng)作可能是手語詞內(nèi)部的動(dòng)作,所以將若干片段拼接成復(fù)合段,并對(duì)所有復(fù)合段運(yùn)用手語詞識(shí)別算法進(jìn)行分類,然后跨段搜索出目標(biāo)詞匯序列,從而完成手語語句的識(shí)別。
該文借助Kinect獲取手語者的手心位置和深度圖像,并在此基礎(chǔ)上獲得手語數(shù)據(jù)。
2.1.1 手型圖像的獲取
該文將深度圖像和手心位置相結(jié)合,從而實(shí)現(xiàn)手型圖像的快速提取[8]。圖1為手型圖像的提取效果。
圖1 手型圖像的提取效果
由于獲取的手型圖像比較粗糙,為了更精確地描述手語動(dòng)作,在手型圖像的基礎(chǔ)上,引入了軌跡數(shù)據(jù)。
2.1.2 軌跡數(shù)據(jù)的獲取
將手語持續(xù)時(shí)間內(nèi)、經(jīng)卡爾曼濾波校正后的手心位置按照先后順序連接起來,即可獲得手心的軌跡。為了進(jìn)一步地去除噪聲,該文對(duì)左、右手心軌跡分別應(yīng)用長度為3的均值濾波進(jìn)行平滑。平滑后的左、右手心軌跡構(gòu)成了軌跡數(shù)據(jù)。
該文錄制了47個(gè)常用的手語詞。在獲得這些手語詞樣本的軌跡特征和手型特征的基礎(chǔ)上,開展手語詞分類器的訓(xùn)練。
2.2.1 軌跡特征的提取
為了消除手心軌跡的尺度差異、采樣點(diǎn)數(shù)差異和起始點(diǎn)差異,提出了一種軌跡歸一化算法。
假設(shè)有一個(gè)持續(xù)時(shí)間為n幀的手語詞樣本,它的左手心軌跡P={p1,p2,…,pn},其中pi(1≤i≤n)表示第i幀左手心的位置。軌跡P的歸一化過程如下:
(1)創(chuàng)建一個(gè)長度為50的時(shí)間序列Q來存儲(chǔ)歸一化后的軌跡。
(2)計(jì)算軌跡P的尺度縮放因子αs和采樣點(diǎn)數(shù)縮放因子αn:
αs=1/‖(Neckx,Necky,Neckz)-(SpineMidx,SpineMidy,SpineMidz)‖
(1)
(2)
其中,(Neckx,Necky,Neckz)、(SpineMidx,SpineMidy,SpineMidz)分別表示脖子和脊柱中心的位置。將軌跡P各采樣點(diǎn)的手心位置乘上αs可以實(shí)現(xiàn)尺度歸一化;將軌跡P各采樣點(diǎn)的序號(hào)乘上αn可以指導(dǎo)采樣點(diǎn)數(shù)歸一化操作。
(3)計(jì)算軌跡P的第i(1≤i≤n)個(gè)采樣點(diǎn)歸一化后的下標(biāo)j:
j=「n*αn」
(3)
其中,「x」表示對(duì)x進(jìn)行四舍五入取整。如果在歸一化的軌跡Q中qj未被賦值,則將軌跡P的起始點(diǎn)p1與原點(diǎn)對(duì)齊,并將pi尺度歸一化后的值賦給qj:
qj=αs*(pi-p1)
(4)
如果qj已被賦值,則將軌跡P的起始點(diǎn)p1與原點(diǎn)對(duì)齊,并把尺度歸一化后的pi和qj的均值賦給qj:
(5)
(4)遍歷軌跡Q,對(duì)所有未賦值的qi,采用線性插值法補(bǔ)充數(shù)據(jù):
qi=(qi-1+qi+1)/2
(6)
(5)返回歸一化的軌跡Q。
對(duì)左、右手心軌跡分別進(jìn)行歸一化后,該文使用歸一化的左、右手心軌跡共同描述手語的軌跡特征。
2.2.2 手型特征的提取
對(duì)MobileNetV2[9]稍加修改后,搭建出如表1所示的卷積神經(jīng)網(wǎng)絡(luò)。
這里的conv2d表示標(biāo)準(zhǔn)卷積層,avgPool表示全局池化層。由表1可以看出,該網(wǎng)絡(luò)由3個(gè)標(biāo)準(zhǔn)卷積層、9個(gè)bottleneck模塊和1個(gè)全局池化層組成。該網(wǎng)絡(luò)的輸入為224×224×1的手型圖像,經(jīng)過網(wǎng)絡(luò)各層的作用后,最后輸出61維的手型類別概率分布向量。
當(dāng)完成卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練后,移除網(wǎng)絡(luò)的最后一個(gè)標(biāo)準(zhǔn)卷積層,剩余的網(wǎng)絡(luò)架構(gòu)可以用作手型特征提取器。因此,輸入一張手型圖像,該網(wǎng)絡(luò)可以提取出160維的手型特征;輸入一個(gè)手語詞樣本,該網(wǎng)絡(luò)可以提取出它的手型特征序列,將該序列歸一化到50個(gè)采樣點(diǎn),即可獲得它的手型特征。
表1 卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)信息
2.2.3 基于長短期記憶網(wǎng)絡(luò)的手語詞分類器
手型特征和軌跡特征共同組成手語詞的特征??紤]到手語詞的特征是時(shí)間序列數(shù)據(jù),而長短期記憶網(wǎng)絡(luò)(LSTM)善于學(xué)習(xí)時(shí)序數(shù)據(jù)中的關(guān)聯(lián)信息,于是搭建出如表2所示的長短期記憶網(wǎng)絡(luò)。
表2 長短期記憶網(wǎng)絡(luò)的參數(shù)信息
該網(wǎng)絡(luò)包含一個(gè)雙向LSTM層、一個(gè)Flatten層以及三個(gè)全連接層。網(wǎng)絡(luò)的輸入為手語詞的特征,即一個(gè)長度為50的時(shí)間序列,序列中的每個(gè)元素為166維的向量,經(jīng)過網(wǎng)絡(luò)各層的作用后,最終輸出47維的詞匯類別概率分布向量。其中雙向LSTM層用于捕捉每個(gè)采樣點(diǎn)的上下文信息;而Flatten層是把50個(gè)采樣點(diǎn)的隱狀態(tài)拼接起來,進(jìn)而獲取整個(gè)序列的上下文信息。至于三個(gè)全連接層的功能則有點(diǎn)不同,前兩個(gè)全連接層的作用是實(shí)現(xiàn)特征的學(xué)習(xí)和降維,最后一個(gè)全連接層則主要負(fù)責(zé)分類計(jì)算。
對(duì)于一個(gè)待識(shí)別的手語語句,該文先采用分割算法檢測過渡動(dòng)作,然后采用基于過渡動(dòng)作的手語語句識(shí)別算法獲取語句的識(shí)別結(jié)果。
2.3.1 手語語句的分割
鑒于過渡動(dòng)作的速度相對(duì)較快,且方向的偏轉(zhuǎn)角度較小,因此提出了一種基于右手(主導(dǎo)手)軌跡信息的手語語句分割算法,它的詳細(xì)步驟如下:
(1)初步確定過渡動(dòng)作。
在圖2中,pi-1、pi和pi+1為三個(gè)相鄰采樣點(diǎn)上右手心的位置。第i個(gè)采樣點(diǎn)的右手心速度vi可以定義為pi和pi+1之間的距離,即:
vi=‖pi+1-pi‖
(7)
圖2 三個(gè)時(shí)間上相鄰的采樣點(diǎn)
圖2中的θi表示第i個(gè)采樣點(diǎn)上的方向角,它刻畫了右手心在時(shí)刻i的方向偏轉(zhuǎn)情況,即:
(8)
其中,u1=pi-pi-1,u2=pi+1-pi。針對(duì)右手心的速度,設(shè)定閾值ρv=(2*avg(v))/3;針對(duì)右手心的方向角,設(shè)定閾值ρθ=20。其中avg(v)表示所有右手心采樣點(diǎn)的速度的均值。當(dāng)vi≥ρv且θi≤ρθ時(shí),采樣點(diǎn)i是過渡幀。因?yàn)檫^渡動(dòng)作不止一幀,所以該文將距離三幀以內(nèi)的過渡幀合并到同一個(gè)過渡動(dòng)作中。由該方法確定出的第一個(gè)過渡動(dòng)作位于起始手勢和第一個(gè)手語詞之間,而最后一個(gè)過渡動(dòng)作位于最后一個(gè)手語詞和終止手勢之間,它們均不屬于過渡動(dòng)作,因?yàn)樗鼈儾皇窍噜徥终Z詞之間的連接動(dòng)作,該文先剔除最后一個(gè)過渡動(dòng)作,至于第一個(gè)過渡動(dòng)作則暫且保留。
(2)剔除錯(cuò)誤的過渡動(dòng)作。
非特定人群在比劃具有語義的關(guān)鍵手勢時(shí)會(huì)降低動(dòng)作的速度,在軌跡上的表現(xiàn)就是這些手勢對(duì)應(yīng)的點(diǎn)密度較大。通過對(duì)手語語句樣本的觀察,發(fā)現(xiàn)所有手語詞的關(guān)鍵手勢的右手心點(diǎn)密度均≥5。而過渡動(dòng)作位于前一手語詞的尾個(gè)關(guān)鍵手勢和后一手語詞的首個(gè)關(guān)鍵手勢之間,所以該文根據(jù)右手心的點(diǎn)密度進(jìn)一步剔除錯(cuò)誤的過渡動(dòng)作。
假設(shè)由步驟(1)獲得過渡動(dòng)作序列T={t1,t2,…,tm},其中m表示過渡動(dòng)作數(shù)量。初始化i=1,接下來采用迭代算法剔除錯(cuò)誤的過渡動(dòng)作:
①若i≥m,考慮到t1不是過渡動(dòng)作,所以將t1從序列T中剔除,并得到最終的過渡動(dòng)作序列,否則進(jìn)入步驟②;
②若ti的終止幀到ti+1的起始幀之間的區(qū)間不存在右手心點(diǎn)密度≥5的采樣點(diǎn),則剔除ti+1,并更新序列T和數(shù)量m,然后重復(fù)該步驟;否則保留ti+1,并令i=i+1,跳轉(zhuǎn)至步驟①繼續(xù)判斷后續(xù)的過渡動(dòng)作。
2.3.2 基于過渡動(dòng)作的手語語句識(shí)別算法
假設(shè)對(duì)一個(gè)手語語句運(yùn)用上述分割算法檢測到T-1個(gè)過渡動(dòng)作,由這些過渡動(dòng)作可以將手語語句分割為T個(gè)片段。因?yàn)闄z測出的詞間過渡動(dòng)作包含下一手語詞的部分信息,所以對(duì)于任意相鄰過渡動(dòng)作間的手語片段而言,為了盡可能地保留手語詞的特征,該文將前個(gè)過渡動(dòng)作的中位點(diǎn)幀設(shè)為起始幀,同時(shí)為了盡可能地剔除手語詞的上下文信息,將后個(gè)過渡動(dòng)作前右手心點(diǎn)密度大于3的幀設(shè)為終止幀。
考慮到檢測出的過渡動(dòng)作可能是手語詞內(nèi)部的動(dòng)作,所以該文將若干個(gè)片段拼接在一起形成復(fù)合段。因?yàn)檎Z句樣本中的詞匯平均大約包含1.7個(gè)手語片段,所以根據(jù)片段數(shù)T粗略預(yù)估語句中的手語詞數(shù)量N。
N=「T/1.7」
(9)
其中,「x」表示對(duì)x進(jìn)行四舍五入取整。由于語句樣本中的手語詞至多包含5個(gè)片段,為了避免過度的片段拼接給后續(xù)識(shí)別帶來干擾,由式(10)預(yù)估手語詞的最大片段數(shù)β。
β=min(5,「T-(N-1)×1.3」)
(10)
為了進(jìn)行手語語句的識(shí)別,該文需要在線創(chuàng)建類別標(biāo)簽矩陣C和分類概率矩陣S,并將它們的元素初始化為0。對(duì)于以片段t的起始幀開始、以片段t'的終止幀結(jié)束的復(fù)合段,Ct,t',q保存該復(fù)合段的候選手語詞的類別標(biāo)簽,St,t',q則保存該復(fù)合段是手語詞Ct,t',q的概率,其中1≤t≤T,t≤t'≤min(t+β-1,T),1≤q≤5。后續(xù)的手語語句識(shí)別過程如下:
(1)復(fù)合段的分類。
首先初始化當(dāng)前層各復(fù)合段的起始幀為片段1的起始幀,并令t=1,接下來開始復(fù)合段的分類工作。
①依次截取以片段t的開始幀為起點(diǎn),以片段t'(t≤t'≤min(t+β-1,T))的結(jié)束幀為終點(diǎn)的復(fù)合段,并對(duì)這些復(fù)合段運(yùn)用手語詞識(shí)別算法進(jìn)行分類。如果這些復(fù)合段存在概率值≥0.2的類別,則把對(duì)應(yīng)的類別和概率分別存入類別矩陣C和概率矩陣S中;
②令t=t+1,跳轉(zhuǎn)至步驟①,繼續(xù)對(duì)下一層的復(fù)合段進(jìn)行分類。
(2)目標(biāo)詞匯序列的跨段搜索。
定義δ(t,t',q)表示以片段t的起始幀開始、以片段t'的終止幀結(jié)束的復(fù)合段是手語詞Ct,t',q的累積概率,其中1≤t≤T,t≤t'≤min(t+β-1,T),1≤q≤5。令
目標(biāo)詞匯序列的跨段搜索算法如下:
①初始化。
(11)
φ(1,t',q)=NULL
(12)
(13)
②遞歸。
δ(t,t',q)=
(14)
(15)
(16)
其中,L'表示滿足P(Ct,t',q|Ct'',t-1,q')≠0且η(t'',t-1,q')
③終止。
(17)
(18)
④路徑回溯。
為了驗(yàn)證手語詞識(shí)別算法的有效性,邀請(qǐng)6名手語者參與47類手語詞的樣本錄制。此外,以這47個(gè)詞組成的30條手語語句作為樣本進(jìn)行語句識(shí)別實(shí)驗(yàn)。共有6名手語者參與語句樣本的錄制,其中2名是熟練手語者,2名是次熟練手語者,還有2名是不熟練手語者。需注意,參與詞匯樣本采集的手語者和參與語句樣本采集的手語者不重疊。
針對(duì)錄制的47類手語詞的樣本,該文使用關(guān)鍵動(dòng)作提取算法提取關(guān)鍵手型[10],然后采用K均值算法對(duì)關(guān)鍵手型進(jìn)行聚類[11],其中K設(shè)為60,由此可以獲得60類關(guān)鍵手型的樣本。由于手語動(dòng)作中還存在關(guān)鍵手型之間的過渡手型,所以還需為過渡手型類選取樣本。鑒于手型樣本數(shù)有限,該文采用平移、旋轉(zhuǎn)及縮放變換來擴(kuò)充樣本集。最終每一類手型均有240個(gè)樣本作為訓(xùn)練集,60個(gè)樣本作為測試集。
在交叉熵?fù)p失函數(shù)[12]的基礎(chǔ)上,使用隨機(jī)梯度下降法優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)。設(shè)置初始學(xué)習(xí)率為0.001,最大迭代次數(shù)為800。學(xué)習(xí)率的變化公式如下:
(19)
其中,i為迭代次數(shù),decay=1.0×10-2。為了防止網(wǎng)絡(luò)出現(xiàn)過擬合,該文對(duì)除最后一個(gè)標(biāo)準(zhǔn)卷積層外的其他卷積層都進(jìn)行了批量歸一化(batch normalization,BN)處理。其中訓(xùn)練集的batchSize設(shè)為50,測試集則無需劃分batch,把所有的測試樣本一次性送入網(wǎng)絡(luò)進(jìn)行識(shí)別。采用Keras框架訓(xùn)練該網(wǎng)絡(luò),最終訓(xùn)練出的網(wǎng)絡(luò)模型在測試集上的精度為94.58%。
該文在每個(gè)手語詞樣本的基礎(chǔ)上造了2個(gè)樣本,它們分別保留了原始樣本前14/15和后14/15的采樣點(diǎn)。最終每一類手語詞的樣本總數(shù)增加至162,該文隨機(jī)選取其中的129個(gè)樣本用作訓(xùn)練集,其余的33個(gè)樣本則用于測試。
采用交叉熵?fù)p失函數(shù)測量長短期記憶網(wǎng)絡(luò)的分類誤差。設(shè)置學(xué)習(xí)率的初始值為0.001,最大迭代次數(shù)為500。學(xué)習(xí)率的變化公式如下:
lri=lr0*gamma∧(floor(i/stepsize))
(20)
其中,i表示迭代次數(shù),gamma=0.1,stepsize=200。為了防止網(wǎng)絡(luò)出現(xiàn)過擬合,該文對(duì)雙向LSTM層和fc2都進(jìn)行了BN處理,其中訓(xùn)練集的batchSize設(shè)為30,測試集無需劃分batch。在GPU上訓(xùn)練該模型,最終訓(xùn)練出的模型在測試集上的精度達(dá)98.55%。
考慮到語句中的手語詞和孤立手語詞的差異較大,所以需要人工標(biāo)注語句中的詞匯,并將其送入長短期記憶網(wǎng)絡(luò)中訓(xùn)練[13-14]。該文對(duì)熟練、次熟練及不熟練的3名手語者的語句樣本中的手語詞進(jìn)行標(biāo)注。每條語句有這3名手語者的27個(gè)樣本,其中的21個(gè)樣本用于網(wǎng)絡(luò)的再訓(xùn)練,剩余的6個(gè)樣本用于再測試。由于語句中手語詞的樣本數(shù)有限,該文采用窗口規(guī)整方法[15]造樣本。最終每類手語詞用于再訓(xùn)練和再測試的樣本數(shù)分別為84、24。對(duì)長短期記憶網(wǎng)絡(luò)再訓(xùn)練500次后,網(wǎng)絡(luò)在測試集上的精度為95.32%。
為了驗(yàn)證手語語句識(shí)別算法的有效性,與文獻(xiàn)[4]以及文獻(xiàn)[13]中的算法進(jìn)行對(duì)比。對(duì)熟練程度不一的6名手語者的語句樣本進(jìn)行識(shí)別。其中手語者一和手語者二能夠熟練地表達(dá)手語,手語者三和手語者四能夠較熟練地表達(dá)手語,手語者五和手語者六則無法熟練地表達(dá)手語。且手語者一、手語者三和手語者五的部分語句樣本參與了長短期記憶網(wǎng)絡(luò)的訓(xùn)練。運(yùn)用各算法對(duì)上述手語者的語句樣本進(jìn)行分類后,得到的識(shí)別準(zhǔn)確率和平均識(shí)別時(shí)間如表3所示。
表3 算法效果對(duì)比
(1)文獻(xiàn)[4]是基于加權(quán)關(guān)鍵幀實(shí)現(xiàn)手語語句的識(shí)別。該算法的執(zhí)行效率較高,但是它依賴于大權(quán)值的關(guān)鍵幀。對(duì)于非熟練的手語者,可能由于動(dòng)作不夠規(guī)范導(dǎo)致大權(quán)值關(guān)鍵幀的錯(cuò)識(shí)概率增高,從而極大地影響語句的識(shí)別效果,因此該算法的穩(wěn)定性較差。
(2)文獻(xiàn)[13]采用連接時(shí)序分類算法實(shí)現(xiàn)手語語句的識(shí)別。雖然該算法的運(yùn)行效率高,但它的識(shí)別精度較低,這是因?yàn)樗枰獙⑹终Z語句劃分成多個(gè)等長的片段,而大多數(shù)片段的類別概率分布比較分散,所以利用波束搜索法進(jìn)行解碼時(shí),手語片段的真實(shí)標(biāo)簽可能被剔除,從而極大地影響了語句的識(shí)別效果。
(3)相比較來說,文中算法面向非特定人群的穩(wěn)定性較高,能夠?qū)崿F(xiàn)手語語句的實(shí)時(shí)識(shí)別。
針對(duì)當(dāng)前手語語句識(shí)別算法中存在的問題,提出了一種基于深度學(xué)習(xí)的手語語句識(shí)別算法。它充分利用了卷積神經(jīng)網(wǎng)絡(luò)的特征提取能力和長短期記憶網(wǎng)絡(luò)的時(shí)序建模能力,并借助分割算法檢測出的過渡動(dòng)作,將手語語句的識(shí)別轉(zhuǎn)化為復(fù)合段的分類和目標(biāo)詞匯序列的跨段搜索,降低了手語語句識(shí)別的復(fù)雜性。實(shí)驗(yàn)證明,該算法具有良好的穩(wěn)定性及實(shí)時(shí)性。