田建勛 陳 香 李 云 楊基海
(中國(guó)科技大學(xué)電子科學(xué)與技術(shù)系,合肥 230027)
手語(yǔ)識(shí)別研究的目的是使計(jì)算機(jī)能自動(dòng)理解手語(yǔ)執(zhí)行者所表達(dá)的信息,一方面可為正常人與聾啞人的通信建立一種有效的途徑,另一方面可提供一種利用手語(yǔ)手勢(shì)動(dòng)作和計(jì)算機(jī)進(jìn)行自然交互的有效方法。
基于加速計(jì)[1](accelerometer,ACC)和基于表面肌電(surface electromyography,SEMG)傳感器[2]的動(dòng)作感知技術(shù)是手語(yǔ)手勢(shì)識(shí)別研究領(lǐng)域的兩個(gè)重要分支。加速計(jì)擅長(zhǎng)檢測(cè)手部或手臂運(yùn)動(dòng)軌跡和手所處姿態(tài)等較大尺度的動(dòng)作,而表面肌電信號(hào)包含相關(guān)肌肉群的豐富運(yùn)動(dòng)信息,可用于手指、手腕等細(xì)微運(yùn)動(dòng)的識(shí)別。利用兩類(lèi)傳感器信號(hào)的特點(diǎn)進(jìn)行信息融合,可提高可識(shí)別手語(yǔ)手勢(shì)動(dòng)作的種類(lèi)和準(zhǔn)確率。作者實(shí)驗(yàn)室前期研究工作表明[3],將肌電傳感器和加速計(jì)結(jié)合起來(lái)對(duì)23種手勢(shì)動(dòng)作進(jìn)行檢測(cè)和分類(lèi),比單獨(dú)使用其中一種傳感器可提高5%~10%的準(zhǔn)確率。Kim等將兩種傳感器融合技術(shù)應(yīng)用到德國(guó)手語(yǔ)7個(gè)手語(yǔ)詞識(shí)別,取得了相似的研究結(jié)果[4]。
基于表面肌電和加速度信息融合的手語(yǔ)手勢(shì)動(dòng)作識(shí)別存在的問(wèn)題是,動(dòng)作表面肌電信號(hào)和加速度信號(hào)在采集時(shí)受外界影響較大,且存在較大的個(gè)體差異,不同對(duì)象做同樣的動(dòng)作時(shí)信號(hào)存在有差異,甚至同一對(duì)象在不同時(shí)間做同樣的動(dòng)作也會(huì)出現(xiàn)差異。這些信號(hào)差異對(duì)手語(yǔ)動(dòng)作識(shí)別有著很大的影響,需要在識(shí)別過(guò)程中進(jìn)行消除。為實(shí)現(xiàn)基于肌電和加速度信息融合的連續(xù)中國(guó)手語(yǔ)手勢(shì)的可靠識(shí)別,一方面提出使用“詞根”作為識(shí)別基元的識(shí)別方法,以消除手語(yǔ)詞中詞根動(dòng)作之間的運(yùn)動(dòng)偽跡的影響,減小識(shí)別錯(cuò)誤的可能性。另一方面,由于詞根被識(shí)別出后,從詞根到句子的轉(zhuǎn)變與漢語(yǔ)中組詞造句過(guò)程十分相似,在識(shí)別方法中引入統(tǒng)計(jì)語(yǔ)言模型,從語(yǔ)言概率方面來(lái)對(duì)詞根識(shí)別結(jié)果進(jìn)行錯(cuò)誤檢測(cè)和糾正,實(shí)現(xiàn)對(duì)連續(xù)句子的正確識(shí)別。
本研究工作與其他研究的顯著不同在于:1)提出使用詞根作為識(shí)別基元,采用多級(jí)決策樹(shù)型結(jié)構(gòu)和HMMs模型實(shí)現(xiàn)對(duì)詞根動(dòng)作的建模和識(shí)別,以提高手語(yǔ)手勢(shì)動(dòng)作識(shí)別的準(zhǔn)確率。2)在識(shí)別過(guò)程中引入bigram統(tǒng)計(jì)模型,利用轉(zhuǎn)移概率、互信息等參數(shù)對(duì)句子中的詞根接續(xù)關(guān)系進(jìn)行檢測(cè),從而進(jìn)行錯(cuò)誤檢測(cè)與糾正。3)對(duì)中國(guó)手語(yǔ)120個(gè)常用詞根動(dòng)作和由此構(gòu)建的200個(gè)中國(guó)手語(yǔ)例句開(kāi)展了手語(yǔ)識(shí)別實(shí)驗(yàn)。
基于加速計(jì)和多通道表面肌電信息融合的手語(yǔ)識(shí)別流程如圖1所示,大致分為手語(yǔ)動(dòng)作信號(hào)采集,詞根分割與特征提取,詞根識(shí)別和句子識(shí)別等4個(gè)主要步驟。
由于手語(yǔ)動(dòng)作中很多涉及到雙手運(yùn)動(dòng),在左右手前臂各自安放了4個(gè)SEMG傳感器和1個(gè)3D加速計(jì)用于數(shù)據(jù)采集??紤]到傳感器雙手上的安放具有對(duì)稱(chēng)性,故具體安放位置以右手為例,如圖2所示。三軸加速計(jì)安置在前臂背側(cè)靠近腕部的位置,以捕獲手部姿態(tài)和運(yùn)動(dòng)軌跡信息,4通道SEMG傳感器分別放置在前臂小指伸肌、尺側(cè)腕屈肌、伸指總肌和橈側(cè)腕伸肌附近以檢測(cè)手指和手腕的多種運(yùn)動(dòng)。
圖1 連續(xù)手語(yǔ)語(yǔ)句識(shí)別流程Fig.1 The flow diagram of continuous sign language recognition
圖2 右手傳感器安放位置示意Fig.2 SEMG and ACC sensor placement on the right hand
當(dāng)采集到原始的SEMG和ACC信號(hào)后,為了去除高頻高斯噪聲信號(hào)的干擾,需要對(duì)其進(jìn)行濾波去噪,然后進(jìn)行A/D轉(zhuǎn)換,以得到無(wú)擾、離散的信號(hào)供使用。在預(yù)處理中,采用20~500Hz的帶通濾波器對(duì)SEMG信號(hào)進(jìn)行濾波,采用20Hz的低通濾波器對(duì)ACC信號(hào)進(jìn)行濾波,然后以1 000Hz的采樣頻率進(jìn)行A/D轉(zhuǎn)換。
詞根被定義為手語(yǔ)中的最小單元,具有一定含義,并且可以用來(lái)區(qū)分不同的手勢(shì)詞,以詞根為單位進(jìn)行手語(yǔ)識(shí)別的優(yōu)點(diǎn)在于:詞根的數(shù)目是有限的,對(duì)其進(jìn)行建模的工作量較小,而它可以組成的詞的數(shù)目則是很大的[6],而且詞根動(dòng)作易于從手語(yǔ)動(dòng)作信號(hào)流中分割出來(lái)。
由于SEMG信號(hào)的強(qiáng)度和手勢(shì)運(yùn)動(dòng)時(shí)肌肉的收緊與放松密切相關(guān),本研究根據(jù)兩個(gè)詞根動(dòng)作間隔中,肌肉短暫放松時(shí)會(huì)出現(xiàn)SEMG信號(hào)強(qiáng)度變低的特點(diǎn),采用多通道SEMG瞬時(shí)能量與閾值比較的方法自動(dòng)檢測(cè)詞根動(dòng)作的起點(diǎn)和終點(diǎn),加速度信號(hào)流也按照相同的起點(diǎn)和終點(diǎn)進(jìn)行分割。其主要步驟可見(jiàn)參考文獻(xiàn)[7]。
圖3所示為受試者連續(xù)執(zhí)行例句“他想跑回去”所采集的信號(hào)中右手3軸ACC和4通道SEMG信號(hào)以及詞根動(dòng)作分割結(jié)果,圖中最后一行(E_MA)為多通道SEMG均值信號(hào)的瞬時(shí)能量的移動(dòng)平均序列。由圖中信號(hào)可以看出,詞根的動(dòng)作信號(hào)與動(dòng)作間隔信號(hào)相比SEMG能量非常顯著,可以方便地通過(guò)合適的閾值檢測(cè)方法確定起始點(diǎn)。手語(yǔ)單詞“回去”由詞根“回”和“去”組合而成,相比整段信號(hào)而言,兩個(gè)詞根各自的信號(hào)更能精確表現(xiàn)出手語(yǔ)動(dòng)作的特點(diǎn),也更利于特征提取和識(shí)別。
圖3 例句“他想跑回去”詞根信號(hào)分割示意Fig.3 Illustration of subword segmentation in 3-axis ACC and 4-channel EMG signal streams
當(dāng)提取到顯著的詞根動(dòng)作信號(hào)時(shí),就需要用一組最有效的特征來(lái)對(duì)詞根動(dòng)作信號(hào)進(jìn)行描述。對(duì)于詞根動(dòng)作中的加速度信號(hào)通過(guò)減采樣抽取為32點(diǎn)和幅度歸一化得到一組三維的特征向量序列作為主要特征[7],此外還提取出三軸的均值、標(biāo)準(zhǔn)差等簡(jiǎn)單特征用于決策樹(shù)分類(lèi)判斷。對(duì)于多通道SEMG信號(hào)進(jìn)行分幀提取每幀中各通道信號(hào)幅值的絕對(duì)值均值(mean absolute value,MAV)和4階自回歸(auto-regressive,AR)模型系數(shù)作為主要特征向量[7]。
決策樹(shù)是一種以拓?fù)浣Y(jié)構(gòu)為樹(shù)型的多級(jí)決策系統(tǒng),具有不同屬性特征的樣本數(shù)據(jù)從根節(jié)點(diǎn)輸入,依據(jù)非葉子節(jié)點(diǎn)的一系列規(guī)則被分配到具有不同屬性的分支,最終到達(dá)葉子節(jié)點(diǎn)確定樣本所屬類(lèi)別[8]。圖4為用于手語(yǔ)識(shí)別的多級(jí)決策樹(shù)。其結(jié)構(gòu)原理和建立過(guò)程分為以下幾個(gè)部分。
靜態(tài)與動(dòng)態(tài)手語(yǔ)手勢(shì)分類(lèi):在決策樹(shù)結(jié)構(gòu)的第一層中,通過(guò)ACC活動(dòng)段三軸標(biāo)準(zhǔn)差的均方根值與指定閾值比較來(lái)判定手語(yǔ)手勢(shì)動(dòng)作的動(dòng)靜態(tài)。
手部姿態(tài)分類(lèi):在決策樹(shù)結(jié)構(gòu)的第二層中,對(duì)所有類(lèi)別訓(xùn)練樣本的ACC三軸均值特征用模糊K均值聚類(lèi)算法,可以將相近手部姿態(tài)的動(dòng)作劃分在同一個(gè)聚類(lèi)集中,供下一級(jí)進(jìn)行識(shí)別分類(lèi)。
動(dòng)作時(shí)間長(zhǎng)短分類(lèi):在樹(shù)型結(jié)構(gòu)第三層中,采用SEMG活動(dòng)段時(shí)間長(zhǎng)度與閾值比較的方法區(qū)分短時(shí)和長(zhǎng)時(shí)執(zhí)行手語(yǔ)手勢(shì)動(dòng)作。
多流HMM最終分類(lèi):經(jīng)過(guò)上面三層樹(shù)形分類(lèi)之后,待識(shí)別的手語(yǔ)手勢(shì)動(dòng)作僅出現(xiàn)在一個(gè)較小規(guī)模的候選集合中。對(duì)該集合中的手語(yǔ)詞,采用包含有ACC和EMG流的多流HMM實(shí)現(xiàn)兩類(lèi)傳感器信息的決策級(jí)融合和手語(yǔ)詞判決識(shí)別[8]。作者實(shí)驗(yàn)室以往的工作表明,在識(shí)別過(guò)程中出現(xiàn)的錯(cuò)誤常見(jiàn)于此,即識(shí)別出的錯(cuò)誤結(jié)果與正確結(jié)果一般來(lái)說(shuō)存在于同一個(gè)候選集合中。因此,我們可以將此候選集合作為錯(cuò)誤糾正部分中的糾錯(cuò)候選集。
圖4 多級(jí)決策樹(shù)結(jié)構(gòu)示意Fig.4 Diagram of herarchical decision tree
在多級(jí)決策樹(shù)給出詞根識(shí)別結(jié)果序列的基礎(chǔ)上,采用統(tǒng)計(jì)語(yǔ)言模型對(duì)詞根接續(xù)的合理性進(jìn)行判斷,糾正錯(cuò)誤識(shí)別并給出連續(xù)語(yǔ)句識(shí)別結(jié)果。統(tǒng)計(jì)語(yǔ)言模型通常采用語(yǔ)料庫(kù)語(yǔ)言學(xué)的方法,通過(guò)對(duì)語(yǔ)料庫(kù)進(jìn)行深層加工、統(tǒng)計(jì)和學(xué)習(xí),可以客觀地描述大規(guī)模真實(shí)文本中細(xì)微的語(yǔ)言現(xiàn)象。常見(jiàn)的統(tǒng)計(jì)語(yǔ)言模型指N-gram模型,它反映了元素的同現(xiàn)概率等信息,可以用來(lái)進(jìn)行錯(cuò)誤檢測(cè)及糾正[5,9]。哈爾濱工業(yè)大學(xué)利用N-gram模型和依存分析,實(shí)現(xiàn)了對(duì)大規(guī)模句子文本中的錯(cuò)誤進(jìn)行有效檢測(cè)[5]。高文等在手語(yǔ)識(shí)別的過(guò)程中也將bigram模型引入來(lái)進(jìn)行句子的識(shí)別研究[6]。
1.5.1 N-gram統(tǒng)計(jì)模型的建立
假設(shè)一個(gè)句子由l個(gè)詞根組成:W=w1,w2,w3,…,wl,若引入馬爾科夫假設(shè),即假設(shè)當(dāng)前的這個(gè)詞根只依賴(lài)于前面有限幾個(gè)詞根(例如n-1個(gè)),而不是依賴(lài)前面所有的詞根[9],則
根據(jù)最大似然估計(jì)原則,元素wi的上下文條件概率p(wi|)的估計(jì)公式則為
1.5.2 詞根接續(xù)錯(cuò)誤檢測(cè)與糾正方法
互信息表征的是兩個(gè)統(tǒng)計(jì)量相互關(guān)聯(lián)的程度,關(guān)聯(lián)程度越高,互信息越大,反之則小。在基于詞根容量為N的手語(yǔ)語(yǔ)料庫(kù)建立的bigram模型中,可定義Xi-1,Xi之間的互信息為
式中,r(Xi-1,Xi)為Xi-1,Xi鄰接共同出現(xiàn)的次數(shù),P(Xi-1,Xi)=r(Xi-1,Xi)/N為Xi-1,Xi的鄰接共現(xiàn)概率,P(Xi-1)=r(Xi-1)/N,P(Xi)=r(Xi)/N為Xi-1,Xi出現(xiàn)的概率。
若I(Xi-1,Xi)>τ1,τ1為大于0的閾值,則有P(Xi-1,Xi)>>P(Xi-1)P(Xi),此時(shí)Xi-1,Xi接續(xù),互信息量越大,接續(xù)強(qiáng)度越大。若I(Xi-1,Xi)≈0,則P(Xi-1,Xi)≈P(Xi-1)P(Xi),此時(shí)Xi-1,Xi之間的接續(xù)關(guān)系不明確。若I(Xi-1,Xi)<<0,則P(Xi-1,Xi)<<P(Xi-1)P(Xi),此時(shí)Xi-1,Xi之間基本沒(méi)有接續(xù)關(guān)系。
統(tǒng)計(jì)理論P(yáng)earson的χ2統(tǒng)計(jì)量可以用來(lái)檢驗(yàn)Xi-1和Xi的獨(dú)立性,其也可以判斷詞根接續(xù)關(guān)系。假設(shè)二元組(X,Y)表示相鄰的兩個(gè)詞根組合,X的取值范圍是(S,-S),-S表示取值不為S。假設(shè)Xi-1和Xi獨(dú)立,從二元組(X,Y)取得同現(xiàn)矩陣中的n個(gè)非零元為子樣,用n11表示取值為(Xi-1,Xi)的子樣個(gè)數(shù),n12、n21、n22分別表示取值為(Xi-1,-Xi),(-Xi-1,Xi),(-Xi-1,-Xi)的子樣的個(gè)數(shù),記ni.=ni1+ni2,(i=1,2;j=1,2),有n=n11+n12+n21+n22。χ2(Xi-1,Xi)統(tǒng)計(jì)量可以定義為
由假設(shè)估計(jì)方法可知,當(dāng)χ2(Xi-1,Xi)<τ2(τ2是由某個(gè)顯著水平所得到的判斷閾值)時(shí)假設(shè)成立,Xi-1和Xi獨(dú)立,即Xi-1和Xi不接續(xù),反之二者接續(xù)。
轉(zhuǎn)移概率體現(xiàn)著前一個(gè)詞根跳到后一個(gè)詞根的概率,它也從一定程度上反映了兩個(gè)詞根前后接續(xù)的可能大小。結(jié)合二元語(yǔ)法F(Xi/Xi-1)和一元語(yǔ)法F(Xi),使用退步法計(jì)算從Xi-1到Xi的轉(zhuǎn)移概率
λ為經(jīng)驗(yàn)參數(shù),一般取λ=0.8。
由上述公式可認(rèn)為當(dāng)P(Xi/Xi-1)>τ3的時(shí)候,Xi-1、Xi之間存在接續(xù)關(guān)系,并且P(Xi/Xi-1)越大,接續(xù)強(qiáng)度越強(qiáng)。
綜合以上各式,可以設(shè)定合適的閾值,若I(Xi-1,Xi)>τ1,則判定系數(shù)K1=1,反之K1=0;若χ2(Xi-1,Xi)>τ2,則判定系數(shù)K2=1,反之K2=0;若P(Xi/Xi-1)>τ3,則判定系數(shù)K3=1,反之K3=0。定義詞根接續(xù)判定函數(shù)CGJX(Xi-1,Xi)為
用來(lái)綜合判定詞根接續(xù),若CGJX(Xi-1,Xi)≥2時(shí),相鄰兩詞根接續(xù),反之認(rèn)為相鄰詞根不接續(xù)。
當(dāng)檢測(cè)到某個(gè)詞根與相鄰詞根不接續(xù)的時(shí)候,可以對(duì)糾錯(cuò)候選集中的候選結(jié)果計(jì)算相應(yīng)的參數(shù)值,看它們是否滿(mǎn)足與前后詞根的接續(xù)關(guān)系,從而找出最符合接續(xù)關(guān)系的結(jié)果作為最終結(jié)果,以此糾正錯(cuò)誤,識(shí)別出連續(xù)句子。
本研究從中國(guó)手語(yǔ)詞中選了120個(gè)常用詞根,以這120個(gè)詞根構(gòu)建了260個(gè)左右的手語(yǔ)詞匯,并以此為基礎(chǔ)構(gòu)建了200個(gè)實(shí)驗(yàn)例句,例句平均長(zhǎng)度為4.6個(gè)詞根。實(shí)驗(yàn)選取2名受試者,每名受試者分5次采集數(shù)據(jù),每次實(shí)驗(yàn)采集40個(gè)例句,每個(gè)句子重復(fù)三遍。這樣,用于實(shí)驗(yàn)分析的數(shù)據(jù)集包含了5 640個(gè)手語(yǔ)詞根樣本和1 200個(gè)句子樣本。數(shù)據(jù)處理時(shí)將每個(gè)受試者5d的數(shù)據(jù)分為三組,每組數(shù)據(jù)包含全部200個(gè)句子且不重復(fù),以其中2組作為訓(xùn)練樣本,剩下的1組作為測(cè)試樣本。
由于本工作的研究對(duì)象為手語(yǔ)詞根和句子,與日常語(yǔ)言有著很大的不同,所以在本工作中建立統(tǒng)計(jì)語(yǔ)言模型需要先建立相應(yīng)的手語(yǔ)語(yǔ)句語(yǔ)料庫(kù)。本工作使用的語(yǔ)料庫(kù)中包含有2 000個(gè)日常手語(yǔ)語(yǔ)句,并依據(jù)手語(yǔ)的構(gòu)成規(guī)則進(jìn)行了相應(yīng)的詞根標(biāo)注。在此日常手語(yǔ)語(yǔ)料庫(kù)中共含有9 344個(gè)手語(yǔ)詞根樣本,平均語(yǔ)句長(zhǎng)度為4.7個(gè)詞根。
以120個(gè)詞根動(dòng)作為對(duì)象進(jìn)行統(tǒng)計(jì)建立模型,則可能出現(xiàn)的詞根接續(xù)對(duì)為120×120=14 400個(gè)。由于語(yǔ)料庫(kù)的規(guī)模大小是有限的,它并不能完全的反映出所有詞根動(dòng)作的出現(xiàn)規(guī)律,仍然會(huì)有大量的低頻詞出現(xiàn),即有數(shù)據(jù)稀疏情況的出現(xiàn)。為了避免數(shù)據(jù)稀疏對(duì)實(shí)驗(yàn)的影響,使用了katz平滑方法對(duì)統(tǒng)計(jì)結(jié)果進(jìn)行數(shù)據(jù)平滑,其在小訓(xùn)練集的bigram模型上有較大的優(yōu)勢(shì)。最終經(jīng)數(shù)據(jù)平滑后獲得120個(gè)詞根的二元統(tǒng)計(jì)模型矩陣和一元統(tǒng)計(jì)結(jié)果。
當(dāng)建立了bigram統(tǒng)計(jì)模型后,為了對(duì)詞根接續(xù)關(guān)系進(jìn)行判定,需要對(duì)相應(yīng)的閾值參數(shù)進(jìn)行設(shè)定,其中包括互信息,Pearson的χ2統(tǒng)計(jì)量和轉(zhuǎn)移概率。由于語(yǔ)料庫(kù)的規(guī)模有限,它不能完全的反映所有詞根動(dòng)作的接續(xù)關(guān)系,會(huì)引起在糾錯(cuò)的過(guò)程中有些錯(cuò)誤可能漏檢,而有些出現(xiàn)比較少的接續(xù)關(guān)系有可能被判錯(cuò)。為了對(duì)糾錯(cuò)模型進(jìn)行定量分析,定義正確率(accuracy)Pa,誤報(bào)率(false)Pf和漏報(bào)率(omission)Po。記待檢測(cè)文本中實(shí)際的錯(cuò)誤數(shù)(error)Me,檢測(cè)出錯(cuò)誤的位置數(shù)量為(check)Mc,其中正確檢測(cè)出錯(cuò)誤位置的數(shù)目為(right check)Mr,檢測(cè)出錯(cuò)誤而實(shí)際上原文位置正確的數(shù)量為(false check)Mf。則有
Pa=Mr/Me
Pf=Mf/Mc
Po=(Me-Mr)/Me
為了找到最佳的糾錯(cuò)模型參數(shù),利用部分測(cè)試文本進(jìn)行了相應(yīng)的實(shí)驗(yàn),在測(cè)試文本中,共有727個(gè)接續(xù)檢測(cè)點(diǎn),其中錯(cuò)誤位置為109個(gè),通過(guò)對(duì)不同的閾值進(jìn)行設(shè)定檢測(cè),統(tǒng)計(jì)此時(shí)測(cè)試文本的檢錯(cuò)相應(yīng)結(jié)果,從而找到最佳的閾值。
在確定了合適的統(tǒng)計(jì)語(yǔ)言模型后,為驗(yàn)證所提出的基于加速度與表面肌電信息融合,和統(tǒng)計(jì)語(yǔ)言模型的手語(yǔ)識(shí)別方法的有效性和實(shí)用性,首先對(duì)所采集的融合表面肌電和加速度信息的手語(yǔ)詞根動(dòng)作進(jìn)行數(shù)據(jù)分析處理,利用多級(jí)決策樹(shù)模型進(jìn)行識(shí)別統(tǒng)計(jì),為每個(gè)句子識(shí)別出相應(yīng)的詞根序列,然后使用bigram模型進(jìn)行詞根的二元接續(xù)關(guān)系進(jìn)行檢測(cè),從而進(jìn)一步改正詞根動(dòng)作的誤識(shí)別,對(duì)糾錯(cuò)后的句子中的詞根識(shí)別結(jié)果進(jìn)行統(tǒng)計(jì)。
表1以正確率、誤報(bào)率和漏報(bào)率的形式給出了在不同的閾值選取下,bigram二元檢錯(cuò)模型對(duì)測(cè)試文本中的錯(cuò)誤檢測(cè)的結(jié)果。
由表1可以看出,若閾值取得過(guò)低的話(huà),可能有大量的錯(cuò)誤會(huì)被漏檢,而若閾值取得過(guò)高的話(huà),則會(huì)有大量的誤報(bào)情況出現(xiàn)。隨著閾值取值的不斷提高,誤報(bào)率的升高趨勢(shì)越來(lái)越明顯。這是由于構(gòu)建的語(yǔ)料庫(kù)與真實(shí)的語(yǔ)言模型還有差距,盡管進(jìn)行了數(shù)據(jù)平滑,但是某些正確存在的詞根組合所存在的概率仍然很小,當(dāng)取得較高的閾值來(lái)判定的時(shí)候,這些組合則會(huì)被判定為錯(cuò)誤。一個(gè)較好的檢錯(cuò)模型應(yīng)該在正確率、誤報(bào)率和漏報(bào)率中取得較好的平衡,即正確率盡量高,而誤報(bào)率和漏報(bào)率盡量低。通過(guò)大量的不同閾值實(shí)驗(yàn)后選取τ1=0.4,τ2=0,τ3=0.01作為實(shí)驗(yàn)時(shí)的所使用的閾值參數(shù)。
表2以120個(gè)手語(yǔ)詞根平均識(shí)別率(Mean)和標(biāo)準(zhǔn)差(Std),以及200個(gè)測(cè)試句子的整體識(shí)別率的形式,給出了使用統(tǒng)計(jì)糾錯(cuò)模型和未使用統(tǒng)計(jì)糾錯(cuò)模型兩種方法進(jìn)行對(duì)比的手語(yǔ)識(shí)別結(jié)果。由表2可知,120個(gè)手語(yǔ)詞根全局平均識(shí)別率在90%以上,句子識(shí)別率在86%以上。驗(yàn)證了所提出的基于SEMG和ACC信息融合與結(jié)合統(tǒng)計(jì)糾錯(cuò)模型的手語(yǔ)識(shí)別方法的可行性和有效性。此外,通過(guò)對(duì)比實(shí)驗(yàn)結(jié)果不難發(fā)現(xiàn),采用糾錯(cuò)模型的方法與未采用糾錯(cuò)模型相比,詞根的平均識(shí)別率提高了近4%左右。對(duì)200個(gè)連續(xù)手語(yǔ)句子的句子識(shí)別結(jié)果進(jìn)行統(tǒng)計(jì)(每個(gè)句子中有一個(gè)詞根錯(cuò)誤就算句子錯(cuò)誤),可以看出句子的識(shí)別率比未使用糾錯(cuò)模型時(shí)有了10%左右的提高。這是由于在多級(jí)決策樹(shù)的最后一級(jí)中,使用ACC和EMG流的多流HMM實(shí)現(xiàn)兩類(lèi)傳感器信息的決策級(jí)融合和手語(yǔ)詞判決,此時(shí)在同一集合中的動(dòng)作具有相似的信號(hào)特征,但是它們?cè)谡Z(yǔ)言的含義上,比如詞性,具有較大的差別,因此可以明顯的用統(tǒng)計(jì)語(yǔ)言模型進(jìn)行詞根的接續(xù)判定來(lái)進(jìn)行糾錯(cuò)。
表1 不同參數(shù)閾值對(duì)糾錯(cuò)結(jié)果的影響Tab.1 The correction results of different threshold
表2 兩種方法的詞根及句子識(shí)別結(jié)果Tab.2 The recognition results of the subwords and the sentences
表3是連續(xù)句子識(shí)別判斷糾錯(cuò)的一個(gè)實(shí)例。正確例句為“他想跑回去”,識(shí)別結(jié)果為“他想跑他他”,即詞根“回”和“去”識(shí)別錯(cuò)誤。此時(shí),結(jié)果中需要進(jìn)行接續(xù)檢測(cè)的詞根組合為〈他,想〉,〈想,跑〉,〈跑,他〉,〈他,他〉四組。(選定的閾值為τ1=0.4,τ2=0,τ3=0.01,帶下劃線(xiàn)的值低于選定的閾值)
表3 詞根接續(xù)錯(cuò)誤檢測(cè)結(jié)果示例Tab.3 The error detection results of the example sentence
在本例中,確定了詞根“跑”和“他”以及詞根“他”和“他”之間不接續(xù),由此就確定了錯(cuò)誤區(qū)間為句子的最后兩個(gè)詞根。然后對(duì)多層決策樹(shù)所提供的糾錯(cuò)候選集里面的詞根進(jìn)行3-best結(jié)果判斷,發(fā)現(xiàn)第一個(gè)錯(cuò)誤詞根“他”的HMMs識(shí)別結(jié)果中最好的三個(gè)詞根為[他,我,回],第二個(gè)錯(cuò)誤詞根“他”的HMMs識(shí)別結(jié)果中最好的三個(gè)詞根為[他,我,去],由此建立候選結(jié)果搭配集,通過(guò)再計(jì)算相應(yīng)的參數(shù)值,可以得到“跑”和“回”的計(jì)算結(jié)果為[4.898 5,240.118 8,0.110 7],“回”和“去”的計(jì)算結(jié)果為[3.965 6,189.231 4,0.207 9],兩者均滿(mǎn)足接續(xù)關(guān)系,所以句子“他想跑回去”是合理的,作為糾錯(cuò)后的最終句子識(shí)別結(jié)果。
綜上所述,將基于SEMG和ACC融合的手勢(shì)識(shí)別方法與基于詞根接續(xù)糾錯(cuò)模型結(jié)合起來(lái),互相補(bǔ)充,可以有效地提高手語(yǔ)連續(xù)語(yǔ)句的識(shí)別率。此種方法主要應(yīng)用于句子中局部錯(cuò)誤的檢測(cè)與糾正,如相鄰詞根之間的關(guān)系判斷。
本研究首先對(duì)基于SEMG和ACC融合的手語(yǔ)手語(yǔ)手勢(shì)識(shí)別技術(shù)進(jìn)行了分析,對(duì)其優(yōu)缺點(diǎn)進(jìn)行了總結(jié),并針對(duì)其識(shí)別結(jié)果受動(dòng)作信號(hào)影響較大的缺點(diǎn),提出了一種基于SEMG與ACC信息融合與結(jié)合統(tǒng)計(jì)語(yǔ)言模型糾錯(cuò)的中國(guó)手語(yǔ)手勢(shì)識(shí)別方法。該方法先通過(guò)基于SEMG與ACC信息融合的多級(jí)決策樹(shù)得到手語(yǔ)詞根識(shí)別的初步結(jié)果,然后再利用統(tǒng)計(jì)語(yǔ)言模型對(duì)識(shí)別結(jié)果中的相鄰詞根動(dòng)作的接續(xù)關(guān)系進(jìn)行檢測(cè),從而把結(jié)果中可能出現(xiàn)的錯(cuò)誤限定在一個(gè)小窗口中,然后再利用多級(jí)決策樹(shù)中所給出的糾錯(cuò)候選集進(jìn)行錯(cuò)誤糾正。實(shí)驗(yàn)結(jié)果表明:這種方法可明顯提高手語(yǔ)手勢(shì)動(dòng)作的正確識(shí)別率。這種糾錯(cuò)方法比較依賴(lài)于所選取進(jìn)行訓(xùn)練的語(yǔ)料庫(kù)的完備程度,且擅長(zhǎng)于檢測(cè)局部范圍內(nèi)的錯(cuò)誤,對(duì)一些語(yǔ)義級(jí)別的錯(cuò)誤還不能做到糾錯(cuò)。今后準(zhǔn)備進(jìn)行更大規(guī)模的手語(yǔ)語(yǔ)句語(yǔ)料庫(kù)的建設(shè),并將句法結(jié)構(gòu)進(jìn)一步引入到識(shí)別過(guò)程中,以期望實(shí)現(xiàn)大詞匯量、連續(xù)的中國(guó)手語(yǔ)識(shí)別系統(tǒng)。
[1]M?ntyj?rvi J,Kela J,Korpip?? P,et al.Enabling fast and effortless customisation in accelerometer based gesture interaction[C]//Proceedings of the 3rd International Conference on Mobile and Ubiquitous Multimedia.New York,NY:ACM,2004:25-31.
[2]Oskoei M,Hu Huosheng.Myoelectric control systems—A survey[J].Biomedical Signal Processing and Control,2007,2(4):275-294.
[3]Chen Xiang,Zhang Xu,Zhao Zhangyan,et al.Hand gesture recognition research based on surface EMG sensors and 2D-accelerometers[C]//Proceedings of the 11th International Symposium Wearable Computers.Boston,MA:IEEE,2007:11-14
[4]Kim J,Wagner J,Rehm M,et al.Bi-channel sensor fusion for automatic sign language recognition[C]//Proceedings of the 8th IEEE International Conference on Automatic Faceand Gesture Recognition.Amsterdam:IEEE,2008:647-652.
[5]馬金山,張宇,劉 挺,等.利用三元模型及依存分析查找中文文本錯(cuò)誤[J].情報(bào)學(xué)報(bào),2004,23(06):723-728.
[6]王春立,高 文,馬繼勇,等.基于詞根的中國(guó)手語(yǔ)識(shí)別方法[J].計(jì)算機(jī)研究與發(fā)展,2003,40(2):150-156.
[7]Zhang Xu,Chen Xiang,Wang Wenhui,et al.Hand gesture recognition and virtual game control based on 3D accelerometer and EMG sensors[C]//Proceedings of the 13th International Conference on Intelligent User Interfaces.New York:Association for Computing Machinery,2009:401-405.
[8]Fang Gaolin,Gao Wen,Zhao Debin.Large vocabulary sign language recognition based on hierarchical decision trees[C]//Proceedings of the 5th International Conference on Multimodal Interfaces.New York,NY:ACM,2003:125-131.
[9]邢永康,馬小平.統(tǒng)計(jì)語(yǔ)言模型綜述[J].計(jì)算機(jī)科學(xué),2003,30(9):22-26.