許天然 吳垚 蘇紅旗
摘 要:文中使用圖像輪廓填充圖形作為手語手勢的特征參數(shù)進(jìn)行靜態(tài)手語識別。關(guān)鍵是提取出圖像邊緣輪廓,并做出輪廓填充圖形,根據(jù)這個(gè)特征參數(shù)對待測圖像進(jìn)行手語手勢的特征匹配。該方法對圖像亮度、縮放、平移、旋轉(zhuǎn)具有不變性,而且該方法計(jì)算簡單、快速,可以用于基于移動(dòng)終端(Android手機(jī)操作系統(tǒng)平臺下)的手語識別系統(tǒng)。
關(guān)鍵詞:手語識別圖像輪廓匹配移動(dòng)終端
中圖分類號:TP391.4 文獻(xiàn)標(biāo)識碼:A 文章編號:1672-3791(2012)07(a)-0024-02
隨著計(jì)算機(jī)技術(shù)和通信技術(shù)的迅速發(fā)展,多模式人機(jī)交互技術(shù)研究也有很大進(jìn)展。手語識別作為多模式人機(jī)交互技術(shù)的重要研究方向,其主要目標(biāo)是使特殊用戶(例如聾啞人)可以用更加方便、自然和符合其生理特點(diǎn)的方式來使用計(jì)算機(jī)、手機(jī)等現(xiàn)代化信息設(shè)備??傊?手語識別的研究和實(shí)現(xiàn)不僅是一門有價(jià)值的研究課題,而且具有更加廣泛的社會(huì)意義和實(shí)際應(yīng)用前景。
目前這種方法對圖像的亮度、縮放、平移、旋轉(zhuǎn)具有不變性,具有很高的識別率,而且識別快速、方便。其缺點(diǎn)在于只能處理靜態(tài)的單個(gè)的手語圖像。但相比以前的電腦平臺下的手語識別,這種方法更加的方便,用很廣闊的前景。
據(jù)國外媒體報(bào)道,美國華盛頓大學(xué)的工程師正在測試一款名為MobileASL的工具,這款工具能利用運(yùn)動(dòng)感知技術(shù)去識別美國手語,并通過手機(jī)發(fā)送圖像。這是目前唯一可查的研究手語識別技術(shù)在移動(dòng)終端應(yīng)用的項(xiàng)目。
1手語識別建模與實(shí)現(xiàn)
通過移動(dòng)終端(這里主要指手機(jī))獲取一幅待測圖片,經(jīng)過預(yù)處理后提取圖像輪廓填充圖形作為特征參數(shù),將特征參數(shù)與標(biāo)準(zhǔn)庫進(jìn)行對比,從而識別出改圖片對應(yīng)的手語含義。原理與模型如圖1所示。
通過手機(jī)獲取26張“A-Z”標(biāo)準(zhǔn)手語手勢的圖片,針對每張圖片我們采取以下處理步驟,以建立標(biāo)準(zhǔn)庫:獲取圖片→灰度處理→圖像裁剪。
本文采用canny算子進(jìn)行邊緣提取。Canny算子是一個(gè)具有濾波、增強(qiáng)、檢測的多階段的優(yōu)化算子,在進(jìn)行處理前,Canny算子先利用高斯平滑濾波器來平滑圖像以除去噪聲,Canny分割算法采用一階偏導(dǎo)的有限差分來計(jì)算梯度幅值和方向,在處理過程中,Canny算子還將經(jīng)過一個(gè)非極大值抑制的過程,最后Canny算子還采用兩個(gè)閾值來連接邊緣。
對提取的圖像邊緣進(jìn)行填充,得到圖像邊緣輪廓填充圖形。將待測圖像的填充圖形在旋轉(zhuǎn)-15°~+15°條件下與標(biāo)準(zhǔn)庫參數(shù)進(jìn)行對比,以得到的相關(guān)系數(shù)最大的角度下的圖像作為識別結(jié)果。這樣就能解決因圖像旋轉(zhuǎn)而造成的識別錯(cuò)誤的問題。彌補(bǔ)了邊緣方向角直方圖參對數(shù)旋轉(zhuǎn)敏感的不足。
2仿真實(shí)驗(yàn)結(jié)果與分析
根據(jù)上面所述方法,文中采用如圖所示的手語識別系統(tǒng)進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)以白色為背景,用數(shù)碼相機(jī)采集手語的手勢圖片, 采用不同的光照,拍攝了26種不同手勢, 將待識別的手語圖片建立了一個(gè)小型的靜態(tài)手語庫,圖像大小歸一化為512×512,其中一部分作為訓(xùn)練使用。
通過以上的實(shí)驗(yàn)我們得出,在手機(jī)環(huán)境下手語的識別是可以實(shí)現(xiàn)的。在對26個(gè)英文字母的手勢的測驗(yàn)中,19張手語手勢可以識別為最相似目標(biāo),5張手語手勢可以識別為次相似目標(biāo),2張手語手勢不可以識別,識別率為92.31%。與以往的手語識別方法相比較,這種方法更加的方便,簡單。但與此同時(shí),這種方法也有其自身的缺點(diǎn),它只適用于靜態(tài)的,單個(gè)的手語手勢。
3結(jié)語
文中的創(chuàng)新點(diǎn)是結(jié)合采用圖像邊緣輪廓圖形這個(gè)特征參數(shù)進(jìn)行靜態(tài)手語識別。圖像邊緣輪廓圖形的特點(diǎn)是對圖像旋轉(zhuǎn)不敏感。該方法計(jì)算簡單、快速、識別率高。本文的另一個(gè)創(chuàng)新點(diǎn)是基于移動(dòng)終端的手語識別。充分利用了3G手機(jī)的極高的數(shù)據(jù)傳輸速率的特點(diǎn),以及支持多媒體通信的優(yōu)勢,因而該技術(shù)具有潛在的巨大的現(xiàn)實(shí)意義。
參考文獻(xiàn)
[1] 郭彩龍.中國靜態(tài)手語識別的研究[D].碩士論文,西安建筑科技大學(xué),2009.
[2] 翟俊海,趙文秀,王熙照.圖像特征提取研究[D].河北大學(xué),2009,1.
[3] Von Agris U,Zieren J,Canzler U, etal.Recent developments in visual sign language recognition[J].Universal Access in the Information Society,2008,6(4):323~362.
[4] 胡友樹.手勢識別技術(shù)綜述[J].中國科技信息,2005(2):42.
[5] 張良國,高文,陳熙霖,等.面向中等詞匯量的中國手語視覺識別系統(tǒng)[J].計(jì)算機(jī)研究與發(fā)展,2006,43(3):476-482.
[6] Yiqiang Chen,Wen Gao,Changshui Yang,Dalong Jiang,Multi-Model Behavior Synchronizing Prosody Model in Sign Language Synthesis.Chinese Journal of Computers,2006(5).
[7] Desmond E.van Wyk,James Connan. High Quality Flexible H-Anim Hands for Sign Language Visualisation[J].
[8] 姜華強(qiáng),潘紅.基于關(guān)鍵幀的多級分類手語識別研究[J].計(jì)算機(jī)應(yīng)用研究, Jan.2010,27(2):491-493.