李 帥,吳玉蓉
(南京理工大學,江蘇 南京 210000)
由于生理上的障礙,很多情況下聾啞人很難表達自己的想法和情感,而聾啞人在工作和生活中經(jīng)常需要與正常人交流,因此聾啞人與正常人的交流障礙問題亟待解決。隨著科技的進步,很多新興技術(shù)逐漸走進人們的生活、惠及民生。手勢識別技術(shù)、情感識別技術(shù)和增強現(xiàn)實技術(shù)的出現(xiàn)能夠為解決聾啞人的交流問題提供新的方法。本文基于這三種技術(shù)構(gòu)建出一套無障礙交流輔助系統(tǒng),并提出終端設(shè)備的設(shè)計策略,以幫助聾啞人更好地融入社會。
全國人口普查和殘疾人抽樣調(diào)查結(jié)果顯示,我國言語殘疾人數(shù)有130萬,聽力殘疾人數(shù)更是達到了2 054萬[1]。聾啞分為先天性聾啞與后天性聾啞。先天性聾啞人大多完全喪失聽力與語言能力,后天性聾啞人可能具有語言能力或通過佩戴助聽器能夠恢復聽力。由于聾啞人與他人交流困難,且容易遭受異樣眼光,因此大多數(shù)聾啞人存在自卑、抑郁傾向,嚴重的甚至會產(chǎn)生自殘或犯罪行為。
手勢識別技術(shù)[2]基于將人類運動識別為輸入形式的基本原理,在終端設(shè)備上設(shè)置有攝像頭或傳感器,可以識別用戶的手勢動作或肢體移動。當設(shè)備檢測到與指令相對應(yīng)的運動時,會按照要求進行響應(yīng)。手勢識別技術(shù)在人機交互方面極為重要,目前已應(yīng)用到智能監(jiān)控、手語識別、虛擬現(xiàn)實等各個領(lǐng)域[3]。
增強現(xiàn)實技術(shù)[4]是將虛擬信息疊加到用戶所在真實世界的一種新興技術(shù)。利用攝像頭等輸入設(shè)備采集當前的真實場景,通過對當前真實場景的信息處理和移動互聯(lián)網(wǎng)來觸發(fā)虛擬信息,并將虛擬信息在真實場景中進行顯示。
情感識別技術(shù)[5]指計算機通過觀察人的表情、行為和情感產(chǎn)生的前提環(huán)境來推斷人的情感狀態(tài),基本目的在于使計算機能夠與人進行情感交流,從而構(gòu)造出友好的人機界面。
情感化設(shè)計[6]是將用戶的情感作為設(shè)計的中心點,情感化設(shè)計三要素包括本能層、行為層、反思層。運用情感化設(shè)計的產(chǎn)品往往更能抓住用戶的心、理解用戶的感受、緩解用戶的負面情緒,更加注重用戶的情感體驗。
目前,市面上出現(xiàn)了一些針對聾啞人與正常人無障礙交流的技術(shù)和產(chǎn)品。例如國外有團隊開發(fā)出了名為“Enable Talk”的手語手套,通過手套內(nèi)置的傳感器感應(yīng)手語信號,通過藍牙連接麥克風傳出聲音信號;國內(nèi)的學者也設(shè)計出雙向交流手語翻譯器[7],利用傳感手套與手機APP連接,將手語轉(zhuǎn)換為文字和聲音信號,并將聲音信號轉(zhuǎn)換為手勢動畫在APP上播放。這些設(shè)計在很大程度上幫助了聾啞人,使其能與他人進行簡單地交流,但仍存在體積大、效率低、使用體驗差等缺點。因此要求無障礙交流輔助系統(tǒng)和終端設(shè)備的設(shè)計更加便攜、效率更高、使用體驗更好。
由于涉及倫理等方面的原因,不適合對聾啞人群體直接進行調(diào)研,因此本文從正常人角度入手,通過問卷的方式對曾與聾啞人有過接觸的50位正常人進行調(diào)研,得到表1所列的數(shù)據(jù)。
表1 與聾啞人交流情況統(tǒng)計
從曾與聾啞人有過接觸的50位正常人的調(diào)研數(shù)據(jù)中可以發(fā)現(xiàn),正常人中手語的普及率很低,聾啞人幾乎無法通過手語與正常人進行交流;有一半的正常人在與聾啞人交流時通過手勢比劃表達自己的想法,另一半則借助手機等設(shè)備通過打字等方式與其進行交流。在交流過程中,由于聾啞人無法通過語調(diào)語氣表達自己的情緒,因此絕大多數(shù)的正常人無法準確感受到聾啞人在交流時的個人情緒。此外,對于絕大多數(shù)正常人來說,他們非常愿意或者說至少不反感通過某種翻譯設(shè)備與聾啞人進行交流。
通過以上調(diào)研,可以發(fā)現(xiàn)聾啞人無障礙交流輔助系統(tǒng)的研究非常必要。無障礙交流輔助系統(tǒng)不僅需要將聾啞人的手語轉(zhuǎn)換為正常人可以理解的形式,也需要能將正常人的語音轉(zhuǎn)換為聾啞人可以理解的形式。除了這種雙向的交流需要順暢外,聾啞人的情緒情感也需要通過該系統(tǒng)進行強化傳遞。只有這樣,才有利于聾啞人更好地融入社會生活和被人們所接受。
研究主要圍繞“如何解決聾啞人與正常人的交流障礙”這一問題進行,其中包含了四個方面:交流過程中聾啞人如何表達自己的想法、聾啞人如何表達自己的情感、聾啞人如何理解對方想法、通過怎樣的終端設(shè)備進行交流。
研究通過構(gòu)建一種聾啞人無障礙交流輔助系統(tǒng)解決主要問題,該系統(tǒng)主要針對完全喪失聽力和語言能力的聾啞人群體。對于只喪失聽力仍具有語言能力或只喪失語言能力仍具有聽力的后天性聾啞人來說,該系統(tǒng)只能發(fā)揮部分功能,但仍然有效。
3.2.1 聾啞人的語言表達問題
聾啞人的語言表達問題的實質(zhì)就是如何將表達聾啞人想法的手語轉(zhuǎn)換為正常人能理解的語音或文字。解決這一問題的關(guān)鍵是如何識別手語,這就需要利用手勢識別技術(shù)構(gòu)建手語識別系統(tǒng)[8]。
基于視覺的手勢識別通常包含數(shù)據(jù)處理、手勢分析、識別分類三個過程。將其原理應(yīng)用于手語識別系統(tǒng)的設(shè)計中,可以得到以下手語識別流程:(1)數(shù)據(jù)處理:首先對攝像頭采集來的聾啞人手勢視頻圖像進行數(shù)據(jù)處理,將手勢圖像從視頻中一幀一幀分離出來,并對圖像進行平滑、銳化、背景分離等預(yù)處理;(2)手勢分析:對手部節(jié)點的空間三維坐標、手指的方向矢量以及運動趨勢等信息進行特征參數(shù)的提取,并在這個過程中不斷通過手勢建模,估算出相應(yīng)的模型參數(shù)[9];(3)識別分類:將得到的特征參數(shù)和模型參數(shù)進行分類,然后與建立的手語特征庫進行比對,最終得到手語含義進行輸出。手語識別系統(tǒng)流程如圖1所示。
圖1 手語識別系統(tǒng)流程
手語識別系統(tǒng)的建立能夠?qū)⒚@啞人的手語轉(zhuǎn)換為可以被正常人理解的語音或文字。整個手語轉(zhuǎn)換過程由視頻圖像采集設(shè)備、手語識別系統(tǒng)、語音模塊和顯示模塊共同完成。視頻圖像采集設(shè)備采集手勢動作,手語識別系統(tǒng)對其進行分析處理,最終結(jié)果由語音模塊和顯示模塊進行輸出,聾啞人的手勢即可被他人理解,如圖2所示。
圖2 手語轉(zhuǎn)換過程
3.2.2 聾啞人的語言理解問題
聾啞人的語言理解問題的實質(zhì)就是如何將正常人的語音轉(zhuǎn)換成聾啞人可以接收的通道信號。情感化設(shè)計理論中的本能層指人的認知感官體系,包括視覺、觸覺、聽覺、嗅覺、味覺,處于支配地位,負責對外界進行感知。但由于聾啞人聽覺通道受損,因此輔助系統(tǒng)需要將聽覺信號轉(zhuǎn)換為其他通道的物理信號,需要利用聾啞人完好的視覺通道、觸覺通道等代償聽覺通道。出于效率、準確率和可實現(xiàn)性的考慮,視覺通道是最佳的補償通道。因此,將正常人的語音轉(zhuǎn)換為可視化的文字或手語動畫,是解決聾啞人語言理解問題的關(guān)鍵。
在語音轉(zhuǎn)換過程中,語音識別環(huán)節(jié)是其中的重點。語音信息首先轉(zhuǎn)換為文字信息,再將文字信息與手語特征庫中的手勢進行比對,然后將含義匹配的手勢進行提取,最后將文字和手勢進行輸出。語音轉(zhuǎn)換過程分為語音輸入、設(shè)備采集、識別分析、終端輸出四個步驟,如圖3、圖4所示。
圖3 語音識別流程
圖4 語音轉(zhuǎn)換過程
語音轉(zhuǎn)換過程的終端輸出方式對聾啞人與正常人的交流過程的效率和體驗會產(chǎn)生很大影響?,F(xiàn)有的產(chǎn)品多通過手持翻譯器或手機APP對文字和手勢動畫進行顯示。但在實際使用中,這種輸出方式經(jīng)常需要聾啞人低頭看屏幕,雖然也能達到交流的目的,但效率大大降低,不僅影響聾啞人的使用體驗,還會使交談的雙方感到不自在。此外,由于需要經(jīng)常低頭,眼神和表情交流會大大減少,這就使本就無法通過語音表達情感的聾啞人更難將自己的情感傳遞給對方。為了優(yōu)化語音轉(zhuǎn)換過程的終端輸出方式,采用增強現(xiàn)實技術(shù)將手勢動畫與文字信息通過穿戴式顯示器進行實時顯示[10]。
3.2.3 聾啞人的情感表達問題
聾啞人的情感表達問題的實質(zhì)就是如何將聾啞人在交流時流露的情緒進行增強。由于聾啞人無法通過語音語調(diào)表達情感,而且在使用手語時可能會遮擋面部表情,因此準確表達情感非常困難。然而一個良好的無障礙交流過程不僅需要雙方能夠順暢地交換信息,情感的交流也極其重要。此研究目的就是幫助聾啞人將交流時產(chǎn)生的情緒實時傳遞給對方。
為了解決這一問題,可以運用情感識別技術(shù)。情感識別技術(shù)有多種不同的手段和方式,而考慮到需要應(yīng)用于聾啞人這類非常特殊的群體,通過反復調(diào)查研究,最終決定采用多模態(tài)特征融合的非接觸手段的情感識別技術(shù)[11]。情感識別技術(shù)的準確率很大程度上依賴于人們說話時語音語調(diào)的狀態(tài),但是聾啞人無法發(fā)聲講話,因此為了提高情感識別的準確率,采用多模態(tài)特征融合的方式。將基于視頻數(shù)據(jù)的面部表情神態(tài)、肢體動作和基于毫米波的心率信號相融合,從多方面多特征對聾啞人進行情感識別。同時,采用非接觸式手段,不僅具有測量方式簡易方便、測量過程對使用者無干擾等優(yōu)勢,還能使終端設(shè)備更便于攜帶和使用[12]。
在情感識別過程中,利用設(shè)備采集聾啞人的面部變化和肢體運動,然后對運動進行預(yù)處理和特征提??;通過心率傳感器采集心率信號,根據(jù)毫米波數(shù)據(jù)分析得到基本情感分類,并將以上數(shù)據(jù)與情感數(shù)據(jù)庫進行比對,從而得出情感結(jié)果,情感識別流程如圖5所示。最后,將情感信息加工融入到語音輸出中,使與聾啞人交流的正常人可以更加準確快速地識別聾啞人的情感狀態(tài),使聾啞人也能夠通過語音來表達自己的情感。
圖5 情感識別流程
3.2.4 終端設(shè)備的設(shè)計要求
在終端設(shè)備的設(shè)計中,需要運用到情感化設(shè)計理論。本能層方面,由于聾啞人大多心理敏感自卑,因此輔助設(shè)備的物理特征設(shè)計需要使聾啞人“無異于常人”,避免造型突兀并因此招致異樣目光。行為層方面,以功能為主,以聾啞人為中心,要切實滿足聾啞人在與他人交流過程中的需求。反思層方面,要安全可靠,增加聾啞人在使用輔助設(shè)備時的信心,帶來踏實愉悅的使用體驗,滿足精神層面需求。
終端設(shè)備可以采用穿戴設(shè)備如AR眼鏡的方式進行設(shè)計。設(shè)備需要具有以下模塊:三個可調(diào)節(jié)模塊化攝像頭,分別用來采集手勢和肢體動作、面部表情和真實場景;語音輸出模塊和語音接收模塊,用于雙向交流;心率傳感器,用于輔助情感識別;顯示器,用于實現(xiàn)AR顯示。此外設(shè)備還需要具有電池、觸控模塊、通信模塊等。
通過以上研究構(gòu)建出一種聾啞人無障礙交流輔助系統(tǒng)。在聾啞人有表達需求時,設(shè)備將采集其手勢動作、肢體動作、心率信號和面部表情,利用手勢識別技術(shù)和情感識別技術(shù)將其轉(zhuǎn)換為具有情感的語音進行輸出,讓溝通對方了解聾啞人語意的同時更加準確地感受到他們的情感。同時,對方的語音也會被設(shè)備接收,通過語音識別技術(shù)轉(zhuǎn)換為聾啞人可以看到的文字和手勢動畫,并利用增強現(xiàn)實技術(shù)顯示在設(shè)備的屏幕上,實現(xiàn)了聾啞人與正常人之間的無障礙交流。此外,研究還運用情感化設(shè)計理論得出無障礙交流輔助系統(tǒng)終端設(shè)備的設(shè)計要求,對該輔助系統(tǒng)的落地有一定的指導意義。
文章從聾啞人群體與正常人交流的需求出發(fā),利用手勢識別技術(shù)、增強現(xiàn)實技術(shù)和情感識別技術(shù)構(gòu)建了一種聾啞人無障礙交流輔助系統(tǒng),并在情感化設(shè)計理論的指導下提出了該系統(tǒng)終端設(shè)備的設(shè)計要求,體現(xiàn)了對聾啞人群體的人文關(guān)懷。但是研究也存在一些問題,比如該系統(tǒng)的技術(shù)實現(xiàn)問題、手語特征庫和情感數(shù)據(jù)庫的建立問題、可穿戴設(shè)備的體積和續(xù)航問題等,都有待進一步研究和解決。