廣東石油化工學(xué)院電子信息工程學(xué)院 冼煜峰 湯 杰 馬遠(yuǎn)佳
手語是一種聽力障礙或者無法言語的人互相交流的一種手勢(shì)語言,是通過手型變化來傳達(dá)信息以取代有聲語言信息從而完成交際交流的重要形式。我國目前手語翻譯職業(yè)化剛剛起步,翻譯人員匱乏,尚無法滿足市場(chǎng)需求,故以采用信息技術(shù)便利聾啞人群的手語識(shí)別相關(guān)技術(shù)研究變得愈發(fā)重要與迫切。而本項(xiàng)目是綜合深度學(xué)習(xí)、計(jì)算機(jī)視覺等新型技術(shù)開發(fā)的一套基于卷積神經(jīng)網(wǎng)絡(luò)的手語孤立詞翻譯系統(tǒng)。在Android系統(tǒng)平臺(tái)下實(shí)現(xiàn)靜態(tài)手語翻譯,人機(jī)手語交互等功能。
近來的全國人口普查統(tǒng)計(jì)表面,全國大約存在2070萬聽障人士,包括重聽(相對(duì)聾人來說,是存在殘余的聽力)、弱聽引申?duì)顩r等。根據(jù)世界銀行的統(tǒng)計(jì),目前全世界有超過10億人、大概15%的比例為殘疾人,而殘疾人市場(chǎng)也是世界上服務(wù)需求確實(shí)最大的市場(chǎng)之一。本項(xiàng)目正是基于上述情況,構(gòu)思設(shè)計(jì)出一款基于深度學(xué)習(xí)的手語識(shí)別應(yīng)用,本項(xiàng)目的研發(fā)產(chǎn)品主要針對(duì)聽力受損人士購物、與健全人交友,后期會(huì)針對(duì)會(huì)對(duì)本項(xiàng)目研發(fā)的應(yīng)用的體驗(yàn)情況進(jìn)行調(diào)研,并進(jìn)行相應(yīng)的優(yōu)化和改進(jìn)。本項(xiàng)目主要是針對(duì)計(jì)算機(jī)視覺市場(chǎng)。根據(jù)去年夏天美國勞工部的一份年度報(bào)告顯示,2016年殘疾人的失業(yè)率約為10.5%,而健全人士的失業(yè)率卻只有為4.6%。同時(shí)只有大約十分之一的殘疾人能夠得到輔助性產(chǎn)品的幫助。 為此我們針對(duì)這些方面,設(shè)計(jì)出一款基于深度學(xué)習(xí)的手語識(shí)別應(yīng)用。本項(xiàng)目主要運(yùn)用了“計(jì)算機(jī)視覺”、“手語翻譯”和“卷積神經(jīng)網(wǎng)絡(luò)”等相關(guān)技術(shù),從動(dòng)作、視覺和聽覺三方面與用戶進(jìn)行人機(jī)交互,實(shí)現(xiàn)語音翻譯手語、手語翻譯文字等功能,目標(biāo)是提供人性化、精確化以及智能化的手語翻譯系統(tǒng)。
手語識(shí)別是一個(gè)在計(jì)算機(jī)視覺領(lǐng)域里面比較有難度的課題,傳統(tǒng)的手語識(shí)別是大多是采用某些智能穿戴傳感設(shè)備以及3D體感攝影機(jī)(如:Kinect)來進(jìn)行數(shù)據(jù)采集。但隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的廣泛應(yīng)用,普通的攝像頭(如手機(jī)自帶的攝像頭)開始逐漸成為了計(jì)算機(jī)視覺識(shí)別的主要采集工具。而本項(xiàng)目便是基于深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò),利用Android手機(jī)自帶的攝像頭采集數(shù)據(jù),進(jìn)行手語孤立詞的識(shí)別,實(shí)現(xiàn)簡(jiǎn)單的手語翻譯系統(tǒng)。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)作為深度神經(jīng)網(wǎng)絡(luò)的一種,其適合于處理圖像識(shí)別、信號(hào)處理等數(shù)學(xué)信號(hào)之間的樣本操作,被廣泛應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域中的識(shí)別與認(rèn)知。本項(xiàng)目采集的手語信息屬于視頻信息,如果利用傳統(tǒng)的二維卷積神經(jīng)網(wǎng)絡(luò)(2DCNN)對(duì)視頻信息進(jìn)行操作的話,一般是對(duì)視頻信息中的關(guān)鍵幀圖像利用卷積來進(jìn)行單幀圖像信息的識(shí)別,但是這種識(shí)別方法缺少考慮到時(shí)間維度中的幀間運(yùn)動(dòng)信息,而手語信息大多數(shù)是連續(xù)的一種手勢(shì)動(dòng)作,因此若使用2DCNN則可能導(dǎo)致系統(tǒng)識(shí)別實(shí)時(shí)性不強(qiáng)。
所以為了有效的分析結(jié)合手語視頻中的運(yùn)動(dòng)信息,可以在CNN卷積層中執(zhí)行三維卷積核操作,構(gòu)建三維卷積神經(jīng)網(wǎng)絡(luò)(3DCNN)架構(gòu),以便捕獲空間維度和時(shí)間維度的特征信息。3D卷積輸入是在三維空間的寬度維度Weight、高度維度Height以及一個(gè)與2D卷積不同的額外的深度維度Depth,該架構(gòu)可以捕獲多個(gè)視頻關(guān)鍵幀的時(shí)間與空間特征,生成多信息通道從而可整合為運(yùn)動(dòng)特征信息,作為手語視頻信息的最終特征表示。
TLD(Tracking-Learning-Detection)跟蹤學(xué)習(xí)檢測(cè)算法是一種單目標(biāo)長(zhǎng)時(shí)間跟蹤算法,它是將傳統(tǒng)的跟蹤算法與檢測(cè)算法相結(jié)合的一種算法,常用于解決目標(biāo)在被跟蹤過程中發(fā)生部分遮擋或消失等問題。由于系統(tǒng)觀測(cè)只能從正面進(jìn)行手語觀測(cè),而手語手勢(shì)中有許多動(dòng)作會(huì)產(chǎn)生手部的中包括手指的遮擋與重疊,采用TLD算法時(shí)在跟蹤模塊中如果發(fā)生手部區(qū)域在攝像頭視野中消失將可能造成跟蹤失敗,并由算法的檢測(cè)模版根據(jù)以往檢測(cè)和學(xué)習(xí)到的目標(biāo)模型,對(duì)視頻幀進(jìn)行全局搜索以定位手部目標(biāo)可能出現(xiàn)的區(qū)域。
本項(xiàng)目系統(tǒng)將使用Android系統(tǒng)APP應(yīng)用程序作為客戶端實(shí)現(xiàn)圖像獲取及其圖像預(yù)處理功能。在用戶啟動(dòng)APP后調(diào)用系統(tǒng)攝像頭拍攝手語者手語動(dòng)作,將這些手勢(shì)圖片通過使用OpenCV開源計(jì)算機(jī)視覺庫框架進(jìn)行圖像預(yù)處理。其中預(yù)處理操作包含圖像分割、手勢(shì)膚色檢測(cè)、圖像二值化和形態(tài)學(xué)分析等步驟。
圖像分割作為圖像預(yù)處理的第一步,需要提取出人體區(qū)域去除非目標(biāo)區(qū)域,進(jìn)而提取出手勢(shì)區(qū)域。本項(xiàng)目將采用基于HSV彩色空間檢測(cè)手部膚色來實(shí)現(xiàn)靜態(tài)手語手部區(qū)域的提取,但在攝像頭采集信息時(shí)會(huì)采集到人臉部分,由于人臉與人手膚色一致,會(huì)造成對(duì)手勢(shì)區(qū)域檢測(cè)位置的干擾,因此需要進(jìn)行人臉識(shí)別并將其排除。關(guān)于人臉識(shí)別,本項(xiàng)目采用的是OpenCV中的人臉檢測(cè)庫,通過Haar特征檢測(cè)實(shí)現(xiàn)對(duì)人臉信息的檢測(cè),并將其排除在圖像信息中,實(shí)現(xiàn)精準(zhǔn)的手勢(shì)區(qū)域識(shí)別。并且由于系統(tǒng)處理的是視頻信息,視頻信息表現(xiàn)為30-180幀的圖像,在數(shù)據(jù)處理中必須要提取關(guān)鍵幀,而本項(xiàng)目采用了SURF加速穩(wěn)健特征算法來進(jìn)行特征匹配實(shí)現(xiàn)提取關(guān)鍵幀。SURF算法是一種改進(jìn)型的SIFT算法,加入構(gòu)建了Hessian矩陣,實(shí)現(xiàn)更高效的特征提取與描述。
在實(shí)際中的視頻圖像數(shù)據(jù)采集的過程中,需要考慮到多種噪聲影響導(dǎo)致的圖像信息不穩(wěn)定,如光照等,為了去除噪聲信息的干擾,需要進(jìn)行圖像的區(qū)域增強(qiáng),降低干擾,所以在圖像預(yù)處理要進(jìn)行圖像平滑處理。本項(xiàng)目選用的圖像平滑方法是基于均值漂移濾波(Mean Shift Filter)算法。均值漂移濾波是一種對(duì)空間域區(qū)域處理的圖像平滑濾波算法,使任意一點(diǎn)的像素值,都是周圍N×M個(gè)像素值的均值,常用于圖像濾波與圖像平滑等場(chǎng)景。
關(guān)于手勢(shì)區(qū)域的檢測(cè)通常是采用對(duì)于膚色的檢測(cè),同時(shí)會(huì)通過OpenCV人臉檢測(cè)庫中Haar特征提取排除了同樣膚色的人臉信息,在項(xiàng)目膚色檢測(cè)使用的是基于HSV顏色空間顏色檢測(cè)來提取所需膚色區(qū)域。
HSV是根據(jù)顏色的直觀特性構(gòu)建的顏色模型,其顏色空間三種參數(shù)分別為色調(diào)H(Hue)、飽和度S(Saturation)和明度V(Value),色調(diào)代表色彩信息即光譜顏色位置,飽和度代表所選顏色的純度和該顏色最大的純度之間的比率,明度代表顏色的明暗程度。
在圖像處理中將圖像信息轉(zhuǎn)換成HSV顏色空間,依據(jù)顏色信息來判定手勢(shì)圖像中的像素點(diǎn)顏色是否為手部的顏色范圍內(nèi),并對(duì)其進(jìn)行標(biāo)記,最終實(shí)現(xiàn)按照標(biāo)記輪廓查找并獲取手勢(shì)區(qū)域,實(shí)現(xiàn)手勢(shì)區(qū)域的檢測(cè)。
在已經(jīng)提取到手勢(shì)區(qū)域后,為了便于后續(xù)處理與分析,減小圖像的計(jì)算數(shù)據(jù)量,需要對(duì)手勢(shì)圖像進(jìn)行二值化處理。圖像二值化是一種基礎(chǔ)的圖像預(yù)處理方法,它將彩色圖像轉(zhuǎn)換成灰度圖,將HSV三通道信息轉(zhuǎn)換成灰度單通道信息。對(duì)于本項(xiàng)目設(shè)計(jì)而言,將手部膚色區(qū)域灰度值設(shè)定為255,其他背景區(qū)域的灰度值設(shè)置為0,從而使圖像顏色信息呈現(xiàn)黑白效果,突出檢測(cè)物體的輪廓,便于數(shù)據(jù)處理。
本項(xiàng)目的類型為軟件開發(fā),客戶端運(yùn)行在Android手機(jī)APP上,服務(wù)端使用PythonFlask框架運(yùn)行在Linux系統(tǒng)云服務(wù)器上。模型可通過TensorFlow開源機(jī)器學(xué)習(xí)平臺(tái)訓(xùn)練,使用適用于設(shè)備端推斷的開源深度學(xué)習(xí)框架TensorFlowLite搭建在APP中。
(1)用戶打開軟件進(jìn)入手語孤立詞翻譯系統(tǒng),打開手機(jī)攝像頭采集手語信息。
(2)將采集到的信息進(jìn)行預(yù)處理后輸入模型中,輸出孤立詞翻譯結(jié)構(gòu)。
(3)軟件文本顯示翻譯出的連續(xù)孤立詞,通過用戶對(duì)孤立詞的解讀大概可了解所采集手語信息含義,實(shí)現(xiàn)簡(jiǎn)單的手語翻譯。
系統(tǒng)將采集到的手語圖像進(jìn)行分割并提取關(guān)鍵幀,然后進(jìn)行圖像平滑、去除非目標(biāo)區(qū)域后進(jìn)行具體的手勢(shì)區(qū)域檢測(cè)、圖像二值化等圖像預(yù)處理方法得到所需圖像數(shù)據(jù),最后通過采用TLD目標(biāo)跟蹤算法與3DCNN結(jié)合來進(jìn)行手語孤立詞的識(shí)別翻譯,簡(jiǎn)單流程如圖1所示。
圖1 圖像處理及檢測(cè)識(shí)別流程
測(cè)試要注意以下幾點(diǎn):(1)在明亮且背景不變動(dòng)的情況下,用攝像頭捕捉手勢(shì)是否能實(shí)現(xiàn)準(zhǔn)確識(shí)別。(2)應(yīng)區(qū)分好左右手,保證手勢(shì)與訓(xùn)練時(shí)保持基本一致。經(jīng)過測(cè)試,以上效果均可實(shí)現(xiàn)。
結(jié)論:本文設(shè)計(jì)了一種搭建在Android手機(jī)APP上的基于卷積神經(jīng)網(wǎng)絡(luò)的手語孤立詞翻譯系統(tǒng),對(duì)目前手語識(shí)別所使用的算法進(jìn)行研究與分析。該系統(tǒng)設(shè)計(jì)只適用于健全人與聽力受損人士的短暫交流,今后可增添更多諸如手語學(xué)習(xí)、手語3D動(dòng)畫生成,使APP兼容更多便攜設(shè)備等功能,使其雙向交流更為方便、智能,也可使人們學(xué)習(xí)到更多實(shí)用性的手語,可應(yīng)用于圖書館等特殊場(chǎng)所人們的交流,因此該系統(tǒng)還有很大的拓展空間。