北京工業(yè)大學
王婧瑤,范 飛,劉豪宇,蔣鈺雯
本項目旨在研究一款基于機器視覺的聾啞人手語識別—語音交互系統(tǒng)。將該系統(tǒng)集成在Jetson TX2開發(fā)板上,并嵌入設備載體,由用戶隨身攜帶,在不改變聾啞人生活方式的前提下,利用機器視覺以及深度學習等技術,為其與正常人更加便捷、高效的交流搭建友好的溝通平臺。
初代產(chǎn)品的終端形態(tài)擬構建為智能眼鏡,如圖1所示。鏡架側面搭接雙目攝像頭,可以通過調節(jié)角度確定捕捉范圍。攝像頭后側鏡腿處,嵌入Jetson TX2開發(fā)套件,作為核心處理系統(tǒng)。另一側鏡腿上嵌入揚聲器等元件作為語音模塊,輸出聲音信號。
圖1 初代產(chǎn)品示意圖
揚聲器一側鏡腿處,設置有開關按鈕與音量鍵調節(jié)滾輪,以及藍牙與充電插孔。同時,該設備電源等原件,以及布線皆在鏡架內(nèi)部完成搭接。參數(shù)規(guī)格如圖2所示。
圖2 參數(shù)規(guī)格
使用說明:開啟設備鏡腿一側的開關按鈕,攝像頭處小燈亮起表明開始工作,揚聲器一側滾輪滑動調節(jié)聲音大小。設備開啟后,可將開關按鈕撥動至中間檔位(共分為三檔,即開、關、中檔),即可暫時關閉實時捕捉功能,設備將進入掛起狀態(tài),保持最低功耗。將檔位撥動至“開”,即可繼續(xù)實現(xiàn)交互,完成交流。同時,按動左鏡腿第一個按鈕,小燈亮起,表示語音開始提取,對方回復將會通過藍牙傳至手機端,將語音轉為文字,便于用戶實時查看轉換結果。該設備可實現(xiàn)雙向交互,無交流障礙。
若需要重新設置系統(tǒng)參數(shù),例如在特定場合需要加載專業(yè)語言包,又或者需要重新設置交流音色以及相應頻率,只需利用設備攜帶的藍牙數(shù)據(jù)線連接電腦,登錄設備網(wǎng)站或者通過相關附帶插件進行語音包擴充、查看幫助文檔,從而對設備進行重新設置。
后續(xù)也將推出擴充定制語音包,用戶只需打開移動端的配套小程序或APP窗口,即可實現(xiàn)實時加載,適配多種環(huán)境與多種語言。
該項目研究基于機器視覺、深度學習、運動捕捉等技術,通過Python編寫并實現(xiàn)相關算法。運用嵌入式設備JetsonTX2,CMOS傳感器,攝像頭等搭建硬件系統(tǒng),進而采集分析多種環(huán)境下的聾啞人手勢動作及變化并進行識別,借助已有的語音數(shù)據(jù)庫,建立不同手勢與語音庫中語言的對應關系,完成手勢到語音的自動轉換,實現(xiàn)語音輸出。最終得到一款針對聾啞人的手語識別—語音交互系統(tǒng)。本系統(tǒng)技術路線以及相關硬件搭建如圖3所示。
圖3 產(chǎn)品設備搭建圖示
產(chǎn)品算法的構建主要基于深度學習與機器視覺進行。利用基于高斯混合模型的水平集手部輪廓提取算法與粒子濾波算法等,構建視覺模塊架構。又或通過Matting算法等進行圖像邊緣銳化、斑點檢測和角點檢測等,解決傳統(tǒng)提取跟蹤方法帶來的精度問題,同時減小大數(shù)據(jù)流的存儲空間進而降低成本。通過Python編寫并實現(xiàn)相關算法。
結合高斯模糊、像素塊填充的經(jīng)典紋理合成與高維隱空間特征編碼等操作,對采集的圖片進行去噪、消除敏感信息等處理,并構建庫。將構建好的圖片庫分為訓練集與測試集,采用提取特征+快速搜索模式進行圖像匹配,并對編寫的手勢匹配聚類模型進行訓練,實現(xiàn)機器學習。
經(jīng)測試集校驗精度后,調整全局匹配和局部匹配的關系,考慮采用多線程形式搭接語音包,從而使聚類編譯后的信號可以以語音形式輸出。
建立基于剛性連桿結構模型的手勢仿真,并模擬實際操作中的運行流程,調用API對算法進行模擬測試,調整不同光照等環(huán)境條件,以及虛擬仿生手的不同膚色特點,對系統(tǒng)進行參數(shù)微調。精度達到預期后,燒錄進開發(fā)套件,并進行線路搭接,嵌入到設備載體中,完成樣機的設計。
(1)攝像機標定:確定空間中人手表面各關節(jié)點的三維幾何位置與其在圖像中對應點之間的關系,利用合適的攝像機標定算法,提高機器視覺的魯棒性。
(2)手勢圖像分割與特征提?。菏謩萏卣魈崛∵^程需減除背景,基于膚色分割算法對已有的手勢識別算法進行改進,并利用合適的算法對圖像進行二值化處理,使圖像轉化為一個包含完整信息但僅突出手勢信息的單一圖片。
(3)手勢估計與跟蹤:利用水平集算法及其改進分割圖像,配合適當?shù)哪P蛯κ植縿幼鞯妮喞M行提取和跟蹤,用均值漂移算法等跟蹤輪廓內(nèi)外的圖像特征分布。
(4)手勢行為識別:使用適當?shù)姆诸惼髯R別已有手語庫中的手勢,力求提高識別率。
得益于硬件的選型以及合理的圖像工具的選擇,高速大容量數(shù)據(jù)存儲器控制系統(tǒng)是以SATA接口為儲存介質設計的控制器,Jetson TX2中提供了一個SD Card卡槽和一個SATA接口,用于擴展存儲空間,因此選擇將Jetson TX2作為載體。圖像儲存流程如圖4所示。
圖4 圖像存儲流程
信號轉換可將機器視覺已識別出的與手勢庫中對應的圖像和語音庫中對應的語音聯(lián)系起來。使用編碼器和譯碼器在類似于FPGA的平臺上搭建交互平臺,手勢識別完成后傳入的二維矩陣信號通過遞歸、二分法等組成算法(如gram算法等),轉化為二進制代碼,傳入語音系統(tǒng)后輸出。信號轉換流程如圖5所示。
圖5 信號轉換流程
將用編碼器和譯碼器轉換的二進制代碼借助交互平臺輸入語音系統(tǒng),經(jīng)過單片機(如WTN5055)等設備后,按一定控制模式進行語音編輯,翻譯為聲音信號,通過揚聲器等播報。語音識別及輸出流程如圖6所示。
圖6 語音識別及輸出流程
本項目組將Jetson TX2,Kinect攝像頭等硬件進行線路設計與組裝連接。包括系統(tǒng)架構設計搭建、手勢檢測算法的硬件搭建、任意手形轉換語音的硬件搭建、語音系統(tǒng)的硬件搭建等。對所有需要用到的硬件(TX2等)進行合理布局,制作能夠實現(xiàn)本項目功能的硬件系統(tǒng)。
圖7 硬件系統(tǒng)搭建
(1)圖像庫的建立:搜集較為完備的手語圖像數(shù)據(jù)(標準手語),將已有資源導入庫,使用適當?shù)姆诸惼鲗τ趫D像進行特征分類,與計算機運用算法處理后的圖像相匹配,轉為二維矩陣的二進制代碼。
(2)語音庫的建立:搜集較為完備的語音數(shù)據(jù),將已有資源導入庫,通過插入交互平臺的語音系統(tǒng)(單片機等部件)端口連接,運行時與計算機識別結果相匹配。
本產(chǎn)品從八大維度進行創(chuàng)新。
(1)技術:開創(chuàng)性提出六大算法,支持弱光等環(huán)境,實現(xiàn)高魯棒性算法支撐。
(2)應用:已研發(fā)面向聾啞人群的,包含《蔚藍時代》在內(nèi)的三款產(chǎn)品。將在未來5年內(nèi)實現(xiàn)1.0~5.0的更新。
(3)產(chǎn)品:采用更加貼合生活用品形式的眼鏡作為載體,更加便攜;手語同傳,輕量級硬件。
(4)集成:以本產(chǎn)品為突破口,將人工智能與助老助殘緊密結合,開創(chuàng)算法以及嵌入服務式設備,帶動高科技助老助殘、人機交互、嵌入式醫(yī)療、儀器定制生產(chǎn)等領域的再發(fā)展,實現(xiàn)技術的消化吸收和再創(chuàng)新。
(5)設計:首次提出“內(nèi)核+”的設計理念,融入不同載體,在不改變用戶日常生活的情況下滿足多環(huán)境需求。
(6)模式:“點面結合”進行宣傳銷售。
(7)服務:定制化服務,根據(jù)用戶職業(yè)和身份,量身打造語音包、手語庫(如方言、外語版),根據(jù)場合定制設備載體形態(tài);進行“一對一”指導服務,提供良好的用戶體驗。
(8)兼容性:增加定位、監(jiān)測、圖像識別等功能;提供耐高濕、高溫等特殊材料;多種載體形態(tài),進一步擴大兼容性。
自國家號召助老助殘以來,我國助老助殘創(chuàng)新項目大量涌入,在國家的大力關注和資金投入大背景下,助老助殘項目逐漸增多,但針對聾啞人的產(chǎn)品卻很少。而我們研發(fā)的這一產(chǎn)品填補了聾啞人語音交互系統(tǒng)的部分市場空缺,前景廣闊。
由于產(chǎn)品開發(fā)地在北京朝陽區(qū),在產(chǎn)品推廣初期,可以與朝陽區(qū)殘聯(lián)以及朝陽區(qū)的中國聾兒康復研究中心啟聰幼兒園建立合作意向,向他們銷售產(chǎn)品,待其試用無異常后,與殘聯(lián)達成合作,在殘聯(lián)的幫助下進行推廣。
根據(jù)調查,北京的聾啞人學校多集中在城區(qū),如西城區(qū)的北京第一聾人學校、北京第二聾人學校,海淀區(qū)的北京第三聾人學校,北京市健翔學校等。同時我們可以向大型商場、車站和機場推廣產(chǎn)品,由商場、車站、機場購買產(chǎn)品,在其業(yè)務辦理窗口前放置產(chǎn)品,免費提供給聾啞人使用。后期經(jīng)過產(chǎn)品的不斷改進與推廣,期望產(chǎn)品可以覆蓋北京市場。而隨著用戶群的增加,潛在客戶也越來越多,市場占有率也將得到進一步提升。