汪家琦 吳澤琨 王一鳴 王書平 丁伊博
摘? ?要:本文提出一種基于多模態(tài)深度融合網(wǎng)絡(luò)的可穿戴式導(dǎo)盲眼鏡設(shè)備的設(shè)計方案。本方案配備雙目采集、紅外測距、圖像處理、圖像識別、語音播報五大核心功能模塊,搭建智能導(dǎo)盲眼鏡系統(tǒng)的硬件平臺,使用RealSence攝像頭對場景進(jìn)行采集,結(jié)合深度學(xué)習(xí)的算法在遠(yuǎn)程云服務(wù)器上完成了對目標(biāo)場景的灰度處理,投射呈像,最后以處理過的景象對視障人士的行動作出實時的引導(dǎo),從而有效幫助視力障礙人士更好地識別場景以及對物體進(jìn)行分類。同時該設(shè)備還配有語音播報和測距等其他功能。
關(guān)鍵詞:導(dǎo)盲設(shè)備? 雙目采集? 圖像處理? 深度融合? 信息轉(zhuǎn)換? 語音播報
中圖分類號:TP391? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識碼:A? ? ? ? ? ? ? ? ? ? ? ? 文章編號:1674-098X(2019)11(c)-0098-05
近年來隨著我國老齡化人口的持續(xù)增多,視力障礙者數(shù)量在急劇上升,許多視力障礙人士仍有光感,但其感光能力低于常人,無法分清遠(yuǎn)近景,導(dǎo)致完全無法分辨場景中的事物。目前為解決視障人士與盲人的日常生活、出行等問題,市面上也已經(jīng)涌現(xiàn)出大量的導(dǎo)盲工具。但大多導(dǎo)盲工具都存在一定的缺陷,如導(dǎo)盲犬訓(xùn)練時長過長,品種稀有,價格昂貴,且使用場景嚴(yán)重受限。而市場上提出的智能導(dǎo)盲設(shè)備也多以超聲波導(dǎo)盲儀、伴隨式導(dǎo)盲機(jī)器人為主。超聲波導(dǎo)盲儀功能單一,在使用時需要反復(fù)探測,且受環(huán)境影響大;而導(dǎo)盲機(jī)器人在功能上更完善,但存在無法與用戶的視野、行動范圍一致等問題,使用效果不佳,且體積龐大,硬件開發(fā)成本高。以上設(shè)備都沒有有效幫助非全盲的視障人士,忽略了視障人士存在光感的特點,其功能較為單一。
本文為此設(shè)計了一種基于多模態(tài)深度融合網(wǎng)絡(luò)的可穿戴式導(dǎo)盲設(shè)備,其配備雙目采集、紅外測距、圖像處理、圖像識別、語音播報五大核心功能模塊,功能較為齊全,使視障使用者可以視聽結(jié)合,通過已處理的圖像和人機(jī)交互認(rèn)知周圍環(huán)境,充分利用了視障人士的感光特點,改變圖像的灰度,將其做邊緣銳化等處理,使“盲人”實現(xiàn)視物。本設(shè)備受眾人群廣,且與視障人士視野高度一致,可穿戴設(shè)計攜帶方便;并為全盲患者提供測距、識別、語音播報等輔助功能。相對市場中已有的各種導(dǎo)盲工具造價低廉,使用方便,彌補(bǔ)了市場上的空缺,具有十分重要的社會意義和廣闊的市場前景。
1? 智能導(dǎo)盲眼鏡控制系統(tǒng)總體設(shè)計
本文的控制系統(tǒng)配備雙目采集、紅外測距、圖像處理、圖像識別、語音播報等核心功能模塊搭建智能導(dǎo)盲眼鏡系統(tǒng)的硬件平臺,主要完成信息采集傳輸和智能指令導(dǎo)盲功能。遠(yuǎn)程服務(wù)器作為系統(tǒng)的信息處理中心,結(jié)合深度學(xué)習(xí)算法,實現(xiàn)對周圍目標(biāo)的圖像識別和距離檢測。
2? 智能導(dǎo)盲眼鏡控制系統(tǒng)硬件設(shè)計
2.1 雙目采集模塊設(shè)計
在本導(dǎo)盲設(shè)備中,我們選用因特爾公司生產(chǎn)的realsense深度高清攝像頭,realsense的功能十分強(qiáng)大,我們可以通過程序控制實時將雙目攝像頭拍攝的圖像轉(zhuǎn)換為深度圖像,并進(jìn)行智能導(dǎo)盲眼鏡前方場景信息的采集,幫助盲人確定前方目標(biāo)和相應(yīng)的場景信息。攝像頭采集的深度圖像由普通的RGB三通道彩色圖像和深度圖兩部分組成。其中深度圖與傳感器與目標(biāo)物體之間的距離有關(guān),每個像素上的深度值與傳感器距離物體的實際距離呈映射關(guān)系,因此視力障礙者可以清楚地分辨出前方的物體信息和距離信息。
2.2 無線通信傳輸模塊設(shè)計
本裝置采用與單片機(jī)最小系統(tǒng)連接的Wi-Fi模塊進(jìn)行導(dǎo)盲眼鏡與遠(yuǎn)程云平臺服務(wù)器之間的雙向通信。在導(dǎo)盲眼鏡中插入Wi-Fi模塊,單片機(jī)中的串行通訊口與雙目采集模塊、紅外測距模塊連接,單片機(jī)中USB接口連接Wi-Fi模塊、數(shù)據(jù)接口。
2.3 語音播報模塊設(shè)計
該模塊采用SYN6288語音芯片。SYN6288芯片通過異步串口(UART)通訊方式與控制器連接,控制器接收遠(yuǎn)程云平臺服務(wù)器傳輸來的識別配對結(jié)果的文字信息,發(fā)送給SYN6288芯片,并且發(fā)出合成文本的指令后,芯片開始工作,將控制器送入的文字信息轉(zhuǎn)換成語音信息輸出。
3? 智能導(dǎo)盲眼鏡控制系統(tǒng)的軟件設(shè)計
3.1 導(dǎo)盲眼鏡前端軟件設(shè)計
3.1.1 圖像分析
由我們采集到的深度圖像可以看出,采集到的深度圖像是一種類熱成像圖的形式,但是人熱成像圖是以物體的溫度進(jìn)行區(qū)別顏色,而深度圖是以物體的距離遠(yuǎn)近區(qū)別顏色。由此,我們便考慮是否能夠建立深度圖像的RGB通道的值隨距離的變化規(guī)律,而從提供一種新的分析思路。
3.1.2 分析過程
基于上述的思路,現(xiàn)在需要解決的問題就是建立獲得的深度圖像的RGB通道的像素值與其距離遠(yuǎn)近的關(guān)系。我們考慮在采集深度圖像的時候,將物體的變化盡可能的平滑,這樣可以使得圖像的像素值連續(xù)變化,而不會出現(xiàn)大的跳變現(xiàn)象。從而更好地進(jìn)行分析。
我們利用VS2015自帶的Image Watch附件進(jìn)行像素值的讀取,通過OpenCV讀入圖像,設(shè)置斷點,然后讀取圖像每一點的像素值,來判斷其變化過程。
通過Image Watch工具的幫助,我們可以看到在采集到的深度圖像中其像素值隨著物體深度的不同而發(fā)生變化,可以看出這應(yīng)當(dāng)是按照某種規(guī)律而產(chǎn)生的變化,只是我們目前并沒有很好地掌握這種規(guī)律。
但是,我們可以很明顯的看到,對于這張深度圖像而言,距離我們近(深度值?。┑奈矬w,會更偏向于藍(lán)色,而離我們遠(yuǎn)的物體會更偏向于紅色,最甚者會變?yōu)楹谏?。(同時,在物體的周圍邊緣也存在有黑色區(qū)域,這一區(qū)域的產(chǎn)生并不是由于深度值的不同而產(chǎn)生的,而是因為RealSense D435自帶的深度圖像采集的模式而產(chǎn)生的,由于紅外攝像頭與RGB攝像頭的位置存在偏差,從而在物體邊緣處,產(chǎn)生了深度值缺失的點,這與我們要討論的并不是一個問題;另外,當(dāng)距離過近時,同樣會產(chǎn)生黑色的深度值缺失部分。)我們嘗試由像素點的變化找到RGB各個通道的對應(yīng)點像素值與物體深度值的對于關(guān)系。
3.1.3 實驗結(jié)論
我們?nèi)〕鰩讉€特殊區(qū)域的像素值變化。第一部分是綠色和藍(lán)色的過渡區(qū)域。
在藍(lán)色與綠色過渡帶中,我們可以看到,以BGR的排列順序進(jìn)行分析(RGB圖像的存儲格式的通道順序為BGR),在這一區(qū)域中,綠色(G)通道的值在255附近(最大為255),同時藍(lán)色(B)和紅色(R)通道的值的和為255左右。
然后是綠色和紅色的過渡帶。
可以發(fā)現(xiàn),這一部分,藍(lán)色(B)通道的值始終為0,紅色通道的值在255附近(最大為255),隨著紅色的逐漸增大,綠色(G)通道的值逐漸減小。
有了過渡帶的規(guī)律之后,我們需要對純色帶進(jìn)行研究分析。
首先是藍(lán)色區(qū)域,該區(qū)域的深度圖像應(yīng)當(dāng)是深度值最小的,也即是離我們最近的。
可以看到的是,對于這一部分,紅色(R)通道的值始終為0,藍(lán)色通道的值在255附近,隨著距離的增加,綠色通道的值逐漸增加。
然后是綠色部分,這一部分的距離位于紅色部分與藍(lán)色部分中間。
可以看出,這一部分的值的和藍(lán)綠過渡區(qū)的值的變化規(guī)律相同,所以可以歸納一種相同的情況。
最后是紅色區(qū)域,紅色區(qū)域位于距離的較遠(yuǎn)部分,我們還是選取紅色部分的深度值來進(jìn)行分析。
可以看到的是,對于紅色區(qū)域而言,它的藍(lán)色(B)通道和綠色(G)通道的值都為0,紅色通道的值隨著距離的加深逐漸減小,直至為0即為黑色。
基于上述分析,我們可以將整個RGB各個通道像素值的變化分為4個部分,做成如表1所示。
灰度圖像為單通道圖像,取值范圍為0~255。我們的目的是希望通過灰度圖像的灰度值反應(yīng)處深度圖像所要表達(dá)的物體的距離信息。按照前面的分析思路,我們已經(jīng)將深度攝像頭所采集到的距離信息分為了四類,在要求不是很苛刻的情況下,我們可以選擇等分這四部分,也就是說將0~255之間的所有數(shù)值等分為四組,即為0~63,64~127,128~191,192~255這四個像素值區(qū)間。同時按照變化規(guī)律進(jìn)行條件的設(shè)定,對于每一個像素區(qū)間內(nèi)像素值的變化,則可以由對應(yīng)于深度圖的變化部分的RGB通道像素值的變化而決定。如表2所示。
這部分的思路是通過區(qū)間內(nèi)部的像素值變化來確定這部分的灰度值變化。
對于0~63的部分,我們可以將該部分的灰度值取值表示為0+G/4,其中G為其綠色通道的變化值,而乘上1/4是因為整個0~255區(qū)間被等分為4部分,此外還可以防止像素值的溢出。
對于64~127的部分,我們可以將該部分的取值表示為63+R/4,其中R為紅色通道的取值。
對于128~191的部分,我們可以將該部分的取值表示為127+(255-G)/4,其中G為其綠色通道的變化值,因為255-G表示這部分通道內(nèi)像素值的變化。
對于192~255的部分,我們可以將該部分的取值表示為191+(255-R)/4,其中R為其紅色通道的變化值,思路與前一部分相同。
我們利用OpenCV庫來完成上述思路的實現(xiàn)。
3.2 遠(yuǎn)程云平臺服務(wù)器上的軟件設(shè)計
圖像識別部分設(shè)計為基于goolenet模型的物體識別分類。搭載于vs2017+opencv3.4環(huán)境下,搭載好環(huán)境后在程序中引用三個重要文件:
GoogLenet采用Inception結(jié)構(gòu),為一個22層的深度網(wǎng)絡(luò),不僅進(jìn)一步提升了預(yù)測分類的準(zhǔn)確率,而且極大地減少了參數(shù)量,將此模型運用到我們的云臺上,配合程序開關(guān),即可實現(xiàn)識別物體。
在利用卷積神經(jīng)網(wǎng)絡(luò)——Inception-ResNet-v2網(wǎng)絡(luò)模型對目標(biāo)物體進(jìn)行識別后,即可將識別結(jié)果生成文本;讀取文本,通過軟件算法使每間隔1/8k秒輸出一字節(jié)數(shù)據(jù),每輸出8位數(shù)據(jù)通過DAC0800數(shù)模轉(zhuǎn)換,轉(zhuǎn)換成相應(yīng)的電流信號,再通過運放LM358轉(zhuǎn)換成電壓信號驅(qū)動揚聲器發(fā)聲,即實現(xiàn)語音播報。
經(jīng)測試本裝置基于goolenet模型可實現(xiàn)將物體識別播報錯誤率降低到7.56%左右。
4? 系統(tǒng)測試結(jié)果與分析
通過系統(tǒng)測試,該智能導(dǎo)盲眼鏡不僅能對視障人士的獨立出行進(jìn)行避障提示,而且能使視障人士增強(qiáng)視覺體驗,識別物體輪廓(呈現(xiàn)圖像如圖8所示);另外該導(dǎo)盲眼鏡還具有圖像識別能力,能幫助視障人士進(jìn)行簡易的物品識別(圖9分別為截取圖片和識別后帶標(biāo)注圖片)。
通過使用本裝置,視障人士確實可以規(guī)避障礙,部分有光感的視障人士可以實現(xiàn)視物,并且可以通過本裝置物體識別后的語音提示完成物品擺盤,歸類放置等測試,體現(xiàn)了裝置的實用價值。
5? 問題及解決方法
本文所述的產(chǎn)品也存在著一些問題,我們將繼續(xù)研究,致力于改善產(chǎn)品性能,提升其實用性。
考慮到視障人士并不能很便捷地找到可穿戴設(shè)備并順利穿戴使用,我們擬在云端服務(wù)器再搭建人機(jī)交互部分,識別用戶語音,并利用語音播報做出回應(yīng)。
另外,也可以增加手勢識別部分,通過紅外感應(yīng),當(dāng)遮擋光源,喚醒系統(tǒng),系統(tǒng)檢測到模塊后進(jìn)行模塊識別。擬用類似于HLX6612手勢感應(yīng)傳感模塊的原理,采用光學(xué)反射感應(yīng)原理,內(nèi)置軟件算法,支持在距離傳感器檢測窗口 5-25CM 范圍內(nèi)識別設(shè)定的特定手勢,做出例如截取場景、拍照識別等動作。
通過以上說明,使用戶更加便捷地使用本產(chǎn)品。
6? 結(jié)語
隨著各種形式的導(dǎo)盲設(shè)備被廣泛應(yīng)用,用戶需要更加便攜舒適的體驗。本系統(tǒng)不僅能對視障人士的獨立出行進(jìn)行避障提示,而且能使視障人士簡單視物,辨別物體框架,從而提高視覺障礙人士的生活體驗。此導(dǎo)盲眼鏡相較于導(dǎo)盲犬花銷較低,應(yīng)用場所也更為廣泛;相較于GPS導(dǎo)盲定位儀獲取信息更加完善,更為精準(zhǔn)。同時用戶的佩戴體驗度更高,更有利于智能導(dǎo)盲可穿戴設(shè)備的推廣和發(fā)展,具有深遠(yuǎn)的社會意義和廣闊的發(fā)展前景。
參考文獻(xiàn)
[1] 何騰鵬,張榮芬.基于機(jī)器視覺的智能導(dǎo)盲眼鏡設(shè)計[J].嵌入式技術(shù),2017(4):58-61.
[2] 朱愛斌,何大勇.基于雙目視覺方法的可穿戴式導(dǎo)盲機(jī)器人研究[J].機(jī)械設(shè)計與研究,2016(5):31-35.
[3] 王力程,陳銳,韓旭,等.基于超聲波測距原理的電子導(dǎo)盲車設(shè)計[J].電子技術(shù)與軟件工程,2018(18):98-99.
[4] 楊永福,周嘉暉.智能導(dǎo)盲穿戴設(shè)備的現(xiàn)狀分析及設(shè)計定位[J].中國設(shè)備工程,2017(5):147-149.
[5] 許保彬.基于AT89C52單片機(jī)的紅外發(fā)射與接收系統(tǒng)的研究[J].通信技術(shù),2008(9):120-130.