雷濤,許兆坤,王昭昳,李釗,張林媛,路國華
空軍軍醫(yī)大學 a. 軍事生物醫(yī)學工程學系;b. 基礎(chǔ)醫(yī)學院,陜西 西安 710032
失語群體是指言語功能喪失群體,其主要包括出生缺陷、聲帶損傷等導致的失語群體[1-2]以及腦卒中、脊柱損傷等退行性疾病導致的失語群體[3-5]。該類群體基數(shù)大,由于無法像正常人一樣交流溝通,嚴重影響其正常工作、學習、娛樂、就醫(yī)、維權(quán)等,甚至一些低文化言語殘障人士面臨生存危機,對家庭和社會造成了一定的負擔[6]。因此如何消除失語群體社會參與障礙,尊重和保護殘障人士的自主權(quán)、生命權(quán)和人格完整權(quán),推動殘障人士共享經(jīng)濟社會發(fā)展成果,增強全社會扶殘助殘意識,是目前需要重點解決的問題[7-8]。本研究通過設(shè)計并制作一個可穿戴的智能“眼-語”解決裝置,旨在幫助失語群體實現(xiàn)基本的交流,提升該類人群社會生活的能力。
系統(tǒng)整體架構(gòu)如圖1 所示,主要元件及其作用包括:4 個反射率傳感器(Pololu-2459 QTR-1RC,用于捕捉右眼球運動方向)、USB3.0A 電纜(為傳感器供電以及將傳感器輸出信號傳輸至Aduino Nano模塊)、Aduino Nano模塊(用于處理傳感器輸出信號和系統(tǒng)控制)、文本轉(zhuǎn)語音模塊(Parallax Emic 2,主要將患者5 s 內(nèi)2 個眼球運動方向所對應的預定義文本短語轉(zhuǎn)換為語音輸出、移動電源(+5 V,為系統(tǒng)供電)、抗掉電模塊(防止系統(tǒng)低功耗造成移動電源無法檢測到耗電設(shè)備)、音頻插座(為外部揚聲器提供輸出接口)、基板(將Arduino 模塊、文本轉(zhuǎn)語音模塊、抗掉電模塊、音頻插座及內(nèi)部揚聲器的電氣連接整合到一個電路板上)、普通眼鏡(為4 個反射率傳感器提供一個支架,方便傳感器捕捉眼球運動方向)、系統(tǒng)外殼及傳感器支架(為確保設(shè)備的便攜性,設(shè)計了一個3D 打印的外殼,將除傳感器及眼鏡外的硬件電路封裝在一個外殼中;同時,為了將傳感器固定在眼鏡上,為4 個傳感器也3D 打印了一個傳感器支架,傳感器支架可用雙面膠固定在眼鏡上,見圖2。
圖1 系統(tǒng)整體架構(gòu)
圖2 系統(tǒng)外殼及傳感器支架
整個解決方案是基于Arduino 平臺,該平臺是一個開放源代碼的單芯片微控制器,其使用了Atmel AVR 單片機,采用了基于開放源代碼的軟硬件平臺。使用連接到普通眼鏡上的4 個紅外反射率傳感器,實現(xiàn)對右眼球運動狀態(tài)(向上、向下、向左、向右及閉眼)的識別。每識別2 個連續(xù)的眼球運動動作(上、下、左、右)的組合,文本轉(zhuǎn)語音模塊即輸出該組合所對應的預定義短語,如患者右眼球先向上看,然后向右看,“眼-語”助手可以解釋這個動作(上+右),文本到語音模塊將輸出其對應的預定義短語。同時整個系統(tǒng)的控制采用Arduino Nano 模塊實現(xiàn),其即可滿足失語群體對相關(guān)功能的需求,并且其體積較小,易于攜帶。整個系統(tǒng)硬件PCB 基板大小為64 mm×55 mm;同時,根據(jù)硬件系統(tǒng)尺寸大小,設(shè)計了一個3D 打印的外殼,可便于穿戴。
主設(shè)備需要一個微處理器,作為設(shè)備的“大腦”,協(xié)調(diào)輸入、計算和產(chǎn)生的輸出,同時保持對順序任務的跟蹤等,本研究選擇Arduino Nano 完成這項任務。首先為實現(xiàn)音頻輸出功能,使用了Parallax Emic 2 這一高質(zhì)量的文本轉(zhuǎn)語音控制器;然后添加一個連接眼鏡上紅外反射率傳感器傳輸信號的USB 3.0 A 型母頭連接器,一個用于外部揚聲器的3.5 mm AUX 音頻插座,該音頻插座額外引出一個2 針頭連接器,可實現(xiàn)選擇使用內(nèi)部揚聲器的功能。此外,除了音頻輸出外,還添加了一個狀態(tài)LED,為患者提供反饋?,F(xiàn)代大多數(shù)電源設(shè)備供電時,會因其供電的硬件系統(tǒng)功耗低及電流太小,無法檢測到該硬件為其正常供電。為了防止出現(xiàn)這種情況,本研究增加了一個額外的電路用于“故意”地浪費一點能量,確保移動電源為系統(tǒng)正常供電。主設(shè)備電路原理圖如圖3 所示,PCB 圖如圖4 所示。
圖3 主設(shè)備原理圖
圖4 主設(shè)備PBC圖
軟件設(shè)計采用Arduino IDE(V1.8.14)平臺。為了使本系統(tǒng)能盡可能多地應用于不同的溝通情景,軟件設(shè)計利用5 s 內(nèi)2 個右眼球運動方向作為一個組合,并且只允許兩個方向的組合,然后輸出一個預定義短語。根據(jù)這一規(guī)則,2 個右眼球運動方向可生成16 種組合。
利用4 個傳感器檢測閉眼,當右眼閉眼2 s,可以實現(xiàn)對系統(tǒng)功能的主控,進入主控功能模式后,利用16 種眼球運動方向的組合,可現(xiàn)實16 種不同的主控功能,包括4 種系統(tǒng)功能控制、4 種基本應答和8 種可設(shè)定情景。各主控功能對應的患者右眼球運動組合控制方式如圖5 所示。
圖5 16種不同的主控功能對應的患者右眼球運動組合控制方式
右眼閉眼2 s,進入主控功能模式后,可選擇8 種情景模式用于不同的溝通場景,每種情景模式均可由患者右眼球2 個運動方向的組合控制進入。在本研究中預定了4 種情景模式,分別是情景1(居家)、情景2(朋友)、情景3(護理)及情景4(就醫(yī));另外4 種情景模式為患者可根據(jù)不同的溝通環(huán)境自己定制。
系統(tǒng)集成展示如圖6 所示,關(guān)鍵元器件供電電壓測試結(jié)果為+4.7~4.8V,供電正常。各傳感器輸出、USB 引腳、Arduino 引腳連接均導通。紅外外反射率傳感器對單眼球運動方向最佳感應距離為3~4 mm,最大感應距離為9~10 mm。
圖6 系統(tǒng)集成展示
為了測試系統(tǒng)功能,招募20 名受試者測試主控功能模式與4 種預定義情景模式下,測試系統(tǒng)語音輸出是否正常。每名受試者測試3 次,統(tǒng)計主控功能模式與4 種預定義情景模式下語音輸出的正常率,數(shù)據(jù)以(±s)表示。在60 次的功能測試中,系統(tǒng)主控功能模式與4 種預定義情景模式下語音輸出的正常率在93%以上(圖7),可滿足實際使用需求。
圖7 系統(tǒng)功能測試結(jié)果
據(jù)2006 年第二次全國殘疾人抽樣調(diào)查數(shù)據(jù),中國現(xiàn)有殘疾人8300 多萬,涉及7000 多萬個家庭、2.6 億人口[9]。2006 年我國殘疾人占2005 年第三次全國總?cè)丝?3.09 億人的6.34%。其中言語殘疾的人數(shù)為127 萬,其占殘疾人總?cè)藬?shù)的1.53%。雖尚無最新的言語殘疾人數(shù)的權(quán)威數(shù)據(jù),但根據(jù)2021 年第七次全國人口普查最新人口總量14.11 億這一數(shù)據(jù)[10],在殘疾人占比保持不變的前提下,可以保守推算出中國現(xiàn)有殘疾人約8900 多萬,其中言語殘疾的人數(shù)約為137 萬[11]。因此,如何使失語群體實現(xiàn)基本交流已成為社會普遍關(guān)注的問題[12]。
手語是用手勢比量動作,根據(jù)手勢的變化模擬形象或者音節(jié)以構(gòu)成的一定含義或詞語,其是聽力障礙或者無法言語的人互相交流的一種手的語言,是該類人群的主要的交際工具[13]。但是,手語具有一定的局限性,首先學會手語并不容易,要達到正常交流的水平需要一定的時間,且每個國家或地區(qū)間手語存在一定差異,日常生活中的推廣度不高。
語音合成(Text to Speech,TTS)技術(shù)是將人類語音用人工的方式產(chǎn)生,能將任意文字信息實時轉(zhuǎn)化為標準流暢的語音朗讀出來,相當于給機器裝上了人工嘴巴[14],其涉及聲學、語言學、數(shù)字信號處理、計算機科學等多個學科技術(shù),是信息處理領(lǐng)域的一項前沿技術(shù),其主要將文字信息轉(zhuǎn)化為可聽的聲音信息,使機器像人一樣開口說話。在線TTS 利用供Android/iOS 在線語音合成軟件開發(fā)工具包(Software Development Kit,SDK),適用于網(wǎng)絡(luò)環(huán)境穩(wěn)定場景下的手機等智能硬件設(shè)備快速集成。但是,該項技術(shù)需要患者打字,僅適用于手功能健康的失語群體。腦卒中、脊柱損傷或其他緩慢失去對身體功能控制的退行性疾病的患者[15-17]常伴隨手功能障礙,無法使用手語或者在線TTS技術(shù)實現(xiàn)交流。
與在線TTS 技術(shù)相比,TTS 芯片雖然功能較為簡單,但其具有體積小,功能穩(wěn)定可靠,可滿足特定溝通環(huán)境下的交流需求,支持任意中文文本的合成,對常見的數(shù)值、電話號碼、時間日期、度量衡符號等格式的文本具有智能分析處理功能,且抗噪能力強(在嘈雜的噪音環(huán)境下也可聽懂),內(nèi)置功放,可以直接驅(qū)動喇叭等優(yōu)點。非常適合可穿戴智能產(chǎn)品的設(shè)計;同時,結(jié)合紅外眼球運動方向捕捉技術(shù),可以利用眼球運動方向的控制實現(xiàn)讓TTS 芯片語音輸出預定義好的文本短語,不需要手的參與,也可以讓機器發(fā)聲,滿足兩類失語人群實現(xiàn)基本交流。本研究將眼球運動方向捕捉技術(shù)與文本轉(zhuǎn)語音技術(shù)結(jié)合,探究利用眼球運動方向的控制讓機器發(fā)聲的關(guān)鍵技術(shù),并利用該機器研發(fā)一種可穿戴的裝置,使失語群體能在不同溝通情景下實現(xiàn)基本交流,以滿足患者的實際生活需要。
本研究旨在解決如何消除失語群體社會參與障礙并實現(xiàn)基本交流這一問題,該問題是社會發(fā)展特定人群需求的一個實際問題,具有較好的應用價值。本研究提出的“眼-語”解決方案和裝置,可以為失語群體提供8 種溝通情景下的128 個高質(zhì)量語音輸出,且這些語音均可定制,該系統(tǒng)具有較廣的應用性和較好的擴充性。