楊俊 高凡承 王新龍 寧磊
摘要:漸凍癥患者隨著病情的發(fā)展會(huì)逐漸喪失語(yǔ)言功能,無(wú)法通過(guò)語(yǔ)言表達(dá)內(nèi)心需求,造成較大的心理壓力,為了幫助漸凍人能夠輕松地與外界交流,本文為漸凍人設(shè)計(jì)了一種人機(jī)交互系統(tǒng)。由于患者會(huì)逐漸喪失行動(dòng)能力,本文設(shè)計(jì)了眨眼識(shí)別算法,該識(shí)別算法能夠識(shí)別出眨眼的面部動(dòng)作,并且區(qū)分接收到的眨眼信號(hào)是否為患者有意識(shí)地眨眼。交互系統(tǒng)配以圖形界面,圖形界面內(nèi)置了虛擬軟鍵盤,用戶能夠不通過(guò)敲擊鍵盤實(shí)現(xiàn)打字輸出。設(shè)計(jì)的交互系統(tǒng)以眨眼作為人機(jī)交互方式,系統(tǒng)將接收到的眨眼信號(hào)傳入圖形界面,圖形界面通過(guò)虛擬軟鍵盤實(shí)現(xiàn)輸出功能。患者雖喪失了語(yǔ)言功能和行動(dòng)能力,但可以通過(guò)該交互系統(tǒng)實(shí)現(xiàn)眨眼打字,舒緩心理壓力。
關(guān)鍵詞:人臉對(duì)齊;人臉特征點(diǎn)檢測(cè);眨眼識(shí)別;人機(jī)交互
【Abstract】InordertohelpALSpatientscommunicatewiththeoutsideworldeasily,thisresearchdesignsaman-machineinteractionsystemforALSpatients.Becausethepatientwilllosetheabilityofaction,thispaperdesignsaneyeblinkrecognitionalgorithm,whichcanrecognizethefacialmovementsofblinkinganddistinguishwhetherthereceivedblinksignalisconscious.Theinteractivesystemisequippedwithagraphicalinterface,whichhasbuilt-invirtualkeyboard,userscantypewithouthittingthekeyboard.Theinteractivesystemtakesblinkashuman-computerinteractionmode,andtheinteractivesystemcanreceivetheblinksignalandsendittothegraphicinterface.Meanwhile,thegraphicinterfacerealizesexpressionfunctionthroughvirtualkeyboard.Althoughthepatientlostthelanguagefunctionandtheactionability,theinteractivesystemcanhelpthepatientrelievethepsychologicalpressure.
【Keywords】facealignment;facelandmarkdetection;blinkdetection;man-machineinteraction
作者簡(jiǎn)介:楊俊(2000-),男,本科生,主要研究方向:計(jì)算機(jī)視覺(jué)、人機(jī)交互。
0引言
到2020年,全球已有超過(guò)一百萬(wàn)的“漸凍癥”患者[1]。研究可知,罹病患者由于神經(jīng)損傷,喪失語(yǔ)言功能和行動(dòng)能力,無(wú)法與外界交流以滿足自身需求,因此承受巨大的心理壓力和生理痛苦[2]。
為了能讓漸凍癥患者可以自主地與外界交流,本文為漸凍癥患者設(shè)計(jì)了一種人機(jī)交互系統(tǒng),使用該系統(tǒng)患者將無(wú)需穿戴任何設(shè)備,只需面對(duì)攝像頭,通過(guò)眨眼與計(jì)算機(jī)交互,并通過(guò)圖形界面來(lái)完成打字輸出,輕松地實(shí)現(xiàn)與外界交流。
1交互方式的設(shè)計(jì)
由于漸凍癥患者隨著病情的加重會(huì)喪失語(yǔ)言和行動(dòng)能力,所以無(wú)法通過(guò)控制手指敲擊鍵盤與計(jì)算機(jī)交互。患者通常只能控制眼睛的運(yùn)動(dòng),因此有面向
漸凍人設(shè)計(jì)的人機(jī)交互系統(tǒng)是通過(guò)識(shí)別眼球來(lái)展開研究,將人眼眼球的位置作為輸入信號(hào)來(lái)與計(jì)算機(jī)進(jìn)行交互[3],但是這種交互方式存在一些不足。首先,計(jì)算機(jī)無(wú)法判斷輸入信號(hào)是否為患者有意識(shí)地交互,易造成誤判。其次,人眼眼球運(yùn)動(dòng)幅度較小,不易被計(jì)算機(jī)辨別,增加了交互難度。并且,患者的視線長(zhǎng)時(shí)間注視在顯示器的同一位置,易造成視覺(jué)疲勞。
本次研究即以眨眼作為患者和計(jì)算機(jī)交互的方式,通過(guò)訓(xùn)練面部標(biāo)志模型,設(shè)計(jì)眨眼檢測(cè)算法和圖形界面,來(lái)實(shí)現(xiàn)人機(jī)交互。同時(shí),眨眼檢測(cè)算法能夠辨別患者是否為有意識(shí)地眨眼,避免了誤判,提升了交互系統(tǒng)的穩(wěn)定性,降低了操作難度。
2眨眼識(shí)別算法的研究
2.1人臉特征點(diǎn)檢測(cè)模型的選擇
為了能夠辨別患者是否眨眼,研究時(shí)需要有能夠識(shí)別人眼關(guān)鍵點(diǎn)的深度學(xué)習(xí)模型,關(guān)鍵點(diǎn)包括左側(cè)眼角關(guān)鍵點(diǎn)、右側(cè)眼角關(guān)鍵點(diǎn)、左側(cè)上眼瞼關(guān)鍵點(diǎn)、右側(cè)上眼瞼關(guān)鍵點(diǎn)、左側(cè)下眼瞼關(guān)鍵點(diǎn)以及右側(cè)下眼瞼關(guān)鍵點(diǎn)[4],如圖1所示。過(guò)程中還要考慮到患者頭部姿態(tài)的改變對(duì)識(shí)別精確度的影響,該模型也要能夠克服頭部姿態(tài)所帶來(lái)的噪聲,因此深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型采用深度對(duì)齊網(wǎng)絡(luò)[5](DeepAlignmentNetwork)。深度對(duì)齊網(wǎng)絡(luò)的輸入為整張圖片,充分利用了人臉的全局信息,使得檢測(cè)人臉關(guān)鍵點(diǎn)時(shí)受頭部姿態(tài)的影響較小。深度對(duì)齊網(wǎng)絡(luò)每個(gè)階段均有3個(gè)輸入,分別是:被矯正過(guò)的圖片、關(guān)鍵點(diǎn)熱圖和全連接層生成特征圖。每個(gè)階段有一個(gè)輸出,是面部形狀。每階段的輸出要經(jīng)過(guò)連接層轉(zhuǎn)換,得到下個(gè)階段的3個(gè)輸入。網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖2所示。
同時(shí),將圖片輸入全連接層,以線性整流函數(shù)作為激活函數(shù),再進(jìn)行上采樣,得到用于輸入的特征圖。
經(jīng)過(guò)多層網(wǎng)絡(luò)迭代訓(xùn)練,最終得到能識(shí)別人臉面部關(guān)鍵點(diǎn)的深度學(xué)習(xí)模型。經(jīng)由分析可知,深度對(duì)齊網(wǎng)絡(luò)加入了關(guān)鍵點(diǎn)熱圖,神經(jīng)網(wǎng)絡(luò)能以整張圖片作為輸入,提取人臉的全局信息,所以深度學(xué)習(xí)模型能夠較好地克服頭部姿態(tài)導(dǎo)致的干擾,識(shí)別效果如圖6所示。
2.2眨眼檢測(cè)算法的設(shè)計(jì)
在實(shí)現(xiàn)2.1節(jié)研發(fā)的基礎(chǔ)上,本文就能得到人臉中眼睛的6個(gè)關(guān)鍵點(diǎn)坐標(biāo),如圖7所示。
在患者閉眼時(shí),關(guān)鍵點(diǎn)坐標(biāo)會(huì)發(fā)生顯著變化,如圖8所示。
由于人臉與攝像頭之間的距離會(huì)影響圖片中2像素點(diǎn)之間坐標(biāo)的差值[6],因此通過(guò)計(jì)算出上下眼瞼關(guān)鍵點(diǎn)距離之和與左右側(cè)眼角關(guān)鍵點(diǎn)距離的比值[7],來(lái)判斷人眼的狀態(tài),令函數(shù)DR如下式所示:
3人機(jī)交互界面的設(shè)計(jì)
人機(jī)交互系統(tǒng)以眨眼作為人機(jī)交互方式,圖形界面均勻地排布著26個(gè)英文字母按鍵[8],作為虛擬軟鍵盤的界面。并且加入了便捷按鍵,能夠直接在顯示框中輸出常用的交流短語(yǔ),例如:“Iwanttodrinkwater”,“Iamhungry”等,以提升交互界面的使用便捷度,交互界面如圖11所示。
研究中為了降低患者使用該系統(tǒng)的復(fù)雜度,減少眨眼次數(shù),圖形交互界面會(huì)先循環(huán)選中每一行字母按鍵,每行選中時(shí)停留3s的時(shí)間,若在停留時(shí)間內(nèi),圖形界面接受到眨眼輸入信號(hào),則會(huì)退出行循環(huán),開始循環(huán)選中該行中的每一個(gè)字母按鍵,每個(gè)按鍵選中時(shí)停留3s的時(shí)間,若在停留時(shí)間內(nèi),圖形界面接收到眨眼輸入信號(hào),則輸出框中會(huì)出現(xiàn)選中的字母,并退出該行的字母按鍵循環(huán)。此時(shí)交互系統(tǒng)完成一次輸出,開始進(jìn)行下一輪行循環(huán),等待眨眼信號(hào)的輸入。
該圖形界面自動(dòng)循環(huán)選中按鍵,不需要患者通過(guò)眨眼來(lái)操縱選中按鍵的位置,極大程度上減少了眨眼操作的次數(shù)。并且圖形界面先循環(huán)選中每行按鍵,患者確認(rèn)某行按鍵后,再循環(huán)選中該行中的每一個(gè)字母按鍵,兼顧了眨眼交互的效率。
4結(jié)束語(yǔ)
本文提出了一種為漸凍人設(shè)計(jì)的有意識(shí)的眨眼交互系統(tǒng)。該交互系統(tǒng)采用眨眼作為人機(jī)交互的方式,并且患者的視線不需要長(zhǎng)時(shí)間注視在屏幕上,提升了使用者的舒適度。漸凍癥患者可以通過(guò)眨眼來(lái)操控圖形界面的輸出框顯示出想要表達(dá)的內(nèi)容,從而幫助其及時(shí)與醫(yī)護(hù)人員溝通,該人機(jī)交互系統(tǒng)具有一定的創(chuàng)新性和實(shí)際應(yīng)用價(jià)值。
參考文獻(xiàn)
[1]BROWNRH,SWASHM,PASINELLIP.Amyotrophiclateralsclerosis[M].2nded.Florida:CRCPress,2006.
[2]劉曉陽(yáng).罕見(jiàn)病群體網(wǎng)絡(luò)社群的使用及其對(duì)心理健康的影響研究[D].廈門:廈門大學(xué),2019.
[3]王浩沖,沈小鍵,賈磊,等.睿眼隨心—漸凍人腦電輔助交互系統(tǒng)[J].物聯(lián)網(wǎng)技術(shù),2018,8(5):13-14.
[4]張?jiān)疲顛?基于級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的人臉特征點(diǎn)識(shí)別算法實(shí)現(xiàn)[J].蘭州理工大學(xué)學(xué)報(bào),2020,46(3):105-109.
[5]朱富麗,楊磊,姬波.基于增強(qiáng)并行級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測(cè)方法[J].計(jì)算機(jī)應(yīng)用與軟件,2020,37(11):101-105,111.
[6]黃琬婷,胡小平.一種基于張氏標(biāo)定法的單目相機(jī)改進(jìn)標(biāo)定算法[J].導(dǎo)航與控制,2019,18(1):105-111.
[7]余貴珍,牛歡,張艷飛,等.一種基于單目攝像頭的前向物體橫向距離標(biāo)定方法:中國(guó),CN109087361A[P].2018-12-25.
[8]董小龍,趙斯衎.基于手勢(shì)識(shí)別的人機(jī)交互技術(shù)的研究[J].電子制作,2020(19):73-74,54.