王佳雯,管業(yè)鵬
(上海大學(xué)通信與信息工程學(xué)院,上海200444)
基于人眼注視非穿戴自然人機(jī)交互*
王佳雯,管業(yè)鵬*
(上海大學(xué)通信與信息工程學(xué)院,上海200444)
提出了一種基于人眼注視的非穿戴自然人機(jī)交互新方法?;谌梭w生物結(jié)構(gòu)特征,采用主動(dòng)形狀模型確定人眼輪廓特征點(diǎn),并根據(jù)HSV色彩空間構(gòu)建人眼特征直方圖,采用粒子濾波法,對(duì)人眼目標(biāo)跟蹤與定位?;谧畲笕腔瘎澐秩搜圯喞卣?,構(gòu)建人眼幾何模型,通過(guò)圖像幀間均值濾波,確定人眼注視交互目標(biāo),實(shí)現(xiàn)非穿戴的人機(jī)交互,滿(mǎn)足用戶(hù)交互的靈活性、舒適性和自由性等要求。通過(guò)實(shí)驗(yàn)對(duì)比,驗(yàn)證了該方法有效、可行。
人機(jī)交互;非穿戴;三角化劃分;人眼幾何模型;人眼注視
隨著計(jì)算機(jī)應(yīng)用的日益普及,人機(jī)交互技術(shù)已成為人們工作、學(xué)習(xí)與生活的重要組成部分,研究“以人為中心”的自然、和諧與高效的人機(jī)交互技術(shù),日益受到人們的高度重視[1]。
目前,使用常規(guī)輸入設(shè)備(如鍵盤(pán)、鼠標(biāo)和觸摸屏等)進(jìn)行輸入的人機(jī)交互過(guò)程,不僅單調(diào)、呆板,且具有一定的局限性。隨著計(jì)算機(jī)技術(shù)的迅猛發(fā)展,交互方式更加多元化,出現(xiàn)了Kinect、Xtion Pro、Leap Motion以及Google Glass等基于視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)及其多模態(tài)(亦稱(chēng)為通道)的體感交互設(shè)備。其中,Ki?nect、Xtion Pro雖可獲取穩(wěn)定的人體骨架點(diǎn),但有效確定人體側(cè)面骨架以及人體的細(xì)微關(guān)節(jié)點(diǎn)(如手指尖)困難;Leap Motion雖可獲取穩(wěn)定的手指尖位置,但僅能進(jìn)行有限近距離的人機(jī)交互;Google Glass雖集成了觸摸與語(yǔ)音信號(hào),但交互方式為穿戴式,在一定程度上制約了人機(jī)交互的靈活性和自由性。
在人類(lèi)信息的獲取中,Mehrabian[2]認(rèn)為93%來(lái)自于非言語(yǔ)。在非言語(yǔ)人類(lèi)交互中,人臉面部特征不僅可傳達(dá)豐富的視覺(jué)信息,且可通過(guò)人臉朝向顯性或隱性地表達(dá)目標(biāo)?;谌四槼虻娜藱C(jī)交互方法的關(guān)鍵之一,是如何有效確定人臉朝向。目前已提出了較多人臉朝向確定方法,其中,Zhang等人[4]基于機(jī)器學(xué)習(xí)各方向的人臉朝向檢測(cè)器,進(jìn)行人臉朝向識(shí)別,該方法雖可適用于低分辨率圖像,但隨著檢測(cè)器的增加,訓(xùn)練樣本分類(lèi)難度將顯著增加,同時(shí),因相鄰檢測(cè)器之間存在串?dāng)_,導(dǎo)致難以有效應(yīng)用于實(shí)際人機(jī)交互中;Heo和Savvides[5]基于3D人臉訓(xùn)練數(shù)據(jù),獲取二維投影人臉形狀,利用二維人臉五官特征點(diǎn),構(gòu)建人臉模型估計(jì)人臉朝向,但因僅利用面部五官特征,而未充分利用人臉其他特征點(diǎn),因此其人臉朝向的有效性低;Yang等人[6]基于2D/3D方向梯度直方圖,通過(guò)樣本訓(xùn)練和學(xué)習(xí),確定人臉朝向,但該方法僅能粗略估計(jì)有限人臉朝向。在上述人臉朝向確定方法[3-6]中,均通過(guò)機(jī)器學(xué)習(xí)、訓(xùn)練,不僅受訓(xùn)練樣本因素影響,且運(yùn)算復(fù)雜。為克服上述不足,Beymer等人[7]采用歸一化互相關(guān)和外觀(guān)匹配模板,確定數(shù)據(jù)庫(kù)中已有人臉朝向,但該法僅能估計(jì)離散面部朝向,且增加模板將導(dǎo)致計(jì)算更加耗時(shí),因而難滿(mǎn)足人機(jī)交互要求。其他學(xué)者雖也提出了其它不同人臉朝向確定方法[8-10],但因人臉易受多種非可控因素(如姿態(tài)、表情、光照等)影響,因此,采用人臉朝向進(jìn)行人機(jī)交互,其交互性能并不理想。
相對(duì)于人臉朝向,采用視線(xiàn)進(jìn)行人機(jī)交互則更加迅捷。其中,程成等人[11]采用線(xiàn)性預(yù)測(cè)眼動(dòng)檢測(cè)與跟蹤方法,估計(jì)用戶(hù)視線(xiàn)方向,選取前方液晶顯示屏上的虛擬目標(biāo);Sugano等人[12]基于高斯過(guò)程回歸,建立眼睛圖像與視線(xiàn)交互點(diǎn)之間的映射關(guān)系,獲取交互用戶(hù)在所觀(guān)察圖片上的注視點(diǎn)。上述基于視線(xiàn)人機(jī)交互方法[11-12],由于微小的眼球移動(dòng),將產(chǎn)生較大的視線(xiàn)變化。為克服上述不足,基于多模態(tài)人機(jī)交互方法[13-14],則利用多種感知模態(tài)的互補(bǔ)性。其中,Tu等人[13]基于手勢(shì)和面部朝向,控制機(jī)器人頭部旋轉(zhuǎn);Carrino等人[14]則基于手勢(shì)和語(yǔ)音與智能家居進(jìn)行多模態(tài)交互,但在交互過(guò)程中,用戶(hù)需穿戴攝像機(jī)與麥克風(fēng)于用戶(hù)手臂上,從而在一定程度上限制了用戶(hù)交互的自然性和靈活性要求。
由上述分析知,目前雖已提出了基于不同交互模態(tài)或其組合的多種人機(jī)交互方法,但大多均假定交互場(chǎng)景中僅存在單一交互用戶(hù),且場(chǎng)景環(huán)境或條件可控,并限定用戶(hù)僅能在指定的有限范圍內(nèi)活動(dòng)與交互,從而在很大程度上制約了用戶(hù)交互的自由性與靈活性。
針對(duì)上述不足,提出了一種新穎的基于人眼注視的非穿戴自然人機(jī)交互新方法。實(shí)驗(yàn)結(jié)果表明,該方法有效、可行,用戶(hù)無(wú)需佩戴任何標(biāo)記,通過(guò)其人眼注視方向的改變,快速控制桌面音樂(lè)播放器。
由于主動(dòng)形狀模型ASM(Active Shape Model)[15]可根據(jù)人臉姿態(tài)定位人眼特征點(diǎn),并適應(yīng)場(chǎng)景光照變化,因此,文中基于A(yíng)SM[15]定位人眼輪廓特征點(diǎn)。
設(shè)人眼樣本i的眼部具有n個(gè)特征點(diǎn)組成如下形狀向量:
式中,(xij,yi)j分別表示第i個(gè)樣本的第j個(gè)特征點(diǎn)坐標(biāo)。
為得到n個(gè)特征點(diǎn)的形狀變化規(guī)律,對(duì)每一樣本形狀向量縮放、平移和旋轉(zhuǎn),并將樣本做如下歸一化:
式中,P=[p1,p2,…,p2n]為主成分軸,bi[=bi1,bi2,…,bi2n]為主成分軸加權(quán)值,即人眼形狀參數(shù)。
基于Viola-Jones方法[16]進(jìn)行人眼檢測(cè)搜索,并根據(jù)此人眼矩形擬合框的大小及位置,初始化縮放、旋轉(zhuǎn)以及平移參數(shù),得到如下初始形狀特征點(diǎn)向量Xi:
式中,Pm[=p1,p2,…,pm]為經(jīng)PCA降維后的前m主成分軸,bm為經(jīng)PCA降維后的前m主成分軸的加權(quán)值。
當(dāng)人臉姿態(tài)發(fā)生變化時(shí),根據(jù)式(4),對(duì)人眼特征點(diǎn)輪廓線(xiàn)法線(xiàn)方向搜索最佳特征點(diǎn)位置,并調(diào)整姿態(tài)參數(shù)(S,θ,t)以及形狀參數(shù)bm,以更新形狀模型?;谏鲜龇椒?,提取的人眼輪廓特征點(diǎn)如圖1(b)。
圖1 人眼輪廓特征點(diǎn)提取
為提高基于A(yíng)SM[15]人眼輪廓特征點(diǎn)定位的時(shí)效性,根據(jù)HSV色彩空間中的色調(diào)分量H、飽和度分量S對(duì)光照不敏感[17],建立8級(jí)色彩(H,S)分量直方圖以及根據(jù)HSV色彩空間中的亮度分量V,對(duì)人眼目標(biāo)區(qū)域建立8級(jí)方向梯度直方圖以描述人眼目標(biāo)區(qū)域的空間位置信息。按下式獲取融合色彩(H、S)直方圖和亮度(V)灰度梯度方向直方圖的人眼特征直方圖qr:
其中,C為規(guī)一化系數(shù):
基于上述人眼特征直方圖qr,采用粒子濾波方法[18],對(duì)人眼目標(biāo)進(jìn)行動(dòng)態(tài)跟蹤與定位。
基于人眼輪廓特征點(diǎn)處于同一平面,根據(jù)上述確定的人眼輪廓特征點(diǎn)(如圖1(b)),選取人眼N個(gè)輪廓特征點(diǎn),描述人眼輪廓特征信息,并對(duì)N個(gè)人眼輪廓特征點(diǎn)進(jìn)行編號(hào)(如圖2(a)),以確保人眼輪廓特征間的相對(duì)位置關(guān)系不因人臉姿態(tài)變化而變化。根據(jù)3點(diǎn)唯一確定一空間平面,將編號(hào)的輪廓特征點(diǎn)進(jìn)行最大三角化劃分,以降低計(jì)算復(fù)雜度。同時(shí),在三角化劃分過(guò)程中,三角形不重復(fù)且三角形的3個(gè)頂點(diǎn)均勻分布在人眼輪廓線(xiàn)上,將所劃成的N個(gè)三角形,構(gòu)成N個(gè)相互獨(dú)立的空間平面(如圖2(b))。
式中,(A,B,C)為三角形的3個(gè)頂點(diǎn),N為輪廓特征點(diǎn)的個(gè)數(shù)分別為取下底和上頂運(yùn)算符,M為劃分后的三角形的數(shù)量即集合的總數(shù)。
分別對(duì)三角形劃分后的每一個(gè)三角形,求出其所在平面的法向量:
式中,n為三角形所在平面法向量,AB和AC為三角形所在平面的向量,×為向量叉乘運(yùn)算符。
圖2 基于人眼輪廓特征點(diǎn)的網(wǎng)格化
由于臉部以及人眼不可避免地存在波動(dòng),導(dǎo)致基于人眼部位不同三角形求得的交互目標(biāo)空間點(diǎn),難匯聚到同一交互點(diǎn)。為克服上述影響,采用剔除極值法,剔除基于M個(gè)三角形所確定的TM點(diǎn)中最大和最小各20%的數(shù)據(jù)T,保留剩余的M*個(gè)TM*點(diǎn)。同時(shí),為克服因人眼注視在圖像幀之間的交互目標(biāo)點(diǎn)T波動(dòng),對(duì)k幀圖像的T點(diǎn)做如下幀間均值濾波,以確定穩(wěn)定的人眼注視交互目標(biāo)空間點(diǎn)Tˉ:
式中,T(i,j)為基于當(dāng)前圖像幀的前第i幀的第j個(gè)三角形平面求解出的交互目標(biāo)空間點(diǎn),k為幀間均值濾波幀數(shù)(將后續(xù)討論、說(shuō)明)。
為驗(yàn)證所提方法的有效性,基于如圖3所示的實(shí)驗(yàn)裝置進(jìn)行實(shí)驗(yàn),并采用多人工作與學(xué)習(xí)的實(shí)驗(yàn)室作為人機(jī)交互場(chǎng)景。場(chǎng)景中的用戶(hù)無(wú)需佩戴任何有助于特征識(shí)別的標(biāo)志物,按照各自交互習(xí)慣,通過(guò)其人眼注視方向,控制音樂(lè)播放器。
圖3 基于人眼注視人機(jī)交互實(shí)驗(yàn)裝置示意圖
3.1參數(shù)討論與分析
由上述分析知:式(9)中的濾波幀數(shù)k對(duì)注視交互目標(biāo)的確定存在一定程度影響,取值過(guò)大易導(dǎo)致交互目標(biāo)空間點(diǎn)-T收斂慢,取值過(guò)小則易引起交互目標(biāo)空間點(diǎn)-T不穩(wěn)定。
為獲取合適的k值,基于圖3所示的實(shí)驗(yàn)裝置進(jìn)行實(shí)驗(yàn)。采用交互目標(biāo)空間點(diǎn)-T的標(biāo)準(zhǔn)差,表征交互目標(biāo)空間點(diǎn)的穩(wěn)定性。標(biāo)準(zhǔn)差越小,表明交互目標(biāo)空間點(diǎn)越穩(wěn)定。其中,所得實(shí)驗(yàn)結(jié)果如圖4。
圖4 注視交互目標(biāo)空間點(diǎn)標(biāo)準(zhǔn)差隨參數(shù)k的變化
由圖4知,當(dāng)k=5時(shí),交互目標(biāo)空間點(diǎn)T-標(biāo)準(zhǔn)差最小,且當(dāng)k>5后,交互目標(biāo)空間點(diǎn)T-標(biāo)準(zhǔn)差變化幅度趨于穩(wěn)定。因此,取k=5,并在實(shí)驗(yàn)中保持不變。
3.2交互目標(biāo)識(shí)別結(jié)果分析
為驗(yàn)證所提方法在實(shí)際交互場(chǎng)景下確定交互目標(biāo)的有效性,基于OpenCV,Pentium E3400 2.60GHz雙核CPU,4.00GB RAM PC機(jī),VS2010 C/C++編譯環(huán)境,進(jìn)行基于人眼注視交互的音樂(lè)播放器響應(yīng)實(shí)驗(yàn)。其中,部分實(shí)驗(yàn)結(jié)果如圖5~圖6所示。
圖5 不同尺度下的人眼注視音樂(lè)播放器交互響應(yīng)結(jié)果
圖5中交互用戶(hù)位于不同位置,通過(guò)其人眼注視桌面音樂(lè)播放交互屏的不同控件,自左至右,由上至下,分別控制音樂(lè)播放器的播放、音量加、音量減和暫停。
由圖5部分交互結(jié)果知:交互用戶(hù)處于不同位置,通過(guò)其人眼注視方向,有效地控制了音樂(lè)播放器的相應(yīng)響應(yīng)。
圖6中的交互用戶(hù),通過(guò)其人眼注視桌面音樂(lè)播放交互屏的不同控件時(shí),分別受到交互用戶(hù)背面的日光燈及其右側(cè)窗口自然光及其鏡面反射光等光照變化影響。在上述不利光照因素影響下,由圖6部分交互結(jié)果知:交互用戶(hù)通過(guò)其人眼注視方向,有效地確定了音樂(lè)播放器的播放、音量加、音量減和暫停(見(jiàn)圖6自左至右,由上至下交互響應(yīng)結(jié)果)。
圖6 不同光照下的人眼注視音樂(lè)播放器交互響應(yīng)結(jié)果
上述部分實(shí)驗(yàn)結(jié)果,定性地表明本文方法有效、可行。
為進(jìn)一步定量評(píng)價(jià)所提方法有效性,在同一實(shí)驗(yàn)環(huán)境下,分別與文獻(xiàn)[11,13]進(jìn)行基于分辨率為640 pixel×480 pixels的視頻圖像的交互目標(biāo)識(shí)別和每幀處理耗時(shí)統(tǒng)計(jì)的實(shí)驗(yàn)對(duì)比,對(duì)比結(jié)果如表1所示。
表1 不同交互方法定量對(duì)比
由表1實(shí)驗(yàn)對(duì)比結(jié)果知,所提方法具有高的交互目標(biāo)識(shí)別率和快速的交互時(shí)效性。主要原因分析如下:文獻(xiàn)[11]通過(guò)提取眼球瞳孔及角膜對(duì)紅外光的反光點(diǎn)位置,根據(jù)觀(guān)察者頭部位置進(jìn)行映射函數(shù)標(biāo)定,確定瞳孔-反光點(diǎn)向量的注視點(diǎn)位置。由于眼球瞳孔及其角膜位置的有效獲取與光源及其光照條件關(guān)聯(lián),且映射函數(shù)的有效標(biāo)定,在很大程度上取決于交互用戶(hù)頭部姿態(tài)的有效確定;文獻(xiàn)[13]基于面部識(shí)別和手勢(shì)動(dòng)作進(jìn)行人機(jī)交互,根據(jù)交互用戶(hù)眼和嘴唇中心確定頭部姿態(tài),因此,其頭部姿態(tài)的有效性,在很大程度上取決于人眼和嘴唇中心的有效確定,且所采用的手勢(shì)動(dòng)作因存在多樣性與多義性,因此,其交互目標(biāo)的識(shí)別率低且交互時(shí)間長(zhǎng);而所提方法則基于人眼注視進(jìn)行交互時(shí),采用最大三角化劃分人眼輪廓特征,構(gòu)建人眼幾何模型并確定人眼注視方向,用戶(hù)交互真實(shí)意圖與人的視線(xiàn)方向一致性強(qiáng),因而,交互目標(biāo)的識(shí)別率高且交互響應(yīng)快捷。
針對(duì)目前人機(jī)交互方法存在的不足,提出了一種基于人眼注視的非穿戴自然人機(jī)交互新方法,用戶(hù)無(wú)需佩戴任何標(biāo)記,且其活動(dòng)不受約束,滿(mǎn)足交互活動(dòng)的舒適性和自然性要求?;谌祟?lèi)生物結(jié)構(gòu)特征,采用ASM確定人眼輪廓特征點(diǎn),并根據(jù)HSV色彩空間中的各色彩和亮度信息,構(gòu)建綜合反映人眼紋理及其空間位置的人眼特征直方圖,采用粒子濾波方法,對(duì)人眼目標(biāo)進(jìn)行動(dòng)態(tài)跟蹤與定位,提高人眼輪廓特征點(diǎn)定位的時(shí)效性。利用最大三角化劃分人眼輪廓特征,構(gòu)建人眼幾何模型并確定人眼注視方向,提高人機(jī)交互的活動(dòng)自由度。通過(guò)圖像幀間的均值濾波確定人眼注視交互目標(biāo),以提高基于人眼注視人機(jī)交互的正確性和魯棒性。實(shí)驗(yàn)結(jié)果表明,該方法有效、可行。
[1]管業(yè)鵬.基于多模態(tài)視覺(jué)特征的自然人機(jī)交互[J].電子學(xué)報(bào),2013,41(11):2223-2229.
[2]Mehrabian A.Communication without Words[J].Psychology To?day,1968,2(4):53-56.
[3]Ma Y,Konishi Y,Kinoshita K,et al.Sparse Bayesian Regression for Head Pose Estimation[C]//Proceedings of International Con?ference on Pattern Recognition,2006,3:507-510.
[4]Zhang Z,Hu Y,Liu M,et al.Head Pose Estimation in Seminar Room Using Multi View Face Detectors[C]//Proceedings of Inter?national Conference on Multimodal Technologies for Perception of Humans,2007:299-304.
[5]Heo J,Savvides M.Generic 3D Face Pose Estimation Using Fa?cial Shapes[C]//Proceedings of International Conference on Bio?metrics,2011:1-8.
[6]Yang J L,Liang W,Jia Y D.Face Pose Estimation with Combined 2D and 3D HOG Features[C]//Proceedings of IEEE Conference on Pattern Recognition,2012:2492-2495.
[7]Beymer D J.Face Recognition under Varying Pose[C]//Proceed?ings of IEEE Conference on Computer Vision and Pattern Recog?nition,1994:756-761.
[8]ChengLP,HsiaoFI,.LiuYT,etal.iRotate:AutomaticScreenRota?tion Based on Face Orientation[C]//Proceedings of SIGCHI Confer?enceonHumanFactorsinComputingSystems,2012:2203-2210.
[9]Ratsamee P,Mae Y,Ohara K,et al.Social Navigation Model Based on Human Intention Analysis Using Face Orientation[C]// Proceedings of IEEE/RSJ International Conference on Intelligent Robots and Systems,2013:1682-1687.
[10]Dong N,Zeng X,Guan L.Face Orientation Detection Using Histo?gram of Optimized Local Binary pattern[M].The Era of Interac?tive Media,2013:77-87.
[11]程成,杜菁菁,藍(lán)飛翔.眼動(dòng)交互的實(shí)時(shí)線(xiàn)性算法構(gòu)造和實(shí)現(xiàn)[J].電子學(xué)報(bào),2009,37(B04):12-15.
[12]Sugano Y,Matsushita Y,Sato Y.Appearance-Based Gaze Estima?tion Using Visual Saliency[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(2):329-341.
[13]Tu Y J,Kao C C,Lin H Y.Human Computer Interaction Using Face and Gesture Recognition[C]//Proceedings of IEEE Interna?tional Conference on Signal and Information Processing,2013:1-8.
[14]Carrino S,Péclat A,Mugellini E,et al.Humans and Smart Envi?ronments:A Novel Multimodal Interaction Approach[C]//Proceed?ings of ACM International Conference on Multimodal Interfaces,2011:105-112.
[15]Cootes T F,Taylor C J,Cooper D H,et al.Active Shape Models-Their Training and Application[J].Computer Vision and Image Understanding,1995,61(1):38-59.
[16]Viola P,Jones M.Robust Real-Time Face Detection[J].Interna?tional Journal of Computer Vision,2004,57(2):137-154.
[17]Guan Y P.Spatio-Temporal Motion Based Foreground Segmenta?tion and Shadow Suppression[J].IET Computer Vision,2010,4 (1):50-60.
[18]Liu J,Liu D,Dauwels J,et al.3D Human Motion Tracking by Ex?emplar-Based Conditional Particle Filter[J].Processing Signal,2015,110(S1):164-177.
王佳雯(1993-),女,浙江慈溪人,上海大學(xué)通信與信息工程學(xué)院本科生,主要感興趣研究方向?yàn)橹悄苋藱C(jī)交互與視頻監(jiān)控;
管業(yè)鵬(1967-),男,湖北孝感人,上海大學(xué)通信與信息工程學(xué)院教授,博導(dǎo),主要感興趣方向?yàn)橹悄苋藱C(jī)交互、大數(shù)據(jù)科學(xué)計(jì)算與決策、計(jì)算機(jī)視覺(jué)與模式識(shí)別等,ypguan@shu.edu.cn。
Gazing Based Non-Wearable and Natural Human-Computer Interaction*
WANG Jiawen,GUAN Yepeng*
(School of Communication and Information Engineering,Shanghai University,Shanghai 200444,China)
A novel non-wearable and natural human-computer interaction(HCI)method has been proposed based on eye gazing.According to human being biological structure characteristics,an active shape model is employed to locate some feature points in the eye profile.A histogram of eye feature has been built according to the HSV color space.A particle filter method has been adopted to track and locate the eye.A 2D eye geometric model is constructed based on the maximal triangulation of the eye contour features.A temporal median filter strategy has been developed to determine a stable gazing interactive target.Non-wearable and natural HCI modal is realized in which the user can move flexibly both in comfort and freedom interactive ways.Experiment results indicate that the developed approach is efficient and can be used to natural non-wearable HCI.
human-computer interaction;non-wearable;triangulation;eye geometric model;eye gazing
R339.14;TP242.62
A
1005-9490(2016)02-0253-05
EEACC:7510D;6140C10.3969/j.issn.1005-9490.2016.02.004
項(xiàng)目來(lái)源:國(guó)家自然科學(xué)基金項(xiàng)目(11176016,60872117);高等學(xué)校博士學(xué)科點(diǎn)專(zhuān)項(xiàng)科研基金項(xiàng)目(20123108110014)
2015-05-12修改日期:2015-06-24