黃君浩,賀 輝
(北京師范大學(xué)珠海分校 信息技術(shù)學(xué)院,珠海 519087)
眼球追蹤技術(shù)[1]可實(shí)時(shí)捕獲人眼的運(yùn)動(dòng)并獲取注視點(diǎn),由于人的眼球運(yùn)動(dòng)行為與大腦的活動(dòng)密切相關(guān)[2],因此這種技術(shù)可輔助用戶在計(jì)算機(jī)等相關(guān)設(shè)備上完成簡單的交互工作[3-5],并廣泛應(yīng)用于網(wǎng)頁測試、廣告評估、人機(jī)交互、布局評價(jià)等諸多領(lǐng)域[6,2].近年來有學(xué)者提出將眼動(dòng)交互應(yīng)用于多通道交互[7],為眼動(dòng)人機(jī)交互技術(shù)開發(fā)了更廣闊的應(yīng)用前景.利用眼動(dòng)實(shí)現(xiàn)人機(jī)交互的方式[1]主要有駐留,平滑跟蹤及眼勢[8](凝視、眼睛上、下、左、右的運(yùn)動(dòng)、眨眼等).目前大多數(shù)眼動(dòng)交互的工作都使用眼動(dòng)儀輔助完成,其工作原理為使用紅外攝像頭拍攝高清的瞳孔圖像,采用基于瞳孔和角膜反射的視頻記錄法[9]以準(zhǔn)確定位人眼注視點(diǎn).多數(shù)研究眼動(dòng)交互的學(xué)者一般也會使用紅外攝像頭作為采集設(shè)備,但在日常生活中,紅外攝像頭不易獲得,眼動(dòng)儀大多造價(jià)昂貴且需要預(yù)先進(jìn)行復(fù)雜的校準(zhǔn)工作,都不適合作為日常眼動(dòng)交互的采集設(shè)備.有部分學(xué)者針對普通的網(wǎng)絡(luò)攝像頭,提出了雙攝像頭估計(jì)視線的辦法[10],但易受到頭部姿態(tài)和外界環(huán)境的影響,無法替代傳統(tǒng)使用紅外光源輔助的視線跟蹤系統(tǒng).也有學(xué)者提出識別眼動(dòng)行為的方法,但只是估計(jì)幾種不同使用情景下的眼動(dòng)行為,并未提出將識別出的眼動(dòng)行為應(yīng)用在人機(jī)交互中的解決方案[11,12].在眼動(dòng)交互中基于駐留和平滑跟蹤的眼動(dòng)交互方式存在米斯達(dá)(Midas)接觸問題[4]且需要較高的定位精度,有研究認(rèn)為將眼動(dòng)行為應(yīng)用在人機(jī)交互中需要使用額外的高清攝像機(jī)[8,13].
針對以上結(jié)論,本文利用前置網(wǎng)絡(luò)攝像頭作為采集設(shè)備,提出一種使用方向梯度直方圖(HOG)特征+SVM 和LSTM 神經(jīng)網(wǎng)絡(luò)的方法,實(shí)現(xiàn)眼勢識別并應(yīng)用于人機(jī)交互中.相較于駐留和平滑跟蹤的眼動(dòng)交互方式,基于眼勢的交互方式對精度和米斯達(dá)接觸問題更具魯棒性.并且隨著計(jì)算機(jī)的普及,越來越多的家庭或公司職員都擁有筆記本電腦.大多數(shù)筆記本電腦自帶前置網(wǎng)絡(luò)攝像頭,為低成本的基于視覺的人機(jī)交互技術(shù)提供了環(huán)境.
1.1.1 人眼定位跟蹤及預(yù)處理
在視頻流的第一幀,使用方向梯度直方圖(Histogram of Oriented Gradient,HOG)特征檢測人臉位置,若檢測人臉成功,采用文獻(xiàn)[14]所提出的基于回歸樹方法的人臉對齊進(jìn)行人臉關(guān)鍵點(diǎn)定位.人臉部分關(guān)鍵點(diǎn)的標(biāo)注如圖1 所示.
依據(jù)定位的臉部關(guān)鍵點(diǎn),計(jì)算雙眼區(qū)域,如圖2 所示,具體計(jì)算方法如下:
4 個(gè)眼角坐標(biāo)點(diǎn)對應(yīng)的編號為37、40、43、46.假設(shè)4 個(gè)眼角坐標(biāo)點(diǎn)的坐標(biāo)從左到右分別是(x1,y1),(x2,y2),(x3,y3),(x4,y4),首先由式(1)~式(2)計(jì)算出雙眼的平均寬度w和雙眼之間的間隔eyelen.
假設(shè)含有雙眼的矩形區(qū)域的左上角坐標(biāo)和右下角坐標(biāo)分別為(X1,Y1),(X2,Y2)計(jì)算X1,Y1,X2,Y2 的公式如式(3)~式(6):
圖1 人臉關(guān)鍵點(diǎn)編號
圖2 雙眼模板計(jì)算過程
1.1.2 人眼區(qū)域匹配跟蹤
使用計(jì)算所得的雙眼區(qū)域作為模板,在視頻流的第二幀及隨后的幀中使用模板匹配的辦法來跟蹤人眼.
模板匹配成功后,利用人臉三庭五眼的規(guī)律擴(kuò)展出包含整個(gè)人臉的矩形區(qū)域,具體計(jì)算方法為:假設(shè)模板的寬W、高H.以模板為中心向上擴(kuò)寬H個(gè)像素,向下擴(kuò)寬H×7/2 個(gè)像素,寬度不變,即可得到包含人臉區(qū)域的圖像.重復(fù)進(jìn)行人臉對齊關(guān)鍵點(diǎn)檢測,以更新跟蹤的雙眼模板.
1.1.3 人眼區(qū)域處理
(1)基于人臉關(guān)鍵點(diǎn)定位到的4 個(gè)眼角坐標(biāo),按如下計(jì)算方法得出單只眼睛的矩形區(qū)域.
以左眼為例,首先計(jì)算眼睛的寬度w,兩個(gè)眼角坐標(biāo)的中心坐標(biāo)(x,y),以該坐標(biāo)為中心,左右擴(kuò)展w×3/4的像素區(qū)域,上下擴(kuò)展w×1/2 的像素區(qū)域,即可計(jì)算出只包含單個(gè)眼睛的圖像,如圖3 所示.
圖3 眼部區(qū)域裁剪過程
(2)調(diào)整大小:分別裁剪出雙眼的圖像后,使用插值法調(diào)整成36×36 像素大小.
(3)對雙眼圖像進(jìn)行圖像處理:使用邊緣保留濾波去除噪聲,使用冪次變換提升區(qū)域整體對比度,消除部分陰影,結(jié)果如圖4 所示.
圖4 眼部圖像處理結(jié)果
(4)瞳孔光斑修復(fù)算法:使用自適應(yīng)閾值將眼睛圖像分割成二值化圖像,瞳孔上的光斑與附近的對比度較高而形成一個(gè)孤立的區(qū)域,其他大部分區(qū)域會聯(lián)通.下一步標(biāo)記聯(lián)通區(qū)域,將像素點(diǎn)總數(shù)在14~30 的區(qū)域的像素點(diǎn),替換成該區(qū)域附近的像素值.瞳孔光斑修復(fù)結(jié)果如圖5 所示.
圖5 瞳孔光斑修復(fù)
1.2.1 眨眼判斷
(1)粗略判斷方法,使用定位的人臉關(guān)鍵點(diǎn)計(jì)算人眼長寬比,區(qū)分睜閉眼狀態(tài),計(jì)算方法:在人臉關(guān)鍵點(diǎn)定位的基礎(chǔ)上選取特征點(diǎn)編號為37~48 的12 個(gè)點(diǎn).按編號順序設(shè)單眼周圍的6 個(gè)特征為P1,P2,P3,P4,P5,P6,如圖6 所示.
圖6 左眼特征點(diǎn)編號
使用式(7)可求出一只眼睛的長寬比,其中分子表示眼睛的特征點(diǎn)在垂直方向上的距離,分母表示眼睛的特征點(diǎn)在水平方向上的距離.
經(jīng)過不同使用者測試實(shí)驗(yàn),當(dāng)眼睛為完全睜開狀態(tài)時(shí),長寬比平均在0.30 左右,眼睛完全閉合時(shí),長寬比平均在0.19 左右.因此以0.25 為閾值,當(dāng)小于0.25 時(shí),認(rèn)為眼睛處于閉眼或半閉眼狀態(tài),大于0.25 時(shí)認(rèn)為是睜眼狀態(tài).
(2)精確判斷方法,使用HOG+SVM 模型,區(qū)分有意眨眼和無意眨眼:判斷為閉眼或半閉眼狀態(tài),觸發(fā)精確的動(dòng)態(tài)眨眼判斷.
具體判斷方法為:當(dāng)連續(xù)15 幀中,有10 幀的眼睛圖像在提取完HOG 特征,并被SVM 分類兩只眼睛的狀態(tài)分別為一睜一閉,就判定其做出了一個(gè)單眨眼動(dòng)作.
1.2.2 眼動(dòng)軌跡獲取
本文采用文獻(xiàn)[15]的方法來定位眼球的中心,以實(shí)時(shí)獲取眼球的位置.接下來計(jì)算眼動(dòng)軌跡:使用式(8)和式(9)計(jì)眼球中心坐標(biāo)(Xc,Yc)與眼睛圖像長寬36 像素的比值tx,ty:
計(jì)算出比值后,比值作為縱坐標(biāo),幀數(shù)作為橫坐標(biāo),可得到在發(fā)生眼動(dòng)的50 幀以內(nèi),普通閱讀掃視、向左眼動(dòng)和向右眼動(dòng)的完整軌跡,如圖7 所示.
1.2.3 眼動(dòng)行為識別
在獲得左右眼動(dòng)時(shí)瞳孔眼球中心的軌跡基礎(chǔ)上,根據(jù)在縱坐標(biāo)上是否出現(xiàn)峰值來判斷眼球是否可能正在進(jìn)行一個(gè)眼勢動(dòng)作:
(1)當(dāng)眼球中心位置比值tx小于T1,我們判斷眼球做出了向左移動(dòng)的眼勢;
(2)當(dāng)眼球中心位置比值tx大于T2,我們判斷眼球做出了向右移動(dòng)的眼勢;
(3)當(dāng)眼球中心位置比值ty大于T3,則判斷眼球做出了向上移動(dòng)的眼勢.
圖7 眼球的橫向運(yùn)動(dòng)軌跡
本文中T1,T2,T3需根據(jù)實(shí)際不同的屏幕的大小,推斷出正常瀏覽時(shí)眼球的運(yùn)動(dòng)范圍的范圍,調(diào)整出最佳的參數(shù).由圖7 可得,本文在27.2 英寸的屏幕正常瀏覽時(shí)的tx,ty的值集中在0.45~0.55,再經(jīng)過實(shí)際體驗(yàn),本文選取的參數(shù)最佳為T1=0.32,T2=0.7,T3=0.62.
通過了以上3 種判斷的任一種,說明在判斷發(fā)生時(shí)眼球做出了一次眼動(dòng)行為,經(jīng)過測試,眼動(dòng)行為的完成時(shí)間多在1.5 秒以內(nèi),因此將這1.5 秒內(nèi)的眼動(dòng)視頻截取并作為下一步輸入.本文在30 幀/s 的攝像頭采樣速率下,截取的眼動(dòng)視頻總幀數(shù)為50 幀.
1.2.4 LSTM 行為識別
長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)的提出是為了解決循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的長依賴問題.LSTM 使用獨(dú)特的輸入門、輸出門和遺忘門結(jié)構(gòu),可以充分保留有效信息并丟棄不相關(guān)的信息,將CNN(Convolutional Neural Networks)與LSTM 結(jié)合起來,可以應(yīng)用于視頻分類和視頻描述[16].應(yīng)用在行為識別時(shí),為了去除背景光照等冗余信息,可以提取原視頻幀類似光流數(shù)據(jù)的運(yùn)動(dòng)信息作為輸入[17].本文將對原眼動(dòng)視頻幀進(jìn)行幀間差分處理,以提取眼動(dòng)行為的運(yùn)動(dòng)特征,消除由于人眼形狀與光照不同而造成的誤差.考慮到識別的穩(wěn)定性,應(yīng)當(dāng)將兩只眼睛的眼動(dòng)視頻序列一起作為輸入.識別的簡要過程如圖8 所示.
本文將采取LSTM 和CNN 結(jié)合的網(wǎng)絡(luò)模型來完成眼動(dòng)行為的分類任務(wù).在CNN 部分使用一個(gè)卷積層和一個(gè)池化層,卷積層使用兩個(gè)卷積核,尺寸為4×4,步長為1,池化層的尺寸為2×2,步長為2,還需在每個(gè)卷積層之后添加一個(gè)非線性激活函數(shù)Relu.在LSTM 部分,隱藏神經(jīng)元個(gè)數(shù)與輸入的幀長度相等,為50 個(gè).
圖8 基于LSTM 的眼動(dòng)行為識別流程
將兩個(gè)眼動(dòng)幀間差分視頻同時(shí)作為輸入,在經(jīng)過卷積層后,將兩張眼動(dòng)視頻提取的特征圖通過Concat 層進(jìn)行特征融合操作,特征維度是一個(gè)立方體,使用Flatten 層矢量化并輸入進(jìn)LSTM,最后經(jīng)過Softmax 分類器預(yù)測出每個(gè)眼動(dòng)行為的概率.
本文采取的LSTM 網(wǎng)絡(luò)結(jié)構(gòu)如圖9 所示.
數(shù)據(jù)采集環(huán)境如圖10 所示,實(shí)驗(yàn)環(huán)境如下:
(1)攝像頭:羅技C270i,1280×720 像素 30 幀.
(2)顯示器:冠捷 AOC2701 Q27P1B(27.2 英寸).
(3)處理器:英特爾 Core i7-8700 @ 3.20 GHz 六核.
(4)內(nèi)存:16 GB(金士頓 DDR4 2400 MHz).
(5)顯卡:Nvidia GeForce GTX 1060 6 GB(6 GB/微星).
(6)操作系統(tǒng):Windows 10 專業(yè)版 64 位(DirectX 12).
圖9 LSTM 網(wǎng)絡(luò)結(jié)構(gòu)圖
圖10 實(shí)驗(yàn)環(huán)境
使用Python 語言并利用深度學(xué)習(xí)庫OpenCV,Keras,DLIB 進(jìn)行實(shí)驗(yàn).被采集者距離屏幕的位置沒有太多限制,但應(yīng)正對電腦屏幕,并且攝像頭能夠拍攝到完整的人臉圖像.在正常均勻光照條件下,使用上文提到的預(yù)處理方法采集訓(xùn)練數(shù)據(jù).
本文使用的訓(xùn)練數(shù)據(jù)集樣本為長寬36 像素的眼睛灰度圖像.采集總計(jì)16 000 張單幀左右眼睜閉圖片.其中睜閉眼圖片分別有8000 張,而8000 張眼睛圖像中左右眼各占4000 張.訓(xùn)練數(shù)據(jù)中的閉眼數(shù)據(jù)集包含半睜狀態(tài)的人眼圖片.測試數(shù)據(jù)額外采集,總計(jì)4000 張單幀眼部圖像.
單個(gè)樣本為50 幀長寬36 像素的灰度視頻,采集10 個(gè)不同的使用者總計(jì)2000 張6 分類的眼勢視頻,加上雙眼眨眼視頻,眼睛靜止視頻兩種負(fù)樣本各100 張,共有2200 張8 分類的訓(xùn)練數(shù)據(jù).額外錄制300 張6 分類的眼動(dòng)視頻作為測試集.
由于采集到的樣本數(shù)量有限,本文使用如下方法擴(kuò)充訓(xùn)練數(shù)據(jù):
(1)調(diào)整幀長:將一個(gè)完整的眼動(dòng)視頻幀序列,增加或減少幀的長度.
(2)滑動(dòng)窗口填充:在數(shù)據(jù)幀的前或后加上長度為10 以內(nèi)的0 填充幀,填充后所有幀的長度一致.
(3)左右眼調(diào)換:翻轉(zhuǎn)左右眼,運(yùn)動(dòng)方向也隨之相反,改變標(biāo)簽.
(4)加入隨機(jī)噪聲:在圖像中給不為零的像素點(diǎn)隨機(jī)增減5 以內(nèi)的像素值.
經(jīng)過上述步驟,訓(xùn)練樣本數(shù)量理論上可以擴(kuò)充至10 倍以上,隨后挑選正確率最高的組合訓(xùn)練模型來測試預(yù)測的準(zhǔn)確率.
本文定義了6 種眼動(dòng)行為,分別是向左看、向右看、向上看、眨眼向左看、眨眼向右看和眨眼向上看.并規(guī)定2 種負(fù)樣本,分別是眼睛輕微眼跳或靜止和普通無意眨眼.
實(shí)驗(yàn)總體技術(shù)流程如圖11 所示.
圖11 眼動(dòng)行為識別總體技術(shù)流程
其中眨眼判斷時(shí)當(dāng)識別到當(dāng)前人眼狀態(tài)為閉眼或半閉眼,不管是有意眨眼還是無意眨眼,都不會進(jìn)入下一步眼動(dòng)行為的判斷,結(jié)束本幀的處理,并讀取下一幀.對于眼動(dòng)語義預(yù)測,由于存在米斯達(dá)接觸問題,因此眼球在向上、左和右運(yùn)動(dòng)的過程中,視線都應(yīng)盡量遠(yuǎn)離屏幕,以區(qū)分有意眼動(dòng)和無意眼動(dòng).接下來將基于瞳孔中心軌跡的眼動(dòng)行為識別到一個(gè)疑似的眼動(dòng)行為的操作,截取前后總計(jì)50 幀的眼動(dòng)視頻序列,輸入到LSTM 網(wǎng)絡(luò)中進(jìn)行最終的眼動(dòng)行為語義判斷.需要說明的是在輸入到LSTM 網(wǎng)絡(luò)前,需要對截取的50 幀眼動(dòng)視頻序列進(jìn)行幀間差分處理,以消除光照和人眼形狀的影響.
在眨眼判斷中,訓(xùn)練時(shí),實(shí)際將圖像調(diào)整成24×24 像素,一個(gè)12 像素組成一個(gè)cell,一個(gè)cell 構(gòu)成一個(gè)block,其他參數(shù)設(shè)為默認(rèn),使用線性核函數(shù)的SVM 做分類.將全體數(shù)據(jù)集樣本訓(xùn)練一個(gè)輪次.單張靜態(tài)睜閉眼圖片的分類在測試集中達(dá)到了96.23%的準(zhǔn)確率.在正常環(huán)境下當(dāng)做出單眨眼行為,單眨眼狀態(tài)保持0.3 s 以上,動(dòng)態(tài)識別準(zhǔn)確率達(dá)到95%.
在眼動(dòng)語義判斷中,本文使用使用Kreas 提供的接口,除了上文提到的模型細(xì)節(jié)外其他參數(shù)都為默認(rèn).訓(xùn)練時(shí),使用adam 作為優(yōu)化器,categorical_crossentropy作為損失函數(shù),將150 個(gè)樣本作為一個(gè)批處理,循環(huán)將所有樣本訓(xùn)練12 次.經(jīng)過各種擴(kuò)充方法的組合訓(xùn)練,最高在50 幀的眼動(dòng)視頻在LSTM 中的預(yù)測準(zhǔn)確率達(dá)到99.3%.其中主要誤差原因是基于瞳孔的移動(dòng)軌跡來預(yù)測眼動(dòng)行為會發(fā)生誤報(bào)的情況,因?yàn)檠壑行亩ㄎ挥袝r(shí)會出錯(cuò),如圖12 所示.
經(jīng)過判斷,識別錯(cuò)誤的情況大多為無意眨眼時(shí)的半閉眼狀態(tài)瞳孔中心定位錯(cuò)誤,向右或向左眼動(dòng)過程中心定位到眼角從而做出了完全相反的預(yù)測.
圖12 瞳孔中心定位錯(cuò)誤情況
在為識別出的眼動(dòng)行為的基礎(chǔ)上我們分別添加滾動(dòng)和翻頁的命令,應(yīng)用于電腦閱讀,使得用戶無需用手操作鼠標(biāo)和鍵盤,并且擁有良好的閱讀體驗(yàn).
以下選取了一些相似研究的文獻(xiàn)與本文進(jìn)行對比,如表1 所示.
表1 各種眼動(dòng)識別方法比較
從表1 可以看出,本文提出的基于LSTM 的眼動(dòng)行為識別方法兼顧識別數(shù)量、準(zhǔn)確率與設(shè)備方便上的優(yōu)勢,并擁有完整的眼動(dòng)交互解決方案.
本文一共嘗試并實(shí)現(xiàn)了兩種應(yīng)用,分別是網(wǎng)頁閱讀,以及在PC 上使用手機(jī)模擬器來模擬APP 的使用.
2.6.1 網(wǎng)頁閱讀
如圖13 所示,測試者正對電腦,使用4 種眼勢(向上、眨眼向上、向左、向右),分別對應(yīng)控制向下滾動(dòng)、向上滾動(dòng)、向左翻頁和向右翻頁.測試表明:在測試者雙手占用的情況下,可以使用眼勢代替滾動(dòng)和翻頁等簡單的操作,并且在掃視瀏覽文字的過程中極少發(fā)生誤觸,能夠正常地閱讀.
2.6.2 模擬的APP 的使用
如圖14 所示,使用者在電腦上運(yùn)行手機(jī)模擬器,模擬手機(jī)上的使用.所有眼勢均可對應(yīng)一種操作.分別為:
1)左運(yùn)動(dòng)對應(yīng)左翻頁.
2)右運(yùn)動(dòng)對應(yīng)右翻頁.
3)上運(yùn)動(dòng)對應(yīng)向下滾動(dòng).
圖13 網(wǎng)頁閱讀應(yīng)用
圖14 模擬手機(jī)APP 應(yīng)用
4)左眨眼運(yùn)動(dòng)實(shí)現(xiàn)返回鍵.
5)右眨眼運(yùn)動(dòng)則向下滾動(dòng).
6)上眨眼運(yùn)動(dòng)觸發(fā)大幅度向上滾動(dòng).
7)左眨眼為模擬鼠標(biāo)點(diǎn)擊屏幕中央.
8)右眨眼可輪流選擇下方菜單模塊.
手機(jī)上運(yùn)行一款普通的新聞APP,經(jīng)測試,除在選擇點(diǎn)擊新聞時(shí)略不方便,以及無法完成點(diǎn)擊某個(gè)特定位置的需求,大部分操作已可通過眼勢完成.
在上文提到的實(shí)驗(yàn)環(huán)境中測試,程序運(yùn)行時(shí)CPU 占用率峰值不超過10%,內(nèi)存占用5%.每秒幀數(shù)在30,目前的幀數(shù)處理上限由攝像頭的采樣頻率的決定,不會造成其他軟件使用卡頓的情況.此外,使用MacBook Air(2015 年初,1.6 GHz 雙核i5)筆記本搭建同樣的環(huán)境運(yùn)行,每秒幀數(shù)也可以穩(wěn)定在25 左右,可以達(dá)到實(shí)時(shí)性.
本文在錄制不同測試者的數(shù)據(jù)集的同時(shí),收到了不同的用戶反饋.部分用戶在初使用時(shí),存在眼勢使用不熟練的情況.經(jīng)過訓(xùn)練,如:用某個(gè)物品模擬注視焦點(diǎn),讓測試者的眼睛通過跟隨焦點(diǎn)和移動(dòng)焦點(diǎn)完成眼勢,最終都能達(dá)到比較良好的效果.
為實(shí)現(xiàn)簡便實(shí)惠的眼動(dòng)人機(jī)交互應(yīng)用,本文利用筆記本前置攝像頭獲取眼動(dòng)信息,提出一種使用人工提取特征分類+深度學(xué)習(xí)模型LSTM 眼勢預(yù)測的眼動(dòng)行為識別方法,并實(shí)現(xiàn)了基本人機(jī)交互操作.
其中人工提取特征分類的方法用來識別眼睛的靜幀圖像,并將多個(gè)相鄰幀之間的識別結(jié)果組合分析,實(shí)現(xiàn)動(dòng)態(tài)的眨眼識別過程;采用LSTM 網(wǎng)絡(luò)的深度學(xué)習(xí)方法,將50 幀的眼動(dòng)差分序列作為輸入,實(shí)現(xiàn)識別眼球向左右上運(yùn)動(dòng)等眼動(dòng)行為.將以上識別的結(jié)果分別觸發(fā)相應(yīng)的計(jì)算機(jī)命令,實(shí)際應(yīng)用在人機(jī)交互中.實(shí)驗(yàn)結(jié)果驗(yàn)證在筆記本中基于前置攝像頭視頻源圖像的眼動(dòng)行為識別的可行性.但本文方法雖然在測試集和訓(xùn)練集上都有良好的表現(xiàn),在實(shí)際應(yīng)用時(shí)還要考慮存在部分遮擋、眼睛鏡片反光、抖動(dòng)模糊及眼球中心定位錯(cuò)誤等情況下算法的完善和優(yōu)化.同時(shí)下一步將考慮加上視線追蹤,以期完成更為復(fù)雜的交互任務(wù).