劉楠博,肖 芬,張文雷,李旺鑫,翁 尊
(智能計(jì)算與信息處理教育部重點(diǎn)實(shí)驗(yàn)室(湘潭大學(xué)),湖南湘潭 411105)
人類(lèi)通過(guò)視覺(jué)這一重要感官捕獲到日常生活中的海量信息。在人類(lèi)視覺(jué)系統(tǒng)(Human Visual System,HVS)選擇注意機(jī)制的引導(dǎo)下,人們將視覺(jué)注意集中于海量信息的感興趣區(qū)域(Region Of Interest,ROI),摒棄了其中的大量冗余,使人腦實(shí)時(shí)、高效地完成視覺(jué)信息處理[1]。挖掘、研究人類(lèi)視覺(jué)系統(tǒng)的選擇注意機(jī)制,賦予機(jī)器類(lèi)人的視覺(jué)信息處理能力,對(duì)于人工智能和機(jī)器視覺(jué)領(lǐng)域的發(fā)展具有重要意義[2]。
目前,人們利用眼動(dòng)追蹤技術(shù)記錄的眼動(dòng)數(shù)據(jù)研究視覺(jué)注意的分布和轉(zhuǎn)移。原始的眼動(dòng)數(shù)據(jù)是通過(guò)紅外設(shè)備以一定頻率采集的視線位置樣本點(diǎn),經(jīng)后處理操作可以得到注視點(diǎn)數(shù)據(jù)和掃視路徑數(shù)據(jù)。長(zhǎng)期以來(lái),多數(shù)工作利用計(jì)算建模的方法挖掘群體觀察者的注視點(diǎn)數(shù)據(jù)研究人類(lèi)的視覺(jué)注意機(jī)制,通過(guò)生成靜態(tài)顯著圖直接、整體地反映人類(lèi)對(duì)圖像場(chǎng)景的視覺(jué)注意程度[3-6]。然而人類(lèi)觀察圖像是一個(gè)動(dòng)態(tài)的視覺(jué)注意轉(zhuǎn)移過(guò)程,靜態(tài)顯著圖無(wú)法反映群體觀察者整體的視覺(jué)注意轉(zhuǎn)移模式。相較于注視點(diǎn)數(shù)據(jù),掃視路徑數(shù)據(jù)額外記錄了注視點(diǎn)的轉(zhuǎn)移信息,可以反映視覺(jué)注意的動(dòng)態(tài)變化,具有更高的研究?jī)r(jià)值。
在相同的觀看條件下,群體觀察者的掃視路徑雖然復(fù)雜多變,但是個(gè)體掃視路徑間具有相似但不等同的潛在特性[7]。例如,通過(guò)分析閱讀場(chǎng)景下的群體觀察者的掃視路徑數(shù)據(jù)探索中文閱讀中的詞切分,研究人類(lèi)的閱讀認(rèn)知行為[8];通過(guò)研究廣告與網(wǎng)頁(yè)等刺激樣本下的群體掃視路徑設(shè)計(jì),可以設(shè)計(jì)并優(yōu)化網(wǎng)頁(yè)排版[9-14];自然場(chǎng)景下通過(guò)歸結(jié)表征群體的掃視路徑,不僅能為基于深度學(xué)習(xí)的掃視路徑預(yù)測(cè)模型提供監(jiān)督信息,而且有助于計(jì)算機(jī)優(yōu)先定位、處理人類(lèi)的感興趣區(qū)域信息,提升智能圖像處理模型的速度和精度[15-16]。挖掘群體觀察者的掃視路徑數(shù)據(jù),歸結(jié)一條包含共有注視信息和注視轉(zhuǎn)移模式的群體掃視路徑,不僅能夠表征刺激樣本和刺激內(nèi)容對(duì)人類(lèi)的吸引程度,更重要的是,可以建模人類(lèi)的動(dòng)態(tài)視覺(jué)注意,對(duì)于探究人類(lèi)的認(rèn)知行為、精準(zhǔn)改善視覺(jué)效果、提升計(jì)算機(jī)視覺(jué)的智能性都具有重要理論意義。
近年來(lái),群體掃視路徑研究相對(duì)較少,現(xiàn)有的生成方法主要基于三種思路。其一,將群體觀察者的掃視路徑映射為字符串序列,利用序列模式挖掘進(jìn)行群體注視模式歸結(jié)。2006年West 等[17]開(kāi)發(fā)了eyePatterns 工具,該工具通過(guò)統(tǒng)計(jì)單個(gè)序列中所有子序列模式及出現(xiàn)頻率,提取出現(xiàn)次數(shù)或涵蓋人數(shù)最多的序列模式生成群體掃視路徑;同年,Hembrooke 等[18]提出多序列對(duì)齊方法,通過(guò)迭代過(guò)程將某一序列與其他所有序列逐一進(jìn)行對(duì)齊操作,提取共有、對(duì)齊的子序列和序列元素生成群體掃視路徑;2010 年Goldberg 等[19]提出Dotplot 對(duì)齊算法,可用于提取兩個(gè)序列的共有、最長(zhǎng)序列模式,在此基礎(chǔ)上Eraslan 等[9]提出eMine 方法,通過(guò)迭代過(guò)程提取所有序列的共有、最長(zhǎng)序列模式;2012 年,Hejmady 等[20]提出序列模式挖掘算法(Sequential Pattern Mining Algorithm,SPAM),通過(guò)提取所有序列的頻繁子序列生成群體掃視路徑。此類(lèi)方法可以挖掘有代表性的子序列和序列元素,但當(dāng)個(gè)體注視行為差異較大,沒(méi)有共同子序列或共同子序列過(guò)短時(shí)都會(huì)影響生成路徑質(zhì)量。其二,確定群體觀察者的共同視覺(jué)元素,歸結(jié)其轉(zhuǎn)移模式。2010 年Tsang 等[21]開(kāi)發(fā)了eSeeTrack 工具,按照時(shí)間軸生成群體觀察者視覺(jué)元素間轉(zhuǎn)移概率的可視化樹(shù),并分析群體的注視轉(zhuǎn)移模式;2014 年Chuk 等[22]及2015 年Kang 等[23]構(gòu)建視覺(jué)元素間的馬爾可夫轉(zhuǎn)移概率矩陣,研究群體的注視轉(zhuǎn)移模式。采用這些策略依據(jù)視覺(jué)元素間的轉(zhuǎn)移概率生成群體路徑時(shí),常常存在重復(fù)、循環(huán)某一轉(zhuǎn)移模式的現(xiàn)象,為防止生成路徑過(guò)長(zhǎng)需要預(yù)設(shè)長(zhǎng)度閾值。2016 年Eraslan 等[11]提出掃視路徑趨勢(shì)分析(Scanpath Trend Analysis,STA)方法,該方法對(duì)網(wǎng)頁(yè)進(jìn)行分割,將所有觀察者觀看的區(qū)域視作共同視覺(jué)元素,定義優(yōu)先度排序共同視覺(jué)元素,最終生成群體掃視路徑。其三,將群體觀察者的掃視路徑表征為多個(gè)多維向量,尋找或生成表征群體的掃視路徑向量。2017 年Li 等[15]提出基于候選約束的動(dòng)態(tài)時(shí)間規(guī)整質(zhì)心平均方法(Candidate-constrained Dynamic time warping Barycenter Averaging method,CDBA),通過(guò)動(dòng)態(tài)時(shí)間規(guī)整策略找出與其他個(gè)體掃視路徑動(dòng)態(tài)時(shí)間規(guī)整距離最小的一條個(gè)體掃視路徑,使用親和力傳播聚類(lèi)算法生成的聚類(lèi)區(qū)域調(diào)整該個(gè)體路徑中的注視點(diǎn),最終生成群體掃視路徑。2018 年Li 等[16]提出Heuristic 方法,該方法在CDBA框架的基礎(chǔ)上加入注視時(shí)間分析模塊,生成包含注視時(shí)間的群體掃視路徑。此方法中動(dòng)態(tài)時(shí)間規(guī)整策略找出的個(gè)體掃視路徑往往較短,直接受該個(gè)體路徑影響,生成的群體掃視路徑包含的注視興趣區(qū)域數(shù)目較少、路徑長(zhǎng)度較短。
值得注意的是,目前掃視路徑的研究主要針對(duì)的是網(wǎng)頁(yè)場(chǎng)景[9-14,17-18,20,22-23]、自然場(chǎng)景的掃視路徑研究較少[15-16]。究其原因,本文認(rèn)為網(wǎng)頁(yè)排版較為固定,注視區(qū)域基本呈現(xiàn)F 型,所以?huà)咭暵窂较鄬?duì)有規(guī)律,生成較簡(jiǎn)單;而自然圖像中由于場(chǎng)景的多樣性、目標(biāo)的復(fù)雜性,導(dǎo)致注視區(qū)域復(fù)雜多變,因此群體掃視路徑研究相對(duì)困難,生成方法十分欠缺。本文借鑒自然場(chǎng)景中聚類(lèi)注視點(diǎn)生成注視區(qū)域的思想以及網(wǎng)頁(yè)場(chǎng)景中注視區(qū)域的轉(zhuǎn)移策略,考慮不同類(lèi)型的注視行為,提出了一種針對(duì)自然場(chǎng)景的群體路徑生成方法。圖1 展示了所提生成方法的模型框架。
圖1 群體掃視路徑生成模型的框架Fig.1 Framework of group scanpath generation model
眾所周知,人類(lèi)在觀察、獲取圖像信息時(shí),圖像對(duì)人類(lèi)的視覺(jué)吸引源于場(chǎng)景中的某個(gè)區(qū)域而非某個(gè)具體像素。即使觀察者們注視了場(chǎng)景中的同一區(qū)域,由于高度的觀察自由度,注視點(diǎn)著落的像素位置不盡相同。本文通過(guò)親和力傳播(Affinity Propagation,AP)聚類(lèi)算法[24]對(duì)位置相關(guān)的觀察者注視點(diǎn)進(jìn)行聚類(lèi),確定注視興趣區(qū)域。
AP 算法適用于高維、多類(lèi)型數(shù)據(jù)的快速聚類(lèi)。該算法無(wú)需事先設(shè)定生成聚類(lèi)的數(shù)目,將所有數(shù)據(jù)點(diǎn)都視作潛在意義上的聚類(lèi)中心,通過(guò)數(shù)據(jù)點(diǎn)間的通信,找出最適合作聚類(lèi)中心的數(shù)據(jù)點(diǎn)。算法輸入節(jié)點(diǎn)間相似度矩陣S,s(i,j)表示節(jié)點(diǎn)i和j之間的相似度;定義節(jié)點(diǎn)間的吸引度矩陣R和歸屬度矩陣A,并通過(guò)如式(1)~(3)更新矩陣(R0,A0均為零矩陣),直至聚類(lèi)結(jié)果穩(wěn)定或算法執(zhí)行超過(guò)設(shè)定的迭代次數(shù)(1 000次),結(jié)束算法,輸出聚類(lèi)結(jié)果。
其中:rt+1(i,j)表示t+1時(shí)刻節(jié)點(diǎn)j作i聚類(lèi)中心的適合程度,at+1(i,j)表示t+1時(shí)刻節(jié)點(diǎn)i對(duì)j作其聚類(lèi)中心的認(rèn)可程度。
對(duì)自然場(chǎng)景圖像,本文將所有p名觀察者注視點(diǎn)位置的負(fù)歐氏距離作為相似度矩陣S,執(zhí)行AP 算法生成n個(gè)聚類(lèi)注視點(diǎn)的集合Θ1,Θ2,…,Θk,…,Θn,將每個(gè)集合作為一個(gè)注視興趣區(qū)域,其邊界由集合中注視點(diǎn)的位置確定。
每個(gè)注視興趣區(qū)域包含了不同的圖像內(nèi)容,對(duì)群體觀察者具有不同的視覺(jué)吸引程度。為獲取能夠吸引群體視覺(jué)注意的興趣區(qū)域,本節(jié)提出如下迭代篩選策略。
給定一組興趣區(qū)域Θ1,Θ2,…,Θk,…,Θm,分別統(tǒng)計(jì)每個(gè)興趣區(qū)域Θk的觀察者數(shù)目ok、觀看頻次fk和觀看時(shí)長(zhǎng)tk,對(duì)各區(qū)域指標(biāo)進(jìn)行歸一化后形成3個(gè)m元向量:O、F和T。定義興趣區(qū)域注視強(qiáng)度Φ=(φ1,φ2,…,φk,…,φm)以及注視強(qiáng)度差E=(ε1,ε2,…,εk,…,εm),其中:
εmin_index表示向量E中的最小分量。通過(guò)迭代過(guò)程不斷刪去min_index 對(duì)應(yīng)的注視強(qiáng)度最低的興趣區(qū)域,更新O、F、T、Φ和E,直至min(E) <mean(E) -std(E)或者size(E) ≥m/2終止迭代。對(duì)聚類(lèi)的n個(gè)興趣區(qū)域執(zhí)行以上過(guò)程,最終篩得n′個(gè)具有較高注視強(qiáng)度的興趣區(qū)域。
實(shí)驗(yàn)發(fā)現(xiàn),注視興趣區(qū)域的內(nèi)容、空間位置及關(guān)聯(lián)程度均會(huì)影響群體觀察者的注視順序。為生成群體路徑,本文考慮每個(gè)興趣區(qū)域中注視點(diǎn)在個(gè)體掃視路徑中的注視順序,在此基礎(chǔ)上統(tǒng)計(jì)興趣區(qū)域的注視優(yōu)先度以及轉(zhuǎn)移模式。
假設(shè)興趣區(qū)域Θk有來(lái)自不同觀察者的l個(gè)注視點(diǎn),Θk={θk,1,θk,2,…,θk,l},定義其注視優(yōu)先度為ζk:
其中:Sp(θk,i) 表示獲取θk,i所在的個(gè)體掃視路徑,index(θk,i,Sp(θk,i))表示θk,i在Sp(θk,i)中的順序索引,|Sp(θk,i)|是個(gè)體掃視路徑長(zhǎng)度。
考慮到生成路徑的表征性能,本文僅統(tǒng)計(jì)篩選后的興趣區(qū)域的注視優(yōu)先度和轉(zhuǎn)移模式,通過(guò)式(6)得到注視優(yōu)先度向量Z=(ζ1,ζ2,…,ζk,…,ζn′)。分量ζk值越高,其對(duì)應(yīng)的興趣區(qū)域被優(yōu)先注視的可能性越大,降序排列Z的分量得到興趣區(qū)域轉(zhuǎn)移模式。
本節(jié)提出基于注視興趣區(qū)域提取、篩選和轉(zhuǎn)移的群體掃視路徑生成方法(Sorting Clusters Approach,SCA)。算法1 展示了SCA方法的具體流程。
算法1 群體掃視路徑生成方法SCA。
輸入 所有觀察者的掃視路徑矩陣AllScanpathMat。
輸出 群體掃視路徑GroupScanpath。
在SCA 的基礎(chǔ)上,本章通過(guò)定義4 種注視行為對(duì)興趣區(qū)域作進(jìn)一步細(xì)分,結(jié)合興趣子區(qū)域的轉(zhuǎn)移模式,研究基于注視行為的群體掃視路徑生成方法。
實(shí)際觀看過(guò)程中,內(nèi)涵豐富、相互關(guān)聯(lián)的興趣區(qū)域往往會(huì)吸引觀察者產(chǎn)生多次、反復(fù)的注視行為。如圖2 所示,圖像中存在3 個(gè)興趣區(qū)域Θ1、Θ2和Θ3,scanpath_1 是一條個(gè)體掃視路徑。觀察可知,Θ1區(qū)域可能包含豐富的圖像內(nèi)容,引起scanpath_1 觀察者產(chǎn)生θ1,1,θ1,2,θ1,3,θ1,4,θ1,5共5 個(gè)注視點(diǎn)。這些注視點(diǎn)在位置、時(shí)間、順序上存在一定差別,為了獲取群體觀察者不同時(shí)刻、不同順序關(guān)注的不同局部信息,本文定義了興趣區(qū)域Θk的首視注視點(diǎn)、首視連續(xù)注視點(diǎn)、回視注視點(diǎn)和回視連續(xù)注視點(diǎn),將Θk劃分為4 個(gè)獨(dú)立的注視點(diǎn)集Ffixk、FSfixk、Bfixk和BSfixk。
定義1首視注視點(diǎn):x∈Θk并且x是對(duì)應(yīng)個(gè)體掃視路徑Sp(x) 中第一個(gè)落于興趣區(qū)域Θk的注視點(diǎn),如圖2 中θ1,1∈Ffix1。
定義2首視連續(xù)注視點(diǎn):x∈Θk,其個(gè)體掃視路徑Sp(x)中x的前序注視點(diǎn)是興趣區(qū)域Θk的首視注視點(diǎn)或x的多個(gè)前序注視點(diǎn)同屬于興趣區(qū)域Θk且包含首視注視點(diǎn),如圖2 中{θ1,2,θ1,3}?FSfix1。
定義3回視注視點(diǎn):x∈Θk,其個(gè)體掃視路徑Sp(x)中前序注視點(diǎn)不屬于興趣區(qū)域Θk,但x非首視注視點(diǎn),如圖2 中θ1,4∈Bfix1。
定義4回視連續(xù)注視點(diǎn):x∈Θk,其個(gè)體掃視路徑Sp(x)中x的前序注視點(diǎn)是興趣區(qū)域Θk的回視注視點(diǎn)或x的多個(gè)前序注視點(diǎn)同屬于興趣區(qū)域Θk且包含回視注視點(diǎn),如圖2 中θ1,5∈BSfix1。
圖2 注視興趣區(qū)域與個(gè)體掃視路徑示意圖Fig.2 Schematic diagram of fixation region of interest and individual scanpath
將Ffixk、FSfixk、Bfixk和BSfixk作為興趣區(qū)域Θk的興趣子區(qū)域,分別表示群體觀察者首次、首次連續(xù)、回視、回視連續(xù)注視關(guān)注的興趣區(qū)域局部,其邊界由各點(diǎn)集中注視點(diǎn)的位置確定。若Θk中某注視行為的注視點(diǎn)集為空集,則該興趣區(qū)域不存在相應(yīng)興趣子區(qū)域。
實(shí)驗(yàn)發(fā)現(xiàn),觀看不同圖像時(shí),觀察者產(chǎn)生各類(lèi)注視行為的次數(shù)有所差別。為保證生成路徑符合實(shí)際、表征群體,本節(jié)統(tǒng)計(jì)觀各圖像中所有觀察者產(chǎn)生各類(lèi)注視行為的平均次數(shù),提出如下篩選策略。
對(duì)迭代篩選后的興趣區(qū)域,本文考慮所有這些區(qū)域的首視興趣子區(qū)域,篩選閾值記為len1,len1=n′。首視連續(xù)興趣子區(qū)域的篩選閾值記為len2:
其中:size(FSfixi)表示FSfixi區(qū)域首視連續(xù)注視點(diǎn)的數(shù)目,p為觀察者數(shù)目。在FSfix1,F(xiàn)Sfix2,…,F(xiàn)Sfixn′中篩選出觀察者數(shù)目最多的len2 個(gè)子區(qū)域?;匾?、回視連續(xù)興趣子區(qū)域的篩選過(guò)程與首視連續(xù)興趣子區(qū)域一致。通過(guò)式(7)得到len3 和len4,最終篩得(len1+len2 +len3+len4)個(gè)興趣子區(qū)域。
通過(guò)式(6)計(jì)算首次、回視興趣子區(qū)域的注視優(yōu)先度向量Z′=(ζ1′,ζ2′,…,ζlen1+len2′),降序排序Z′中的分量生成首視、回視興趣子區(qū)域的轉(zhuǎn)移模式。將篩得的(len3+len4)個(gè)連續(xù)注視興趣子區(qū)域插入相應(yīng)的首視、回視興趣子區(qū)域之后,得出最終的興趣子區(qū)域轉(zhuǎn)移模式。
本節(jié)提出基于劃分、篩選、轉(zhuǎn)移興趣區(qū)域的群體掃視路徑生成方法(Devide,F(xiàn)ilter,Sort Clusters Approach;DFS)。算法2展示了DFS方法的具體流程。
算法2 群體掃視路徑生成方法DFS。
輸入AllScanpathMat,迭代篩選的興趣區(qū)域結(jié)構(gòu)體NewThetaStruct。
輸出GroupScanpath。
第一階段 興趣子區(qū)域劃分、篩選。
第二階段 興趣子區(qū)域轉(zhuǎn)移。
第三階段 生成群體路徑
為驗(yàn)證所提方法的有效性,本文在MIT1003[25]和OSIE[26]兩個(gè)公共數(shù)據(jù)集進(jìn)行相關(guān)實(shí)驗(yàn),并與現(xiàn)有方法進(jìn)行對(duì)比。
MIT1003 數(shù)據(jù)集包含1 003 幅多個(gè)類(lèi)別、尺寸不一的自然場(chǎng)景圖像,對(duì)每張刺激樣本采集15 名觀察者3 s 觀察時(shí)長(zhǎng)的眼動(dòng)數(shù)據(jù)。OSIE 數(shù)據(jù)集包含700 幅多個(gè)類(lèi)別、尺寸相同的自然場(chǎng)景圖像,圖像尺寸統(tǒng)一為800×600 像素,每張刺激樣本收集15名觀察者3 s觀察時(shí)長(zhǎng)的眼動(dòng)數(shù)據(jù)。
本文統(tǒng)計(jì)了兩個(gè)數(shù)據(jù)集中每張刺激樣本的平均注視點(diǎn)數(shù)和平均興趣區(qū)域數(shù),如表1 所示。通過(guò)對(duì)比兩數(shù)據(jù)集的刺激樣本和眼動(dòng)數(shù)據(jù),本文發(fā)現(xiàn)OSIE 中多數(shù)圖像擁有較為明顯的物體,觀察者產(chǎn)生的注視點(diǎn)相對(duì)較多,注視區(qū)域分布較為集中;而MIT1003 中圖像較為復(fù)雜,觀察者產(chǎn)生的注視行為較少,注視點(diǎn)分布較為分散,因此MIT1003數(shù)據(jù)集的群體掃視路徑生成更為困難。
表1 數(shù)據(jù)集對(duì)比Tab.1 Dataset comparison
本節(jié)將提取的興趣區(qū)域、篩選的興趣區(qū)域、SCA 和DFS方法生成的群體掃視路徑進(jìn)行可視化處理,依據(jù)可視化結(jié)果作出定性分析。
圖3展示了聚類(lèi)注視興趣區(qū)域的可視化結(jié)果。
圖3 注視興趣區(qū)域可視化Fig.3 Visualization of fixation regions of interest
圖3(a)是未經(jīng)篩選的興趣區(qū)域,圖3(b)是篩選后的興趣區(qū)域,圖像樣本1、2 取自MIT1003 數(shù)據(jù)集,圖像樣本3、4 取自O(shè)SIE數(shù)據(jù)集。通過(guò)對(duì)比可以發(fā)現(xiàn),對(duì)圖像樣本1~4,經(jīng)篩選步驟,圖3(a)中注視點(diǎn)數(shù)目較少、注視強(qiáng)度相對(duì)較低的興趣區(qū)域能夠被適當(dāng)剔除,注視點(diǎn)數(shù)目較多、注視強(qiáng)度相對(duì)較高的興趣區(qū)域可以被有效保留。
圖4展示了群體掃視路徑可視化結(jié)果,圖像樣本1、2取自MIT1003 數(shù)據(jù)集,圖像樣本3、4 取自O(shè)SIE 數(shù)據(jù)集。通過(guò)對(duì)比可以發(fā)現(xiàn),對(duì)圖像樣本1~4,所提兩種方法的群體掃視路徑(b)、(c)能夠涵蓋群體觀察者真實(shí)掃視路徑(a)中的注視興趣區(qū)域,可以表征群體的注視轉(zhuǎn)移趨勢(shì)。另外,DFS方法的群體掃視路徑(c)包含了高注視強(qiáng)度興趣區(qū)域的連續(xù)注視和回視,更加貼合真實(shí)的掃視路徑。
圖4 群體掃視路徑可視化Fig.4 Visualization of group scanpaths
目前常用的定量評(píng)價(jià)策略是將生成的群體掃視路徑與每一條真實(shí)記錄的個(gè)體掃視路徑作相似度比較,以相似度的均值定量衡量其表征能力。
4.3.1 評(píng)價(jià)指標(biāo)
比較眼動(dòng)數(shù)據(jù)相似度的方法[27-29]有很多,它們不盡相同,各有側(cè)重。本文采用了兩種較常應(yīng)用的針對(duì)掃視路徑的評(píng)價(jià)指標(biāo)MultiMatch[28]和ScanMatch[29],從時(shí)間和空間角度比較群體掃視路徑與個(gè)體掃視路徑的相似度。
MultiMatch 指標(biāo)將掃視路徑視作注視點(diǎn)排列形成的掃視向量,利用Dijkstra 算法[30]生成兩掃視向量的對(duì)齊矩陣,從掃視向量形狀、長(zhǎng)度、方向和注視點(diǎn)位置、時(shí)間5 個(gè)維度量化計(jì)算對(duì)齊部分子向量的相似度,求取對(duì)齊子向量相似度的均值衡量?jī)蓲咭暵窂降南嗨贫?。通過(guò)計(jì)算群體路徑與每條個(gè)體路徑五項(xiàng)相似度指標(biāo)的均值,衡量群體路徑與所有個(gè)體路徑的相似性,指標(biāo)越高,表明群體路徑的表征效果越好。實(shí)驗(yàn)中MultiMatch 中的參數(shù)設(shè)置為:global Threshold=Diagonal/10,direction Threshold=45,duration Threshold=inf。
ScanMatch 指標(biāo)對(duì)圖像作隔柵劃分將掃視路徑映射為字符串序列,利用Needleman-Wunsch 算法[31]計(jì)算兩掃視字符串序列的最佳對(duì)齊分?jǐn)?shù),對(duì)齊分?jǐn)?shù)越高,兩掃視路徑的整體相似性越高。通過(guò)計(jì)算群體路徑與每條個(gè)體路徑的對(duì)齊分?jǐn)?shù)均值,衡量群體路徑與所有個(gè)體路徑的相似性,指標(biāo)越高,表明群體路徑的表征效果越好。另外,通過(guò)設(shè)置TempBin參數(shù)該指標(biāo)可以考慮時(shí)間因素對(duì)兩路徑對(duì)齊的影響,假設(shè)格柵Grid1中存在一個(gè)300 ms 的注視點(diǎn),TempBin=0 時(shí),映射出的字符串序列為(Grid1),TempBin=100 時(shí),映射出的字符串序列為(Grid1,Grid1,Grid1)。實(shí)驗(yàn)中ScanMatch 的參數(shù)設(shè)置為:Xbin=24,Ybin=18,Threshold=3.5,GapValue=0,TempBin=100(不考慮時(shí)間因素時(shí)TempBin=0)。
4.3.2 對(duì)比實(shí)驗(yàn)及分析
文獻(xiàn)[16]中,Li 等將所提的自然場(chǎng)景群體掃視路徑生成方法CDBA[15]、Heuristic[16]應(yīng)用于MIT1003 和OSIE 兩個(gè)公共的自然場(chǎng)景數(shù)據(jù)集,利用MultiMatch 和ScanMatch 指標(biāo),與網(wǎng)頁(yè)場(chǎng)景的生成方法eMine[9]、STA[11]、SPAM[20]進(jìn)行比較,取得了全面超越的效果[16]。為了衡量所提生成方法SCA和DFS有效性以及與現(xiàn)有方法的差距,本文使用相同的數(shù)據(jù)集、評(píng)價(jià)指標(biāo)分別進(jìn)行了生成實(shí)驗(yàn)、定量評(píng)價(jià),并與文獻(xiàn)[16]中現(xiàn)有方法的評(píng)價(jià)結(jié)果進(jìn)行比較。由于MultiMatch 指標(biāo)中參數(shù)durationThreshold=inf,對(duì)比過(guò)程對(duì)子路徑進(jìn)行了簡(jiǎn)化,導(dǎo)致SCA 方法在MIT1003 數(shù)據(jù)集中1 張圖像和OSIE 數(shù)據(jù)集中11幅圖像上簡(jiǎn)化后的路徑過(guò)短,無(wú)法與真實(shí)路徑對(duì)比,因此,SCA 的MultiMatch 評(píng)價(jià)結(jié)果中未計(jì)入這12 幅圖像。表2 展示了不同生成方法的指標(biāo)結(jié)果。
表2 利用MultiMatch↑和ScanMatch↑評(píng)估群體路徑算法Tab.2 Evaluation of group scanpath algorithms by MultiMatch ↑and ScanMatch ↑
首先,對(duì)比SCA和DFS方法可以發(fā)現(xiàn),通過(guò)注視優(yōu)先度排序注視興趣區(qū)域的SCA能夠生成一條與真實(shí)路徑具有一定相似度的群體掃視路徑。對(duì)SCA進(jìn)行改進(jìn)的獨(dú)立處理不同注視興趣子區(qū)域的DFS 方法,在MultiMatch 的掃視路徑形狀、方向、長(zhǎng)度和注視點(diǎn)位置指標(biāo)上,以及ScanMatch 的兩項(xiàng)指標(biāo)上都取得了一定的提升,實(shí)驗(yàn)數(shù)據(jù)驗(yàn)證了考慮注視興趣區(qū)域的不同注視行為,生成的群體掃視路徑會(huì)更加貼合真實(shí)掃視路徑。
其次,將SCA、DFS 方法與網(wǎng)頁(yè)場(chǎng)景方法eMine[9]、STA[11]、SPAM[20]對(duì)比可以發(fā)現(xiàn),網(wǎng)頁(yè)場(chǎng)景的生成方法不適用于自然場(chǎng)景的復(fù)雜情況,需要研究針對(duì)自然場(chǎng)景情形的方法。
最后,將SCA、DFS 方法與自然場(chǎng)景方法CDBA[15]、Heuristic[16]對(duì)比。由相關(guān)工作及評(píng)價(jià)指標(biāo)的介紹可知,CDBA[15]、Heuristic[16]是基于篩選最佳對(duì)齊向量的生成方法,MultiMatch 是僅衡量對(duì)齊部分子向量平均相似度的指標(biāo),理論上這兩種方法的MultiMatch 指標(biāo)應(yīng)該最優(yōu)。通過(guò)觀察可以發(fā)現(xiàn),SCA 和DFS 方法在興趣區(qū)域眾多、圖像較復(fù)雜的MIT1003 數(shù)據(jù)集上表現(xiàn)優(yōu)于其他方法,初步判斷原因在于本文聚類(lèi)獲取的注視興趣區(qū)域結(jié)果較好,本文生成路徑考慮的興趣區(qū)域更全面、轉(zhuǎn)移模式更詳細(xì),生成路徑與真實(shí)個(gè)體路徑達(dá)到了較好的對(duì)齊效果,得到了較高的對(duì)齊子路徑平均相似度。ScanMatch 指標(biāo)上,不考慮時(shí)間因素時(shí),DFS 方法的生成路徑可以取得與真實(shí)路徑較高的對(duì)齊分?jǐn)?shù),說(shuō)明生成路徑的注視區(qū)域和注視順序與真實(shí)路徑相似;考慮時(shí)間因素時(shí),對(duì)齊分?jǐn)?shù)有所降低,是因?yàn)镈FS 方法將篩得所有興趣子區(qū)域的時(shí)長(zhǎng)直接疊加,生成路徑總時(shí)長(zhǎng)超過(guò)了真實(shí)觀察時(shí)長(zhǎng),導(dǎo)致生成路徑未能與真實(shí)路徑較好對(duì)齊,影響了最終的評(píng)價(jià)結(jié)果。DFS生成方法的時(shí)間策略有欠合理,有待繼續(xù)改進(jìn)。
本文研究自然場(chǎng)景中人類(lèi)的注視注意,通過(guò)分析同一刺激樣本下多名觀察者的眼動(dòng)數(shù)據(jù),提出了基于注視興趣區(qū)域聚類(lèi)和轉(zhuǎn)移的群體掃視路徑生成方法??梢暬爸笜?biāo)結(jié)果表明所提方法的生成路徑能夠貼合群體觀察者的實(shí)際的眼動(dòng)行為且具有一定的表征能力。今后的工作中,會(huì)繼續(xù)改進(jìn)生成方法使之更好地適用于不同的數(shù)據(jù)集,提升模型的魯棒性;繼續(xù)研究合理的時(shí)間生成策略使之更好地貼近真實(shí)視覺(jué)注視和轉(zhuǎn)移,提升模型的精確性;研究針對(duì)掃視路徑的評(píng)價(jià)指標(biāo),探索新的評(píng)價(jià)方法。