段慧煜 任曉雨 王琳琳 史芳羽 范磊 翟廣濤
(1.上海交通大學(xué)圖像通信與網(wǎng)絡(luò)工程研究所,上海 200241;2.上海市董李鳳美康健學(xué)校,上海 200233)
孤獨(dú)癥譜系障礙(autism spectrum disorder,ASD),也稱自閉癥,是一種神經(jīng)發(fā)育障礙,其主要特征包括表達(dá)困難、社會(huì)交往障礙、重復(fù)刻板的行為及狹隘的興趣[1]。自閉癥的致病原因目前尚不清楚。近年的流行病學(xué)調(diào)查數(shù)據(jù)顯示,全球范圍內(nèi)自閉癥患病率呈現(xiàn)上升趨勢(shì),患病率在1%左右。自閉癥患者多預(yù)后不良,成年后缺乏獨(dú)立生活的能力,給家庭和社會(huì)帶來沉重負(fù)擔(dān)。但研究發(fā)現(xiàn)早期確診和早期干預(yù)治療可顯著改善自閉癥患者的核心癥狀,呈現(xiàn)較好的預(yù)后效果[2]。
社會(huì)交往障礙被認(rèn)為是自閉癥的核心特征之一。作為社交障礙的重要表象,非典型的視覺注意經(jīng)常出現(xiàn)在自閉癥患者身上[3],即患有自閉癥的人對(duì)各種視覺刺激,尤其是在有關(guān)社會(huì)交流活動(dòng)的視覺刺激(如人臉、文字等)上經(jīng)常表現(xiàn)出非典型的視覺注意[4]。因此,學(xué)習(xí)這種非典型的視覺注意可以幫助我們更好地了解自閉癥。
針對(duì)自閉癥患者視覺注意的研究已取得了一些成果。Dawson等人[4]證實(shí)自閉癥患者對(duì)面部、聲音、手勢(shì)等社會(huì)性刺激的關(guān)注減少,對(duì)非社會(huì)性刺激的關(guān)注增加,且對(duì)社會(huì)和聯(lián)合注意行為的減少。然而先前這些研究絕大部分都使用了限制性或非自然的刺激,如獨(dú)立的面部和物體,或者是只有低語義特征的刺激,這限制了對(duì)自閉癥共同特征的探索。
眼球運(yùn)動(dòng)編碼了大量有關(guān)個(gè)體的注意力、動(dòng)眼神經(jīng)控制和個(gè)人心理因素的信息。與眼跳和注視有關(guān)的眼動(dòng)特征已經(jīng)被證明在識(shí)別精神狀態(tài)、認(rèn)知過程和神經(jīng)病理學(xué)方面具有價(jià)值[5-7]。因此,分析自閉癥兒童的眼球運(yùn)動(dòng),能夠在一定程度上描述自閉癥的特征,有助于自閉癥的診斷。
針對(duì)自閉癥的眼球運(yùn)動(dòng)研究也取得了一些成果。Tseng 等人[6]的研究分析了人類觀看短視頻時(shí)的注視模式,將其與低層特征結(jié)合,證實(shí)了納入視覺注意在識(shí)別特殊疾病方面的優(yōu)勢(shì)。但該工作并沒有考慮高層語義特征和社會(huì)信息。隨著機(jī)器學(xué)習(xí)的發(fā)展,高層語義特征可以很容易地被提取。Wang 等人[8]使用線性支持向量機(jī)(SVM),首次通過多層次特征量化了自閉癥患者的非典型視覺注意,并證實(shí)自閉癥患者的注視模式有更強(qiáng)的中央偏好,對(duì)低層特征的關(guān)注度更高,對(duì)高層語義特征的關(guān)注度更低。但該工作依賴于人工標(biāo)記提取的特征。隨著深度學(xué)習(xí)的快速發(fā)展,物體檢測(cè)走向成熟,使機(jī)器提取物體特征成為可能。Liu 等人[9]提出了一種機(jī)器學(xué)習(xí)方法,基于他們?cè)谌四樧R(shí)別任務(wù)中的注視模式,對(duì)自閉癥患者與對(duì)照組進(jìn)行分類。但該工作高度依賴于自閉癥患者的現(xiàn)有認(rèn)知,因此很難推廣到不同教育水平的個(gè)體。隨著深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,DNN)的發(fā)展,對(duì)于自閉癥患者非典型視覺注意的研究取得了很大進(jìn)展。Jiang等人[10]應(yīng)用深度神經(jīng)網(wǎng)絡(luò)提取了眼球運(yùn)動(dòng)特征,并用于微調(diào)一種顯著性預(yù)測(cè)算法,以對(duì)被試進(jìn)行分類,結(jié)果證明他們的工作獲得了更好的表現(xiàn)。Duan 等人[11]建立了孤獨(dú)癥兒童顯著性預(yù)測(cè)(SPCA)數(shù)據(jù)庫(kù),并微調(diào)了四個(gè)基于深度神經(jīng)網(wǎng)絡(luò)的顯著性預(yù)測(cè)模型,以研究自閉癥兒童的注視模式。
之前的針對(duì)自閉癥眼動(dòng)的研究還存在著一些共性的不足之處。例如,這些研究所采用的圖像刺激都受限于研究人員的預(yù)期選擇和攝影師的有限視野(field of view,F(xiàn)OV),而他們都不曾患有自閉癥。此外,這些研究所使用的大多是在被試處于“被動(dòng)”觀察情況下的眼動(dòng)數(shù)據(jù),即在頭部固定的狀態(tài)下對(duì)平面圖像進(jìn)行觀察的眼動(dòng)數(shù)據(jù)。然而事實(shí)上,積極的觀看條件影響知覺加工。在“被動(dòng)”狀態(tài)下,被試只能通過眼球運(yùn)動(dòng)探索單一視野的場(chǎng)景。相反,在“主動(dòng)”狀態(tài)下,人們會(huì)通過眼球轉(zhuǎn)動(dòng)、頭部轉(zhuǎn)動(dòng)和身體運(yùn)動(dòng)積極地探索周邊場(chǎng)景[12-13]。因此,這種“被動(dòng)”狀態(tài)下采集到的數(shù)據(jù)并不能完全展示出被試的視覺注意。并且這些平面圖像大多顯示在與現(xiàn)實(shí)世界相比視野受限且相對(duì)較小的屏幕上,對(duì)于這些圖片和對(duì)于真實(shí)世界的語義感知依舊存在很大差異?,F(xiàn)實(shí)中自閉癥患者的視覺注意仍是未知的。
針對(duì)上述研究的不足,本文選擇應(yīng)用360°全景圖像,在虛擬現(xiàn)實(shí)(VR)環(huán)境下收集眼球追蹤數(shù)據(jù),建立了首個(gè)大規(guī)模的全景圖像ASD 眼動(dòng)數(shù)據(jù)集;改進(jìn)了三層顯著性計(jì)算模型[14],使用物體檢測(cè)和深度估計(jì)等算法取代人工標(biāo)記,對(duì)數(shù)據(jù)集中所有圖像的特征進(jìn)行量化;從對(duì)不同特征的視覺關(guān)注度,到頭眼運(yùn)動(dòng)的區(qū)別與聯(lián)系,進(jìn)行了對(duì)自閉癥兒童在現(xiàn)實(shí)世界中非典型視覺注意的定性與定量分析,得出自閉癥兒童的非典型視覺注意特征:對(duì)場(chǎng)景中的焦點(diǎn)和社會(huì)性信息的關(guān)注較低,且在人臉不突出且未表達(dá)出與觀察者互動(dòng)傾向的場(chǎng)景中,其視覺注意往往更局限;對(duì)圖像深度、赤道及背景特征的關(guān)注度更高,對(duì)圖像語義級(jí)特征的關(guān)注度更低;在室外場(chǎng)景中,中心偏好更弱,且更傾向于向下看;頭眼運(yùn)動(dòng)的協(xié)調(diào)性更低等。這有助于進(jìn)一步了解自閉癥,也有助于相關(guān)的應(yīng)用領(lǐng)域,如診斷[10,15]和預(yù)后康復(fù)[16]。
文中剩余內(nèi)容分為四個(gè)部分,第一部分介紹了全景圖像ASD 眼動(dòng)數(shù)據(jù)集及其構(gòu)建;第二部分介紹了改進(jìn)的三層顯著性計(jì)算模型;第三部分分析了自閉癥兒童在現(xiàn)實(shí)世界中的非典型視覺注意;第四部分總結(jié)全文。
本實(shí)驗(yàn)從兩個(gè)大規(guī)模全景圖像數(shù)據(jù)集中選取了300 張高分辨率全景圖像,其中85 張選自Salient360 數(shù)據(jù)集[17],215 張選自SUN360 數(shù)據(jù)集[18]??紤]到自閉癥患者/非自閉癥患者對(duì)社會(huì)性/非社會(huì)性刺激的視覺注意的差異,還平衡了數(shù)據(jù)集中各圖像所包含的語義信息。如圖1 所示,選取的圖像中包含各種像素級(jí)、物體級(jí)和語義級(jí)信息,也囊括室內(nèi)場(chǎng)景、室外場(chǎng)景、城市風(fēng)景、自然風(fēng)景、物體、人群等多種圖像類別。
圖1 本數(shù)據(jù)集中的圖像樣本Fig.1 Sample stimuli of the database
本實(shí)驗(yàn)使用HTC Vive Pro Eye 來展示全景圖像刺激并收集眼動(dòng)數(shù)據(jù)。該設(shè)備采用雙OLED 顯示器,分辨率為2880×1600 像素,視場(chǎng)角為110°,刷新率為90 Hz。該設(shè)備含有內(nèi)置眼動(dòng)儀,采用五點(diǎn)校準(zhǔn),數(shù)據(jù)輸出頻率(雙目)為120 Hz,可以進(jìn)行精準(zhǔn)眼動(dòng)態(tài)追蹤。軟件系統(tǒng)通過Unity3D 平臺(tái)搭建,用于控制實(shí)驗(yàn)過程和記錄所有數(shù)據(jù)。
本實(shí)驗(yàn)共有被試31 名,其中包括15 名自閉癥兒童和16 名健康兒童(typically developing,TD)。所有自閉癥被試都屬中高功能自閉癥,可以滿足實(shí)驗(yàn)要求。自閉癥被試的年齡從7 歲至13 歲不等,平均年齡為10.4 歲。健康兒童作為對(duì)照被試,年齡從7 歲至9.6 歲不等,平均年齡為8 歲。除年齡外,兩組被試的性別、慣用手和表現(xiàn)智商也是匹配的。實(shí)驗(yàn)前,所有被試的父母都閱讀并簽署了知情同意書。實(shí)驗(yàn)中,所有被試的視力都正?;虺C正正常。
具體的實(shí)驗(yàn)過程包括以下幾個(gè)步驟:VR 設(shè)備使用練習(xí)、校準(zhǔn)和正式采集數(shù)據(jù)。在VR 設(shè)備練習(xí)階段,被試佩戴VR 設(shè)備HTC Vive Pro Eye,首先進(jìn)行兩次全景圖像的觀察,以確保被試在開始正式實(shí)驗(yàn)之前已經(jīng)適應(yīng)了在虛擬環(huán)境中的觀察。完成練習(xí)階段之后,執(zhí)行眼動(dòng)儀校準(zhǔn)程序,以驗(yàn)證眼球追蹤的準(zhǔn)確性,確保數(shù)據(jù)的可靠性。
關(guān)于正式眼動(dòng)數(shù)據(jù)采集,目前有三種在VR 環(huán)境下進(jìn)行眼球追蹤實(shí)驗(yàn)的方法。Rai 等人[17]進(jìn)行了被試坐立情況下自由探索場(chǎng)景的眼球追蹤研究。Sitzmann等人[19]進(jìn)行了被試在坐立和站立兩種情況下自由探索場(chǎng)景的眼球追蹤研究。Haskins 等人[20]選擇在被試坐立情況下進(jìn)行眼球追蹤,但與此同時(shí)全景圖像會(huì)以恒定速度旋轉(zhuǎn)??紤]到自閉癥兒童可能存在的認(rèn)知和交流障礙,分別采取以下兩種情況進(jìn)行了兩次實(shí)驗(yàn):
站立情況:第一次實(shí)驗(yàn)中,被試在站立情況下,通過設(shè)備的頭戴式顯示器(HMD)自由觀察探索200 張全景圖像。考慮到ASD 被試缺乏耐心,和被試眼部疲勞會(huì)導(dǎo)致所采集數(shù)據(jù)準(zhǔn)確性降低等問題,將實(shí)驗(yàn)劃分為20 組,每組包含10 幅全景圖像。實(shí)驗(yàn)過程中,每幅圖像顯示20 秒,圖像之間有1 秒的灰屏作為分隔。一組10幅圖像觀察完成后,被試會(huì)進(jìn)行短暫的休息。休息完畢后,再次執(zhí)行眼動(dòng)儀校準(zhǔn)程序,校準(zhǔn)完成后開始下一組圖像觀察。
坐立情況:由于Haskins 等人[20]的方法易引起眩暈,本文提出一種改進(jìn)方法。第二次實(shí)驗(yàn)中,被試被指示坐在一個(gè)固定的椅子上觀察100張全景圖像。實(shí)驗(yàn)劃分為10 組,每組包含10 幅全景圖像,每幅圖像顯示20 秒,但每5 秒會(huì)旋轉(zhuǎn)90°。其他設(shè)置均與站立情況相同。
在被試觀察過程中,由設(shè)備自動(dòng)記錄被試的頭動(dòng)、眼動(dòng)數(shù)據(jù)和時(shí)間戳等信息。
全景圖像ASD 眼動(dòng)數(shù)據(jù)集包含300 張全景圖像,以及相對(duì)應(yīng)的眼動(dòng)數(shù)據(jù)。目前為止,已采集到15名自閉癥兒童與16名健康兒童觀察300張圖像所得到的總8639組有效眼動(dòng)數(shù)據(jù),因校準(zhǔn)失敗和因其他原因?qū)е掠^察時(shí)長(zhǎng)不足等異常數(shù)據(jù)已被去除。數(shù)據(jù)集中每張全景圖像的平均觀察者總數(shù)為28人,平均每張圖片的自閉癥觀察者為12 人,健康觀察者為16人。
眼動(dòng)數(shù)據(jù)包含:時(shí)間戳、眼球注視點(diǎn)在觀察球面上的三維直角坐標(biāo)、頭部所在位置的三維直角坐標(biāo)和頭部旋轉(zhuǎn)的姿態(tài)角。
由于圖像尺寸原因,最終只有299 張全景圖像被用于后續(xù)研究。需要注意的是,為了規(guī)范計(jì)算,數(shù)據(jù)集中所有全景圖像都被重新調(diào)整尺寸至900×450(寬×高)。
本文改進(jìn)的三層顯著性計(jì)算模型如圖2 所示。主要在所考慮圖像特征及其提取方法上進(jìn)行改進(jìn),使模型適用于自閉癥兒童非典型視覺注意的分析。
圖2 三層顯著性計(jì)算模型概述Fig.2 Computational saliency model
為了更好地對(duì)比分析自閉癥兒童在現(xiàn)實(shí)世界中的非典型視覺注意,高級(jí)特征十分關(guān)鍵。原三層顯著性計(jì)算模型考慮像素級(jí)特征(顏色、亮度、方向),物體級(jí)特征(尺寸、復(fù)雜度、凸度、實(shí)心度、偏心率),語義級(jí)特征等三級(jí)特征,和背景特征[14]。針對(duì)全景圖像ASD 眼動(dòng)數(shù)據(jù)集,本文改進(jìn)了三層顯著性計(jì)算模型所考慮的圖像特征,各特征的詳細(xì)描述可見表1,具體改進(jìn)如下所述:
表1 三層顯著性計(jì)算模型使用的圖像特征總結(jié)[8]Tab.1 Summary of all features used in the three-layered computational saliency model[8]
(1)更改語義級(jí)特征的分類
比起物體級(jí)特征,人類更傾向于將視覺注意集中在語義實(shí)體上。人類和靈長(zhǎng)類動(dòng)物有專門的神經(jīng)系統(tǒng)用來處理人類面孔這種視覺刺激[21]。研究表明,人類的視覺注意偏向于關(guān)注人類面部[22]。本文的主要研究目的不在于分析各語義級(jí)特征對(duì)視覺注意影響的差異。因此,本文假設(shè)各物體都具有一定語義屬性,且只將“人類”這一語義屬性單獨(dú)考慮,其余語義屬性都被歸為“其他”。
對(duì)于數(shù)據(jù)集中每張包含物體的全景圖像,對(duì)其所蘊(yùn)含的語義級(jí)特征進(jìn)行評(píng)分,1 代表該物體蘊(yùn)含該語義級(jí)特征,0代表該物體不蘊(yùn)含該語義級(jí)特征。
(2)增加全景圖像赤道特征
Wang 等人[8]證實(shí)了人類的視覺注意更被平面圖像的中心區(qū)域所吸引,而自閉癥患者的注視模式有更強(qiáng)的中央偏好。Rai 等人[17]證實(shí)了對(duì)于全景圖像觀察,人類對(duì)圖像赤道區(qū)域的注視更加頻繁,卻不顯示對(duì)于特定經(jīng)度的偏好。本文考慮被試對(duì)全景圖像赤道區(qū)域的視覺注意。
(3)增加全景圖像深度特征
研究表明,在三維場(chǎng)景中,深度這一線索被人類用于理解周圍的環(huán)境,并在視覺顯著性中發(fā)揮著重要作用[23-24]。
(1)像素級(jí)特征的提取
像素級(jí)特征圖依舊根據(jù)Itti等人的算法生成[14]。
(2)物體級(jí)、語義級(jí)和背景特征的提取
關(guān)于顯著性的一些重要特征只能通過物體的精細(xì)輪廓分割來測(cè)量。比如凸度是一個(gè)重要的物體級(jí)特征,低凸度的物體一般表示被其他物體所遮擋的物體。如果使用方形邊界框,這個(gè)特征就會(huì)丟失。因此,需要數(shù)據(jù)集各圖像中物體的種類及精細(xì)分割的掩膜。Xu 等人[14]使用了一種交互式手動(dòng)物體分割工具[25]進(jìn)行人工標(biāo)記提取特征。但手動(dòng)提取物體特征需要大量的人力和時(shí)間資源,且可能受到個(gè)人偏好的影響。
本文為了改進(jìn)該不足,經(jīng)過對(duì)比選擇Cascade Mask R-CNN 物體檢測(cè)算法,由于出現(xiàn)在本數(shù)據(jù)集中圖像上的物體多為日常事物,故應(yīng)用MMlab 開源代碼庫(kù)mmdetection 模塊[26]中在coco 數(shù)據(jù)集上的預(yù)訓(xùn)練模型Cascade Mask R-CNN X-101-32x4d-FPN(具體參數(shù)見表2),來識(shí)別圖像中所有像素點(diǎn)的類別。為每張全景圖像中每個(gè)識(shí)別出的物體生成一張完整的mask 掩膜,包含該物體的像素點(diǎn)為1,其余為0;并標(biāo)注了其蘊(yùn)含的語義屬性,如人類或其他物體。而沒有包含任何物體的圖像區(qū)域則被視為背景。
表2 預(yù)訓(xùn)練模型參數(shù)Tab.2 Pre-trained model parameters
物體級(jí)和語義級(jí)特征圖的生成方法,是在每個(gè)物體的中心放置一個(gè)σ=12°的二維高斯核,選用依據(jù)與文章[14]相同。再與計(jì)算得出的物體級(jí)/語義級(jí)特征數(shù)值相乘,最后歸一化得到物體級(jí)/語義級(jí)特征圖。背景特征圖的生成方法,是將圖像上所有包含物體的像素點(diǎn)設(shè)為0,不包含物體的像素點(diǎn)設(shè)為1。
(3)全景圖像深度特征的提取
為了提取深度特征,在全景圖像ASD 眼動(dòng)數(shù)據(jù)集上應(yīng)用了SliceNet[27],BiFuse[28],UniFuse[29],Ho-HoNet[30],ACDNet[31]五種專為全景圖像設(shè)計(jì)的深度估計(jì)算法,對(duì)比結(jié)果后,最終選擇了在本數(shù)據(jù)集上表現(xiàn)最好的ACDNet。從結(jié)果中可以看出,此算法在室內(nèi)和室外場(chǎng)景中均工作良好。但在全景圖像南北兩極處皆存在畸變情況,這是全景圖像深度估計(jì)算法的通病。但在實(shí)際采集數(shù)據(jù)實(shí)驗(yàn)中,被試很少會(huì)觀察天和地,也就是全景圖像中南北兩極的位置。因此,選擇遍歷深度圖,用顏色最深處的灰度值覆蓋每張深度圖的畸變處,以生成最終的全景圖像深度特征圖。
(4)全景圖像赤道特征的提取
全景圖像赤道特征圖的生成方法為:首先生成一張900×450 的全黑圖片,將圖片赤道設(shè)成1,再在經(jīng)度方向上應(yīng)用σ=1°的一維高斯濾波。
本文使用SVM 來評(píng)估六個(gè)因素對(duì)視覺注意分配的影響程度:全景圖像赤道特征、全景圖像深度特征、背景特征、像素級(jí)特征、物體級(jí)特征以及語義級(jí)特征。相應(yīng)特征圖被用來訓(xùn)練三層顯著性計(jì)算模型(見圖2)。為了訓(xùn)練和測(cè)試這個(gè)模型,將數(shù)據(jù)集分為240張訓(xùn)練圖像和59張測(cè)試圖像[14]。
需要注意的是,由于等距柱狀投影的全景圖像并不能完全反映被試在VR 環(huán)境下看到的真實(shí)場(chǎng)景[32],且在南北兩極處存在畸變,本文將等距柱狀投影的全景圖像分割成六個(gè)立方投影,并在立方投影上也完成了特征提取工作。事實(shí)上,在訓(xùn)練模型的過程中使用到的特征圖,除了全景圖像赤道和深度的特征圖以外,都是由立方投影的特征圖再轉(zhuǎn)成等距柱狀投影的。具體過程如下:
首先,基于全景圖像ASD 眼動(dòng)數(shù)據(jù)集中的眼動(dòng)數(shù)據(jù),生成對(duì)應(yīng)的注視點(diǎn)圖,注視點(diǎn)密度圖,以及熱度圖。
然后,計(jì)算出數(shù)據(jù)集中每張全景圖像的赤道和深度特征圖。再將全景圖像轉(zhuǎn)換為立方投影,計(jì)算出對(duì)應(yīng)的像素級(jí)、物體級(jí)、語義級(jí)以及背景特征圖,再將這些立方投影的特征圖轉(zhuǎn)回等距柱狀投影。
最后,分別對(duì)于ASD 組和TD 組的數(shù)據(jù),完成兩個(gè)三層顯著性計(jì)算模型的訓(xùn)練和測(cè)試,得出顯著性權(quán)重。
基于全景圖像ASD 眼動(dòng)數(shù)據(jù)集,本文對(duì)比不同場(chǎng)景中自閉癥兒童和健康兒童的視覺注意分布熱度圖,以分析其視覺注意的差異和相似性。如圖3所示,熱度越高,被試注視該區(qū)域的時(shí)間越長(zhǎng)。
圖3(a)~圖3(c)表明,比起健康兒童,自閉癥兒童對(duì)人臉的視覺注意集中程度更低,相對(duì)來說目光更為發(fā)散。此外,自閉癥兒童還會(huì)被場(chǎng)景中人臉以外的物體所吸引,比如圖3(a)中的方向盤,圖3(b)中的掛畫和圖3(c)中的樹。圖3(d)~圖3(h)展現(xiàn)了自閉癥患者的核心特征,即社會(huì)交往障礙,他們對(duì)非社會(huì)性信息的視覺注意增加,而健康兒童則傾向于對(duì)社會(huì)性信息給予更多的關(guān)注。另外,如圖3(d)和圖3(g),在人臉不突出且未表達(dá)出與觀察者互動(dòng)傾向的場(chǎng)景中,健康兒童的注意力分布范圍較廣,而自閉癥兒童往往局限于某個(gè)或某些部分,從這個(gè)角度來說,健康兒童比自閉癥兒童表現(xiàn)出對(duì)整個(gè)場(chǎng)景更強(qiáng)的探索行為。并且,如圖3(g)和圖3(h)所示,自閉癥兒童比較缺乏信息整合的能力,他們對(duì)場(chǎng)景中主要焦點(diǎn)的關(guān)注度降低。圖3(i)和圖3(j)表明,對(duì)于不含人的室外場(chǎng)景、語義信息的空間分布相對(duì)均勻的場(chǎng)景,或者是非社交場(chǎng)景來說,自閉癥兒童和健康兒童在整個(gè)場(chǎng)景中的全局視覺注意是相似的。
圖3 不同場(chǎng)景中自閉癥兒童(上)和健康兒童(下)的視覺注意分布熱度圖Fig.3 Visual attention of autistic children(top)and healthy controls(bottom)
三層顯著性計(jì)算模型為每個(gè)特征輸出一個(gè)顯著性權(quán)重,代表該特征對(duì)預(yù)測(cè)視覺注意力分配的相對(duì)貢獻(xiàn)。從圖4 中可以看出,兩組被試觀察圖像時(shí)都有較強(qiáng)的赤道偏好,這是符合預(yù)期的。值得注意的是,自閉癥兒童對(duì)于圖像赤道特征的偏向明顯更強(qiáng),但是對(duì)于語義級(jí)特征的偏向明顯減低。
圖4 分組特征的顯著性權(quán)重Fig.4 Saliency weights of subgroup features
本文也針對(duì)兩組眼動(dòng)數(shù)據(jù)生成的注視點(diǎn)密度圖和特征圖,計(jì)算了常用的顯著性評(píng)價(jià)指標(biāo),即CC、SIM 和NSS,統(tǒng)計(jì)細(xì)節(jié)見圖5(星號(hào)*表示經(jīng)過U 檢驗(yàn),自閉癥與健康受試者的數(shù)據(jù)存在顯著差異:*p<0.05,**p<0.01,***p<0.001)??梢钥闯鲎蚤]癥兒童對(duì)于全景圖像深度、赤道和背景這三個(gè)特征的偏好更強(qiáng),這驗(yàn)證了上一節(jié)中定性分析自閉癥兒童觀察特征的結(jié)論,即自閉癥兒童會(huì)減少對(duì)圖像中物體的關(guān)注,而傾向于關(guān)注不含任何語義信息的圖像背景。還驗(yàn)證了先前研究得出的自閉癥兒童的注視模式特征,即他們有更強(qiáng)的中央偏好(對(duì)于全景圖像來說為赤道偏好),且傾向于觀察更遠(yuǎn)的地方[8]。此外,對(duì)于赤道特征來說,三個(gè)評(píng)價(jià)指標(biāo)的對(duì)比都具有統(tǒng)計(jì)意義,因此進(jìn)一步研究自閉癥兒童與健康兒童的赤道偏好是有意義的。
圖5 分組特征的顯著性評(píng)價(jià)指標(biāo)Fig.5 Saliency metrics of subgroup features
為了分析自閉癥兒童與健康兒童的赤道偏好,本文計(jì)算了每張全景圖像的注視點(diǎn)的緯度,以1°為最小區(qū)間,統(tǒng)計(jì)每個(gè)區(qū)間內(nèi)注視點(diǎn)的數(shù)量,最后將全部圖像的注視點(diǎn)數(shù)量相加得到總和,進(jìn)行歸一化處理后,得到兩組被試注視點(diǎn)頻率關(guān)于緯度的分布圖,如圖6(a)和圖6(b)所示??梢钥闯鰧?duì)于本數(shù)據(jù)集而言,兩組被試在全景圖像上的視覺注意力分布都是赤道附近最多,向兩極呈遞減趨勢(shì)。并且,兩組被試都有向下看的傾向。
Fang 等人[15]證實(shí),對(duì)于高層語義信息含量較低的室外場(chǎng)景,如街道場(chǎng)景和自然場(chǎng)景,健康兒童的中心偏好往往更明顯。本文選取了數(shù)據(jù)集中符合條件的75張圖像,并同樣得出該類型場(chǎng)景下兩組被試注視點(diǎn)頻率關(guān)于緯度的分布圖,如圖6(c)與圖6(d)所示??梢钥闯鲈谶@類場(chǎng)景中,健康兒童注視模式對(duì)于赤道附近區(qū)域的偏向更加顯著。此外,自閉癥兒童向下看的偏好更加明顯。通過高斯擬合(擬合系數(shù)見表3)可以得出,自閉癥兒童注視點(diǎn)的緯度中心更靠下,且其擬合曲線的寬度更寬。這也許可以說明在室外場(chǎng)景中,自閉癥兒童的“赤道集中”偏好沒有健康兒童強(qiáng)烈。
表3 高斯函數(shù)擬合系數(shù)(室外場(chǎng)景)Tab.3 Gaussian function fitting coefficients(outdoor scenes)
圖6 注視點(diǎn)頻率關(guān)于緯度的分布圖及其高斯擬合((a):ASD,(b):TD,(c):ASD室外,(d):TD室外)Fig.6 Frequency of fixations for each latitude and Gaussian curve approximation((a):ASD,(b):TD,(c):ASD outdoor,(d):TD outdoor)
眼球運(yùn)動(dòng)通常受到頭部運(yùn)動(dòng)的影響,頭部運(yùn)動(dòng)與眼球運(yùn)動(dòng)通常是相關(guān)聯(lián)的[33]。事實(shí)上,在VR 環(huán)境中觀察全景圖像時(shí),眼前顯示的場(chǎng)景會(huì)隨著頭部的旋轉(zhuǎn)和身體的平移而發(fā)生相應(yīng)的變化[17]。因此,研究頭部運(yùn)動(dòng)及眼球運(yùn)動(dòng)的協(xié)調(diào)性,也有助于分析自閉癥兒童的非典型視覺注意。
為了研究頭眼運(yùn)動(dòng)的區(qū)別與聯(lián)系,生成了基于頭部運(yùn)動(dòng)的“注視點(diǎn)密度圖”和熱度圖,部分熱度圖如圖7 所示??梢钥闯鰧?duì)于兩組被試而言,頭部運(yùn)動(dòng)和眼球運(yùn)動(dòng)的存在范圍基本一致,符合頭眼運(yùn)動(dòng)的協(xié)調(diào)性。但是頭眼運(yùn)動(dòng)得出的熱度圖也存在差異。首先,兩組熱度圖的注視焦點(diǎn),即熱度最高的區(qū)域的中心位置存在偏差。因?yàn)楦鶕?jù)頭動(dòng)數(shù)據(jù)生成頭動(dòng)“注視點(diǎn)密度圖”,是基于眼球注視點(diǎn)為頭部所對(duì)視口的中心點(diǎn)這一假設(shè)的,然而事實(shí)上在探索場(chǎng)景時(shí),被試的眼球并不總是正視前方。此外,頭動(dòng)熱度圖在分布上呈連續(xù)趨勢(shì),而眼動(dòng)熱度圖呈點(diǎn)狀分布的特點(diǎn)。這是因?yàn)樵谟^察過程中,頭部的運(yùn)動(dòng)趨勢(shì)比較平緩,大多是連續(xù)的過程,而眼球的運(yùn)動(dòng)相比之下更具有跳躍性,從一個(gè)注視點(diǎn)到另一個(gè)注視點(diǎn)的空間跨度更大。經(jīng)過對(duì)兩組頭眼運(yùn)動(dòng)熱度圖,可以發(fā)現(xiàn)自閉癥兒童頭部運(yùn)動(dòng)與眼球運(yùn)動(dòng)的協(xié)調(diào)性更低。這可以從某些角度解釋一個(gè)通常的現(xiàn)象,即自閉癥在社交時(shí),其面部朝向社交事物,而眼睛看向其他方向。
圖7 頭動(dòng)熱度圖(上)與眼動(dòng)熱度圖(下)Fig.7 Heat map of head movement(top)and heat map of eye movement(bottom)
在整個(gè)數(shù)據(jù)集上,計(jì)算了每幅圖像所對(duì)應(yīng)的頭動(dòng)與眼動(dòng)“注視點(diǎn)密度圖”之間的CC,結(jié)果如圖8 所示??梢缘贸鲎蚤]癥兒童比健康兒童的頭眼運(yùn)動(dòng)的相關(guān)性更低,自閉癥兒童的頭眼運(yùn)動(dòng)協(xié)調(diào)性低于健康兒童。
圖8 頭動(dòng)和眼動(dòng)“注視點(diǎn)密度圖”的相關(guān)系數(shù)分布Fig.8 CC between the fixation density map of head movement and the fixation density map of eye movement
本文構(gòu)建了首個(gè)全景圖像ASD 眼動(dòng)數(shù)據(jù)集?;谠摂?shù)據(jù)集,改進(jìn)了三層顯著性計(jì)算模型,使其更適用于自閉癥兒童眼動(dòng)分析。通過對(duì)比分析,得出自閉癥兒童的非典型視覺注意特征:對(duì)場(chǎng)景中的焦點(diǎn)和社會(huì)性信息的關(guān)注較低,且在人臉不突出且未表達(dá)出與觀察者互動(dòng)傾向的場(chǎng)景中,其視覺注意往往更局限;對(duì)圖像深度、赤道及背景特征的關(guān)注度更高,對(duì)圖像語義級(jí)特征的關(guān)注度更低;在室外場(chǎng)景中,中心偏好更弱,且更傾向于向下看;頭眼運(yùn)動(dòng)的協(xié)調(diào)性更低。本文得出的結(jié)論有助于了解自閉癥,眼動(dòng)分析或許有助于自閉癥新型診斷工具的開發(fā)。但分析方向不夠全面,今后的研究中需要通過增加對(duì)被試的個(gè)人情況(如智商、逆商和年齡)、注視點(diǎn)演變、凝視時(shí)長(zhǎng)等,和各圖像特征之間的相互影響的分析,進(jìn)一步得出自閉癥視覺注意的特征。