趙 瑛,耿秀琳,李 琦,蔣廣琪,谷 宇,2
1.內(nèi)蒙古科技大學(xué) 信息工程學(xué)院,內(nèi)蒙古 包頭 014010
2.上海大學(xué) 計(jì)算機(jī)工程與科學(xué)學(xué)院,上海 200444
可提供超過(guò)70%的外界信息的視覺(jué)是人類感官系統(tǒng)中最為重要的感覺(jué)之一,也是人類認(rèn)知和了解真實(shí)世界的最主要途徑,一旦失去視覺(jué),人將無(wú)法對(duì)外界信息進(jìn)行感知[1],并對(duì)其學(xué)習(xí)、生產(chǎn)、生活等各類社會(huì)和個(gè)人活動(dòng)帶來(lái)很大的影響[2]。
世界衛(wèi)生組織2011年8月的統(tǒng)計(jì)數(shù)據(jù)顯示,全球共有2.85億人受到視力損傷問(wèn)題的困擾[3]。82%的盲癥病人年齡在50歲以上,此類人群患盲癥的主要原因是白內(nèi)障和老年性黃斑變性(Age-related Macular Degeneration,AMD)。白內(nèi)障基本可以治愈,但AMD尚未取得有效治療手段,這成為老年人致盲的主要原因之一[4]。除此之外,視網(wǎng)膜色素變性(Retinitis Pigmentosa,RP)也是導(dǎo)致視覺(jué)受損的主要原因,該病在人群中的發(fā)病率約l/3 500~1/7 500,其中約1/3~1/2的病例具有遺傳背景[5]。由RP和AMD致盲的原因是視網(wǎng)膜外側(cè)的光感受細(xì)胞凋亡而失去感光能力,而視網(wǎng)膜視覺(jué)假體能夠繞過(guò)感光細(xì)胞層直接作用于視網(wǎng)膜內(nèi)側(cè)的神經(jīng)節(jié)細(xì)胞,產(chǎn)生人工視覺(jué),從而為這類人群提供了恢復(fù)視覺(jué)的可能[6-7]。
視網(wǎng)膜視覺(jué)假體可幫助由于疾病或外傷導(dǎo)致失明或低視的人們通過(guò)繞開(kāi)視覺(jué)通路中的受損部分產(chǎn)生視覺(jué)感知[8-9]。它是一種新興電子裝置,可將外部采集圖像經(jīng)計(jì)算機(jī)處理、編碼后,通過(guò)無(wú)線發(fā)射模塊傳輸給植入人眼的接收模塊和微電流刺激器,通過(guò)對(duì)視覺(jué)通路中的視網(wǎng)膜、視神經(jīng)或視皮層等部位進(jìn)行電刺激,使盲人獲得相應(yīng)的圖像信息。受到電極數(shù)量的限制,現(xiàn)階段的視覺(jué)假體并不能將外部采集到的全部的圖像信息提供給假體植入者,所以,如何將有限數(shù)量電極采集到的部分圖像信息提供給假體佩戴者,幫其形成可理解的視覺(jué)感受,依然是亟待解決的問(wèn)題[10]。
雖然在視覺(jué)假體的研發(fā)上,已有美國(guó)的Second Sight公司的Argus II視網(wǎng)膜上假體和德國(guó)Retina Implant AG公司的Alpha-IMS視網(wǎng)膜下假體先后通過(guò)美國(guó)和歐洲授權(quán),獲準(zhǔn)投入市場(chǎng)銷售[11-15],但多數(shù)研究工作是先通過(guò)仿真假體視覺(jué)的方式開(kāi)始,再過(guò)渡到臨床實(shí)驗(yàn)。國(guó)際上多個(gè)研究小組已在文字閱讀、物體以及環(huán)境識(shí)別等方面運(yùn)用心理物理學(xué)及圖像處理方法進(jìn)行大量的仿真假體視覺(jué)的研究。澳大利亞仿生視覺(jué)聯(lián)盟評(píng)估了影響視覺(jué)知覺(jué)閾值的因素,以及如何優(yōu)化刺激參數(shù)以達(dá)到植入脈絡(luò)膜視網(wǎng)膜假體患者的最低閾值[16]。美國(guó)Cha[17]等人針對(duì)皮層視覺(jué)假體開(kāi)展了對(duì)正常人在低像素化下完成拉丁語(yǔ)系文字閱讀和手眼協(xié)調(diào)任務(wù)的研究,并且發(fā)現(xiàn)由每個(gè)像素點(diǎn)占據(jù)1.7°視野的625個(gè)(25×25)像素點(diǎn)組成的仿真光幻視陣列可幫助假體佩戴者達(dá)到20/30的視覺(jué)敏銳度[18]。Humayun小組研究的視網(wǎng)膜上假體電極數(shù)量從16個(gè)增加到60個(gè),并正在為制造250個(gè)乃至超過(guò)1 000個(gè)刺激電極而努力[19]。南加州大學(xué)的Humayun[20]和約翰霍普金斯大學(xué)的Dagnelie[21]等人還開(kāi)展了閱讀和面部識(shí)別的仿真假體視覺(jué)研究,證明了光幻視以正方形陣列呈現(xiàn)100至1 024個(gè)均勻點(diǎn)時(shí)句子的閱讀速度為每秒75到100字,并且接近完美的面部識(shí)別是可能的。同時(shí)Dagnelie[22]還采用虛擬現(xiàn)實(shí)的方法完成圖像識(shí)別的研究,結(jié)果表明視網(wǎng)膜植入60個(gè)電極可能為盲人提供獨(dú)立的尋路能力,但是獨(dú)立完成尋路任務(wù)還需要大量的實(shí)踐和監(jiān)督。國(guó)內(nèi)北京大學(xué)和上海交通大學(xué)等單位聯(lián)合的C-Sight研究團(tuán)隊(duì)針對(duì)動(dòng)物實(shí)驗(yàn)采用刺入式金屬微絲電極陣列刺激視神經(jīng)并驗(yàn)證了其有效性[23]。已有的研究雖然取得許多突破性的進(jìn)展,但克服植入電極陣列數(shù)量有限、電極尺寸、功耗、散熱、生物相容性等諸多問(wèn)題,并最有效的配置電極的位置和數(shù)量仍然是研究的核心[24]。通過(guò)正常視力的被試者參與仿真假體視覺(jué)實(shí)驗(yàn)來(lái)評(píng)估所給電極陣列的潛在益處可為臨床研究及康復(fù)訓(xùn)練提供有效的評(píng)估參數(shù)。
本文使用一系列圖像處理策略將動(dòng)態(tài)視頻處理成低分辨率的動(dòng)態(tài)視覺(jué)信息,同時(shí)借助簡(jiǎn)化的Itti算法提取特征點(diǎn),并與空間、時(shí)間信息相結(jié)合算法進(jìn)行視頻復(fù)雜度分析來(lái)分類有效信息,通過(guò)實(shí)驗(yàn),比較不同分辨率下識(shí)別時(shí)間和識(shí)別準(zhǔn)確率的變化情況,確定低分辨率動(dòng)態(tài)圖像識(shí)別過(guò)程的規(guī)律以及其所需要的最小信息及可優(yōu)化參數(shù),達(dá)到理解認(rèn)知過(guò)程的目的。
二十名志愿者招募自內(nèi)蒙古科技大學(xué)研究生院,均具有正?;虺C正視力(十名女性,十名男性,年齡在20至30歲),且母語(yǔ)為漢語(yǔ)。所有受試者在實(shí)驗(yàn)前均被告知實(shí)驗(yàn)的過(guò)程和目的,并簽署知情同意書(shū)。
實(shí)驗(yàn)平臺(tái)包括一臺(tái)個(gè)人電腦(聯(lián)想 30AGA29BCN Tower臺(tái)式電腦,Windows8.1,64位操作系統(tǒng),英特爾Xeon(至強(qiáng))E3-1241 v3@3.50 GHz四核處理器,聯(lián)想SHARKBAY主板8 GB內(nèi)存和Nvidia Quadro K620的顯卡),攝像頭(羅技c920),tobii眼動(dòng)儀,ErgoLab,SPSS,C,C++,繪聲繪影,oCam以及宏樂(lè)錄音等軟件。實(shí)驗(yàn)在一間干凈且沒(méi)有噪音的實(shí)驗(yàn)室中進(jìn)行,實(shí)驗(yàn)前確保被試者沒(méi)有其他干擾,保持放松。實(shí)驗(yàn)通過(guò)ErgoLab控制實(shí)驗(yàn)過(guò)程,期間通過(guò)tobii眼動(dòng)儀監(jiān)測(cè)眼動(dòng)數(shù)據(jù),并借助攝像頭,oCam以及宏樂(lè)錄音記錄實(shí)驗(yàn)過(guò)程和識(shí)別時(shí)間以及識(shí)別準(zhǔn)確率,實(shí)驗(yàn)結(jié)果進(jìn)行單因素方差分析,最小顯著差數(shù)法(Least Significant Difference,LSD法)等相關(guān)分析。
本研究中選取24個(gè)動(dòng)態(tài)視頻,其中包括8個(gè)動(dòng)物視頻,8個(gè)實(shí)物視頻以及8個(gè)人物視頻。視頻是其繪畫(huà)過(guò)程。其中,動(dòng)物視頻包括飛禽,走獸,海洋動(dòng)物等等;實(shí)物視頻包括蔬菜,水果,植物,交通工具和軍用器材;人物視頻包括男人,女人,男孩,女孩,老人等。這些種類在實(shí)驗(yàn)之前將會(huì)提前告知被試,便于識(shí)別。每個(gè)視頻由900幀畫(huà)面組成且控制時(shí)長(zhǎng)為30 s,對(duì)每一幀的圖像計(jì)算局部最大差值,并在灰度化和二值化處理之后使用sobel算子進(jìn)行邊緣提取,然后匹配分辨率分別為24×24(f24),32×32(f32),48×48(f48),64×64(f64)和128×128(f128)五種不同的光幻視模版,對(duì)視頻進(jìn)行像素化轉(zhuǎn)換,處理流程如圖1所示。圖2是f64分辨率下的動(dòng)態(tài)視頻示例。
圖1 圖像處理流程示意圖
圖2 f64分辨率下鷹的動(dòng)態(tài)視頻示例
關(guān)于視頻復(fù)雜度的分析,本研究采用空間信息(Space Information,SI)和時(shí)間信息(Time Information,TI)相結(jié)合的分析方法[25]。二者并不是一種信息熵測(cè)量法,也與通信理論中定義的信息無(wú)關(guān)??臻g信息(SI)是一種通常用于表示圖形空間細(xì)節(jié)數(shù)量的測(cè)量法??臻g上越復(fù)雜的場(chǎng)景,SI值越高??臻g感知信息SI在時(shí)間n(Fn)的各個(gè)視頻幀(亮度平面)首先用Sobel濾波器Sobel(F n)進(jìn)行濾波,然后計(jì)算各個(gè)經(jīng)Sobel濾波器濾出后的幀中像素的標(biāo)準(zhǔn)差(stdspace)。視頻片段中各個(gè)幀重復(fù)該操作,產(chǎn)生場(chǎng)景空間信息的時(shí)間序列,然后選擇時(shí)間序列中的最大值(maxtime)來(lái)表示場(chǎng)景的空間信息內(nèi)容。該過(guò)程可以用方程式的形式來(lái)表示:
時(shí)間信息(TI)通常用于表示視頻片段時(shí)間變化次數(shù)的測(cè)量法。運(yùn)動(dòng)程度較高的序列通常會(huì)有更高的TI值。時(shí)間信息測(cè)量法TI是用所有i和 j空間上的標(biāo)準(zhǔn)差(stdspace)的最大時(shí)間值(maxtime)來(lái)計(jì)算。
其中,Mn(i ,j)表示幀中相同位置上各像素之間的差異,但屬于兩個(gè)隨后的幀,就是說(shuō):
其中,F(xiàn)n(i ,j)是時(shí)間上第n幀第i行和第 j列處的像素[25]。
本研究中通過(guò)對(duì)不同分辨率下的動(dòng)物,實(shí)物,人物三種類型的視頻進(jìn)行SI和TI分析,如圖3所示。
圖3 視頻復(fù)雜度分析
圖3 (a)對(duì)八個(gè)動(dòng)物視頻的SI取其均值得到SI_AVG,TI取其均值得到TI_AVG;同理,對(duì)圖3(b)和圖3(c)中八個(gè)實(shí)物以及八個(gè)人物視頻的SI、TI取均值分別得到實(shí)物和人物視頻的SI_AVG和TI_AVG。由圖可知,分辨率從f24到f128,動(dòng)物視頻的空間信息從93.14 s上升到240.19 s,時(shí)間信息從1.83 s上升到5.01 s;實(shí)物視頻的空間信息從127.56 s上升到297.79 s,時(shí)間信息從2.20 s上升到7.12 s;人物視頻的空間信息從141.11 s上升到323.58 s,時(shí)間信息從4.92 s上升到13.22 s。在同一分辨率中,動(dòng)物、實(shí)物以及人物的視頻復(fù)雜度依次呈上升趨勢(shì)。隨著分辨率的增加,動(dòng)物、實(shí)物以及人物視頻的空間信息和時(shí)間信息增多,視頻復(fù)雜度升高。
本研究的實(shí)驗(yàn)中,安排被試者在連續(xù)的五天內(nèi)依次識(shí)別f24、f32、f48、f64和f128分辨率下的各24個(gè)視頻,并對(duì)不同分辨率的呈現(xiàn)次序進(jìn)行隨機(jī)排序,以減少或避免學(xué)習(xí)效應(yīng)的發(fā)生。識(shí)別過(guò)程中,針對(duì)動(dòng)物視頻要求識(shí)別具體動(dòng)物的種類,實(shí)物視頻要求識(shí)別實(shí)物的類別以及具體實(shí)物的類型,人物視頻要求識(shí)別男女老少,以及具體到每個(gè)人物不同的特征,每個(gè)視頻識(shí)別時(shí)間限制在三十秒內(nèi),若三十秒內(nèi)未能識(shí)別即算識(shí)別準(zhǔn)確率為零,若三十秒內(nèi)只能識(shí)別出大致類型,即按不同視頻的識(shí)別程度進(jìn)行區(qū)分,例如:眼鏡男孩,識(shí)別出是男性,準(zhǔn)確率為33%,識(shí)別出是男性且年紀(jì)小,準(zhǔn)確率為66%,識(shí)別出是男性,年紀(jì)小,戴眼鏡,準(zhǔn)確率為100%。統(tǒng)計(jì)分析識(shí)別時(shí)間,識(shí)別準(zhǔn)確率,視頻復(fù)雜度信息,提取特征信息。
圖4顯示了動(dòng)態(tài)視頻識(shí)別時(shí)間隨著分辨率變化的情況,其中不同分辨率之間不顯著的情況用“NS”表明。如圖4(a)顯示了八種動(dòng)物視頻在五種分辨率(f24,f32,f48,f64,f128)識(shí)別時(shí)間。在五個(gè)分辨率下的8種動(dòng)物視頻的識(shí)別時(shí)間進(jìn)行單因素方差分析,并選擇LSD方法進(jìn)行各分辨率識(shí)別時(shí)間的多重比較。由圖4(a)可見(jiàn),動(dòng)物視頻的識(shí)別時(shí)間在不同分辨率上存在顯著的差異性(F=7.190,P<0.05)并且其方差具有齊性,分辨率從f24到f32,p=0.042,差異顯著;分辨率從f32到f48,p=0.012,差異顯著;分辨率從f48到f64,p=0.033,差異顯著;分辨率從f64到f128,p=0.039,差異顯著。對(duì)每個(gè)動(dòng)物視頻的識(shí)別結(jié)果分別做LSD檢驗(yàn)可知,分辨率從f24到f128,各視頻識(shí)別時(shí)間的變化依次是——孔雀從22 s減少到7.54 s,鷹從30 s減少到9.54 s,魚(yú)從13.55 s減少到4.39 s,其中f32和f48,f48和f64,f64和f128的識(shí)別時(shí)間具有顯著性差異;烏龜從16.08 s減少到5.84 s,鴨子從8.52 s減少到 3.77 s,象從 19.03 s減少到 5.49 s,豬從25.45 s減少到7.66 s;兔子從16.05 s減少到5.64 s,五個(gè)分辨率之間均差異顯著。
圖4 動(dòng)態(tài)視頻識(shí)別時(shí)間
圖4 (b)顯示了八種實(shí)物視頻在五種分辨率的識(shí)別時(shí)間。五個(gè)分辨率下的八種實(shí)物視頻識(shí)別時(shí)間進(jìn)行單因素方差分析,并做LSD檢驗(yàn)。實(shí)物視頻的識(shí)別時(shí)間在不同分辨率上存在顯著的差異性(F=7.824,p<0.05)。實(shí)物視頻總體上對(duì)五個(gè)分辨率識(shí)別時(shí)間的方差具有齊性,分辨率從f24到f32,p=0.018,差異顯著;分辨率從f32到f48,p=0.034,差異顯著;分辨率從f48到f64,p=0.044,差異顯著;分辨率從f64到f128,p=0.048,差異顯著。對(duì)每個(gè)實(shí)物視頻的識(shí)別結(jié)果分別做LSD檢驗(yàn)可知:分辨率從f24到f128,各視頻識(shí)別時(shí)間的變化依次是——菠蘿從27.54 s減少到8.44 s,房子從7.5 s減少到2.92 s,其中f32和f48,f48和f64,f64和f128的識(shí)別時(shí)間具有顯著性差異;大炮從27.79 s減少到11.21 s,其中f24和f32,f32和f48,f64和f128的識(shí)別時(shí)間具有顯著性差異;吊車從28.79 s減少到6.81 s,其中f24和f32,f32和f48的識(shí)別時(shí)間有顯著性差異;吉普車從21.77 s減少到6.06 s,茄子從22.11 s減少到3.29 s,五個(gè)分辨率之間均差異顯著;蘑菇從18.49 s減少到5.40 s,其中f48和f64識(shí)別時(shí)間有顯著性差異;花從9.19 s減少到3.26 s,其中f24和f32,f48和f64,f64和f128的識(shí)別時(shí)間有顯著性差異。
圖4(c)顯示了八種人物視頻在五種分辨率的識(shí)別時(shí)間。五個(gè)分辨率下的八種人物視頻進(jìn)行單因素方差分析并做LSD檢驗(yàn)。人物視頻的識(shí)別時(shí)間在不同分辨率上存在顯著的差異性(F=10.190,p<0.01)。從人物視頻總體上對(duì)五個(gè)分辨率的識(shí)別時(shí)間分析可得,分辨率從f24到f32,p=0.011,差異顯著;分辨率從f32到f48,p=0.008,差異顯著;分辨率從f48到f64,p=0.019,差異顯著;分辨率從f64到f128,p=0.004,差異顯著。對(duì)每個(gè)人物視頻的識(shí)別結(jié)果分別做LSD檢驗(yàn)可知,分辨率從f24到f128,各視頻識(shí)別時(shí)間的變化依次是——老人從19.35 s減少到3.93 s,男孩從26.84 s減少到11.9 s,其中f24和f32,f32和f48,f64和f128的識(shí)別時(shí)間有顯著性差異;女孩從27.81 s減少到7.23 s,小胖孩從25.05 s減少到9.83 s,其中f32和f48,f48和f64,f64和f128的識(shí)別時(shí)間有顯著性差異;男人從29.1 s減少到7.84 s,眼鏡男孩從28.01 s減少到19.22 s,其中f48和f64的識(shí)別時(shí)間有顯著性差異;舞女從21.04 s減少到3.95 s,五個(gè)分辨率之間均差異顯著;女人從27.1 s減少到7.52 s,其中f24和f32,f48和f64,f64和f128的識(shí)別時(shí)間有顯著性差異。
圖5 動(dòng)態(tài)視頻識(shí)別準(zhǔn)確率
圖5 展示了動(dòng)態(tài)視頻識(shí)別準(zhǔn)確率隨分辨變化的情況,其中“*”表示不同分辨之間情況顯著,而“NS”則表示不同分辨之間情況不顯著。由圖5可知,隨著分辨率的增加,同一種類視頻的識(shí)別時(shí)間減少,識(shí)別準(zhǔn)確率逐漸升高,除了特殊難識(shí)別的情況(大炮,男人,小胖孩和女人),在f128分辨率下,識(shí)別準(zhǔn)確率已經(jīng)達(dá)到百分之百。對(duì)八種視頻的五個(gè)分辨率的識(shí)別結(jié)果進(jìn)行單因素方差分析可知,動(dòng)物視頻的識(shí)別準(zhǔn)確率在不同分辨率上存在顯著差異性(F=5.033,p<0.01);實(shí)物視頻的識(shí)別準(zhǔn)確率在不同分辨率上存在顯著差異(F=7.510,p<0.01);人物視頻的識(shí)別準(zhǔn)確率在不同分辨率上存在顯著差異(F=32.701,p<0.01)。同時(shí),動(dòng)物視頻中烏龜、鴨子、魚(yú)和兔子,實(shí)物視頻中吉普車、花和房子特征顯著,在f24分辨率下識(shí)別準(zhǔn)確率就已經(jīng)達(dá)到100%,隨著分辨率的增加,識(shí)別時(shí)間減少;實(shí)物視頻中的大炮,人物視頻中的男人,小胖孩和女人特征不明顯,在f128分辨率下識(shí)別準(zhǔn)確率仍達(dá)不到100%,但隨著分辨率的增加,識(shí)別時(shí)間仍減少,只有女人的視頻在分辨率f32到f48時(shí),識(shí)別時(shí)間增加了1.36 s,在這里識(shí)別不準(zhǔn)確是由于視頻本身的原因以及被試者的認(rèn)知所造成的,分辨率的增加有利于識(shí)別效率的提高。
被試者對(duì)識(shí)別物的識(shí)別主要受圖像顯著性區(qū)域的影響。顯著性檢測(cè)主要用來(lái)檢測(cè)圖像中能引起人類視覺(jué)感知的最重要部分。其中,基于顯著性點(diǎn)的顯著性檢測(cè)算法用來(lái)檢測(cè)人類最感興趣的點(diǎn);基于顯著性對(duì)象的檢測(cè)用來(lái)檢測(cè)最能引起人類視覺(jué)感知的前景對(duì)象[26]。本文主要采用一種簡(jiǎn)化的Itti算法來(lái)提取動(dòng)物、實(shí)物以及人物的主要特征信息。
Itti算法[27]是一種模擬生物視覺(jué)注意機(jī)制的選擇性注意模型,該算法采用跨尺度中心-周邊算子模型提取顯著性區(qū)域,最終所得與人眼視覺(jué)感知效果一致。其基本結(jié)構(gòu)圖如圖6所示[27]。
圖6 Itti算法流程圖
如圖6所示,Itti的主要算法如下:
(1)特征的提?。菏紫扔镁艑痈咚菇鹱炙?lái)搭建輸入圖像。輸入圖像為第0層,使用5×5的高斯濾波器對(duì)輸入圖像進(jìn)行濾波采樣形成剩余的1~8層,其大小分別為輸入圖像的1/2到1/256。對(duì)金字塔每一層分別提取各特征,形成亮度、紅色、綠色、藍(lán)色、黃色以及方向特征金字塔。特征由下列公式表示:
其中r、g、b分別表示輸入圖像的紅、綠、藍(lán)三個(gè)分量。o(σ+θ)是Gabor函數(shù)在0,π/4,π/2,3π/4四個(gè)方向上濾波得到的Gabor金字塔。其中,σ∈[0,1,…,8],θ∈[0°,45°,90°,135°],這樣將特征以九個(gè)金字塔的形式表示出來(lái):1個(gè)亮度金字塔,4個(gè)色度金字塔(分別是紅、藍(lán)、綠、黃)以及4個(gè)方向金字塔(分別是0°,45°,90°,135°)。其中的色度特征對(duì)黑、白兩色的響應(yīng)為零,對(duì)各自對(duì)應(yīng)的飽和單色有最大的響應(yīng)。
(2)特征圖的形成:Itti算法通過(guò)不同尺度間的特征取差來(lái)形成特征圖。具體公式如下:
Itti算法模擬人類視覺(jué)感知視野的中心—周邊算子的結(jié)構(gòu)。中心視野對(duì)應(yīng)于尺度c(c∈{2,3,4})和外周視野對(duì)應(yīng)于尺度s(s=c+δ,δ∈{3,4})的特征像素點(diǎn)。由于分辨率不同的特征圖尺度不同,需要在兩幅圖的大小相同的基礎(chǔ)上點(diǎn)對(duì)點(diǎn)做差,并用Θ表示。通過(guò)c和s尺度對(duì)比來(lái)表示中心和外周的特征對(duì)比。其中式(9)是關(guān)于亮度對(duì)比的特征圖計(jì)算公式。公式(10)和(11)是顏色特征圖計(jì)算公式。其中式(10)是中心和周邊區(qū)域的紅/綠對(duì)比特征圖計(jì)算公式;式(11)中心與周邊區(qū)域的藍(lán)/黃對(duì)比特征圖計(jì)算公式。式(12)是方向特征圖計(jì)算公式,是不同尺度在同一個(gè)方向的特征作差得到的。由于c和 s共有6種組合(2-5,2-6,3-6,3-7,4-7,4-8),所以最終會(huì)得到6個(gè)特征圖和42個(gè)不同尺度的特征圖(包括六個(gè)亮度,十二個(gè)顏色和二十四個(gè)方向特征圖)。
(3)顯著圖生成:把每一個(gè)上述得到的特征圖歸一化,以消除和特征相關(guān)的幅度差別。為了消除干擾噪聲突出顯著部分,對(duì)每個(gè)特征圖分別用二維高斯差函數(shù)進(jìn)行卷積,并把卷積結(jié)果疊加回原特征圖,使同種特征以側(cè)抑制的方式在空間上競(jìng)爭(zhēng)。卷積和迭代過(guò)程進(jìn)行多次,這樣可以讓少數(shù)幾個(gè)最顯著的點(diǎn)均勻分布在整個(gè)特征圖上,從而每個(gè)特征圖上只保留少數(shù)的幾個(gè)顯著點(diǎn),在疊加多個(gè)特征圖時(shí)能把多種顯著特征的點(diǎn)突現(xiàn)出來(lái)。接下來(lái)分別把每一類(亮度、色度、方向)歸一化后的特征圖逐點(diǎn)求和(采樣到第4尺度),得到對(duì)應(yīng)于每一類特征的顯著圖,綜合所有特征的顯著性,就得到對(duì)應(yīng)于輸入圖像的顯著圖S[27]。計(jì)算過(guò)程如下:
Itti算法是第一個(gè)模擬人眼視覺(jué)感知的較為完整的視覺(jué)注意機(jī)制,得到的顯著圖突出了顯著性區(qū)域但區(qū)域輪廓并不明顯,基于上述原因,同時(shí)為了提高算法效率,本文采用一種簡(jiǎn)化的Itti模型,在顏色、方向以及亮度三組特征圖中每組僅選最顯著的一個(gè)特征圖進(jìn)行合并[28],并將模糊半徑設(shè)置為0.02。以菠蘿為例,特征點(diǎn)提取后原始像素化、Itti算法以及簡(jiǎn)化Itti算法所得到的結(jié)果如圖7所示。
圖7 特征點(diǎn)提取
表1中特征點(diǎn)的選取是按照人眼視覺(jué)感知的顯著特征來(lái)選取的。圖8以實(shí)物素材菠蘿為例,顯示了眼動(dòng)儀監(jiān)測(cè)的被試注視點(diǎn)的變化情況。其中f24-a1,f32-b1,f48-c1,f64-d1分別代表在f24,f32,f48和f64分辨率時(shí)注視點(diǎn)在菠蘿圓筒狀的果實(shí);f24-a2,f32-b2,f48-c2,f64-d2分別代表在f24,f32,f48和f64分辨率時(shí)注視點(diǎn)在菠蘿的莖;f24-a3,f32-b3,f48-c3,f64-d3分別代表在f24,f32,f48和f64分辨率時(shí)注視點(diǎn)在菠蘿圓筒狀的果實(shí)和莖上的疊加。圖中沒(méi)有畫(huà)出f128的情形是因?yàn)樵趂128時(shí),當(dāng)完整畫(huà)出菠蘿圓筒狀的果實(shí)時(shí),被試已完成識(shí)別,并識(shí)別準(zhǔn)確,所以沒(méi)有注視點(diǎn)在莖上的情況出現(xiàn)。
識(shí)別特征點(diǎn)的人數(shù)統(tǒng)計(jì)如圖9所示,當(dāng)視頻有兩個(gè)特征點(diǎn)時(shí),隨著分辨率的增加,特征一被作為主要識(shí)別依據(jù)的人數(shù)逐漸增加,特征二被作為主要識(shí)別依據(jù)的人數(shù)逐漸減少;當(dāng)視頻有三個(gè)特征點(diǎn)時(shí),隨著分辨率的增加,特征一被作為主要識(shí)別依據(jù)的人數(shù)逐漸增加,特征二被作為主要識(shí)別依據(jù)的人數(shù)先增加后減少,特征三被作為主要識(shí)別依據(jù)的人數(shù)逐漸減少;當(dāng)視頻有四個(gè)特征點(diǎn)時(shí),隨著分辨率的增加,特征一被作為主要識(shí)別依據(jù)的人數(shù)逐漸增加,特征二被作為主要識(shí)別依據(jù)的人數(shù)先增加后減少,特征三和特征四被作為主要識(shí)別依據(jù)的人數(shù)逐漸減少。這表明,隨著分辨率的增加,特征點(diǎn)被更清晰地表現(xiàn)出來(lái),使得被試者的識(shí)別既快又準(zhǔn)。
表1 不同素材的特征
圖8 眼動(dòng)儀監(jiān)測(cè)到的被試者在觀察菠蘿時(shí)的注視點(diǎn)圖
圖9 識(shí)別特征點(diǎn)人數(shù)統(tǒng)計(jì)
本研究結(jié)果表明,動(dòng)物、實(shí)物以及人物視頻隨著分辨率的增加,識(shí)別時(shí)間逐漸減少。分辨率的增加使視頻的時(shí)間以及空間信息增多,視頻復(fù)雜度升高,圖像清晰明了容易識(shí)別。但孔雀在分辨率f24到f32時(shí),識(shí)別時(shí)間增加了0.22 s,女人在分辨率f32到f48時(shí),識(shí)別時(shí)間增加了1.36 s,這是由于分辨率增加后,信息量增加,有用信息增多的同時(shí)也產(chǎn)生干擾信息,使被試者需要更多的時(shí)間完成識(shí)別。同時(shí),本研究發(fā)現(xiàn)在不同分辨率下的識(shí)別時(shí)間具有顯著性差異。不同種類的視頻隨著分辨率的增加,識(shí)別準(zhǔn)確率升高。同時(shí)在不同分辨率下的識(shí)別準(zhǔn)確率差異顯著。
在特征點(diǎn)選取的結(jié)果中,部分特征點(diǎn)只有在f128分辨率中被識(shí)別,其余的分辨率下都沒(méi)有被識(shí)別,所以在圖中沒(méi)有畫(huà)出,這是因?yàn)閒128分辨率下細(xì)節(jié)信息增多,特征明顯,同樣符合上述規(guī)律。
綜上所述,隨著動(dòng)態(tài)視頻在不同光幻視像素化模板下的視頻復(fù)雜度的升高,SI和TI信息量增大,識(shí)別時(shí)間會(huì)逐漸減少,識(shí)別準(zhǔn)確率不斷升高。當(dāng)視頻像素化達(dá)到f64或f128時(shí),少量特征信息即可完成識(shí)別。本研究結(jié)果可望為盲人在低分辨率情況下獲得最佳視覺(jué)效果提供可行的指導(dǎo)方案,并可將其應(yīng)用于后續(xù)的生理信息采集和分析中,開(kāi)展對(duì)假體佩戴者完成識(shí)別任務(wù)的相關(guān)生理參數(shù)的進(jìn)一步研究。