徐 威 唐振民
人類視覺能夠從海量復(fù)雜場景中高效地感知、捕獲獨特的重要信息,即顯著性區(qū)域。而這種潛在的視覺注意機制如果能被計算機有效地利用,將大大提高圖像、視頻的處理效率。因此,各種顯著性模型被提出,服務(wù)于各種應(yīng)用,如目標(biāo)檢測[1]、視頻縮放[2]等。而從最終應(yīng)用方向和采用的測試數(shù)據(jù)集上考慮,現(xiàn)有顯著性模型可分為顯著性目標(biāo)檢測和人眼視覺關(guān)注點預(yù)測[3]兩大類。前者追求準(zhǔn)確地提取有意義的目標(biāo)整體;而后者更傾向于模擬人眼獲取最具吸引力的關(guān)鍵點及其鄰域的信息,這正是本文研究的內(nèi)容。
基于生物學(xué)假設(shè),經(jīng)典的Itti模型[4]對圖像高斯金字塔分解后,提取顏色、亮度、方向特征,通過計算跨尺度的中央-周圍差異,生成顯著圖。文獻[5]使用類似特征,并提出基于圖論的顯著性(Graph-Based Visual Saliency, GBVS)算法。而文獻[6]則通過獨立成分分析獲取圖像特征,采用香農(nóng)的自信息,提出了一種信息最大化(An Information Maximization, AIM)方法。文獻[7]基于稀疏表示理論,提出了融合RGB和Lab顏色空間的局部和全局(Local and Global, LG)稀少性的算法。這些利用低層顯著性特征的方法都取得了一定效果,但其對于人眼視覺關(guān)注點預(yù)測的準(zhǔn)確性并不十分理想。
基于機器學(xué)習(xí)的方法更傾向于將高層的先驗?zāi)繕?biāo)融入顯著性計算。如著名的Judd模型[8]加入了人臉、行人等特定目標(biāo)的檢測,采用支持向量機分類,區(qū)分出顯著性區(qū)域。而最近的整體深度網(wǎng)絡(luò)(ensemble of Deep Networks, eDN)算法[9]通過在多層次的基于生物學(xué)假設(shè)的特征中大范圍搜索使分類結(jié)果最優(yōu)的特征組合,構(gòu)造顯著圖。
如果轉(zhuǎn)換思維,各種從頻域角度分析圖像顯著性成分的方法取得了不錯的效果。文獻[10]將圖像傅里葉變換后的殘余幅度譜作為顯著性區(qū)域,提出了譜殘余(Spectral Residual, SR)方法。但文獻[11]指出 SR方法中起主導(dǎo)作用的并非殘余幅度譜,而是相位譜;接著提出了基于超復(fù)數(shù)傅里葉變換(Hypercomplex Fourier Transform, HFT)方法:在利用相位譜信息后,通過抑制非顯著性背景區(qū)域,突出顯著成分。
以上頻域算法雖然運算速度較快,但預(yù)測準(zhǔn)確性仍不高。本文也首先從頻域考慮,但不同于文獻[10,11]中直接利用圖像傅里葉變換后的相位譜計算顯著性,而是引入相位一致性(Phase Congruency,PC)分析圖像中各點相位譜的變化特性,從而提取最容易引起視覺關(guān)注的特征點以及邊緣特征,并采用快速漂移超像素改善相位一致性結(jié)果。接著融入顏色信息:通過計算Lab顏色空間中圖像塊的局部對比度以及相對于先驗背景的全局對比度,進一步優(yōu)化基于相位一致性的顯著圖。而為了更全面地考慮圖像塊的獨特性,本文提出采用 2DPCA[12](Two-Dimensional Principal Component Analysis)分別在Lab通道上提取各圖像塊的2維主成分,通過計算2維主成分空間中某圖像塊與其鄰域局部加權(quán)的差異,以及全局范圍內(nèi)與先驗背景圖像塊的可區(qū)分性,得到基于 2DPCA的模式顯著圖。最后,根據(jù)空間離散度度量分配不同權(quán)重,將兩種顯著圖融合。
角點和邊緣這些低層特征在吸引視覺注意時起著十分重要的作用,這在文獻[13]提出的檢測顯著性目標(biāo)邊緣的概率模型中有著詳細(xì)的闡述。而從頻域角度考慮,相位一致性對圖像亮度和對比度具有不變性,能很好地提取上述低層特征。
相位一致性并不簡單地基于亮度梯度,而是將圖像傅里葉分量相位一致的點作為特征點,而這些點通常位于各種各樣的邊緣處。2維空間(如圖像)的相位一致性定義為[14]
An為第 n個余弦分量的振幅。能量函數(shù) En(x)=An( x)Δ φn(x)。而計算局部能量En(x),需要對信號帶通濾波,得到其局部頻域特征。Log Gabor函數(shù)因為很好的方向選擇性,符合人眼視覺接收場模型,而被采用。而相位偏移函數(shù) Δ φn(x)由式(2)得到:
φn(x ) 為點 x處傅里葉變換的局部相位,φ( x) 是x處所有傅里葉分量的局部相位的加權(quán)平均。W(x)和T分別為濾波器頻帶加權(quán)函數(shù)和估計噪聲,具體設(shè)置參見文獻[14]。ε為一微小正常量,為 0.001,防止分母為0。
在合適的尺度計算相位一致性,可突出主要的特征點和邊緣,取得最佳的視覺效果,如圖1所示的相位一致性圖(PC圖)。不同尺度下的PC 圖的視覺效果差異較大:原尺寸下的 PC圖在突出特征點和各種邊緣的同時,也保留了大量不必要的紋理細(xì)節(jié);中等尺度下的 PC 圖(如圖 1(d))突出了特征點和邊緣集中的區(qū)域,雜亂無章的背景紋理被抑制;低尺度下的 PC圖則賦予了變化劇烈的邊緣區(qū)域更高的值。
而包含特征點和邊緣的目標(biāo)區(qū)域內(nèi)部往往也具有顯著性,如圖 1(a)的畫像內(nèi)部;相對而言,人類視覺對圖像邊界處的特征點和邊緣缺乏足夠的關(guān)注,這些部分也往往缺乏顯著性,如圖 1(a)右邊界的門框,但在 PC圖中卻無法區(qū)分對待。因此,本文采用超像素對其優(yōu)化。
圖1 不同的圖像尺度下的相位一致性結(jié)果圖
快速漂移(quick shift)[15]采用核密度估計方法,考慮圖像中各像素點之間的顏色和空間的一致性,將這些視覺特征相似的像素點作為局部單元統(tǒng)一處理,且計算快速,結(jié)果穩(wěn)定。如圖 2(a)所示,各超像素用其所含像素的平均顏色表示。將 PC圖中的值標(biāo)準(zhǔn)化為[0,1],假設(shè)第i個超像素中共含有K個像素點,PCk表示第 k個像素點的相位一致性值,則第i個超像素優(yōu)化后的結(jié)果SPi為
將各超像素的SPi值分配到其中所含的像素點。見圖2(b),分布相對集中的目標(biāo)區(qū)域的PC值得到加強,而分布廣泛且散亂的邊界和背景區(qū)域的 PC值被削弱。
顏色特征在突出物體顯著性時最為直觀,已被許多經(jīng)典的顯著性方法使用[4,7]。計算圖像塊與其鄰域的顏色對比度,可很好地度量該圖像塊的局部顏色顯著性。將原圖像劃分為mn×的小塊,第i個分塊ri共有N個相鄰分塊,第j個分塊為rj,見圖3(a)。則其局部顏色顯著值 Sl(ri)為
其中 Ds(ri,rj)-1為 ri和 rj的空間距離的倒數(shù),表明相距越近,影響越大;Dc(ri,rj)表示 ri和 rj在 Lab顏色空間的距離。從圖3(b)中可知,局部具有稀少性、與相鄰區(qū)域顏色差異明顯的區(qū)域被突出。
從全局角度考慮,本文根據(jù)文獻[16],假設(shè)大部分位于邊界位置的圖像塊為背景,也采用類似的策略對可能接觸到圖像邊界處的顯著性目標(biāo)進行預(yù)判排除。但不同的是,本文通過計算各分塊與先驗背景在Lab顏色空間的距離,度量全局顏色顯著程度。
圖 2采用超像素優(yōu)化相位一致性圖(PC圖)
在劃分為mn×的小塊的圖像中,位于邊界的圖像塊共有M個,構(gòu)成了先驗背景B。分塊ri與屬于 B中的圖像分塊 rj在 Lab顏色空間的距離為Dc(ri,rj)。定義 ri的全局顏色顯著性為 ri與先驗背景B中前k個(實驗中k取值為5)空間加權(quán)的顏色距離最小的圖像塊的距離和。
圖 3(c)中顯著值高的點集中在目標(biāo)區(qū)域(畫像),圖像邊界區(qū)域(先驗背景)的顯著值得到有效抑制。
將 Sl和 Sg中各分塊的顯著值分配到其中所含的像素點,并標(biāo)準(zhǔn)化為[0,1]范圍,與經(jīng)過超像素改善的相位一致性結(jié)果進行融合,得到最終優(yōu)化的顯著圖,如圖3(d)所示。點x對應(yīng)的顯著值SPC(x)為
上述策略利用特征點、邊緣和顏色信息計算顯著性,卻未考慮圖像中其余內(nèi)在可區(qū)分性特征的影響。為了彌補這些不足,本文分析圖像塊的內(nèi)部結(jié)構(gòu)。2DPCA[12]的主要思想是將2維圖像經(jīng)線性變換后投影到新的低維空間中,得到投影特征。較之PCA,其無需將2維圖像轉(zhuǎn)化為1維向量,可直接由圖像矩陣構(gòu)造散布矩陣,特征提取速度加快,魯棒性強,可用于圖像塊間的模式可區(qū)分性。
2DPCA的計算過程如下所述:將圖像塊A(m×n的矩陣)投影到 n維線性列向量 X 上,即Y=AX, Y為m維投影向量。那么,可以采用式(7)所示的判定準(zhǔn)則確定最優(yōu)的投影方向為
圖3 顏色顯著性結(jié)果圖
其中 Sx表示訓(xùn)練樣本的投影特征向量的協(xié)方差矩陣,tr(Sx)為 Sx的跡。使判定準(zhǔn)則取最大值的線性向量X被稱為最佳投影軸Xopt。Gt是一個n×n的非負(fù)矩陣,稱為圖像散布矩陣。如果假設(shè)訓(xùn)練樣本數(shù)為M,第j個訓(xùn)練樣本為矩陣Aj,所有訓(xùn)練樣本的平均圖像塊表示為A,則Gt可表示為只選取一個最佳投影軸不夠充分,通常需要選擇滿足正交條件和使判定準(zhǔn)則J(x)取最大值的前d個投影軸,得到圖像塊A的前d個主成分向量,進而組成圖像塊A的m×d維的特征矩陣。如圖4所示,為圖 1(a)中的圖像在 L通道上的特征矩陣提取過程,將該圖中所有的圖像塊作為訓(xùn)練樣本計算平均圖像塊。
在主成分空間中計算各圖像塊之間的差異能很好地度量其模式可區(qū)分性。第 c個通道上(c∈{L,a,b}),圖像塊ri的特征矩陣為cif,它的第j個空間相鄰分塊rj的特征矩陣為cjf,共有N個鄰域分塊。則其在c通道的局部模式可區(qū)分性為
局部圖像塊有可能與其鄰域在主成分空間具有相似性,但全局范圍內(nèi)卻與大多數(shù)圖像塊有較大差異。圖像塊ri的全局模式可區(qū)分性由其與先驗背景B中圖像塊在主成分空間的差異所度量。假設(shè)在第c個通道,先驗背景B中(含有M個圖像塊)第j個圖像塊rj的特征矩陣為cjf,則有
得到ri的全局模式顯著性
綜合兩者,得到ri基于2DPCA的顯著性Sp(ri):
局部、全局以及最終的基于2DPCA的顯著圖如圖5所示。
圖4 2DPCA特征提取過程
圖像中的顯著性目標(biāo)較為集中,而背景相對分散。一般而言,視覺關(guān)注點也集中于圖中某一區(qū)域。但簡單的特征整合策略無法考慮這一點[4],因此,本文根據(jù)各顯著圖的空間離散程度分配合適的權(quán)重,進行融合。以基于相位一致性的顯著圖 SPC為例,將其值標(biāo)準(zhǔn)化為[0,1],其水平方向的空間離散程度VPC(h)為[17]
其中xh為點x的水平方向坐標(biāo),μh為水平方向的顯著性中心位置,計算為
|SPC|為SPC中所有點的顯著值之和,計算時,SPC中所有點的水平方向坐標(biāo)也標(biāo)準(zhǔn)化為[0,1]。同樣地,垂直方向的空間離散程度VPC(v)也如此計算,得到總體的空間離散程度:
基于 2DPCA的顯著圖Sp的空間離散程度Vp可通過類似式(14)~式(16)的計算得到。而空間離散程度越大,表明該顯著圖中具有較高顯著值的點越分散,對最終顯著圖的貢獻應(yīng)該降低,則權(quán)重wi為
式(17)中 i ∈ { PC,p}, wi歸一化為[0,1]。最終融合后的顯著圖見圖6,其中點x對應(yīng)的顯著值計算為
本文在兩個經(jīng)典的人眼跟蹤數(shù)據(jù)庫 TORONTO[6]和MIT[8]上進行對比實驗。TORONTO含有120幅分辨率為511×681的彩色圖像,使用最為廣泛;MIT包含1003幅分辨率從405×1024到1024×1024不等的風(fēng)景和人物圖像。這兩個數(shù)據(jù)庫的真實值(Groud Truth, GT)均由人工標(biāo)注得到。本文將所提方法與其余5種經(jīng)典的視覺關(guān)注點預(yù)測方法比較,分別為:GBVS[5], AIM[6], LG[7], eDN[9]和 HFT[11]。
傳統(tǒng) AUC(Area Under the ROC Curve)[18]對于融入中央偏置的方法,往往取得較高值,如GBVS[5]。圖 7(a), 7(b)分別為 TORONTO 和 MIT 所有的視覺關(guān)注圖的疊加,其中存在明顯的中央偏置現(xiàn)象。這種指標(biāo)并不公平,因為簡單的以圖像中心進行高斯模糊,AUC值即可達到0.8左右[3,7]。為了克服這種影響,文獻[7]采用了打亂的AUC(Shuffled AUC,SAUC)評價標(biāo)準(zhǔn),對于以圖像中心進行的高斯模糊,該評價取值僅為0.5,顯得更加客觀公正,本文也使用該指標(biāo)比較。
圖5 局部、全局以及最終的基于2DPCA的顯著圖
圖6 融合后的最終顯著圖
圖7 傳統(tǒng)AUC受中央偏置影響的示意圖
圖8 為各算法在TORONTO和MIT數(shù)據(jù)庫上的 SAUC結(jié)果。與文獻[7]一樣,本文也采用高斯平滑策略,即將高斯核函數(shù)的標(biāo)準(zhǔn)差σ在區(qū)間[0.01,0.13]變化,對顯著圖進行平滑,從而得到各算法最高的SAUC值。在TORONTO數(shù)據(jù)庫上,本文算法的SAUC在σ=0.03處取得最大值0.709;而在MIT數(shù)據(jù)庫上,σ=0.03處取得最大值0.686,均是所有算法中最高的。
此外,本文使用了標(biāo)準(zhǔn)化掃描路徑分析(Normalized Scanpath Saliency, NSS)[3]、 相 關(guān) 系 數(shù) (Linear Correlation Coefficient, CC)[3]和相似性(Similarity,Sim)[9]指標(biāo)。各算法的NSS, CC和Sim值見表1。這3種指標(biāo)受到中央偏置的影響較大[3,7],為了體現(xiàn)公平,本文如文獻[9]一樣,在比較完原始的結(jié)果后,再將中央偏置加入各算法顯著圖中(+中央表示),重新計算(TORONTO和MIT分別簡寫為T和M)。
表1 TORONTO和MIT數(shù)據(jù)庫上各算法的NSS值
圖8 SAUC與高斯核函數(shù)標(biāo)準(zhǔn)差σ的關(guān)系
NSS反映了視覺關(guān)注點處的響應(yīng)值,該值越大,表明顯著圖效果越佳。在未添加中央偏置前,GBVS由于本身就融入了中央偏置原理,在兩個數(shù)據(jù)上的NSS指標(biāo)均為最高。而當(dāng)加入中央偏置后,所有算法的NSS值都有所提高,本文算法在TORONTO和MIT數(shù)據(jù)庫上的NSS值高達1.680(略低于HFT的 1.706,排第 2)和1.530(最高)。形成反差的是,GBVS等方法的NSS值提高得并不多。
CC用于度量顯著圖和對應(yīng)的人眼視覺關(guān)注圖之間的相關(guān)程度,該值越大,越相關(guān)。與NSS指標(biāo)上的表現(xiàn)相似,本文算法原始的CC值并不高。當(dāng)加入中央偏置后,本文算法的CC值有著顯著的改善,在TORONTO數(shù)據(jù)庫上達到了0.495,排第2,略低于HFT的0.502;在MIT數(shù)據(jù)庫上最高,為0.329。
Sim 值度量了顯著圖和對應(yīng)的人眼視覺關(guān)注圖之間的相似程度,該值越大,越相似。本文方法的原始 Sim 值為 0.427(TORONTO)和 0.312(MIT),處于較高水平。加入中央偏置后,本文方法在TORONTO數(shù)據(jù)庫上的相似性度量是最高的,為0.558;而在MIT數(shù)據(jù)庫上為0.435,略低于GBVS的0.437。
圖9為各算法在TORONTO和MIT數(shù)據(jù)庫上部分代表性的顯著圖的視覺效果對比,其中FM表示各數(shù)據(jù)庫給出的人眼視覺關(guān)注圖(Fixation Map),由各圖對應(yīng)的GT經(jīng)過高斯模糊處理后得到[7,10]。從中可看出,本文算法的大部分顯著性區(qū)域與FM保持一致,最為精確。
在計算相位一致性時的圖像尺寸是一個重要的參數(shù),見表 2。當(dāng)圖像較大時,相位一致性會更多地突出圖像細(xì)節(jié),但這些細(xì)節(jié)往往是非顯著性部分,造成SAUC值較低;而尺寸過小,相位一致性卻會丟失部分真正的顯著性區(qū)域。當(dāng)圖像為64×64時,SAUC在TORONTO和MIT數(shù)據(jù)庫上取最高值。
不同的圖像分塊大小,對于本文算法第2節(jié)中融入顏色信息和第3節(jié)中計算2DPCA的顯著圖存在影響,從而產(chǎn)生不同的SAUC值,見表3。當(dāng)分塊大小為16×16時,SAUC值表現(xiàn)最好。
表2 不同尺寸下的相位一致性對SAUC的影響
圖9 各算法在TORONTO和MIT數(shù)據(jù)庫上部分顯著圖的視覺效果對比圖
表3 不同大小的圖像分塊對SAUC的影響
鄰域窗口大小影響到第2節(jié)中局部顏色顯著性和第3節(jié)中基于2DPCA的局部模式可區(qū)分性計算,見圖10。觀察可知,鄰域窗口過大會降低顯著性檢測的準(zhǔn)確性,最佳的鄰域窗口半徑為1,即33×鄰域。
本文實驗環(huán)境為 Intel(R) Core(TM)i5-2410M CPU, 4G內(nèi)存的PC。各算法在TORONTO和MIT數(shù)據(jù)庫上的平均運行時間見表 4。綜合運行時間和各項量化性能評價指標(biāo)來看,本文算法具有一定優(yōu)勢。
圖10 鄰域大小對SAUC的影響
本文并不像傳統(tǒng)頻域算法簡單地直接利用圖像頻域變換后相位譜計算顯著性,而是分析圖像中各點的相位譜關(guān)系,引入相位一致性,有效地提取角點、邊緣這些最吸引人注意的特征;再經(jīng)過快速漂移超像素優(yōu)化后,相位一致性值高且集中的圖像整體區(qū)域被突出;加之局部和全局的顏色對比度特征的融合,顯著性區(qū)域的估計更為準(zhǔn)確與穩(wěn)定。通過2DPCA提取圖像塊的2維主成分后,計算圖像塊間局部和全局的差異,得到相應(yīng)的模式顯著性?;诳臻g離散程度的融合策略有效地融合了兩者。在兩種公開的人眼跟蹤數(shù)據(jù)庫上同5種經(jīng)典方法的多種對比試驗,證明了算法的有效性和準(zhǔn)確性。下一步,本文將會融入更為復(fù)雜的特征,如對稱性、形狀,以及目標(biāo)先驗信息,進一步提高人眼視覺關(guān)注點預(yù)測的性能。
表4 各算法在TORONTO和MIT數(shù)據(jù)庫上的平均運行時間(s)
[1] Li W T, Chang H S, Lien K C, et al.. Exploring visual and motion saliency for automatic video object extraction[J].IEEE Transactions on Image Processing, 2013, 22(7):2600-2610.
[2] Chen D Y and Luo Y S. Preserving motion-tolerant contextual visual saliency for video resizing[J]. IEEE Transactions on Multimedia, 2013, 15(7): 1616-1627.
[3] Borji A, Sihite D N, and Itti L. Quantitative analysis of human-model agreement in visual saliency modeling: a comparative study[J]. IEEE Transactions on Image Processing, 2013, 22(1): 55-69.
[4] Itti L, Koch C, and Niebur E. A model of saliency-based visual attention for rapid scene analysis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,1998, 20(11): 1254-1259.
[5] Harel J, Koch C, and Perona P. Graph-based visual saliency[C]. Proceedings of the Annual Conference on Neural Information Processing Systems, Vancouver, Canada, 2007:545-552.
[6] Bruce N D and Tsotsos J K. Saliency based on information maximization[C]. Proceedings of the Annual Conference on Neural Information Processing Systems, Whistler, Canada,2006: 155-162.
[7] Borji A and Itti L. Exploiting local and global rarities for saliency detection[C]. Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition,Providence, USA, 2012: 478-485.
[8] Judd T, Ehinger K, and Durand F. Learning to predict where humans look[C]. Proceedings of the IEEE International Conference on Computer Vision, Kyoto, Japan, 2009:2106-2113.
[9] Vig E, Dorr M, and David C. Large-scale optimization of hierarchical features for saliency prediction in natural images[C]. Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition, Columbus, USA,2014: 2798-2805.
[10] Hou X and Zhang L. Saliency detection: a spectral residual approach[C]. Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition,Minneapolis, USA, 2007: 1-8.
[11] Li J, Levine M D, An X J, et al.. Visual saliency based on scale-space analysis in the frequency domain[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2013, 35(4): 996-1010.
[12] Yang J, Zhang D, Frangi A F, et al.. Two-dimensional PCA:a new approach to appearance-based face representation and recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2004, 26(1): 131-137.
[13] Jiang H Z, Wu Y, and Yuan Z J. Probabilistic salient object contour detection based on superpixels[C]. Proceedings of the IEEE International Conference on Image Processing,Melbourne, Australia, 2013: 3069-3072.
[14] Kovesi P. Phase congruency detects corners and edges[C].Proceedings of the Australian Pattern Recognition Society Conference, Sydney, Australia, 2003: 309-318.
[15] Vedaldi A and Soatto S. Quick shift and kernel methods for mode seeking[C]. Proceedings of the European Conference on Computer Vision, Marseille, France, 2008: 705-718.
[16] Wei Y C, Wen F, and Zhu W J. Geodesic saliency using background priors[C]. Proceedings of the European Conference on Computer Vision, Florence, Italy, 2012: 29-42.
[17] Cheng M M, Warrell J, Lin W Y, et al.. Efficient salient region detection with soft image abstraction[C]. Proceedings of the IEEE International Conference on Computer Vision,Sydney, Australia, 2013: 1529-1536.
[18] Shi T L, Liang M, and Hu X L. A reverse hierarchy model for predicting eye fixations[C]. Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition, Columbus, USA, 2014: 23-28.