魏澤國,趙長偉
(河南科技大學(xué),河南 洛陽 471000)
圖像的顯著區(qū)域檢測[1]一直是視覺研究領(lǐng)域的熱點,將人類的視覺系統(tǒng)所感興趣的區(qū)域利用計算機作為輔助的檢測工具,感知該區(qū)域的運動目標(biāo)[2]。在計算機中,顯著性理論較為復(fù)雜,高級顯著檢測里會涉及到關(guān)于人的視覺、神經(jīng)學(xué)、心理學(xué)等。在圖像數(shù)據(jù)加工過程中,“注意”是在整個場景初步形成基礎(chǔ)上的視覺感知,是一種重要的心理調(diào)節(jié)機制,其變化可以決定注視區(qū)的范圍、注視點的具體位置。視覺注意的顯著區(qū)域監(jiān)測對圖像的分析有著重要的意義,如果將這種調(diào)節(jié)機制引入到檢測領(lǐng)域中,有效的圖像信息就可以進(jìn)行分配并具備感知選擇的能力。在計算資源時,優(yōu)先將注意分配到觀察者容易感知的區(qū)域,這樣就會提高圖像分析的工作效率,以這種思想基礎(chǔ)上建立的方法被學(xué)者們稱為顯著區(qū)域檢測。
在傳統(tǒng)的圖像顯著區(qū)域檢測中,需要檢測人員注意力高度集中的情況下工作,但是長時間保持這樣工作會使檢測人員注意力大大降低,也會給視力帶來很大的負(fù)擔(dān),導(dǎo)致容易錯過圖像中重要的檢測數(shù)據(jù)[3],所以傳統(tǒng)的顯著區(qū)域檢測方法在實際的工作中實用性較差,效率不明顯。近年來,已有相關(guān)學(xué)者對場館監(jiān)控圖像顯著區(qū)域檢測做出了研究,通過對顯著性檢測方法使用的領(lǐng)域范圍不同,可將現(xiàn)有的方法分為兩種:文獻(xiàn)[4]提出基于多特征的監(jiān)控圖像顯著區(qū)域檢測算法,主要包括對目標(biāo)邊緣度、對稱性進(jìn)行計算,但在同一區(qū)域中出現(xiàn)相似的目標(biāo)時,檢測結(jié)果偏差較大,因此,該方法的實際運用性較差,使用范圍不廣泛;文獻(xiàn)[5]提出面向社群圖像的顯著區(qū)域檢測,利用社群圖像的CNN特征,進(jìn)行顯著性計算及語義計算,結(jié)合二者計算結(jié)果,優(yōu)化顯著區(qū)域的空間一致性。該方法計算結(jié)果簡便,但得到顯著區(qū)域檢測圖像的精準(zhǔn)率較差。
針對上述方法存在的問題,提出基于DCT(Discrete Cosine Transform)域的顯著區(qū)域檢測,首先,將圖像進(jìn)行分割成圖塊,實現(xiàn)DCT系數(shù)對顏色、紋理等特征進(jìn)行提取,再將圖像進(jìn)行閾值分割,獲得顯著區(qū)域?;诖?,在視點轉(zhuǎn)移中根據(jù)整幅圖像的特征差異進(jìn)行全局的顯著度量,以全景判斷圖像中的注視區(qū)范圍、注視點位置,計算注視點中最強的位置實現(xiàn)視區(qū)追蹤,從而完成顯著圖像的區(qū)域監(jiān)測。
DCT的AC系數(shù)分為低頻、中頻、高頻三種類型,低頻系數(shù)包含了DCT主要信息;高頻系數(shù)能夠反映圖像的邊緣等較次要的信息。利用JPEG的基本原理對每個8*8塊進(jìn)行DCT,在對圖像進(jìn)行編碼時,以最小編碼單元(MCU)[6]為基本單位。
將圖像以MCU為基本單位進(jìn)行分割,然后將分割后MCU進(jìn)行DCT來得到DCT的亮度塊并進(jìn)行特征提取。
單塊MCU中包含了8*8的亮度塊4個、8*8色度塊2個A1和A2,圖像中的原始值為aij,DCT塊為B,則DCT如式(1)所示
(1)
據(jù)上文所述,以MCU為基礎(chǔ)單位進(jìn)行分割,如圖1所示。
圖1 MCU分割系數(shù)圖
系數(shù)圖在進(jìn)行分割后,其中的低頻分塊都在左上角上集中,高頻分塊都在其余位置上分布。如圖2所示,低頻分量里包含著重要的DCT信息,高頻分量可以忽略掉。F(0.0)表示DC系數(shù)值,將所有MCU的b進(jìn)行提取,得到分量后的DC系數(shù)A1和A2,基于此轉(zhuǎn)換到RGB顏色空間獲得原始尺寸1/8的采樣圖像。
傳統(tǒng)的降采樣方法在檢測當(dāng)中容易將圖像原始的信息丟失,然而,本文基于DCT實現(xiàn)顯著區(qū)域檢測可以有效地保留圖像的原始信息,使檢測后的圖像信息數(shù)據(jù)更加準(zhǔn)確。
圖2 DCT8*8系統(tǒng)塊
利用RGB[5]顏色空間方法提取采樣后圖像的亮度及顏色特征,其中,R、G、B用來分別表示采樣后圖像中紅色,綠色、藍(lán)色的顏色通道,I=(r+g+b)/3為提取的亮度特征,分別計算4個寬調(diào)諧的顏色通道如式(2)所示
(2)
據(jù)上文所述,最后,根據(jù)最初形成的人類視覺感官特性,將計算所得的4個顏色通道分解為2對互逆的RGB顏色特征,如式(3)所示
(3)
MCU的紋理特征值如式(4)所示
(4)
將圖像中的DCT塊遍歷后,以歸一化方法降低后文顯著區(qū)域檢測的計算復(fù)雜度,保留亮度分量中頻和高頻系數(shù),得到相對應(yīng)的紋理特征有效地保留了原圖像的紋理細(xì)節(jié),使接下來的顯著性檢測過程與結(jié)果更加真實。
通過對視覺顯著性選擇與分析得到注視區(qū)范圍與注視點位置,然后結(jié)合人類的視覺效果感知的特性進(jìn)行進(jìn)一步的優(yōu)化,再將圖像塊的顯著性以特征向量[7]的全局對比度估算得到,最后根據(jù)在不同特性的融合得到優(yōu)化后的顯著區(qū)域檢測方法,
依靠DCT視覺的顯著性來選擇判斷其中的注視點大小與注視區(qū)范圍,是行業(yè)學(xué)者一直探討的研究內(nèi)容,為了獲取到新的注視內(nèi)容,文中提出以下的假設(shè):以全局場景來判斷注視點的位置,并計算注視點在場景中的視覺反差,從而得到全局顯著性;再找到注視點中顯著性最強的位置,得到視點轉(zhuǎn)移;再根據(jù)場景的局部信息確定注視區(qū)的大小,計算與周邊的反差得到局部顯著性完成顯著區(qū)域檢測。
首先,如圖3的視覺顯著性圖所示,A所占的位置要比圖中其它部分更加明顯,更加能夠引起觀察者的注意力,這就是視覺顯著的突出性。A部分就是突出性最明顯的部分也是圖像中的顯著性區(qū)域。以心理學(xué)的定義,使人能夠產(chǎn)生新異的刺激、所期待的刺激場景區(qū)域都會引起視覺感知的注意,因為,視覺的顯著性可以劃分為兩種:一種是高層視覺效果,由知識決定自上向下的視覺顯著性,另一種是低層視覺效果,由信息數(shù)據(jù)驅(qū)動自上向下的視覺顯著性。
圖3 視覺顯著性
若獲得更多的場景信息必須循環(huán)交替地進(jìn)行視點轉(zhuǎn)移,因此,使注視內(nèi)容變化的特點有以下幾種:
1)轉(zhuǎn)移性:注視點由強到弱的順序由一個位置轉(zhuǎn)移到另一個位置;
2)縮放性:注視區(qū)擴大或者縮??;
3)排斥性:同一時間內(nèi)只能存在一個注視內(nèi)容。
圖像中顯著性主要由分布性和對比性綜合來決定,圖像的顯著對象內(nèi)部區(qū)域關(guān)聯(lián)性為分布性;圖像的顯著性和非顯著性之間存在的差異性為對比性,其中,影響對比性的重要因素是亮度和顏色的差異。
3.2.1 分布性計算
在計算圖像分塊特征對比性同時,還應(yīng)該考慮顯著性區(qū)域和背景區(qū)域的空間分布不同。顯著性區(qū)域的空間分布密集、內(nèi)部的特征趨于相似,顯著性就會較高;背景區(qū)域的空間分布位置比較分散,與前者相比,含有高方差的空間分布,顯著度不明顯,不易引起視覺注意,因此,圖像分布的空間方差如式(5)所示
(5)
其中,圖像分塊xi的空間特征分布的質(zhì)心和圖像分塊xi與xj的空間特征距離如式(6)、式(7)所示
(6)
(7)
圖像分塊xi特征值相對于圖像分塊xj的特征值相似權(quán)值[8]如式(8)所示
(8)
其中,Zx為歸一化算子。
3.2.2 對比性計算
圖像分塊的周圍環(huán)境差異決定了圖像分塊的顯著性,周圍環(huán)境與圖像的分塊差異越大越可能是高顯著的區(qū)域。如果將該圖像分塊與其它圖像分塊進(jìn)行對比更容易引起觀察者的視覺注意,那么圖像分塊的顯著性如式(9)所示
(9)
(10)
假設(shè),xi和xj圖像分塊的中心位置以si和sj替代,?2取值為20。因為帶有亮度與顏色特征的圖像分塊在整幅圖像中也是突出的,所以需要計算圖像分塊在全局圖像中的特征顯著性,如式(11)所示
(11)
C1(xi)=LC(xi)*GC(xi)
(12)
3.2.3 實現(xiàn)顯著區(qū)域檢測
在不影響顯著檢測的前提下量化[9]特征空間,統(tǒng)計特征向量的概率,頻率最低的部分向量利用相近的向量進(jìn)行替換,從而降低全局對比度計算的復(fù)雜度,最后構(gòu)建符合人眼視覺特性的高斯函數(shù),對全局對比度進(jìn)行優(yōu)化,完成圖像顯著區(qū)域檢測。
DCT差值之和估計可以通過與其余(N-1)個特征向量計算,如式(13)所示
(13)
其中,特征向量Fi和Fj之間的距離以D(Fi,F(xiàn)j)表示,因此,F(xiàn)i的對比需經(jīng)過(N-1)次計算求得,而遍歷所有特征向量需計算N*(N-1)次。
需要將運算次數(shù)明顯降低可以通過量化和統(tǒng)計特征空間內(nèi)特征向量的分布規(guī)律計算求得,具體步驟如下:
2)對所有量化后特征向量進(jìn)行統(tǒng)計,根據(jù)頻率值降序后排序,保留前90%的特征向量,頻率最低的10%被距離最近的特征向量替換。
3)對比性估計,假設(shè)最終保留的特征向量為n(< (14) 其中,k∈(1,n)且n小于N,特征向量Vk的頻率為fk,此時的計算次數(shù)為n*(n-1),由于n遠(yuǎn)小于N,因此計算次數(shù)明顯下降。 在計算機視覺中,高斯差分函數(shù)是一種基于人眼視覺特性,將一個原始灰度圖像的模糊圖像從另一幅灰度圖像進(jìn)行增強的算法,通過函數(shù)計算以降低模糊圖像的特征向量,然后從一幅圖像中減去另一幅可以保持在兩幅圖像中所保持的頻帶中含有的向量空間信息,這樣的話,原始圖像中被保留下來的頻率之外的其它頻率信息利用函數(shù)計算進(jìn)行去除,從而實現(xiàn)了圖像的顯著區(qū)域檢測。其算法如式(15)所示 (15) 其中,Sif(Vk)為高斯差分函數(shù)計算[10]后對應(yīng)的顯著區(qū)域,而m1=n*θ,θ為確定顯著檢測的范圍, 如圖4所示,為式(15)計算得到的顯著區(qū)域檢測結(jié)果對比,可以看出,圖像不僅前景區(qū)域與背景區(qū)域有明顯的差異,而且前景區(qū)域有更好的突顯性,使顯著區(qū)域檢測對比更加明顯。 圖4 顯著區(qū)域檢測圖像對比 為了驗證本文所提方法的有效性,實驗主要內(nèi)容包括對顯著圖像的精準(zhǔn)度-召回曲線,以主觀質(zhì)量為基準(zhǔn)。 對于單一圖像,如圖5所示,與對比圖相比,顯著圖中的顯著區(qū)域的像素點顯著值更高且之間有著較高的一致性,而且背景的差異性越強背景區(qū)域的亮度也越低。 圖5 對比度與顯著性圖像對比 將所選的圖像進(jìn)行實驗,每幅圖像在等到相應(yīng)的對比度和顯著性后,分別對兩種圖像進(jìn)行分割,分割過程中閾值[11]區(qū)間為[0,255]并取整,基于此計算相應(yīng)的精準(zhǔn)度召回率,如圖6所示,將最后所得的結(jié)果平均得到精準(zhǔn)度召回率對比曲線。由于文獻(xiàn)計算對比度時,沒有考慮人眼的視覺特性,只考慮了圖像的顏色和亮度,召回率的精準(zhǔn)度低于顯著圖。 圖6 精準(zhǔn)度-召回率對比圖 在顯著圖中,顯著前景為色彩明顯區(qū)域,而色彩偏暗區(qū)域為背景區(qū)域。一般情況下,不同的顯著性檢測方法準(zhǔn)確性會從主觀和客觀兩個方面進(jìn)行對比。 為進(jìn)一步驗證本文方法有效性,將與文獻(xiàn)[4]方法、文獻(xiàn)[5]方法進(jìn)行對比試驗。最終結(jié)果如表1所示,統(tǒng)計了兩種方法單張圖像顯著區(qū)域監(jiān)測平均消耗的時間。 表1 單幅圖像平均計算時間 結(jié)果顯示,文獻(xiàn)[4]方法提取圖像特征后進(jìn)行的顯著性檢測,耗費時間為1.740s,效率低,文獻(xiàn)[5]方法的計算時間為0.794s,效率較低,而本文方法對圖像中顯著區(qū)域能夠在獲得良好的檢測結(jié)果同時,單幅圖像平均計算時間為0.259s,實際工作效率高,能夠高效完成場館監(jiān)控圖像顯著區(qū)域檢測。 針對傳統(tǒng)顯著區(qū)域檢測方法的不足,本文提出一種基于DCT域視覺的顯著區(qū)域檢測方法,首先對DCT域視覺系數(shù)進(jìn)行提取,獲得顯著區(qū)域,通過計算得出顯著區(qū)域范圍與注視點位置,完成圖像的顯著區(qū)域檢測。實驗證明,本文所提方法成本低,可以實時對出現(xiàn)在顯著區(qū)域的目標(biāo)進(jìn)行檢測,并且在生活中實時性效果高、有著良好的檢測效率。但不可否認(rèn)的是,該方法仍有不足之處,本文所選擇的特征描述形式與視覺感知都還存在一定的差距,接下來會進(jìn)一步考慮如何引入更多有效的視覺特征,并結(jié)合實際應(yīng)用建立有效性更強、更完善的顯著區(qū)域檢測系統(tǒng)。4 實驗結(jié)果與分析
5 結(jié)論