劉尚旺 胡劍蘭
(河南師范大學(xué)計(jì)算機(jī)與信息工程學(xué)院 河南 新鄉(xiāng) 453007)(“智慧商務(wù)與物聯(lián)網(wǎng)技術(shù)”河南省工程實(shí)驗(yàn)室 河南 新鄉(xiāng) 453007)
?
基于生物視覺機(jī)制的圖像感興趣區(qū)域快速獲取方法研究
劉尚旺胡劍蘭
(河南師范大學(xué)計(jì)算機(jī)與信息工程學(xué)院河南 新鄉(xiāng) 453007)(“智慧商務(wù)與物聯(lián)網(wǎng)技術(shù)”河南省工程實(shí)驗(yàn)室河南 新鄉(xiāng) 453007)
為快速準(zhǔn)確地獲取圖像感興趣區(qū)域,有必要從宏觀視覺通道到微觀視覺神經(jīng)細(xì)胞全程模擬生物視覺機(jī)制。首先,在模擬宏觀視覺where通道的超復(fù)數(shù)傅里葉變換HFT(Hypercomplex Fourier Transform)模型中,為突顯圖像中的顯著目標(biāo),增加背景通道,抑制背景信息;其次,用模擬生物視覺神經(jīng)元的脈沖耦合神經(jīng)網(wǎng)絡(luò)PCNN(Pulse Coupled Neural Network)來擴(kuò)展HFT模型:將改進(jìn)HFT模型的顯著圖作為簡化PCNN的輸入圖像,并利用最小交叉熵分割出感興趣區(qū)域。實(shí)驗(yàn)結(jié)果表明,該感興趣區(qū)域提取算法的準(zhǔn)確性達(dá)到98.1%,提取時(shí)間為5.732 s,能夠快速準(zhǔn)確地檢測(cè)出圖像的感興趣區(qū)域。
視覺注意模型HFTPCNN感興趣區(qū)域
當(dāng)面對(duì)復(fù)雜場(chǎng)景時(shí),人類能夠迅速將注意力轉(zhuǎn)移到圖像中的感興趣區(qū)域ROI(Region of Interest),以便對(duì)其優(yōu)先處理,這就是視覺注意機(jī)制。也就是說,ROI是指人類面對(duì)一幅圖像時(shí)首先關(guān)注和注意的區(qū)域。心理學(xué)相關(guān)研究表明,ROI是能夠?qū)τ^察者的視覺系統(tǒng)產(chǎn)生新奇刺激的區(qū)域,這個(gè)區(qū)域最能夠引起觀察者的視覺注意。計(jì)算機(jī)視覺領(lǐng)域內(nèi),感興趣區(qū)域檢測(cè)技術(shù)能夠區(qū)分出各個(gè)區(qū)域的重要程度,從而可以突出圖像所包含的重要內(nèi)容,消除冗余信息。圖像感興趣區(qū)域的檢測(cè)提取與分析研究對(duì)圖像壓縮與編碼、圖像檢索、目標(biāo)檢測(cè)與識(shí)別、場(chǎng)景分析和主動(dòng)視覺等領(lǐng)域有著極高的應(yīng)用價(jià)值。例如,在醫(yī)學(xué)圖像處理中,數(shù)據(jù)量很大同時(shí)對(duì)關(guān)鍵診斷區(qū)域的要求很高,此時(shí)提取感興趣區(qū)域能夠更加容易地定位該關(guān)鍵區(qū)域的位置,減少冗余度;在場(chǎng)景分析中,通過感興趣區(qū)域的分析可快速地篩選出顯著對(duì)象依次分析,便于進(jìn)一步理解場(chǎng)景內(nèi)容,從而避免無意義的圖像計(jì)算。傳統(tǒng)的感興趣區(qū)域檢測(cè)技術(shù)分為兩種:一是通過人機(jī)交互技術(shù)來人為地標(biāo)記感興趣區(qū)域;另一種是通過提取一些特征點(diǎn)來進(jìn)行感興趣區(qū)域檢測(cè)[1]。這兩種方法的缺陷在于檢測(cè)準(zhǔn)確性和效率均不高[2]。
最近流行將視覺注意機(jī)制引入感興趣區(qū)域檢測(cè)技術(shù)中來,其原因在于加入視覺注意機(jī)制的感興趣區(qū)域檢測(cè)技術(shù)更加符合人類的視覺特性,即它從人眼特性出發(fā),其結(jié)果更具可信性。文獻(xiàn)[3]在相位譜傅里葉變換PFT(Phase spectrum of Fourier Transform)模型上,提出了基于視覺注意的閾值分割方法,通過對(duì)像素的屬性進(jìn)行分析提取出感興趣區(qū)域。文獻(xiàn)[4]受到生物學(xué)的啟發(fā),計(jì)算每個(gè)像素的全局對(duì)比值,計(jì)算顯著圖,并且對(duì)顯著圖閾值分割,得到感興趣區(qū)域。文獻(xiàn)[5] 根據(jù)生物注意機(jī)制,提出了一種基于視覺注意模型和進(jìn)化規(guī)劃的感興趣區(qū)域提取算法。文獻(xiàn)[6]提出利用Itti算法,并結(jié)合區(qū)域生長方法得到感興趣區(qū)域。文獻(xiàn)[7]采用相位譜四元數(shù)傅里葉變換PQFT(Phase spectrum of Quaternion Fourier Transform)視覺注意模型找出若干個(gè)感興趣區(qū)域,然后利用脈沖耦合神經(jīng)網(wǎng)絡(luò)顏色匹配模型得到圖像感興趣區(qū)域的位置。
視覺注意模型VAM(Visual Attention Model)是感興趣區(qū)域檢測(cè)的可計(jì)算模型,能依次得到圖像中最容易引起人們注意的ROI或顯著區(qū)域[3]。不同于空間域圖像特征提取的串行處理機(jī)制,超復(fù)數(shù)或四元數(shù)圖像能夠?qū)D像視覺特征并行處理,更加符合人類視覺特點(diǎn)[7]。最近,Li等人提出超復(fù)數(shù)傅里葉變換模型HFT。通過對(duì)自然圖像的振幅譜進(jìn)行尺度空間的分析證實(shí)幅度譜中包含重要的信息,結(jié)合原始相位和振幅譜重建二維信號(hào),從而得到顯著圖序列,以最小熵值選取最優(yōu)顯著圖。實(shí)驗(yàn)證實(shí)該模型能夠檢測(cè)出不同大小的顯著區(qū)域,有很好的性能[8]。
總的來說,VAM 是從特征整合的角度,在宏觀視覺通道上模擬人類視覺注意機(jī)制。而與其有相同理論來源的脈沖耦合神經(jīng)網(wǎng)絡(luò)PCNN則在微觀視覺細(xì)胞層次上,根據(jù)生物視覺神經(jīng)元的線性相加和非線性調(diào)制耦合特性進(jìn)行圖像處理,較好地模仿了靈長類動(dòng)物的視覺機(jī)制。由于能夠捕獲相似神經(jīng)元同步發(fā)放脈沖等特性,PCNN在圖像去噪、分割、識(shí)別和融合等領(lǐng)域中都展示出了良好的性能[9]。VAM和PCNN模型分別獨(dú)立地發(fā)展到今天,各自的研究成果相當(dāng)豐富。那么,宏觀層次的VAM 有必要結(jié)合微觀層次的PCNN 來進(jìn)行圖像語義獲取,以進(jìn)一步豐富圖像理解與識(shí)別理論。
為更好地?cái)M合人類視覺注意機(jī)制,本文結(jié)合VAM和PCNN,提出一種感興趣區(qū)域檢測(cè)算法:首先,為抑制背景顏色,在頻域視覺注意模型HFT中增加背景通道;其次,將改進(jìn)HFT模型的顯著圖作為PCNN的主輸入,并利用最小交叉熵自動(dòng)分割出感興趣區(qū)域。
本文的算法框架圖,如圖1所示。
圖1 算法框架圖
從圖1可以看出,本文提取ROI的算法主要包含以下幾個(gè)方面:(1)計(jì)算各特征圖。分別計(jì)算顏色R-G特征圖、顏色B-Y特征圖、亮度I特征圖、背景Z特征圖。重點(diǎn)通過增加背景通道Z增強(qiáng)背景顏色的抑制能力,提出改進(jìn)超復(fù)數(shù)傅里葉變換IHFT(Improved Hypercomplex Fourier Transform)模型。(2)對(duì)圖像進(jìn)行頻域尺度分析,并計(jì)算各尺度的顯著圖。選擇顯著圖熵值最小的顯著圖作為最優(yōu)顯著圖。(3)確定分割范圍。利用IHFT得到最優(yōu)顯著圖,作為PCNN的輸入圖像。(4)PCNN分割出候選區(qū)域。通過最小交叉熵原則確定出PCNN最優(yōu)的分割結(jié)果,從而提取出ROI。
VAM 是從特征整合的角度,在宏觀視覺通道上模擬人類視覺注意機(jī)制,目前VAM主要有兩類:空間域VAM和頻域VAM。與空間域VAM相比,頻域VAM具有準(zhǔn)確性高、計(jì)算量小、手工調(diào)整參數(shù)較少,成為視覺計(jì)算領(lǐng)域研究的熱點(diǎn)[8]。首個(gè)頻域視覺注意模型譜殘余SR(spectral residual)將自然圖像先驗(yàn)信息的幅度譜從圖像幅度譜中去除,然后將譜殘余與原始圖像的相位譜再進(jìn)行傅里葉逆變換,得到顯著圖[10]。盡管SR方法計(jì)算快速簡單,但是其缺乏生理理論基礎(chǔ),并且只能檢測(cè)小的顯著物體[7]。隨后,Guo等人在SR的基礎(chǔ)上進(jìn)一步研究,提出PFT和PQFT模型[3,7]。而后文獻(xiàn)[8]證實(shí)幅度譜中包含重要的信息,PFT和PQFT不應(yīng)該直接去除幅度譜。SR、PFT、PQFT、HFT模型的顯著圖,如圖2所示。
圖2 SR、PFT、PQFT、HFT顯著圖視覺效果對(duì)比
由圖2可以看出,SR方法利用去除先驗(yàn)信息的幅度譜和原始相位譜傅里葉變換得到顯著圖。PFT方法直接放棄幅度譜,只用相位譜進(jìn)行傅里葉逆變換得到顯著圖,得到與SR幾乎相同的顯著圖。由于幅度譜信息完全被遺棄了,只有相位信息起著很大的作用。因此,SR和PFT提高對(duì)象邊界和紋理部分,只能檢測(cè)到顯著物體的邊緣。進(jìn)一步,PQFT在PFT亮度信息上進(jìn)行拓展,得到RG、BY兩個(gè)顏色特征圖,亮度特征圖,運(yùn)動(dòng)特征圖,然后進(jìn)行四元數(shù)的傅里葉變換,去掉幅度譜,利用四元數(shù)反傅里葉變換得到顯著圖,盡管三種特征通道并行處理,提高了計(jì)算速度,但由于同樣摒棄幅度譜信息,導(dǎo)致PQFT只能得到顯著目標(biāo)的大致位置形狀,僅突出邊緣信息。而文獻(xiàn)[8]證實(shí)振幅譜包含了非常重要的信息,并且充分利用振幅和相位得到顯著圖,該顯著圖能均勻地突出整個(gè)顯著目標(biāo),對(duì)于背景和目標(biāo)相似的顯著目標(biāo)也能檢測(cè)出來。
因此,為檢測(cè)圖像的大大小小的顯著性區(qū)域,本文利用文獻(xiàn)[8]中提出的HFT模型生成顯著圖。HFT模型對(duì)自然圖像幅度譜進(jìn)行尺度空間分析,使用原始相位和振幅譜重建二維信號(hào),從而得到顯著圖,再以最小化顯著圖的熵值選中的尺度進(jìn)行過濾,熵值最小的顯著圖作為最終顯著圖。
2.1特征通道的構(gòu)建
給定一個(gè)四元數(shù)矩陣:
f(n,m)=a+bi+cj+dk
(1)
可見,式(1)可以用來表示多個(gè)特征之間的融合。這樣,式(1)也可以寫為:
f(n,m)=w1f1+w2f2i+w3f3j+w4f4k
(2)
式(2)中,w1-w4是各特征的權(quán)重,f1-f4表示的是每個(gè)特征的特征圖。在HFT中,f1表示運(yùn)動(dòng)通道。只考慮靜態(tài)圖像的情況下,式(2)中權(quán)值w1=0。
圖像中的亮度、顏色拮抗對(duì)特征分別為:
f3=RG=R-G
(3)
f4=BY=B-Y
式(3)中,r、g、b分別為輸入圖像的紅、綠、藍(lán)三個(gè)顏色通道,4個(gè)廣義顏色通道分別為:
R=r-(g+b)/2G=g-(r+b)/2B=b-(r+g)/2
Y=(r+g)/2-|r-g|/2-b
針對(duì)圖像復(fù)雜、待識(shí)別目標(biāo)區(qū)域或大或小的場(chǎng)景,特別是對(duì)于背景顏色與目標(biāo)對(duì)象顏色差異較小的圖像,如自然場(chǎng)景中的沙灘、建筑物,植被等戶外圖像,為提高感興趣區(qū)域提取的精確性,使ROI中包含盡可能少的背景區(qū)域,同時(shí)增加感興趣對(duì)象的顯著性,本文在HFT模型中增加一個(gè)背景顏色通道。本文將原始彩色圖像分離為各自獨(dú)立的RGB三通道圖像,將分離后的圖像分別與均值進(jìn)行背景差分。通過計(jì)算當(dāng)前像素的顏色分量與輸入圖像對(duì)應(yīng)的均值顏色分量的差值均值,將其作為該像素點(diǎn)的背景顏色值。通過增加背景顏色通道,增加背景全局顏色的抑制能力,在一定程度上消除冗余信息,從而得到完整獨(dú)立的目標(biāo)對(duì)象。這個(gè)背景通道如下定義:
(4)
式中,R、G、B分別為原始圖像分離出來的第R、G、B通道的圖像。E(r)、E(g)、E(b)分別為r、g、b通道的顏色期望值,并作為背景圖像的像素灰度值。
通過利用背景、亮度、顏色特征圖來建立視覺注意模型,其四元數(shù)形式是:q=Z+I+RG+BY。
因此,最終的四元數(shù)矩陣為:
f(n,m)=f5+f2i+f3j+f4k
(5)
式(5)中,f2-f5分別是亮度,顏色(2對(duì)拮抗色),背景特征圖。本文主要通過亮度、顏色和背景信息來研究靜態(tài)圖。
2.2顯著性計(jì)算
在圖像的頻域分析中,幅度譜能夠表示原始圖像在不同的空間頻率中能量的多少,而相位譜能夠體現(xiàn)與頻率從對(duì)應(yīng)的正弦和余弦分量的位置。為此,需要同時(shí)考慮幅度譜和相位譜,得到顯著圖。
在HFT中,每個(gè)尺度的顯著圖計(jì)算公式如下:
(6)
式中,g為高斯濾波器,‖·‖表示超復(fù)數(shù)矩陣中每個(gè)元素的模。Λk(u,v)是尺度參數(shù)為k的譜尺度空間,且
Λ(u,v;k)=(g×A)(u,v),Α是幅度譜。χ(u,v)是歐拉軸譜,P(u,v)是相位譜。
根據(jù)式(6),得到一個(gè)顯著圖序列{sk},如圖3所示。
圖3 顯著圖序列{sk}
圖3顯著圖序列{sk}中,某一特定尺度kp對(duì)應(yīng)最優(yōu)的顯著圖。
(7)
式中,λk=∑∑Κ(n,m)·Ν(sk(n,m)),H2D(sk)=H{gn×sk},∑∑Κ(n,m)=1。
圖4 最終顯著圖
Ν(·)是用于將輸入圖像歸一化。gn是一個(gè)低通高斯核。HFT中,當(dāng)kp最小時(shí),對(duì)應(yīng)的顯著圖就是最優(yōu)顯著圖。最終顯著圖如圖4所示。
算法1IHFT顯著性模型
輸入:調(diào)整彩色圖像C的分辨率為m×n
輸出:圖像C的顯著圖S
① 根據(jù)式(3)-式(4),計(jì)算特征圖{Z,RG,BY,I};
② 根據(jù)式(5),通過結(jié)合這些特征圖形成超復(fù)雜矩陣f(n,m);
③ 對(duì)于f(n,m)執(zhí)行超復(fù)雜的傅里葉變換并且計(jì)算振幅譜A、相位譜P和歐拉軸譜X;
④ 使用高斯核來光滑振幅譜,從而獲得光譜尺度空間{Λk};
⑤ 對(duì)于每個(gè)Λk,根據(jù)式(6)獲得顯著圖Sk,從而產(chǎn)生一系列顯著地圖{Sk};
⑥ 從{Sk}中找到最好的顯著圖S,按照式(7)中介紹的標(biāo)準(zhǔn),選擇出最終顯著圖。
HFT模型是通過特征整合在宏觀視覺通道上模擬人類視覺注意機(jī)制。而PCNN則在微觀視覺神經(jīng)細(xì)胞層次上,根據(jù)生物視覺神經(jīng)元的線性相加和非線性調(diào)制耦合特性模仿靈長類動(dòng)物的視覺機(jī)制。因此,為全程擬合人類視覺注意機(jī)制,本文結(jié)合HFT和PCNN,將第2節(jié)得到最終灰度顯著圖I(i,j),作為簡化的PCNN模型的輸入,同時(shí)利用最小交叉熵準(zhǔn)則確定最優(yōu)迭代次數(shù),提取感興趣區(qū)域。
F[n]=I(i,j)[n]
(8)
(9)
U[n]=F[n]×(1+β×L[n])
(10)
threshold(i,j)[n]=exp(-α)×threshold(i,j)[n-1]
(11)
(12)
式(8)表示(i,j)位置神經(jīng)元的第n次迭代時(shí)輸入的灰度值;式(9)表示PCNN神經(jīng)元的連接輸入項(xiàng),N(i,j)為神經(jīng)元(i,j)的鄰域;式(10)表示內(nèi)部活動(dòng)項(xiàng),每個(gè)神經(jīng)元得到輸入F和連接域L的反饋,形成內(nèi)部活動(dòng)項(xiàng)U;式(11)為動(dòng)態(tài)閾值;式(12)為當(dāng)前神經(jīng)元的脈沖輸出,為0或1。通過大量實(shí)驗(yàn)得到,α=0.1,β=0.1,Weight=[0.707 1 0.707;1 0 1;0.707 1 0.707]。
第一次迭代時(shí),外界刺激I( i,j)等于神經(jīng)元的內(nèi)部活動(dòng)項(xiàng)U,若此時(shí)I(i,j)大于threshold(i,j),神經(jīng)元輸出Y為1,這是自然激活過程。與此同時(shí),動(dòng)態(tài)閾值threshold(i,j)急劇增大,并隨每次迭代過程呈指數(shù)形式遞減形式,在之后的迭代中,被激活的神經(jīng)元通過與鄰域內(nèi)相似神經(jīng)元的連接作用激勵(lì)鄰域神經(jīng)元,形成鏈接輸入L。若鄰域某一神經(jīng)元的內(nèi)部活動(dòng)項(xiàng)U大于當(dāng)前閾值threshold(i,j),則被PCNN捕獲激活。伴隨每次迭代,PCNN產(chǎn)生一個(gè)脈沖序列Y。
由于PCNN利用鄰域神經(jīng)元的輸出Y對(duì)神經(jīng)元輸入進(jìn)行調(diào)制,內(nèi)部活動(dòng)項(xiàng)既包含了神經(jīng)元對(duì)應(yīng)的像素灰度信息,而且充分體現(xiàn)像素鄰域的信息。因此利用PCNN分割圖像不僅能克服由于幅度造成的微小變化的影響,而且能夠較為完整地保留圖像的區(qū)域信息。但是由于該模型運(yùn)行過程中迭代次數(shù)的不確定性,以及在分割過程中不能客觀評(píng)價(jià)最佳的分割效果,為此,本文引入最小交叉熵準(zhǔn)則判定迭代次數(shù)和最佳分割圖像,進(jìn)而分割出感興趣區(qū)域。
算法2感興趣區(qū)域獲取
輸入:IHFT得到的最終灰度顯著圖
輸出:感興趣區(qū)域
① 第一次迭代時(shí),按照式(8)外界刺激I(i,j)等于神經(jīng)元的內(nèi)部活動(dòng)項(xiàng)U;
② 若此時(shí)外部刺激I(i,j)大于閾值threshold(i,j),則根據(jù)式(12)輸出1。否則為0;
③ 與此同時(shí),動(dòng)態(tài)閾值急劇增大,并按照式(11)隨每次迭代過程呈指數(shù)形式遞減;
④ 在之后的迭代中,被激活的神經(jīng)元通過與鄰域內(nèi)相似神經(jīng)元的連接作用激勵(lì)鄰域神經(jīng)元,按照式(9)形成鏈接輸入L;
⑤ 若鄰域某一神經(jīng)元的內(nèi)部活動(dòng)項(xiàng)U大于當(dāng)前閾值threshold(i,j),則被PCNN捕獲激活;
⑥ 伴隨每次迭代,PCNN產(chǎn)生一個(gè)脈沖序列Y;
⑦ 根據(jù)最小交叉熵過程,求取一個(gè)PCNN的迭代次數(shù)n和最佳閾值,而與其對(duì)應(yīng)輸出的脈沖序列構(gòu)成的二值圖像,即最佳分割結(jié)果;
⑧ 將最佳分割結(jié)果與原始圖像點(diǎn)乘,得到感興趣區(qū)域。
為驗(yàn)證該算法對(duì)一般自然圖像中感興趣的目標(biāo)物提取的有效性,本文算法在Inter(R) Core(TM) 3.2 GHz(內(nèi)存16 GB)的硬件環(huán)境下進(jìn)行,實(shí)驗(yàn)開發(fā)環(huán)境為Matlab R2012b。本文采用SIMPLIcity(http://wang.ist.psu.edu/docs/related/)圖像庫進(jìn)行測(cè)試[17]。該圖像庫包含非洲土著居民、海灘、馬、花卉等10個(gè)語義類別的自然真實(shí)圖像,每類各有100幅圖像。其中每幅圖像均為RGB彩色無噪聲圖像,且大小為384×256。
為更好地評(píng)價(jià)本文方法的檢測(cè)性能,本文分別選取文獻(xiàn)[3]和文獻(xiàn)[6]中的感興趣區(qū)域提取算法與本文算法效果對(duì)比,部分實(shí)驗(yàn)結(jié)果如圖5所示。
圖5 感興趣區(qū)域提取結(jié)果視覺對(duì)比
從圖5中可以看出,圖5(b)方法通過Itti模型獲得顯著圖,在該顯著圖上進(jìn)行區(qū)域生長,從而獲得感興趣區(qū)域。但是從圖5(b)看出,該方法不能得到目標(biāo)對(duì)象的全貌,無法處理大的顯著物體。而對(duì)于圖5(c),利用PFT得到顯著圖之后通過閾值分割得到感興趣區(qū)域,圖5(c)可以看出這種方法不能得到目標(biāo)對(duì)象的完整區(qū)域,只能檢測(cè)C-S對(duì)比強(qiáng)烈的小區(qū)域。而對(duì)于HFT模型,可以檢測(cè)大大小小的顯著區(qū)域,但是在本文實(shí)驗(yàn)中發(fā)現(xiàn)該方法所提取的感興趣區(qū)域包含了部分背景區(qū)域。特別是當(dāng)圖像中存在與背景相似顏色的區(qū)域,如圖5中第一行“馬腿”和第三行“人腿”以及第六行“花中的葉子”,前述方法均不能精確分割。而本文提出IHFT+PCNN不僅能夠檢測(cè)出大大小小的顯著區(qū)域,而且通過增加背景通道增強(qiáng)了背景顏色的拮抗能力,從而克服上述問題,因此IHFT能夠檢測(cè)出更加完整準(zhǔn)確的感興趣區(qū)域。
本文算法提取出的感興趣區(qū)域的正確率計(jì)算公式如下:
(13)
式中,Od(x,y)是檢測(cè)得到的區(qū)域,Oa(x,y)是檢測(cè)得到的感興趣區(qū)域。對(duì)圖像庫中10類圖像進(jìn)行分別測(cè)試,提取出的感興趣區(qū)域?yàn)槟繕?biāo)物的平均正確率及平均消耗時(shí)間,如表1所示。
表1 四種不同算法的量化對(duì)比
從表1中看出,IHFT+PCNN優(yōu)于其他模型。文獻(xiàn)[6]計(jì)算量大,消耗時(shí)間較多,得到的顯著圖只是目標(biāo)物體的邊緣特征,并且不能檢測(cè)大的顯著性目標(biāo)。而文獻(xiàn)[3]中同樣存在SR方法中的一些問題,如只能檢測(cè)到顯著物體的邊緣和小顯著區(qū)域,也就是中心-周邊對(duì)比非常強(qiáng)烈的區(qū)域。本文在HFT的基礎(chǔ)之上進(jìn)行改進(jìn),加入了背景通道,提高了感興趣區(qū)域的準(zhǔn)確度,能均勻地突出整個(gè)顯著目標(biāo),尤其是對(duì)于目標(biāo)中存在與背景顏色較小差異的圖像,也取得了較好的結(jié)果。
為檢測(cè)本文算法的有效性和魯棒性,本文人為地加入了噪聲和幾何攻擊。結(jié)果如圖6所示。
圖6 不同噪聲和幾何攻擊的結(jié)果
從圖6可以看出,本文算法有較強(qiáng)的魯棒性。本文算法之所以能夠抵抗噪聲攻擊和幾何攻擊是因?yàn)楸疚乃惴ㄕ狭薎HFT和PCNN的優(yōu)點(diǎn)。PCNN結(jié)合其他去噪算法能達(dá)到很好的效果,但是PCNN本身不能抵抗噪聲污染。而HFT對(duì)于幾何攻擊沒有抵抗能力。PCNN具有幾何不變性,IHFT模型能夠抵抗噪聲污染,因此,本文結(jié)合IHFT和PCNN既能夠抵抗噪聲污染,又能夠保持幾何攻擊不變性,有良好的魯棒性。
本文通過結(jié)合宏觀層次的VAM 和微觀層次的PCNN,提出了一種結(jié)合IHFT和PCNN的感興趣區(qū)域提取方法。首先,為了突顯圖像中的顯著目標(biāo),抑制背景信息,在HFT模型中增加背景通道;其次,將改進(jìn)HFT模型的顯著圖作為簡化PCNN的輸入圖像,并利用最小交叉熵自動(dòng)分割出感興趣區(qū)域。實(shí)驗(yàn)結(jié)果顯示,本文感興趣區(qū)域提取算法的準(zhǔn)確性達(dá)到98.1%,提取時(shí)間為5.732 s,證實(shí)本文的算法效果較好。
針對(duì)感興趣區(qū)域的某些邊界不清晰的情況,接下來將研究在本文方法的基礎(chǔ)之上融合邊緣檢測(cè)方法,以便取得更為精確的感興趣區(qū)域的提取結(jié)果。
[1] 林森,苑瑋琪.掌紋感興趣區(qū)域定位與選擇方法[J].計(jì)算機(jī)工程與應(yīng)用,2011,44(14):21-24.
[2] Zhang L,Yang K.Region-of-Interest Extraction Based on Frequency Domain Analysis and Salient Region Detection for Remote Sensing Image[J].IEEE CEO SCIENCE AND REMOTE SENSING LETTERS,2014,11(5):916-920.
[3] 陳碩,于曉升,吳成東,等.用于場(chǎng)景分類的顯著建筑物區(qū)域檢測(cè)[J].上海交通大學(xué)學(xué)報(bào),2011,45(8):144-149.
[4] 趙倩,胡越黎,曹家麟.自然圖像中的感興趣目標(biāo)檢測(cè)技術(shù)[J].計(jì)算機(jī)工程,2011,37(21):173-176.
[5] 張菁,沈蘭蓀,高靜靜.基于視覺注意模型和進(jìn)化規(guī)劃的感興趣區(qū)檢測(cè)方法[J].電子與信息學(xué)報(bào),2010,31(7):1646-1652.
[6] 魏龍生,羅大鵬.基于視覺注意機(jī)制的遙感圖像顯著性目標(biāo)檢測(cè)[J].計(jì)算機(jī)工程與應(yīng)用,2014,50(19):11-15.
[7] 鄭天宇.基于四元數(shù)注意力選擇和脈沖耦合神經(jīng)網(wǎng)絡(luò)的足球檢測(cè)[D].上海:復(fù)旦大學(xué),2012.
[8] Li J,Levine M D,An X,et al.Visual saliency based on scale-space analysis in the frequency domain[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2013,35(4):996-1010.
[9] Ma Y,Zhan K,Wang Z.Pulse-Coupled Neural Networks[M].Applications of Pulse-Coupled Neural Networks.Springer Berlin Heidelberg,2011:1-9.
[10] Hou X,Zhang L.Saliency Detection:A Spectral Residual Approach[C]//IEEE Conference on Computer Vision and Pattern Recognition,2007:1-8.
[11] Zhang Y,Wu L,Wang S,et al.Color image enhancement based on HVS and PCNN[J].Science China Information Sciences,2010,53(10):1963-1976.
[12] 許志濤.基于CCSDS的遙感圖像感興趣區(qū)域壓縮研究[D].長春:中國科學(xué)院研究生院(長春光學(xué)精密機(jī)械與物理研究所),2014.
[13] Gu X,Fang Y,Wang Y.Attention selection using global topological properties based on pulse coupled neural network[J].Computer Vision and Image Understanding,2013,117(10):1400-1411.
[14] Zhang J,Gu X.Desert Vehicle Detection Based on Adaptive Visual Attention and Neural Network[C]//Neural Information Processing.Springer Berlin Heidelberg,2013:376-383.
[15] 吳志強(qiáng),吳樂華,袁寶峰.基于分形與小波的圖像ROI自動(dòng)提取算法[J].計(jì)算機(jī)應(yīng)用,2010,30(6):1613-1618.
[16] 李策,虎亞玲,曹潔.基于對(duì)數(shù)Gabor的超復(fù)數(shù)視覺顯著性檢測(cè)算法[J].計(jì)算機(jī)工程,2012,38(4):148-151.
[17] Wang N,Ma Y,Wang W.DWT-Based Multisource Image Fusion Using Spatial Frequency and Simplified Pulse Coupled Neural Network[J].Journal of Multimedia,2014,9(1):159-165.
A FAST IMAGE’S REGION OF INTEREST ACQUISITION METHOD BASED ON BIOLOGICAL VISION MECHANISM
Liu ShangwangHu Jianlan
(College of Computer and Information Engineering,Henan Normal University,Xinxiang 453007,Henan,China)(EngineeringLabofIntelligenceBusinessandInternetofThings,HenanProvince,Xinxiang453007,Henan,China)
In order to acquire image’s region of interest quickly and accurately,it is necessary to simulate the whole process of biological vision mechanism from macroscopic visual channel to micro visual nerve cells.First,in hypercomplex Fourier transform (HFT) model which simulates the macroscopic visual “where” channel,in order to highlight the salient objects in images,we add background channel to inhibit the background information; Secondly,we expand HFT model by pulse coupled neural network (PCNN) which simulates the biological visual neurons:taking the salient map obtained by the improved HFT as the input image of simplified PCNN and taking the advantage of minimum cross entropy to segment the region of interest.Experimental results show that the accuracy of the proposed region of interest acquisition algorithm achieves 98.1%,and the extraction time is 5.732 s,so it can acquire the region of interest quickly and accurately.
Visual attention modelHypercomplex Fourier transform(HFT)Pulse coupled neural network (PCNN)Region of interest
2015-04-09。國家自然科學(xué)基金項(xiàng)目(U1304607);河南省教育廳高等學(xué)校重點(diǎn)科研項(xiàng)目(15A520080);河南師范大學(xué)博士科研啟動(dòng)基金項(xiàng)目(qd12138)。劉尚旺,副教授,主研領(lǐng)域:計(jì)算機(jī)視覺,圖像處理。胡劍蘭,碩士生。
TP391
A
10.3969/j.issn.1000-386x.2016.09.041