文雅宏,巨 琛
(1.安康學院電子與信息工程學院電子信息技術研究中心,陜西 安康 725000;2.天水市綠色催化專家智庫辦公室,甘肅 天水 741400)
在自然場景中,人類一般會把更多的注意力集中在能引起人注意的目標或區(qū)域上,研究者們把人類的這種機制稱為視覺注意力機制,引起人視覺注意的目標為顯著性目標。顯著性目標檢測是利用人類的這種視覺機制來檢測感興趣的目標。近年來,顯著性目標檢測在計算機視覺研究中引起了廣泛的關注,并在圖像重定位[1]、目標識別[2]、視頻壓縮[3]、圖像檢索[4]、圖像分類[5-6]等多個領域得到應用。
最早對圖像顯著性檢測進行研究的來自生物學領域。具有代表性的生物方法是由Koch等人利用顏色、亮度、方向以及其他生物結構特征提出的原始顯著性檢測的準則。研究者在此基礎上提出了較多的顯著性檢測的模型,根據采用的檢測特征的差異,可分為自下而上和自上而下的檢測。自下而上的方法是基于圖像的先驗知識和深度學習相結合的方式,這類檢測模型能很好地突出顯著性區(qū)域,但是要執(zhí)行大量的訓練和特征提取,對軟硬件等環(huán)境的要求較高,尤其需要大量的數據收集。與自下而上的方法相比,自上而下的檢測方法則不需要大量的數據收集和訓練過程,對硬件等環(huán)境的要求低。這些特點使得自上而下的方法更有效、更容易地在實際環(huán)境中廣泛地應用和實現。為了適用于實際的應用環(huán)境,本文主要對自上而下的方法進行研究。
近幾年的研究中,自上而下的顯著性檢測方法,大部分是根據顏色對比、紋理、形狀等特征來實現檢測,有些檢測模型表現出較好的效果,能夠較完整地顯示顯著性區(qū)域。Itti等人[7]模擬了人類的視覺注意機制,將前景和背景的對比作為吸引人類注意的最顯著因素,提出了最初的顯著性檢測模型,雖然能較準確地定位到目標,但是目標結構的完整性較差。Li等人[8]以背景作為預測的信息,把邊界作為背景信息的線索來構建不同的背景圖,該方法能較好應用在顯著性目標和圖像邊界不相交的場景中。圖像中的區(qū)域對比度的差異性也是引起人類視覺注意力的重要因素,對比度越大的目標更能引起人類視覺的注意,Cheng等人[9]利用此先驗信息結合全局對比和局部對比提出了一種適合于簡單場景的檢測模型。Chen等人[10]通過空間濾波和頻譜調制的等價性解釋了典型頻率顯著性模型的內在機理。在此基礎上,提出了一種基于多空間Gabor濾波器傅里葉變換的頻率顯著性模型,在一定程度上加快了檢測的效率。Yang等人[11]以前景和背景為線索,通過基于圖的流形排序對圖像元素與前景線索或背景線索的相似性進行排序來度量像素的顯著性,該模型的準確性和效率較高。在顯著性檢測中引入貝葉斯模型可以有效地提高檢測的準確性,Qin等人[12]提出一種基于自動細胞機的顯著性檢測模型,該模型利用貝葉斯模型進行優(yōu)化得到較好的結果。
上述檢測模型雖然能較好地檢測出顯著性區(qū)域,但是當背景復雜或者顯著性區(qū)域的特征與背景區(qū)域的特征接近時,檢測到的目標區(qū)域完整性較差。同時,檢測結果中包含了大量的背景信息。針對上述模型的不足,本文分析傳統(tǒng)顯著性檢測模型存在的問題,提出一種結合背景區(qū)域的連通性和與背景的相似性等特征進行貝葉斯優(yōu)化的顯著性檢測模型。首先對原始圖像進行超像素分割預處理。其次利用背景信息的連通性建立背景連通圖作為先驗概率,再利用每個像素塊與背景信息的差異性建立背景可區(qū)分顯著圖作為先驗概率。然后用流排序算法建立預估計顯著圖,利用經典的Harris算法對該顯著圖進行角點檢測形成凸包,根據顏色直方圖計算似然概率。最后利用傳統(tǒng)的貝葉斯模型度量每個像素的顯著性,并進行優(yōu)化生成最終的顯著圖。本文算法的流程如圖1所示。
圖1 本文算法流程圖
SLIC算法是目前對圖像進行分割處理的最優(yōu)方法之一,能很好地把圖像分割成特征均勻的超像素特征塊。超像素是由特征相似的像素構成的集合,利用超像素進行圖像處理,可以加快處理的效率,在很多圖像預處理中得到廣泛的應用。本文利用SLIC算法對原始圖像進行超像素分割處理,分割成數量為N的超像素塊,每個超像素的特征由該超像素所包含的像素求平均得到。本文基于文獻[11]的思想,以超像素塊為節(jié)點,以相鄰2個超像素的連線為邊E來構造一個有權無向圖G=
(1)
其中,dCIE(pi,pj)為超像素pi與pj在CIELab顏色空間中的顏色特征差,本文用歐氏距離來度量,參數σCIE取10。
Zhu等人[13]在基于魯棒背景檢測的顯著性優(yōu)化模型中利用背景信息與邊界的關系尋找背景信息,能較好地篩選出圖像中的背景區(qū)域。自然圖像中的目標區(qū)域與背景區(qū)域在空間布局上存在較大差異,顯著目標區(qū)域一般與圖像邊界的接觸長度沒有背景區(qū)域大,即目標區(qū)域與圖像邊界的關聯遠小于背景區(qū)域與圖像邊界的關聯,背景信息與圖像邊界的連通性較好。因此根據與圖像邊界關聯度來度量每個超像素屬于背景的可能性來生成基于背景信息的連通圖BC(pi),區(qū)域的連通圖由該區(qū)域的面積和與邊界的接觸邊長決定,計算公式如下:
(2)
式(2)中,Area(pi)表示區(qū)域的面積,計算公式為:
其中:dgeo(pi,pj)表示2個超像素之間的測地距離;N為超像素個數,本文取400;參數σclr取10;Lengthb(pi)是一個區(qū)域與圖像邊界相交的長度,計算公式為:
(4)
其中,Bnd為邊界超像素集合。如果一個超像素屬于邊界,則δ(·)取1,否則取0。
最后根據關聯度來計算每個超像素屬于背景的可能性,計算公式如下:
(5)
本文中,參數σBC取1。
雖然通過背景與邊界的連通性能較好地突出顯著目標,但是在自然圖像中,當目標區(qū)域和圖像邊界相交的邊長較大時,利用連通性來度量像素的顯著性,一般會加入背景信息。因為,此時和圖像邊界相交部分更多的是顯著性區(qū)域,而背景信息與邊界相交的區(qū)域少。為了解決上述問題,本文利用文獻[14]的思想,通過估計每個邊界超像素的背景性,即對圖像的4個邊界是否為背景信息進行評估。一般情況下,和顯著性區(qū)域相交的邊界與和背景相交的邊界差異性較大,基于差異性可以有效地區(qū)分圖像的4個邊界是否具有背景性,根據評估的結果來建立可區(qū)分邊界背景圖。此方法有效地解決了把邊界等概率地處理而導致目標區(qū)域不完整的問題。算法的基本過程如下。
首先,構建與圖像邊界相交的超像素集合Bn(n=1,2,3,4),計算圖像中每個超像素pi與集合Bn的特征差,計算公式為:
(6)
其中:d(pi,Bn)表示每個超像素與集合Bn之間的差值,用測地距離來計算;參數σb取1。
其次,采用Hausdorff距離對圖像各邊界是否存在目標區(qū)域進行評估,Hausdorff距離的計算公式如公式(7)。
Ha(Bn,Bm)=max(h(Bn,Bm),h(Bm,Bn))
(7)
(8)
(9)
最后將得到的背景信息圖進行合并生成可區(qū)分邊界的背景圖DBi。
(10)
通過上述計算得到了基于背景連通的顯著圖和基于可區(qū)分邊界的背景圖。這2種圖中,都包含了大量的背景信息,如果直接將兩者合并來計算最終顯著圖,會引入大量的背景信息,使最終的檢測結果不準確。貝葉斯模型是一種性能較優(yōu)的優(yōu)化模型,在圖像處理領域中得到了廣泛的應用,并表現出較好的效果。本文為了進一步抑制背景信息,利用該模型對背景連通圖和可區(qū)分邊界背景圖進行融合優(yōu)化來度量每個像素的顯著性P(b)。
(11)
P(b)=1-P(sa)
(12)
公式(11)中,P(sa)表示超像素為前景信息的先驗概率,P(sa|y)是超像素y為前景信息的概率,P(b)是超像素為背景信息的先驗概率,P(y|b)和P(y|sa)分別是超像素為背景信息和前景信息的似然概率。
(b) ECSSD
(b) ECSSD
1)先驗概率的計算。
本文選擇將背景連通圖和可區(qū)分邊界圖作為先驗概率,即:
(13)
(14)
2)計算似然概率。
文獻[11]提出的流行排序算法以圖像的4個邊界為背景線索,通過構建圖模型來計算每個節(jié)點的相關性,根據相關性的大小進行排序生成4個邊界對應的顯著圖,融合優(yōu)化得到最終的顯著圖,該方法能較好地檢測到顯著性目標區(qū)域,也是目前傳統(tǒng)顯著性檢測方法中效果最好的模型之一。為了更準確地提取顯著性區(qū)域,本文利用文獻[11]的方法來計算似然概率,基本過程如下。
①構建圖G=
②選取矩陣W中的元素ωij構成一個對角矩陣D=diag{d11,…,dnn},dii=∑ωij。利用流形排序函數計算查詢的最優(yōu)排名,流形排序函數如下:
(15)
式(15)最終化簡可以表示為:
f*=(D-αW)-1y
(16)
其中,參數α=1/(1+μ)。
(17)
最后將得到的4個顯著圖進行合并形成一個粗糙的顯著圖SM。
SM=Stop(i)Sbottom(i)Sleft(i)Sright(i),i=1,…,N
(18)
③利用Harris算法對顯著圖SM進行處理,構建凸包。
文獻[15]結合Harris算法對經過加強處理后的原圖像進行角點檢測構造凸包,當圖像內容簡單時,能產生較好的效果。但是當背景復雜時,會引入大量背景信息,甚至會遺漏目標區(qū)域,影響檢測結果的準確性。因此本文不直接利用Harris算法對原圖像進行角點檢測,而是利用Harris算法對圖SM進行角點檢測來生成凸包,選取SM中顯著性區(qū)域作為似然概率。因為在SM中背景信息已經得到較好的抑制,以角點為節(jié)點構造凸包來選取顯著性區(qū)域。凸包把圖像分成凸包內和凸包外2個區(qū)域,凸包內的區(qū)域G一般屬于顯著性區(qū)域,凸包外的區(qū)域R一般屬于背景區(qū)域[16],可以根據每個超像素與凸包內的區(qū)域G和凸包外的區(qū)域R的關系來度量顯著性。如果一個超像素與凸包內的區(qū)域G的特征越接近,與包外的區(qū)域R的特征差別越大,說明該超像素屬于前景信息的概率就越大。本文在CIELab顏色空間中計算顏色直方圖作為區(qū)域的特征。則超像素的似然概率計算如下:
(19)
(20)
其中,FG(f(y))是在區(qū)域G中顏色f(y)對應的顏色直方圖的值,FR(f(y))是在區(qū)域R中顏色f(y)對應的顏色直方圖的值,NG、NR是2個區(qū)域中所包含的超像素的個數。
(21)
通過貝葉斯模型第一次篩選優(yōu)化后,得到了2個優(yōu)化后的初始顯著圖。雖然結果較好,但是顯著圖SM在構建凸包時,如果生成的凸包沒有很好地包含所有目標區(qū)域,會導致檢測的結果不準確。如果凸包包含太多的背景信息,也會影響結果的準確性。為了提高檢測的準確性和顯著性區(qū)域的完整性,抑制背景信息的顯示,本文利用文獻[17]的方法對初始顯著圖進一步優(yōu)化生成最終的顯著圖S(i,j)。
(22)
S(i,j)=Sinitial(i,j)·2(S(i,j)/Savg-1)
(23)
其中,W是圖像的寬,H是圖像的高。
本文在2個公開的數據集ECSSD和MSRA1000上測試算法的有效性。ECSSD和MSRA1000數據集是目前使用最多的數據集,分別由1000張復雜的自然圖像構成,該數據集可以有效地驗證算法的結果。實驗環(huán)境為:Windows 10系統(tǒng),i7-9750H CPU。選用的對比算法分別是Ctr[13]、SF[18]、GS[19]、MR[11]。對比算法是目前顯著性檢測中性能較優(yōu)的模型[20],所有算法的運行平臺為Matlab 2018Rb。
本文從每種算法生成的效果圖進行定性分析。圖2是從2種數據集中選取的8張圖像,每種圖像的特點各不相同,GT圖是真值圖。第1幅圖中顯著目標(腿)比較明顯,從生成的效果圖來看,本文生成的顯著區(qū)域更加完整,效果優(yōu)于其他算法。第2幅圖的顯著目標是蒲公英,目標顏色接近背景,檢測難度較高,在幾種算法中,本文算法生成的結果更加接近GT圖。第3幅圖的目標是三葉草中位于中間位置的葉子,該三葉草的其他2片葉子是非顯著目標,而這2個非顯著目標與顯著目標的顏色相同,從生成的效果圖來看,本文算法較完整地檢測出了目標區(qū)域。其他算法的結果中都包含了大量的背景信息。第4幅圖中有4個顯著目標,4個目標的顏色特征各不相同,5個對比算法的結果中,僅有本文算法較為完整地凸顯出目標區(qū)域,其他算法的結果把最右邊的目標丟失。第5、6、7幅圖中顯著目標區(qū)域的特征非常接近背景,本文算法相比其他算法表現出較好的效果。第8幅圖的顯著目標的大部分與圖像邊緣接觸,Ctr、SF、GS、MR算法生成的顯著圖中,把與邊界相交的顯著性區(qū)域與背景融合。本文算法由于利用可區(qū)分邊界,在一定程度上不依賴邊界,這樣很好地防止目標區(qū)域被融合。綜上所述,通過效果圖可以看出本文算法比其他算法效果更好。
圖2 對比算法的實驗效果
定量分析采用通用的PR曲線以及準確率Precision、召回率Recall和綜合指標F-measure,在大量的文獻中已驗證了該測試指標的有效性[21-23]。分別計算每個算法的準確率Precision、召回率Recall和綜合指標F-measure,并繪制PR曲線進行定量比較。綜合評價指標F-measure、準確率Precision和召回率Recall計算公式如下:
(24)
(25)
(26)
其中,GT(x,y)是真值圖中顯著性區(qū)域,S(x,y)是算法生成的顯著性區(qū)域,β2取0.3。
圖3和圖4分別是在2種數據集進行測試后生成的PR曲線和準確率Precision、召回率Recall和綜合指標F-measure的柱狀圖。從圖中可以看出,本文算法的PR曲線在其他4種對比算法之上,準確率Precision、召回率Recall和綜合指標F-measure均高于其他算法,本文算法表現出較好的性能。
(a) MSRA1000
(a) MSRA1000
表1中是5種算法在MSRA1000數據集上平均處理每幅圖片需要的時間。本文算法的處理時間略高于其他算法,但是本文算法的檢測結果都要高于其他算法。
表1 算法運行時間對比
本文為了抑制背景信息對顯著性目標檢測的影響,基于先進的顯著性檢測思想,以背景信息為線索,以貝葉斯模型為優(yōu)化模型,提出了一種性能較優(yōu)的顯著性檢測算法。分別通過提取和優(yōu)化的過程,不斷抑制背景信息的顯示,提高了顯著性區(qū)域的完整性。在2種復雜度不同的數據集上進行測試,并與先進的算法對比,本文算法在一定程度上提高了顯著性檢測的準確性。
由于底層特征對檢測存在一定的制約性,對于背景更復雜的圖像,準確性有待進一步提高。在今后的研究中,考慮加入高級語義信息,進一步提高算法的準確性。