鄭海軍,吳建國,劉政怡+
1.安徽大學(xué) 計(jì)算智能與信號處理教育部重點(diǎn)實(shí)驗(yàn)室,合肥 230601
2.安徽大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,合肥 230601
3.安徽大學(xué) 信息保障技術(shù)協(xié)同創(chuàng)新中心,合肥 230601
眾多學(xué)者已經(jīng)提出了許多可以定位圖像中可見的物體或區(qū)域的顯著檢測方法[1-3]。近年來,協(xié)同顯著檢測越來越吸引人們的注意。協(xié)同顯著檢測將圖像分為協(xié)同顯著區(qū)域、非協(xié)同區(qū)域和背景。協(xié)同顯著區(qū)域具有兩種性質(zhì):(1)每張圖片的協(xié)同顯著區(qū)域與其周圍相比應(yīng)該具有較強(qiáng)的局部顯著性;(2)所有的協(xié)同顯著區(qū)域應(yīng)該是相似的。非協(xié)同區(qū)域指單張圖像是顯著的,但在一組圖像中與其他顯著區(qū)域相比差異較大,需要被抑制為背景的區(qū)域。因此,協(xié)同顯著檢測是在圖像集中找到共同的顯著目標(biāo)同時(shí)將個(gè)別的顯著目標(biāo)抑制為背景[4-7]的方法。協(xié)同顯著檢測廣泛地應(yīng)用于許多計(jì)算機(jī)視覺方面,如協(xié)同分割[8]、協(xié)同識別[9]、匹配[10]等。
多張圖像的協(xié)同顯著檢測方法已經(jīng)在多個(gè)方面得到發(fā)展。Liu等在文獻(xiàn)[5]中從分層分割的圖像,在精細(xì)尺度的分割下定義區(qū)域?qū)Ρ染€索和相似度線索,在粗糙尺度下計(jì)算目標(biāo)先驗(yàn),整合這些線索得到協(xié)同顯著圖。李等在文獻(xiàn)[6]中提出了一種由查詢引導(dǎo)的兩級顯著檢測,通過流形排序獲得圖像集的引導(dǎo)性顯著圖。
低秩矩陣分解策略被廣泛應(yīng)用于協(xié)同顯著目標(biāo)檢測,低秩矩陣分解是將一個(gè)矩陣分解成代表背景的低秩矩陣和代表目標(biāo)的稀疏矩陣。Ye等在文獻(xiàn)[7]中提出了一個(gè)有效協(xié)同顯著目標(biāo)恢復(fù)策略。黃睿等在文獻(xiàn)[11]提出了高斯混合模型生成協(xié)同先驗(yàn),使用融合策略得到協(xié)同顯著檢測結(jié)果。Cao等在文獻(xiàn)[12]中計(jì)算自適應(yīng)加權(quán)值來融合單張顯著圖,使用秩約束獲得協(xié)同顯著圖。但是,當(dāng)?shù)椭染仃嚭拖∈杈仃囅鄬σ恢拢@著目標(biāo)和背景相似或具有復(fù)雜的背景時(shí),低秩矩陣恢復(fù)策略很難解決這些問題。
基于顏色特征聚類的方法在協(xié)同顯著檢測領(lǐng)域被深度應(yīng)用。付等在文獻(xiàn)[4]中提出了基于顏色特征聚類的方法,在類的層次上整合對比、空間和一致性線索,融合單張檢測結(jié)果和協(xié)同檢測結(jié)果得到最終顯著圖。Hwang等在文獻(xiàn)[13]提出基于聚類和傳播的協(xié)同顯著檢測方法,通過類的一致性和前景概率計(jì)算類的協(xié)同顯著值,再通過兩個(gè)階段的傳播得到最終的顯著值。但是,類的一致性會(huì)將分布較廣的背景誤識為顯著目標(biāo)。
為解決上述問題,本文提出一種基于特征權(quán)重的低秩矩陣分解模型和聚類一致性的協(xié)同顯著檢測算法。為了更好區(qū)分低秩背景和稀疏目標(biāo),在低秩矩陣分解模型中加入一個(gè)拉普拉斯正則項(xiàng)。使用直方圖表示顯著區(qū)域,計(jì)算相似矩陣表示直方圖之間的差異性信息,將特征權(quán)重融入拉普拉斯正則項(xiàng),并以此得到加權(quán)顯著圖。此外,簡單的類的分布不能很好地體現(xiàn)協(xié)同一致性,相同類的顯著值應(yīng)具有相似性,用聚類一致性得到協(xié)同顯著圖,并融合加權(quán)顯著圖,得到最終結(jié)果。
本文主要包括顯著區(qū)域提取、構(gòu)造直方圖和計(jì)算相似矩陣、低秩矩陣分解和聚類一致性4個(gè)主要部分。圖1為算法的流程圖。首先,圖1(b)、圖1(c)是對一組圖像分別生成基本顯著圖和超像素。本文引用多種顯著檢測方法如圖1(b),得出的顯著圖作為基本顯著圖。其次,在一組圖中,通過設(shè)置顯著閾值提取每個(gè)算法的顯著區(qū)域如圖1(e),將每個(gè)顯著區(qū)域的RGB顏色特征轉(zhuǎn)換成直方圖,所有的直方圖組合成一個(gè)特征矩陣H如圖1(f),并計(jì)算相似矩陣,通過低秩矩陣分解模型分解特征矩陣H得到噪音矩陣E如圖1(f)。結(jié)合加權(quán)值和相應(yīng)的基本顯著圖得到加權(quán)顯著圖如圖1(g)。對輸入圖進(jìn)行聚類如圖1(d),采用聚類一致性得到協(xié)同顯著圖,并融合加權(quán)顯著圖生成最終顯著圖如圖1(h)。
選取M種顯著檢測方法分別對N張圖像進(jìn)行處理得到N×M張顯著圖,1≤i≤N,1≤j≤M,i表示第i張圖像,j表示第j種方法,N表示輸入的圖像的數(shù)量。同時(shí)使用SLIC(simple linear iterative clustering)[14]分別對圖像進(jìn)行超像素分割得到超像素,代表的超像素?cái)?shù)量。設(shè)置閾值分別對顯著圖處理得到二值化圖:
其中,x∈Xi;mean(·)表示在超像素x中所有像素點(diǎn)在顯著圖的顯著值的平均值;表示中所有超像素的平均顯著值中最大的顯著值;α控制閾值,設(shè)置為0.3。
Fig.1 Algorithm flow chart圖1 算法流程圖
圖像Ii的顯著區(qū)域由第j種方法中的一組顯著的超像素構(gòu)成如圖1(e),如圖2所示,顯著區(qū)域定義如下:
選擇的M種顯著檢測方法本身具有誤差,因此提取的顯著區(qū)域包含協(xié)同區(qū)域、非協(xié)同區(qū)域和背景。
通過縱向觀察圖2,基于協(xié)同顯著的定義,N個(gè)顯著區(qū)域具有相似性和一致性,如圖2(b)所示。同理,通過橫向觀察M個(gè)顯著區(qū)域同樣具有相似性和一致性。為了衡量這種性質(zhì),引入三通道顏色直方圖表示每個(gè)顯著區(qū)域。顏色直方圖是基于RGB顏色分類的思想,每個(gè)顏色通道統(tǒng)一量化為10 bin,共有K=103bin,即將顯著區(qū)域上的像素點(diǎn)量化為1 bin到1 000 bin(即分成1 000類),再統(tǒng)計(jì)每個(gè)bin上的像素點(diǎn)數(shù)量并以此構(gòu)造一個(gè)顏色直方圖。將顯著區(qū)域產(chǎn)生的N×M個(gè)直方圖重新組合成一個(gè)特征矩陣H。
特征矩陣H代表的是顯著區(qū)域的顏色特征,顯著區(qū)域是相似的,因此在特征矩陣中屬于相同bin的數(shù)值也是相似的,但因?yàn)轱@著檢測方法并不是十分精準(zhǔn),所以即使相同bin也有差異性。本文引入相似矩陣W表示這種性質(zhì),類似于RGB三通道,將特征矩陣H的K-bins視作K個(gè)通道,通過歐式距離計(jì)算每個(gè)通道任意兩個(gè)bin的相似性,即相同bin情況下不同直方圖之間的差異,為突出不同直方圖之間的差異,對歐式距離進(jìn)行指數(shù)處理。
歐式距離的優(yōu)點(diǎn)是簡單高效,缺點(diǎn)是樣本的多個(gè)屬性對歐氏距離的貢獻(xiàn)是相同的。本文直方圖是將顯著區(qū)域每個(gè)像素點(diǎn)的RGB顏色特征統(tǒng)一量化,統(tǒng)計(jì)屬于相同bin的像素點(diǎn)數(shù)量,相似或相同的像素點(diǎn)屬于相同bin。每個(gè)通道任意兩個(gè)bin相似或相同,歐式距離越小表示相應(yīng)的兩個(gè)直方圖差異越小,越可能是協(xié)同顯著區(qū)域,反之亦然;采用指數(shù)函數(shù)對K個(gè)通道的歐式距離進(jìn)行加權(quán)優(yōu)化處理,凸顯相似或相同bin的歐式距離權(quán)重,減弱差異較大的歐式距離權(quán)重,權(quán)重wab定義為:
其中,ha代表H的第a行;||·||表示計(jì)算不同bin的歐氏距離;指數(shù)函數(shù)exp(·)加權(quán)處理歐氏距離;σ2=0.01。
Fig.2 Saliency regions extraction圖2 顯著區(qū)域提取
如圖2所示,從不同圖中提取的雕像具有相似的顏色特征和噪音背景天空,因此是處于低維空間的顯著區(qū)域和稀疏噪音的背景的結(jié)合。本文使用特征矩陣H描述特征。因此,對于提取的顯著區(qū)域,重新定義分布較廣的雕像為背景,定義稀疏的背景天空為目標(biāo),將特征矩陣H分解成兩個(gè)部分H=L+E,L代表分布較廣泛的背景部分,E代表稀疏目標(biāo)。中的一致性越高,H的秩越接近于1,E越稀疏。因此,將求矩陣的秩轉(zhuǎn)換成求噪音矩陣E的矩陣分解問題,低秩矩陣分解模型可以描述為:
其中,||·||0代表?0-norm(非零元素的個(gè)數(shù));λ是控制E的稀疏權(quán)重系數(shù)。使用拉普拉斯正則來增大矩陣H的差異性,即增大特征空間中的顯著目標(biāo)和背景的差異,因此式(4)轉(zhuǎn)化成:
其中,||·||?表示核范式(奇異值的和);||·||1表示?1-norm(元素絕對值的和);θ(·,·)表示的是增大L和E之間差異的拉普拉斯正則項(xiàng);β表示平衡參數(shù)。
通過使用正則項(xiàng),顯著目標(biāo)和背景更容易被區(qū)分。拉普拉斯正則項(xiàng)被定義為:
其中,li為L的第i列;tr(·)為矩陣的跡;W為相似矩陣。
解決凸包問題有多種方法,包括迭代閾值(iterative threshold,IT)方法[15]、加速近端梯度(accelerate proximal gradient,APG)方法[16]、對偶方法(dual method,DUAL)和交替方向方法[17](alternate direction method,ADM)。IT方法迭代形式簡單且收斂,但收斂速度較慢;APG方法和IT方法類似,但大大降低了迭代次數(shù);DUAL比APG方法具有更好的可拓展性;ADM比APG方法更快,而且可以達(dá)到較高的精度,需要較低的存儲空間。因此,本文采用ADM解決凸包問題。結(jié)合式(5)、式(6),引入輔助矩陣Z,式(4)可以描述為:
通過使用ADM求解式(7),式(7)相當(dāng)于最小化下面的增廣拉格朗日函數(shù):
其中,X1和X2是拉格朗日乘子;μ是正數(shù)約束;||·||F是Frobenius范式。
通過迭代優(yōu)化L、E和Z求解式(8),這3部分的最優(yōu)解并不是同時(shí)得到,而是在迭代中通過ADM交替得到。
2.4.1 更新L
固定E和Z,通過解決下面的問題在第(t+1)次迭代得到Lt+1:
其中,τ=1μt;Σ是奇異值;Tτ[·]是奇異值閾值。
2.4.2 更新Z
固定L和E,Zt+1的更新轉(zhuǎn)換成求解下面的最小問題:
推導(dǎo)式(9),可得:
推導(dǎo)式(11)得到Zt+1,描述為:
其中,I為單位矩陣。
2.4.3 更新E
固定L和Z,E的更新相當(dāng)于下面的問題:
使用具有相似矩陣的低秩矩陣分解方法,將特征矩陣H分解為更準(zhǔn)確的矩陣L和E。矩陣E可以視作特征矩陣H和低秩矩陣L之間的誤差,對進(jìn)行處理得到特征直方圖和圖像Ii之間的距離
通過K-means對圖聚類,聚類獲得的特征和本文使用K-means所獲得的特征是一致的,包括聚類中心、類在圖的分布和類中圖的像素點(diǎn)個(gè)數(shù)。K-means方法對初值較為敏感,為確保初值質(zhì)量采用最大距離聚類方法[18],隨機(jī)產(chǎn)生第一個(gè)聚類中心C1,C1是圖中一個(gè)像素點(diǎn)對象的RGB顏色特征,從所有像素點(diǎn)中選擇與C1的RGB顏色特征相同或相近的作為類C1的分布并更新C1;計(jì)算所有像素點(diǎn)的顏色特征與類C1的差異,選取最大差異的像素點(diǎn)作為C2,并選取與C2相同或相近的像素點(diǎn)作為C2的分布且更新C2;以此類推,直到選取C個(gè)聚類中心。最大距離聚類方法可以避免可能出現(xiàn)的聚類種子過于鄰近,但該方法對聚類中心C1敏感,因此采用多次實(shí)驗(yàn)隨機(jī)產(chǎn)生聚類中心C1,選擇最優(yōu)結(jié)果作為最終結(jié)果。
將Scos顯著值映射到相應(yīng)的像素點(diǎn)上,計(jì)算每個(gè)類的平均顯著值,得到第i張圖像中第j個(gè)類的平均顯著值
其中,Ci表示類的索引;C表示聚類的數(shù)量,設(shè)置為20;Ncj表示類Ci中像素點(diǎn)數(shù),1≤i≤N;Scos(p)表示類Ci中像素點(diǎn)p的顯著值。將每個(gè)相同類的顯著值相加除以C可以求得類平均顯著值平均顯著值越小,類是背景的可能性越大,反之亦然。
協(xié)同顯著檢測的目的是檢測多圖中協(xié)同顯著的部分,抑制非顯著部分和顯著但非協(xié)同部分,而且顯著非協(xié)同部分一定是分布比較少。為進(jìn)一步區(qū)分顯著非協(xié)同區(qū)域和顯著協(xié)同區(qū)域,對進(jìn)一步方差處理得出顯著分布權(quán)重w(c):
其中,w(c)∈RC×1;var(·)表示方差分布,即一組圖像中相同的類的顯著值分布的均勻情況,方差越大表示類的顯著值分布不均更可能是顯著非協(xié)同部分,方差越小表明顯著值分布均勻是顯著協(xié)同或者是非顯著部分的可能性更大。
實(shí)驗(yàn)在協(xié)同顯著研究領(lǐng)域應(yīng)用廣泛的iCoseg和iCosegSub[19]兩個(gè)公共數(shù)據(jù)集上評估本文方法。iCoseg數(shù)據(jù)集包括38組共643張圖像,每一組包括5到41張圖像。iCosegSub是iCoseg數(shù)據(jù)集的子集,每組包括5張圖像。這2個(gè)數(shù)據(jù)集都有人工標(biāo)注的真值圖像,有利于進(jìn)行客觀的評價(jià)。本文M設(shè)置為5,選取的算法包括 MR[1]、HS[2]、SM[3]、CB[4]和 LR[20]。實(shí)驗(yàn)對比本文算法和其他算法,分別評估Precision、Recall、F-measure以及運(yùn)行時(shí)間這幾個(gè)指標(biāo)。本文共選擇9種對比方法,其中包括5種協(xié)同顯著檢測方法CB[4]、EM[6]、CF[20]、CO[7]和 SA[12],4 種單張圖像的顯著檢測MR[1]、HS[2]、SM[3]、LR[21]。
實(shí)驗(yàn)平臺:所有程序都是在Intel Core i7 CPU 2.00 GHz,內(nèi)存4 GB的PC上實(shí)現(xiàn)。本文方法使用Matlab(R2016a),對比算法來自各作者提供的公開代碼或顯著圖。
查準(zhǔn)率表示正確檢測的顯著目標(biāo)與完全顯著目標(biāo)的百分比。查全率是指正確檢測顯著目標(biāo)的完整度與完全顯著目標(biāo)的百分比。當(dāng)Precision和Recall兩者值同時(shí)越大,表明算法的效果越好。但兩者之間存在制約關(guān)系,Precision大時(shí),Recall通常較小,反之亦然。因此,采用F-measure權(quán)衡兩者之間的關(guān)系,其定義如下:
其中,β2=0.3為常數(shù),用來控制查準(zhǔn)率和查全率的權(quán)值。
3.2.1 性能對比
本文與9種算法在iCoseg和iCosegSub數(shù)據(jù)集上進(jìn)行比較,其中,MR將圖的4條邊界作為種子進(jìn)行排序并獲得背景顯著圖,二值化背景顯著圖獲得前景種子,進(jìn)行顯著運(yùn)算獲得最終結(jié)果;HS將輸入分成3層,計(jì)算每層的顯著線索并將顯著線索融入分層模型得到最終結(jié)果;CB是基于顏色特征聚類的方法,整合了對比、空間和一致性線索的顯著檢測方法;LR利用低秩矩陣分解,將圖像分解成稀疏的顯著區(qū)域和低秩的背景;SMD將樹結(jié)構(gòu)嵌入低秩矩陣分解模型中;EM是由查詢引導(dǎo)的兩級顯著檢測方法,通過流形排序獲得圖像集的引導(dǎo)性顯著圖;CF是基于協(xié)同區(qū)域具有相似的顏色特征,將顏色特征稀疏編碼并計(jì)算協(xié)同引導(dǎo)圖,通過融合得到最終結(jié)果;SA是基于一致性能量和秩約束得到自適應(yīng)權(quán)重,加強(qiáng)顯著圖的協(xié)同區(qū)域的比重;CO有效地利用局部和全局恢復(fù)的協(xié)同顯著區(qū)域、邊界連通性,從而生成圖像集的協(xié)同顯著圖。使用查準(zhǔn)率、查全率和F-measure作為評價(jià)指標(biāo)。
iCosegSub數(shù)據(jù)集上的比較。圖3(a)、圖3(b)分別為PR曲線和評估直方圖。圖3(a)PR曲線顯示,本文算法整體優(yōu)于其他8種算法,圖3(b)所示為基于查準(zhǔn)率、查全率和F-measure的3個(gè)指標(biāo)的評估結(jié)果。評估直方圖表明,本文算法的查準(zhǔn)率達(dá)到0.899 5,高于其他8種算法,F(xiàn)-measure值低于算法EM和CF,但皆高于其他算法。
iCoseg數(shù)據(jù)集上的比較。圖4(a)、圖4(b)分別為PR曲線和評估直方圖。圖4(a)PR曲線顯示,本文算法整體優(yōu)于其他8種算法。圖4(b)所示為基于查準(zhǔn)率、查全率和F-measure的3個(gè)指標(biāo)的評估結(jié)果。評估直方圖表明,本文算法的查準(zhǔn)率高于第二名的CO近7%,F(xiàn)-measure值低于EM和CO,但皆高于其他算法。
本文算法的查準(zhǔn)率比其他算法高,但查全率較低,其原因是選擇的5種顯著檢測方法的檢測結(jié)果并不是十分準(zhǔn)確,加權(quán)顯著圖是對這些檢測誤差的部分修正,并且加權(quán)顯著圖的誤差也影響了聚類一致性的計(jì)算。查準(zhǔn)率高可以較準(zhǔn)確地定位顯著目標(biāo),查全率較低可能會(huì)丟失顯著目標(biāo)的部分區(qū)域。
3.2.2 質(zhì)量對比
圖5所示是本文算法與其他算法的質(zhì)量對比實(shí)驗(yàn)。圖5(a)來自于iCosegSub數(shù)據(jù)集,選擇1~3列和4~6列兩組圖像。圖5(b)來自于iCoseg數(shù)據(jù)集,選擇一組共31張圖像集中的10張圖像,其中的協(xié)同顯著目標(biāo)為穿紅色球衣的球員。相對于其他8種算法,本文算法能夠更好抑制較復(fù)雜的背景和顯著非協(xié)同區(qū)域,如圖5(a)第1和第2列穿紅色球衣的球員和復(fù)雜背景被抑制,圖5(b)中穿紅色球衣以外的球員被抑制,第1、2、5和6列的復(fù)雜背景被抑制。
Fig.3 Experimental results of different algorithms on iCosegSub database圖3 不同算法在iCosegSub數(shù)據(jù)集上的對比結(jié)果
Fig.4 Experimental results of different algorithms on iCoseg database圖4 不同算法在iCoseg數(shù)據(jù)集上的對比結(jié)果
3.2.3 運(yùn)行時(shí)間對比和分析
將本文方法分別與HS、MR、SM、LR、CB、CF、SA、CO、EM算法在數(shù)據(jù)集上進(jìn)行運(yùn)行時(shí)間的對比,結(jié)果如表1所示。本文運(yùn)行每幅圖片的平均時(shí)間為3.120 s,運(yùn)行時(shí)間相對于傳統(tǒng)方法偏高的原因是低秩矩陣分解模型處理數(shù)據(jù)較多,比傳統(tǒng)方法花費(fèi)更多的時(shí)間。本文方法的運(yùn)行時(shí)間少于同樣使用低秩矩陣分解模型的SM、LR、CO的時(shí)間。
在不計(jì)算聚類一致性的前提下,將引入具有相似矩陣的矩陣分解模型(LRMD-SM)和普通矩陣分解模型(LRMD)進(jìn)行比較,如圖6所示。本文的查準(zhǔn)率、查全率和F-measure分別為0.831 0、0.600 9和0.763 5高于未引入拉普拉斯項(xiàng)的矩陣分解模型,其查準(zhǔn)率、查全率和F-measure分別為0.821 7、0.588 3和0.752 8。
Fig.5 Quality contrast圖5 質(zhì)量對比
Table 1 Comparison of average run time表1 平均運(yùn)行時(shí)間對比
Fig.6 Low rank matrix decomposition model contrast圖6 低秩矩陣分解模型對比
本文發(fā)現(xiàn):即使基于某種方式獲取的顯著圖的效果很差,聚類一致性仍然可以提高顯著圖的查準(zhǔn)率和F-measure值。如圖7所示是使用本文的聚類一致性方式得到的顯著圖,對本文4種協(xié)同顯著算法進(jìn)行優(yōu)化的結(jié)果。從優(yōu)化結(jié)果上發(fā)現(xiàn)聚類一致性對4種算法的PR值有不同幅度的提高。說明聚類一致性方案是可行的,并且也是有效的。
在本文中,相似矩陣和聚類一致性被應(yīng)用于協(xié)同顯著檢測。提取的顯著區(qū)域的RBG顏色特征構(gòu)造了直方圖矩陣,由直方圖中相同bin的相似性構(gòu)造的相似矩陣被應(yīng)用于低秩矩陣分解中,獲得更精確的顯著目標(biāo)和背景。聚類一致性一組圖像中相同且顯著的類應(yīng)該具有一致性。在iCoseg和iCosegsub數(shù)據(jù)集上與8種方法進(jìn)行比較,結(jié)果顯示了本文算法的有效性和優(yōu)越性。
Fig.7 Clustering consistency optimization contrast algorithms圖7 聚類一致性優(yōu)化對比算法