趙悉超,劉政怡,李 煒
1.安徽大學 計算智能與信號處理教育部重點實驗室,合肥 230601
2.安徽大學 計算機科學與技術(shù)學院,合肥 230601
3.安徽大學 信息保障技術(shù)協(xié)同創(chuàng)新中心,合肥 230601
在過去幾年中,人們一直在探索人類的視覺注意力機制,并在這一領(lǐng)域做出了很多卓著的工作。其中的顯著性檢測是使機器視覺系統(tǒng)具有這樣的能力,即自動地選擇單個圖像中的顯著區(qū)域。然而,隨著大規(guī)模的圖像數(shù)據(jù)和無處不在的互聯(lián)網(wǎng)時代的到來,使得人們的注意力從單一圖像轉(zhuǎn)移到圖像組[1]。協(xié)同顯著性檢測是突出顯示圖像組的共同的前景對象[2],它是視覺顯著性檢測的一個新分支,并且是一個具有挑戰(zhàn)性的任務,因為單個圖像中的特定顯著對象在圖像組中可能不夠突出。協(xié)同顯著區(qū)域具有兩種性質(zhì):(1)每張圖片的協(xié)同顯著區(qū)域與其周圍相比應該具有較強的局部顯著性;(2)所有的協(xié)同顯著區(qū)域應該是相似的[3]。協(xié)同顯著性檢測近年來得到了廣泛的研究與應用,例如圖像/視頻協(xié)同分割[2]、視頻興趣動作提取[4]、圖像/視頻協(xié)同定位[5]。
協(xié)同顯著性模型從檢測一對圖像之間的協(xié)同顯著對象開始。文獻[6]利用顯著對象引起的局部結(jié)構(gòu)變化來獲得協(xié)同顯著性,從而獲得圖像對的協(xié)同顯著圖。在文獻[7]中,協(xié)同顯著性被表述為使用三個可用顯著性模型的單幅圖像顯著性圖和基于多層圖的多圖像顯著性的組合。協(xié)同顯著性檢測不限于圖像對。在文獻[8]中,使用聚類性對比線索和空間線索用于檢測協(xié)同顯著區(qū)域。Li 等人[9]將區(qū)域級融合和像素級細化相結(jié)合,以生成最終的協(xié)同顯著圖。而協(xié)同顯著性檢測方法[7-9]將協(xié)同顯著物體檢測問題轉(zhuǎn)化為圖像對顯著性傳播問題,該問題利用每對圖像之間的相似性,在一張圖像的顯著圖的指導下尋找另一張圖像中與其具有共同屬性的區(qū)域。文獻[10]通過將改進流形排序算法引入圖像顯著性檢測模型中,生成協(xié)同顯著圖。文獻[11]介紹了通過融合前景和背景先驗生成協(xié)同顯著圖的方法。Yu等人[12]提出了一種新的自下而上的方法來檢測圖像協(xié)同顯著值。當然,關(guān)于學習方法在協(xié)同顯著性檢測領(lǐng)域也取得了許多成就,如Zhang等人提出的文獻[4,11,13]分別以自適應多實例學習和深度學習進行協(xié)同顯著檢測;文獻[14]則采用端到端的群組式完全卷積網(wǎng)絡進行協(xié)同顯著性檢測;而文獻[15]則是通過結(jié)合深度學習和種子傳播方式進行協(xié)同顯著性檢測;文獻[16]將對象級和區(qū)域級處理相結(jié)合,以檢測一組圖像中的協(xié)同顯著對象;文獻[17]則是將協(xié)同顯著性檢測分解為兩個子問題,通過兩階段多視圖光譜旋轉(zhuǎn)共聚類。這些文獻都不同程度上獲得一定的效果。
盡管上述基于種子傳播與圖模型的協(xié)同顯著性檢測方法獲得了優(yōu)異的性能,但它們有兩個主要缺點:(1)準確的種子點是模型預測的基石,然而對于處理真實世界圖像時,由于圖像組中圖像隨著光照、視角等條件變化時,容易出現(xiàn)混淆前景和背景的情況,傳統(tǒng)顯著性檢測方法不可避免地獲得不準確的顯著種子點,錯誤引導了傳播算法,限制了協(xié)同顯著性檢測的性能。(2)現(xiàn)有的方法都是模擬節(jié)點對之間的關(guān)系,忽略了多個頂點之間的高階信息,導致頂點之間的關(guān)系可能是次優(yōu)的,以及顯著性種子點在不完備的節(jié)點關(guān)系中傳播,限制了協(xié)同顯著性檢測的性能。
為了克服這些缺點和限制,本文提出了一個基于超圖的種子點傳播的協(xié)同顯著性檢測框架,所謂超圖是有別于傳統(tǒng)的圖的構(gòu)造,圖像的邊構(gòu)造基于一定的規(guī)則,這部分內(nèi)容會在后面文章做詳解。該無監(jiān)督的檢測方法主要基于兩個人類先驗,即前景的圖像間一致性和圖像內(nèi)凸包約束性。本文的算法框架如圖1 所示。從左到右依次是:首先,不可忽視深度學習技術(shù)在顯著性檢測領(lǐng)域中的快速發(fā)展,本文利用深度學習技術(shù)獲取顯著性檢測的更加精準的顯著種子點;其次,提取每個超像素的特征以構(gòu)建超圖模型,超圖的高階信息捕獲了更全面的上下文信息,因此提高了檢測協(xié)同顯著對象的能力;然后,每張圖像通過其他n-1 張圖像對其顯著性傳播生成該圖像的協(xié)同顯著圖組,其個數(shù)為n-1 張;接著將該圖像自身的顯著圖與上述生成的協(xié)同顯著圖組經(jīng)過融合,獲得初始的結(jié)果;最后,利用圖像內(nèi)顯著性約束抑制背景,增強前景,提高協(xié)同顯著性檢測模型的性能,融合兩者的顯著圖獲得滿意的結(jié)果。本文的主要貢獻為:
(1)提出了基于相似性的顯著性傳播方案的協(xié)同顯著性檢測,然后是精確的查詢,其帶來深層次信息以發(fā)現(xiàn)顯著圖的更高級屬性,并且將超圖建模引入到協(xié)同顯著性檢測的過程中。超圖是一種豐富的結(jié)構(gòu)化超像素圖像表示,通過它們的上下文而不是它們的個體值來建模。
(2)基于具有興趣點的圖像內(nèi)約束來估計顯著對象的空間位置帶來的位置信息,以抑制非常見部分與真實場景中被錯誤恢復的背景。
(3)在Cp和iCoseg基準數(shù)據(jù)集進行實驗,并與其他先進方法比較,證明了本文方法的優(yōu)勢。
接下來在第2章中詳細介紹本文的方法,并在第3章中給出相應的實驗結(jié)果分析。
Fig.1 Algorithm framework圖1 算法框架
在本文提出的方法中,每個超像素充當一個頂點,構(gòu)造超圖G=(V,E,w)來表示超像素之間的高階關(guān)系,其中頂點集合定義為V,超邊集為E。
超邊的權(quán)重是一個恒正的值,定義為W(e)。超圖的關(guān)聯(lián)矩陣H可以定義如下:
其中,關(guān)聯(lián)矩陣H的維度為|V|×|E|,它的含義是表示頂點屬于哪個超邊,因此它可以表示頂點和超邊界之間的關(guān)系。在本文的協(xié)同顯著性超圖模型中,將每個頂點作為“質(zhì)心”,并使用基于Lab特征描述符計算的相似性距離。每個“質(zhì)心”vi依據(jù)相似性距離選擇與其連接的k個鄰近頂點vj所在的超邊ej,同時連接的權(quán)重被賦予二值化描述非1 即0,從定義可以看出,超邊的權(quán)重w(ei)恒為常數(shù)k。依據(jù)關(guān)聯(lián)矩陣,如下公式將定義每個頂點的度d(v)和超邊的度δ(e)為:
設D(v)、D(e)、V分別代表頂點度矩陣、超邊度矩陣以及超邊權(quán)重。傳統(tǒng)的圖模型(成對節(jié)點表示)是超圖模型的一種特列,當超圖模型中每個超邊僅含有兩個節(jié)點時就是傳統(tǒng)的圖模型。圖2 展示了超圖模型的一個示例,直觀地解釋了如何構(gòu)建超圖模型。圖中的二維空間中展示了7個點,并將它們分配給7個超邊。左側(cè)是傳統(tǒng)圖模型,其中兩個節(jié)點通過邊相互連接;中間圖表示同樣的節(jié)點用超圖的關(guān)系,表達模型超邊取最近臨近k=2;右側(cè)是中間超圖對應的關(guān)聯(lián)矩陣,如果超邊界ej包含vj,則將關(guān)聯(lián)矩陣H(i,j)設置為常數(shù)1,反之為0。不同于成對節(jié)點不能很好地挖掘節(jié)點與節(jié)點之間以及節(jié)點與邊之間的關(guān)系,超圖可以根據(jù)關(guān)聯(lián)矩陣將節(jié)點群包圍成一個緊密聯(lián)系的子集合即為超邊。因此,超圖能夠發(fā)掘隱藏在節(jié)點中的豐富信息。
Fig.2 Example of hypergraph and its corresponding hypergraph matrix H圖2 超圖及其對應的超圖關(guān)聯(lián)矩陣H示例
協(xié)同顯著性檢測的目的是提取相關(guān)圖像中的協(xié)同顯著區(qū)域。協(xié)同顯著區(qū)域不僅在每個單獨的圖像中顯著,而且通常出現(xiàn)在一組相關(guān)圖像中。因此,“顯著”和“協(xié)同”是共同反映協(xié)同顯著性j的定義的兩個關(guān)鍵屬性。將協(xié)同顯著性檢測重新定位為簡單分類任務,即將圖像中的每個區(qū)域/超像素分類為協(xié)同顯著區(qū)域還是非協(xié)同顯著區(qū)域。本文提出的算法首先使用預先訓練的深度顯著性檢測模型為每個圖像生成單顯著圖Tˉ。然后使用超像素分割算法(SLIC)將圖像組分割為一組超像素。設為m-th 圖像的k-th超像素顯著值,其由超像素對應的像素值的平均值計算而來。r(v)和r(u)分別是頂點v和u的協(xié)同顯著分數(shù),其中r∈[0,1]。定義查詢向量y=[y1,y2,…,yu,…,yz]以引入超像素的標記信息并將其初始顯著性標簽分配給y的相應元素。y(u)是頂點u的標簽值,其中假設第i張圖像為查詢圖像,則若節(jié)點,則y(u)=1 是指第v個超像素是顯著節(jié)點,標簽為1,反之亦然。若節(jié)點u屬于待預測圖像中的超像素則也賦值為0。h(u,e)和h(v,e)分別表示u和v是否屬于超邊e。w(e)/δ(e)可以被看作是超邊e的歸一化權(quán)重。協(xié)同顯著性分數(shù)預測值r(u)可以通過以下公式預測得到:
從公式中可以看出,第一項是指兩個頂點v和u屬于同一超邊的概率比較高,并且這些超邊具有較高權(quán)重,則這些頂點的協(xié)同顯著性值應該更接近。第二項是流行排序項,是指最終預測的標記節(jié)點的值應該逼近原始查詢的標簽。為了最小化代價函數(shù),通過以下公式求解最優(yōu)值r:
其中,類比于標準圖拉普拉斯矩陣來定義超圖拉普拉斯矩陣[10,18]為在獲得Γ之后,預測標簽r可以由以下公式求得:
其中,I是維數(shù)等于總節(jié)點數(shù)的單位矩陣,α是權(quán)重參數(shù),在實驗中將其設置為0.5。直接將每個顯著圖中的超像素的標簽構(gòu)成查詢向量,預測剩余圖像的節(jié)點標簽,即r向量??傊?,查詢y非常重要。不準確的查詢可能導致不滿意的結(jié)果。在這項工作中,深入考慮了查詢點在計算超像素的協(xié)同顯著性傳播時的重要性,因此采用深層的基于深度學習的顯著性網(wǎng)絡生成顯著圖,學習準確的查詢點標簽向量y以提高協(xié)同顯著性檢測性能。
對于傳統(tǒng)的圖模型來說,簡單地將超圖的拉普拉斯矩陣轉(zhuǎn)移為簡單圖拉普拉斯矩陣可以實現(xiàn)轉(zhuǎn)移學習。超邊結(jié)構(gòu)本質(zhì)上含有兩個或兩個以上超像素上的內(nèi)在聯(lián)系信息。即,如果兩個超像素在多個超邊中具有較高的出現(xiàn)頻率,則它們傾向于共享更多的視覺特性并且具有更高的視覺相似性。在本文的實驗部分中,直觀地比較了基于傳統(tǒng)圖模型的協(xié)同顯著性檢測和本文方法的性能。從中可以看出后者更有效。
本文通過上述方法獲得了顯著種子傳播圖。眾所周知,如果超像素是共同顯著的,它將在大多數(shù)顯著種子傳播圖中出現(xiàn)更多的頻率。基于此原理,融合公式定義如下:
其中,M是一組中的圖像數(shù)。rep(k)被定義為計算超像素k在M個圖像中被分類為共同顯著的次數(shù)。對于一張圖像來說,該策略將來自于不同查詢圖像對該圖像利用上述算法引導生成的M-1張圖像以及自身的顯著圖進行融合,獲得精細的協(xié)同顯著性結(jié)果。
如圖1 所示,圖像間協(xié)同性檢測傳播圖,獨立計算每個超像素的協(xié)同顯著性得分,缺乏完全抑制背景的能力。在圖像內(nèi)顯著性約束部分,主要關(guān)注如何抑制由上述方法產(chǎn)生的具有高顯著分數(shù)的背景節(jié)點。由于每個圖像不僅包含每個超像素的特征信息,還包含節(jié)點的空間分布之間的相互關(guān)系。因此,設計了改進的凸包方法[18]以獲得空間分布圖。最優(yōu)的凸包應該能夠提供顯著對象的粗略位置。首先計算一個包圍興趣節(jié)點的凸包,以估計顯著區(qū)域的位置。然后使用凸包的邊緣作為起點來獲得基于凸包的空間興趣點分布圖。通過以下公式生成圖像中超像素的顯著性值:
其中,μr表示第r個超像素的平均位置,μr是RGB圖像中的上述顯著部分的空間分布的邊界點。從方程(8)中可以發(fā)現(xiàn),當值距離凸包中的最近點時,它的值更小。
最后結(jié)合基于超圖的跨圖像顯著性傳播和圖像內(nèi)顯著性約束來融合生成圖像的最終協(xié)同顯著圖:
如果超像素r屬于協(xié)同顯著對象,則預測值接近1,如果被視為背景,則接近0。最終結(jié)果在增強和抑制背景方面獲得了顯著的提高,達到了最接近人類視覺系統(tǒng)觀測的結(jié)果。
本文的算法流程如下所示:
初始化:
通過式(1)計算超圖G的關(guān)聯(lián)矩陣H;
通過式(2)計算超圖節(jié)點度矩陣D(v);
通過式(3)計算超圖邊度矩陣D(e);
通過式(6)預測未標記標簽的協(xié)同顯著值;
通過式(7)融合生成的M-1 張圖像以及自身的顯著圖,得到圖像間協(xié)同顯著圖Sinter;
通過式(8)得到圖像內(nèi)協(xié)同顯著圖Sintra;
通過式(9)融合圖像間和圖像內(nèi)的協(xié)同顯著圖,得到最終的S協(xié)同顯著圖。
3.結(jié)束。
在兩個基準數(shù)據(jù)集上評估了所提出的算法:Cp數(shù)據(jù)集[19]和iCoseg 數(shù)據(jù)集[20]。前者包含105 個圖像對,后者包含38個圖像組,總共643個圖像。類似于文獻[20-21],采用4 個標準來評估本文方法的性能,即PR(precision-recall)曲線、ROC(receiver operating characteristic)曲線、F-measure 曲線、MAE(mean absolute error)。PR 曲線、ROC 曲線和F-measure 曲線是由一系列閾值T生成,閾值T在0到255之間變化。
實驗中,每個圖像利用SLIC算法分割為ni個超像素塊,其中SLIC 算法的初始分割數(shù)量預定義為200。在顯著性檢測數(shù)據(jù)集(DUT-OMRON,MSRA10K)上預訓練的深度學習網(wǎng)絡DHSnet網(wǎng)絡被用來生成初始顯著圖,式(4)中μ=1。
使用所提出的模型來生成Cp數(shù)據(jù)集上的協(xié)同顯著圖。將所提出的模型與三種較先進的協(xié)同顯著性檢測方法進行比較,即CG[19]、CB[8]和EMR[10]。對于主觀評價,圖3 中顯示了部分實驗示例,其中包含4 個圖像組中的示例,即鱷魚、狗、交通標志和公共汽車。比如CB 無法檢測出協(xié)同顯著區(qū)域的輪廓如前兩列的鱷魚檢測效果,而EMR 方式存在錯誤抑制協(xié)同顯著區(qū)域如后兩列卡車的檢測效果圖,CG存在顯著值不平滑問題,可以看出,本文提出的框架明顯提高了協(xié)同顯著性檢測的性能。
對于定量評估,實驗結(jié)果如圖4 所示。對于Fmeasure曲線縱軸表示F-measure值,橫軸表示[0,255]閾值。與其他方法相比,本文的PR曲線和ROC曲線是最優(yōu)的。此外,本文模型中的F-measure的最高得分為0.9,并且在大部分區(qū)間內(nèi)[0,240]取得了最高的F-measure值。此外,如表1所示,本文所提出的方法獲得最低的MAE分數(shù)。因此本文提出的框架相比于其他的現(xiàn)存方法在4種評價指標上均有明顯提高。
Table 1 MAE scores on Cp dataset表1 Cp數(shù)據(jù)集上的MAE對比
對于另一個廣泛使用的iCoseg 數(shù)據(jù)集,相比Cp數(shù)據(jù)集,本文方法在主觀性和客觀性方面與8個現(xiàn)存流行的協(xié)同顯著性檢測模型進行了比較,因為這些方法相關(guān)作者已提供相關(guān)結(jié)果集或代碼,包括HS[7]、CB[8]、EMR[10]、CSLDW[4]、CSDR[22]、SP-MIL[13]、TS[16]、MVSRC[17]。兩個圖像組的示例結(jié)果如圖5所示。前一組的協(xié)同顯著目標是一只隱藏在灌木叢中的豹子,即使人眼也很難在豹子和灌木叢之間做精確的細節(jié)和邊緣區(qū)分,但是本文方法可以有效地勾勒出來豹子的邊緣。對于后一組,協(xié)同顯著對象是在操場上玩耍的女孩們,從圖像組中可以看到橙色和黑色經(jīng)常出現(xiàn)在女孩的衣服和背景中?;诘图壧卣鞯膫鹘y(tǒng)方法不足以區(qū)分前景和背景,導致協(xié)同顯著性檢測結(jié)果令人不滿意。而從圖5中可以看到,本文方法達到了與真實的標簽圖像最接近的結(jié)果。從HS和CSLDW 的效果圖可以看出這兩個方法都沒能把非協(xié)同限制區(qū)域抑制住,導致協(xié)同顯著區(qū)域的輪廓未能檢測出來。CB將大部分背景區(qū)域抑制了,但是同時也將協(xié)同顯著區(qū)域也抑制住了,EMR 缺點是對非協(xié)同顯著區(qū)域的抑制不夠充分,CSDR會錯誤將協(xié)同顯著區(qū)域抑制住,而本文方法的效果圖要好很多。由于SP-MIL、TS、MVSRC等相關(guān)文獻工作者未能提供代碼或結(jié)果集,因此未能實現(xiàn)質(zhì)量效果對比及繪制相應的PR曲線和ROC曲線。
Fig.3 Comparison effect of 4 detection models on Cp dataset圖3 4種檢測模型在Cp數(shù)據(jù)集上的對比效果
Fig.4 Comparative experiment of 4 detection models on Cp dataset圖4 4種檢測模型在Cp數(shù)據(jù)集上的對比實驗
對于定量評估,使用PR 曲線、ROC 曲線和Fmeasure測量曲線,如圖6所示。雖然本文PR曲線和ROC 曲線并不總是超過其他曲線,但它們在很寬的閾值范圍內(nèi)都表現(xiàn)很出色。對于F-measure測量,本文模型實現(xiàn)了最高的F-measure 值為0.88,而算法模型HS、CB、EMR、CSLDW、TS、SPMIL、MVSRC、CSDR的F-measure值分別為0.755 1、0.754 1、0.819 4、0.798 5、0.834 0、0.814 3、0.810 0、0.817 6。結(jié)果表明,本文方法具有一定閾值的顯著對象分割的最佳性能。此外,從表2中可以看出,與其他方法相比,本文模型中MAE的值顯著降低。
Fig.5 Comparison effect of 6 detection models on iCoseg dataset圖5 6種檢測模型在iCoseg數(shù)據(jù)集上的對比效果
Fig.6 Comparative experiment of 6 detection models on iCoseg dataset圖6 6種檢測模型在iCoseg數(shù)據(jù)集上的對比實驗
本節(jié)實驗用來展示框架中每個部分的效果。為了公平起見,實驗中只進行了一個因素的更改。從圖7 和表2 中可以看到:(1)與基于像素級別的方法EMR 相比較,所提出的具有超像素級別(Proposed-NS)的框架的性能取得了更好的結(jié)果。(2)在不使用深度學習單顯著性模型(Proposed-ND)來產(chǎn)生初始顯著性查詢的情況下,本文提出框架(Proposed)的MAE得分從0.085大幅增加到0.147。(3)相比基于標準圖模型協(xié)同顯著性檢測方法(Proposed-NHG),在結(jié)合超圖后,本文提出的方法3個評估指標得到顯著提高。(4)相比沒有圖像內(nèi)的凸包約束的模型(Proposed-NIMC),本文提出協(xié)同顯著性檢測方法獲得更高的性能。它可以抑制遠離凸包的背景區(qū)域并增強前景區(qū)域。除此之外,雖然所提出的沒有圖像內(nèi)空間分布約束(Proposed-NIMC)的模型比Proposed更差,但它仍然獲得了比其他現(xiàn)有方法更令人滿意的性能。
Table 2 MAE scores on iCoseg dataset表2 iCoseg數(shù)據(jù)集上的MAE對比
Fig.7 Comparison of algorithm models on iCoseg dataset圖7 在iCoseg數(shù)據(jù)集上的算法模型分析對比
本文提出了一種新穎而有效的協(xié)同顯著性檢測方法。設計了一種圖像間顯著性傳播和圖像內(nèi)的位置約束條件,通過融合兩者的結(jié)果最終產(chǎn)生了基于超像素級別的協(xié)同顯著性檢測結(jié)果。兩個基準數(shù)據(jù)集的定性和定量評估也表明,所提出的協(xié)同顯著性模型優(yōu)于較先進的協(xié)同顯著性檢測模型。在以后協(xié)同顯著性檢測的研究過程中,可以通過深度學習框架提取更深層次的特征,或者提取能體現(xiàn)一組圖像中的協(xié)同信息的特征,這樣再結(jié)合本文算法進行構(gòu)圖,最終的實驗效果會更好。