梁曄,于劍
近年來,隨著互聯(lián)網(wǎng)和信息行業(yè)的發(fā)展,全球已經(jīng)進入了大數(shù)據(jù)時代。同時,數(shù)碼設(shè)備的普及和社交網(wǎng)站的流行導致了社交圖像爆炸式地增長,已經(jīng)成為了一種重要的圖像類型。Yahoo的社群圖像分享網(wǎng)站Flickr、社交媒體網(wǎng)站Facebook、Google的社交視頻分享網(wǎng)站、Youtube都是目前最具有代表性的社交網(wǎng)站。以Flickr為例,每分鐘上傳到網(wǎng)站上的圖像超過兩千張,每天上傳到網(wǎng)站上的圖像超過兩百萬張。據(jù)統(tǒng)計,社交網(wǎng)站Facebook平均每天新增圖像數(shù)量超過1億張,其總數(shù)量已經(jīng)超過1 000億張;Flickr圖像總量超過了60億張;圖像分享移動應用Instagram圖像數(shù)量超過10億張。然而,相對于海量的圖像數(shù)據(jù),計算資源是有限的,如何對海量的圖像進行有效的管理成了亟待解決的問題。顯著性檢測的相關(guān)研究和應用[1]帶來了很好的解決方案。顯著性檢測就是讓計算機模擬人類的視覺注意力機制,對處理的圖像進行自動信息篩選,將有限的資源分配給重要信息,提高處理速度,提升資源利用率。顯著性檢測是多學科交叉的研究領(lǐng)域,涉及心理學、神經(jīng)科學、生物視覺和計算機視覺等相關(guān)領(lǐng)域,有重要的理論價值和實際應用意義,是目前研究的熱點。
本文關(guān)注社群圖像的顯著區(qū)域檢測問題,目前對此領(lǐng)域的研究不多,主要貢獻有:
1) 提出了基于深度學習的顯著區(qū)域檢測方法。該方法針對社群圖像帶有標簽的特點,采取兩條提取線:基于CNN特征的顯著性計算和基于標簽的語義計算。較目前流行的檢測方法,本文的檢測精度有一定的提升。
2) 構(gòu)建了面向社群圖像的帶有標簽信息的顯著性數(shù)據(jù)集,新建數(shù)據(jù)集來自于NUS-WIDE數(shù)據(jù)集中的多個類,包含多個標簽、圖像前景和背景差異性小,為面向社群圖像的顯著區(qū)域檢測方法提供了新的實驗數(shù)據(jù)。
在顯著性快速發(fā)展的幾十年里,涌現(xiàn)了大量的顯著區(qū)域檢測方法。隨著GPU等硬件資源的發(fā)展和大規(guī)模訓練圖像集的涌現(xiàn),基于深度神經(jīng)網(wǎng)絡(luò)的顯著區(qū)域提取近年來受到廣泛的關(guān)注。深度學習可以從大數(shù)據(jù)中自動學習特征的表示,學習得到的特征能夠刻畫問題內(nèi)部本質(zhì)結(jié)構(gòu),檢測結(jié)果比基于人工設(shè)計特征的提取方法有較大的提高。伴隨著顯著區(qū)域檢測方法的研究,也涌現(xiàn)了多個顯著性數(shù)據(jù)集。就目前的研究現(xiàn)狀來看,面向社群圖像的顯著區(qū)域檢測方法目前的研究不多。
已有的研究顯示了層次和深度體系結(jié)構(gòu)對顯著區(qū)域檢測建模有重要的作用。文獻[2]提出了層次結(jié)構(gòu)進行顯著區(qū)域檢測,減少了小尺寸顯著區(qū)域?qū)z測結(jié)果的影響。文獻[3]在檢測顯著區(qū)域之前將圖像進行了多尺度分割,形成層次結(jié)構(gòu),取得了較好的檢測效果。多層次顯著性檢測的優(yōu)點是考慮了圖像多尺度的特點,解決了單一分割的局限性,從一定程度上考慮了顯著區(qū)域大小不一的現(xiàn)象。但是這些工作仍然存在缺陷,在計算顯著性時采用的特征仍是人工設(shè)計的特征,并且劃分層次的數(shù)量也很難有科學的解釋。
隨著研究的深入,研究人員將深度體系結(jié)構(gòu)應用到顯著區(qū)域檢測中。文獻[4]通過無監(jiān)督的方法學習多個中層的濾波器集合進行局部的顯著性檢測,并且和卷積網(wǎng)絡(luò)得到的中層檢測結(jié)果進行融合。文獻[5]采用卷積神經(jīng)網(wǎng)絡(luò)得到圖像的多尺度特征,包括局部區(qū)域塊、它的鄰域區(qū)域塊和整幅圖像,進行顯著區(qū)域的檢測。文獻[6]訓練了兩個深度卷積網(wǎng)絡(luò):一個用于檢測局部顯著圖,另一個用于檢測全局顯著圖,然后將兩種顯著圖進行融合。文獻[7]采用全局上下文信息和局部區(qū)域信息相融合的方法實現(xiàn)顯著區(qū)域檢測。深度學習除了具有層次結(jié)構(gòu)之外,還能自動學習特征,學習到的特征明顯優(yōu)于人工設(shè)計的特征,正因如此,基于深度學習的方法已經(jīng)在顯著區(qū)域檢測中取得了明顯的效果。當然,基于深度學習的檢測方法具有深度學習固有的缺點,比如網(wǎng)絡(luò)結(jié)構(gòu)尚且無法做出合理的解釋、參數(shù)眾多調(diào)節(jié)費時等缺點。
標簽的語義雖然在圖像標注領(lǐng)域已經(jīng)得到了廣泛應用,但是,標簽信息通常和顯著區(qū)域檢測任務(wù)分開處理,在顯著區(qū)域檢測上的應用不多。
和本文工作最相關(guān)的是文獻[8]和文獻[9],均用到了標簽信息。文獻[8]將標簽排序任務(wù)和顯著區(qū)域檢測任務(wù)整合在一起,迭代地進行標簽排序和顯著區(qū)域的檢測任務(wù);文獻[9]提出Tag-Saliency模型,通過基于層次的過分割和自動標注技術(shù)進行標注。這兩個工作的共同缺點是顯著區(qū)域標注效果依賴于區(qū)域標注,采用的多示例學習方法不容易泛化;而且,二者均沒有考慮標簽之間的上下文關(guān)系。本文的工作和這兩篇文獻不同,是把標簽的語義信息轉(zhuǎn)化為RCNN特征。由于RCNN技術(shù)是基于卷積神經(jīng)網(wǎng)絡(luò)的,所以本文的方法更能改善檢測性能。
從關(guān)于顯著性數(shù)據(jù)集的相關(guān)文獻來看,顯著性數(shù)據(jù)集主要來自于兩個領(lǐng)域:為了顯著性研究而建立的數(shù)據(jù)集[2-3,10-12];從圖像分割領(lǐng)域延伸過來的顯著性數(shù)據(jù)集[13-14]。這些數(shù)據(jù)集有的以矩形框方式進行顯著區(qū)域標注,更多的是以像素級進行顯著區(qū)域的標注,還有的通過眼動儀進行視點的標注。然而隨著社群圖像的快速增加,目前針對社群圖像的帶有標簽信息的顯著性數(shù)據(jù)集研究不多,本文針對此問題構(gòu)建面向社群圖像的顯著性數(shù)據(jù)集。
本文提出的基于深度學習的顯著區(qū)域檢測方法針對社群圖像帶有標簽的特點,系統(tǒng)框架中采取兩條提取線:基于CNN特征的顯著性計算和基于標簽的語義計算,并將二者的結(jié)果進行融合,融合的顯著圖通過全連接的CRF模型進行一致性空間優(yōu)化,獲得最終顯著圖。主要處理流程如圖1所示。
圖1 系統(tǒng)流程圖Fig. 1 System flow chart
在處理流程中,要解決的重點問題是如何提取圖像的CNN特征、如何計算標簽的語義特征。
2.2.1 網(wǎng)絡(luò)結(jié)構(gòu)
負責CNN特征提取的深度網(wǎng)絡(luò)采用Hinton的學生Alex Krizhevsky在2012年ILSVRC競賽中的8層卷積神經(jīng)網(wǎng)絡(luò)[15],包括5個卷積層、2個全連接層和1個輸出層。網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。網(wǎng)絡(luò)的最下面為檢測的圖像,圖像的上面表示要提取特征的區(qū)域。
圖2 網(wǎng)絡(luò)結(jié)構(gòu)Fig. 2 Network structure
5個卷積層負責多尺度特征的提取,為了實現(xiàn)平移不變性,卷積層后面采用最大池化操作;特征自動學習的特征均包含4 096個元素;第1層全連接層和第2層全連接層后均通過修正線性單元ReLU(rectified linear units)進行非線性映射。修正線性單元ReLU[15]對每個元素進行如下操作:
在輸出層采用softmax回歸模型得出圖像塊是否顯著的概率。
2.2.2 網(wǎng)絡(luò)訓練與測試
采用公開的Caffe[16]框架,利用研究工作[15]的網(wǎng)絡(luò)參數(shù)進行初始化,然后利用來自目標數(shù)據(jù)集的圖像對參數(shù)進行微調(diào)。
在圖像中,顯著區(qū)域具有獨特性、稀缺性,和鄰域具有明顯差異的特點。受文獻[5]啟發(fā),為了有效地計算顯著性,本文考慮了3種圖像區(qū)域塊間的差異:圖像塊和鄰域的差異;圖像塊和圖像邊界的差異;圖像塊和整幅圖像的差異。在利用卷積神經(jīng)網(wǎng)絡(luò)特征提取時,提取了4種區(qū)域的特征:1)采樣的矩形區(qū)域;2)矩形區(qū)域的鄰接區(qū)域;3)圖像的邊界區(qū)域;4)圖像中去除矩形區(qū)域的剩余區(qū)域。4種區(qū)域的示例圖如圖3所示。
圖3 4種區(qū)域示例圖Fig. 3 Four regional cases
圖3 (a)中的黑色區(qū)域代表當前區(qū)域;圖3(b)中的白色區(qū)域代表黑色區(qū)域的相鄰區(qū)域;圖3(c)中的白色區(qū)域代表圖像的邊界區(qū)域;圖3(d)中的白色色區(qū)域代表去掉黑色區(qū)域后的剩余區(qū)域。
對訓練集中的每幅圖像,采用滑動窗口方式進行采樣,采樣為51×51的區(qū)域塊,采樣步幅為10像素,得到用于網(wǎng)絡(luò)訓練的區(qū)域塊,并采用和文獻[4]相同的標注方法對采樣區(qū)域塊進行標注。如果圖像塊中至少70%的像素在基準二值標注中為顯著,則這個圖像塊被標注為顯著,否則標注為不顯著。
在測試的時候,通過卷積神經(jīng)網(wǎng)絡(luò)提取圖像區(qū)域相關(guān)的4種特征,然后通過訓練好的模型預測各個區(qū)域為顯著區(qū)域的概率。
圖像的標簽可以分為兩大類:場景標簽和對象標簽。對象為圖像中顯著區(qū)域的可能性非常大?;诖耍诨跇撕灥恼Z義計算中關(guān)注對象標簽。
估計一個區(qū)域?qū)儆谔囟▽ο蟮母怕蕪囊欢ǔ潭壬戏从吵龃藚^(qū)域為顯著區(qū)域的可能性。因此,區(qū)域?qū)儆谔囟▽ο蟮母怕士煽醋黠@著性的先驗知識。
RCNN技術(shù)是一種簡單、可擴展的對象檢測方法,基于卷積神經(jīng)網(wǎng)絡(luò)的,在圖像分類、對象檢測和圖像分割等領(lǐng)域取得了優(yōu)異的性能。本文采用RCNN[17]技術(shù)檢測區(qū)域?qū)儆趯ο蟮母怕省?/p>
標簽語義特征計算的主要思路為利用RCNN抽取的特征計算每個像素的語義特征。
假設(shè)有X個對象檢測子,對于第k個對象檢測子,具體計算過程如下。
1) 選取最可能包含特定對象的N個矩形框;
3) 第k個對象檢測子檢測完畢后,圖像中的像素包含檢測子對象的可能性,如果像素被包含在第i個矩形框里,則,否則。
X個對象檢測子都檢測完畢后,每個像素得到X維特征。X維特征歸一化后表示為,。的每一維代表像素屬于每一類特定對象的概率。
計算得到的基于標簽的語義特征用于輔助顯著性的計算。
假設(shè)基于CNN特征的顯著圖為SD,基于RCNN技術(shù)檢測到的標簽語義為T,二者融合如下。
式中S表示融合后的顯著圖。
在融合過程中,標簽語義相當于先驗,對顯著值起到加權(quán)的作用。
在圖像分割領(lǐng)域,研究人員采用全連接的CRF模型對分割結(jié)果進行分割區(qū)域和邊緣的平滑。借鑒文獻[20]中的解決方法,本文采用全連接的CRF模型對顯著圖進行空間一致性優(yōu)化。
能量函數(shù)定義如式(4):
本文從NUS-WIDE數(shù)據(jù)集采用如下篩選條件進行圖像的篩選。
1) 顯著區(qū)域和整幅圖像的顏色對比度小于0.7;
2) 顯著區(qū)域尺寸豐富,要求占整幅圖像的比例覆蓋 10 個等級,[0, 0.1)、[0.1, 0.2)、[0.2, 0.3)、[0.3,0.4)、[0.4, 0.5)、[0.5, 0.6)、[0.6, 0.7)、[0.7, 0.8)、[0.8,0.9)、[0.9, 1];
3) 至少有10%的圖像中的顯著區(qū)域和圖像邊界相連。
最終確定5 429幅圖像作為數(shù)據(jù)集,來自于38 個文件夾,包括 carvings、castle、cat、cell_phones、chairs、chrysanthemums、classroom、cliff、computers、cooling_tower、coral、cordless cougar、courthouse、cow、coyote、dance、dancing、deer、den、desert、detail、diver、dock、close-up、cloverleaf、cubs、dall,dog、dogs、fish、flag、eagle、elephant、elk、f-16、facade、fawn。
矩形框級別的標注不能準確地定位對象邊緣,標注結(jié)果不精確。本文采用像素級別的二值標注。
選取了5個觀察者進行標注。不同用戶標注結(jié)果通常存在不一致的現(xiàn)象。為了減少標注的不一致性,計算每個像素標注的一致性分值。
最后,兩個觀察者使用Adobe Photoshop手動從圖像中分割出顯著區(qū)域。
NUS-WIDE數(shù)據(jù)集提供了81個基準標簽集。新構(gòu)建的數(shù)據(jù)集標簽來自于81個基準標簽集,共78個標簽。每幅圖像包含1~9個標簽。
以本文構(gòu)建的數(shù)據(jù)集為實驗對象,選擇20個對象標簽,包括 bear、birds、boats、buildings、cars、cat、computer、coral、cow、dog、elk、fish、flowers、fox、horses、person、plane、tiger、train、zebra;選取和對象標簽相對應的20個對象檢測子進行RCNN特征提取,選取2 000個包含對象概率最大的矩形框。
采用Cafffe框架[16]進行深度卷積神經(jīng)網(wǎng)絡(luò)的訓練和測試。通過隨機下降方法進行訓練,每次迭代參與的樣本數(shù)量(batch)為256;沖量值(momentum)為0.9;正則化項的權(quán)重為0.000 5;學習率初始值為0.01,當損失穩(wěn)定的時候?qū)W習率以0.1的速度下降;對每層的輸出采用比率為0.5的drop-out操作來防止過擬合;訓練迭代次數(shù)為80次。
實驗對比了27種流行的顯著區(qū)域檢測方法,包括 HS[2]、DRFI[3]、SMDF[5]、LEGS[6]、MCDL[7]、FT[14]、BL[18]、RFCN[19]、CB[21]、SEG[22]、RC[23]、SVO[24]、LRR[25]、SF[26]、GS[27]、CA[28]、SS[29]、TD[30]、MR[31]、PCA[32]、HM[33]、GC[34]、MC[35]、DSR[36]、SBF[37]、BD[38]和SMD[37]。這些檢測方法涵蓋范圍特別廣泛。
本文的檢測方法簡稱為DBS。
在定量的性能評價中,采用當前流行的性能評價指標:1)查準率和查全率曲線(PR曲線);2)F-measure值;3)受試者工作特征曲線(ROC Curve);4)AUC值(ROC曲線下面的面積);5)平均絕對誤差(MAE)。
與27種流行方法比較,實驗結(jié)果如表1和圖4、5所示。
表1 本文方法與27種流行方法的比較Table 1 Compare with 27 popular methods
表1中,F(xiàn)_measure、AUC和MAE排在前3位的為4種目前流行的深度學習方法SMDF[5]、LEGS[6]、MCDL[7]、RFCN[19]和本文的DBS方法。在某種程度上可以說深度學習的檢測方法超過了非深度學習的檢測方法,精度上有所提高。其中,DBS方法的AUC值是最高的,DBS方法的F-measure值是最高的,DBS的MAE值是最低的,所以DBS方法的性能最佳。
PR曲線圖和ROC曲線圖如圖4和5所示。DBS的PR曲線和ROC曲線均高于其他所有方法。
圖4 PR曲線圖Fig. 4 PR curves
圖5 ROC曲線圖Fig. 5 ROC curves
選擇典型圖像和27種流行方法進行視覺效果的對比,如圖6所示。
27種流行方法的檢測結(jié)果存在如下問題:1)存不完整的現(xiàn)象,如 SMDF[5]、LRR[25]、GS[27];2)存在包含非顯著區(qū)域的現(xiàn)象,如 LEGS[6]、RFCN[19]、SS[29]、TD[30];3)存在邊界模糊不清的現(xiàn)象,如SEG[22]、SVO[24]、SS[29];4)存在只高亮地顯示邊緣的現(xiàn)象,如CA[27]、PCA[31]。此外,流行的深度學習檢測方法的檢測性能也不盡相同,原因在于輸入到到網(wǎng)絡(luò)圖像塊的上下文信息不同,學習到的特征不一樣,導致對比度的計算結(jié)果也不同。
本文方法綜合考慮了CNN深度特征和標簽語義特征,保證了本文方法得到的顯著區(qū)域相對完整、均勻高亮。
圖6 DBS 方法與27種流行方法的視覺效果比較圖Fig. 6 Visual comparison between DBS with 27 popular methods
圖6 中圖像出現(xiàn)的順序為:原始圖像、標準二值標注、BL[18]、CA[28]、CB[21]、DRFI[3]、DSR[36]、FT[14]、GC[34]、GS[27]、HM[33]、HS[2]、LEGS[6]、LRR[25]、MC[35]、MCDL[7]、MR[31]、PCA[32]、BD[38]、RC[23]、RFCN[19]、SBF[27]、SEG[22]、SF[26]、SMD[37]、SMDF[5]、SS[29]、SVO[24]、TD[30]、DBS。
本文提出了基于深度學習的顯著區(qū)域檢測方法,該方法面向帶有標簽的社群圖像,將標簽信息納入到顯著區(qū)域的提取方法中?;谏疃葘W習的特征包括CNN特征和標簽特征。此外,隨著社群圖像的快速發(fā)展,文本構(gòu)建了面向社群圖像的帶有標簽信息的顯著性數(shù)據(jù)集,為面向社群圖像的顯著區(qū)域檢測研究提供了新的實驗數(shù)據(jù)。大量的實驗證明了所提方法的有效性。
[1]XIAO Chuanmin, SHI Zelin, XIA Renbo, et al. Edge-detection algorithm based on visual saliency[J]. Information and control, 2014, 43(1): 9–13.
[2]YAN Qiong, XU Li, SHI Jianping, et al. Hierarchical saliency detection[C]//Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Portland, OR, USA, 2013: 1155–1162.
[3]JIANG Huaizu, WANG Jingdong, YUAN Zejian, et al. Salient object detection: a discriminative regional feature integration approach[C]//Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Portland, OR, USA, 2013: 2083–2090.
[4]LIN Yuetan, KONG Shu, WANG Donghui, et al. Saliency detection within a deep convolutional architecture[C]//Workshops at the 28th AAAI Conference on Artificial Intelligence. Québec City, Canada, 2014.
[5]LI Guanbin, YU Yizhou. Visual saliency based on multiscale deep features[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Boston, MA, USA, 2015: 5455–5463.
[6]WANG Lijun, LU Huchuan, RUAN Xiang, et al. Deep networks for saliency detection via local estimation and global search[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston,MA, USA, 2015: 3183–3192.
[7]ZHAO Rui, OUYANG Wanli, LI Hongsheng, et al. Saliency detection by multi-context deep learning[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA, 2015: 1265–1274.
[8]WANG Wen, LANG Congyan, FENG Songhe. Contextualizing tag ranking and saliency detection for social images[M]//LI Shipeng, EL SADDIK A, WANG MENG, et al. Advances in Multimedia Modeling. Berlin Heidelberg,Germany: Springer, 2013: 428–435.
[9]ZHU Guokang, WANG Qi, YUAN Yuan. Tag-saliency:combining bottom-up and top-down information for saliency detection[J]. Computer vision and image understanding, 2014, 118: 40–49.
[10]LIU Tie, SUN Jian, ZHENG Nanning, et al. Learning to detect a salient object[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Minneapolis, Minnesota, USA, 2007: 1–8.
[11]LI Jian, LEVINE M D, AN Xiangjing, et al. Visual saliency based on scale-space analysis in the frequency domain[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(4): 996–1010.
[12]MARTIN D, FOWLKES C, TAL D, et al. A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics[C]//Proceedings of the 8th IEEE International Conference on Computer Vision. Vancouver, BC, USA,2001, 2: 416–423.
[13]BATRA D, KOWDLE A, PARIKH D, et al. iCoseg: Interactive co-segmentation with intelligent scribble guidance[C]//Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). San Francisco,CA, USA, 2010: 3169–3176.
[14]ACHANTA R, HEMAMI S, ESTRADA F, et al. Frequency-tuned salient region detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Miami, FL, USA, 2009: 1597–1604.
[15]JIA Yangqing, DEVELOPER L, SHELHAMER E. Caffe[N/OL]. [2016-11-12]. http://caffe.berkeleyvision.org/,2013.
[16]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]//Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, Nevada, USA, 2012: 1097–1105.
[17]GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Columbus, OH, USA, 2014: 580–587.
[18]TONG Na, LU Huchuan, RUAN Xiang, et al. Salient object detection via bootstrap learning[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, MA, USA, 2015: 1884–1892.
[19]WANG Linzhao, WANG Lijun, LU Huchuan, et al. Saliency detection with recurrent fully convolutional networks[C]//Proceedings of the 14th European Conference Computer Vision–ECCV 2016. Cham, Germany, 2016:151–157.
[20]KR?HENBüHL P, KOLTUN V. Efficient inference in fully connected CRFs with Gaussian edge potentials[C]//Proceedings of the 24th International Conference on Neural Information Processing Systems. Granada, Spain, 2012:109–117.
[21]JIANG Huaizu, WANG Jingdong, YUAN Zejian, et al.Automatic salient object segmentation based on context and shape prior[C]//Proceedings of the British Machine Vision Conference (BMVC). Dundee, Scotland, 2011:1–12.
[22]RAHTU E, KANNALA J, SALO M, et al. Segmenting salient objects from images and videos[C]//Proceedings of the 11th European Conference on Computer Vision (EC-CV). Crete, Greece, 2010: 366–379.
[23]CHENG Mingming, ZHANG Guoxin, MITRA N J, et al.Global contrast based salient region detection[C]//Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI, USA, 2011: 409–416.
[24]CHANG K Y, LIU T L, CHEN H T, et al. Fusing generic objectness and visual saliency for salient object detection[C]//Proceedings of the 2011 IEEE International Conference on Computer Vision (ICCV). Barcelona, Spain, 2011:914–921.
[25]SHEN Xiaohui, WU Ying. A unified approach to salient object detection via low rank matrix Recovery[C]//Proceedings of the 2012 IEEE International Conference on Computer Vision and Pattern Recognition (CVPR). Providence, Rhode Island, USA, 2011: 853–860.
[26]PERAZZI F, KR?HENBUHL P, PRITCH Y, et al. Saliency filters: contrast based filtering for salient region detection[C]//Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, Rhode Island, USA, 2012: 733–740.
[27]WEI Yichen, WEN Fang, ZHU Wangjiang, et al. Geodesic saliency using background priors[C]//Proceedings of the 12th European Conference on Computer Vision (ECCV).Florence, Italy, 2012: 29–42.
[28]GOFERMAN S, ZELNIK-MANOR L, TAL A. Contextaware saliency detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition(CVPR). San Francisco, CA, USA, 2010: 2376–2383.
[29]HOU Xiaodi, HAREL J, KOCH C. Image signature: highlighting sparse salient regions[J]. IEEE transactions on pattern analysis and machine intelligence, 2012, 34(1): 194–201.
[30]SCHARFENBERGER C, WONG A, FERGANI K, et al.Statistical textural distinctiveness for salient region detection in natural images[C]//Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Portland, Oregon, USA, 2013: 979–986.
[31]YANG Chuan, ZHANG Lihe, LU Huchuan, et al. Saliency detection via graph-based manifold ranking[C]//Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Portland, OR, USA, 2013:3166–3173.
[32]MARGOLIN R, TAL A, ZELNIK-MANOR L. What makes a patch distinct?[C]//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Portland, OR, USA, 2013: 1139–1146.
[33]LI Xi, LI Yao, SHEN Chunhua, et al. Contextual hypergraph modeling for salient object detection[C]//Proceedings of the 2013 IEEE International Conference on Computer Vision (ICCV). Sydney, NSW, Australia, 2013:3328–3335.
[34]CHENG Mingming, WARRELL J, LIN Wenyan, et al. Efficient salient region detection with soft image abstraction[C]//Proceedings of the 2013 IEEE International Conference on Computer Vision (ICCV). Sydney, Australia, 2013:1529–1536.
[35]JIANG Bowen, ZHANG Lihe, LU Huchuan, et al. Saliency detection via absorbing Markov chain[C]//Proceedings of the 2013 IEEE International Conference on Computer Vision (ICCV). Sydney, NSW, Australia, 2013:1665–1672.
[36]LI Xiaohui, LU Huchuan, ZHANG Lihe, et al. Saliency detection via dense and sparse reconstruction[C]//Proceedings of the 2013 IEEE International Conference on Computer Vision. Washington, DC, USA, 2013: 2976–2983.
[37]PENG H, LI B, LING H, et al. Salient object detection via structured matrix decomposition[J]. IEEE transactions on pattern analysis & machine intelligence, 2017, 39(4):818–832.
[38]ZHU Wangjiang, LIANG Shuang, WEI Yichen, et al. Saliency optimization from robust background detection[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Columbus, OH,USA, 2014: 2814–2821.