葛 蕓,江順亮,葉發(fā)茂,許慶勇,唐祎玲( . 南昌大學 信息工程學院,南昌 33003;2. 南昌航空大學 軟件學院,南昌 330063 )
?
視覺詞袋和Gabor紋理融合的遙感圖像檢索
葛 蕓1,2,江順亮1,葉發(fā)茂1,許慶勇1,唐祎玲1
( 1. 南昌大學 信息工程學院,南昌 330031;2. 南昌航空大學 軟件學院,南昌 330063 )
摘要:針對高分辨率的遙感圖像,提出了一種視覺詞袋和Gabor紋理融合的圖像檢索方法。遙感圖像紋理信息豐富,局部關鍵點多,當圖像存在較多相似紋理時,視覺詞袋檢索準確率下降。將視覺詞袋和Gabor紋理融合在一起結合了局部特征和全局特征以及中層詞袋和底層紋理的優(yōu)點,可以改進遙感圖像的描述方式。實驗結果表明,通過合理地分配視覺詞袋和Gabor紋理的權重,特征融合的檢索性能與單一特征方法相比有較大提高,并優(yōu)于傳統(tǒng)的Gabor紋理和顏色矩融合方法。因此,視覺詞袋和Gabor紋理融合在遙感圖像檢索領域是一種有效的方法。關鍵詞:遙感圖像檢索;視覺詞袋;Gabor紋理;特征融合
近年來,隨著遙感技術的發(fā)展,遙感圖像分辨率不斷提高,數(shù)據(jù)量急速增長。如何有效地管理利用遙感圖像數(shù)據(jù),滿足用戶對數(shù)據(jù)的使用需求成為近年來研究的熱點。其中,從海量的遙感圖像中快速有效地檢索出感興趣的目標或場景成為急需解決的關鍵問題之一。
基于內容的圖像檢索(Content-Based Image Retrieval, CBIR)技術在遙感圖像中應用廣泛[1-2],遙感圖像紋理特征顯著,可以有效地區(qū)分不同的實體,在遙感圖像的檢索中有重要的作用[3-4]。顏色特征常和紋理等其他特征融合在一起進行圖像檢索[5]。從整幅圖像中提取的紋理和顏色等特征被稱為全局特征,其提取復雜度低,魯棒性強,但在復雜圖像中精確匹配效果不如局部特征。局部特征大多位于高維空間,數(shù)目眾多,局部特征可以通過聚類的方式構建成低維的視覺詞袋(Bag of Visual Words, BoVW)模型。視覺詞袋是中層特征,與顏色和紋理等底層特征相比,視覺詞袋能夠進一步縮小圖像檢索中的語義鴻溝。從視覺詞袋在遙感圖像檢索中首次應用來看[6],其檢索性能優(yōu)于基于顏色和紋理的檢索性能。
遙感圖像紋理信息豐富,局部關鍵點較多,當圖像存在較多相似紋理時,視覺詞袋檢索結果的準確性較低[7]。因此通過在視覺詞袋中融合紋理特征的方法來提高圖像檢索的準確率。遙感圖像中的目標一般比多媒體圖像中的目標尺度小得多,有時更需要關注圖像的全局信息,而局部特征最大的不足是缺少對圖像的整體描述。Gabor紋理能夠反映圖像的全局信息,基于局部特征的視覺詞袋和Gabor紋理融合在一起結合了全局特征和局部特征、中層詞袋特征和底層紋理特征的優(yōu)勢。因此本文將基于局部特征的視覺詞袋和全局Gabor紋理相融合并用于遙感圖像檢索。實驗結果表明,通過合理地分配特征的權重,特征融合的檢索性能比單一特征的檢索性能有較大提高,并優(yōu)于傳統(tǒng)的特征融合。
1.1 視覺詞袋
局部特征選用應用廣泛的尺度不變特征變換(Scale Invariable Feature Transformation, SIFT)[8]。將提取的遙感圖像的SIFT局部特征,通過k-means算法聚類,聚類后得到一個視覺詞典,詞典中的每個元素為一個視覺單詞,即聚類中心。最后,采用硬分配方法將圖像特征向量分配到距離最近的視覺單詞,統(tǒng)計圖像中各個視覺單詞出現(xiàn)的頻數(shù),得到一個圖像的視覺單詞向量,其維數(shù)為聚類中心的數(shù)目。構建視覺詞袋后特征向量表示為其中fi是聚類中心i出現(xiàn)的頻數(shù),k是聚類中心的數(shù)目。
1.2 Gabor紋理
Gabor濾波器獲得圖像紋理特征是一種有效的遙感圖像分析方法。具體的特征提取方法使用5個尺度,6個方向的Gabor濾波器對原始圖像進行Gabor變換,形成30幅圖像紋理表示,計算這30幅圖像的均值和方差,最終得到一個60維的特征向量,其中μij和ijσ分別代表相應的尺度和方向上的均值和方差。
2.1 歸一化
圖像各特征向量代表的物理意義往往不同,即使對于同一特征向量其各個分量的取值范圍也可能存在很大的差異,需對特征向量進行歸一化處理[9],特征向量內部歸一化的目的是使特征向量內部的不同分量在相似性度量時具有相同的地位。采用常用的高斯方法進行內部歸一化。用代表圖像庫中的m幅圖像,令一幅圖像Ii的某個l維特征向量為,將圖像庫中所有圖像的特征向量看成一個大小為m×l的矩陣F。計算F每一行特征分量對應的平均值μi和標準差iσ,通過式(1)將特征向量進行歸一化和平移,使得絕大部分的值在[0,1]范圍。
特征向量外部歸一化的目的是使不同的特征向量在相似性度量時具有相同的地位。對于任意查詢圖像q,根據(jù)相似性度量標準計算q與圖像庫中m幅圖像的相似度,對其進行高斯歸一化和平移操作,使得絕大多數(shù)的相似度在[0,1]范圍內。
對提取的視覺詞袋和Gabor紋理分別進行內部歸一化后,再對不同特征的相似度進行外部歸一化。查詢圖像與數(shù)據(jù)庫中圖像的相似度用視覺詞袋特征相似度和Gabor紋理相似度的加權表示:
2.2 檢索方法
圖1描述了基于特征融合的遙感圖像檢索流程,具體的步驟如下:
輸入:遙感圖像庫M,查詢圖像q。
輸出:返回n幅最相似的圖像。
步驟1) 提取M中每幅圖像的k維視覺詞袋特征和60維Gabor紋理。提取q的k維視覺詞袋特征和60維Gabor紋理。
步驟2) 根據(jù)高斯方法,M中每幅圖像的特征分別進行內部歸一化,形成特征庫。q的視覺詞袋特征和Gabor紋理分別進行內部歸一化后的特征為qbovw和qgabor。
步驟3) qbovw、qgabor分別和特征庫中相應的特征計算相似度,經(jīng)過高斯外部歸一化后得到視覺詞袋相似度Dbovw和Gabor紋理相似度Dgabor。
步驟4) 合理分配Dbovw和Dgabor的權重wbovw和wgabor,得到相似度。
步驟5) 在一系列的相似度中按需求返回距離最小,即最相似的n幅圖像。
圖1 基于特征融合的遙感圖像檢索流程圖Fig.1 The remote sensing images retrieval flow chart based on feature fusion
3.1 實驗數(shù)據(jù)和評估標準
實驗以目前最大的遙感圖像公共測試數(shù)據(jù)集UCMerced Land Use/Land Cover[10]為對象,該數(shù)據(jù)集包含了農田、飛機和棒球場等21類場景圖片,每類有100幅圖像。
為了評價檢索的有效性,采用圖像檢索系統(tǒng)中應用最為廣泛的性能評價準則平均查準率(Precision)、平均查全率(Recall)以及相應的查準率-查全率曲線??紤]檢索圖像的排序情況,實驗中采用了在MPEG-7標準化處理中廣泛使用的平均歸一化修改檢索等級(Average Normalize Modified Retrieval Rank, ANMRR)[6],ANMRR取值越小,說明檢索出來的相關圖像越靠前,即檢索效果越好。實驗中,將數(shù)據(jù)集中的每一幅圖像取出作為檢索條件,在整個圖像集合進行檢索,通過比較2 100次檢索的平均性能對檢索方案進行驗證。文獻[6]的實驗結果表明視覺詞袋特征中的單詞數(shù)目為150時檢索性能比較好,因此實驗中的單詞數(shù)目為150。Gabor紋理中的尺度數(shù)為5,方向數(shù)為6,維數(shù)為60,相似性度量采用常用的歐氏距離。
3.2 不同權重檢索性能比較
視覺詞袋和Gabor紋理的權重對實驗結果有較大影響,通過一系列的實驗來驗證不同權重分配對檢索性能的影響。令wbovw和wgabor分別表示視覺詞袋的權重和Gabor紋理的權重,在集合{0,0.1,...,0.9,1}中選擇和的取值(需滿足)。
表1和表2分別表示特征融合方法在不同權重下的平均查準率、ANMRR值和平均查全率。在實際檢索系統(tǒng)中,用戶一般只關心排序靠前的結果。表中列出了當檢索返回圖像數(shù)目分別為5、10、20、40和60時的平均查準率和平均查全率,數(shù)字前標*的值為同一行中最優(yōu)值。當只返回5幅圖像時,視覺詞袋和Gabor在不同的權重取值下,基于特征融合方法的平均查準率和平均查全率比基于單一特征的平均查準率和平均查全率都高;當返回10幅圖像時,只有在wbovw=0.1、wgabor=0.9情況下的特征融合的檢索性能不如基于視覺詞袋的檢索性能;在wbovw=0.5、wgabor=0.5情況下特征融合的平均查準率比基于Gabor的平均查準率提高了13.9%,比基于視覺詞袋的平均查準率提高了5.7%。當返回圖像數(shù)目較少時(返回5幅圖),Gabor權重較大時的查準率和查全率比較高。隨著返回圖像數(shù)目的增多,則視覺詞袋權重較大時查準率和查全率值更高。視覺詞袋和Gabor紋理融合的查準率和查全率比基于單一特征的檢索性能有較大提高。
表1 特征融合方法在不同權重下平均查準率和ANMRRTable 1 The average precision and ANMRR of feature fusion method with different weighted values %
表2 特征融合方法在不同權重下平均查全率Table 2 The average recall of feature fusion method with different weighted values %
表1中的ANMRR值表明,特征融合的方法比基于Gabor方法的檢索性能好;而只有在視覺詞袋權重比重較大時,特征融合方法的檢索性能才優(yōu)于基于視覺詞袋的檢索性能。從表1和表2的整體結果來看,基于視覺詞袋的檢索性能比基于Gabor的檢索性好,基于特征融合的檢索性能在視覺詞袋權重較大時優(yōu)于Gabor權重較大時。
3.3 不同特征融合方法比較
圖2顯示了不同特征的查準率-查全率比較,查準率和查全率返回圖像數(shù)目最少的為2,最大為2 100。特征融合1和特征融合2均為視覺詞袋和Gabor紋理融合的方法(特征融合1代表Gabor權重較大的融合方法,特征融合2代表視覺詞袋權重較大的融合方法),特征融合3為Gabor紋理和顏色矩融合的方法[5]。
圖2 不同特征的查準率-查全率比較Fig.2 Precision-recall curves for the different features
由于返回圖像數(shù)目在2到2 100之間,因此選用表1中ANMRR值最優(yōu)時的權重分配wgabor=0 .2 ),即屬于特征融合2的方法。特征融合1的權重分配隨機選定為(wbovw=0.2,wgabor=0.8)。特征融合3實驗中,當Gabor紋理的權重和顏色矩的權重相等時ANMRR值最小,因此特征融合3的權重分配為(wgabor=0.5,wcolor=0.5),其中wcolor表示顏色矩的權重。
當返回圖像數(shù)目少于10時,特征融合1的性能較好。隨著返回圖像數(shù)目增多,特征融合1的檢索性能急劇下降,只優(yōu)于Gabor和特征融合3的方法。從整體來看,特征融合2的檢索性能比其他方法的檢索性能都好。當圖像返回數(shù)目增多時,特征融合2的檢索性能接近于視覺詞袋的檢索性能。
3.4 不同類別圖像的檢索性能比較
不同類別圖像的特征存在差異,特征融合的效果也不同。通過實驗比較不同類別圖像的ANMRR值和平均查準率,并分析特征與圖像類別的關系。圖3顯示了不同特征在各類圖像檢索中的ANMRR值,三種特征融合的權重分配與圖2一致。圖4比較了返回圖像數(shù)目為20時,不同特征在各類圖像中的平均查準率,特征融合1的權重分配隨機選定,特征融合2的權重分配是視覺詞袋和Gabor紋理融合中平均查準率最高的情況,特征融合3的權重分配為Gabor紋理和顏色矩融合中平均查準率最高的情況。
圖3 不同特征在各類圖像中的ANMRR比較Fig.3 Per class ANMRR for the different features
圖4 不同特征在各類圖像中的查準率比較Fig.4 Per class performance for the different features
為了研究特征和圖像類別的關系,分別找出圖3和圖4中5種不同特征對應的最優(yōu)檢索類別。以圖3的特征融合1為例,特征融合1在農田類圖像中的ANMRR值不是最小,因此農田不是特征融合1的最優(yōu)類別,而在稀疏區(qū)和儲油罐類圖像中,特征融合1對應的ANMRR值最小,因此稀疏區(qū)和儲油罐為特征融合1的最優(yōu)類別?;趩我惶卣鞯臋z索中,圖3和圖4中基于視覺詞袋檢索的共同最優(yōu)類別有海港和停車場。從圖5可以看出,這兩類圖像的共同點是圖像中的目標(船只或車輛)的大小形狀相似,并整齊排列,更容易找到有效的關鍵點。圖3和圖4都不存在基于Gabor檢索最優(yōu)的圖像,但高爾夫場、稀疏區(qū)和儲油罐三種類別圖像基于Gabor的檢索優(yōu)于基于視覺詞袋的檢索;圖5中,這三類圖像存在一兩處突出目標(比如高爾夫場中的沙坑),這些目標稀疏且紋理信息和周圍的圖像有很大區(qū)別,這類圖像在基于單一特征檢索的情況下使用Gabor進行檢索的性能更好。
基于特征融合的檢索中,特征融合2的檢索效果突出,其中飛機、棒球場、建筑物、稠密區(qū)、十字路口和立交橋為圖3和圖4的共同最優(yōu)圖像類別。將這5類圖像分為2種情況,一種是飛機、棒球場、十字路口和立交橋類圖像,這類圖像的目標特點非常明顯,具有自身特定的形狀(比如棒球場呈扇形),并且存在對比明顯的紋理信息(比如飛機和周圍場地的紋理信息),不容易和其他目標混淆。另一種是建筑物和稠密區(qū),這類圖像中房屋的圖案等細節(jié)很難反應出來,更關注的是居住區(qū)的整體信息,比如建筑風格。特征融合3中共同存在的圖像類別有灌叢、高爾夫場和河流,這三種圖像中具有豐富的紋理信息和顏色信息。
根據(jù)以上的分析,特征融合2適用的圖像種類最多,它適用于目標形狀特定或者全局信息區(qū)分度更大的圖像;其次是視覺詞袋和特征融合3,視覺詞袋適用于目標的大小形狀相似并排列整齊的圖像,特征融合3適用于紋理和顏色信息對比度明顯的圖像;特征融合1和Gabor能夠適用的圖像種類比較少,適用于目標稀疏且紋理信息突出的圖像。
由一系列的實驗結果可以看出,視覺詞袋和Gabor的權重對圖像的檢索性能有較大影響,由于視覺詞袋特征能夠有效縮小圖像檢索中的語義鴻溝問題,因此當視覺詞袋權重較大時的特征融合效果更好。視覺詞袋和Gabor紋理融合方法在查準率-查全率上比傳統(tǒng)的Gabor紋理和顏色矩融合方法得到較大程度的提高,并且在絕大多數(shù)類別的圖像中,視覺詞袋和Gabor紋理融合方法的ANMRR值和查準率都優(yōu)于傳統(tǒng)的Gabor紋理和顏色特征融合的方法。
圖5 共同類別的圖像Fig.5 Images for the common categories
本文將視覺詞袋和Gabor紋理融合的方法用于遙感圖像檢索。視覺詞袋和Gabor紋理融合在一起結合了局部信息和全局信息以及中層特征和底層特征的優(yōu)勢,可以進一步改進圖像的描述方式。另外,遙感圖像紋理信息非常豐富,當圖像存在大量相似的紋理信息時,視覺詞袋特征檢索的準確率下降,可以通過結合Gabor紋理加以改善。實驗分別比較了不同權重、不同特征融合方法在遙感圖像中的檢索性能,并比較分析了幾種檢索方法在不同類別圖像中的檢索性能。視覺詞袋和Gabor紋理融合中兩者的權重對檢索性能有較大影響,當返回圖像數(shù)目非常少時,Gabor權重較大時的檢索效果更好;當返回圖像數(shù)目較多,則視覺詞袋權重較大時的檢索效果更好。視覺詞袋和Gabor紋理融合方法中,視覺詞袋權重較大時的查準率-
查全率上明顯優(yōu)于Gabor權重較大時的結果,并且比傳統(tǒng)的Gabor紋理與顏色矩的特征融合以及單一視覺詞袋或Gabor紋理的圖像檢索效果好。在比較幾種特征對不同類別圖像的檢索實驗中,視覺詞袋權重較大時的視覺詞袋和Gabor紋理融合適用的圖像種類最多。因此,本文提出的視覺詞袋和Gabor紋理融合方法,在視覺詞袋權重較大時能有效地提高遙感圖像的檢索性能,并優(yōu)于傳統(tǒng)的Gabor紋理和顏色矩融合的方法。本文只通過實驗比較了不同權重對特征融合的檢索性能的影響,并不能自適應地選擇權重,因此下一步工作中將研究通過相關反饋和機器學習的方法來自適應地選擇不同特征的權重,以進一步提高圖像檢索的性能。另外,也將研究圖像的GIST特征、顏色特征和形狀特征在特征融合中對檢索性能的影響。
參考文獻:
[1] Demir B,Bruzzone L. A Novel Active Learning Method in Relevance Feedback for Content-Based Remote Sensing Image Retrieval [J]. IEEE Transactions on Geoscience and Remote Sensing(S0196-2892),2015,53(9):2323–2334.
[2] Piedra-Fernandez J A,Ortega G,Wang J Z,et al. Fuzzy Content-Based Image Retrieval for Oceanic Remote Sensing [J]. IEEE Transactions on Geoscience and Remote Sensing(S0196-2892),2014,52(9):5422–5431.
[3] Aptoula E. Remote Sensing Image Retrieval with Global Morphological Texture Descriptors [J]. IEEE Transactions on Geoscience and Remote Sensing(S0196-2892),2013,52(5):3023-3034.
( )( )
[4] YAO Hongyu,LI Bicheng,CAO Wen. Remote sensing imagery retrieval based-on Gabor texture feature classification [C]// Proceedings of 7th International Conference on Signal Processing,Aug 31-Sept 4,2004,1:733–736.
[5] 陸麗珍,劉仁義,劉南. 一種融合顏色和紋理特征的遙感圖像檢索方法 [J]. 中國圖象圖形學報,2004,9(3):328-332.
LU Lizhen,LIU Renyi,LIU Nan. Remote Sensing Image Retrieval Using Color and Texture Fused Features [J]. Journal of Image and Graphics,2004,9(3):328-332.
[6] YANG Yi,Newsam Shawn. Geographic image retrieval using local invariant features [J]. IEEE Transactions on Geoscience and Remote Sensing(S0196-2892),2013,51(2):818-832.
[7] 楊進,劉建波,戴芹. 一種改進包模型的遙感圖像檢索方法 [J]. 武漢大學學報:信息科學版,2014,39(9):1109-1113.
YANG Jin,LIU Jianbo,DAI Qin. An Improved Remote Sensing Image Retrieval Method Based on Bag of Word Framework [J]. Geomatics and Information Science of Wuhan University,2014,39(9):1109-1113.
[8] David G Lowe. Distinctive Image Features from Scale-Invariant Keypoints [J]. International Journal of Computer Vision (S0920-5691),2004,60(2):91-110.
[9] Gondra I,Heistcrkamp D R. Content-based Image retrieval with the normalized information distance [J]. Computer Vision and Image Understanding(S1077-3142),2008,111(2):219-228.
[10] YANG Yi,Newsam Shawn. Bag-of-Visual-Words and Spatial Extensions for Land-Use Classification [C]// Proceedings of the 18th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems,San Jose,California,Nov 2-5,2010:270-279.
Remote Sensing Image Retrieval Based on the Fusion of BoVW and Gabor Texture
GE Yun1,2,JIANG Shunliang1,YE Famao1,XU Qingyong1,TANG Yiling1
( 1. Information Engineering School, Nanchang University, Nanchang 330031, China; 2. Software School, Nanchang Hangkong University, Nanchang 330063, China )
Abstract:A retrieval method based on the fusion of Bag of Visual Words (BoVW) and Gabor texture is presented for the high resolution remote sensing images. Remote sensing images have rich texture information and many local key points. But when an image contains lots of similar texture, the retrieval precision of BoVW will be reduced. The fusion of BoVW and Gabor texture combines the advantages of local feature and global feature, mid-level feature and low-level texture to improve image description. Experiment results show that the presented fusion method is superior to the traditional fusion method using Gabor texture and color moments. Retrieval performance of the fused features method is improved compared with that using single feature, and the improved performance depended on the suitable fusion weights. Experiment results indicate that the fused BoVW and Gabor texture is effective for high-resolution remote sensing image retrieval.
Key words:remote sensing image retrieval; BoVW; Gabor texture; feature fusion
作者簡介:葛蕓(1983-),女(漢族),江西高安人。講師,博士研究生,主要研究工作是圖像檢索。E-mail: geyun@nchu.edu.cn。
基金項目:國家自然科學基金地區(qū)項目(41261091);江西省教育廳科技項目(GJJ13482);江西省青年科學基金(20142BAB217017);江西省教育廳項目(GJJ14542)
收稿日期:2015-06-11; 收到修改稿日期:2015-09-23
文章編號:1003-501X(2016)02-0076-06
中圖分類號:TP394.1;TP75
文獻標志碼:A
doi:10.3969/j.issn.1003-501X.2016.02.013