顏文,金煒,符冉迪
(寧波大學信息科學與工程學院,浙江 寧波 315211)
結合VLAD特征和稀疏表示的圖像檢索
顏文,金煒,符冉迪
(寧波大學信息科學與工程學院,浙江 寧波 315211)
為了實現(xiàn)快速準確的圖像檢索目標,提出一種結合VLAD(局部聚合描述符)特征和稀疏表示的圖像檢索方法。首先,根據(jù)圖像具有結構細節(jié)豐富、局部視覺特征差異明顯的特點,提取圖像的局部旋轉(zhuǎn)不變SURF特征,并采用局部聚合描述符方法,構造具有旋轉(zhuǎn)不變性的圖像VLAD特征,然后將VLAD特征與稀疏表示相結合,設計基于稀疏表示的相似性檢索度量準則,實現(xiàn)圖像的查詢檢索。實驗結果表明,提出方法在查準率(precision)及平均歸一化修正檢索排序等指標上,均優(yōu)于其他幾種典型方法,并具有較高的計算效率。
圖像檢索;稀疏表示;局部聚合描述符
近年來,智能手機和平板電腦等移動智能終端發(fā)展迅猛,尤其是在多媒體處理上的能力得到了極大的提升,利用移動端進行圖像檢索的需求越來越大,比如社交網(wǎng)絡上的以圖尋圖、移動購物中的商品搜索等,如何從海量的圖像庫中有效地檢索到目標圖像成為亟待解決的難題?;趦?nèi)容的圖像檢索(content-based image retrieval,CBIR)技術作為解決該難題的有效手段[1],有望在移動終端的圖像檢索中得到廣泛應用。
基于內(nèi)容的移動圖像檢索系統(tǒng)的性能取決于圖像特征的有效表示和與之匹配的圖像相似性度量方法。傳統(tǒng)的方法通過提取圖像的全局視覺特征(如顏色、紋理、形狀等)[2,3]來進行檢索,雖然具有提取復雜度低、頑健性強的優(yōu)點,但當圖像局部細節(jié)豐富、結構差異明顯時,這種基于全局計算提取的紋理和顏色特征難于很好地表示圖像的局部視覺差異。局部聚合描述符(vector of locally aggregated descriptor,VLAD)[4]特征基于視覺詞袋模型的理念,通過聚合局部旋轉(zhuǎn)不變特征 (scale invariant feature transform,SIFT)[5]形成,它對局部細節(jié)豐富、結構差異明顯的圖像具有很強的描述能力。然而SIFT特征的提取需要很高的計算性能,這與移動設備有限的計算性能相矛盾。SURF(speeded up robust feature)[6]特征與SIFT特征相比在可重復性、區(qū)分性、頑健性等方面具有優(yōu)勢,且特征維度僅有SIFT特征的一半,同時計算效率明顯比SIFT高,因此本文基于SURF特征形成一種改進的VLAD特征,運用到移動圖像檢索中。
同時,有效的圖像相似性度量方法是實現(xiàn)移動圖像檢索的另一關鍵環(huán)節(jié)。得益于稀疏表示在信號處理領域的諸多成功應用,特別是稀疏表示分類 (sparse representation classification,SRC)識別算法優(yōu)異的模式識別能力[7],本文提出一種改進稀疏表示分類的圖像稀疏表示相似性度量方法。該方法使用圖像庫中每類圖像與對應稀疏分解系數(shù)重構出檢索圖像,并計算類重構殘差。將類重構殘差倒數(shù)的絕對值作為類權重系數(shù)與稀疏系數(shù)相乘得到加權稀疏系數(shù),加權稀疏系數(shù)向量中的系數(shù)值即代表查詢圖像與圖像庫中每一幅圖像的相似性度量值。實驗結果表明,結合改進VLAD特征和稀疏表示相似性度量的圖像檢索方法,能獲得比傳統(tǒng)檢索方法更好的檢索效果。
3.1 稀疏表示理論與稀疏分類算法
隨著壓縮感知概念的提出和壓縮感知理論的不斷發(fā)展,信號的稀疏表示(sparse representation,SR)理論逐漸成為研究熱點之一,并在信號處理、圖像處理、計算機視覺、模式識別領域得到廣泛應用[8]。信號的稀疏表示是指信號可以由其所在空間中的少數(shù)基向量線性表示,通過少數(shù)的原子揭示信號的主要特征和內(nèi)在結構。從數(shù)學的角度看,是將信號在某一空間中進行線性分解。若存在一個字典D∈Rn×m(n<m),給定一個向量y∈Rn能用字典D的原子線性表示,其中大部分原子系數(shù)為零或者很小,那么就可以說y能在字典D上實現(xiàn)稀疏表示,其數(shù)學表示模型為:
其中,α表示分解系數(shù),||α||0表示分解系數(shù)中非零系數(shù)的數(shù)目。
假定有k組不同類別圖像,Ai=[Ai,1,Ai,2,…,Ai,ni]是由第i類圖像提取的特征向量組成的訓練子集 (Ai,ni表示每幅圖像的特征向量,ni表示第i類圖像的數(shù)目)。那么,來自第i類的待測圖像y0能通過訓練子集Ai內(nèi)的向量線性表示為:
在實際分類過程中待測圖像y0的類別是未知的,將k組訓練子集Ai構成一個全類訓練特征集A=[A1,A2,…,Ak]。那么待測圖像y0就可以表示為所有訓練向量的線性組合。
按照稀疏表示理論,組合系數(shù)x僅與y0相對應類別的訓練子集相關,因此求解組合系數(shù)x就轉(zhuǎn)化為稀疏表示問題。理想情況下,求解的稀疏零范數(shù)解為x=[0,…,0,xi,1,xi,2,…,xi,ni,0,…,0]T,xi,ni表示與待測圖像y0屬于同一類的表示系數(shù)。然而實際情況下,由于受到噪聲的干擾和稀疏分解理論的限制,求解的解在其他類別系數(shù)上也會存在較多非0的系數(shù)。最終分類器設計為:通過計算測試圖像與每一類訓練圖像和對應稀疏系數(shù)的稀疏重構殘差的最小值來確定測試圖像的所屬類別,如式(4)所示:
其中,δi(·)表示提取稀疏表示系數(shù)x中與第i類的所有訓練圖片對應的系數(shù),而其余的系數(shù)均賦為0,使式(4)取得最小差值ri(y)所屬的類別即最終的識別結果。由于圖像檢索的目標就是在圖像庫中查找與待檢索圖像相似的圖像,并按相似性程度排序輸出,因此可以在實現(xiàn)圖像分類識別的基礎上通過定義相似性度量準則實現(xiàn),本文基于稀疏表示分類方法,開展了圖像檢索的研究。
3.2 基于稀疏表示的相似性檢索方法
本文利用稀疏表示進行圖像的相似性計算。依據(jù)稀疏分類算法原理,首先求解檢索圖像在檢索圖像庫上的稀疏表示系數(shù),并使用檢索庫中每類圖像與對應稀疏系數(shù)來重構檢索圖像,計算出每類重構圖像與檢索圖像的重構殘差,重構殘差的倒數(shù)Ri(i∈k)表示檢索圖像與每一類被檢索圖像的類間相似性,其值越大表明檢索圖像與這類圖像越相似。同時每一類圖像對應的稀疏系數(shù)值表示這一類圖像里的圖像與檢索圖像的類內(nèi)相似性,系數(shù)值越大與檢索圖像越相似。綜合考慮檢索圖像與被檢索圖像庫中圖像的類間相似性和類內(nèi)相似性,當被檢索圖像與檢索圖像之間類間相似性和類內(nèi)相似性乘積最大時,該圖像就是與檢索圖像最相似的圖像。具體的計算方法為,將類間相似性Ri作為權重與對應類內(nèi)的稀疏系數(shù)相乘得到一個加權稀疏系數(shù)αweight。
αweight向量中每個元素值表示檢索圖像q與被檢索圖像庫中每一幅圖像的相似性度量值。
3.3 檢索過程
本文結合VLAD特征與稀疏表示相似性度量進行圖像檢索,其檢索流程如圖1所示。具體步驟如下。
步驟1 首先提取檢索圖像庫M中每幅圖像的VLAD特征Ai,然后將每幅圖像的VLAD特征匯聚在一起構成被檢索圖像特征字典A=[A1,A2,…,An]∈Rm×n,m表示特征的維數(shù),n表示檢索圖像庫中圖像的個數(shù)。
步驟2 提取查詢圖像q的VLAD特征Aq∈Rm,并利用稀疏分解算法求解Aq在被檢索圖像特征字典A上的稀疏表示系數(shù)x=[x1,x2,x3,…,xn]。
步驟3 將字典A和稀疏系數(shù)x劃分為k類。
圖1 本文圖像檢索流程
步驟4 計算每一類的重構殘差ri=||Aq-Di×?i||2,將重構殘差ri的倒數(shù)Ri作為權重,并與第i類稀疏系數(shù)?i中每一個系數(shù)的絕對值相乘,得到一個加權稀疏系數(shù)αweight向量。最終αweight向量中的值代表查詢圖像q與圖像庫中每一幅圖像的相似性度量值。
步驟5 排序αweight向量,返回最大相似性度量值對應的圖像作為檢索圖像q最相關的圖像。
4.1 實驗圖像數(shù)據(jù)集和評價指標
本文使用Corel-1000自然圖像集作為檢索圖像集[9]。該圖像庫包含非洲風光、海灘、建筑等10類圖像,每類由100幅彩色圖像構成。
為了評價圖像檢索方法的有效性,采用平均查準率和查準—查全率(precision-recall)曲線作為性能評價標準。同時,為了評價檢索結果的排序情況,實驗中引入了平均歸一化修正檢索排序 (average normalize modified retrieval rank,ANMRR)[10]這一MPEG-7標準化評價準則。ANMRR取值在[0,1]之間,如果ANMRR取值為0時,說明圖像庫中所有相關圖像全部被檢索出來,反之當ANMRR取值為1時,情況剛好相反,因此ANMRR取值越小,檢索方法的性能越好。實驗中,每一類隨機選取50幅圖像作為待檢索圖像,10類共進行500次查詢,取檢索結果的平均值對檢索方案進行驗證。
4.2 對比實驗的設計及結果分析
為了檢驗不同檢索方法的性能,將本文方法與兩種典型的檢索算法進行比較,方法1為基于局部和全局特征融合的圖像檢索[11],方法2為基于NSCT及熵的旋轉(zhuǎn)不變彩色圖像檢索算法[12]。由于形成VLAD特征的視覺碼本大小對檢索性能有直接影響,為了選取合適的碼本大小,分別將碼本設置為64、128、512進行實驗測試;并采用GPSR(gradient projection sparse reconstruction)[13]進行稀疏系數(shù)的求解。
表1為3種方法的實驗結果,其中計算查準率時,每次檢索均采用返回30幅圖像作為查詢結果。可以看出,方法1在查準率及ANMRR指標中均表現(xiàn)最差,究其原因,主要是由于自然圖像具有豐富的細節(jié)結構,且不同類型圖像的局部視覺差異明顯,而方法1提取的特征不能很好地表現(xiàn)局部視覺差異性,同時人工簡單設置不同特征加權權重沒有考慮不同特征的結合特性。方法2提取了能表示不同類型圖像細節(jié)結構的旋轉(zhuǎn)不變紋理特征,同時結合顏色和形狀特征,獲得了比方法2好的檢索效果。本文方法的查準率及ANMRR指標在3種方法中都表現(xiàn)得最好,這不僅體現(xiàn)了基于局部SURF的VLAD特征對自然圖像不同局部視覺差異性極強的區(qū)分描述能力,而且表明基于特征稀疏表示的相似性檢索方法可有效提高檢索精度。同時從實驗結果可以看出,當使用不同碼本的VLAD特征時,大碼本檢索效果比小碼本差一些,可能原因是隨著碼本大小增加,會造成高維特征信息的冗余,使檢索性能的下降,因此選取形成VLAD特征的碼本大小為64。為了從不同角度說明本文方法的檢索性能,將碼本大小設置為64來進行對比試驗,并繪制了對應的查準—查全率曲線,如圖2所示,可以看出方法1與方法2性能比較接近,都取得了不錯的檢索效果,但相對而言,本文方法取得了最好的檢索效果,這也與前面的分析相吻合。
表1 兩種方法的平均查準率和ANMRR對比
圖2 3種方法的查準-查全率比較
移動圖像檢索對檢索時間要求較高,因此在評價圖像檢索方法的整體性能時,需要綜合考慮檢索性能與檢索時間。從上文分析可知,碼本大小為64維時,獲得了最好的檢索結果,但采用64維碼本形成的VLAD特征具有比較高的維度(VLAD特征維數(shù)為4 096維),使得檢索時間過長。特征降維雖然能減少檢索時間,但是也會造成特征信息的丟失,從而使特征內(nèi)在區(qū)分描述能力不足,帶來了檢索性能的下降。因此在特征降維的過程中需要在保持特征內(nèi)在區(qū)分能力的同時盡量降低特征維數(shù),以縮短檢索時間,從而取得最佳的性能平衡。為達到此目標,本文采用PCA降維的方法進行了實驗,確定合適的降維維度,實驗結果見表2。
表2 降維之后不同特征維度檢索性能比較
從表2中可以看到,當采用原始特征時,雖然檢索準確率最好,但檢索時間最長,限制了其在移動設備上的應用,而將原始特征降至128維時,雖然檢索用時較短,但帶來了檢索性能的急劇降低,本文綜合考慮檢索性能與檢索時間的平衡,認為將原始特征降至512維較為合適,表3給出了特征維數(shù)為512時,本文方法與兩種對比方法的實驗結果。
表3 特征降維后與兩種方法的比較
從實驗結果可以看到,經(jīng)過特征降維后,本文方法的檢索性能明顯優(yōu)于兩種對比方法,而在檢索效率上,本文方法的檢索耗時與對比方法基本相當,表明本文方法具有一定的應用價值。
基于內(nèi)容圖像檢索系統(tǒng)的檢索效果取決于有效的圖像特征表示和與之相匹配的相似度衡量方法。在特征表示方面,不同類型的圖像均可能具有結構細節(jié)信息豐富,局部視覺特征差異明顯的特點,SURF具有較強的圖像特征描述能力,且通過局部聚合描述符描述方法形成VLAD特征能更好地描述圖像信息,本文基于VLAD特征和稀疏表示理論,提出一種圖像相似性度量方法,實現(xiàn)圖像檢索。實驗結果表明,相比幾種較新的檢索方法,本文方法在保證檢索效率的同時能顯著提高檢索性能,有一定的應用前景。
[1]LIU G H,YANG J Y,LI Z Y.Content-based image retrieval using computational visual attention model [J]. Pattern Recognition,2015,48(8):2554-2566.
[2]孫君頂,崔江濤,毋小省,等.基于顏色和形狀特征的彩色圖像檢索方法[J].中國圖象圖形學報,2004,9(7):820-827. SUN J D,CUI J T,WU X S,et al.Color image retrieval based on color and shape features[J].Journal of Image and Graphics, 2004,9(7):820-827.
[3]楊舒,王玉德.基于Contourlet變換和Hu不變矩的圖像檢索算法[J].紅外與激光工程,2014,43(1):306-310. YANG S,WANG Y D.Image retrieval algorithm based on Contourlet transform and Hu invariant moments[J].Infrared and Laser Engineering,2014,43(1):306-310.
[4]JEGOU H,DOUZE M,SCHMID C.Aggregating local descriptorsinto a compactimage representation[C]//IEEE Conference on Computer Vision&Pattern Recognition,Jun 23-28, 2013,Portland,Oregon,USA.New Jersey:IEEE Press,2010: 3304-3311.
[5]LOWE D G.Distinctive image features from scale-invariant keypoints[J].InternationalJournalofComputerVision,2004,60(60): 91-110.
[6]BAY H,ESS A,TUYTELAARS T,et al.Speeded-up robust features(SURF)[J].Computer Vision&Image Understanding, 2008,110(3):346-359.
[7]WRIGHT J,YANG A Y,GANESH A,et al.Robust face recognition via sparse representation[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2009,31(2):210-227.
[8]ZHANG Z,XU Y,YANG J,et al.A survey of sparse representation:algorithms and applications[J].IEEE Access, 2015(3):1.
[9]LI J,WANG J Z.Automatic linguistic indexing of pictures by a statistical modeling approach[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2003,25(9):1075-1088.
[10]MANJUNATH B S,SALEMBIER P,SIKORA T.Introduction to MPEG7:multimedia content description interface [M].New York:Wiley,2002.
[11]汪華章,何小海,宰文姣.基于局部和全局特征融合的圖像檢索[J].光學精密工程,2008,16(6):1098-1104. WANG H Z,HE X H,ZAI W J.Image retrieval based on combining local and global features[J].Optics and Precision Engineering,2008,16(6):1098-1104.
[12]趙曉麗,王國中.基于NSCT及熵的旋轉(zhuǎn)不變彩色圖像檢索算法[J].光電子·激光,2014(1):186-191. ZHAO X L,WANG G Z.Rotation-invariant color imageretrieval algorithm based on NSCT and entropy[J].Journal of Optoelectronics-Laser,2014(1):186-191.
[13]FIGUEIREDO M A T,NOWAK R D,WRIGHT S J.Gradient projection for sparse reconstruction:application to compressed sensing and other inverse problems[J].IEEE Journal of Selected Topics in Signal Processing,2008,1(4):586-597.
顏文(1990-),男,寧波大學信息科學與工程學院碩士生,主要研究方向為圖像處理、模式識別。
金煒(1969-),男,博士,寧波大學信息科學與工程學院副教授,主要研究方向為數(shù)字圖像處理。
符冉迪(1971-),男,寧波大學信息科學與工程學院副教授,主要從事數(shù)字圖像處理、模式識別方面的研究工作。
Image retrieval based on the feature of VLAD and sparse representation
YAN Wen,JIN Wei,FU Randi
Faculty of Information Science and Engineering,Ningbo University,Ningbo 315211,China
In order to achieve the goal of fast and accurate image retrieval,an image retrieval method combining VLAD (vector of locally aggregated descriptor)feature and sparse representation was proposed.Firstly,according to the characteristics of rich structure details and obvious differences for local visual features in image,the local rotation invariant SURF feature of the image was extracted,and the local VLAD feature of the image with rotation invariance was constructed by the local aggregation descriptor method.Then,the VLAD feature was combined with the sparse representation(SR)to design the similarity retrieval metric based on SR,thus the retrieval of the image could be realized. The experimental results show that,proposed method outperforms the compared methods in terms of precision,average normalize modified retrieval rank(ANMRR)and other indicators,and it also has higher computational efficiency.
image retrieval,sparse representation,vector of locally aggregated descriptor
TP391
A
10.11959/j.issn.1000-0801.2016308
2016-11-07;
2016-12-10
國家自然科學基金資助項目(No.61271399);浙江省自然科學基金資助項目 (No.LY16F010001);寧波市自然科學基金資助項目(No.2016A610091)
Foundation Items:The National Natural Science Foundation of China(No.61271399),The Natural Science Foundation of Zhejiang Province of China(No.LY16F010001),The Natural Science Foundation of Ningbo of China(No.2016A610091)