朱 杰,張俊三,吳樹(shù)芳,董宇坤,呂 琳
(1.中央司法警官學(xué)院 信息管理系,河北 保定 071000; 2.中國(guó)石油大學(xué) (華東) 計(jì)算機(jī)與通信工程學(xué)院,山東 青島 266580;3.河北大學(xué) 管理學(xué)院,河北 保定 071000)(*通信作者電子郵箱shufang_44@126.com)
在互聯(lián)網(wǎng)技術(shù)高速發(fā)展的今天,基于內(nèi)容的圖像檢索越來(lái)越受到人們的關(guān)注。圖像檢索過(guò)程主要分為圖像表示階段、過(guò)濾階段和二次重排序階段[1-2]。圖像表示階段主要通過(guò)對(duì)圖像的局部或者全局特征的加工生成代表圖像內(nèi)容的向量;過(guò)濾階段用于計(jì)算待查詢圖像與圖像庫(kù)中所有圖像的相似度,并按照相似度排序返回查詢結(jié)果;二次重排序階段主要用于對(duì)返回的相似度高的結(jié)果再次提純。圖像內(nèi)容表示的優(yōu)劣直接決定著圖像檢索的性能,因此長(zhǎng)久以來(lái)為研究者所重視[3]。
詞袋模型(Bag of Words, BoW)[4]在相當(dāng)長(zhǎng)的一段時(shí)間內(nèi)成為了圖像檢索問(wèn)題的主流算法,其成功主要取決于局部不變性特征[5]與大規(guī)模的字典訓(xùn)練[6]。在隨后的工作中,局部特征匹配、空間特征的引入以及局部特征描述子的選擇成為了圖像檢索領(lǐng)域的熱點(diǎn)問(wèn)題。
隨著深度學(xué)習(xí)算法在ImageNet挑戰(zhàn)賽圖像分類(lèi)任務(wù)中取得了優(yōu)秀的結(jié)果[7-8],以深度學(xué)習(xí)為基礎(chǔ)的算法在對(duì)象識(shí)別[9]、語(yǔ)義分割[10]等眾多計(jì)算機(jī)視覺(jué)領(lǐng)域得到了廣泛的應(yīng)用。利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)提取多層次特征,并用激活特征向量作為圖像表示的方法在圖像檢索領(lǐng)域逐漸成為主流[11-12]。與圖像分類(lèi)任務(wù)不同,圖像檢索沒(méi)有訓(xùn)練集的參與,所以通常情況下直接采用預(yù)訓(xùn)練網(wǎng)絡(luò)對(duì)圖像特征進(jìn)行提取。一些算法嘗試通過(guò)對(duì)象區(qū)域的發(fā)現(xiàn),從而生成有針對(duì)性的圖像表示。Tolias等[11]提出了通過(guò)圖像子區(qū)域?qū)D像進(jìn)行編碼的方法,由于激活映射中的最大值位置通常對(duì)應(yīng)著對(duì)象區(qū)域,所以算法將不同尺度的圖像子區(qū)域特征用該區(qū)域在不同特征映射內(nèi)的極大值池化結(jié)果來(lái)表示。卷積特征映射中,響應(yīng)值高的區(qū)域更有可能是對(duì)象區(qū)域,所以,依據(jù)響應(yīng)值對(duì)卷積層激活加權(quán)的方式可以在圖像表示的過(guò)程中更加突出對(duì)象內(nèi)容;但是,極大池化的方法無(wú)法準(zhǔn)確刻畫(huà)出對(duì)象區(qū)域。Babenko等[13]提出的跨維度加權(quán)(Cross-dimensional Weighting, CroW)算法利用對(duì)象通常出現(xiàn)在圖像幾何中心的特點(diǎn),將靠近中心的局部特征賦予較高權(quán)值,并將加權(quán)的局部特征進(jìn)行聚合用于生成壓縮的圖像特征;但是,這種方法并沒(méi)有選擇出對(duì)象的特征,生成的圖像表示仍然是全局表示方法。Wei等[14]首先發(fā)現(xiàn)對(duì)象的粗略區(qū)域,并將區(qū)域內(nèi)深度特征進(jìn)行聚合用于圖像的細(xì)粒度檢索問(wèn)題,此方法將激活映射響應(yīng)的均值作為圖像區(qū)域的判斷標(biāo)準(zhǔn),所以,無(wú)法準(zhǔn)確發(fā)現(xiàn)對(duì)象區(qū)域;其次,該方法將激活映射內(nèi)大于均值位置在不同特征映射中的響應(yīng)當(dāng)作對(duì)象特征描述子,并沒(méi)有嘗試區(qū)分不同響應(yīng)在對(duì)象描述中的重要性。
卷積層激活特征的池化可以將局部特征進(jìn)行有效合并,生成較低維度的圖像表示,一些算法從圖像的全局表示出發(fā),嘗試?yán)貌煌奶卣骶酆戏绞竭M(jìn)行圖像表示。 Azizpour等[15]提出卷積層的激活在極大池化后的結(jié)果能夠生成非常有效的圖像表示。在隨后的工作中,Babenko等[13]提出對(duì)于經(jīng)過(guò)白化的圖像進(jìn)行表示,使用卷積特征的和池化(sum pooling)比極大池化(max pooling)有更好的檢索效果。
與以上方法不同,Kalatidis等[16]提出的跨維度(CroW)算法利用卷積層激活的空間權(quán)重和通道權(quán)重為可能出現(xiàn)的對(duì)象區(qū)域賦予高權(quán)值。然而,空間權(quán)重的計(jì)算方式只考慮了激活映射中不同位置響應(yīng)的重要性,沒(méi)有考慮到不同位置特征映射之間的關(guān)系。圖像中的對(duì)象通常是多個(gè)位置組成的連續(xù)區(qū)域,將不同位置之間的近鄰關(guān)系融入到權(quán)重的計(jì)算中,對(duì)于圖像內(nèi)容的合理表示有著重要的意義。卷積特征的高響應(yīng)值位置在這些工作中用于發(fā)現(xiàn)原圖像中的對(duì)象區(qū)域,但是如何將多個(gè)高響應(yīng)值位置之間的關(guān)系融入到對(duì)象的深度特征加權(quán)中仍然沒(méi)有得到解決。
本文提出了基于多中心的卷積特征加權(quán)(Multi-center based Convolutional Feature Weighting, MCFW)方法,這種方法根據(jù)對(duì)象區(qū)域的連續(xù)性特點(diǎn),從激活映射中選取一些高響應(yīng)值位置作為中心,通過(guò)計(jì)算其他位置與中心點(diǎn)的距離來(lái)給所有位置的深度特征描述子賦權(quán)值。圖像表示的流程如圖1所示,首先,提取出最后一個(gè)卷積層的激活;其次,對(duì)激活內(nèi)不同通道的特征映射進(jìn)行求和獲得激活映射;然后,從激活映射中選擇出響應(yīng)值高的一些位置作為中心,將不同位置的高斯權(quán)重與尺度權(quán)重作為激活中對(duì)應(yīng)位置描述子的權(quán)重;最后,通過(guò)加權(quán)特征的池化生成圖像表示。
圖1 圖像表示流程Fig. 1 Flowchart of image representation
由于深層卷積特征擁有更接近于語(yǔ)義的特征描述,所以利用最后一個(gè)卷積層特征進(jìn)行圖像表示的方法在圖像檢索中得到了廣泛的應(yīng)用。圖像I通過(guò)預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),在最后一個(gè)卷積層生成了C個(gè)高和寬分別是H和W的特征映射S,對(duì)應(yīng)卷積層的激活為三維張量T,其包含H×W×C個(gè)元素。描述子d是特征映射中任意位置在T中對(duì)應(yīng)的C維向量。
不同通道卷積特征映射的疊加對(duì)于發(fā)現(xiàn)對(duì)象區(qū)域有著重要的作用[14],將C個(gè)卷積特征映射S疊加后生成T的激活映射A為:
(1)
其中:A∈R(W×H)。在A中任意位置的響應(yīng)值越大,此位置對(duì)應(yīng)的圖像I中的區(qū)域越有可能是對(duì)象的區(qū)域。
為了在激活映射中突出對(duì)象所在的位置,算法在A中選擇了前N個(gè)響應(yīng)值最大的位置P={p1,p2,…,pN}作為中心,其中pk位置在A中對(duì)應(yīng)的坐標(biāo)為(xk,yk),則A中任意位置(x,y)對(duì)應(yīng)pk的高斯權(quán)重為:
(2)
其中:βkN為pk響應(yīng)值在A中歸一化后的結(jié)果。與文獻(xiàn)[13]相同,σ的值為中心點(diǎn)到激活映射最近邊界的1/3。計(jì)算任意位置相對(duì)于所有中心的權(quán)重,并選擇其中的最大值作為N中心情況下,則當(dāng)前位置對(duì)應(yīng)描述子的權(quán)重為αkN(x,y)。
空間金字塔[17]將圖像劃分為大小相同的細(xì)胞單元(cell),并對(duì)不同尺度細(xì)胞單元內(nèi)的特征進(jìn)行表示,從而給圖像表示提供多尺度的空間信息,空間金字塔的層次越高,對(duì)應(yīng)的特征權(quán)重越大。受此方法啟示,將中心的數(shù)量N作為劃分尺度的標(biāo)準(zhǔn),那些在較少中心情況下獲得高權(quán)值的位置更有可能對(duì)應(yīng)著對(duì)象區(qū)域,則尺度權(quán)重表示為:
LN=exp(-N)
(3)
最終,N中心情況下的特征加權(quán)為:
wN(x,y)=akN(x,y)LN
(4)
通過(guò)使用wN(x,y)對(duì)T中描述子d(x,y)加權(quán),可以反映出當(dāng)前位置的描述子對(duì)于描述對(duì)象特征的重要性。與文獻(xiàn)[14]相同,本文通過(guò)設(shè)置閾值的方法選擇一些描述子用于圖像表示:
(5)
其中:閾值γ為A中所有位置權(quán)重的平均值。在N中心情況下的圖像表示為加權(quán)描述子的和池化,如式(6)所示:
(6)
最終的圖像表示為不同中心數(shù)量情況下圖像表示的連接。假設(shè)選擇了M組不同的最大激活中心數(shù)量,則最終圖像表示的維度為MC。
圖像集1是INRIA Holiday圖像集[18],此圖像集主要由一些私人的假期照片組成,共包含500種場(chǎng)景或物體,共1 491幅圖像,其中每組圖像的第一個(gè)作為查詢,其他的作為查詢結(jié)果。
圖像集2是Oxford圖像集[6]。本文選擇Oxford 5K、Oxford 100K、Oxford 105K作為實(shí)驗(yàn)用數(shù)據(jù)集。其中:Oxford 5K包含從Flickr上找到的5062幅共11種牛津地標(biāo)性建筑的圖像,并從每種地標(biāo)中選出5個(gè)作為查詢;Oxford 105K是由Oxford 5K加上干擾圖像圖像集Oxford 100K(共100071幅圖像)形成。
圖像集3是Paris圖像集[19],共收集了Flickr中6 412幅巴黎地標(biāo)性的建筑,如凱旋門(mén)和盧浮宮等。需要注意的是建筑物可能出現(xiàn)在圖像的任意位置。
表1 MCFW與其他算法的mAP比較Tab.1 mAP comparison between MCFW and other algorithms
在Oxford 5K、Oxford 105K與Paris圖像集中,查詢圖像的對(duì)象區(qū)域已經(jīng)給定,實(shí)驗(yàn)中采用標(biāo)準(zhǔn)的方法,即把裁剪后的圖像作為神經(jīng)網(wǎng)絡(luò)的輸入用于提取特征。對(duì)于Holiday、Oxford 5K、Oxford 105K和Paris圖像集,實(shí)驗(yàn)采用平均精度均值(mean Average Precision, mAP)來(lái)衡量檢索的性能。與文獻(xiàn)[13,16]相同,本文以預(yù)訓(xùn)練VGG16模型為基礎(chǔ),用于提取圖像深度特征。隨著模型層次的深入,卷積層特征擁有更好的語(yǔ)義表示能力,所以實(shí)驗(yàn)選擇最后一個(gè)卷積層的激活用于特征加權(quán)以及圖像表示。實(shí)驗(yàn)中,選擇的劃分尺度及中心數(shù)量分別為1、2和3三種尺度。圖像表示的維度為1 536,MCFW算法采用歐氏距離衡量圖像之間的相似性。查詢擴(kuò)展(Query Expansion, QE)能夠有效地提高檢索性能,對(duì)于查詢圖像按照MCFW方法進(jìn)行檢索,將第一次查詢的結(jié)果按照相似性從高到低排序,將最相似的前5個(gè)查詢結(jié)果的圖像表示進(jìn)行平均池化與L2歸一化,并將其作為二次查詢的輸入,與所有圖像進(jìn)行相似度計(jì)算,并按照相似性進(jìn)行排序。
圖2為Paris圖像集中不同最大激活組數(shù)M對(duì)應(yīng)的mAP,從中可以發(fā)現(xiàn),隨著最大激活組數(shù)的增加,平均精度均值也隨之增加,當(dāng)組數(shù)為4時(shí)mAP達(dá)到最大值。此外,圖中不同曲線對(duì)應(yīng)著VGG16模型中不同卷積層特征通過(guò)MCFW方法得到的mAP,由于深層次的卷積層特征擁有對(duì)圖像更好的語(yǔ)義描述,利用conv5-3層的特征得到了最好的檢索結(jié)果。
圖2 不同最大激活組數(shù)下Paris圖像集mAP的比較Fig. 2 mAP comparison for different groups of maximum activations in Paris
表1為MCFW與其他算法在圖像庫(kù)中檢索結(jié)果的mAP值比較??梢园l(fā)現(xiàn)在不采用QE的情況下,MCFW在所有圖像庫(kù)中都取得了令人滿意的檢索效果。和池化卷積(Sum-Pooled Convolutional, SPoC)[20]利用對(duì)象通常情況下出現(xiàn)在圖像幾何中心的特點(diǎn),將高權(quán)值賦予幾何中心的特征,遠(yuǎn)離中心的特征則賦予了較低的權(quán)值。圖像中對(duì)象位置的不確定性導(dǎo)致其檢索性能低于MCFW。與MCFW相似,CroW[16]通過(guò)發(fā)現(xiàn)卷積層激活映射的響應(yīng)值大小來(lái)確定對(duì)象位置,但是,這種方法沒(méi)有考慮到對(duì)象區(qū)域的連續(xù)性特點(diǎn),所以,單純依靠響應(yīng)值的Crow方法無(wú)法給對(duì)象區(qū)域賦予合理權(quán)值。由于CroW考慮到了同層次中不同特征映射在求和過(guò)程中的重要性比對(duì),所以仍然取得了優(yōu)秀的結(jié)果。增加QE可以顯著提高檢索性能,通過(guò)實(shí)驗(yàn)比對(duì)可以發(fā)現(xiàn),在同時(shí)增加QE的情況下,MCFW的結(jié)果仍然優(yōu)于CroW。
圖3為MCFW在Paris圖像集中不同查詢對(duì)應(yīng)的前5的檢索結(jié)果,圖像查詢中的對(duì)象區(qū)域用綁定框標(biāo)出。從檢索結(jié)果中可以發(fā)現(xiàn),MCFW提取出的圖像特征對(duì)于不同角度和光照下的圖像表示有較好的魯棒性,此外,由于MCFW對(duì)象的中心選擇不依賴于圖像的幾何中心,所以檢索結(jié)果中許多對(duì)象的中心點(diǎn)并不在圖像的中心。
本文基于卷積層激活映射的特點(diǎn),提出了基于多中心的卷積特征加權(quán)方法MCFW。本文方法將激活映射中較大響應(yīng)個(gè)數(shù)定義為尺度,并將這些響應(yīng)的位置作為中心點(diǎn),通過(guò)高斯加權(quán)的方式對(duì)激活中的描述子進(jìn)行重要性分析,最后,通過(guò)特征聚合生成圖像表示,用于圖像檢索。本文方法在一些圖像檢索任務(wù)中取得了令人滿意的結(jié)果。在未來(lái)的工作中,將設(shè)計(jì)將基于特征加權(quán)的圖像表示方法融入圖像哈希算法中,用于提高檢索性能與速度。
圖3 MCFW在Paris圖像集中的檢索結(jié)果對(duì)比Fig. 3 Retrieval results of MCFW in dataset Paris