劉天宇,賈 迪,駱順利,王 凱
遼寧工程技術(shù)大學(xué)電子與信息工程學(xué)院,遼寧葫蘆島125105
基于內(nèi)容的圖像檢索任務(wù)(content-based image retrieval,CBIR)長期以來一直是計算機視覺領(lǐng)域重要的研究課題,它充分發(fā)揮了計算機長于處理重復(fù)任務(wù)的優(yōu)勢,將人們從需要耗費大量人力、物力和財力的人工標注中解放出來,已成為海量圖像庫檢索的主要技術(shù)手段。
特征匹配是基于內(nèi)容的圖像檢索關(guān)鍵環(huán)節(jié),早期依賴人工設(shè)計特征,如尺度不變特征變換(scaleinvariant feature transform,SIFT)[1],常采用KD 樹[1]或詞匯樹[2]的最近鄰搜索算法[1]進行特征匹配。加速魯棒特征算法(speeded up robust features,SURF)[3]采用積分圖來簡化高斯函數(shù)的二階偏導(dǎo)數(shù),以此提高了匹配速度。受SURF 啟發(fā),Rublee 等人[4]給出一種面向快速旋轉(zhuǎn)變換的描述符構(gòu)造方法(oriented FAST and rotated BRIEF,ORB),用于加速特征提取環(huán)節(jié)。Leutenegger 等人[5]引入抗縮放和旋轉(zhuǎn)的二進制描述符BRISK(binary robust invariant scalable keypoints),BRISK 和ORB 都具有較快的特征提取速度。Choi等人[6]對BRISK 描述子進行改進,結(jié)合顏色特征給出一種面向圖像檢索的二進制描述子,與BRISK 算法相比,降低了近一半的配準時間,配準率近84%。Dang等人[7]提出一種幾何一致性約束的尺度與旋轉(zhuǎn)不變特征提取方法,并將其應(yīng)用于文檔圖片檢索的任務(wù)中,并與SIFT、SURF、ORB 等方法進行了對比,該方法的檢索準確率為90.8%。
近年來,基于深度學(xué)習(xí)的圖像檢索正逐步成為研究熱點,盡管基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)的全局描述符在中小型數(shù)據(jù)集的檢索任務(wù)中取得了良好表現(xiàn),但在大規(guī)模數(shù)據(jù)集條件下(如噪聲、遮擋、光照變化)可能會降低其性能。Yi等人[8]提出一種端到端的框架(learned invariant feature transform,LIFT)來檢測圖像中的關(guān)鍵點、主方向與構(gòu)造特征描述符。Zagoruyko 等人[9]提出Siamese Network,直接從基于CNN 網(wǎng)絡(luò)學(xué)習(xí)普適性相似度函數(shù),以此完成圖像的匹配和檢索。Gordo 等人[10]提出基于全局描述符的深度圖像檢索方法(deep image retrieval,DIR),該方法中的特征描述符為2 048 維,采用并行搜索的方式實現(xiàn)特征檢索,該方法在檢索含有類似場景的數(shù)據(jù)時易出錯。洪睿等人[11]通過深度卷積特征構(gòu)建匹配核函數(shù),在鼓勵相關(guān)圖像間產(chǎn)生匹配對的同時,抑制不相關(guān)圖像間的匹配對個數(shù),從而提高檢索準確率。周書仁等人[12]提出了一種結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和哈希算法的深度網(wǎng)絡(luò)結(jié)構(gòu),用于大規(guī)模圖像檢索。Noh 等人[13]提出了一種適用于大規(guī)模圖像檢索的深度局部特征描述子(deep local features,DELF),只需在數(shù)據(jù)集上進行圖像級標注訓(xùn)練,同時還給出基于注意力機制的關(guān)鍵點選擇方法,解決了從語義上識別對圖像檢索有用的局部特征,該框架可用于圖像匹配,可替代其他關(guān)鍵點檢測器和描述符,實現(xiàn)更為精確的匹配。Yang 等人[14]提出一種動態(tài)均值模塊(dynamic mean with whitening ensemble binarization,DAME WEB),可以使神經(jīng)網(wǎng)絡(luò)在池化階段動態(tài)學(xué)習(xí)圖像的特征映射,以生成適合地標檢索的全局描述符。Radenovi?等人[15]的Finetuning CNN 通過利用3D 模型中可用的幾何圖形和攝像機位姿來選擇正負樣例,并且提出一種參數(shù)可訓(xùn)練的池化層來提高檢索性能。Wang 等人[16]提出了一種基于殘差模塊的殘差注意網(wǎng)絡(luò),通過深度殘差學(xué)習(xí)產(chǎn)生注意感知特征。Liu 等人[17]提出了一種雙注意模型,該模型由兩種注意機制生成兩段特征向量。Ouyang 等人[18]同時利用了空間注意子網(wǎng)絡(luò)和時間注意子網(wǎng)絡(luò)來提取更好的特征表示。此外,一些學(xué)者將語義分割方法應(yīng)用到圖像檢索的任務(wù)中,Zhan 等人[19]提出了語義層次的屬性卷積網(wǎng)絡(luò),該模型具有三層特征表示,用于區(qū)分圖像特征表達,并計算損失函數(shù)減少屬性間的預(yù)測誤差。Xu 等人[20]提出了一種簡單有效的基于語義分割的加權(quán)聚合方法用于圖像檢索,通過選取各語義部分的加權(quán)區(qū)域生成特征表示。Furuta 等人[21]提出基于全卷積網(wǎng)絡(luò)的多標簽檢索方法,通過語義分割圖提取區(qū)域卷積特征用于多標簽檢索。
由此可見,現(xiàn)有方法主要結(jié)合注意力機制和語義分割方法去克服圖像中的局部相似性區(qū)域,以此提高檢索精度?;谠撍悸?,本文提出一種面向圖像檢索的熱力特征描述子構(gòu)造與匹配方法。與上述方法不同,將圖像中的各部分語義屬性與提取到的熱力特征相結(jié)合,更好地區(qū)分圖像子類別間細微的局部差異,完成如下工作:(1)對語義分割網(wǎng)絡(luò)熱力特征進行分析,提出采用語義約束減少因相似性局部特征而產(chǎn)生的誤匹配結(jié)果,給出熱力圖約束匹配思路,并基于此提出一種新的匹配框架。(2)通過深度學(xué)習(xí)方法得到圖像深度特征描述子,結(jié)合語義分割網(wǎng)絡(luò)得到的類別信息以及熱力值信息生成特征描述向量,根據(jù)該特征描述向量本文首次提出KD 復(fù)合樹結(jié)構(gòu),并利用該結(jié)構(gòu)實現(xiàn)圖像特征匹配,從而提高特征檢索速度與準確率。
本章給出算法的基本原理和實現(xiàn)過程。整體處理流程如圖1 所示。首先,提取SegNet[22]語義分割網(wǎng)絡(luò)編碼部分最后一層卷積層尺寸為14×14×512 的特征圖,利用梯度得分獲取特征圖每個通道的權(quán)重,通過線性融合的方式,在通道維度上加權(quán)求和獲得尺寸為14×14 的map,將該map歸一化并通過雙線性插值方式構(gòu)造對應(yīng)的熱力圖。其次,利用DELF 算法提取維度為40 的特征描述子,結(jié)合語義分割網(wǎng)絡(luò)得到類別信息和熱力值信息生成42 維特征描述子,基于該描述子構(gòu)造KD 復(fù)合樹,最后通過BBF(best bin first)[1]和隨機抽樣一致算法[23]實現(xiàn)匹配與檢索。
圖1 本文方法流程Fig.1 Method flow chart of this paper
選擇SegNet 作為本文方法中的語義分割模塊,SegNet為對稱網(wǎng)絡(luò)結(jié)構(gòu),以位于中間的池化層(pooling)和上采樣層(upsampling)為分界線,編碼器和解碼器均由卷積塊組成,每個卷積塊包括2 或3 個卷積層、BN 層以及ReLU 激活層。編碼部分(encoder)通過卷積獲得圖像高維特征,在提取特征的同時通過池化操作降低圖像尺寸,解碼部分(decoder)采用反卷積和上采樣的方法完成語義分割。反卷積使圖像經(jīng)過分類后的特征得以重現(xiàn),上采樣使圖像尺寸增加,最后將輸出的值傳送給Softmax 層,輸出不同分類的最大值,獲得最后的語義分割結(jié)果。
為了更好地分析圖像的熱力特征,需要對SegNet 網(wǎng)絡(luò)進行可視化操作,本文在文獻[24]基礎(chǔ)上改進,以觀察圖像在特定卷積層的特征圖。將給定圖像x進行預(yù)處理ε(x),該預(yù)處理函數(shù)調(diào)整輸入圖像尺寸為224×224,并將RGB 轉(zhuǎn)換成BGR 排列,并對BGR 通道每個像素點減去訓(xùn)練集圖片的三通道像素的平均值,將預(yù)處理后的圖像x輸入SegNet 神經(jīng)網(wǎng)絡(luò)模型,從起始層號st開始到截止層號sp以步長S選取特定卷積層神經(jīng)元放入集合O,利用隱藏層神經(jīng)元特征圖可視化方法p層級展示神經(jīng)元集合O,獲取可視化特征圖。隱藏層神經(jīng)元特征圖可視化方法p為繪制圖像經(jīng)過神經(jīng)網(wǎng)絡(luò)的前向計算在每個卷積層中神經(jīng)元的激活值。SegNet網(wǎng)絡(luò)可視化算法如下:
其中Nl表示第l層的神經(jīng)元,圖2 是SegNet 網(wǎng)絡(luò)編碼部分最后一個卷積層的可視化特征圖。
圖2 SegNet網(wǎng)絡(luò)編碼部分最后一個卷積層可視化特征圖Fig.2 Visualized feature map of last convolution layer in coding part of SegNet
通過上述可視化方法發(fā)現(xiàn)SegNet 網(wǎng)絡(luò)編碼部分最后一層卷積層所得到的特征圖具有最強的空間信息和語義信息。為了獲得圖像對輸出類別貢獻度最高的部分,提高圖像檢索時特征匹配的準確率,本文提出通過特征圖獲得對應(yīng)熱力圖的方法,首先計算特征圖對預(yù)測類m的權(quán)重:
這里得到的map大小為計算公式中Ak的大小(14×14),如圖3(a)所示,使用ReLU 激活函數(shù)的原因是希望保留對當(dāng)前類別有正面影響的像素值,將得到的map歸一化如圖3(b)所示,采用雙線性插值的方式放大到原圖尺寸以此得到圖像對應(yīng)的熱力圖,綜上提取熱力圖的步驟如下:
圖3 可視化圖像Fig.3 Visualization image
輸入:SegNet 神經(jīng)網(wǎng)絡(luò)模型N,輸入圖片X,特征圖提取方法T。
輸出:熱力圖H。
1.將X輸入SegNet 神經(jīng)網(wǎng)絡(luò)模型N。
2.提取需要可視化的特征層l,獲得特征圖。
4.通過線性融合的方式,在特征圖的通道維度上加權(quán)求和,獲得尺寸為14×14 的map。
5.對該map歸一化,并通過雙線性插值的方式放大到原圖尺寸。
6.返回?zé)崃DH。
如圖4 所示,熱力圖中的不同顏色區(qū)域反映了輸出類概率的貢獻度,其中位于中間部分的三扇窗戶是整張圖像中最重要的特征區(qū)域,其次才是墻壁等一些其他特征。熱力特征可以為后續(xù)特征描述子匹配起到約束作用,以此減少因局部相似性區(qū)域或重復(fù)紋理特征產(chǎn)生的誤匹配問題,提高圖像檢索的準確率。
圖4 目標圖像與熱力圖Fig.4 Target image and heat map
選擇DELF 作為本文方法的特征提取模塊,DELF 包含兩部分:局部密集特征提取和關(guān)鍵點選擇。局部密集特征提取DELF 使用深度殘差網(wǎng)絡(luò)ResNet50[25]的conv4_x 層輸出14×14 的特征向量,利用加權(quán)求和生成1×40 維特征向量,損失函數(shù)采用的是標準交叉熵損失;關(guān)鍵點選擇是通過訓(xùn)練一個帶有注意力的地標分類器來測量局部特征之間的相關(guān)性。注意力網(wǎng)絡(luò)由兩層CNN 網(wǎng)絡(luò)和softplus 激活層組成,利用加權(quán)的求和池化對特征進行處理,其中池化的權(quán)重由注意力網(wǎng)絡(luò)獲得。
由圖1 可知,圖像經(jīng)過DELF 特征提取階段獲得維度為40 的特征描述子,將該描述子進行擴充,增加圖像對應(yīng)的語義信息和熱力值信息,因此該特征描述子將增加兩個維度達到42 維。
如圖5 所示,其中D∈Rn為DELF 提取的40 維特征向量,V2∈Rm為在D∈Rn的基礎(chǔ)上將第41 維和第42 維置為0 生成的向量,V1∈Rm的前40 維值為0,V1、V2維度相同,采用向量拼接的方式逐個位相加生成42 維特征向量V3∈Rm。
圖5 特征向量維度拼接Fig.5 Feature vector dimension splicing
其中第41 維信息為通過SegNet 得到的類別信息,利用Softmax 分類器得到每個像素在所有類別中的概率,如式(3)所示:
其中,y為類別標簽,x為輸入的參數(shù),w為模型參數(shù)。SegNet 網(wǎng)絡(luò)訓(xùn)練分類A個類別,類別A為a1,a2,…,an(0 <n≤9),對應(yīng)的值為1,2,…,9。為了減少局部相似性區(qū)域或重復(fù)紋理產(chǎn)生的誤匹配問題,擬通過熱力區(qū)域約束匹配范圍,提高檢索的準確率。如圖6 所示為本文通過1.1 節(jié)方法中ReLU 激活函數(shù)得到的熱力區(qū)域。由圖6(a)可見,主要特征集中在人面部的熱力區(qū)域上;圖6(b)中,特征區(qū)域集中在車輛輪胎的熱力區(qū)域位置上。由此可見,熱力區(qū)域可以作為同類事物的特征區(qū)域,因此采用結(jié)合熱力信息生成特征描述子可以更好地約束匹配范圍,從而提高配準率和檢索精度。
圖6 熱力特征區(qū)域Fig.6 Thermal characteristic regions
第42 維信息為通過1.1 節(jié)方法獲取的熱力值,根據(jù)圖3(b)獲得可視化圖像的灰度圖,如圖7 所示?;叶热≈捣秶鸀椋?,255),灰度值越大顏色越亮,則該區(qū)域越“熱”,采用式(4)以灰度值為索引將其映射至彩色空間中,從而實現(xiàn)熱力圖,其中,max為灰度最大值,min為灰度最小值。為了更好地突出圖像熱力部分,本文結(jié)合式(4)將熱力值信息分為兩類,如式(5)所示,其中Gray(x,y)為灰度值信息,mi(i=1,2)為分類結(jié)果。將所得熱力值信息添加到特征描述符中生成42 維特征描述向量。
圖7 熱力值范圍Fig.7 Values range of heat map
采用DELF 卷積神經(jīng)網(wǎng)絡(luò)提取特征描述子,通過KD 樹的最近鄰搜索及隨機抽樣一致算法進行特征匹配。KD-Tree 是k維二叉索引樹,主要用于檢索多屬性數(shù)據(jù)或多維點的數(shù)據(jù)。以上述方法為基礎(chǔ),本文提出一種復(fù)合樹結(jié)構(gòu),如圖8 所示。該結(jié)構(gòu)由一個KD 復(fù)合樹和三個關(guān)鍵參數(shù)構(gòu)成,根據(jù)特征描述向量中第41 維的類別信息C1分為b1個Node1 節(jié)點,根據(jù)第42 維熱力值信息C2分為b2個Node2 節(jié)點,深度參數(shù)d指定樹的深度,KD 復(fù)合樹的每個Node2 節(jié)點都包含一個特征集,該特征集由KD 樹組織,因此通過KD 復(fù)合樹匹配找到Node2 節(jié)點時,可將Node2 節(jié)點轉(zhuǎn)換為標準的KD 樹進行匹配,有效定位匹配特征。
圖8 KD 復(fù)合樹結(jié)構(gòu)圖Fig.8 KD compound tree structure diagram
對于Node2 中的特征描述子,首先確定其split域,取前40 維數(shù)據(jù)計算出40 個方差,挑選方差中最大值對應(yīng)的維度即為split域值。
Node2 中的數(shù)據(jù)按其第split維值排序,位于中間的數(shù)據(jù)點被選為Node-data,將小于Node-data[split]的數(shù)據(jù)點dleft劃歸左子空間Left_Range,大于Nodedata[split]的數(shù)據(jù)點dright劃歸右子空間Right_Range,以遞歸的方式對左右子空間重復(fù)上述過程,得到下一級子節(jié)點,直到數(shù)據(jù)點集FS為空則完成KD 復(fù)合樹構(gòu)造。KD 復(fù)合樹構(gòu)建算法如下所示:
將BBF 近鄰搜索算法與KD 復(fù)合樹相結(jié)合進一步提高匹配效率,由于在KD 樹的基礎(chǔ)上加入了最近鄰搜索算法所得到的優(yōu)先隊列,在形成搜索隊列的同時可以同步形成優(yōu)先隊列,在回溯查找的過程中能夠按照優(yōu)先隊列來進行查找,可避免重復(fù)路徑搜索過程,進一步提高搜索效率。改進的KD 復(fù)合樹BBF 最近鄰搜索算法如下所示:
為了驗證本文方法的有效性,采用Python 作為開發(fā)工具,CPU 主頻為2.2 GHz,GPU 為GTX1060,內(nèi)存8.00 GB,將本文方法與傳統(tǒng)方法CONGAS[26],基于深度學(xué)習(xí)的方法DIR、DELF、Fine-tuning CNN、DAME WEB 和D2-Net[27]進行比較,以驗證本文方法的有效性。在Oxford5K[28]與Paris6K[29]數(shù)據(jù)集上進行測試:
(1)Oxford5K 數(shù)據(jù)集。該數(shù)據(jù)集包含5 063 幅圖像和17 個關(guān)鍵字,Philbin 等人利用這17 個關(guān)鍵詞在Flickr 上檢索相關(guān)建筑物,共有11 種建筑物被檢索到,每種建筑物對應(yīng)5 幅查詢圖像,因此共有55 幅查詢圖像。
(2)Paris6K 數(shù)據(jù)集。與前面所提到的Oxford5K數(shù)據(jù)集相同,該數(shù)據(jù)集由Philbin 等人在Flickr 上檢索關(guān)鍵字,檢索并獲得有關(guān)巴黎地標建筑物圖像。該數(shù)據(jù)集共有6 412 幅,但是因為數(shù)據(jù)損壞等問題,實際可用的圖像有6 392 幅。
(3)Google-Landmarks 數(shù)據(jù)集。本文訓(xùn)練使用Google-Landmarks 數(shù)據(jù)集,該數(shù)據(jù)集由Noh 等人基于Zheng 等人[30]給出的算法構(gòu)建而成,并通過Gordo 等人[10]提出的方法去除與Oxf5K/Par6K 重疊部分,該數(shù)據(jù)集包含來自586 個地標的140 372 張圖像。
同時本文還使用了Oxford105K 和Paris106K 數(shù)據(jù)集來測試在大規(guī)模場景中的檢索情況,這兩個數(shù)據(jù)集由Flickr100K 數(shù)據(jù)集通過10 萬張干擾圖像擴充Oxford5K 和Paris6K 得到。
此外,以上數(shù)據(jù)集中,有些數(shù)據(jù)集圖像尺寸過大,因此本文約束圖像大小不超過1 024×768 像素,對尺寸過大的圖像進行縮小,將其降采樣至1 024×768。
SegNet 語義分割模塊訓(xùn)練,輸入兩幅不同的圖像I1和I2,首先將圖像調(diào)整為480×360 像素并將其輸入至前饋網(wǎng)絡(luò)并從最后一個反卷積層提取特征,然后將提取到的特征輸入至Softmax 損失函數(shù),得到具有區(qū)分性的視覺屬性特征。
DELF 特征提取模塊訓(xùn)練類似于文獻[13],輸入兩幅不同的圖像I1和I2,首先將圖像中心裁剪獲得正方形圖像并將尺寸縮放到250×250 像素,然后隨機裁剪到224×224 像素用于訓(xùn)練,通過ResNet50 輸出提取特征,損失函數(shù)使用的是標準交叉熵損失:
其中,y*是one-hot 編碼后的真實值,1 是一個向量。注意力網(wǎng)絡(luò)訓(xùn)練損失函數(shù)同樣采用標準交叉熵損失,訓(xùn)練完成后就可以從中提取相關(guān)特征。
為了更好地比較本文方法的匹配效果,選擇DELF 和D2-Net 進行對比實驗,選擇Oxford5K 數(shù)據(jù)集上三組具有代表性數(shù)據(jù)進行實驗,實驗結(jié)果如圖9~圖12 所示。從圖9 中可以清晰地看出熱力圖區(qū)域可以直觀地反映出目標圖像的主要特征。圖10(b)為使用DELF 匹配的結(jié)果,其中紅色線條為誤匹配結(jié)果,綠色線條為正確匹配結(jié)果,可以清楚地看到建筑物下方半圓形通道兩側(cè)和玻璃窗附近的誤匹配較多,位于建筑物右上方的錐形體的誤匹配結(jié)果更為明顯。該象對共匹配151 對特征點,其中誤匹配數(shù)量為49 對,匹配準確率為67%。圖10(c)為使用D2-Net匹配的結(jié)果,可以看出受局部相似性區(qū)域的影響,匹配效果并不理想。采用本文方法獲得的實驗結(jié)果如圖10(d)所示,受熱力圖約束較好地避免了上述問題。圖11為尺度變化情況下的匹配結(jié)果,采用DELF 方法獲得的實驗結(jié)果中,天空和建筑、景物和建筑物之間存在誤匹配情況,共獲得188 對匹配特征點,其中誤匹配特征點37 對,匹配準確率為83%,而采用本文方法的匹配結(jié)果不僅稠密度高于DELF 和D2-Net 算法,并且配準率均高于上述方法。圖12 為視角變化實驗結(jié)果,由于攝影角度的變化和光線強度的改變,DELF算法出現(xiàn)了較大面積的誤匹配,下方建筑物主體特征并沒有獲得高分值,匹配準確率僅為26%;D2-Net算法雖然在建筑物主體部分的匹配結(jié)果優(yōu)于DELF,但是受重復(fù)紋理特征的影響,產(chǎn)生較多誤匹配,而采用本文方法的匹配結(jié)果則未出現(xiàn)上述問題。綜合對比以上實驗結(jié)果,本文算法無論在配準密度還是準確率上均有較大提升。
圖9 目標圖像熱力圖Fig.9 Heat map of target image
圖10 匹配結(jié)果對比Fig.10 Comparison of matching results
圖11 尺度變換匹配結(jié)果Fig.11 Matching results of scale transformation
圖12 視角變換匹配結(jié)果Fig.12 Matching results of viewing angle transformation
將DELF、D2-Net 和本文方法分別應(yīng)用到5 種不同尺寸的圖像上,對這三種方法的執(zhí)行時間和準確度進行比較,執(zhí)行時間曲線和配準率曲線如圖13 和圖14 所示。
圖13 DELF、D2-Net與本文方法的執(zhí)行時間Fig.13 Execution time of DELF,D2-Net and proposed method
由圖13 可見,DELF 方法的運行時間均高于本文方法,D2-Net 方法的運行時間雖然在圖像小尺寸時優(yōu)于本文方法,但隨著圖像尺寸的增加,本文方法的匹配時間增長緩慢,遠低于D2-Net 的處理時間。圖像尺寸在128~512 之間時三種方法的運行時間差距不大,而當(dāng)圖像尺寸增加到724~1 024 時,本文方法獲得了較為明顯的優(yōu)勢,與DELF 相比降低了近10%,D2-Net 算法的時間曲線斜率發(fā)生了明顯變化,與本文方法的處理時間差距不斷增加。圖14 中,采用本文方法在尺寸為256~1 024 的圖像上獲得了較高的配準率,當(dāng)圖像尺寸選擇在128~724 時,與DELF、D2-Net 方法相比,配準差距較為穩(wěn)定。當(dāng)圖像尺寸增大到1 024 時,本文算法的配準率更高,較DELF 和D2-Net 方法分別提高了12%和16%。綜上,在Oxford5K 數(shù)據(jù)集上的配準實驗結(jié)果表明,本文方法在時間效率和準確率上均優(yōu)于DELF 和D2-Net 算法,尤其是在處理攝影角度和光線不同的圖像時,配準率和配準點密度更高。
圖14 DELF、D2-Net與本文方法的配準率Fig.14 Registration rate of DELF,D2-Net and proposed method
(1)檢索精度。常采用平均檢索精度(mAP)評價圖像檢索系統(tǒng)性能,定義為:
式中,M為查詢集的大小,AP是每幅圖像的平均相似度,計算方式為:
其中,ri為相似度級別,通過兩幅圖像之間共有的標簽數(shù)來衡量,最大值為查詢圖像與數(shù)據(jù)庫中圖像的最大相同標簽數(shù),最小值為0。δ為指示函數(shù),在相似度級別p所返回圖像數(shù)量(rp)大于0 時,δ取1,否則取0。ACG@p為返回前p個圖像的平均相似度,定義為:
式中,r(i)為第i個返回圖像和查詢圖像之間的共同標簽數(shù)。
將本文方法與傳統(tǒng)方法CONGAS,基于深度學(xué)習(xí)的方法DIR、DELF、Fine-tuning CNN 和DAME WEB 進行比較?;谄骄龋╩AP)評估檢索性能,表1 為采用以上方法在4 個公共數(shù)據(jù)集上進行的檢索精度評估結(jié)果。
表1 檢索精度評估Table 1 Evaluation of retrieval accuracy 單位:%
CONGAS 利用傳統(tǒng)手工制作特征進行圖像檢索,雖然取得了較好的結(jié)果,但與基于深度學(xué)習(xí)的方法相比,存在不小的差距。DIR、DELF、Fine-tuning CNN 和DAME WEB 為基于深度學(xué)習(xí)的方法,其平均精度優(yōu)于傳統(tǒng)方法,由于本文方法結(jié)合了語義網(wǎng)絡(luò)中的熱力值信息,在Oxford5K、Paris6K、Oxford105K和Paris106K 數(shù)據(jù)集上的平均精度均優(yōu)于以上方法,驗證了本文方法的有效性。
(2)檢索效率。為了進一步驗證本文方法的有效性,針對本文方法以及對比方法在Oxford5K 數(shù)據(jù)集上進行檢索效率分析。
由表2 可見,與較為傳統(tǒng)的CONGAS 相比,本文方法雖然檢索速度上降低不多僅8.6%,但mAP 值有明顯的提高;相較于DIR、DELF、Fine-tuning CNN 和DAME WEB 方法的檢索速度較快,分別降低39.4%、19.9%、28.8%和24.3%檢索時間,并且準確率較上述方法有一定的提高,由此可見本文方法更具實用性。
表2 6 種檢索方法在Oxford5K 數(shù)據(jù)集上平均檢索時間比較Table 2 Comparison of average retrieval time of 6 retrieval methods on Oxford5K dataset
為了更好地驗證本文方法的性能,在Oxford5K數(shù)據(jù)集上從查全率R、查準率P、P-R和mAP 曲線對各種方法進行分析,查全率如式(12)所示:
其中,tp為被檢索到正樣本且實際也是正樣本(正確識別)數(shù)量,fn為未被檢索到正樣本且實際是正樣本(錯誤識別)數(shù)量。圖15(a)為不同檢索方法的平均查全率,由圖可見本文方法明顯高于其他方法,當(dāng)檢索樣本數(shù)為50 幅時,本文方法的查全率達到90%,而其他方法最高僅達到89%,而所有的方法隨著檢索圖像數(shù)的增加,會逐漸將與查詢圖像相似的圖像檢索出來,因此平均查全率會逐漸上升。
查準率如式(13)所示,其中fp為被檢索到正樣本且實際是負樣本(錯誤識別)的數(shù)量,由圖15(b)的實驗對比可見,本文方法優(yōu)于其他對比方法。當(dāng)檢索樣本數(shù)為10 幅時,本文方法對查詢圖像檢索的平均查準率為97%,而其他方法的平均查準率都相對較低。隨著檢索圖像數(shù)的增加,所有方法都會將與查詢圖像不相似的圖像檢索出來,因此平均查準率會有所下降。圖15(c)為采用不同檢索方法獲得的總體P-R曲線,P-R曲線以查全率R為X軸、查準率P為Y軸形成查全率-查準率曲線。P-R曲線與X軸圍成的圖形面積即為平均檢索精度mAP,P-R曲線圍成的曲線面積越大,說明圖像檢索的效果越好,從圖15(c)可以看出,本文方法的P-R曲線圍成的面積更大。圖15(d)是不同檢索方法獲得的mAP 曲線,可以看出本文方法的mAP 曲線圖位置均高于其他對比方法,說明本文方法的檢索性能更高。對Oxford5K數(shù)據(jù)集的11 種類別建筑物的檢索精度進行對比,選取5 種檢索方法中mAP 值較高的四種方法與本文方法進行比較,表3 為檢索圖像數(shù)為50 時,采用不同檢索方法在11 種類別建筑物上的mAP 對比。由表3 可見,本文方法雖然在ashmolean 和radcliffe_camera 類別上的mAP 值低于Fine-tuning CNN,但是在其他9種類別的mAP 值均高于其他方法,并且平均精度和檢索效率均優(yōu)于其他方法,進一步驗證了本文方法具有較好的檢索性能。
圖15 檢索精度對比圖Fig.15 Comparison chart of retrieval accuracy
表3 11 種類別建筑物檢索精度對比Table 3 Comparison of retrieval accuracy of 11 types of buildings
本文針對圖像匹配過程中不同區(qū)域高相似性局部描述子易導(dǎo)致誤匹配的問題,提出一種面向圖像檢索的熱力特征描述子構(gòu)造與匹配方法。通過選取語義分割網(wǎng)絡(luò)對其卷積層進行結(jié)構(gòu)可視化操作,獲取圖像的熱力圖,將學(xué)習(xí)到的特征描述子與語義分割網(wǎng)絡(luò)得到的類別信息和熱力值信息相結(jié)合,生成42 維特征描述向量,并利用該特征描述向量建立KD復(fù)合樹,以此實現(xiàn)基于熱力特征描述子的匹配,可以較好地避免不同區(qū)域高相似性局部描述子所導(dǎo)致的誤匹配問題。實驗結(jié)果證明,與其他同類方法相比,本文方法檢索時間和精度上更具優(yōu)勢,可為后續(xù)高級圖像處理提供更好的支持。