葛蕓, 江順亮, 葉發(fā)茂, 姜昌龍, 陳英, 唐祎玲
(1.南昌大學(xué)信息工程學(xué)院,南昌 330031; 2.南昌航空大學(xué)軟件學(xué)院,南昌 330063)
隨著遙感技術(shù)的發(fā)展,高分辨率遙感(high-resolution remote sensing,HRRS)圖像數(shù)量急速增長,HRRS圖像檢索技術(shù)成為了研究熱點(diǎn)和難點(diǎn)之一?;趦?nèi)容的遙感圖像檢索(content-based remote sensing image retrieval, CBRSIR)是目前主流的檢索技術(shù),它包括特征提取和相似性度量2個(gè)部分,其中特征提取是圖像檢索中的關(guān)鍵技術(shù)。
早期CBRSIR主要通過提取圖像的底層特征[1]進(jìn)行檢索,但是底層特征難以表達(dá)圖像的高層語義信息,即存在嚴(yán)重的“語義鴻溝”問題[2-3]。為了縮小語義鴻溝,主要有以下3種方法: ①采用相關(guān)反饋機(jī)制[2],該方法依賴于反饋中標(biāo)記的樣本示例; ②融合多種特征[4],該方法可以有效結(jié)合不同特征的優(yōu)點(diǎn),從而更加全面地描述圖像信息; ③聚合特征的方法,即在局部特征的基礎(chǔ)上進(jìn)一步構(gòu)建抽象出的高一級特征,如視覺詞袋(bag of visual words,BoVW)[5]是在尺度不變特征轉(zhuǎn)換(scale-invariant feature transform,SIFT)特征的基礎(chǔ)上通過K均值聚類得到的一種聚合特征,局部結(jié)構(gòu)學(xué)習(xí)(local structure learning,LSL)[6]是在局部特征的基礎(chǔ)上,結(jié)合圖正則化得到的一種聚合特征。聚合特征能夠減少冗余信息,有效降低特征維度,提高特征表達(dá)能力,從而縮小語義鴻溝。
傳統(tǒng)的聚合特征都是建立在手工提取特征的基礎(chǔ)上,但手工特征表達(dá)圖像能力有限,且容易受到人為因素干擾。目前流行的深度卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)能夠自動(dòng)學(xué)習(xí)圖像的特征,降低了人為干擾,在圖像分類、檢索和目標(biāo)識別中應(yīng)用廣泛[7-11],其中在大規(guī)模數(shù)據(jù)集(如ImageNet)上訓(xùn)練的CNN具有很強(qiáng)的泛化能力,可以有效遷移到其他小規(guī)模數(shù)據(jù)集。CNN遷移學(xué)習(xí)中,全連接層的輸出值首先受到關(guān)注[7],之后表達(dá)圖像局部信息的卷積層特征越來越受到重視[8],卷積層特征通常采用編碼[8]和池化[9]的方法進(jìn)一步構(gòu)建為聚合特征。
在遙感圖像檢索領(lǐng)域,由于目前公開的遙感數(shù)據(jù)集規(guī)模較小,CNN的參數(shù)得不到充分訓(xùn)練,因此相關(guān)研究主要集中于將CNN遷移到HRRS圖像并進(jìn)行檢索[12-14]。Napoletano[12]使用CNN中的全連接層特征進(jìn)行檢索; Zhou等[13]和Hu等[14]比較了CNN全連接層特征和基于卷積層輸出值的聚合特征,并對CNN進(jìn)行微調(diào); Zhou等[13]還提出一種低維度特征(low dimensional CNN,LDCNN),但該特征的性能與數(shù)據(jù)集密切相關(guān); Hu等[14]對卷積層特征提出了多尺度級聯(lián)的方法,對全連接層特征采用了多小塊均值池化的方法,但為了提取一幅圖像的特征,這些方法需要多個(gè)輸入來重新饋送給CNN,導(dǎo)致特征提取過程相對復(fù)雜。
上述文獻(xiàn)對CNN的全連接層特征和卷積特征進(jìn)行了較全面的研究,但對卷積特征采用的聚合方法均為編碼方法,缺少對卷積層特征不同聚合方法的研究。因此本文根據(jù)HRRS圖像的特點(diǎn),研究CNN特征的聚合方法,并將其用于HRRS圖像檢索。首先,將CNN網(wǎng)絡(luò)的參數(shù)遷移到HRRS圖像,并針對不同尺寸的輸入圖像,提取表達(dá)圖像局部信息的CNN特征; 然后,提出池化區(qū)域不相同的均值池化和BoVW這2種方法對CNN特征進(jìn)行聚合,分別得到池化特征和BoVW特征,并對池化區(qū)域和視覺單詞數(shù)目進(jìn)行了研究; 最后,將這2種聚合特征用于遙感圖像檢索。
在聚合CNN特征時(shí),選用16層的VGG16網(wǎng)絡(luò)[15]和22層的GoogLeNet網(wǎng)絡(luò)[16]。VGG16通過擴(kuò)展卷積層的數(shù)量增加了網(wǎng)絡(luò)深度,GoogLeNet則通過使用inception modules機(jī)制,不僅增加了網(wǎng)絡(luò)的深度,還增加了網(wǎng)絡(luò)的廣度。因此VGG16和GoogLeNet經(jīng)過前面多個(gè)層次的抽象運(yùn)算,后面的卷積層不僅僅獲得更多的局部信息,并且具有更好的泛化能力。VGG16的CNN特征來自最后的卷積層(conv5-3)、激活函數(shù)層(relu5-3)和池化層(pool5)的輸出值,GoogLeNet的CNN特征來自倒數(shù)第二層池化層(pool4)和最后2個(gè)inception層(incep5a和incep5b)的輸出值。
輸入圖像尺寸不同時(shí),輸出值也不同,因此不同尺寸的輸入圖像對檢索性能有較大影響。主要考慮2種尺寸: ①CNN默認(rèn)的圖像尺寸,即調(diào)整后的圖像尺寸,VGG16和GoogLeNet的默認(rèn)圖像尺寸為224像素×224像素(文中涉及到圖像尺寸的單位均為像素,為表達(dá)簡潔,下文省略); ②數(shù)據(jù)集中的原圖像尺寸,UC-Merced[5]和WHU-RS[17]為目前常用的2種HRRS數(shù)據(jù)集,256×256為UC-Merced中圖像的原尺寸,比較接近默認(rèn)尺寸,600×600為WHU-RS中圖像的原尺寸,與默認(rèn)尺寸相差較大,因此這兩種數(shù)據(jù)集中圖像的不同尺寸正好可以有效比較圖像尺寸對檢索性能的影響。表1和表2列出了不同輸入圖像尺寸下相應(yīng)層次的輸出值。以VGG16中pool5為例,在輸入圖像為224×224×3(3表示對應(yīng)于R,G,B的3個(gè)通道)時(shí),pool5的輸出值為7×7×512,即輸出值有512個(gè)通道,每個(gè)通道的特征圖尺寸為7×7。
表1 不同尺寸輸入圖像下VGG16的輸出值Tab.1 Outputs of VGG16 under different input image sizes
表2 不同尺寸輸入圖像下GoogLeNet的輸出值Tab.2 Outputs of GoogLeNet under different input image sizes
1.2.1 CNN特征
令圖像I某個(gè)層次l的輸出值為
fl=sl×sl×cl,
(1)
式中:fl為層次l的CNN特征;sl×sl為特征圖的尺寸;cl為特征圖的數(shù)目,即通道的數(shù)目。若將fl直接轉(zhuǎn)化為特征向量,則維度過高,檢索性能不佳,因此需要將其構(gòu)建為聚合特征。
1.2.2 聚合特征
HRRS圖像內(nèi)容復(fù)雜,信息豐富,因此針對HRRS圖像采用池化區(qū)域尺寸不同的均值池化方法,以便找到合適的池化區(qū)域來提取區(qū)分度更好的池化特征。特征編碼采用經(jīng)典的BoVW編碼方法。
1)池化特征。目前常用的均值池化方法是令池化區(qū)域尺寸等于特征圖尺寸[9],但針對HRRS圖像,由于其內(nèi)容豐富,直接令池化區(qū)域等于特征圖區(qū)域,可能會丟失一些重要信息。因此提出池化區(qū)域尺寸不相同的均值池化方法,以獲得效果更好的特征。
對于尺寸為sl×sl的圖像I的l層特征圖,令池化區(qū)域?yàn)閙l×ml,記為rl; 令步幅為1,則池化區(qū)域的數(shù)目為(sl-ml+1)×(sl-ml+1),將其記為kl,則對于每個(gè)池化區(qū)域i,其池化特征為
(2)
式中ml×ml≤sl×sl,即池化區(qū)域小于或者等于特征圖區(qū)域。當(dāng)池化區(qū)域尺寸比特征圖小時(shí),可以保留更多的信息,更適合表達(dá)內(nèi)容復(fù)雜的HRRS圖像。根據(jù)公式(2)計(jì)算的pl的輸出值為三維矩陣(sl-ml+1)×(sl-ml+1)×cl,將其轉(zhuǎn)換為池化特征向量,記為Ap=[x1,x2,…,xD],其中D=(sl-ml+1)×(sl-ml+1)×cl,即池化特征的維度。
因此,本文提出的均值池化方法,圖像僅需要輸入到CNN中一次,通過在輸出的特征圖上設(shè)置較小的池化區(qū)域,可以獲取圖像的很多局部信息,從而提高圖像的特征表達(dá)。
2)BoVW特征。傳統(tǒng)的BoVW特征主要基于手工提取的局部特征進(jìn)行聚合,而本文的BoVW特征則是基于表達(dá)圖像局部信息的CNN特征進(jìn)行聚合后的特征。
(3)
圖1以VGG16為例描述了整個(gè)檢索流程,圖中ci(i=1,2,3,4,5-1,5-2,5-3)表示卷積層。GoogLeNet的檢索流程類似,只是提取的網(wǎng)絡(luò)層次與VGG16不同。
圖1 VGG16檢索流程Fig.1 Retrieval flow chart of VGG16
具體檢索步驟如下:
1)將預(yù)訓(xùn)練CNN的參數(shù)分別遷移到HRRS數(shù)據(jù)集M和查詢圖像q。由于聚合特征是針對卷積層特征進(jìn)行的,因此去除VGG16中的全連接層。將VGG16中卷積層的參數(shù)直接遷移到M和q。除了conv5-3外,其它卷積層省略了激活函數(shù)層和池化層。
2)提取M和q的CNN特征。將M中每幅圖像和q分別輸入到CNN,提取conv5-3、relu5-3和pool5層的輸出值作為M中每幅圖像和q的CNN特征。M中所有圖像提取的CNN特征為fM=[f1,f2,…,fN],N為數(shù)據(jù)集M中圖像的總數(shù)量,q的CNN特征記為fq。
3)提取M和q的聚合特征。M和q的CNN特征分別采用池化區(qū)域不相同的均值池化和BoVW方法,得到相應(yīng)的池化特征和BoVW特征。為了簡要表明,池化特征和BoVW特征用統(tǒng)一的方式標(biāo)記:q的聚合特征記為Fq,M中的所有圖像提取的聚合特征為FM=[A1,A2,…,AN]。
4)分別對FM和Fq進(jìn)行歸一化處理。由于圖像各特征向量代表的物理意義往往不同,即使對同一個(gè)特征向量,其各個(gè)分量的取值范圍也可能存在很大差異,因此需要對M和q的聚合特征進(jìn)行歸一化處理。對此,本文采用的是常用的L2歸一化。
5)計(jì)算相似度,完成圖像檢索。根據(jù)歸一化后的聚合特征,計(jì)算q和M中圖像的相似度,并根據(jù)相似度返回最相似的n幅圖像。
實(shí)驗(yàn)使用MatConvNet[18]提取網(wǎng)絡(luò)模型VGG16和GoogLeNet。預(yù)訓(xùn)練VGG16和GoogLeNet的數(shù)據(jù)集采用ImageNet的子集ILSVRC2012,ILSVRC2012包含了1 000種圖像分類,大約有130萬幅訓(xùn)練圖像、5萬幅驗(yàn)證圖像和10萬幅測試圖像。遙感數(shù)據(jù)集采用UC-Merced和WHU-RS。UC-Merced是從美國地質(zhì)調(diào)查局收集的航空正射圖像,總共21類場景,每類有100幅圖像,圖像大小為256×256; WHU-RS是從Google Earth下載的19類場景,每類包含50幅圖像,圖像大小為600×600。表3顯示了這2個(gè)數(shù)據(jù)集的示例圖像。
表3 UC-Merced和WHU-RS示例圖像Tab.3 Sample images of UC-Merced and WHU-RS
實(shí)驗(yàn)的相似度采用常用的歐式距離; 評估標(biāo)準(zhǔn)采用了近幾年來HRRS圖像中使用普遍的平均歸一化修改檢索等級(average normalize modified retrieval rank, ANMRR),ANMRR取值越小,表明檢索出來的相關(guān)圖像越靠前,即檢索性能越好。同時(shí),實(shí)驗(yàn)中還比較了圖像檢索中重要的性能評價(jià)準(zhǔn)則查準(zhǔn)率—查全率曲線。
采用均值池化提取聚合特征時(shí),池化區(qū)域的尺寸影響網(wǎng)絡(luò)檢索性能。圖2和圖3分別比較了VGG16和GoogLeNet不同池化區(qū)域尺寸的檢索結(jié)果。當(dāng)輸入圖像尺寸為224×224時(shí),VGG16的conv5-3和relu5-3的特征圖尺寸為14×14,其他層次的特征圖尺寸均為7×7。圖中橫坐標(biāo)2~7表示池化區(qū)域尺寸從2×2到7×7。為了顯示方便,對于圖3的conv5-3和relu5-3來說,池化區(qū)域尺寸為橫坐標(biāo)值的2倍,即為4×4到14×14。
(a) UC-Merced(b) WHU-RS
圖2VGG16中不同池化區(qū)域的ANMRR
Fig.2ANMRRwithdifferentpoolingregionsizesinVGG16
(a) UC-Merced(b) WHU-RS
圖3GoogLeNet中不同池化區(qū)域的ANMRR
Fig.3ANMRRwithdifferentpoolingregionsizesinGoogLeNet
圖2(a)顯示,3類特征的ANMRR值都呈現(xiàn)先降后升的趨勢,其中以conv5-3的ANMRR值下降最快,pool5的ANMRR值最小,即檢索性能最好。圖2(b)顯示,隨著池化區(qū)域的增大,relu5-3的ANMRR值呈下降趨勢,而conv5-3和poo5的ANMRR值均先下降再上升。當(dāng)池化區(qū)域較小時(shí),pool5的ANMRR值最??; 隨著池化區(qū)域增大,conv5-3的ANMRR值急速下降,并小于pool5的值。圖3(a)中3類特征的最小ANMRR值位于接近特征圖的位置,其中以pool4的結(jié)果最好。圖3(b)中pool4的最小ANMRR值位于6×6的位置,而其他層次的最小值位于7×7的位置,3類特征中pool4的ANMRR值最優(yōu)。
從圖2和圖3總體上來看,大多數(shù)特征的ANMRR值首先隨著池化區(qū)域尺寸的增大而減小,到達(dá)最低值后,再隨著池化區(qū)域尺寸的增大而上升。除了WHU-RS上的relu5-3,incep5a和incep5b外,其他特征在池化區(qū)域尺寸小于特征圖尺寸時(shí)的檢索性能最好。
表4和表5分別顯示了UC-Merced和WHU-RS中2種輸入圖像尺寸(默認(rèn)尺寸和原始尺寸)下池化特征的結(jié)果。為了和傳統(tǒng)的均值池化方法比較,對于每種特征,列出了3種不同池化區(qū)域尺寸的結(jié)果: 前兩個(gè)值是在池化區(qū)域尺寸從2×2增加到(s-1)l×(s-1)l(特征圖尺寸為sl×sl)的結(jié)果中選擇的2個(gè)最優(yōu)值,第3個(gè)值為池化區(qū)域尺寸等于特征圖尺寸的結(jié)果(即傳統(tǒng)的均值池化方法)。表中粗體標(biāo)注的值為該類特征中的最優(yōu)結(jié)果,標(biāo)注星號的值表示整體的最優(yōu)結(jié)果。
表4 UC-Merced不同池化特征的ANMRRTab.4 ANMRR with different pooling features on the UC-Merced
表5 WHU-RS不同池化特征的ANMRRTab.5 ANMRR with different pooling features on the WHU-RS
表4中,輸入圖像的默認(rèn)尺寸和原始尺寸比較接近,因此檢索結(jié)果也很接近,整體上256×256的檢索結(jié)果比224×224的結(jié)果稍差些。這種結(jié)果可能是由于與相差不大的256×256相比,尺寸為224×224的圖像更適合用于CNN中,以便輸出區(qū)別性更強(qiáng)的特征。表5中輸入圖像的默認(rèn)尺寸和原始尺寸相差較大,因此檢索結(jié)果的差異性比較明顯,600×600的結(jié)果比224×224的結(jié)果好,這是因?yàn)楫?dāng)圖像尺寸從600×600調(diào)整到224×224時(shí),圖像丟失的信息比較多,直接導(dǎo)致檢索性能下降。
對比2表可知,當(dāng)輸入圖像尺寸增大時(shí),最優(yōu)池化區(qū)域的尺寸和特征圖尺寸的差距也相應(yīng)增大。因此簡單地令池化區(qū)域尺寸等于特征圖尺寸的方法容易丟失重要的特征信息,應(yīng)該根據(jù)輸入圖像的尺寸及網(wǎng)絡(luò)的層次選擇合理的池化區(qū)域。根據(jù)實(shí)驗(yàn)結(jié)果,大多數(shù)特征的最優(yōu)池化區(qū)域在特征圖尺寸的60%~80%之間。
表6和表7顯示了2種輸入圖像尺寸下BoVW特征的結(jié)果。為了比較視覺單詞數(shù)目K對檢索性能的影響,分別令K的取值為100,150,1 500,2 000和4 000。表中粗體標(biāo)注的值為該類特征中的最優(yōu)結(jié)果,標(biāo)星號的值表示整體的最優(yōu)結(jié)果。
表6 UC-Merced不同BoVW特征的ANMRRTab.6 ANMRR with different BoVW features on the UC-Merced
表7 WHU-RS不同BoVW特征的ANMRRTab.7 ANMRR with different BoVW features on the WHU-RS
表6中,大多數(shù)的BoVW特征在224×224尺寸下的結(jié)果優(yōu)于256×256,VGG16中大多數(shù)特征的最優(yōu)K值為100和150,GoogLeNet中不同特征的最優(yōu)K值均為100。表7中,大多數(shù)的BoVW特征在600×600尺寸下的結(jié)果優(yōu)于224×224,尤其以GoogLeNet中的結(jié)果表現(xiàn)更明顯。當(dāng)輸入圖像尺寸明顯增大時(shí),用于構(gòu)建視覺單詞的特征數(shù)目也相應(yīng)增多,相應(yīng)的最優(yōu)K值也隨之增大。例如,當(dāng)輸入圖像尺寸為600×600時(shí),relu5-3和pool5的最優(yōu)K值增大到4 000,GoogLeNet所有層次的最優(yōu)K值均增大到150。
因此在BoVW特征中,根據(jù)圖像尺寸和特征圖尺寸選擇一個(gè)適宜的K值對提高檢索結(jié)果有著重要作用。當(dāng)輸入圖像尺寸顯著增大時(shí),K的最優(yōu)取值也變大,其中以VGG16中K的最優(yōu)取值變化尤為顯著。
前面實(shí)驗(yàn)結(jié)果中,大多數(shù)池化特征的檢索結(jié)果優(yōu)于BoVW特征。為了進(jìn)一步比較這2種不同的聚合特征,在每種聚合特征中分別選擇最優(yōu)的特征(即為表4—7中標(biāo)記為星號的特征)比較查準(zhǔn)率—查全率曲線。查準(zhǔn)率是指檢索返回結(jié)果中相關(guān)圖像數(shù)與返回圖像數(shù)的比例,反映了檢索精度; 查全率是指檢索返回結(jié)果中相關(guān)圖像數(shù)與所有相關(guān)圖像總數(shù)的比值,反映了檢索的全面性,與返回圖像數(shù)目呈正相關(guān)。在查準(zhǔn)率—查全率曲線中曲線比較高時(shí),查準(zhǔn)率和查全率都比較高,即檢索性能比較好。
圖4比較了不同特征的查準(zhǔn)率—查全率曲線,VGG16和GoogLeNet的最優(yōu)池化特征記為VGG16-P和GoogLeNet-P,VGG16和GoogLeNet的最優(yōu)BoVW特征記為VGG16-B和GoogLeNet-B。UC-Merced返回圖像數(shù)目最少為2,最多為2 100; WHU-RS返回圖像數(shù)目最少為2,最多為950。在UC-Merced中,GoogLeNet-P的曲線位于最頂端,因此GoogLeNet-P的檢索性能最優(yōu),其次是VGG16-P。當(dāng)返回圖像數(shù)目較少時(shí),GoogLeNet-B的曲線高于VGG16-B的曲線,即GoogLeNet-B的檢索性能優(yōu)于VGG16-B; 當(dāng)返回圖像數(shù)目逐漸增多時(shí),GoogLeNet-B的性能迅速下降并低于VGG16-B。在WHU-RS中,VGG16-B的曲線位于最低端,即檢索性能最差,VGG16-P和GoogLeNet-P的結(jié)果比較接近。對于GoogLeNet-B,其檢索性能隨著返回圖像數(shù)目的增大逐漸變好,甚至超過VGG16-P和GoogLeNet-P; 當(dāng)返回圖像數(shù)目增大到一個(gè)較大值時(shí),GoogLeNet-B的性能又迅速下降??傮w上來看,在2個(gè)數(shù)據(jù)集上,VGG16-P和GoogLeNet-P的檢索性能優(yōu)于VGG16-B和GoogLeNet-B。
(a) UC-Merced(b) WHU-RS
圖4不同特征的查準(zhǔn)率—查全率曲線
Fig.4Precision-recallcurvesfordifferentfeatures
表8比較了淺層特征和CNN特征的ANMRR值和維度。淺層特征選擇了Aptoula提出的全局形態(tài)紋理特征[3]和基于手工特征SIFT構(gòu)建的BoVW[5],以及近期提出的LSL[6]。CNN特征包含了文獻(xiàn)[12—14]提出的特征,以及本文提出的VGG16-P,GoogLeNet-P,VGG16-B和GoogLeNet-B特征。由于大多數(shù)其它特征使用的數(shù)據(jù)集為UC-Merced,因此表8基于UC-Merced進(jìn)行比較。
表8 不同特征的ANMRR和維度Tab.8 ANMRR and dimensions for different features
表8顯示,CNN特征的結(jié)果普遍優(yōu)于淺層特征,與BoVW相比,GoogLeNet-P和VGG16-P的值分別降低了27.31%和21.51%。
CNN特征中,VGGM-fc[12]和VGGM-fc-RF[12]分別是VGGM全連接層特征及加入了反饋信息的特征; VGG16-fc[13]是VGG16全連接層特征,VGGM-conv5-IFK[13]和VGG16-conv5-IFK[13]是對VGGM和VGG16的卷積層使用改進(jìn)的費(fèi)舍爾核(improved fisher kernel,IFK)編碼的特征,GoogLeNet(FT)+MultiPatch[14]是微調(diào)后的GoogLeNet特征使用多個(gè)分塊均值化的結(jié)果。
從表8中可以看出,除了VGGM-fc-RF和GoogLeNet(FT)+MultiPatch外,本文提出的4種CNN特征比其他CNN特征的ANMRR值低,而GoogLeNet(FT)+MultiPatch和VGGM-fc-RF的特征提取方法比本文方法復(fù)雜。因此選擇合適的CNN網(wǎng)絡(luò)以及采用合理的聚合方法能夠有效提高HRRS圖像檢索性能。
本文對VGG16和GoogLeNet中表達(dá)局部信息的CNN特征,采用池化區(qū)域尺寸不相同的均值池化和BoVW 2種方法得到不同的聚合特征,并將其用于HRRS圖像檢索。通過研究獲得主要結(jié)論如下:
1)針對HRRS圖像,池化特征的檢索性能比BoVW特征的性能好。
2)池化特征中池化區(qū)域尺寸直接影響檢索結(jié)果,大多數(shù)池化特征的最優(yōu)池化區(qū)域尺寸為特征圖尺寸的60%~80%之間。這種尺寸既能有效地剔除CNN特征的冗余信息,同時(shí)也能保留一些區(qū)分度明顯的特征信息。
3)BoVW特征中視覺單詞數(shù)目對圖像檢索性能影響較大。當(dāng)輸入圖像尺寸顯著增大時(shí),視覺單詞數(shù)目的最優(yōu)取值也相應(yīng)增大,以VGG16的取值變化尤為明顯。
4)不同輸入圖像尺寸影響聚合特征的檢索性能,當(dāng)默認(rèn)尺寸和原尺寸相差較大時(shí),原尺寸得到的聚合特征檢索性能更好; 當(dāng)默認(rèn)尺寸和原尺寸很接近時(shí),默認(rèn)尺寸有時(shí)更適合CNN網(wǎng)絡(luò)。
5)與傳統(tǒng)的淺層特征相比,本文提出的聚合特征的檢索性能大幅度提高。GoogLeNet的最優(yōu)池化特征和VGG16的最優(yōu)BoVW特征的ANMRR值比淺層特征BoVW分別降低了27.31%和21.51%。與目前提出的CNN特征相比,本文選用的CNN特征更適用于聚合,采用的聚合方法簡單有效。
因此本文提出的聚合特征能夠有效提高HRRS圖像的檢索性能,其中池化特征提高幅度更為明顯。但是池化特征的維度相對較高,今后將進(jìn)一步研究如何有效降低池化特征的維度。