張 琴,伍世虔,徐望明,4
(1.武漢科技大學(xué)機(jī)械自動(dòng)化學(xué)院,湖北 武漢,430081;2.武漢科技大學(xué)機(jī)器人與智能系統(tǒng)研究院,湖北 武漢,430081;3.武漢科技大學(xué)信息科學(xué)與工程學(xué)院,湖北 武漢,430081;4.武漢科技大學(xué)冶金自動(dòng)化與檢測(cè)技術(shù)教育部工程研究中心,湖北 武漢,430081)
基于內(nèi)容的圖像檢索(content-based image retrieval,CBIR)[1-5]一直是計(jì)算機(jī)視覺(jué)研究領(lǐng)域中的熱門課題。它通過(guò)特征提取算法將圖像表示為向量,并利用近鄰搜索方法找到與給定的查詢圖像內(nèi)容相似的圖像,其中,特征提取算法對(duì)圖像檢索性能起著關(guān)鍵作用。為了提取出具有判別能力的圖像特征,形成有效的圖像表示,人們針對(duì)特征提取算法進(jìn)行了大量研究,近十幾年來(lái)其經(jīng)歷了從基于SIFT[6]、SURF[7]等算法并結(jié)合BOW[8-9]、FV[10]、VLAD[11]等嵌入編碼方法提取圖像淺層特征到基于深度卷積神經(jīng)網(wǎng)絡(luò)[12]提取圖像深層特征的發(fā)展過(guò)程。
最近研究表明,在圖像檢索任務(wù)中,采用在大規(guī)模數(shù)據(jù)庫(kù)ImageNet[13]上預(yù)訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)提取的深度特征比傳統(tǒng)的淺層特征取得了更加好的檢索效果[14-19],而且深度網(wǎng)絡(luò)中卷積層[17-22]輸出的特征可看作圖像的局部表示,能體現(xiàn)出更多的圖像細(xì)節(jié)信息,比全連接層[14-15]輸出的特征取得了更高的檢索精度。因此,目前的主流算法是將卷積層輸出的特征進(jìn)行聚合形成圖像的全局表示。卷積層的特征聚合又分為兩種:一種是編碼聚合[16-18],這種方法將卷積層的列特征看作類似于SIFT的局部特征,進(jìn)行VLAD、FV或BOW等嵌入編碼,最后聚合成圖像的全局表示;另一種是直接聚合[19-22],將卷積層的特征圖直接求和聚合或加權(quán)后求和聚合,形成圖像的全局表示。
深度卷積特征比經(jīng)典手工局部特征具有更強(qiáng)的判別能力,而且適用于經(jīng)典SIFT特征的嵌入編碼方式不宜簡(jiǎn)單移植到深度卷積特征上,直接對(duì)深度卷積特征進(jìn)行求和聚合,可取得比常用編碼聚合方法更好的性能[19],因此本文著重研究深度卷積特征的直接聚合方法。對(duì)于典型的聚合方法——基于部位的加權(quán)聚合(part-based weighting aggregation,PWA)方法[22],筆者發(fā)現(xiàn),聚合后的特征在大部分維度上的響應(yīng)比較小,而在一小部分維度上的響應(yīng)卻明顯較大,這隱含著類似于基于SIFT的淺層編碼特征出現(xiàn)的視覺(jué)突發(fā)(visual burstiness)問(wèn)題[23],即圖像特征中某些元素信息多倍于其它元素信息重復(fù)出現(xiàn),這些重復(fù)的視覺(jué)特征在進(jìn)行圖像相似性度量時(shí)會(huì)起主導(dǎo)作用,使得圖像檢索精度降低。為了有效調(diào)節(jié)這種視覺(jué)突發(fā)效應(yīng),改善圖像檢索效果,本文運(yùn)用冪歸一化方法改進(jìn)PWA特征聚合方法,并在4個(gè)標(biāo)準(zhǔn)的圖像數(shù)據(jù)庫(kù)上進(jìn)行圖像檢索實(shí)驗(yàn),以驗(yàn)證改進(jìn)方法的有效性。
1PWA特征聚合方法及其存在的問(wèn)題
一般而言,深度卷積特征的聚合方法是將卷積神經(jīng)網(wǎng)絡(luò)的卷積層輸出的特征圖作為聚合算法的輸入,可用3維張量表示為X∈RK×W×H,這里W×H表示空間分辨率,K表示特征圖數(shù)量或通道數(shù)量,其中一個(gè)通道對(duì)應(yīng)的特征圖為二維矩陣Xk∈R(W×H)(k=1,2,…,K),該特征圖中的一個(gè)元素表示為Xk(i,j)∈R(i=1,2,…,W;j=1,2,…,H)。
深度卷積特征聚合方法的典型代表是基于部位的加權(quán)聚合(PWA)。文獻(xiàn)[24]中指出:深度卷積神經(jīng)網(wǎng)絡(luò)卷積層中特定通道對(duì)特定語(yǔ)義有較強(qiáng)的響應(yīng),一些具有區(qū)分性的通道可用來(lái)作為目標(biāo)的部位檢測(cè)器(part detector)。受此啟發(fā),文獻(xiàn)[22]提出PWA框架,先從深度卷積神經(jīng)網(wǎng)絡(luò)卷積層輸出的所有通道中選出一部分有代表性的具有區(qū)分性的通道作為包含特定語(yǔ)義的部位檢測(cè)器,用作空間權(quán)重,再對(duì)該層輸出的所有卷積特征圖(通道)進(jìn)行加權(quán)聚合,形成具有特定語(yǔ)義的區(qū)域聚合特征,然后將這些區(qū)域特征連接起來(lái)即可形成最終的圖像全局表示。
PWA方法中具有區(qū)分性的通道是根據(jù)待檢索圖像數(shù)據(jù)庫(kù)中所有圖像樣本的通道特征圖的聚合值的方差來(lái)選擇的,方差越大則該通道特征圖的區(qū)分性越強(qiáng),該過(guò)程可以離線完成。第m幅圖像在卷積層輸出的第k個(gè)通道特征圖的求和聚合值為:
(1)
設(shè)圖像數(shù)據(jù)庫(kù)一共有M幅圖像,則第k個(gè)通道特征圖的均值為:
(2)
那么第k個(gè)通道特征圖的方差為:
(3)
對(duì)所有方差dk(k=1,2,…,K)排序,選擇其中最大的N個(gè)方差所對(duì)應(yīng)的通道作為部位檢測(cè)器。
將選取的N個(gè)通道特征圖表示為X(n)∈RW×H(n=1,2,…,N),則空間權(quán)重Sn(i,j)的產(chǎn)生方式可表示為:
Sn(i,j)=
(4)
式中:a和b均為冪變換參數(shù)。用該空間權(quán)重對(duì)第k個(gè)通道特征圖加權(quán)求和:
(5)
這樣,利用K個(gè)通道的加權(quán)求和特征值可構(gòu)成特征向量
Fn=[fn,1,fn,2,…,fn,K]
(6)
形成區(qū)域聚合特征,然后將N個(gè)區(qū)域特征連接起來(lái),即形成PWA圖像全局特征表示:
Fpwa=[F1,F2,…,FN]
(7)
(8)
式中:D為最終特征的維度;P為PCA降維矩陣;σ1,σ2,…,σD為與P相關(guān)的D個(gè)奇異值。
由于PWA特征包含了語(yǔ)義信息,故在圖像檢索任務(wù)中取得了現(xiàn)階段較好的效果。然而如前所言,這種PWA特征可能出現(xiàn)視覺(jué)突發(fā)現(xiàn)象,影響圖像檢索精度。
以圖1為例,圖1(a)是Oxford5k圖像數(shù)據(jù)庫(kù)[25]中的一幅查詢圖像(圖中黃色框內(nèi)的建筑物窗戶),圖1(b)和圖1(c)是該庫(kù)中的兩幅參考圖像,其中圖1(b)不包含查詢區(qū)域,圖1(c)包含查詢區(qū)域。圖1(d)~(f)分別表示圖1(a)~(c)的PWA聚合特征響應(yīng)。從圖1(d)~(f)中不難發(fā)現(xiàn),原PWA聚合特征的響應(yīng)值在少數(shù)特征維度上取值特別大,而大部分特征維度上的響應(yīng)值卻相對(duì)很?。煌瑫r(shí)也容易觀察到圖1(d)與圖1(e)中響應(yīng)取較大值的位置十分相似,而圖1(d)與圖1(f)卻有明顯區(qū)別。實(shí)驗(yàn)發(fā)現(xiàn),通過(guò)歐氏距離進(jìn)行特征相似性度量,圖1(a)和圖1(b)的相似性大于圖1(a)和圖1(c)的相似性,表明這些少數(shù)很大的響應(yīng)主導(dǎo)了圖像的相似性度量,導(dǎo)致圖像檢索精度降低。
(a)查詢圖像(框中區(qū)域) (b)參考圖像1(c)參考圖像2
(d)查詢圖像的PWA特征響應(yīng)
(e)參考圖像1的PWA特征響應(yīng)
(f)參考圖像2的PWA特征響應(yīng)
冪變換可用在很多需要拉伸數(shù)據(jù)對(duì)比度的場(chǎng)合。在數(shù)字圖像處理領(lǐng)域,冪變換是圖像增強(qiáng)算法中經(jīng)常用到的基本概念,它是一種非線性點(diǎn)運(yùn)算,選擇合適的變換參數(shù)可實(shí)現(xiàn)圖像較亮或較暗區(qū)域的對(duì)比度增強(qiáng)。針對(duì)上述PWA深度聚合特征中的視覺(jué)突發(fā)現(xiàn)象,本文也采用合適的冪變換函數(shù)進(jìn)行歸一化處理,改進(jìn)特征加權(quán)聚合方法,以提高圖像檢索的精度。
實(shí)際上,在原PWA方法中,對(duì)部位檢測(cè)器產(chǎn)生空間權(quán)重時(shí),對(duì)于選擇的通道采用了如式(4)所示的歸一化和尺度拉伸的冪變換處理,在一定程度上也是為了減輕不同通道聚合響應(yīng)之間的巨大差異,但它不能保證最終聚合而成的圖像全局特征響應(yīng)中不再出現(xiàn)突發(fā)現(xiàn)象,而圖像全局特征表示才是進(jìn)行圖像相似性度量的關(guān)鍵;另一方面,式(4)中有兩個(gè)冪變換參數(shù)即a和b,為了使最終的圖像檢索結(jié)果最優(yōu),這兩個(gè)參數(shù)的組合情況很復(fù)雜且很難確定。
因此,在本文提出的基于冪歸一化改進(jìn)的PWA方法(power-normalized PWA,PPWA)中,為了達(dá)到在最終形成的全局特征基礎(chǔ)上抑制突發(fā)度的目的,同時(shí)為了減少不必要的計(jì)算量及減小參數(shù)選擇的難度,先直接使用選定的通道特征圖作為空間權(quán)重矩陣,即將式(4)改為:
Sn(i,j)=X(n)(i,j)
(9)
再將冪歸一化方法用到原PWA聚合后的特征中,直接對(duì)式(6)中每個(gè)特征維進(jìn)行參數(shù)為θ(0<θ<1)的冪變換:
p(z)=sgn(z)|z|θ
(10)
式中:p(·)為冪變換函數(shù);sgn(·)為符號(hào)函數(shù);|·|表示求絕對(duì)值;z為任一特征維上的取值。
記冪歸一化后的區(qū)域聚合特征為:
Fnθ=p(Fn)=[p(fn,1),p(fn,2),…,p(fn,K)]
(11)
則圖像全局特征變?yōu)椋?/p>
Fppwa=[F1θ,F2θ,…,FNθ]
(12)
后處理步驟中只需要進(jìn)行PCA降維及白化操作,就得到最終更緊湊的D維全局特征表示,即式(8)相應(yīng)地變?yōu)椋?/p>
Ffinal_ppwa=diag(σ1,σ2,…,σD)-1PFppwa
(13)
選取合適的參數(shù)θ,將最終的全局特征用于圖像相似性度量,可以比原PWA方法取得更好的圖像檢索效果。相比于式(4)要選取兩個(gè)變換參數(shù),這里只需要選取1個(gè),這也便于通過(guò)實(shí)驗(yàn)進(jìn)行確定。
PPWA方法的作用效果可以由圖2來(lái)說(shuō)明。圖2(a)和圖2(b)分別顯示了將圖1(a)作為查詢圖像、使用PWA和PPWA在Oxford5k數(shù)據(jù)庫(kù)上進(jìn)行檢索后返回的Top-16結(jié)果 (即前16幅最相似圖像,按相似性大小從左到右、從上到下排列)。在PWA方法的檢索結(jié)果(圖2(a))中,圖1(b)排在了第10位,而圖1(c)卻不在這前16幅圖像中;在PPWA方法的檢索結(jié)果(圖2(b))中,圖1(c)排在了第10位,而圖1(b)已經(jīng)排除在這前16幅圖像之外了,這也是圖像檢索希望看到的結(jié)果。同時(shí)也不難發(fā)現(xiàn),從所有檢索出的圖像來(lái)看,PPWA方法優(yōu)于PWA方法。
(a)PWA方法 (b)PPWA方法
圖2 采用PWA和PPWA方法對(duì)圖1(a)中查詢圖像的Top-16檢索結(jié)果
Fig.2 Top-16 retrieval results of query image in Fig.1(a) by PWA and PPWA methods
進(jìn)一步地,如圖3所示,從上到下依次顯示了圖1中3幅圖像最終采用PPWA方法聚合后的特征響應(yīng)??梢?jiàn),經(jīng)過(guò)冪歸一化后的圖像響應(yīng)分布相比改進(jìn)前較為均衡,特別大的響應(yīng)得以抑制,降低了其對(duì)于相似性度量的影響,而原來(lái)較小的一些響應(yīng)被拉伸,其對(duì)比度和區(qū)分性得以提升,在相似性度量中的作用也會(huì)隨之提高,這也是在圖2(b)所示的檢索結(jié)果中圖1(c)排在了第10位而圖1(b)被排除在Top-16之外的原因。
(a)查詢圖像的PPWA特征響應(yīng)
(b)參考圖像1的PPWA特征響應(yīng)
(c)參考圖像2的PPWA特征響應(yīng)
為了進(jìn)一步驗(yàn)證本文方法的有效性,在公共圖像數(shù)據(jù)庫(kù)上開(kāi)展了圖像檢索實(shí)驗(yàn)。Oxford5k數(shù)據(jù)庫(kù)[25]包含11個(gè)牛津大學(xué)標(biāo)志性建筑物的5062幅圖像,Paris6k數(shù)據(jù)庫(kù)[26]包含11個(gè)巴黎建筑物的6412幅圖像,這些圖像的拍攝視角和光照條件各不相同,除了需要檢索的目標(biāo)建筑物圖像,還包含大量?jī)?nèi)容各異的其它相關(guān)圖像。這兩個(gè)數(shù)據(jù)庫(kù)都有55幅查詢圖像,每個(gè)建筑物各有5幅,對(duì)要查詢的感興趣區(qū)域都進(jìn)行了標(biāo)注。每個(gè)數(shù)據(jù)庫(kù)圖像均被分配了“Good”(目標(biāo)清晰)、“OK”(目標(biāo)25%以上可見(jiàn))、“Junk”(目標(biāo)25%以下可見(jiàn)或目標(biāo)被嚴(yán)重遮擋或變形)或“Bad”(目標(biāo)不存在)4個(gè)標(biāo)簽之一。評(píng)價(jià)檢索結(jié)果時(shí),將標(biāo)記為“OK”和“Good”的作為正確結(jié)果,標(biāo)記為“Bad”的作為錯(cuò)誤結(jié)果,標(biāo)記為“Junk”的則忽略(不影響評(píng)價(jià)結(jié)果)。另外,為了測(cè)試檢索算法在大規(guī)模數(shù)據(jù)庫(kù)中的性能,還用含有99 782幅圖像的Flickr100k數(shù)據(jù)庫(kù)[25]進(jìn)行擴(kuò)充,分別組成Oxford105k數(shù)據(jù)庫(kù)和Paris106k數(shù)據(jù)庫(kù)。
實(shí)驗(yàn)中采用裁剪出的感興趣區(qū)域作為查詢圖像,使用歐氏距離計(jì)算每幅圖像的相似性得分,并按照從高到低的順序排列,最后采用平均查準(zhǔn)率的均值(mean average precision, mAP)評(píng)價(jià)性能。卷積層特征是用Caffe包[27]從預(yù)訓(xùn)練好的VGG16[28]深度神經(jīng)網(wǎng)絡(luò)上獲取的,提取的是池化層第5層的特征圖,特征圖總數(shù)即通道數(shù)K=512。PWA方法中空間權(quán)重的變換參數(shù)取a=2和b=2(為方便比較,使用了文獻(xiàn)[22]中的默認(rèn)值)。當(dāng)對(duì)Oxford5k進(jìn)行測(cè)試時(shí),使用在Paris6k上學(xué)習(xí)的PCA降維方式,反之亦然。PCA降維維數(shù)分別設(shè)置為4096、2048、1024、512、256、128。實(shí)驗(yàn)中也比較了使用查詢拓展(query expansion, QE)策略進(jìn)行圖像檢索的結(jié)果,利用前10個(gè)搜索出的圖像進(jìn)行查詢拓展[29],表示為QE_10。
3.2.1 部位檢測(cè)器個(gè)數(shù)
PWA方法中的一個(gè)重要參數(shù)是所要選取的部位檢測(cè)器數(shù)量,即通道數(shù)N(N (a)Oxford5k和Paris6k上的結(jié)果(QE表示拓展查詢) (b)Oxford105k和Paris106k上的結(jié)果(QE表示拓展查詢) 從圖4中可以看出,在兩個(gè)規(guī)模較小的數(shù)據(jù)庫(kù)Oxford5k和Paris6k上,選擇較小值N=18時(shí)結(jié)果最好,而在兩個(gè)規(guī)模較大的數(shù)據(jù)庫(kù)Oxford105k和 Paris106k上,選擇較大值N=30要比N=25時(shí)結(jié)果好很多,因此最后確定在Oxford5k和Paris6k上使用N=18,在Oxford105k和Paris106k上使用N=30。 3.2.2 冪歸一化參數(shù) 對(duì)本文提出的PPWA方法中的參數(shù)θ在兩個(gè)小數(shù)據(jù)庫(kù)上進(jìn)行了測(cè)試,結(jié)果如圖5所示。由圖5可見(jiàn),在參數(shù)θ=0.5時(shí)能獲得相對(duì)較好的結(jié)果,因此后續(xù)實(shí)驗(yàn)選擇θ=0.5作為PPWA方法的冪歸一化參數(shù)。 根據(jù)所選擇的參數(shù),在上述4個(gè)數(shù)據(jù)庫(kù)上進(jìn)行圖像檢索實(shí)驗(yàn),對(duì)比分析原PWA方法和本文改進(jìn)后的PPWA方法,實(shí)驗(yàn)結(jié)果如圖6所示。從圖6中可以看出,在兩個(gè)規(guī)模較小的數(shù)據(jù)庫(kù)Oxford5k和Paris6k上,與原PWA方法(N=25)相比,選擇更適合的部位檢測(cè)器個(gè)數(shù)(N=18)可以獲得更高的精度,同時(shí),使用本文改進(jìn)方法即PPWA又進(jìn)一步提高了檢索精度。對(duì)于兩個(gè)規(guī)模較大的數(shù)據(jù)庫(kù)也有相同的實(shí)驗(yàn)結(jié)果。 將本文方法與其它幾個(gè)深度特征聚合方法的性能對(duì)比結(jié)果列于表1和表2中,可以看出,采用本文方法的圖像檢索平均正確率均高于對(duì)比方法,驗(yàn)證了PPWA方法的有效性。 從表1和表2中也可以看到,在不同維度和不同數(shù)據(jù)庫(kù)上, PPWA 都要優(yōu)于原PWA方法。未使用拓展查詢策略時(shí)(表1),PPWA相比于PWA在兩個(gè)小數(shù)據(jù)庫(kù)上的mAP值提高了1.2%~8.3%, 在兩個(gè)大數(shù)據(jù)庫(kù)上的mAP值提高了5.6%~13.3%;在使用拓展查詢策略QE_10時(shí)(表2),PPWA相比于PWA在兩個(gè)小數(shù)據(jù)庫(kù)上的mAP值提高了1.5% ~ 9.9%,在兩個(gè)大數(shù)據(jù)庫(kù)上的mAP值提高了4.8% ~ 18.2%,這也表明PPWA方法返回的前10個(gè)圖像與查詢圖像更相似,這正是圖像檢索希望看到的結(jié)果。特別地,在低維度(比如128和256維)時(shí),PPWA方法在小規(guī)模數(shù)據(jù)庫(kù)上獲得的mAP值相對(duì)于PWA方法有5%以上的提升,在大規(guī)模數(shù)據(jù)庫(kù)上的精度提升更達(dá)到了10%以上,這驗(yàn)證了PPWA方法在低維特征情形下的魯棒性,也表明其更適用于在大規(guī)模圖像檢索中為了提高效率而選用低維特征的情況。 (a)未使用拓展查詢時(shí)在4個(gè)數(shù)據(jù)庫(kù)上的性能表現(xiàn) (b)使用拓展查詢時(shí)在4個(gè)數(shù)據(jù)庫(kù)上的性能表現(xiàn) 表1 PPWA與其它方法的檢索性能對(duì)比 Table 1 Comparison of retrieval performance between PPWA and other methods 方法維度不同數(shù)據(jù)庫(kù)上的mAP/%Oxford5kParis6kOxford105kParis106kCroW[21]12864.174.659.664.8PWA[22]12863.976.853.060.3PPWA12867.283.258.868.2R-MAC[20]25656.172.947.060.1CroW[21]25668.476.564.070.1PWA[22]25668.580.058.864.8PPWA25673.284.864.973.4R-MAC[20]51266.983.061.675.7CroW[21]51270.879.767.174.9PWA[22]51272.082.464.371.5PPWA51277.886. 869.777.5PWA[22]102475.484.467.674.9PPWA102480.187.473.980.2PWA[22]204878.385.471.276.7PPWA204881.588.176.782.1PWA[22]409678.986.173.678.6PPWA409681.387.178.583.0 表2 加入拓展查詢(QE_10)后PPWA與其它方法的檢索性能對(duì)比 本文采用冪歸一化方法來(lái)調(diào)節(jié)深度特征聚合中的視覺(jué)突發(fā)現(xiàn)象,對(duì)典型的深度卷積特征聚合方法PWA進(jìn)行了改進(jìn)。冪歸一化可以抑制少數(shù)通道的巨大響應(yīng),提高多數(shù)較小的通道響應(yīng)在相似性度量中的重要程度。去除冗余的空間權(quán)重變換方法以及選取合適的冪歸一化參數(shù),使得改進(jìn)的PWA方法即PPWA在沒(méi)有增加計(jì)算開(kāi)銷的情況下大大改善檢索精度。在多個(gè)數(shù)據(jù)庫(kù)上的圖像檢索實(shí)驗(yàn)中,使用不同的特征維度以及拓展查詢策略都證實(shí)了本文方法能有效提高基于深度聚合特征的圖像檢索準(zhǔn)確率。3.3 實(shí)驗(yàn)結(jié)果分析
4 結(jié) 語(yǔ)