彭天強(qiáng) 孫曉峰 栗 芳
1(河南工程學(xué)院計(jì)算機(jī)學(xué)院 鄭州 451191) 2(河南工程學(xué)院國際教育學(xué)院 鄭州 451191) 3(鄭州金惠計(jì)算機(jī)系統(tǒng)工程有限公司 鄭州 450001)
隨著大數(shù)據(jù)時(shí)代的到來,互聯(lián)網(wǎng)圖像資源迅猛增長,這種爆炸式的圖像增長激發(fā)研究人員提出有效的基于內(nèi)容的圖像檢索系統(tǒng).基于內(nèi)容的圖像檢索主要包括2種類型:1)給定查詢圖像,檢索出與查詢圖像相似的圖像,這種類型稱為整體相似性檢索;2)給定特定目標(biāo)的查詢圖像,檢索出所有包含該目標(biāo)的圖像,這種類型稱為中小目標(biāo)的圖像檢索.本文主要解決中小目標(biāo)的檢索問題,即給定查詢目標(biāo),從數(shù)據(jù)集中檢索出包含該目標(biāo)的圖像并定位到目標(biāo)區(qū)域.該問題具有非常廣泛的應(yīng)用前景,比如以圖搜圖、商品搜索、車輛搜索以及用于視頻監(jiān)控的可疑目標(biāo)的搜索等.
近年來,深度學(xué)習(xí)在各種計(jì)算機(jī)視覺任務(wù)上都取得了重大的突破.由于深度卷積神經(jīng)網(wǎng)絡(luò)(convo-lutional neural networks, CNNs)強(qiáng)大的非線性表示能力,能夠理解圖像更深層次的信息,它在目標(biāo)檢測(cè)[1]、圖像分類[2-3]和圖像分割[4]等方面都表現(xiàn)出了良好的性能.將CNNs應(yīng)用于圖像檢索任務(wù),主要體現(xiàn)在2個(gè)方面:1)在預(yù)訓(xùn)練CNNs模型的基礎(chǔ)上,提取其中某一層的特征圖譜(feature map),對(duì)其進(jìn)行編碼得到適用于檢索任務(wù)的圖像特征[5-8];2)基于特定檢索任務(wù)進(jìn)行有監(jiān)督的端到端的訓(xùn)練[9-11].這些算法主要對(duì)圖像進(jìn)行整體的特征表示,用于完成圖像整體相似性搜索,無法有效完成中小目標(biāo)的圖像檢索.另一種是將目標(biāo)檢測(cè)的思路應(yīng)用于圖像檢索,主要體現(xiàn)在2個(gè)方面:1)窮舉所有的目標(biāo)候選區(qū)域,然后分別評(píng)估這些區(qū)域是否包含目標(biāo);2)利用訓(xùn)練樣本,端到端地學(xué)習(xí)目標(biāo)的位置和類別.這些算法雖然可以完成中小目標(biāo)的圖像檢索,但是需要特定目標(biāo)的樣本進(jìn)行端到端的訓(xùn)練,在樣本數(shù)據(jù)相對(duì)較少或者無樣本數(shù)據(jù)的情況下,不能有效地完成中小目標(biāo)的圖像檢索.
針對(duì)以上問題,本文提出一種基于預(yù)訓(xùn)練模型的中小目標(biāo)圖像檢索算法,在無樣本數(shù)據(jù)進(jìn)行端到端學(xué)習(xí)的情況下,能夠高效地檢索到包含目標(biāo)的圖像,并返回包含目標(biāo)的區(qū)域.本文的基本思路是在不同尺度、不同比例的圖像上進(jìn)行窗口滑動(dòng),每個(gè)窗口與查詢目標(biāo)作比較,以找到包含查詢目標(biāo)的最優(yōu)位置,但這種方法需要計(jì)算每個(gè)滑動(dòng)窗口的視覺特征表示,需要很多的計(jì)算量,而全卷積網(wǎng)絡(luò)提供了一種有效的特征表示方法,只需要一次前向全卷積就可以得到多個(gè)滑動(dòng)窗口的特征表示.因此,本文提出一種基于全卷積網(wǎng)絡(luò)的中小目標(biāo)圖像檢索算法,與其他方法相比,本文有4個(gè)特點(diǎn):
1) 構(gòu)建全卷積神經(jīng)網(wǎng)絡(luò),對(duì)于任意尺寸的圖像,輸入該全卷積網(wǎng)絡(luò),得到該圖像的特征表示或者特征矩陣表示,特征矩陣的每一個(gè)位置對(duì)應(yīng)著原圖像上的一個(gè)目標(biāo)區(qū)域.
2) 為了檢索到不同大小的目標(biāo),對(duì)被檢索圖像進(jìn)行多尺度多比例變換,輸入全卷積神經(jīng)網(wǎng)絡(luò)得到多個(gè)特征矩陣.
3) 在無樣本進(jìn)行訓(xùn)練的情況下,基于預(yù)訓(xùn)練模型,有效地完成中小目標(biāo)的檢索.
4) 與基于CNNs的圖像檢索算法相比,本算法適用于中小目標(biāo)的檢索;與基于目標(biāo)檢測(cè)的檢索算法相比,本算法適用于無樣本數(shù)據(jù)訓(xùn)練的中小目標(biāo)檢索,具有更高效、更優(yōu)的檢索定位效果.
基于預(yù)訓(xùn)練CNNs模型的特征表示已廣泛應(yīng)用于圖像檢索任務(wù).文獻(xiàn)[8]提出了一種簡(jiǎn)單、有效的編碼方法SPoC(sum-pooled convolutional),并通過實(shí)驗(yàn)論證了該編碼方法檢索效果最優(yōu).文獻(xiàn)[12]考慮了特征的平移不變性以及尺度不變性,提出了一種新的特征編碼方法.首先在多尺度上取區(qū)域;然后在每個(gè)區(qū)域中取每層中最大元素(maximum activations of convolutions, MAC),MAC特征具有平移不變性;然后將所有區(qū)域的MAC特征相加構(gòu)成一個(gè)R-MAC(regional maximum activation of convolutions)特征表示,這種特征具有尺度不變性.實(shí)驗(yàn)表明:該算法R-MAC特征優(yōu)于MAC特征以及SPoC方法.在利用樣本進(jìn)行端到端訓(xùn)練的圖像檢索算法中,文獻(xiàn)[10]改進(jìn)R-MAC算法,將R-MAC的特征表示方法進(jìn)行端到端的訓(xùn)練,得到相應(yīng)的圖像特征,取得了不錯(cuò)的檢索結(jié)果.文獻(xiàn)[11]提出了一種用于車輛檢索的CNNs架構(gòu),并利用簇聚類損失(coupled clusters loss, CCL)去替代三元組損失(triplet ranking loss)進(jìn)行端到端的學(xué)習(xí)車輛的特征表示,適用于特定目標(biāo)的有監(jiān)督的檢索.以上這些算法均是基于圖像的全局特征表示,適用于圖像的整體相似性檢索,不適用于中小目標(biāo)的圖像檢索.
Fig. 1 An illustration of the architecture of our FCN圖1 本文全卷積網(wǎng)絡(luò)的框架圖
將目標(biāo)檢測(cè)的思想應(yīng)用于圖像檢索,對(duì)于數(shù)據(jù)庫中的每張圖像,首先利用目標(biāo)候選區(qū)域提取算法(region proposal)[13-15]提取目標(biāo)候選區(qū)域;然后將這些目標(biāo)區(qū)域作為輸入圖像,利用預(yù)訓(xùn)練網(wǎng)絡(luò)提取目標(biāo)區(qū)域的CNNs特征;最后計(jì)算每個(gè)目標(biāo)區(qū)域與查詢目標(biāo)的相似性值,將最大相似值作為查詢目標(biāo)與該圖像的相似性值.這種算法雖然可以完成中小目標(biāo)的檢索問題,但是候選區(qū)域提取算法一般會(huì)提取出1 000~2 000個(gè)目標(biāo)候選區(qū)域,然后分別對(duì)這些區(qū)域提取CNNs特征,這樣會(huì)導(dǎo)致處理單張圖像的時(shí)間過長、檢索效率低.文獻(xiàn)[16]將Faster R-CNN(region-based convolutional network)[1]的RPN(region proposal network)得到的目標(biāo)區(qū)域以及相應(yīng)的特征用于圖像檢索,若直接利用Fast R-CNN訓(xùn)練得到的RPN用于表示目標(biāo)區(qū)域,目標(biāo)區(qū)域定位效果不好,該算法比較適合于利用樣本數(shù)據(jù)進(jìn)行有監(jiān)督的端到端微調(diào),不適應(yīng)于基于預(yù)訓(xùn)練模型的中小目標(biāo)檢索.
全卷積網(wǎng)絡(luò)(fully convolutional networks, FCN)架構(gòu)主要用于圖像分割[4,17]和目標(biāo)檢測(cè)[18-20].FCN可以接受任意大小的輸入圖像,且經(jīng)過一次卷積可以得到多個(gè)區(qū)域的特征.受FCN特性的啟發(fā),本文提出基于全卷積網(wǎng)絡(luò)的中小目標(biāo)檢索算法,用于完成無樣本數(shù)據(jù)或者樣本數(shù)據(jù)不足時(shí),基于預(yù)訓(xùn)練網(wǎng)絡(luò)的中小目標(biāo)檢索算法.本文的基本思路是給定查詢目標(biāo),在待檢索圖像上進(jìn)行窗口滑動(dòng),將每個(gè)窗口基于預(yù)訓(xùn)練全卷積網(wǎng)絡(luò)進(jìn)行特征表示,并與查詢目標(biāo)作相似性比對(duì)以得到包含查詢目標(biāo)的最優(yōu)位置,而根據(jù)FCN的特性,經(jīng)過一次全卷積就可以得到多個(gè)窗口的特征表示.實(shí)驗(yàn)結(jié)果表明:本論文提出的基于FCN的目標(biāo)檢索算法,其檢索性能及定位效果較優(yōu).
為了解決中小目標(biāo)的檢索問題,本文提出了一種基于全卷積網(wǎng)絡(luò)的中小目標(biāo)檢索算法.首先,構(gòu)建全卷積網(wǎng)絡(luò),在大數(shù)據(jù)集上訓(xùn)練模型.其次,給定查詢目標(biāo)圖像,利用全卷積神經(jīng)網(wǎng)絡(luò),得到目標(biāo)圖像的特征表示.然后,對(duì)數(shù)據(jù)庫中的圖像,利用預(yù)訓(xùn)練全卷積模型,得到該圖像的特征表示或者特征矩陣表示,特征矩陣的每一個(gè)位置對(duì)應(yīng)著原圖像上的一個(gè)目標(biāo)區(qū)域.為了檢索到不同大小的目標(biāo),需要對(duì)數(shù)據(jù)庫中的圖像進(jìn)行多尺度多比例變換,分別輸入全卷積神經(jīng)網(wǎng)絡(luò)得到多個(gè)特征矩陣.最后,將查詢目標(biāo)特征,與待檢索圖像的特征矩陣的每一個(gè)特征進(jìn)行相似性比對(duì),得到匹配最優(yōu)位置及相似值.
本文利用預(yù)訓(xùn)練全卷積網(wǎng)絡(luò)模型對(duì)圖像進(jìn)行特征表示用于中小目標(biāo)檢索.本文所采用的全卷積網(wǎng)絡(luò)的架構(gòu)如圖1所示.在訓(xùn)練階段,該模型接受的輸入為圖像及其相應(yīng)的標(biāo)簽信息.該模型主要包括2個(gè)部分:1)全卷積神經(jīng)網(wǎng)絡(luò),用于學(xué)習(xí)圖像的特征或特征矩陣表示,該網(wǎng)絡(luò)中不包含全連接層; 2)損失層,Softmax分類損失.首先,輸入圖像通過全卷積網(wǎng)絡(luò)得到圖像的特征表示;然后進(jìn)入損失層,計(jì)算損失函數(shù),并優(yōu)化該損失函數(shù)學(xué)習(xí)得到模型參數(shù).
全卷積網(wǎng)絡(luò)用于學(xué)習(xí)圖像的特征表示,以AlexNet模型[2]結(jié)構(gòu)為例,全卷積網(wǎng)絡(luò)的配置如表1所示.訓(xùn)練網(wǎng)絡(luò)時(shí),輸入圖像大小為227×227.
Table 1 The Configurations of FCN表1 全卷積網(wǎng)絡(luò)配置
全卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練完成后,給定輸入圖像,通過全卷積網(wǎng)絡(luò)可以得到圖像的特征向量或特征矩陣表示.對(duì)于目標(biāo)圖像,將圖像進(jìn)行縮放,使其大小與全卷積神經(jīng)網(wǎng)絡(luò)模型的輸入尺寸保持一致(例如縮放至227×227),然后輸入全卷積網(wǎng)絡(luò)得到目標(biāo)實(shí)例的特征向量表示.對(duì)于數(shù)據(jù)庫中的被檢索圖像,若其圖像大小小于全卷積神經(jīng)網(wǎng)絡(luò)模型的輸入尺寸,將圖像進(jìn)行縮放至與全卷積神經(jīng)網(wǎng)絡(luò)的輸入尺寸保持一致,然后輸入全卷積網(wǎng)絡(luò)得到被檢索圖像的特征向量表示;若其圖像大小大于等于全卷積網(wǎng)絡(luò)的輸入尺寸,保持原圖像大小不變,由于原圖像大小大于全卷積神經(jīng)網(wǎng)絡(luò)模型的輸入尺寸,則得到該輸入圖像的特征矩陣,特征矩陣的每個(gè)位置上的特征是對(duì)原圖像上一個(gè)區(qū)域的描述,相鄰位置的特征對(duì)應(yīng)著原圖像上相鄰的區(qū)域.AlexNet模型為例,給定輸入圖像的大小為300×250,得到圖像特征矩陣的大小為4×2,即共8個(gè)區(qū)域的特征,每個(gè)區(qū)域?qū)?yīng)于原圖的一個(gè)227×227區(qū)域,水平相鄰區(qū)域之間相差32個(gè)像素,垂直相鄰區(qū)域之間也相差32個(gè)像素,其區(qū)域效果如圖2所示:
Fig. 2 The feature representation for retrieval image圖2 被檢索圖像的圖像表示
考慮到基于全卷積網(wǎng)絡(luò)得到的特征矩陣,相當(dāng)于在原圖像上取一定大小的窗口(如227×227),然后按照一定的步長(如32像素)進(jìn)行窗口滑動(dòng).經(jīng)過一次前向卷積,就可以得到這些區(qū)域的特征表示.這種固定窗口大小、固定步長的窗口滑動(dòng),可能會(huì)導(dǎo)致沒有一個(gè)區(qū)域剛好覆蓋查詢目標(biāo),從而會(huì)導(dǎo)致不能正確地檢索并定位到目標(biāo),例如在圖2中,得到的8個(gè)區(qū)域都不能剛好覆蓋籃球,每個(gè)區(qū)域都包含了一部分背景.在實(shí)際應(yīng)用中,可以根據(jù)目標(biāo)特征,對(duì)被檢索圖像進(jìn)行多尺度、多比例變換,以檢索到不同大小、不同形狀的目標(biāo).例如在新的尺度s下得到的區(qū)域窗口大小為227×227,相當(dāng)于在原圖上區(qū)域窗口的大小為(227/s)×(227/s),從而區(qū)域窗口可以覆蓋被檢索圖像上不同大小的目標(biāo)區(qū)域;若對(duì)圖像進(jìn)行r=2∶1比例變換后,在新比例下的區(qū)域窗口大小為227×227,相當(dāng)于在原圖上區(qū)域窗口的大小為(227/2)×227,如此區(qū)域窗口可以覆蓋縱向長的目標(biāo),類似地,當(dāng)對(duì)圖像進(jìn)行r=1∶2變換后,區(qū)域窗口可以覆蓋橫向長的目標(biāo).
基于全卷積神經(jīng)網(wǎng)絡(luò)的中小目標(biāo)檢索,其流程圖3所示.
Fig. 3 The flow chart of middle or small object retrieval based on our method圖3 本文中小目標(biāo)檢索的流程圖
在離線階段,對(duì)數(shù)據(jù)庫中的每張圖像進(jìn)行多尺度、多比例縮放,然后輸入全卷積神經(jīng)網(wǎng)絡(luò),得到每張圖像在每個(gè)尺度、比例上的特征矩陣.為了在數(shù)據(jù)庫中檢索到不同大小的目標(biāo),特別是僅占整張圖像較少區(qū)域的中小目標(biāo),首先對(duì)圖像進(jìn)行多尺度變換,可以根據(jù)實(shí)際應(yīng)用確定所需的尺度因子,例如圖像的尺度因子可以選擇s=0.5,1.0,1.5,2.0,2.5,3.0.為了在數(shù)據(jù)庫中檢索到不同形狀比例的目標(biāo),在每個(gè)尺度上進(jìn)行多比例變換,可以選擇3個(gè)長寬比例因子r=1∶1,1∶2,2∶1.將圖像在每個(gè)尺度s上,按照比例因子r縮放后,直接輸入全卷積網(wǎng)絡(luò),卷積層Conv7的特征矩陣作為該尺度比例下的特征描述,特征矩陣中的每一個(gè)位置對(duì)應(yīng)著輸入圖像的一個(gè)區(qū)域的特征描述.在該階段,算法的復(fù)雜度為O(N×r×s),其中N表示數(shù)據(jù)庫中被檢索圖像的個(gè)數(shù).
在線檢索階段,給定目標(biāo)檢索圖像,將圖像進(jìn)行縮放,使其大小與全卷積神經(jīng)網(wǎng)絡(luò)模型的輸入尺寸保持一致,得到圖像的特征向量表示.給定數(shù)據(jù)庫中的圖像在每個(gè)尺度、比例下的特征矩陣,將目標(biāo)檢索圖像的特征與該特征矩陣中每個(gè)位置的特征進(jìn)行余弦距離計(jì)算,將距離的最大值作為該尺度上與目標(biāo)圖像的最匹配值;將每個(gè)尺度、每個(gè)比例下與目標(biāo)檢索圖像的最匹配值的最大值,作為該圖像與目標(biāo)圖像的相似值,并保存相應(yīng)的最匹配區(qū)域.然后將相似值按照降序排列,得到與目標(biāo)圖像最相似的TopN圖像列表及其最優(yōu)匹配位置.
為驗(yàn)證本文方法的有效性,在圖像集上對(duì)本文方法進(jìn)行了評(píng)估:
1) Oxford5K[21]數(shù)據(jù)集.該數(shù)據(jù)集包括5 063幅圖像,其中55幅標(biāo)準(zhǔn)的查詢圖像,每個(gè)目標(biāo)選取5幅圖像,涵蓋了牛津大學(xué)的11處標(biāo)志性建筑.圖像庫共標(biāo)注為4種可能的標(biāo)簽:Good表示1幅包含清晰目標(biāo)或建筑的圖片;OK表示不少于目標(biāo)整體的25%部分可以清楚地顯示;Bad表示沒有目標(biāo)建筑出現(xiàn)示;Junk表示不高于目標(biāo)整體的25%部分可以清楚顯現(xiàn)或者目標(biāo)遮擋、變形嚴(yán)重.將僅包含目標(biāo)的包圍盒區(qū)域作為查詢目標(biāo)圖像.
2) Logo數(shù)據(jù)集.該數(shù)據(jù)集是在互聯(lián)網(wǎng)上搜集的圖片,包括CCTV、中國移動(dòng)、中國聯(lián)通、可口可樂4種logo,每種類型100張圖像,另外再加上100張干擾圖像,共500張圖像.圖4給出了該數(shù)據(jù)集中的部分示例圖像.查詢目標(biāo)圖像為僅包含logo的圖像,圖5給出了查詢圖像示例.
Fig. 4 Sample images from the logo dataset圖4 數(shù)據(jù)集中的部分圖像示例
Fig. 5 Query images for the logo dataset圖5 Logo數(shù)據(jù)集的查詢圖像示例
本文主要考慮在樣本數(shù)據(jù)不足時(shí),基于預(yù)訓(xùn)練模型的特征表示在檢索任務(wù)中的性能.將本文方法的檢索性能與其他的圖像檢索方法做比較,包括基于預(yù)訓(xùn)練CNNs的整體特征表示方法SpoC[8],MAC[11],R-MAC[11]算法,基于SS(selective search)[13]目標(biāo)檢測(cè)算法的SS+Fc7,以及基于Faster R-CNN特征表示的檢索算法[16],將該檢索算法記為Faster R-CNN.
SpoC,MAC,R-MAC算法采用預(yù)訓(xùn)練Alexnet的Conv5層的特征,這些算法的特征表示方法均來自于作者公開的源代碼;基于目標(biāo)候選區(qū)域提取算法的方法SS+Fc7,首先利用Selective Search算法得到目標(biāo)候選區(qū)域,然后輸入預(yù)訓(xùn)練Alexnet得到Fc7層的特征,用于表示目標(biāo)區(qū)域,其中Selective Search算法的實(shí)現(xiàn)來自于作者公開的源代碼;基于Faster R-CNN的目標(biāo)檢索算法利用預(yù)訓(xùn)練的目標(biāo)檢測(cè)VGG-16得到RPN區(qū)域以及每個(gè)區(qū)域的RPA特征,其中預(yù)訓(xùn)練模型來自于Faster R-CNN公開的模型.本文也采用Alexnet作為基礎(chǔ)架構(gòu),在ImageNet數(shù)據(jù)集上訓(xùn)練全卷積網(wǎng)絡(luò),訓(xùn)練完成后,采用Conv7層的特征表示每個(gè)區(qū)域.
為了評(píng)估圖像檢索性能并與已有方法作比較,本文采用查準(zhǔn)率均值(mean average precision,MAP)對(duì)檢索性能進(jìn)行評(píng)估.平均精確度(average precision,AP)為查準(zhǔn)率-查全率曲線所包含的面積,相關(guān)的定義為
(1)
(2)
對(duì)于Oxford5K數(shù)據(jù)集,MAP為每組5幅查詢圖像AP的平均值.對(duì)于Logo數(shù)據(jù)集,在每個(gè)查詢目標(biāo)檢索出的Top100圖像集上計(jì)算AP值.
本文的訓(xùn)練過程基于開源Caffe實(shí)現(xiàn)的.
為了驗(yàn)證本文方法的有效性,將本文的算法與基于CNNs編碼的整體特征表示方法SpoC,MAC,R-MAC以及基于目標(biāo)檢測(cè)的算法SS+Fc7,F(xiàn)aster R-CNN在Oxford5K數(shù)據(jù)庫上對(duì)全部11個(gè)查詢目標(biāo)的檢索準(zhǔn)確度作了比較,MAP對(duì)比結(jié)果如表2所示:
Table 2 MAP of Different Methods Compared on Oxford5K表2 各方法在Oxford5K數(shù)據(jù)集上MAP結(jié)果對(duì)比
Note: Blackbody indicates the best result in the compared methods.
從表2可以看出,對(duì)于不同的查詢目標(biāo)而言,SpoC,MAC,R-MAC方法的MAP值相近且R-MAC方法略高于SpoC,MAC方法,因?yàn)檫@3種方法均是對(duì)圖像的整體特征算法,而R-MAC方法在不同尺度上對(duì)區(qū)域進(jìn)行劃分并分別對(duì)區(qū)域進(jìn)行整體表示,得到了更好的特征表示.基于目標(biāo)檢測(cè)的算法SS+Fc7,F(xiàn)aster-RCNN以及本文算法的MAP值相近,且比3種圖像的整體表示算法的MAP值高出3%~5%,因?yàn)楹竺娴?種算法均對(duì)圖像進(jìn)行了區(qū)域劃分,分區(qū)域與查詢目標(biāo)進(jìn)行匹配,而不是將圖像作為整體與查詢目標(biāo)進(jìn)行匹配,因此提高了目標(biāo)檢索準(zhǔn)確度.
由于在Oxford5K數(shù)據(jù)集上,本文方法與SS+Fc7、Faster R-CNN算法的MAP相差不大,于是將這3種算法在查詢時(shí)間及區(qū)域定位效果進(jìn)行比較.表3給出了3種方法在處理數(shù)據(jù)庫中的1幅圖像所消耗時(shí)間的平均值.從表3可以看出,F(xiàn)aster-RCNN耗時(shí)最短,SS+Fc7算法耗時(shí)最長,本文算法耗時(shí)略高于Faster R-CNN算法,因?yàn)镾S+Fc7算法首先對(duì)圖像進(jìn)行劃分,得到多個(gè)目標(biāo)候選區(qū)域,然后分別輸入卷積神經(jīng)網(wǎng)絡(luò)得到每個(gè)區(qū)域的特征表示,多次重復(fù)地輸入卷積神經(jīng)網(wǎng)絡(luò)導(dǎo)致耗時(shí)較長;Faster R-CNN將目標(biāo)區(qū)域的獲得和區(qū)域特征的表示統(tǒng)一到一個(gè)框架中,只需要一次前向卷積網(wǎng)絡(luò),就可以得到多個(gè)區(qū)域的特征表示,加快了計(jì)算速度;本文算法雖然也只需要一次前向全卷積網(wǎng)絡(luò),就可以得到多個(gè)區(qū)域的特征表示,但是為了適用于不同大小、不同形狀的目標(biāo),對(duì)圖像進(jìn)行了多尺度、多比例變換,從而導(dǎo)致其耗時(shí)略高于Faster R-CNN.
表4和表5給出了基于目標(biāo)檢測(cè)的算法和本文算法在Oxford5K數(shù)據(jù)庫上目標(biāo)區(qū)域定位結(jié)果的部分樣例.不難看出,本文算法的區(qū)域定位效果最優(yōu),而SS+Fc7算法的區(qū)域定位效果不好,因?yàn)樗肧S提取圖像中非限定類別的目標(biāo),而Oxford5K數(shù)據(jù)集上的查詢目標(biāo)只是整體目標(biāo)的一部分,而不是獨(dú)立的目標(biāo);Faster-RCNN算法的區(qū)域定位效果也不好,因?yàn)橹苯永妙A(yù)訓(xùn)練的Faster-RCNN模型得到的RPN與預(yù)訓(xùn)練的目標(biāo)相關(guān),需要利用相關(guān)目標(biāo)數(shù)據(jù)進(jìn)行端到端的訓(xùn)練微調(diào),才能得到較好的目標(biāo)定位,在文獻(xiàn)[16]中也說明了該問題.
Table 3 Time Comparison of Processing Images for theThree Methods
Table 4 Examples of Image Retrieval and Object Locations for Query Object with Longer Width表4 圖像檢索和橫長目標(biāo)定位樣例
從在標(biāo)準(zhǔn)數(shù)據(jù)集Oxford5K上的實(shí)驗(yàn)對(duì)比可以看出,本文方法與基于CNNs圖像整體表示的算法相比,適合于中小目標(biāo)的檢索且能夠定位到目標(biāo)區(qū)域.與基于目標(biāo)檢測(cè)的檢索算法相比,其耗時(shí)雖然略高于Faster-RCNN算法,但是其MAP值以及區(qū)域定位效果更優(yōu).
為了進(jìn)一步驗(yàn)證本文算法的普適性及有效性,將本文算法與已有算法在Logo數(shù)據(jù)集上進(jìn)行檢索測(cè)試.Logo數(shù)據(jù)集是從互聯(lián)網(wǎng)上搜集的圖像.表6給出了各個(gè)查詢目標(biāo)的AP值.從表6中可以看出,本文算法的AP值最高,遠(yuǎn)遠(yuǎn)高于基于CNNs的圖像整體表示算法和基于Faster R-CNN的目標(biāo)檢索算法,高出了將近45%,比基于SS+Fc7算法的AP值高了6%.這是因?yàn)樵贚ogo數(shù)據(jù)集中,查詢目標(biāo)僅占數(shù)據(jù)庫被檢索圖像的部分區(qū)域,因此將數(shù)據(jù)庫圖像進(jìn)行整體表示與查詢目標(biāo)匹配準(zhǔn)確率較低;基于Faster R-CNN預(yù)訓(xùn)練模型的RPN區(qū)域不能很好地定位目標(biāo)區(qū)域,導(dǎo)致匹配準(zhǔn)確率低;基于SS+Fc7的算法利用低級(jí)圖像特征提取圖像中非限定類別的目標(biāo)區(qū)域,且查詢目標(biāo)是一個(gè)獨(dú)立的完整目標(biāo),所以SS能夠較好地定位到目標(biāo)區(qū)域,從而得到了較高的AP值.表7給出了SS+Fc7,F(xiàn)aster R-CNN以及本文算法的Top4檢索及目標(biāo)定位結(jié)果.從表7中可以看出,SS+Fc7和本文算法目標(biāo)定位效果較優(yōu),而Faster R-CNN算法的區(qū)域定位效果不好.
為了進(jìn)一步說明本文算法在小目標(biāo)檢索中的效果,圖6給出了各個(gè)logo圖標(biāo)在被檢索圖像中的檢索定位樣例.從圖6可以看出,logo圖標(biāo)僅占被檢索圖像的一小部分區(qū)域,與整張圖像相比logo屬于小目標(biāo),在無訓(xùn)練樣本的情況下,采用本文算法能夠很好地在整圖中檢索并定位到“小的”logo圖標(biāo).
Table 5 Examples of Image Retrieval and Object Locations for Query Object with Longer Height表5 圖像檢索和縱長目標(biāo)定位樣例
Table 6 AP Comparison of Different Methods on Logo Dataset表6 各方法在Logo數(shù)據(jù)集上AP結(jié)果對(duì)比
Note: Blackbody indicates the best result in the compared methods.
Table 7 Examples of Top4 Retrieval and Object Locations for Query Object表7 Top4檢索結(jié)果和目標(biāo)定位樣例
Fig. 6 Examples of retrieval and object locations for each logo圖6 各logo的檢索定位效果樣例
本文提出了一種簡(jiǎn)單而有效的基于全卷積神經(jīng)網(wǎng)絡(luò)的中小目標(biāo)檢索方法.基于預(yù)訓(xùn)練全卷積網(wǎng)絡(luò)對(duì)被檢索圖像進(jìn)行特征矩陣表示,經(jīng)過一次全卷積網(wǎng)絡(luò)就得到了多個(gè)區(qū)域的特征表示,并引入多尺度、多比例變換以檢索定位到不同大小的目標(biāo).本文主要探索在樣本數(shù)據(jù)不足時(shí),如何對(duì)目標(biāo)進(jìn)行有效的特征表示,以完成中小目標(biāo)的檢索及定位,與現(xiàn)有其他檢索算法相比,本文的方法檢索性能及定位效果最優(yōu).本文所采用的全卷積網(wǎng)絡(luò)架構(gòu),不是最優(yōu)的架構(gòu),可以采用層數(shù)更深、表達(dá)能力更強(qiáng)的架構(gòu)進(jìn)行訓(xùn)練,以得到對(duì)目標(biāo)更好的特征描述.