• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      融合抽象層級(jí)變換和卷積神經(jīng)網(wǎng)絡(luò)的手繪圖像檢索方法

      2016-12-20 10:42:52劉玉杰龐蕓萍李宗民
      關(guān)鍵詞:特征描述手繪層級(jí)

      劉玉杰, 龐蕓萍, 李宗民*, 李 華

      (1. 中國(guó)石油大學(xué) 計(jì)算機(jī)與通信工程學(xué)院, 山東 青島 266580;2. 中國(guó)科學(xué)院計(jì)算技術(shù)研究所 智能信息處理重點(diǎn)實(shí)驗(yàn)室, 北京 100190)

      表1 各描述子的mAP值對(duì)比表

      ?

      融合抽象層級(jí)變換和卷積神經(jīng)網(wǎng)絡(luò)的手繪圖像檢索方法

      劉玉杰1, 龐蕓萍1, 李宗民1*, 李 華2

      (1. 中國(guó)石油大學(xué) 計(jì)算機(jī)與通信工程學(xué)院, 山東 青島 266580;2. 中國(guó)科學(xué)院計(jì)算技術(shù)研究所 智能信息處理重點(diǎn)實(shí)驗(yàn)室, 北京 100190)

      針對(duì)人工設(shè)計(jì)的描述子(HOG、SIFT等)在基于手繪的圖像檢索(Sketch Based Image Retrieval,SBIR)領(lǐng)域的局限性,提出了一種融合抽象層級(jí)變換和卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建聯(lián)合深度特征描述子的手繪圖像檢索方法.首先,提取常規(guī)圖像的邊緣概率圖,在此基礎(chǔ)上進(jìn)行不同抽象層級(jí)的圖像變換,將抽象層級(jí)變換圖像輸入到深度神經(jīng)網(wǎng)絡(luò)并提取不同隱層的輸出向量,最后,聯(lián)合不同隱層的輸出向量作為手繪圖像檢索的特征描述子(即聯(lián)合深度特征描述子).在Flickr15k數(shù)據(jù)庫(kù)上對(duì)本方法進(jìn)行了實(shí)驗(yàn)驗(yàn)證,結(jié)果表明:融合抽象層級(jí)變換和聯(lián)合深度特征描述子的檢索效果相較HOG、SIFT等傳統(tǒng)方法有顯著提高.本方法從圖像預(yù)處理和特征描述子構(gòu)建2個(gè)方面,對(duì)SBIR問(wèn)題進(jìn)行了改進(jìn),具有更高的準(zhǔn)確率.

      手繪檢索;卷積神經(jīng)網(wǎng)絡(luò);邊緣概率檢測(cè);抽象層級(jí)變換;聯(lián)合深度特征

      1 相關(guān)工作

      如何在海量的圖像數(shù)據(jù)庫(kù)中實(shí)現(xiàn)快速有效的信息檢索是機(jī)器視覺領(lǐng)域的研究熱點(diǎn)之一.早期的學(xué)者提出了基于文本的圖像檢索方式,需要對(duì)圖像數(shù)據(jù)庫(kù)進(jìn)行人工標(biāo)注,由于受標(biāo)注者的主觀影響,人工標(biāo)注的有效性有待考究.大數(shù)據(jù)時(shí)代,圖像資源呈指數(shù)級(jí)增長(zhǎng),人工標(biāo)注耗費(fèi)巨大.20世紀(jì)90年代,學(xué)者提出了基于內(nèi)容的圖像檢索(Content Based Image Retrieval,CBIR)方法,通過(guò)提取圖像底層特征標(biāo)注圖像,以此取代人工標(biāo)注,CBIR在檢索過(guò)程中對(duì)輸入的圖像要求比較嚴(yán)格,而人們通常是因?yàn)檎也坏胶线m的圖才選擇CBIR去搜索圖像,所以CBIR默認(rèn)輸入圖像滿足合適的屬性要求此假設(shè)前提有點(diǎn)牽強(qiáng),這一限制也在一定程度上阻礙了CBIR技術(shù)的發(fā)展.手繪是人的本能之一,亦是一種特殊形式的“文字”,人類文明誕生時(shí)的甲骨文、楔形文字等都是某種形式的“手繪圖”,其本身融合了文本和圖像內(nèi)容兩方面的優(yōu)勢(shì).手繪既能避免文字的難以描述性又能克服圖像內(nèi)容的難以獲取性,所以以手繪為輸入進(jìn)行圖像檢索的技術(shù)(Sketch Based Image Retrieval,SBIR)有很高的研究?jī)r(jià)值和廣闊的應(yīng)用前景[1-3].近幾年,SBIR技術(shù)廣泛應(yīng)用于各個(gè)領(lǐng)域,例如:在網(wǎng)購(gòu)過(guò)程中,通過(guò)手繪印象中的商品并進(jìn)行檢索;檢索形狀比較明顯但難以用語(yǔ)言描述的建筑;檢索某種特定的舞蹈動(dòng)作等.

      SBIR技術(shù)發(fā)展至今仍面臨很多難題:手繪圖像與常規(guī)圖像在底層像素表示和高層視覺感知上有很大差異.待檢索的常規(guī)圖像比輸入的手繪圖像包含更多有用的細(xì)節(jié)信息以及干擾的噪音信息(顏色、紋理等),也就是說(shuō),手繪圖像與常規(guī)圖像分別隸屬于不同的圖像域,這種域差異直接削弱了SIFT、HOG等基于底層圖像特征設(shè)計(jì)的描述子的有效性.ZHONG等[4]提出了一種域自適應(yīng)的跨域字典學(xué)習(xí)方法,通過(guò)重構(gòu)源域與目標(biāo)域字典的方式,實(shí)現(xiàn)圖像的跨域表示.本文消除圖像域差異的方法是將常規(guī)圖像轉(zhuǎn)換為“類手繪”圖像(邊緣圖、輪廓圖等).

      Canny邊緣檢測(cè)是將常規(guī)圖像轉(zhuǎn)換為邊緣圖最常用的方法之一,其處理結(jié)果往往包含很多噪音信息,例如噪點(diǎn)、短線等(見圖1).LIM等[5]提出了一種“Sketch Token”(簡(jiǎn)稱ST)邊緣檢測(cè)模型,該方法將人工標(biāo)記的邊緣圖像以邊緣像素點(diǎn)為中心截取固定大小(35×35)的圖像塊,并對(duì)這些圖像塊分別提取Daisy描述子,利用K-means將Daisy描述子進(jìn)行聚類,得到K個(gè)“Token”類別,在每個(gè)邊緣圖像塊對(duì)應(yīng)的原圖像塊上提取通道特征和自相似特征,利用隨機(jī)森林分類器建立這2種特征與“Token”類別之間的概率模型,如圖1所示,ST邊緣模型的檢測(cè)結(jié)果比較突出圖像的主要邊緣,而由于“Token”類別的限制,ST概率模型生成的邊緣圖與實(shí)際邊緣不能完全吻合.MARTIN等[6]提出了一種伯克利邊緣檢測(cè)算法,其輸出結(jié)果與人工標(biāo)記的邊緣圖有較強(qiáng)的一致性.該算法首先將圖像轉(zhuǎn)換為強(qiáng)度空間與Lab空間表示,提取圖像的強(qiáng)度、顏色、紋理特征,將這些特征融合輸入到分類器中訓(xùn)練邊緣隸屬度.伯克利邊緣檢測(cè)算法用到5種分類器,分別是密度估計(jì)、分類樹、邏輯回歸、分層的多專家決策以及支持向量機(jī)分類器,通過(guò)設(shè)定合理的閾值范圍可獲得比較平滑的邊緣圖像.

      圖1 不同邊緣檢測(cè)算法的效果圖Fig.1 Different edge detection methods

      手繪圖像本身存在固有的歧義性,如圖2所示,一幅圓形的手繪圖像可以表示多種不同的事物:既可以表示太陽(yáng),也可以表示一輪滿月或者一個(gè)圓形碟子等,另外,同一事物經(jīng)由不同的人進(jìn)行手繪后表達(dá)的結(jié)果不同.不同人的手繪能力也有很大的差異.從圖3可以看出,同樣是鬧鐘,有的人描繪得很粗略(見圖3(d),鬧鐘外輪廓和指針),有的人描繪得很詳細(xì)(見圖3(a)鬧鐘的外輪廓、指針、刻度、按鈕等),即使對(duì)指針這一具體細(xì)節(jié)的表達(dá)方式也有差異(見圖3(b)與(c)).由此可見,手繪圖像本身就存在很大的抽象層次差異;YU等[7]在手繪圖像的分類工作中,通過(guò)先下采樣再上采樣的方式將訓(xùn)練數(shù)據(jù)進(jìn)行5個(gè)等級(jí)的高斯模糊處理來(lái)抑制同類手繪圖像之間的抽象層次差異.

      圖2 手繪圖像固有的歧義性Fig.2 The ambiguity of the sketch

      圖3 手繪圖像的抽象層次差異Fig.3 The different abstractness levels among sketches of one object同一事物的手繪圖“繁簡(jiǎn)”程度有差異,對(duì)應(yīng)不同的抽象層次.The same object can be expressed with different abstractness levels. Some users prefer to draw object details but others do not.

      尋找描述力強(qiáng)的描述子來(lái)表示圖像是SBIR需要解決的核心問(wèn)題.手繪圖像和邊緣圖像的共同特點(diǎn)是:圖像信息主要集中于圖像邊緣像素部分.所以SBIR的研究方法主要偏向于構(gòu)建描述邊緣、梯度、方向的特征描述子,例如SIFT[8]、HOG[9]、EHD[10]等.2010年EITZ等[11]提出了基于多種局部特征建立詞包模型的SBIR檢索方法,該方法在HOG、SHOG、Shape Context[12]等局部描述子的基礎(chǔ)上建立詞包模型進(jìn)行檢索.融合生成的詞包具有更強(qiáng)的描述力,但是也增加了計(jì)算復(fù)雜度.HU等[2,13]提出了基于方向區(qū)域描述子的手繪圖像檢索技術(shù),并于2013年在該工作的基礎(chǔ)上進(jìn)行改進(jìn),提出了基于GF-HOG特征的SBIR檢索算法,同時(shí)公開了一組評(píng)價(jià)SBIR實(shí)驗(yàn)效果的數(shù)據(jù)集Flickr15K[14].LIM等[5]將ST邊緣提取方法與局部邊緣方向直方圖描述子相結(jié)合,提出了基于RST-SHELO的手繪圖像檢索方法,但是該方法在Flickr15K數(shù)據(jù)集上檢索的mAP(mean Average Precision)也只能達(dá)到0.2.

      以往方法精度較低的原因有以下幾點(diǎn):一是Flickr15K數(shù)據(jù)庫(kù)是自然場(chǎng)景類的數(shù)據(jù)庫(kù),在形狀特征上比較復(fù)雜;二是特征的表達(dá)力度不夠.傳統(tǒng)的三維模型檢索方法[15]需要針對(duì)模型特點(diǎn)人工設(shè)計(jì)特征,這類方法大多不夠魯棒.基于深度學(xué)習(xí)[16-19]的特征學(xué)習(xí)方法最近備受關(guān)注,在學(xué)術(shù)界與工業(yè)界都掀起了研究熱潮.與傳統(tǒng)的依據(jù)人工構(gòu)建規(guī)則生成特征的方法相比,深度學(xué)習(xí)利用大量的數(shù)據(jù)學(xué)習(xí)特征,能夠表達(dá)更豐富的圖像內(nèi)在信息,這一優(yōu)勢(shì)使其在二維圖像及三維模型[19]特征學(xué)習(xí)領(lǐng)域得到了廣泛應(yīng)用.2015年YU等[7]針對(duì)手繪圖像分類問(wèn)題提出了一種多尺度多通道的深度神經(jīng)網(wǎng)絡(luò)框架,通過(guò)擴(kuò)大首層卷積核及重疊池化的方式獲取更多的空間結(jié)構(gòu)信息,該方法在手繪分類問(wèn)題上的精度達(dá)到了74.9%,首次超過(guò)了人的識(shí)別精度(73.1%)[14].該方法將一幅手繪圖分解組合出6種通道,并將每種通道的手繪輸入轉(zhuǎn)化為5種尺度,一幅圖像在訓(xùn)練過(guò)程中需要經(jīng)過(guò)30次網(wǎng)絡(luò)框架,訓(xùn)練效率較低.另外,目前最大的手繪分類庫(kù)為20 000幅,這個(gè)數(shù)量級(jí)在訓(xùn)練網(wǎng)絡(luò)上是遠(yuǎn)遠(yuǎn)不夠的,即使通過(guò)簡(jiǎn)單的平移、旋轉(zhuǎn)來(lái)擴(kuò)充數(shù)據(jù)庫(kù),與ImageNet的1 300萬(wàn)仍相去甚遠(yuǎn),訓(xùn)練數(shù)據(jù)的不足直接影響網(wǎng)絡(luò)框架的精度.

      2 基于抽象層級(jí)變換和卷積神經(jīng)網(wǎng)絡(luò)的SBIR方法

      針對(duì)手繪圖像的抽象層次差異性和手繪圖與常規(guī)圖的域差異問(wèn)題,提出了一種新的SBIR方法,即基于抽象層級(jí)變換和卷積神經(jīng)網(wǎng)絡(luò)的手繪圖像檢索方法.常規(guī)圖像的處理步驟如下:

      Step1 計(jì)算常規(guī)邊緣概率圖.為了使邊緣概率圖與手繪圖像的抽象層次相對(duì)應(yīng),本方法將一幅邊緣概率圖按閾值劃分為3個(gè)等級(jí)的二值邊緣圖.

      Step2 將所得的二值邊緣圖輸入到深度神經(jīng)網(wǎng)絡(luò)中并提取不同隱層的輸出向量,聯(lián)合不同隱層的輸出向量構(gòu)建二值邊緣圖的特征描述子(即:聯(lián)合深度特征描述子),這樣一幅常規(guī)圖像最終由3個(gè)聯(lián)合深度特征描述子表示,分別對(duì)應(yīng)常規(guī)圖像的一個(gè)抽象層級(jí).

      對(duì)于手繪輸入圖像,只需要提取一個(gè)聯(lián)合深度特征描述子即可,在手繪圖像與常規(guī)圖像的相似度匹配計(jì)算過(guò)程中,本文將手繪圖描述子及與其最相近的一個(gè)常規(guī)圖描述子之間的距離,定義為二者之間的相似性度量值.為了有效地評(píng)價(jià)本文的工作,在Flickr15K數(shù)據(jù)集[11,13]和Eitz[11]數(shù)據(jù)集上對(duì)本文方法進(jìn)行驗(yàn)證并與其他方法比較.

      2.1 抽象層級(jí)變換

      為了實(shí)現(xiàn)常規(guī)圖與手繪圖在圖像域上的統(tǒng)一,本文方法基于文獻(xiàn)[6]人工標(biāo)注的邊緣圖數(shù)據(jù)集,利用監(jiān)督學(xué)習(xí)的方式訓(xùn)練邊緣概率檢測(cè)器,具體實(shí)現(xiàn)方法如下:

      Step1 計(jì)算通道梯度.將常規(guī)圖像轉(zhuǎn)換到RGB空間、強(qiáng)度空間及Lab空間以保證獲取足夠多的圖像信息.分別提取常規(guī)圖像像素點(diǎn)的強(qiáng)度、顏色、局部紋理的通道梯度G(x,y,θ),通道梯度值由以邊緣像素點(diǎn)為圓心的采樣區(qū)域的屬性決定,計(jì)算步驟如下:

      (a)將圖像按角度θ(本文方法選取0°,45°,90°,135° 4個(gè)角度)劃分4個(gè)方向梯度,以邊緣像素點(diǎn)(x,y)為圓心,以θ為直徑方向,圖像對(duì)角線的1/10長(zhǎng)度為直徑作圓,由此可得以該直徑為分界線的2個(gè)半圓s1和s2;

      (b)分別提取半圓s1和s2內(nèi)的強(qiáng)度、顏色、局部紋理3個(gè)直方圖,(x,y)點(diǎn)的通道梯度G(x,y,θ)定義為2個(gè)半圓直方圖h1和h2之間的χ2距離:

      (1)

      Step2 訓(xùn)練邏輯回歸模型的分類器.根據(jù)數(shù)據(jù)集中人工標(biāo)注的ground truth定義正負(fù)樣本,其中正樣本為ground truth中的邊緣點(diǎn),負(fù)樣本為ground truth中的背景點(diǎn).以正負(fù)樣本的通道梯度為輸入訓(xùn)練邏輯回歸模型的分類器.

      分類器的輸出表示像素點(diǎn)隸屬于邊緣的概率,在此將其定義為邊緣隸屬度.與Canny等底層數(shù)據(jù)驅(qū)動(dòng)方法相比,直接以人工標(biāo)注的ground truth為訓(xùn)練標(biāo)簽充分利用人工手繪圖像的主觀性,排除了底層干擾信息的影響.邊緣隸屬度概率圖融合了圖像的局部紋理、強(qiáng)度、顏色的分布信息,返回的是像素隸屬邊緣的概率,這種處理方式更符合人的習(xí)慣,從圖1也可看出,其結(jié)果比Canny邊緣檢測(cè)結(jié)果更平滑更合理.

      Step3 劃分抽象層次,并生成對(duì)應(yīng)的二值邊緣圖.為了使常規(guī)圖與手繪圖在圖像域上達(dá)到最大一致性,需要將一幅常規(guī)圖像的邊緣概率圖轉(zhuǎn)換為3個(gè)不同抽象層級(jí)的二值邊緣圖.本文對(duì)常規(guī)圖庫(kù)的邊緣概率圖進(jìn)行隨機(jī)采樣,將所采集樣本中的非零概率聚類生成3個(gè)閾值中心t1,t2和t3,以此3個(gè)閾值中心的值為標(biāo)準(zhǔn)對(duì)邊緣概率圖進(jìn)行二值化,得到3個(gè)二值邊緣圖b1,b2和b3.

      圖4 Flickr15K數(shù)據(jù)庫(kù)采樣示例Fig.4 Samples of hand-drawn sketches and the natural images in Flickr15K第1、3行為手繪圖像采樣示例,第2、4行為對(duì)應(yīng)的常規(guī)圖像示例.The 1st and 3rd rows show samples of sketches, and the 2nd and 4th rows show samples of natural images.

      如圖5所示,高層抽象的二值邊緣圖b1保留了圖像的外圍輪廓及比較明顯的邊緣信息,中層抽象的二值圖像b2在高層的基礎(chǔ)上增加了更具體的細(xì)節(jié)信息,而低層抽象的二值圖像b3具有更豐富的細(xì)節(jié)信息,與之對(duì)應(yīng)的是手繪圖中的不同抽象層級(jí)(見圖3).

      圖5 3個(gè)抽象層次的二值邊緣圖Fig.5 The binary edge maps of 3 abstractness levels

      2.2 特征提取

      通過(guò)邊緣概率檢測(cè)和抽象層級(jí)變換這2個(gè)步驟的預(yù)處理,常規(guī)圖像被轉(zhuǎn)換為與手繪圖像同域的邊緣圖像,且一幅常規(guī)圖像對(duì)應(yīng)的3個(gè)抽象層級(jí)的二值邊緣圖恰好與手繪輸入的抽象層級(jí)相對(duì)應(yīng).接下來(lái)就是提取適于SBIR的、描述力強(qiáng)的特征.上文提到,傳統(tǒng)的人工設(shè)計(jì)的特征在手繪圖上具有冗余、不魯棒、仿射不變性差等特點(diǎn),為了充分利用深度學(xué)習(xí)框架在圖像識(shí)別領(lǐng)域的優(yōu)勢(shì),本文采用典型的深度神經(jīng)網(wǎng)絡(luò)框架“Alex Net”[15]來(lái)提取圖像的描述子,“Alex Net”是在ILSVRC 2012 Image Net數(shù)據(jù)集上訓(xùn)練得到的網(wǎng)絡(luò),該數(shù)據(jù)集共包括1 300萬(wàn)的數(shù)據(jù).由Caffe提供的“Alex Net”網(wǎng)絡(luò)的top-1誤差率達(dá)到了42.6%,是比較可靠的卷積神經(jīng)網(wǎng)絡(luò)之一.

      利用深度神經(jīng)網(wǎng)絡(luò)提取特征并檢索的方法,包括以下主要模塊:

      (1)以預(yù)訓(xùn)練好的“AlexNet”網(wǎng)絡(luò)模型的參數(shù)初始化網(wǎng)絡(luò)并用手繪數(shù)據(jù)庫(kù)進(jìn)行微調(diào);

      (2)建立手繪圖像檢索所需的特征庫(kù);

      (3)提取輸入的手繪圖像的深度特征并進(jìn)行圖像檢索.

      步驟(1)中,為了使深度神經(jīng)網(wǎng)絡(luò)的各項(xiàng)參數(shù)更適合于本文的手繪圖像,對(duì)其進(jìn)行了微調(diào).以在ILSVRC 2012 Image Net數(shù)據(jù)集上訓(xùn)練得到的網(wǎng)絡(luò)的各層參數(shù)為初始化值,隨機(jī)選取TU-Berlin手繪數(shù)據(jù)庫(kù)中的100類對(duì)已有的網(wǎng)絡(luò)進(jìn)行訓(xùn)練,實(shí)現(xiàn)微調(diào)參數(shù)的效果,本方法隨機(jī)選取100類每類包含80幅圖像,共8 000幅.利用手繪圖微調(diào)令現(xiàn)有的網(wǎng)絡(luò)達(dá)到適應(yīng)手繪圖像域的最佳狀態(tài),同時(shí)又降低了重新訓(xùn)練網(wǎng)絡(luò)的開銷.得到微調(diào)好的網(wǎng)絡(luò)之后,就是利用該網(wǎng)絡(luò)提取手繪圖像的特征描述子,以構(gòu)建檢索特征庫(kù).特征描述子通常是一維向量,可以理解為圖像的編碼表示.之前有研究者認(rèn)為,卷積神經(jīng)網(wǎng)絡(luò)中的各層輸出實(shí)際上是對(duì)圖像的一種特殊的編碼表示,且隨著網(wǎng)絡(luò)層數(shù)的增加,網(wǎng)絡(luò)各隱層的輸出特征越抽象則越具有代表性,可以作為圖像的特征描述子.本文方法將數(shù)據(jù)庫(kù)中每幅常規(guī)圖像對(duì)應(yīng)的3個(gè)二值邊緣圖分別輸入到微調(diào)好的網(wǎng)絡(luò)中,提取網(wǎng)絡(luò)6層、7層的輸出向量(記為F6和F7).F6和F7分別是網(wǎng)絡(luò)的2層全連接層的輸出向量,如何充分利用這2個(gè)特征向量合理表示圖像至關(guān)重要,本文采用直接聯(lián)接和平均聯(lián)合2種聯(lián)合方式,分別得到了直接聯(lián)接深度描述子(FJ)和平均聯(lián)合深度描述子(FA),聯(lián)合后的向量作為圖像的特征描述子構(gòu)建檢索特征庫(kù).定義F6為(x1,x2,…,xn),F(xiàn)7為(y1,y2,…,yn),那么FJ和FA的表達(dá)式為

      FJ=(x1,x2,…,xn,y1,y2,…,yn),

      (2)

      (3)

      2.3 相似性度量

      對(duì)于手繪輸入,本文直接提取其聯(lián)合深度特征描述子.對(duì)常規(guī)圖像分2種情況,對(duì)于單閾值二值邊緣圖,直接計(jì)算二值邊緣圖的特征描述子與手繪輸入圖的特征描述子之間的歐氏距離,作為相似性度量依據(jù).對(duì)于基于抽象層級(jí)變換的三閾值二值邊緣圖,相似性距離度量

      d=min(Ed(Fq,Fe(i))),

      (4)

      其中,Ed表示求兩向量之間的歐氏距離.Fq表示手繪輸入的聯(lián)合描述子F.Fe(i)表示常規(guī)圖像第i個(gè)抽象層次圖的聯(lián)合描述子F.F可取FJ和FA2種形式,其中,d越小表明兩幅圖像越相似.

      3 實(shí) 驗(yàn)

      3.1 數(shù)據(jù)集和評(píng)價(jià)標(biāo)準(zhǔn)

      在Flickr15K數(shù)據(jù)集上進(jìn)行了評(píng)估實(shí)驗(yàn),F(xiàn)lickr15K數(shù)據(jù)集中的常規(guī)圖像數(shù)據(jù)包含60類共14 660幅,手繪圖像包含33類,共330幅.Flick15K的部分采樣圖像如圖4所示.由于該數(shù)據(jù)集屬于自然風(fēng)景類圖像,在形狀特征上比常規(guī)的室內(nèi)規(guī)則物體(例如,桌椅、杯具等)采集的圖像更加復(fù)雜,所以該數(shù)據(jù)集對(duì)特征的檢驗(yàn)更困難.評(píng)價(jià)過(guò)程中采用圖像檢索、分類、識(shí)別領(lǐng)域常用的基本指標(biāo):PR曲線(Precision-Recall graphic)和mAP(mean Average Precision).其中,

      (5)

      式中,q為手繪輸入圖像集,Nq為圖像集的數(shù)量,Ri為數(shù)據(jù)庫(kù)列表中正樣本的排名編號(hào),Li為檢索列表中正樣本的排名編號(hào),NR為正樣本的數(shù)量.具體的實(shí)驗(yàn)評(píng)價(jià)及細(xì)節(jié)分析參見3.2.

      3.2 實(shí)驗(yàn)評(píng)價(jià)

      在Windows下用Caffe框架實(shí)現(xiàn)微調(diào),利用Caffe的MATLAB接口實(shí)現(xiàn)特征的提取和后續(xù)的檢索.為驗(yàn)證本文方法的有效性,從常規(guī)圖像邊緣檢測(cè)和特征提取2個(gè)方面在Flickr15K數(shù)據(jù)庫(kù)上進(jìn)行了一系列的對(duì)比實(shí)驗(yàn).其中,在邊緣檢測(cè)方法上,對(duì)比了單閾值的邊緣圖與3層閾值的邊緣圖檢測(cè)方法;在特征提取方面,將本文所用網(wǎng)絡(luò)中涉及的全連接層描述子Fcnn、直接聯(lián)接深度描述子FJ及平均聯(lián)合深度描述子FA與幾種傳統(tǒng)經(jīng)典的描述子進(jìn)行了對(duì)比.

      圖6 不同方法的PR曲線對(duì)比圖Fig.6 PR curves of three features with different strategies其中,F(xiàn)A為未劃分抽象層下的平均聯(lián)合深度描述子的檢索曲線,F(xiàn)cnn為未劃分抽象層下的全連接層描述子的檢索曲線,F(xiàn)J為未劃分抽象層下的直接聯(lián)接深度描述子的檢索曲線,F(xiàn)A+level為劃分抽象層下的平均聯(lián)合深度描述子的檢索曲線.FA is fusion of averaging two fully connected vectors. Fcnn in the plot means the first fully connected feature vector. FJ is fusion of two fully connected vectors by connecting directly. FA+level in the plot means the combination of leveled abstractness and FA features.

      3.2.1 抽象層次變換對(duì)手繪檢測(cè)的影響

      在構(gòu)建檢索特征庫(kù)的過(guò)程中,每幅常規(guī)圖像對(duì)應(yīng)3個(gè)抽象層級(jí)的特征描述子,本文對(duì)抽象層級(jí)變換的有效性進(jìn)行了證明,實(shí)驗(yàn)結(jié)果如圖6所示,可以看出,抽象層級(jí)變換后的檢索PR曲線(FA+level)高于普通二值化的邊緣變換后的檢索曲線(FA).這一結(jié)果也進(jìn)一步證明了在不限制用戶對(duì)手繪輸入要求的前提下,手繪圖像的抽象屬性具有層次性的特點(diǎn).本文方法并沒有對(duì)帶有抽象層次差異的手繪圖像做特別處理,而是對(duì)數(shù)據(jù)庫(kù)中的常規(guī)圖像進(jìn)行層次劃分,使其保持與手繪輸入的一致性.

      圖7 圖像檢索結(jié)果Fig.7 The example results of our approach第1列為手繪輸入圖像,第2~10列為按相似性得分排列的檢索結(jié)果;圖中×代表檢索結(jié)果,圓圈代表在形狀上很相似但檢索錯(cuò)誤的檢索結(jié)果.The first column is the sketch query and the fellow second to tenth columns are the retrieval results of our approach. The×marks indicated the wrong results, and the circle marks indicated the wrong results with similar shapes.

      3.2.2 特征評(píng)價(jià)

      以特征向量之間的歐氏距離作為相似性度量方式,并將所用網(wǎng)絡(luò)中涉及的全連接層描述子Fcnn、直接聯(lián)接深度描述子FJ及平均聯(lián)合深度描述子FA與HOG[9]、SIFT[8]、RST-HELO[3]3種傳統(tǒng)的人工設(shè)計(jì)的特征進(jìn)行了對(duì)比,其中HOG、SIFT在Flickr15K數(shù)據(jù)集上的表達(dá)力較弱,其mAP值均小于0.1,在這幾種常見的傳統(tǒng)描述子中,RST-HELO的效果相對(duì)較好,但其mAP值也只能達(dá)到0.200 2.從表1中可以看出,F(xiàn)cnn在SBIR問(wèn)題上的表現(xiàn)優(yōu)于傳統(tǒng)的圖像描述子.而FJ及FA融合了深度神經(jīng)網(wǎng)絡(luò)的兩層特征輸出,二者的表達(dá)效果均優(yōu)于其他,且平均聯(lián)合方式的FA的表達(dá)力最高.圖7展示了本文方法在SBIR檢索的top-9返回結(jié)果.從圖7可以看出,本文方法在top-9的精度比較高,尤其是對(duì)于一些形狀特征比較簡(jiǎn)單明了的圖像,檢索top-9精度幾乎可以達(dá)到100%(圖7中的第1、2行),另外,對(duì)于一些結(jié)構(gòu)比較復(fù)雜但形狀特性明顯的圖像也有很好的檢索精度(如圖7第5行).但是本文方法也有部分誤檢的情況,造成誤檢的原因可能有以下幾點(diǎn):

      表1 各描述子的mAP值對(duì)比表

      Table 1 The mAP of different descriptors

      1)待檢索圖像庫(kù)預(yù)處理后的歧義性.例如圖7第10行“Tower Bridge”的檢索結(jié)果的第3個(gè)返回圖為“sailing”.該“sailing”圖為“海平面上的兩艘帆船”,將原圖轉(zhuǎn)換為邊緣概率圖之后,其形狀特征與“Tower Bridge”有很強(qiáng)的相似性,進(jìn)而導(dǎo)致誤檢.

      2)手繪輸入本身固有的歧義性.在手繪檢索中,因本文所輸入的手繪圖像比較簡(jiǎn)單,缺少細(xì)節(jié),因此其表達(dá)的形狀可能造成歧義,同一形狀可表示不同事物,例如圖7第3行“Temple of Heaven Beijing”的檢索列表中,第4個(gè)返回圖為“Wild Goose Pagoda”類的圖,該返回圖與手繪輸入的“Temple of Heaven Beijing”在形狀輪廓上極其相似,只是建筑的層數(shù)略有不同,若在構(gòu)建特征的過(guò)程中忽略了層數(shù)這一特點(diǎn),則容易導(dǎo)致誤檢.

      以上兩點(diǎn)說(shuō)明,深度特征描述子對(duì)圖像局部特征的提取比較靈敏,但是對(duì)全局結(jié)構(gòu)的表達(dá)尚有不足.

      4 結(jié) 論

      隨著觸屏設(shè)備的廣泛普及,手繪圖的獲取越來(lái)越方便,基于手繪圖像的檢索問(wèn)題得到了越來(lái)越多的關(guān)注.針對(duì)SBIR技術(shù)中的手繪圖像與常規(guī)圖像之間的域差異及手繪圖本身的抽象層次差異,提出了一種基于抽象層次變換和卷積神經(jīng)網(wǎng)絡(luò)的手繪圖像檢索方法.利用手繪圖像分類庫(kù)對(duì)深度學(xué)習(xí)框架“Alex Net”進(jìn)行微調(diào),其次將手繪圖像與二值邊緣圖像輸入到深度神經(jīng)網(wǎng)絡(luò)中,提取其隱層的輸出向量,通過(guò)聯(lián)合特征向量的方式構(gòu)建圖像的特征描述子.在Flickr15K上進(jìn)行了驗(yàn)證,證明相同評(píng)價(jià)標(biāo)準(zhǔn)下本文方法的檢索精度高于其他算法.經(jīng)進(jìn)一步分析發(fā)現(xiàn),對(duì)于手繪這種特殊的具有結(jié)構(gòu)特性的圖像形式,深度神經(jīng)網(wǎng)絡(luò)對(duì)其全局結(jié)構(gòu)特征描述略有不足,下一步工作將主要研究手繪圖或類手繪圖的結(jié)構(gòu)特征的提取.

      [1] CHEN T, CHENG M M, TAN P, et al. Sketch2 Photo: Internet image montage[J]. ACM Transactions on Graphics,2009,28(5):89-97.

      [2] HU R, WANG T, COLLOMOSSE J. A bag-of-regions approach to sketch-based image retrieval[C]// 18th IEEE International Conference on Image Processing. Brussels:IEEE,2011:3661-3664.

      [3] SAAVEDRA J M, BUSTOS B. An Improved Histogram of Edge Local Orientations for Sketch-Based Image Retrieval[M]// Pattern Recognition. Berlin: Springer, 2010:432-441.

      [4] ZHONG Z, MIN L Z. Unsupervised domain adaption dictionary learning for visual recognition[J]. Computer Science, 2015. arxiv:1506.01125.

      [5] LIM J J, ZITNICK C L, DOLLR P. Sketch tokens: A learned mid-level representation for contour and object detection[C] //Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Portland: IEEE Computer Society Press, 2013:3158-3165.

      [6] MARTIN D, FOWLKES C, MALIK J. Learning to detect natural image boundaries using local brightness, color, and texture cues[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2004,26(5):530-549.

      [7] YU Q, YANG Y, SONG Y Z, et al. Sketch-a-net that beats humans[C]//Proceedings of the British Machine Vision Conference. Wales: British Machine Vision Association, 2015.

      [8] LOWE D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004,60(60):91-110.

      [9] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C] //IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE Computer Society Press,2005(1):886-893.

      [10] PARK D K, JEON Y S, WON C S. Efficient use of local edge histogram descriptor[C]//Proceedings of the 2000 ACM Workshops on Multimedia. New York: ACM, 2000:51-54.

      [11] EITZ M, HILDEBRAND K, BOUBEKEUR T, et al. Sketch-based image retrieval: Benchmark and bag-of-features descriptors[J]. IEEE Transactions on Visualization and Computer Graphics, 2011,17(11):1624-1636.

      [12] BELONGIE S J, MALIK J, PUZICHA J. Shape matching and object recognition using shape contexts[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2010,24(4):509-522.

      [13] HU R, COLLOMOSSE J. A performance evaluation of gradient field HOG descriptor for sketch based image retrieval[J]. Computer Vision & Image Understanding, 2013,117(7):790-806.

      [14] EITZ M, HAYS J, ALEXA M. How do humans sketch objects?[J]. ACM Transactions on Graphics, 2012,31(4):Article No.44.

      [15] KUANG Z, LI Z, JIANG X, et al. Retrieval of non-rigid 3D shapes from multiple aspects[J]. Computer-Aided Design,2015,58:13-23.

      [16] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[J]. Advances in Neural Information Processing Systems, 2012:1097-1105.

      [17] DENG J, DONG W, SOCHER R, et al. Imagenet: A large-scale hierarchical image database[C] //IEEE Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE Computer Society Press, 2009:248-255.

      [18] JIA Y, SHELHAMER E, DONAHUE J, et al. Caffe: Convolutional architecture for fast feature embedding[C] //Proceedings of the ACM International Conference on Multimedia. New York: ACM Press,2014:675-678.

      [19] WANG Y, XIE Z, XU K, et al. An efficient and effective convolutional auto-encoder extreme learning machine network for 3d feature learning[J]. Neurocomputing, 2016,174:988-998.

      LIU Yujie1, PANG Yunping1, LI Zongmin1, LI Hua2

      (1.CollegeofComputer&CommunicationEngineering,ChinaUniversityofPetroleum,Qingdao266580,ShandongProvince,China; 2.KeyLaboratoryofIntelligentInformationProcessing,InstituteofComputingTechnologyChineseAcademyofSciences,Beijing100190,China)

      Sketch based image retrieval based on abstract-level transform and convolutional neural networks. Journal of Zhejiang University(Science Edition), 2016,43(6):657-663

      The traditional methods on sketch based image retrieval (SBIR) is mainly based on the hand-crafted descriptors such as HOG and SIFT. Considering the limitations of the traditional hand-crafted descriptors, we propose a novel approach based on the abstract-level transform and the convolutional neural network(CNN). Our work is realized by the following steps: 1) Extracting the boundary probability images from the database images; 2) Converting the boundary probability images into abstract-level images; 3) Inputting the abstract-level images into the networks and extracting the hidden layers’ output vectors; 4) Combining different hidden layers’ output vectors as the final descriptor for retrieval. We evaluate our proposed retrieval strategy on Flickr15K datasets. The main contributions of our work are the preprocessing based on the boundary probability detector and the abstract-level transform ation, furthermore, proposing an improved combination of deep features. Results show that the proposal achieves significant improvements.

      sketch based image retrieval; convolutional neural network; boundary probability detector; abstract-level transform; joint deep features

      2016-07-20.

      國(guó)家自然科學(xué)基金資助項(xiàng)目(61379106);山東省自然科學(xué)基金資助項(xiàng)目(ZR2013FM036,ZR2015FM011);浙江大學(xué)CAD&CG重點(diǎn)實(shí)驗(yàn)室開放基金(A1315).

      劉玉杰(1971-),ORCID:http://orcid.org/0000-0002-1838-874X,男,副教授,博士,主要從事計(jì)算機(jī)圖形圖像處理、多媒體數(shù)據(jù)分析、多媒體數(shù)據(jù)庫(kù)研究.

      *通信作者,ORCID:http://orcid:org/0000-0001-7006-055X,E-mail:lizongmin@upc.edu.cn.

      10.3785/j.issn.1008-9497.2016.06.005

      TP 391.41

      A

      1008-9497(2016)06-657-07

      猜你喜歡
      特征描述手繪層級(jí)
      In the Zoo
      船舶尾流圖像的數(shù)字化處理和特征描述技術(shù)
      手繪風(fēng)景照
      齊心手繪《清明上河圖》
      軍工企業(yè)不同層級(jí)知識(shí)管理研究實(shí)踐
      基于軍事力量層級(jí)劃分的軍力對(duì)比評(píng)估
      目標(biāo)魯棒識(shí)別的抗旋轉(zhuǎn)HDO 局部特征描述
      手繪
      手繪二十四節(jié)氣
      任務(wù)期內(nèi)多層級(jí)不完全修復(fù)件的可用度評(píng)估
      综艺| 宁武县| 河北区| 台江县| 玉门市| 平陆县| 连州市| 三原县| 三河市| 永修县| 赣州市| 长寿区| 离岛区| 滁州市| 鹤壁市| 韶关市| 仁寿县| 昌宁县| 太保市| 景宁| 正定县| 沙河市| 宁城县| 成安县| 昌吉市| 镇巴县| 通江县| 桃江县| 武宁县| 渝中区| 延津县| 柳州市| 大安市| 桐庐县| 双辽市| 兰西县| 高雄市| 永兴县| 普兰店市| 兴业县| 乌兰察布市|