于 寧,宋海玉,孫東洋,王鵬杰,姚金鑫
基于深度學(xué)習(xí)中間層卷積特征的圖像標(biāo)注
于 寧1,宋海玉1,孫東洋2,王鵬杰1,姚金鑫1
(1. 大連民族大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,遼寧 大連 116600;2.安迅達(dá)盛醫(yī)療科技有限公司,北京 100020)
針對(duì)基于深度特征的圖像標(biāo)注模型訓(xùn)練復(fù)雜、時(shí)空開銷大的不足,提出一種由深度學(xué)習(xí)中間層特征表示圖像視覺特征、由正例樣本均值向量表示語義概念的圖像標(biāo)注方法。首先,通過預(yù)訓(xùn)練深度學(xué)習(xí)模型的中間層直接輸出卷積結(jié)果作為低層視覺特征,并采用稀疏編碼方式表示圖像;然后,采用正例均值向量法為每個(gè)文本詞匯構(gòu)造視覺特征向量,從而構(gòu)造出文本詞匯的視覺特征向量庫;最后,計(jì)算測試圖像與所有文本詞匯的視覺特征向量相似度,并取相似度最大的若干詞匯作為標(biāo)注詞。多個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)證明了所提出方法的有效性,就1值而言,該方法在IAPR TC-12數(shù)據(jù)集上的標(biāo)注性能比采用端到端深度特征的2PKNN和JEC分別提高32%和60%。
深度學(xué)習(xí);圖像標(biāo)注;卷積;正例均值向量;特征向量
近20年來,自動(dòng)圖像標(biāo)注一直是計(jì)算機(jī)視覺領(lǐng)域研究熱點(diǎn)。圖像標(biāo)注的效果主要取決于標(biāo)注模型和視覺特征向量,其中,視覺特征向量質(zhì)量決定著圖像標(biāo)注質(zhì)量的上限。近年來,隨著圖像標(biāo)注模型越來越成熟,視覺特征向量已經(jīng)成為圖像標(biāo)注效果的決定性因素。2012年之前,計(jì)算機(jī)視覺領(lǐng)域的圖像特征均為領(lǐng)域?qū)<以O(shè)計(jì)的人工特征,人工特征質(zhì)量主要取決于專家的領(lǐng)域知識(shí)和經(jīng)驗(yàn),在復(fù)雜的計(jì)算機(jī)視覺應(yīng)用中,人工特征很難提取出高質(zhì)量的特征向量[1]。
2012年,Alex和Hinton構(gòu)建了基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型AlexNet[2],在ImageNet圖像分類比賽中以壓倒性的優(yōu)勢奪取了冠軍,自此開啟了深度學(xué)習(xí)時(shí)代。此后研究者們?cè)贏lexNet的基礎(chǔ)上提出了許多優(yōu)秀的網(wǎng)絡(luò)模型,如:VGG[3],GoogleNet[4],ResNet[5]等。深度學(xué)習(xí)特征是一個(gè)端到端的特征提取過程,不需要人工參與。對(duì)于圖像特征提取而言,輸入端輸入原始圖像,通過復(fù)雜的模型訓(xùn)練后,在輸出端直接輸出高質(zhì)量的深度特征?;诟哔|(zhì)量的端到端特征向量,深度學(xué)習(xí)在圖像分類領(lǐng)域取得了突破性進(jìn)展,并被嘗試應(yīng)用于很多領(lǐng)域[1]。
深度學(xué)習(xí)之所以可以取得突破性進(jìn)展,很大程度上取決于其復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)。為了取得較好的效果,深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)越來越復(fù)雜,層數(shù)越來越深。然而數(shù)以百萬計(jì)、千萬計(jì)參數(shù)的模型訓(xùn)練不僅需要海量的訓(xùn)練樣本支撐,而且需要巨大的時(shí)間開銷以及較高的硬件配置,這些因素限制了深度學(xué)習(xí)的應(yīng)用,例如2012年所提出的AlexNet網(wǎng)絡(luò)模型共有6 100萬參數(shù)[2],此后提出的VGG-16模型參數(shù)有1.38億[3]。在訓(xùn)練樣本充足的情況下,模型訓(xùn)練充分,復(fù)雜的深度學(xué)習(xí)可以取得預(yù)期效果。但事實(shí)上,大多數(shù)應(yīng)用很難提供充足的訓(xùn)練樣本,往往會(huì)造成模型過擬合等,從而使得模型訓(xùn)練質(zhì)量較差。針對(duì)以上缺點(diǎn),相關(guān)學(xué)者提出了一些解決方法,比如基于預(yù)訓(xùn)練模型進(jìn)行微調(diào)訓(xùn)練并應(yīng)用于復(fù)雜的標(biāo)注算法等等。盡管取得了較好的標(biāo)注效果,但是依然沒有提取適合于圖像標(biāo)注的高質(zhì)量的深度特征。
2014年,Caffe的設(shè)計(jì)者賈揚(yáng)清團(tuán)隊(duì)率先將深度學(xué)習(xí)應(yīng)用于圖像標(biāo)注[6],此后,越來越多的學(xué)者基于深度學(xué)習(xí)技術(shù)開展圖像標(biāo)注的研究。表1為基于深度學(xué)習(xí)的圖像標(biāo)注模型與傳統(tǒng)標(biāo)注模型的效果對(duì)比,實(shí)驗(yàn)數(shù)據(jù)集均為Corel5K。
表1 基于深度學(xué)習(xí)的標(biāo)注模型與傳統(tǒng)標(biāo)注模型的效果對(duì)比(Corel5k)
由表1可以看出,深度學(xué)習(xí)方法相對(duì)于傳統(tǒng)的圖像標(biāo)注方法,效果雖然有所提升但是并不顯著,特別是當(dāng)網(wǎng)絡(luò)模型較復(fù)雜時(shí)(例如VGG-16網(wǎng)絡(luò)),標(biāo)注性能甚至?xí)档?。主要原因是小?guī)模圖像數(shù)據(jù)無法滿足復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)模型的訓(xùn)練。如果沒有足夠訓(xùn)練數(shù)據(jù)支撐,由于過擬合等原因,復(fù)雜的網(wǎng)絡(luò)模型并不能取得理想的標(biāo)注效果,甚至越是復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)的深度學(xué)習(xí)模型其標(biāo)注性能越差。同時(shí)該深度學(xué)習(xí)訓(xùn)練方法需要巨大的時(shí)間開銷以及較高的硬件配置。針對(duì)以上不足,OQUAB等[10]提出了遷移學(xué)習(xí)的方法。將遷移學(xué)習(xí)應(yīng)用于圖像標(biāo)注的效果有了較好地提升,但是訓(xùn)練過程時(shí)空開銷仍然較大并且需要較高的硬件配置。
盡管理論上很多深度學(xué)習(xí)模型有很好的理論基礎(chǔ)和科學(xué)的網(wǎng)絡(luò)結(jié)構(gòu),但如果沒有足夠訓(xùn)練數(shù)據(jù)支撐,復(fù)雜的網(wǎng)絡(luò)模型并不能取得理想的標(biāo)注效果,同時(shí)深度模型訓(xùn)練所需的巨大的時(shí)空開銷和較高的硬件配置使得其應(yīng)用受到限制。因此相關(guān)學(xué)者將研究重心轉(zhuǎn)向更為復(fù)雜的標(biāo)注算法或更優(yōu)質(zhì)的特征表示,例如將深度特征與其他特征融合進(jìn)行圖像標(biāo)注。
目前,圍繞深度學(xué)習(xí)開展圖像標(biāo)注的研究主要分3類:①設(shè)計(jì)新的網(wǎng)絡(luò)結(jié)構(gòu)或改進(jìn)已有模型,通過修改損失函數(shù)、輸出類別個(gè)數(shù)等方法,使用目標(biāo)數(shù)據(jù)集進(jìn)行訓(xùn)練,使得原有模型適合圖像標(biāo)注[11-12]。②基于預(yù)訓(xùn)練模型的微調(diào)型,僅修改在較大數(shù)據(jù)集上已訓(xùn)練好的網(wǎng)絡(luò)模型的全連接層和輸出層使其適應(yīng)目標(biāo)數(shù)據(jù)集,而其他網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)保持不變,即在現(xiàn)有網(wǎng)絡(luò)權(quán)重的基礎(chǔ)上對(duì)網(wǎng)絡(luò)進(jìn)行微調(diào),如文獻(xiàn)[10]提出的遷移學(xué)習(xí)方法等。③直接使用預(yù)訓(xùn)練模型完成目標(biāo)數(shù)據(jù)集的特征提取,然后再使用其他復(fù)雜算法完成標(biāo)注,或把深度特征與其他特征融合進(jìn)行圖像標(biāo)注;文獻(xiàn)[13]提出圖像標(biāo)注模型CMRM和MBRM,將深度學(xué)習(xí)特征應(yīng)用于JEC、2PKNN等復(fù)雜標(biāo)注算法,并取得了較好的標(biāo)注效果,主要原因是后續(xù)的復(fù)雜標(biāo)注模型或多種特征融合。依然沒有解決在數(shù)據(jù)集較小的情況下,如何提取適合于圖像標(biāo)注的高質(zhì)量深度特征,以及如何設(shè)計(jì)高效的標(biāo)注模型。為此,本文試圖在資源受限、數(shù)據(jù)量不足的情況下,提取高質(zhì)量的深度特征,并提出有針對(duì)性的圖像標(biāo)注模型。
目前,深度學(xué)習(xí)模型所提取的端到端特征可以視為是圖像的全局特征,該方法在圖像分類領(lǐng)域取得極大成功,但在圖像標(biāo)注領(lǐng)域并未取得顯著成果。在基于深度學(xué)習(xí)的圖像分類中,將僅使用模型末端輸出層的全局特征,而忽略中間層的輸出特征,稱為端到端模型。然而深度學(xué)習(xí)模型在對(duì)圖像特征進(jìn)行層層抽象時(shí),每層都有其自身價(jià)值,因感受野不同,提取的特征所描述范圍不同,網(wǎng)絡(luò)模型末端的全連接層刻畫的是圖像的全局視覺特征,而中間層刻畫的是圖像的區(qū)域或局部特征。深度學(xué)習(xí)中間層卷積核感受野小,但個(gè)數(shù)多,中間層卷積核更容易捕獲局部或區(qū)域特征,因此,中間層特征更善于刻畫多對(duì)象或復(fù)雜圖像中的對(duì)象特征。而且,直接提取中間層特征可以避免深度學(xué)習(xí)全連接層較高的時(shí)空開銷。本文提取了深度學(xué)習(xí)的中間卷積層特征,通過稀疏編碼的方式生成圖像的特征向量。特征生成過程如下:
(1) 提取預(yù)訓(xùn)練深度學(xué)習(xí)模型的中間層輸出特征,即∈(K×W×H),其中為特征圖的個(gè)數(shù),和分別為特征圖的寬和高。然后對(duì)特征進(jìn)行規(guī)格化并轉(zhuǎn)換為二維特征矩陣,表示為(W×H, K)。
(2) 對(duì)原始特征進(jìn)行高斯規(guī)格化處理,并將數(shù)據(jù)應(yīng)用主成分分析(principal component analysis, PCA)進(jìn)行約減。此時(shí)卷積特征用F(W×H, n)表示,其中代表約減后的維度。
(3) 將降維后的數(shù)據(jù)進(jìn)行K-means聚類,構(gòu)造個(gè)視覺詞匯。根據(jù)視覺詞袋原理,每幅圖像表示為維的詞袋向量。
(4) 利用獲取到的聚類中心點(diǎn)將卷積特征進(jìn)行(vector of locally aggregated descriptors, VLAD)編碼[14]轉(zhuǎn)換為圖像的視覺特征向量,即
其中,為圖塊特征;[1,2,···,]為聚類中心點(diǎn);()為離最近的聚類中心。
人工特征向量往往是底層視覺的統(tǒng)計(jì)量等,其視覺模式不顯著,語義級(jí)別較低,因此,基于人工特征向量的圖像分類/標(biāo)注模型往往較抽象、算法較復(fù)雜、時(shí)空代價(jià)較大。與傳統(tǒng)的人工特征相比,深度學(xué)習(xí)中間層特征視覺模式顯著、語義級(jí)別較高,采用視覺詞典等稀疏編碼方式后,其視覺和語義刻畫能力較強(qiáng)。如果能為每個(gè)文本詞匯構(gòu)造視覺特征向量,那么,傳統(tǒng)的圖像標(biāo)注問題中計(jì)算詞匯隸屬于圖像的置信度問題就轉(zhuǎn)換為計(jì)算2個(gè)視覺特征向量(文本詞匯視覺特征向量和圖像視覺特征向量)的相似度問題了?;诖朔N文本詞匯視覺特征向量標(biāo)注方法的時(shí)空開銷非常小,且與訓(xùn)練數(shù)據(jù)集規(guī)模無關(guān)。與傳統(tǒng)方法相比,更能夠勝任處理大規(guī)模數(shù)據(jù)集。
本文提出的圖像標(biāo)注方法的系統(tǒng)結(jié)構(gòu)如圖1所示。在訓(xùn)練階段,提取所有訓(xùn)練圖像的深度特征并形成VLAD向量,從而構(gòu)成圖像視覺特征圖庫,采用正例樣本均值向量法為每個(gè)文本詞匯構(gòu)造能代表其最本質(zhì)視覺信息的視覺特征向量,從而構(gòu)成包含所有詞匯對(duì)應(yīng)特征的正例均值向量詞庫。在標(biāo)注(測試)階段,在線提取該測試圖像的特征向量并生成其VLAD向量,測試圖像的VLAD特征向量逐一與正例均值向量詞庫中各個(gè)詞匯的正例均值向量計(jì)算視覺相似度,最終,排序選擇相似度最大特征向量所對(duì)應(yīng)的文本語義詞匯作為該測試圖像的標(biāo)注詞匯。
圖1 圖像標(biāo)注的系統(tǒng)結(jié)構(gòu)圖
在傳統(tǒng)的視覺詞典表示方法中,若有個(gè)視覺詞匯,相當(dāng)于在視覺詞典中構(gòu)造一個(gè)維的視覺特征空間,每個(gè)圖像都是該空間中的一個(gè)對(duì)象,因此可以由個(gè)基底特征向量線性表示。從語義角度看,每幅圖像可以視為若干個(gè)文本概念的組合,如果每個(gè)文本概念均可以表示為視覺特征空間中的特征向量,那么任一圖像的視覺特征向量可以視為若干個(gè)文本語義詞匯對(duì)應(yīng)視覺特征向量的線性和,即
其中,系數(shù)a為布爾型,若圖像中有對(duì)應(yīng)詞匯則為1,否則為0;為詞匯w的視覺特征向量。
當(dāng)已知圖像特征向量以及其所包含的詞匯信息時(shí),可以根據(jù)矩陣知識(shí)求出每個(gè)文本詞匯的視覺向量。但該方程組求解存在如下困難:①理想情況下,所有語義對(duì)象的特征向量都是線性無關(guān)的,其可以作為該語義空間的基底向量,但事實(shí)上,不同概念之間會(huì)有相關(guān)視覺模式,因此,這一假設(shè)很難嚴(yán)格成立;②大多數(shù)圖像數(shù)據(jù)集詞匯分布不均衡,一些低頻詞匯對(duì)應(yīng)的圖像個(gè)數(shù)遠(yuǎn)低于向量維數(shù);③當(dāng)特征向量維數(shù)較高時(shí),求解的時(shí)空復(fù)雜度過高。因此,很難采用傳統(tǒng)的矩陣方法或機(jī)器學(xué)習(xí)方法求解。
針對(duì)深度學(xué)習(xí)中間層特征的區(qū)域或局部調(diào)整描述能力強(qiáng)、區(qū)分度大,且具有一定語義刻畫能力,本文提出一種基于正例樣本均值向量的快速標(biāo)注方法。盡管無法直接對(duì)方程式求解,但針對(duì)深度學(xué)習(xí)中間層特征的特點(diǎn),任一文本詞匯的特征向量可由包含該詞匯的所有圖像特征向量的均值近似表示。以詞匯w為例,若有幅圖像包含這個(gè)詞匯,則幅圖像均由語義概念特征向量表示,即方程為
本文提出詞匯w的視覺特征向量可由包含該詞匯正例樣本均值向量近似表示,即
其中,為圖像的特征向量;為詞匯w的正例圖像集合,正例圖像集合是指包含該詞匯的所有圖像的集合;為正例圖像個(gè)數(shù)。將式(3)代入式(4),得到正例樣本均值向量,即
基于正例均值向量的標(biāo)注過程是,詞庫中所有詞匯的視覺特征向量均與待標(biāo)注圖像的視覺特征向量計(jì)算相似度,取視覺相似度最大的若干詞匯作為圖像的標(biāo)注詞。相似度距離采用L2距離,即
為了準(zhǔn)確、客觀地比較并評(píng)價(jià)本文方法的各項(xiàng)性能,實(shí)驗(yàn)數(shù)據(jù)集采用經(jīng)典數(shù)據(jù)集Corel5k和IAPR TC-12,這2個(gè)數(shù)據(jù)集是圖像標(biāo)注領(lǐng)域最常用的實(shí)驗(yàn)數(shù)據(jù)集,已經(jīng)成為事實(shí)上的標(biāo)準(zhǔn)數(shù)據(jù)集[1]。Corel5k數(shù)據(jù)集規(guī)模較小,包括4 500幅訓(xùn)練圖像、500幅測試圖像,共包含260個(gè)語義概念;IAPR TC-12數(shù)據(jù)集規(guī)模較大,共有19 623幅圖像,其中訓(xùn)練圖像17 663幅,測試圖像1 960幅,數(shù)據(jù)集內(nèi)共包含291個(gè)語義概念。實(shí)驗(yàn)平臺(tái)為64位Windows7操作系統(tǒng),硬件配置為3.60 GHz的i7-3790 CPU、NVIDA GeForce GTX 1080的顯卡、28 GB內(nèi)存,軟件環(huán)境為Matlab2016a。
性能評(píng)價(jià)指標(biāo)采用圖像標(biāo)注領(lǐng)域最廣泛的查準(zhǔn)率(precision)、查全率(recall)、1值(1-score)和N+[1]。給定詞匯w的查準(zhǔn)率、查全率和1值的計(jì)算式為
其中,為正確標(biāo)注詞匯w的圖像個(gè)數(shù);為錯(cuò)誤標(biāo)注詞匯w的圖像個(gè)數(shù);為數(shù)據(jù)集中含有標(biāo)注詞w的圖像個(gè)數(shù)。對(duì)數(shù)據(jù)集中所有詞匯分別計(jì)算查準(zhǔn)率、查全率和1,最后計(jì)算所有詞匯查準(zhǔn)率和查全率的平均值作為系統(tǒng)整體評(píng)價(jià)。N+為標(biāo)注結(jié)果中所能標(biāo)注出的詞匯個(gè)數(shù),即標(biāo)注詞出現(xiàn)次數(shù)大于零的詞匯個(gè)數(shù),作為正確標(biāo)注詞匯多樣性的評(píng)價(jià)指標(biāo)。各項(xiàng)指標(biāo)數(shù)值越高標(biāo)注性能越好,理論上,查準(zhǔn)率、查全率和1性能上限可以接近于100%,N+可以接近于數(shù)據(jù)集中詞匯個(gè)數(shù)。
為了客觀評(píng)價(jià)本文所提取的深度學(xué)習(xí)中間卷積層特征的性能,將實(shí)驗(yàn)的結(jié)果與使用傳統(tǒng)人工特征經(jīng)典圖像標(biāo)注模型(MBRM模型、JEC模型)以及將深度學(xué)習(xí)特征應(yīng)用于JEC、2PKNN等復(fù)雜標(biāo)注算法[13]的結(jié)果進(jìn)行了比較。與文獻(xiàn)[13]中深度學(xué)習(xí)網(wǎng)絡(luò)模型相同,本文采用VGG-16網(wǎng)絡(luò),根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)及卷積核等信息,選用Conv5-2層數(shù)據(jù)作為圖像的局部特征信息。預(yù)訓(xùn)練數(shù)據(jù)集為ILSVRC-2012[15]。在較小規(guī)模數(shù)據(jù)集Corel5k和較大規(guī)模數(shù)據(jù)集IAPR TC-12上完成的實(shí)驗(yàn)結(jié)果分別見表2和表3。
表2 本文方法與其他方法實(shí)驗(yàn)結(jié)果性能對(duì)比(Corel5k)
表3 本文方法與其他方法實(shí)驗(yàn)結(jié)果性能對(duì)比(IAPR TC-12)
表2和表3實(shí)驗(yàn)結(jié)果表明,無論是在較小規(guī)模數(shù)據(jù)集Corel5k,還是在較大數(shù)據(jù)集IAPR TC-12中,本文所提出方法主要性能指標(biāo)不僅優(yōu)于采用人工特征的標(biāo)注模型MBRM和JEC,也優(yōu)于使用深度學(xué)習(xí)端到端特征的標(biāo)注模型JEC和2PKNN。表2實(shí)驗(yàn)結(jié)果表明本文所提出方法標(biāo)注效果略優(yōu)于其他方法,主要是因?yàn)镃orel5k數(shù)據(jù)集中語義詞匯出現(xiàn)頻次很不均衡,最高頻次和最低頻次的詞匯出現(xiàn)次數(shù)分別是1 004次和1次。而表3表明在IAPR TC-12中本文所提出方法除N+略低于2PKNN外,其他指標(biāo)明顯優(yōu)于其他方法,綜合評(píng)價(jià)指標(biāo)1值分別比MBRM、JEC (人工特征)、JEC (深度特征)、2PKNN (深度特征)提升了63%、35%、60%、32%。這印證了,式(4)和式(5)中的推理,圖像數(shù)據(jù)集規(guī)模越大,所構(gòu)造的越接近于目標(biāo)詞匯w的特征向量。因此,采用該方法所完成的圖像標(biāo)注效果越好。
由于2PKNN和JEC涉及的多種人工特征模型復(fù)雜度較高,現(xiàn)有相關(guān)資料中均未給出這些特征的時(shí)間開銷,且模型較復(fù)雜,實(shí)驗(yàn)環(huán)節(jié)未能在同一環(huán)境下完成對(duì)比實(shí)驗(yàn),因此表2和表3僅對(duì)比了這些算法的標(biāo)注效果,而沒有列出時(shí)間開銷。但理論上,此類算法的時(shí)間復(fù)雜度、空間復(fù)雜度均大于本文所提出的方法。本文所提出方法無需訓(xùn)練深度學(xué)習(xí)模型,Corel5k測試圖像數(shù)據(jù)集特征提取時(shí)間為55 s,而傳統(tǒng)的端到端的深度學(xué)習(xí)微調(diào)方法模型訓(xùn)練時(shí)間是8 h,測試圖像數(shù)據(jù)特征提取時(shí)間為70 s。在較大規(guī)模數(shù)據(jù)集IAPR TC-12中,本文方法測試圖像特征提取時(shí)間為330 s,而傳統(tǒng)的端到端的深度學(xué)習(xí)微調(diào)方法模型訓(xùn)練時(shí)間是10 h,測試圖像數(shù)據(jù)特征提取時(shí)間為360 s。若測試圖像個(gè)數(shù)為、訓(xùn)練圖像個(gè)數(shù)為、數(shù)據(jù)集中所包含詞匯個(gè)數(shù)為,JEC和2PKNN時(shí)間復(fù)雜度為O(),而本文方法時(shí)間復(fù)雜度為O(),由于數(shù)據(jù)集中訓(xùn)練圖像個(gè)數(shù)遠(yuǎn)大于詞匯個(gè)數(shù),因此,標(biāo)注階段本文所提出方法的時(shí)間開銷也明顯低于JEC和2PKNN,遠(yuǎn)低于MBRM等標(biāo)注模型。
本文所采用的VGG-16模型預(yù)訓(xùn)練所用的ImageNet數(shù)據(jù)集,以及圖像標(biāo)注領(lǐng)域最常用的圖像數(shù)據(jù)集Corel5k和IAPR TC12均為自然場景領(lǐng)域圖像,為了驗(yàn)證所提出方法對(duì)領(lǐng)域遷移的適應(yīng)性,在ESP Game數(shù)據(jù)集上完成了圖像標(biāo)注實(shí)驗(yàn)。ESP Game數(shù)據(jù)集是雙人游戲圖像數(shù)據(jù),與自然場景數(shù)據(jù)集ImageNet屬于完全不同的領(lǐng)域。該數(shù)據(jù)集共有20 770幅圖像,其中訓(xùn)練圖像18 689幅,測試圖像2 981幅,數(shù)據(jù)集內(nèi)共包含268個(gè)語義概念。相同實(shí)驗(yàn)方法下,在ESP Game數(shù)據(jù)集上完成的實(shí)驗(yàn)結(jié)果見表4。實(shí)驗(yàn)結(jié)果表明,在其他領(lǐng)域的圖像數(shù)據(jù)集上,本文方法的標(biāo)注性能也優(yōu)于其他方法,說明本文方法對(duì)領(lǐng)域遷移有較強(qiáng)的適應(yīng)性。
表4 本文方法與其他方法實(shí)驗(yàn)結(jié)果性能對(duì)比(ESP Game)
深度學(xué)習(xí)是近年來的研究熱點(diǎn),但模型訓(xùn)練所要求的數(shù)據(jù)門檻和系統(tǒng)配置都比較高,制約了深度學(xué)習(xí)的應(yīng)用。本文根據(jù)深度學(xué)習(xí)模型中間層視覺特征模式的通用性,采用提取深度學(xué)習(xí)中間層卷積特征的方法,并在此基礎(chǔ)之上提出了基于正例均值的圖像標(biāo)注方法。與傳統(tǒng)的依賴于大規(guī)模數(shù)據(jù)模型訓(xùn)練的端到端深度特征相比,本文所采用的基于深度學(xué)習(xí)中間層卷積特征提取方法,無需大規(guī)模數(shù)據(jù)集訓(xùn)練模型,降低了深度特征的數(shù)據(jù)和硬件門檻、擴(kuò)大了深度學(xué)習(xí)應(yīng)用范圍;所提出的標(biāo)注方法時(shí)空開銷較小,更適合于大規(guī)模數(shù)據(jù)集的處理和在線標(biāo)注。此外,由于測試圖像的最終標(biāo)注詞匯主要取決于文本詞匯的視覺特征向量,而不是訓(xùn)練圖像的特征向量,所以,本文所提出的方法也有助于緩解訓(xùn)練數(shù)據(jù)類別不均衡的難題。
[1] CHENG Q M, ZHANG Q, FU P, et al. A survey and analysis on automatic image annotation [J]. Pattern Recognition, 2018, 79: 242-259.
[2] 張順, 龔怡宏, 王進(jìn)軍. 深度卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展及其在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用[J]. 計(jì)算機(jī)學(xué)報(bào), 2019, 42(3): 453-482.
[3] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. (2015-04-10). [2018-09-11]. https://arxiv.org/pdf/1409.1556.pdf.
[4] SZEGEDY C, LIU W, JIA Y Q, et al. Going deeper with convolutions [C]//Proceedings of the 2015 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 1-9.
[5] HE K, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition [C]//Proceedings of the 2016 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 770-778.
[6] GONG Y C, JIA Y Q, LEUNG T K, et al. Deep convolutional ranking for multilabel image annotation [EB/OL]. (2014-04-14). [2018-11-14]. https://arxiv. org/pdf/1312.4894v2.pdf.
[7] FENG S L, MANMATHA R, LAVRENKO V. Multiple Bernoulli relevance models for image and video annotation [C]//Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2004: 1002-1009.
[8] MAKADIA A, PAVLOVIC V, KUMAR S. A new baseline for image annotation [C]//Proceedings of the 10th European Conference on Computer Vision. Heidelberg: Springer, 2008: 316-329.
[9] 羅世操. 基于深度學(xué)習(xí)的圖像語義提取與圖像檢索技術(shù)研究[D]. 上海: 東華大學(xué), 2016: 55.
[10] OQUAB M, BOTTOU L, LAPTEV I, et al. Learning and transferring mid-level image representations using convolutional neural networks [C]//Proceedings of the 2014 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2014: 1717-1724.
[11] JOHNSON J, BALLAN L, LI F F. Love thy neighbors: Image annotation by exploiting image metadata [C]// Proceedings of the 2015 IEEE Computer Society International Conference on Computer Vision (ICCV). New York: IEEE Press, 2015: 4624-4632.
[12] 黎健成, 袁春, 宋友. 基于卷積神經(jīng)網(wǎng)絡(luò)的多標(biāo)簽圖像自動(dòng)標(biāo)注[J]. 計(jì)算機(jī)科學(xué), 2016, 43(7): 41-45.
[13] MURTHY V N, MAJI S, MANMATHA R. Automatic image annotation using deep learning representations [C]// Proceedings of the 5th ACM on International Conference on Multimedia Retrieval. New York: ACM Press, 2015: 603-606.
[14] NG J Y H, YANG F, DAVIS L S. Exploiting local features from deep networks for image retrieval [C]// Proceedings of the 2015 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops (CVRPW). New York: IEEE Press, 2015: 53-61.
[15] 田萱, 王亮, 丁琪. 基于深度學(xué)習(xí)的圖像語義分割方法綜述[J]. 軟件學(xué)報(bào), 2019, 30(2): 440-468.
Image Annotation Based on Middle-Layer Convolution Features of Deep Learning
YU Ning1, SONG Hai-yu1, SUN Dong-yang2, WANG Peng-jie1, YAO Jin-xin1
(1. College of Computer Science and Engineering, Dalian Nationalities University, Dalian Liaoning 116600, China; 2. Anxundasheng Medical Technology Company, Beijing 100020, China)
Image annotation based on deep features always requires complex model training and huge space-time cost. To overcome these shortcomings, an efficient and effective approach was proposed, whose visual feature was described by middle-level features of deep learning and semantic concept was represented by mean vector of positive samples. Firstly, the convolution result is directly outputted as the low-level visual feature by the middle layer of the pre-training deep learning model, and the sparse coding method was used to represent image. Then, visual feature vector was constructed for each textual word by the mean vector method of positive samples, and the visual feature vector database of the text vocabulary was constructed. Finally, the similarities of visual feature vectors between test image and all textual words were computed, and some words with largest similarities were selected as annotation words. The experimental results on several datasets demonstrate the effectiveness of the proposed method. In terms of1-measure, the experimental results on IAPR TC-12 dataset show that the performance of the proposed method was improved by 32% and 60% respectively, compared to 2PKNN and JEC with end-to-end deep features.
deep learning; image annotation; convolution; mean vector of positive sample; feature vector
TP 391
10.11996/JG.j.2095-302X.2019050872
A
2095-302X(2019)05-0872-06
2019-07-31;
2019-08-22
國家自然科學(xué)基金項(xiàng)目(61300089);遼寧省自然科學(xué)基金項(xiàng)目(201602199,2019-ZD-0182);遼寧省高等學(xué)校創(chuàng)新人才支持計(jì)劃項(xiàng)目(LR2016071)
于 寧(1995-),女,內(nèi)蒙古呼倫貝爾人,碩士研究生。主要研究方向?yàn)閳D像理解、機(jī)器學(xué)習(xí)等。E-mail:877213412@qq.com
宋海玉(1971-),男,河南安陽人,副教授,博士,碩士生導(dǎo)師。主要研究方向?yàn)閳D像理解、計(jì)算機(jī)視覺等。E-mail:shy@dlnu.edu.cn