稅留成 劉衛(wèi)忠 馮卓明
摘 要:針對(duì)基于深度學(xué)習(xí)的圖像標(biāo)注模型輸出層神經(jīng)元數(shù)目與標(biāo)注詞匯量成正比,導(dǎo)致模型結(jié)構(gòu)因詞匯量的變化而改變的問(wèn)題,提出了結(jié)合生成式對(duì)抗網(wǎng)絡(luò)(GAN)和Word2vec的新標(biāo)注模型。首先,通過(guò)Word2vec將標(biāo)注詞匯映射為固定的多維詞向量;其次,利用GAN構(gòu)建神經(jīng)網(wǎng)絡(luò)模型——GAN-W模型,使輸出層神經(jīng)元數(shù)目與多維詞向量維數(shù)相等,與詞匯量不再相關(guān);最后,通過(guò)對(duì)模型多次輸出結(jié)果的排序來(lái)確定最終標(biāo)注。GAN-W模型分別在Corel 5K和IAPRTC-12圖像標(biāo)注數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),在Corel 5K數(shù)據(jù)集上,GAN-W模型準(zhǔn)確率、召回率和F1值比卷積神經(jīng)網(wǎng)絡(luò)回歸(CNN-R)方法分別提高5%、14%和9%5、14和9個(gè)百分點(diǎn);在IAPRTC-12數(shù)據(jù)集上,GAN-W模型準(zhǔn)確率、召回率和F1值比兩場(chǎng)K最鄰近(2PKNN)模型分別提高2%、6%和3%2、6和3個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果表明,GAN-W模型可以解決輸出神經(jīng)元數(shù)目隨詞匯量改變的問(wèn)題,同時(shí)每幅圖像標(biāo)注的標(biāo)簽數(shù)目自適應(yīng),使得該模型標(biāo)注結(jié)果更加符合實(shí)際標(biāo)注情形。
關(guān)鍵詞:圖像自動(dòng)標(biāo)注;深度學(xué)習(xí);生成式對(duì)抗網(wǎng)絡(luò);標(biāo)注向量化;遷移學(xué)習(xí)
Abstract: In order to solve the problem that the number of output neurons in deep learning-based image annotation model is directly proportionate to the labeled vocabulary, which leads the change of model structure caused by the change of vocabulary, a new annotation model combining Generative Adversarial Network (GAN) and Word2vec was proposed. Firstly, the labeled vocabulary was mapped to the fixed multidimensional word vector through Word2vec. Secondly, a neural network model called GAN-W (GAN-Word2vec annotation) was established based on GAN, making the number of neurons in model output layer equal to the dimension of multidimensional word vector and no longer relevant to the vocabulary. Finally, the annotation result was determined by sorting the multiple outputs of model. Experiments were conducted on the image annotation datasets Corel 5K and IAPRTC-12. The experimental results show that on Corel 5K dataset, the accuracy, recall and F1 value of the proposed model are increased by 5%, 14% and 9%5,14 and 9 percentage points respectively compared with those of Convolutional Neural Network Regression (CNN-R); on IAPRTC-12 dataset, the accuracy, recall and F1 value of the proposed model are 2%, 6% and 3%2,6 and 3 percentage points higher than those of Two-Pass K-Nearest Neighbor (2PKNN). The experimental results show that GAN-W model can solve the problem of neuron number change in output layer with vocabulary. Meanwhile, the number of labels in each image is self-adaptive, making the annotation results of the proposed model more suitable for actual annotation situation.
Key words: automatic image annotation; deep learning; Generative Adversarial Network (GAN); label vectorization; transfer learning新增修改,migration修改為transfer,翻譯更準(zhǔn)確
0 引言
隨著圖像數(shù)據(jù)的快速增長(zhǎng),通過(guò)人工對(duì)圖像進(jìn)行標(biāo)注已經(jīng)變得不可取,迫切需要對(duì)圖像內(nèi)容進(jìn)行自動(dòng)標(biāo)注,以實(shí)現(xiàn)對(duì)圖像的有效管理與檢索,更加高效利用龐大的圖像信息。目前,主要的標(biāo)注方法是通過(guò)機(jī)器學(xué)習(xí)構(gòu)建一個(gè)圖像標(biāo)注模型,通過(guò)學(xué)習(xí)圖像與其對(duì)應(yīng)標(biāo)注之間的潛在聯(lián)系,給未知圖像添加描述其內(nèi)容的關(guān)鍵詞,實(shí)現(xiàn)對(duì)未知圖像的標(biāo)注。
基于機(jī)器學(xué)習(xí)的圖像標(biāo)注模型大致分為3類:生成模型、最鄰近模型及判別模型。生成模型首先提取圖像特征,然后計(jì)算圖像特征與圖像標(biāo)簽之間的聯(lián)合概率,最后根據(jù)測(cè)試圖像的特征計(jì)算各標(biāo)簽的概率,確定圖像對(duì)應(yīng)的標(biāo)簽;代表方法有:多貝努利相關(guān)模型(Multiple Bernoulli Relevance Model, MBRM)[1]、跨媒體相關(guān)模型(Cross Media Relevance Model, CMRM)[2]及SKL-CRM(Sparse Kernel Learning Continuous Relevance Model)[3]。最鄰近模型首先根據(jù)某些基于圖像特征的距離找到多幅與預(yù)測(cè)圖像相似的圖像,然后根據(jù)這些相似圖像的標(biāo)注確定預(yù)測(cè)圖像的標(biāo)注;代表方法有:JEC(Joint Equal Contribution)模型[4]、2PKNN(Two-Pass K-Nearest Neighbor)模型[5]及TagProp_ML(Tag Propagation Metric Learning)模型[6]。
判別模型是將圖像標(biāo)簽視作圖像的一個(gè)分類,因此圖像標(biāo)注可以看成是對(duì)圖像的多分類,通過(guò)圖像的分類結(jié)果確定圖像的標(biāo)簽;代表方法有:CBSA(Content-Based Soft Annotation)模型[7]、PAMIR(Passive-Aggressive Model for Image Retrieval)[8]、ASVM-MIL(Asymmetrical Support Vector Machine-based MILMultiple Instance Learning請(qǐng)補(bǔ)充MIL有英文全稱 algorithm)模型[9]。近幾年,隨著深度學(xué)習(xí)在圖像分類上取得良好效果,深度學(xué)習(xí)的方法也逐漸應(yīng)用于圖像標(biāo)注任務(wù)中。例如2016年黎健成等[10]在CNN(Convolutional Neural Network)模型基礎(chǔ)上增加基于Softmax層的多標(biāo)簽排名損失函數(shù),提出Multi-label CNN標(biāo)注模型;2017年高耀東等[11]提出基于均方誤差損失的CNN-MSE(CNN-Mean Squared Error)模型;2018年汪鵬等[12]提出基于多標(biāo)簽平滑單元的CNN-MLSU(CNN-Multi-Label Smoothing Unit)模型;李志欣等[13]提出結(jié)合深度卷積神經(jīng)網(wǎng)絡(luò)和集成分類器鏈的CNN-ECC(CNN-Ensemble of Classifier Chains)模型。這些模型在圖像標(biāo)注任務(wù)上均取得了良好的效果,性能較傳統(tǒng)的標(biāo)注方法有明顯的提高。
然而,這些深度學(xué)習(xí)標(biāo)注模型有一個(gè)共同的特點(diǎn),即模型輸出層神經(jīng)元(或分類器)數(shù)目與標(biāo)注詞匯量成正比。這將導(dǎo)致2個(gè)問(wèn)題:1)隨著數(shù)據(jù)集標(biāo)注詞匯量的增加,輸出層神經(jīng)元數(shù)目會(huì)成比例地增加。當(dāng)數(shù)據(jù)集詞匯量較小時(shí),對(duì)模型幾乎沒(méi)有影響,但是如果選擇較大詞匯量的數(shù)據(jù)集時(shí),模型輸出層神經(jīng)元數(shù)目將將變得非常龐大,如選擇Open Images數(shù)據(jù)集神經(jīng)元數(shù)目將超過(guò)2萬(wàn)。龐大的輸出層神經(jīng)元數(shù)目將導(dǎo)致很難設(shè)計(jì)出一個(gè)合理的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并且會(huì)導(dǎo)致模型參數(shù)量的驟增,增加模型訓(xùn)練難度的同時(shí)使得模型權(quán)重文件的大小驟增,不利于模型的實(shí)際應(yīng)用。2)當(dāng)標(biāo)注的詞匯量發(fā)生變化時(shí),即使只是增刪某個(gè)詞匯,由于模型輸出神經(jīng)元數(shù)目與詞匯量成正比,所以也需要對(duì)模型網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行修改。在實(shí)際應(yīng)用中新增詞匯幾乎是不可避免的,這將使得模型結(jié)構(gòu)將會(huì)被頻繁修改,導(dǎo)致模型穩(wěn)定性較差。
針對(duì)此問(wèn)題,本文將生成式對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Net, GAN)[14]和自然語(yǔ)言處理中的Word2vec模型相結(jié)合,構(gòu)建一種新的圖像標(biāo)注模型——GAN-W(GAN-Word2vec annotation)模型。模型的主要步驟是:首先,利用Word2vec將標(biāo)簽轉(zhuǎn)換為一個(gè)固定維數(shù)的多維空間向量,多維空間向量的維數(shù)自由選擇,模型輸出層神經(jīng)元數(shù)目將只與多維向量的維數(shù)相關(guān),不再與標(biāo)注詞匯量相關(guān)。另外,當(dāng)詞匯量發(fā)生較小變化時(shí),只需要修改Word2vec的詞向量轉(zhuǎn)換表即可,不再需要修改模型結(jié)構(gòu)。其次,標(biāo)注模型不再一次性輸出圖像對(duì)應(yīng)所有標(biāo)注,而是利用GAN網(wǎng)絡(luò)每次輸出一個(gè)候選標(biāo)注對(duì)應(yīng)的多維空間向量。通過(guò)GAN網(wǎng)絡(luò)中隨機(jī)噪聲的擾動(dòng),使得GAN網(wǎng)絡(luò)每次可以輸出與圖像相關(guān)并且不同的候選標(biāo)注對(duì)應(yīng)的多維空間向量。最終根據(jù)模型多次輸出結(jié)果篩選出圖像的最終標(biāo)注。
1 生成式對(duì)抗網(wǎng)絡(luò)
生成式對(duì)抗網(wǎng)絡(luò)(GAN)的核心思想源于博弈論的納什均衡[15],其模型如圖1所示,主要由一個(gè)生成器(G)和一個(gè)判別器(D)構(gòu)成,生成器通過(guò)隨機(jī)噪聲生成接近數(shù)據(jù)集分布的假數(shù)據(jù),判別器則需要辨別輸入其中的數(shù)據(jù)是來(lái)源于生成器還是數(shù)據(jù)集。
GAN的目標(biāo)函數(shù)為:
GAN網(wǎng)絡(luò)訓(xùn)練時(shí)需要交替優(yōu)化生成器與判別器,優(yōu)化生成器時(shí),最小化目標(biāo)函數(shù)V(D,G),使生成的數(shù)據(jù)G(z)愈加接近數(shù)據(jù)集,經(jīng)過(guò)判別器后的輸出D(G(z))越來(lái)越接近于1,即判別器無(wú)法辨別生成數(shù)據(jù)G(z)和真實(shí)數(shù)據(jù)x;優(yōu)化判別器時(shí),最大化V(D,G),使得D(G(z))接近于0,同時(shí)D(x)接近于1,即讓判別器盡可能準(zhǔn)確判斷輸入數(shù)據(jù)是來(lái)自于數(shù)據(jù)集的真實(shí)數(shù)據(jù)x還是來(lái)自于生成器生成的數(shù)據(jù)G(z)。通過(guò)多次交替優(yōu)化生成器和判別器,分別提升其性能,最終生成器與判別器性能達(dá)到納什均衡,使得生成器生成的數(shù)據(jù)分布近似于原數(shù)據(jù)集的分布。
隨機(jī)噪聲z使得生成結(jié)果具有不確定性,給GAN的生成結(jié)果帶來(lái)了多樣性,與此同時(shí),由于缺乏約束常導(dǎo)致生成結(jié)果不可控。為解決這個(gè)問(wèn)題,Mirza等[16]提出條件生成對(duì)抗網(wǎng)絡(luò)(Conditional Generative Adversarial Net, CGAN),在生成器輸入噪聲z的同時(shí)輸入一個(gè)條件c,并且將真實(shí)數(shù)據(jù)x和條件c作為判別器的輸入,利用條件c對(duì)GAN的生成結(jié)果進(jìn)行限制。CGAN的目標(biāo)函數(shù)V(D,G),如式(2)所示:
原始GAN具有訓(xùn)練不穩(wěn)定、模式崩潰等問(wèn)題,對(duì)此Arjovsky等[17]提出Wasserstein-GAN(WGAN)對(duì)GAN進(jìn)行改進(jìn),去掉判別器(D)最后sigmoid層,損失函數(shù)不取log,并且對(duì)更新后的權(quán)重強(qiáng)制截取到一定范圍。WGAN減小了GAN網(wǎng)絡(luò)的訓(xùn)練難度,但是WGAN強(qiáng)制截取權(quán)重容易導(dǎo)致模型梯度消失或者梯度爆炸。對(duì)此,Gulrajani等[18]提出Improved WGAN對(duì)WGAN進(jìn)一步改進(jìn),使用梯度懲罰代替強(qiáng)制截取梯度。Improved WGAN網(wǎng)絡(luò)的目標(biāo)函數(shù)為:
2 詞向量
由于神經(jīng)網(wǎng)絡(luò)無(wú)法直接處理文本數(shù)據(jù),所以需要對(duì)文本數(shù)據(jù)進(jìn)行數(shù)值轉(zhuǎn)換。傳統(tǒng)的方法是將文本數(shù)據(jù)轉(zhuǎn)換成one-hot詞向量,即詞向量維數(shù)與詞匯量相等,所有單詞均分別與向量某一維對(duì)應(yīng),并且如果單詞存在,則對(duì)應(yīng)維度取值為1,否則只能為0,如在5維的詞向量中cat可能表示為[0 0 0 1 0 0],dog為[0 1 0 0 0 0]。one-hot表示方法是一種高維稀疏的方法,詞向量維度與詞匯量成正比,計(jì)算效率低而且每一維度互相正交,無(wú)法體現(xiàn)詞之間的語(yǔ)義關(guān)系。
2013年Google開(kāi)源一款新詞向量生成工具Word2vec可以將詞匯映射成為多維空間向量,如cat可能表示為[0.1,0.25,0.3,0.01,0.9,0.6],目前Word2vec被大量應(yīng)用于自然語(yǔ)言處理(Natural Language Processing, NLP)任務(wù)當(dāng)中。Word2vec的主要思想是具有相同或相似上下文的詞匯,可能具有相似的語(yǔ)義,通過(guò)學(xué)習(xí)文本語(yǔ)料,根據(jù)詞匯上下文,將文本中的每個(gè)詞匯映射到一個(gè)統(tǒng)一N維詞匯空間,并使語(yǔ)義上相近的詞匯在該空間中的位置相近,如cat和kitten對(duì)應(yīng)詞向量之間的空間距離小于cat和iPhone之間的距離,從而體現(xiàn)詞匯之間的關(guān)系,從而避免one-hot詞向量的缺點(diǎn)。
3 模型網(wǎng)絡(luò)結(jié)構(gòu)
3.1 模型結(jié)構(gòu)
本文采用的模型結(jié)構(gòu)如圖2所示。模型整體框架采用CGAN網(wǎng)絡(luò)架構(gòu),輸入圖像大小統(tǒng)一為(299,299,3),圖像對(duì)應(yīng)的N維特征向量作為條件,真實(shí)標(biāo)注對(duì)應(yīng)的M維詞向量作為真實(shí)數(shù)據(jù),根據(jù)條件和100維隨機(jī)噪聲,生成器輸出M維向量作為生成數(shù)據(jù)。其中CNN特征提取模型選擇Inception-ResNetV2[19]模型,并在ImageNet數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,去除最后分類器層后采用遷移學(xué)習(xí)的方法應(yīng)用到模型中;Word2vec功能采用genism庫(kù)的Word2vec模塊實(shí)現(xiàn),生成的詞向量維數(shù)統(tǒng)一為500維,生成器和判別器均采用全連接層,將特征向量和隨機(jī)噪聲/詞向量分別全連接映射到不同維數(shù)后拼接,重復(fù)操作2次后映射到輸出全連接層,輸出全連接層神經(jīng)元數(shù)目與詞向量維數(shù)相等。本文訓(xùn)練GAN采用Improved WGAN模型,所以判別器輸出層去除sigmoid激活層。
3.2 損失計(jì)算
在圖像標(biāo)注領(lǐng)域,標(biāo)注詞匯的分布不均勻是一個(gè)常見(jiàn)的問(wèn)題,有些標(biāo)注如cafe、butterfly在Corel 5K數(shù)據(jù)集中只出現(xiàn)過(guò)2次,而water、sky、tree等標(biāo)注出現(xiàn)次數(shù)多于800次。由于標(biāo)注中不同詞匯的詞頻差異巨大,如果不進(jìn)行處理,模型容易忽略低頻標(biāo)簽的影響,導(dǎo)致對(duì)低頻詞匯標(biāo)注的準(zhǔn)確率下降,影響模型性能。針對(duì)標(biāo)注分布不均衡問(wèn)題,本模型對(duì)損失函數(shù)進(jìn)行優(yōu)化,對(duì)不同標(biāo)注的損失乘以一個(gè)平衡系數(shù),使得詞頻低的標(biāo)注具有更大權(quán)重的損失,另外使用L2正則化減小模型過(guò)擬合。修改后的損失為:
3.3 標(biāo)注排序
由于本文模型每次輸出一個(gè)圖像對(duì)應(yīng)的候選標(biāo)注詞向量,所以本文的標(biāo)注排序方法采用出現(xiàn)次數(shù)排序,具體過(guò)程為:1)通過(guò)已訓(xùn)練模型對(duì)圖像進(jìn)行N次預(yù)測(cè),獲得N個(gè)詞向量;2)對(duì)于每個(gè)詞向量,通過(guò)Word2vec模型獲取與其對(duì)應(yīng)最接近的M個(gè)候選標(biāo)注詞及每個(gè)標(biāo)注詞對(duì)應(yīng)的概率;3)以標(biāo)注詞對(duì)應(yīng)的概率作為標(biāo)注詞對(duì)應(yīng)的出現(xiàn)次數(shù),統(tǒng)計(jì)所有候選標(biāo)注詞出現(xiàn)次數(shù),通過(guò)閾值篩選出現(xiàn)次數(shù)大于閾值的候選標(biāo)注作為該圖像最終標(biāo)注。
4 實(shí)驗(yàn)
4.1 數(shù)據(jù)集
本文實(shí)驗(yàn)的數(shù)據(jù)集為圖像標(biāo)注領(lǐng)域常用數(shù)據(jù)集:Corel 5K和IAPRTC-12數(shù)據(jù)集。Corel 5K數(shù)據(jù)集是由科雷爾(Corel)公司收集整理的5000張圖片,該數(shù)據(jù)集常用于圖像分類、檢索等科學(xué)圖像實(shí)驗(yàn),是圖像實(shí)驗(yàn)的標(biāo)準(zhǔn)數(shù)據(jù)集。IAPRTC-12數(shù)據(jù)集最初用于跨語(yǔ)言檢索任務(wù),每張圖像有英語(yǔ)、德語(yǔ)及西班牙語(yǔ)三種語(yǔ)言的圖像描述,在研究人員用自然語(yǔ)言處理技術(shù)提取圖形描述中的常用名詞作為圖像標(biāo)簽后,也被作為圖像標(biāo)注任務(wù)的常用數(shù)據(jù)集。Corel 5K和IAPRTC-12數(shù)據(jù)集的詳細(xì)信息統(tǒng)計(jì)如表1。
4.2 評(píng)估方法
實(shí)驗(yàn)采用的評(píng)價(jià)方法是計(jì)算數(shù)據(jù)集中每個(gè)標(biāo)簽的準(zhǔn)確率(Precision, P)和召回率(Recall, R)及F1值。假設(shè)一個(gè)標(biāo)簽在測(cè)試集中相關(guān)圖像為N,測(cè)試時(shí)模型預(yù)測(cè)出的相關(guān)圖像為N1,其中預(yù)測(cè)正確的相關(guān)圖像數(shù)量為N2,那么,準(zhǔn)確率P=N2/N1,召回率R=N2/N及F1=2*P*R/(P+R)。
4.3 標(biāo)注結(jié)果
4.3.1 不同閾值對(duì)圖像標(biāo)注的影響
不同標(biāo)注閾值對(duì)本文模型的最終標(biāo)注性能有巨大影響,為了進(jìn)一步探究不同閾值與標(biāo)注性能的關(guān)系,本文對(duì)不同閾值下的模型的標(biāo)注性能進(jìn)行測(cè)試。圖3及圖4為模型標(biāo)注的準(zhǔn)確率、召回率、F1值與閾值的關(guān)系。測(cè)試時(shí),模型預(yù)測(cè)次數(shù)為128,每次選出最接近輸出向量的5個(gè)候選標(biāo)注,統(tǒng)計(jì)所有候選標(biāo)注,選出出現(xiàn)次數(shù)大于閾值的標(biāo)注作為圖像最終標(biāo)注。
另外,在檢查論文圖時(shí),發(fā)現(xiàn)圖3的b圖(IAPRTC-12數(shù)據(jù)集)中閾值為52的點(diǎn)繪圖時(shí)的數(shù)據(jù)有問(wèn)題,在附件中已上傳修改后的正確圖像,此處修改不影響圖像及論文其它部分。
從圖3和圖4可以看出:標(biāo)注的準(zhǔn)確率P隨閾值先上升后下降,召回率R隨閾值上升而下降,F(xiàn)1值基本上隨閾值略微上漲后下降。出現(xiàn)這種現(xiàn)象的原因?yàn)椋耗P涂梢詫W(xué)到圖像特征與標(biāo)簽向量之間的映射關(guān)系,通過(guò)對(duì)模型的訓(xùn)練,模型有了一定的標(biāo)注能力,對(duì)于大多數(shù)標(biāo)簽的預(yù)測(cè)結(jié)果中,正確的預(yù)測(cè)對(duì)應(yīng)的出現(xiàn)次數(shù)一般較高。當(dāng)閾值特別小時(shí),標(biāo)簽對(duì)應(yīng)的出現(xiàn)一般次數(shù)大于閾值,標(biāo)簽的預(yù)測(cè)結(jié)果基本沒(méi)有被閾值過(guò)濾,標(biāo)注準(zhǔn)確率P和召回率R都不變;閾值增加到一定值時(shí),部分錯(cuò)誤的預(yù)測(cè)被逐漸過(guò)濾,正確的預(yù)測(cè)因?yàn)槌霈F(xiàn)次數(shù)較大,基本不受影響,準(zhǔn)確率P上升,召回率R基本不變。閾值繼續(xù)增加,正確的預(yù)測(cè)也開(kāi)始被過(guò)濾,但是由于正確的預(yù)測(cè)情形多集中于出現(xiàn)次數(shù)較高的情形,因此閾值的增加對(duì)正確的預(yù)測(cè)影響更大,正確預(yù)測(cè)的部分被過(guò)濾的速度大于錯(cuò)誤預(yù)測(cè)的部分,最終使得標(biāo)注準(zhǔn)確率P和召回率R都減小,直到正確的預(yù)測(cè)被閾值完全過(guò)濾掉,標(biāo)注準(zhǔn)確率P和召回率R都為0。F1值的變化由準(zhǔn)確率P和召回率R的變化共同確定。模型性能隨閾值變化,為了和其他模型標(biāo)注性能進(jìn)行對(duì)比及模型實(shí)際標(biāo)注效果展示,需要確定模型的最佳閾值。由于F1值能兼顧準(zhǔn)確率P和召回率R,所以F1值作為模型最佳閾值選取的參考,選取F1值最大時(shí)的閾值作為模型最佳閾值。由于不同數(shù)據(jù)集之間存在差異導(dǎo)致對(duì)于不同數(shù)據(jù)集模型的最佳閾值也不相同,所以對(duì)于Corel 5K和IAPRTC-12數(shù)據(jù)集,在模型預(yù)測(cè)次數(shù)為128的情況下,模型分別選擇75和50作為模型的最佳閾值。
4.3.2 不同模型標(biāo)注性能對(duì)比
本文將GAN-W模型與其他經(jīng)典的標(biāo)注方進(jìn)行對(duì)比,來(lái)驗(yàn)證本文所提出模型的有效性。這里涉及的方法包括:傳統(tǒng)模型方法RF-opt(Random Forest-optimize)[20]、2PKNN[5]、2PKNN-ML(2PKNN-Metric Learning)[5]、SKL-CRM[3]、KSVM-VT[21]和使用深度卷積神經(jīng)網(wǎng)絡(luò)的方法NN-CNN(Nearest Neighbor-CNN)[22]、CNN-R(CNN-Regression)[23]、ADA(Attribute Discrimination Annotation)[24]、SNDF(automatic image annotation combining Semantic Neighbors and Deep Features)[25]、CNN-MSE[11]、CNN-MLSU[12]。表2顯示本文GAN-W模型與其他模型在Corel 5K和IAPRTC-12數(shù)據(jù)集上標(biāo)注性能的對(duì)比。
通過(guò)表2可以看出,本文提出的GAN-W模型在Corel 5K數(shù)據(jù)集上,性能較傳統(tǒng)方法有了較大提高,召回率取得并列第一二,高于RF-opt方法4%6個(gè)百分點(diǎn)本文方法召回率為46%,CNN-MLSU為49%,所應(yīng)該是并列第二吧?另外,RF-opt召回率為40%,準(zhǔn)確率和F1值均為第一,比RF-opt方法分別提高17%和12%17和12個(gè)百分點(diǎn)這個(gè)應(yīng)該是百分點(diǎn)吧,46-29=17,即17個(gè)百分點(diǎn)?請(qǐng)明確。要注意百分號(hào)和百分比的區(qū)別。,在使用卷積模型的方法中,召回率比CNN-MSE方法提高了11個(gè)百分點(diǎn),取得第二高的召回率,準(zhǔn)確率和F1值均為第一。在IAPRTC-12數(shù)據(jù)集上,模型也有良好表現(xiàn),準(zhǔn)確率和F1值均為第一,召回率也取得不錯(cuò)效果。綜合GAN-W模型在Corel 5K和IAPRTC-12數(shù)據(jù)集上的性能指標(biāo)數(shù)據(jù)可以得出,GAN-W模型與其他的方法相比,雖然召回率低于CNN-MLSU方法未取得最高值,但是效果依然良好,同時(shí)模型準(zhǔn)確率和F1值均取得較大提升,取得最佳效果,模型的綜合性能與其他模型相比具有明顯的提高。
4.3.3 模型實(shí)際標(biāo)注效果
圖54中給出模型自動(dòng)標(biāo)注的實(shí)際結(jié)果,模型統(tǒng)一預(yù)測(cè)次數(shù)為一個(gè)batch_size,128次,測(cè)試Corel 5K數(shù)據(jù)集時(shí)選擇的閾值為75,每幅圖像選取出現(xiàn)次數(shù)大于閾值的標(biāo)注作為該圖形最終標(biāo)注。
從圖4中可以看出:
1)與大部分標(biāo)注模型固定每幅圖像的標(biāo)注數(shù)目不同,本文模型對(duì)每幅圖像的標(biāo)注數(shù)目不是定值,不同圖像可能有不同的標(biāo)注數(shù)目,更符合實(shí)際標(biāo)注情況。通過(guò)對(duì)GAN-W模型的訓(xùn)練,模型可以學(xué)到圖像特征與標(biāo)簽向量之間的映射關(guān)系,在每次預(yù)測(cè)新圖像時(shí),模型就會(huì)根據(jù)被預(yù)測(cè)圖像的視覺(jué)特征中的某種特征輸出一個(gè)與之對(duì)應(yīng)的標(biāo)簽向量。對(duì)于語(yǔ)義簡(jiǎn)單的圖像,其圖像視覺(jué)特征只包含某個(gè)的標(biāo)簽對(duì)應(yīng)的特征,所以模型每次輸出的向量基本上都接近該標(biāo)簽,使得該標(biāo)簽對(duì)應(yīng)的出現(xiàn)次數(shù)較高,而其他標(biāo)簽出現(xiàn)次數(shù)小于閾值被過(guò)濾掉,模型最終標(biāo)注數(shù)目較少;對(duì)于復(fù)雜的圖像,其圖像視覺(jué)特征可能包含多個(gè)標(biāo)簽對(duì)應(yīng)的特征,經(jīng)過(guò)隨機(jī)噪聲的擾動(dòng),使得多個(gè)標(biāo)簽中每個(gè)標(biāo)簽都有較大概率成為模型輸出標(biāo)簽,所以通過(guò)多次測(cè)試之后,多個(gè)標(biāo)簽中的每個(gè)標(biāo)簽出現(xiàn)次數(shù)都不會(huì)太小,模型最終的標(biāo)注數(shù)目較多。
2)某些標(biāo)注雖然與原標(biāo)注不符合,但是可能與測(cè)試圖像的語(yǔ)義相符或者相關(guān),這是因?yàn)槟承?biāo)注之間(如tundra與bear、snow、polar)在數(shù)據(jù)集中共現(xiàn)頻率較高,使得這些標(biāo)注在使用Word2vec進(jìn)行向量化時(shí),它們對(duì)應(yīng)的多維向量之間的距離很近,所以在獲取輸出向量對(duì)應(yīng)最接近的標(biāo)注詞時(shí)常一起出現(xiàn),并且標(biāo)注詞之間對(duì)應(yīng)的概率相差很小,導(dǎo)致某些標(biāo)注雖然不是原始標(biāo)注,但是最終統(tǒng)計(jì)次數(shù)時(shí)出現(xiàn)次數(shù)依然很大,被確定為圖像標(biāo)注之一。同時(shí),由于在數(shù)據(jù)集中這些標(biāo)注經(jīng)常一起出現(xiàn),證明在現(xiàn)實(shí)中它們之間的聯(lián)系較深,所以在新的測(cè)試圖像中,這些常與原始標(biāo)注一起出現(xiàn)的標(biāo)簽依然有較大概率與測(cè)試圖像相關(guān)。例如上表圖4指代哪個(gè)表格,請(qǐng)明確中的tundra不在原始標(biāo)注中,但是tundra在數(shù)據(jù)集中多與bear、snow、polar一起出現(xiàn),所以tundra被作為最終輸出之一,依然與圖像內(nèi)容有聯(lián)系。
5 結(jié)語(yǔ)
針對(duì)基于深度學(xué)習(xí)的圖像自動(dòng)標(biāo)注模型其結(jié)構(gòu)受標(biāo)注詞匯量影響的問(wèn)題,本文基于生成式對(duì)抗網(wǎng)絡(luò)和詞向量模型提出一種新標(biāo)注模型——GAN-W,通過(guò)在Corel 5K和IAPRTC-12數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明GAN-W模型的準(zhǔn)確率P、召回率R及F1值較其他模型有明顯的提高,證明本文模型能夠較好地應(yīng)用于圖像標(biāo)注任務(wù),標(biāo)注結(jié)果更加符合實(shí)際標(biāo)注情況。然而,模型存在一些值得改進(jìn)和研究的方面:1)詞向量的訓(xùn)練結(jié)果缺乏一個(gè)較好的評(píng)判標(biāo)準(zhǔn);2)生成器和判別器的網(wǎng)絡(luò)模型需要進(jìn)行進(jìn)一步優(yōu)化;3)選擇更優(yōu)的特征提取模型和標(biāo)簽平衡系數(shù)。
參考文獻(xiàn) (References)
[1] FENG S L, MANMATHA R, LAVRENKO V. Multiple Bernoulli relevance models for image and video annotation[C]// Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2004: 1002-1009.
[2] JEON J, LAVRENKO V, MANMATHA R. Automatic image annotation and retrieval using cross-media relevance models[C]// Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2003: 119-126.
[3] MORAN S, LAVRENKO V. A sparse kernel relevance model for automatic image annotation[J]. Journal of Multimedia Information Retrieval, 2014, 3(4): 209-229.
[4] MAKADIA A, PAVLOVIC V, KUMAR S. Baselines for image annotation[J]. International Journal of Computer Vision, 2010, 90(1): 88-105.
[5] VERMA Y, JAWAHAR C V. Image annotation using metric learning in semantic neighborhoods[C]// Proceedings of the 12th European Conference on Computer Vision. Berlin: Springer, 2012: 836-849.
[6] GUILLAUMIN M, MENSINK T, VERBEEK J, et al. TagProp: discriminative metric learning in nearest neighbor models for image auto-annotation[C]// Proceedings of the 12th IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2009: 309-316.
[7] CHANG E, GOH K, SYCHAY G, et al. CBSA: content-based soft annotation for multimodal image retrieval using Bayes point machines [J]. IEEE Transactions on Circuits and Systems for Video Technology, 2003, 13(1): 26-38.
[8] GRANGIER D, BENGIO S. A discriminative kernel-based approach to rank images from text queries[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008, 30(8): 1371-1384.
[9] YANG C, DONG M, HUA J. Region-based image annotation using asymmetrical support vector machine-based multiple-instance learning[C]// Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2006: 2057-2063.
[10] 黎健成,袁春,宋友.基于卷積神經(jīng)網(wǎng)絡(luò)的多標(biāo)簽圖像自動(dòng)標(biāo)注[J].計(jì)算機(jī)科學(xué),2016,43(7):41-45.(LI J C, YUAN C, SONG Y. Multi-label image annotation based on convolutional neural network[J]. Computer Science, 2016, 43(7): 41-45.)
[11] 高耀東,侯凌燕,楊大利.基于多標(biāo)簽學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)的圖像標(biāo)注方法[J].計(jì)算機(jī)應(yīng)用,2017,37(1):228-232.(GAO Y D, HOU L Y, YANG D L. Automatic image annotation method using multi-label learning convolutional neural network[J]. Journal of Computer Applications, 2017, 37(1): 228-232.)
[12] 汪鵬,張奧帆,王利琴,等.基于遷移學(xué)習(xí)與多標(biāo)簽平滑策略的圖像自動(dòng)標(biāo)注[J].計(jì)算機(jī)應(yīng)用,2018,38(11):3199-3203.(WANG P, ZHANG A F, WANG L Q, et al. Image automatic annotation based on transfer learning and multi-label smoothing strategy[J]. Journal of Computer Applications, 2018, 38(11): 3199-3203.)
[13] 李志欣,鄭永哲,張燦龍,等.結(jié)合深度特征與多標(biāo)記分類的圖像語(yǔ)義標(biāo)注[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2018,30(2):318-326.(LI Z X, ZHENG Y Z, ZHANG C L, et al. Combining deep feature and multi-label classification for semantic image annotation[J]. Journal of Computer-Aided Design and Computer Graphics, 2018, 30(2): 318-326.)
[14] GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]// Proceedings of the 2014 Conference on Advances in Neural Information Processing Systems 27. Montreal: Curran Associates, 2014: 2672-2680.
[15] 王坤峰,茍超,段艷杰,等.生成式對(duì)抗網(wǎng)絡(luò)GAN的研究進(jìn)展與展望[J].自動(dòng)化學(xué)報(bào),2017,43(3):321-332.(WANG K F, GOU C, DUAN Y J, et al. Generative adversarial networks: the state of the art and beyond[J]. Acta Automatica Sinica, 2017, 43(3): 321-332.)
[16] MIRZA M, OSINDERO S. Conditional generative adversarial nets[J]. ArXiv Preprint,? 2014, 2014: 1411.1784.
[17] ARJOVSKY M, CHINTALA S, BOTTOU L. Wasserstein GAN[J]. ArXiv Preprint,? 2017, 2017: 1701.07875.
[18] GULRAJANI I, AHMED F, ARJOVSKY M, et al. Improved training of Wasserstein GANs[C]// Proceedings of the 30th Advances in Neural Information Processing Systems. Long Beach, CA: NIPS, 2017: 5769-5779.
[19] SZEGEDY C, IOFFE S, VANHOUCKE V, et al. Inception-v4, inception-ResNet and the impact of residual connections on learning[C]// Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence. Menlo Park, CA: AAAI Press, 2017: 4278-4284.
[20] FU H, ZHANG Q, QIU G. Random forest for image annotation[C]// Proceedings of the 12th European Conference on Computer Vision. Berlin: Springer, 2012:86-99.
[21] VERMA Y, JAWAHAR C. Exploring SVM for image annotation in presence of confusing labels[C]// Proceedings of the 24th British Machine Vision Conference. Durham: BMVA Press, 2013: 1-11.
[22] KASHANI M M, AMIRI S H. Leveraging deep learning representation for search-based image annotation[C]// Proceedings of 2017 Artificial Intelligence and Signal Processing Conference. Piscataway, NJ: IEEE, 2017: 156-161.
[23] MURTHY V N, MAJI S, MANMATHA R. Automatic image annotation using deep learning representations[C]// Proceedings of the 5th ACM on International Conference on Multimedia Retrieval. New York: ACM, 2015: 603-606.
[24] 周銘柯,柯逍,杜明智.基于數(shù)據(jù)均衡的增進(jìn)式深度自動(dòng)圖像標(biāo)注[J].軟件學(xué)報(bào),2017,28(7):1862-1880.(ZHOU M K, KE X, DU M Z. Enhanced deep automatic image annotation based on data equalization[J]. Journal of Software, 2017, 28(7): 1862-1880.)
[25] 柯逍,周銘柯,牛玉貞.融合深度特征和語(yǔ)義鄰域的自動(dòng)圖像標(biāo)注[J].模式識(shí)別與人工智能,2017,30(3):193-203.(KE X, ZHOU M K, NIU Y Z. Automatic image annotation combining semantic neighbors and deep features[J]. Pattern Recognition and Artificial Intelligence, 2017, 30(3): 193-203.)