馬龍龍,韓先培,孫 樂(lè)
(中國(guó)科學(xué)院 軟件研究所 中文信息處理實(shí)驗(yàn)室,北京 100190)
隨著可拍照移動(dòng)智能終端的廣泛使用和互聯(lián)網(wǎng)的快速發(fā)展,融合視覺(jué)和文本信息的多模態(tài)數(shù)據(jù)在急劇增加,例如,帶文本標(biāo)注的照片、報(bào)紙文章中的圖文對(duì)照內(nèi)容、帶標(biāo)題的視頻以及社交媒體出現(xiàn)的多模態(tài)交互數(shù)據(jù)。多模態(tài)機(jī)器學(xué)習(xí)(multi modal machine learning)為機(jī)器提供了處理多模態(tài)數(shù)據(jù)的能力,多模態(tài)學(xué)習(xí)的長(zhǎng)遠(yuǎn)目標(biāo)是使機(jī)器充分感知環(huán)境,更智能地和環(huán)境進(jìn)行交互。當(dāng)前多模態(tài)處理包括圖像/視頻的文本描述、基于視覺(jué)的問(wèn)答和看圖講故事等任務(wù)。本文聚焦于多模態(tài)學(xué)習(xí)中的圖像文本描述(image captioning)[1]方法。使用圖像文本描述方法可以有效組織圖像數(shù)據(jù),結(jié)合文本信息檢索技術(shù)方便地對(duì)海量圖像數(shù)據(jù)進(jìn)行搜索,能夠從幻燈片中的圖片讀懂演講者所講的內(nèi)容。此外,使用圖像文本描述方法可以幫助視覺(jué)障礙者理解圖像。
圖像的文本描述也是計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理領(lǐng)域的交叉任務(wù),能夠完成從圖像到文本的多模態(tài)轉(zhuǎn)換,最早由Farhadi[2]等人提出。該任務(wù)可具體形式化描述為: 給定二元組(I,S),其中I表示圖像,S表示圖像的文本描述句子,模型完成從圖像I到描述句子S的多模態(tài)映射I→S。該任務(wù)對(duì)于人類來(lái)說(shuō)非常容易,但是卻給機(jī)器帶來(lái)了巨大挑戰(zhàn),因?yàn)闄C(jī)器不僅要理解圖像的內(nèi)容,還要產(chǎn)生人類可讀的描述性句子。
圖像的文本描述方法可用來(lái)分析圖像中的視覺(jué)內(nèi)容并產(chǎn)生文本描述。典型任務(wù)是用一句話描述圖像中出現(xiàn)的視覺(jué)對(duì)象、對(duì)象屬性及對(duì)象之間的關(guān)系;給出圖像中描述情境的特征,提供圖像的情境背景知識(shí),如室內(nèi)還是戶外;描述圖像中出現(xiàn)的對(duì)象之間的相互關(guān)系,甚至推理出圖像中未出現(xiàn)的內(nèi)容。例如,圖像內(nèi)容為火車站候車室,人們?cè)诘群蚧疖?,雖然圖像中并未出現(xiàn)火車,但是自動(dòng)生成的文本描述中可能出現(xiàn)火車字樣。而傳統(tǒng)的圖像理解任務(wù)主要集中于發(fā)現(xiàn)并分割出圖像中的對(duì)象、確定對(duì)象的屬性、計(jì)算圖像情境的屬性和識(shí)別出現(xiàn)在圖像中的人與對(duì)象的相互關(guān)系。圖像理解的結(jié)果為無(wú)結(jié)構(gòu)的標(biāo)簽列表,無(wú)法直接用于圖像的文本描述。
圖1給出了MS COCO[3]數(shù)據(jù)集中圖像的英文文本描述實(shí)例。在該實(shí)例中,要生成圖像的文本描述句子,首先需要模型能夠分析圖像,理解圖像中出現(xiàn)的對(duì)象、動(dòng)作、屬性和場(chǎng)景等信息,通過(guò)選擇并執(zhí)行一定的語(yǔ)義和語(yǔ)法規(guī)則,生成概括性的描述句子。
圖像的文本描述不但需要理解圖像內(nèi)容,而且需要實(shí)現(xiàn)內(nèi)容選擇、內(nèi)容組織,以及用語(yǔ)言生動(dòng)表現(xiàn)出所要表達(dá)內(nèi)容的自然語(yǔ)言產(chǎn)生過(guò)程,因此圖像的文本描述句子需要滿足以下三個(gè)條件。
(1) 正確描述圖像內(nèi)容。
(2) 產(chǎn)生的文本描述必須類似于人類的描述,而且能夠較好地描述個(gè)性化的特征,例如,對(duì)于同一幅圖片,藝術(shù)評(píng)論顯然不同于一般的娛樂(lè)性雜志撰稿。
(3) 產(chǎn)生的圖像文本描述能夠盡可能地包含不同視角、人類對(duì)圖像各個(gè)層次的理解。
縱觀國(guó)內(nèi)外研究人員關(guān)于圖像的文本描述方法的研究,根據(jù)所處階段的關(guān)鍵技術(shù)不同及文本描述方法的不同,我們將圖像的文本描述方法分為以下三大類。
(1) 基于生成的方法(generation-based method)。該方法分為檢測(cè)過(guò)程和生成過(guò)程。檢測(cè)過(guò)程基于圖像特征檢測(cè)圖像中出現(xiàn)的對(duì)象、對(duì)象屬性、圖像表達(dá)內(nèi)容的場(chǎng)景和行為等信息;生成過(guò)程使用這些信息驅(qū)動(dòng)自然語(yǔ)言產(chǎn)生系統(tǒng)輸出圖像的文本描述。
(2) 基于檢索的方法(retrieval-based method)。為了生成圖像的文本描述,該方法檢索數(shù)據(jù)庫(kù)中與輸入圖像相似的圖像集,基于檢索到的相似圖像集的文本描述,用最相似的檢索結(jié)果合理組織生成圖像的文本描述。
(3) 基于編碼—解碼的方法(encoder-decoder method)。該方法以深度學(xué)習(xí)為基礎(chǔ),采用編碼—解碼的方式直接生成文本描述。這種方法需要大規(guī)模的訓(xùn)練語(yǔ)料支撐,生成的文本描述形式多種多樣,不受限于固定的語(yǔ)言模板。
本文其余章節(jié)結(jié)構(gòu)如下: 第一~三節(jié)分別詳細(xì)介紹了基于生成的方法、基于檢索的方法和基于編碼—解碼的方法;第四節(jié)闡述了圖像文本描述的數(shù)據(jù)集和評(píng)測(cè)標(biāo)準(zhǔn);第五節(jié)對(duì)主要開(kāi)源工具包進(jìn)行簡(jiǎn)介;第六節(jié)分析目前圖像的文本描述所要解決的關(guān)鍵問(wèn)題及研究難點(diǎn);第七節(jié)為結(jié)束語(yǔ)。
基于生成的方法用計(jì)算機(jī)視覺(jué)技術(shù)檢測(cè)出圖像中的對(duì)象,預(yù)測(cè)對(duì)象的屬性和相互關(guān)系,識(shí)別圖像中可能發(fā)生的行為,然后用特定的模板、語(yǔ)言模型或句法模型生成圖像的文本描述句子。
該方法依賴于預(yù)先設(shè)定的場(chǎng)景對(duì)象、對(duì)象屬性以及行為等語(yǔ)義類別,根據(jù)句子生成方法的不同又可分為基于模板的方法、基于句法分析的方法和基于語(yǔ)言模型的方法。
基于模板的方法需要預(yù)先設(shè)置包含多個(gè)需要用對(duì)象關(guān)系和屬性標(biāo)簽去填充的模板,這些對(duì)象關(guān)系和屬性標(biāo)簽形成空槽,對(duì)空槽進(jìn)行填充,形成圖像的文本描述句子。
Kulkarni[4]等人提出Baby Talk模型,該模型使用檢測(cè)器識(shí)別對(duì)象、屬性和相互關(guān)系,采用CRF算法預(yù)測(cè)標(biāo)簽,最后使用模板生成文本描述。Kuznetsova[5]等人學(xué)習(xí)訓(xùn)練集已有的句子描述產(chǎn)生樹(shù)形句子片段,測(cè)試時(shí)與新生成的文本描述再組合,產(chǎn)生最終的圖像文本描述。Yang[6]等人用隱馬爾科夫模型選擇可能的對(duì)象、動(dòng)詞、介詞及場(chǎng)景類型填充句子模板。
基于句法分析的方法首先檢測(cè)對(duì)象、對(duì)象屬性、對(duì)象之間空間關(guān)系、圖像場(chǎng)景類型、對(duì)象行為等,然后使用依存句法樹(shù)/圖驅(qū)動(dòng)句子的各個(gè)部件逐步生成完整的描述句子。
Elliott[7]等人提出首個(gè)基于句法分析的方法VDR(visual dependency representation),該方法用依存圖表示對(duì)象之間的關(guān)系,將圖像解析為VDR,然后遍歷VDR并考慮VDR與依存句法樹(shù)的約束關(guān)系填充句子模板的空槽,從而生成圖像的文本描述。Elliott[8]等人進(jìn)一步改進(jìn)了VDR方法,提出了從數(shù)據(jù)自動(dòng)生成依存圖的方法,該方法通過(guò)使用圖像和文本數(shù)據(jù)自動(dòng)學(xué)習(xí)圖像中對(duì)象的顏色、紋理和形狀等屬性,并對(duì)各屬性按打分進(jìn)行排序。該方法的優(yōu)勢(shì)是解決了VDR方法對(duì)大量人工標(biāo)注數(shù)據(jù)的依賴問(wèn)題。Mitchell[9]等人把圖像文本描述問(wèn)題看作是VDR句子對(duì)的機(jī)器翻譯問(wèn)題,執(zhí)行顯式的圖像內(nèi)容選擇和語(yǔ)法約束,用帶約束的整數(shù)規(guī)劃方法得到圖像的文本描述。
基于語(yǔ)言模型的方法首先生成若干句子中可能出現(xiàn)的短語(yǔ),然后依賴語(yǔ)言模型對(duì)這些短語(yǔ)片段進(jìn)行組織,從而生成圖像的文本描述。
Kulkarni[4]等人首先確定圖像中的對(duì)象、屬性和介詞等相關(guān)信息,將其表示成元組,然后使用預(yù)先訓(xùn)練好的N-gram語(yǔ)言模型生成流暢的文本描述句子。同樣,Li[10]等人先產(chǎn)生多個(gè)句法合理的句子片段并用維基百科數(shù)據(jù)訓(xùn)練N-gram語(yǔ)言模型,然后組合這些句子片段產(chǎn)生最終的圖像文本描述。Fang[11]等人提出基于最大熵語(yǔ)言模型生成圖像文本描述的方法,該方法首先使用多實(shí)例學(xué)習(xí)的方法生成若干單詞,然后使用最大熵語(yǔ)言模型確定已知若干單詞的條件下最可能產(chǎn)生的文本描述句子。
最近得益于深度神經(jīng)網(wǎng)絡(luò)的快速發(fā)展,越來(lái)越多的方法采用RNN作為語(yǔ)言模型,RNN是基于時(shí)序的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),相比于傳統(tǒng)的N-gram語(yǔ)言模型,RNN能夠捕獲任意長(zhǎng)度的上下文信息,而不僅僅局限于前后n個(gè)上下文單詞。關(guān)于RNN語(yǔ)言模型的方法我們將在第三節(jié)詳細(xì)描述。
基于生成的方法在檢測(cè)過(guò)程中依賴于概念檢測(cè)的質(zhì)量,在生成過(guò)程中受限于人工設(shè)計(jì)的模板、不完備的語(yǔ)言模型以及有限的句法模型,因而,該方法生成的文本描述句子單一,不具有多樣性。
基于檢索的方法將圖像的文本描述問(wèn)題看作信息檢索問(wèn)題,即在數(shù)據(jù)集C中尋找查詢圖像Iq的相似子集M=(Im,Sm),其中Im表示圖像集,Sm表示圖像對(duì)應(yīng)的文本描述集,通過(guò)合理地組織Sm輸出查詢圖像Iq的文本描述結(jié)果Sq。
根據(jù)圖像表示方法和相似度計(jì)算方法,基于檢索的方法進(jìn)一步分為基于視覺(jué)空間的檢索方法和基于多模態(tài)空間的檢索方法。
基于視覺(jué)空間的檢索方法利用圖像視覺(jué)特征的相似性,從訓(xùn)練圖像集中查詢,得到候選圖像集,然后利用候選圖像集中的圖像和文本信息生成圖像的文本描述,具體步驟如下:
(1) 用特定視覺(jué)特征表示輸入圖像;
(2) 從訓(xùn)練圖像集中基于視覺(jué)特征空間相似性度量標(biāo)準(zhǔn)檢索得到候選圖像集;
(3) 利用包含在候選集的圖像和文本信息,根據(jù)一定規(guī)則或方法組合生成圖像的候選文本描述,最后對(duì)圖像的候選文本描述進(jìn)行排序,選取最優(yōu)結(jié)果。
Torralba[12]等人構(gòu)建了Tiny Image數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)使用WordNet中的單詞為每張圖像建立多個(gè)標(biāo)簽。Kuznetsova[13]等人基于Tiny Image數(shù)據(jù)庫(kù)來(lái)描述查詢圖像,檢索視覺(jué)相似性圖像集。大多數(shù)基于視覺(jué)空間的檢索方法以這個(gè)步驟為基準(zhǔn),然后用對(duì)象行為檢測(cè)及場(chǎng)景分類器對(duì)候選圖像進(jìn)行處理,將視覺(jué)和短語(yǔ)識(shí)別結(jié)果作為特征,根據(jù)排序算法得到最優(yōu)文本描述。
Verma[14]等人使用RGB、HSV顏色直方圖、Gabor和Haar描述、GIST和SIFT描述作為圖像視覺(jué)特征,利用這些圖像視覺(jué)特征的相似性得到圖像的文本描述信息。候選圖像的文本描述劃分為一定類型的短語(yǔ),如主語(yǔ)、介詞、賓語(yǔ)等,查詢圖像的最優(yōu)描述,由圖像相似性、谷歌搜索計(jì)數(shù)值以及圖像三元組構(gòu)成的聯(lián)合概率分布確定。
Ordonez[15]等人提出了Im2Text模型,并在規(guī)模為一百萬(wàn)的圖像文本描述數(shù)據(jù)庫(kù)中進(jìn)行檢索。Patterson[16]等人構(gòu)造了大規(guī)模場(chǎng)景屬性數(shù)據(jù)集,在該數(shù)據(jù)集上訓(xùn)練屬性分類器作為圖像文本描述的全局屬性特征,通過(guò)擴(kuò)展Im2Text模型,可產(chǎn)生更好的圖像檢索和文本描述結(jié)果。Mason[17]等人使用該場(chǎng)景屬性描述方法,先從訓(xùn)練集中找出視覺(jué)相似的圖像,基于相似圖像集的文本描述采用概率密度估計(jì)的方法預(yù)測(cè)描述句子中單詞的條件概率。最終查詢圖像的文本描述使用兩種方法得到,一種方法基于SumBasic模型[18],另一種方法由查詢圖像的單詞條件概率分布與候選圖像集描述概率分布的K-L散度最小化得到。
Yagcioglu[19]等人提出組合分布語(yǔ)義平均查詢擴(kuò)展方法,圖像特征表示由卷積神經(jīng)網(wǎng)絡(luò)VGG-CNN(visual geometry group convolutional neural network)[20]得到,圖像特征為在ImageNet數(shù)據(jù)集上訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)最后一層計(jì)算激活函數(shù)值得到,查詢圖像的文本描述由相似性檢索得到圖像集的分布式表示得到,權(quán)值為查詢圖像與檢索訓(xùn)練圖像之間的相似性。Devlin[21]等人使用VGG-CNN最后一層激活函數(shù)作為全局圖像描述特征,用K近鄰方法確定查詢圖像的視覺(jué)相似圖像集。計(jì)算相似度時(shí),用訓(xùn)練集中圖像和查詢圖像的N-gram重疊F測(cè)度作為度量距離標(biāo)準(zhǔn),查詢圖像的文本描述由具有最高平均n元重疊F測(cè)度得到,也就是K近鄰中心描述。
基于多模態(tài)空間的檢索方法分為兩步:
(1) 用訓(xùn)練集上的圖像和對(duì)應(yīng)的文本描述學(xué)習(xí)多模態(tài)空間表示;
(2) 給定查詢圖像,在圖像和對(duì)應(yīng)文本描述的聯(lián)合表示空間進(jìn)行圖像和文本模態(tài)的交叉檢索,即查詢圖像得到圖像的文本描述和查詢句子可得到對(duì)應(yīng)的圖像內(nèi)容。
Hodosh[22]等人提出KCCA(kernel canonical correlation analysis)方法學(xué)習(xí)多模態(tài)空間表示,該方法使用核函數(shù)提取高維特征,并將圖像的文本描述問(wèn)題看作檢索問(wèn)題,使用最近鄰方法進(jìn)行檢索,最后對(duì)候選文本綜合排序,產(chǎn)生圖像的文本描述結(jié)果。該方法需要保存核矩陣,只適用于小規(guī)模數(shù)據(jù)集。Socher[23]等人用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)圖像—句子聯(lián)合隱嵌入空間,分別學(xué)習(xí)圖像和文本模態(tài)表示,然后再映射到多模態(tài)空間。Socher[24]等人進(jìn)一步提出一種基于KCCA的半監(jiān)督視覺(jué)語(yǔ)義對(duì)齊模型,該模型能夠使用少量的標(biāo)注數(shù)據(jù)和大量的無(wú)標(biāo)注數(shù)據(jù)訓(xùn)練,完成單詞和圖像區(qū)域的對(duì)齊。單詞和圖像區(qū)域被映射到多模態(tài)空間,根據(jù)EM算法估計(jì)模型參數(shù),多模態(tài)特征相似的單詞和圖像區(qū)域顯式地對(duì)齊。
Karpathy[25]等人考慮嵌入細(xì)粒度單元,即圖像中對(duì)象對(duì)應(yīng)的依存樹(shù)嵌入共有子空間,最終模型集成了全局圖像—句子特征和對(duì)象—部分句子依存樹(shù)局部特征。Kiros[26]等人基于深度神經(jīng)網(wǎng)絡(luò)產(chǎn)生文本描述,使用LSTM遞歸神經(jīng)網(wǎng)絡(luò)計(jì)算句子特征,用卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,將圖像特征投影到LSTM隱狀態(tài)空間,神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型從多模態(tài)空間產(chǎn)生查詢圖像的文本描述。
基于檢索的方法能夠很好地利用訓(xùn)練數(shù)據(jù)集,當(dāng)訓(xùn)練集與測(cè)試集相關(guān)性較高時(shí)效果顯著。該方法依賴于大規(guī)模的訓(xùn)練語(yǔ)料,產(chǎn)生的文本描述局限于訓(xùn)練集的描述文本。
近幾年,基于編碼—解碼的方法在計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理等領(lǐng)域都有廣泛的應(yīng)用。基于編碼—解碼方法的圖像文本描述過(guò)程分為兩步。
(1) 編碼階段: 用深度卷積神經(jīng)網(wǎng)絡(luò)CNN提取圖像的視覺(jué)特征;
(2) 解碼階段: 基于提取的圖像視覺(jué)特征作為解碼階段的輸入,利用RNN/LSTM輸出圖像的文本描述句子。
Vinyals[27]等人提出了谷歌NIC模型,該模型將圖像和單詞投影到多模態(tài)空間,并使用長(zhǎng)短時(shí)記憶LSTM網(wǎng)絡(luò)生成文本描述。Xu[28]等人提出模型gLSTM,該模型使用語(yǔ)義信息引導(dǎo)長(zhǎng)短時(shí)記憶LSTM網(wǎng)絡(luò)生成文本描述。Li[30]等人構(gòu)建了首個(gè)中文圖像文本描述數(shù)據(jù)集Flickr8kCN,并提出中文文本描述生成模型CS-NIC,該方法使用GoogLeNet[19]對(duì)圖像進(jìn)行編碼,并使用長(zhǎng)短時(shí)記憶LSTM網(wǎng)絡(luò)對(duì)圖像生成過(guò)程建模。Donahue[31]等人提出的學(xué)習(xí)模型把靜態(tài)圖像和圖像文本描述單詞輸入到四層LSTM網(wǎng)絡(luò)。Gan[32]等人提出基于語(yǔ)義組合網(wǎng)絡(luò)的圖像文本描述方法,在文本描述生成過(guò)程中引入高層語(yǔ)義概念。Rennie[33]等人提出分兩步生成段落長(zhǎng)度的圖像文本描述方法。第一步,LSTM沿時(shí)間展開(kāi)的每個(gè)時(shí)刻,圖像特征向量都輸入到LSTM,生成表示圖像文本描述句子的單詞向量序列;第二步,將第一步生成的單詞向量序列作為另一個(gè)用來(lái)生成圖像描述句子的LSTM輸入,這個(gè)LSTM通過(guò)在序列模型的輸入中加入句子向量來(lái)預(yù)測(cè)圖像描述句子中的下一個(gè)單詞。
根據(jù)編碼和解碼方法不同,基于編碼—解碼的圖像文本描述方法又可分為三種: 基于融合的方法、基于注意力的方法以及基于強(qiáng)化學(xué)習(xí)的方法。
基于融合的方法主要是將圖像特征向量和文本描述過(guò)程中產(chǎn)生的文本特征向量相融合。融合操作分為三種方式。
(1) 疊加融合: 將圖像特征向量和圖像文本描述過(guò)程中產(chǎn)生的文本特征向量疊加在一起,形成增廣向量,增廣向量長(zhǎng)度是兩個(gè)向量長(zhǎng)度之和。疊加融合方法直觀、簡(jiǎn)便,易于實(shí)現(xiàn),但是如果深度學(xué)習(xí)的層數(shù)較多的話,疊加融合方法使得神經(jīng)網(wǎng)絡(luò)的參數(shù)個(gè)數(shù)增加。
(2) 加融合: 假定圖像特征向量和圖像文本描述過(guò)程中產(chǎn)生的文本特征向量的維數(shù)一樣,將這兩種模態(tài)特征向量的相同下標(biāo)的元素相加,產(chǎn)生一個(gè)相同維數(shù)的向量。
(3) 乘融合: 假定圖像特征向量和圖像文本描述過(guò)程中產(chǎn)生的文本特征向量的維數(shù)一樣,將這兩種模態(tài)特征向量的相同下標(biāo)的元素相乘(element-wise product),產(chǎn)生一個(gè)相同維數(shù)的向量。
融合過(guò)程把描述圖像的句子用RNN處理,再與CNN計(jì)算得到的圖像特征向量按上述三種融合策略合并,合并后的向量輸入到softmax,最終輸出圖像的文本描述句子。
Kiros[34]等人通過(guò)求解圖像特征向量和圖像文本描述過(guò)程中產(chǎn)生的文本特征向量最大相似性,把圖像特征向量和圖像文本描述過(guò)程中產(chǎn)生的文本特征向量投影到多模態(tài)共有子空間,將對(duì)數(shù)雙線性語(yǔ)言模型的輸出、圖像特征向量或者文本特征向量進(jìn)行融合,以便預(yù)測(cè)圖像文本描述句子的下一個(gè)單詞。Mao[35]等人提出首個(gè)基于神經(jīng)網(wǎng)絡(luò)的圖像文本描述生成模型m-RNN,該模型使用CNN對(duì)圖像建模,用RNN對(duì)句子建模,并使用多模態(tài)空間為圖像和文本建立關(guān)聯(lián)。Hendricks[36]等人也使用了把圖像特征向量和LSTM生成的文本嵌入向量融合形成多模態(tài)空間向量的方法。Tanti[37]等人提出的圖像文本描述方法采用兩種不同融合方式: (1)圖像特征和文本特征融合后作為RNN的輸入;(2)RNN僅處理文本序列,RNN的輸出與圖像特征融合后送入前饋神經(jīng)網(wǎng)絡(luò)產(chǎn)生輸出結(jié)果。實(shí)驗(yàn)結(jié)果表明RNN僅處理文本序列效果較好。
Xu[38]等人最早將基于注意力的方法引入到圖像的文本描述中,使用卷積層提取基于位置的空間特征,在圖像多個(gè)局部區(qū)域和文本句子之間建立關(guān)聯(lián)。文中介紹了兩種基于注意力的方法: Hard attention和Soft attention注意力機(jī)制。解碼使用整個(gè)圖像特征向量來(lái)初始化LSTM單元。用融合的方式把區(qū)域圖像(指整個(gè)圖像中的一塊區(qū)域)輸入到LSTM,使LSTM產(chǎn)生新的狀態(tài);然后把這個(gè)狀態(tài)和區(qū)域圖像融合在一起,以此來(lái)預(yù)測(cè)圖像文本描述句子中的下一個(gè)單詞。圖像特征向量經(jīng)過(guò)加權(quán)平均被融合到LSTM的解碼過(guò)程中,使得文本描述生成網(wǎng)絡(luò)能夠捕捉圖像的局部信息,提升了圖像文本描述方法的性能。Andrej[39]等人提出對(duì)圖像中的多個(gè)局部區(qū)域和文本描述片段進(jìn)行顯式對(duì)齊,使用RCNN(region convolutional neural network)的方法選取可能的圖像區(qū)域進(jìn)行排序,選擇概率最大的19個(gè)作為候選區(qū)域,經(jīng)過(guò)仿射變換得到圖像區(qū)域特征,與單詞特征進(jìn)行相似度匹配,使用注意力的思想為每個(gè)單詞找到最匹配的圖像區(qū)域。圖像文本描述的生成過(guò)程用RNN完成,首先將第一個(gè)單詞和圖像特征向量一同輸入RNN中,在其后的輸入中,圖像特征被看作是一個(gè)全零向量。
Zhou[40]等人提出一種基于text-conditional注意力機(jī)制的方法,傳統(tǒng)的注意力機(jī)制方法關(guān)注于圖像的局部區(qū)域,而該方法強(qiáng)調(diào)關(guān)注于文本描述句子的某個(gè)單詞,使用文本信息改善局部注意力。模型采用td-gLSTM(time-dependent gLSTM)方法,該方法對(duì)句子中各單詞的嵌入表示求平均,并與圖像嵌入表示相融合,生成text-conditional guidance信號(hào),該信號(hào)用于引導(dǎo)LSTM產(chǎn)生文本描述序列。
Yang[41]等人描述了一種通用的基于注意力機(jī)制的編碼—解碼模型,這個(gè)模型可以用來(lái)生成圖像描述句子。該方法在編碼—解碼結(jié)構(gòu)中添加了評(píng)價(jià)網(wǎng)絡(luò)(review network),評(píng)價(jià)網(wǎng)絡(luò)基于注意力機(jī)制設(shè)計(jì),每個(gè)步驟輸出一個(gè)思考向量(thought vector),思考向量用來(lái)作為注意力網(wǎng)絡(luò)的輸入。注意力機(jī)制模型中的圖像子區(qū)域和整個(gè)圖像融合后,參與到圖像文本描述生成過(guò)程中。
You[42]等人提出一種注意力機(jī)制的圖像文本描述方法,該方法將自底向上和自頂向下的方法相融合?;谡Z(yǔ)義注意(semantic attention)的思想,整個(gè)方法有選擇地聚焦于單詞,分別提取圖像整體特征和若干概念的局部特征,將若干局部特征加權(quán)與圖像的整體特征在單詞級(jí)執(zhí)行融合,并參與到RNN運(yùn)算過(guò)程中。Chen[43]等人基于注意力機(jī)制的編碼-解碼框架提出StructCap模型,通過(guò)聯(lián)合訓(xùn)練視覺(jué)分析樹(shù)、結(jié)構(gòu)語(yǔ)義注意和基于RNN的文本描述生成模塊來(lái)改進(jìn)圖像文本描述的性能。Li[44]等人提出一種全局-局部注意的圖像文本描述方法,通過(guò)注意力機(jī)制集成圖像層的全局表示和對(duì)象層的局部表示。Mun[45]等人提出基于文本引導(dǎo)的注意力模型來(lái)生成圖像的文本描述,采用基于實(shí)例的學(xué)習(xí)方法獲取相似圖像的文本描述句子集,并通過(guò)相似圖像的文本描述句子來(lái)學(xué)習(xí)圖像相關(guān)區(qū)域的注意力。
強(qiáng)化學(xué)習(xí)是近年來(lái)機(jī)器學(xué)習(xí)和智能控制領(lǐng)域的熱點(diǎn)方法,它關(guān)注于智能體如何在環(huán)境中采取一系列行為,從而獲得最大的累積(reward)。
Zhang[46]等人將強(qiáng)化學(xué)習(xí)應(yīng)用在圖像的文本描述生成中,該過(guò)程被看作有限馬爾科夫決策過(guò)程(Markov decision process, MDP),決策過(guò)程的狀態(tài)值由CNN提取的圖像特征和已經(jīng)生成的文本序列構(gòu)成。訓(xùn)練過(guò)程采用actor-critic方法, 包括策略網(wǎng)絡(luò)(policy network)和值網(wǎng)絡(luò)(value network),策略網(wǎng)絡(luò)根據(jù)狀態(tài)值生成一系列決策,值網(wǎng)絡(luò)根據(jù)當(dāng)前的狀態(tài)給出策略的reward。圖像文本描述模型首先采用最大似然估計(jì)的方法進(jìn)行預(yù)訓(xùn)練,然后使用強(qiáng)化學(xué)習(xí)再優(yōu)化。訓(xùn)練過(guò)程使用蒙特卡洛抽樣,根據(jù)采樣序列的CIDEr或BLEU作為reward更新目標(biāo)函數(shù)。
Liu[47]等人提出基于強(qiáng)化學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)用于圖像的文本描述,訓(xùn)練過(guò)程采用策略梯度(policy gradient)的方法,策略梯度方法根據(jù)值函數(shù)對(duì)策略進(jìn)行改進(jìn),從而選取最優(yōu)策略。實(shí)驗(yàn)結(jié)果表明,使用BLEU-4、METEOR、CIDEr和SPICE評(píng)測(cè)標(biāo)準(zhǔn)組合指導(dǎo)最優(yōu)化過(guò)程,生成的圖像文本描述質(zhì)量?jī)?yōu)于傳統(tǒng)方法。
Ren[48]等人提出基于決策框架的圖像文本描述方法,利用強(qiáng)化學(xué)習(xí)中的策略網(wǎng)絡(luò)和值網(wǎng)絡(luò)共同來(lái)確定執(zhí)行每次決策的下一個(gè)單詞的輸出。策略網(wǎng)絡(luò)根據(jù)當(dāng)前狀態(tài)預(yù)測(cè)下一個(gè)單詞的概率,值網(wǎng)絡(luò)根據(jù)預(yù)測(cè)值給出reward,reward函數(shù)采用視覺(jué)語(yǔ)義嵌入(visual semantic embedding)的形式,這種形式能夠評(píng)判圖像和句子的相似度,可以作為最終優(yōu)化的全局目標(biāo),這兩種網(wǎng)絡(luò)的參數(shù)通過(guò)基于actor-critic的強(qiáng)化學(xué)習(xí)算法訓(xùn)練得到。
基于編碼—解碼的方法生成的句子具有多樣性,不依賴于單一的語(yǔ)言模板,有時(shí)甚至可以推理出圖像中未出現(xiàn)的內(nèi)容,例如,火車站候車室中的人們正在等候火車,雖然圖像中并未出現(xiàn)火車,但模型能夠基于圖像的情境信息進(jìn)行推理。
公開(kāi)的數(shù)據(jù)集和評(píng)測(cè)標(biāo)準(zhǔn)對(duì)于推動(dòng)圖像的文本描述方法研究起著至關(guān)重要的作用。本節(jié)將對(duì)現(xiàn)有比較有影響力的數(shù)據(jù)集、評(píng)測(cè)標(biāo)準(zhǔn)和評(píng)測(cè)組織進(jìn)行小結(jié)。
當(dāng)前圖像的文本描述數(shù)據(jù)集主要包括英文、德文、日文和中文數(shù)據(jù)集。英文數(shù)據(jù)集包括IAPR-TC12[49]、PASCAL[50]、Flickr8k[22]、SBU[15]、MS COCO[3]、Flickr30k[51]、Visual Genome[52]和Multi30k[53];德文數(shù)據(jù)集包括IAPR-TC12[49]和Multi30k[53];日文數(shù)據(jù)集有STAIR[54];中文數(shù)據(jù)集有Flickr8kCN[29]和AIC-ICC[55]。數(shù)據(jù)集的發(fā)表年份如圖2所示,從發(fā)表年份來(lái)看,首先出現(xiàn)英文數(shù)據(jù)集,然后其他研究者逐漸開(kāi)始構(gòu)建德文數(shù)據(jù)集、日文數(shù)據(jù)集以及中文數(shù)據(jù)集。數(shù)據(jù)集的具體統(tǒng)計(jì)情況如表1所示。
數(shù)據(jù)集規(guī)模語(yǔ)言標(biāo)準(zhǔn)劃分Flickr8k8000英有Flickr30k30000英有MSCOCO82783英有SBU1000英無(wú)Multi30k31014英、德有PASCAL1000英無(wú)IAPR-TC1220000英、德無(wú)Flickr8kCN8000中有AIC-ICC300000中有STAIR82783日有VisualGenome108077英無(wú)
面向圖像文本描述方法的評(píng)測(cè)標(biāo)準(zhǔn)主要包括四大類,分別是主流評(píng)測(cè)標(biāo)準(zhǔn)、概率評(píng)測(cè)標(biāo)準(zhǔn)、檢索評(píng)測(cè)標(biāo)準(zhǔn)以及多樣性評(píng)測(cè)標(biāo)準(zhǔn)(圖3)。下面將對(duì)這四種評(píng)測(cè)標(biāo)準(zhǔn)分別進(jìn)行介紹。
圖3 圖像文本描述的評(píng)測(cè)標(biāo)準(zhǔn)分類
4.2.1 主流評(píng)測(cè)標(biāo)準(zhǔn)
目前的研究多采用生成的文本描述句子和參考句子之間的匹配程度來(lái)評(píng)價(jià)圖像文本描述結(jié)果的優(yōu)劣,我們將采用這類方法的評(píng)測(cè)標(biāo)準(zhǔn)歸為主流評(píng)測(cè)標(biāo)準(zhǔn)。包括BLEU(bilingual evaluation understudy)[56]、METEOR(metric for evaluation of translation with explicit ordering)[57]、ROUGE(recall-oriented understudy for gisting evaluation)[58]、CIDEr(consensus-based image description evaluation)[59]和SPICE(semantic propositional image caption evaluation)[60]五種衡量指標(biāo)。其中BLEU和METEOR兩種指標(biāo)來(lái)源于機(jī)器翻譯,ROUGE來(lái)源于文本摘要,而CIDEr和SPICE是依據(jù)圖像文本描述任務(wù)定制的指標(biāo)。
BLEU是基于N-gram共現(xiàn)統(tǒng)計(jì)的評(píng)測(cè)標(biāo)準(zhǔn)。給定生成的圖像文本描述s和多個(gè)人工標(biāo)注的參考文本描述Ri,圖像—文本描述對(duì)(i,s)的BLEU值是指在n元模型下,圖像文本描述s在參考文本描述Ri上的查準(zhǔn)率。
ROUGE與BLEU類似,它是基于查全率的相似度衡量方法,根據(jù)計(jì)算方法的不同又可分為ROUGE-N、ROUGE-L、ROUGE-W、ROUGE-S。其中ROUGE-N基于N-gram計(jì)算查全率;ROUGE-L基于最大公共序列(longest common subsequence, LCS)計(jì)算查全率;ROUGE-W與ROUGE-L類似,基于帶權(quán)重的最大公共序列計(jì)算查全率;ROUGE-S基于skip-bigram度量參考文本描述與預(yù)測(cè)文本描述的共現(xiàn)統(tǒng)計(jì)來(lái)計(jì)算查全率。
CIDEr是基于共識(shí)的評(píng)測(cè)標(biāo)準(zhǔn),計(jì)算n元語(yǔ)言模型(N-gram)在參考描述句子和模型生成待評(píng)測(cè)句子的共現(xiàn)概率。其目標(biāo)是計(jì)算圖像I的生成的測(cè)評(píng)句子ci與m個(gè)參考描述Si={si,1,…,si,m}的一致性。研究證明,CIDEr與人的共識(shí)的匹配度好于其他評(píng)測(cè)標(biāo)準(zhǔn)。
METEOR用于計(jì)算圖像描述句子和參考描述句子的相似程度,考慮了單詞精確匹配、詞干、同義詞和釋義等因素,其計(jì)算基于單精度加權(quán)調(diào)和平均和單字查全率,相比于基于查全率的BLEU評(píng)測(cè)標(biāo)準(zhǔn),METEOR結(jié)果與人工判別結(jié)果更具有相關(guān)性。
SPICE考慮語(yǔ)義命題內(nèi)容(semantic propositional content),圖像的文本描述應(yīng)包含圖像中存在的各個(gè)語(yǔ)義命題。SPICE通過(guò)將生成的描述句子和參考句子均轉(zhuǎn)換為基于圖的語(yǔ)義表示,即場(chǎng)景圖,來(lái)評(píng)價(jià)圖像文本描述的質(zhì)量。場(chǎng)景圖提取自然語(yǔ)言中詞法和句法信息,顯式地表示出圖像中包含的對(duì)象、屬性和關(guān)系。場(chǎng)景圖的計(jì)算過(guò)程包含兩個(gè)階段: 使用預(yù)先訓(xùn)練的依存語(yǔ)法器建立依存句法樹(shù);采用基于規(guī)則的方法將依存句法樹(shù)映射為場(chǎng)景圖。
4.2.2 概率評(píng)測(cè)標(biāo)準(zhǔn)
概率評(píng)測(cè)標(biāo)準(zhǔn)采用困惑度來(lái)評(píng)價(jià)圖像文本描述的生成質(zhì)量,困惑度也是語(yǔ)言模型常見(jiàn)的評(píng)測(cè)標(biāo)準(zhǔn),計(jì)算困惑度的公式定義如式(1) 所示。
(1)
這里,P是已知前n-1個(gè)單詞得到下一單詞的概率,C為包含|C|個(gè)單詞的圖像文本描述句子,I是C所描述的圖像,H是熵函數(shù)。Cn是C中的第n個(gè)單詞,C0,…,n-1是從句子起始標(biāo)識(shí)符開(kāi)始的n-1個(gè)單詞。為了得到整個(gè)測(cè)試集的困惑度,可以取測(cè)試集中所有圖像描述句子的算術(shù)均值、幾何均值和所有圖像描述句子的困惑度的中值。
4.2.3 多樣性評(píng)測(cè)標(biāo)準(zhǔn)
生成圖像文本描述時(shí),多樣性評(píng)測(cè)標(biāo)準(zhǔn)使用了詞匯的多樣性。如果圖像文本描述方法每次產(chǎn)生的文本描述都是一樣的,則這個(gè)圖像文本描述方法具有最低多樣性。多樣性評(píng)測(cè)標(biāo)準(zhǔn)定義為式(2)所示。
(2)
F是1-gram或2-gram的極大似然概率估計(jì),|F|是1-gram或2-gram的個(gè)數(shù),F(xiàn)n是第n個(gè)1-gram或2-gram的頻率,熵度量頻率分布的均勻程度,熵越高,分布越均勻。分布越均勻,1-gram或2-gram更可能等比例出現(xiàn),而在大多數(shù)時(shí)候不會(huì)只使用很少的幾個(gè)單詞,此時(shí),圖像文本描述中出現(xiàn)的單詞的變化會(huì)更大,從而使得文本描述具有更大的多樣性。
4.2.4 檢索評(píng)測(cè)標(biāo)準(zhǔn)
許多模型采用基于檢索的方法生成圖像的文本描述,檢索評(píng)測(cè)標(biāo)準(zhǔn)能夠很好地衡量基于視覺(jué)空間的檢索方法和多模態(tài)空間的檢索方法的性能。檢索評(píng)測(cè)標(biāo)準(zhǔn)常用的指標(biāo)是正確率和召回率。正確率是衡量某一檢索方法信號(hào)噪聲比的指標(biāo),即相關(guān)結(jié)果占全部結(jié)果的比率。召回率是衡量檢索方法檢出相關(guān)結(jié)果成功度的一項(xiàng)指標(biāo),即檢出相關(guān)結(jié)果占所有相關(guān)結(jié)果的百分比。
圖像的中文文本描述評(píng)測(cè)是“AI challenger全球挑戰(zhàn)賽”的五項(xiàng)評(píng)測(cè)內(nèi)容之一,由創(chuàng)新工場(chǎng)、搜狗、今日頭條三方于2017年聯(lián)合首次主辦*https://challenger.ai/datasets/caption。該評(píng)測(cè)的主要任務(wù)是針對(duì)給定的每一張測(cè)試圖片輸出一句話的描述,要求描述句子符合自然語(yǔ)言習(xí)慣,涵蓋圖像中的重要信息,如主要人物、場(chǎng)景、動(dòng)作等內(nèi)容。對(duì)參加評(píng)測(cè)的系統(tǒng)從客觀指標(biāo)(BLEU, METEOR, ROUGE-L和 CIDEr)和主觀指標(biāo)(Coherence,Relevance,Helpful for Blind)進(jìn)行評(píng)價(jià)。來(lái)自清華大學(xué)的胡曉林團(tuán)隊(duì)獲得2017年該競(jìng)賽任務(wù)的冠軍,在AIC-ICC的測(cè)試數(shù)據(jù)集B上取得BLEU-4、CIDEr、METEOR和ROUGE-L值分別為0.746 57、2.145 95、0.431 9和0.721 72。
Microsoft COCO Image Captioning Challenge*https://competitions.codalab.org/competitions/3221#results是微軟于2015年推出的圖像英文文本描述評(píng)測(cè),迄今共有103個(gè)隊(duì)伍參加。參加評(píng)測(cè)的系統(tǒng)通過(guò)評(píng)測(cè)API平臺(tái)提交圖像在MS COCO測(cè)試數(shù)據(jù)集的英文文本描述結(jié)果。該平臺(tái)將實(shí)時(shí)展示提交系統(tǒng)的排名。截至2018年2月底,來(lái)自騰訊的TencentAI團(tuán)隊(duì)暫排系統(tǒng)的第一名,在C5數(shù)據(jù)集上取得BLEU-1、BLEU-2、BLEU-3、BLEU-4、METEOR、ROUGE-L和CIDEr-D值分別為0.811、0.657、0.508、0.386、0.286、0.587和1.254。
基于圖像文本描述方法的介紹,對(duì)目前的主要開(kāi)源工具包進(jìn)行簡(jiǎn)介,如表2所示。
表2 圖像文本描述的主要開(kāi)源工具包簡(jiǎn)介
續(xù)表
綜上所述,雖然圖像的文本描述研究已經(jīng)取得顯著效果,但對(duì)于諸如圖像的視覺(jué)概念提取、圖像與文本模態(tài)融合、圖像的跨語(yǔ)言文本描述等子任務(wù)的性能仍有待改進(jìn)。本節(jié)針對(duì)現(xiàn)有的圖像文本描述尚存的關(guān)鍵問(wèn)題和研究難點(diǎn)予以介紹。
(1) 圖像的視覺(jué)概念提取
圖像的文本描述是視覺(jué)與語(yǔ)言結(jié)合的新任務(wù),其性能的提升離不開(kāi)視覺(jué)與語(yǔ)言本身的技術(shù)突破。圖像的視覺(jué)概念包括圖像類別、場(chǎng)景信息、檢測(cè)對(duì)象、對(duì)象屬性和對(duì)象關(guān)系等,視覺(jué)概念的提取依賴于計(jì)算機(jī)視覺(jué)技術(shù),目前還不十分成熟。而視覺(jué)概念的提取是生成圖像文本描述的重要基礎(chǔ),直接決定圖像文本描述的性能。因此,圖像的視覺(jué)概念提取是圖像的文本描述中待解決的關(guān)鍵問(wèn)題及研究難點(diǎn)。
(2) 圖像與文本模態(tài)融合
圖像的文本描述首先要解決的是語(yǔ)義鴻溝問(wèn)題,即用單純的圖像視覺(jué)特征信息在圖像內(nèi)容的表達(dá)上存在多義性和不確定性問(wèn)題。圖像中常常隱式或顯式包含文本信息,充分利用與圖像數(shù)據(jù)共現(xiàn)的文本信息,進(jìn)行多模態(tài)的語(yǔ)義分析和相似性度量,是克服語(yǔ)義鴻溝的有效方法。目前已有基于深度神經(jīng)網(wǎng)絡(luò)的多種融合方法(見(jiàn)3.1),但并未真正深入到圖像與文本在高層語(yǔ)義的融合問(wèn)題,因此如何對(duì)圖像和文本模態(tài)信息進(jìn)行多模態(tài)高層語(yǔ)義融合是圖像的文本描述中待解決的關(guān)鍵問(wèn)題及研究難點(diǎn)。
(3) 圖像的跨語(yǔ)言文本描述
現(xiàn)有的圖像文本描述方法通常采用基于深度學(xué)習(xí)或機(jī)器學(xué)習(xí)的方法,然而,當(dāng)有標(biāo)記的訓(xùn)練樣本非常少時(shí),這種方法的效果往往較差。而在實(shí)際應(yīng)用中,要求針對(duì)圖像能夠給出多種語(yǔ)言文字的文本描述來(lái)滿足不同母語(yǔ)的用戶需求。目前圖像英文和中文文本描述的訓(xùn)練樣本較多,其他語(yǔ)言文本描述對(duì)應(yīng)的標(biāo)記訓(xùn)練樣本較少,若對(duì)圖像的每一種語(yǔ)言文本描述進(jìn)行人工標(biāo)記將需要耗費(fèi)大量的人力和時(shí)間。因此,如何實(shí)現(xiàn)圖像的跨語(yǔ)言文本描述是圖像的文本描述中待解決的關(guān)鍵問(wèn)題及研究難點(diǎn)。
圖像的文本描述近幾年得到研究界和企業(yè)界的廣泛關(guān)注,它借助深度學(xué)習(xí)技術(shù)為視覺(jué)和語(yǔ)言搭建的橋梁獲得了突飛猛進(jìn)的發(fā)展,其跨越了視覺(jué)和語(yǔ)言的領(lǐng)域界限,把直觀上的感知提升到了認(rèn)知的概念范疇。圖像的文本描述能夠提高基于內(nèi)容的圖像檢索效率,擴(kuò)大在醫(yī)學(xué)、安全、軍事等領(lǐng)域的可視化理解應(yīng)用范圍,具有廣闊的應(yīng)用前景。同時(shí),圖像文本描述的理論框架和研究方法可以推動(dòng)圖像標(biāo)注和視覺(jué)問(wèn)答的理論和應(yīng)用的發(fā)展,具有重要的學(xué)術(shù)和實(shí)踐應(yīng)用價(jià)值。
圖像的文本描述,不僅需要理解視覺(jué),也需要知道如何對(duì)語(yǔ)言進(jìn)行建模。當(dāng)前的主要解決方案是端到端的黑盒子式深度學(xué)習(xí),并未真正深入到視覺(jué)與語(yǔ)言的本質(zhì)問(wèn)題。如何進(jìn)行視覺(jué)與語(yǔ)言的深度語(yǔ)義融合,將有助于提升圖像文本描述的性能,這也是多模態(tài)智能交互的關(guān)鍵步驟,是未來(lái)的主要發(fā)展方向。
[1] Bernardi R, Cakici R, Elliott D, et al. Automatic description generation from images: A survey of models, datasets, and evaluation measures[J]. J. Artif. Intell. Res.(JAIR), 2016(55): 409-442.
[2] Farhadi A, Hejrati M, Sadeghi A, et al. Every picture tells a story: Generating sentences from images[C]//Proceedings of Part IV of the 11th European Conference on Computer Vision, 2010:15-29.
[3] Lin T, Maire M, Belongie S, et al. Microsoft Coco: Common objects in context[C]//Proceedings of European Conference on Computer Vision, 2014: 740-755.
[4] Kulkarni G, Premraj V, Dhar S, et al. Baby talk: Understanding and generating simple image descriptions[C]//Proceedings of the 24th IEEE Conference on Computer Vision and Pattern Recognition, 2011: 1601-1608.
[5] Kuznetsova P, Ordonez V, Berg T, et al. TREETALK: Composition and compression of trees for image descriptions [J]. TACL, 2014, (2): 351-362.
[6] Yang Y, Teo C, Daume III H, et al. Corpus-guided sentence generation of natural images[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing, 2011: 444-454.
[7] Elliott D, Vries A. Describing images using inferred visual dependency representations[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing of the Asian Federation of Natural Language Processing, 2015: 42-52.
[8] Elliott D, Keller F. Image description using visual dependency representations[C]//Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, 2013: 1292-1302.
[9] Mitchell M, Dodge J, Goyal A, et al. Midge: Generating image descriptions from computer vision detections[C]//Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics, 2012: 747-756.
[10] Li S, Kulkarni G, Berg T, et al. Composing simple image descriptions using Web-scale N-grams[C]//Proceedings of the 15th Conference on Computational Natural Language Learning, CfoNLL 2011. Portland, Oregon, USA, 2011: 220-228.
[11] Fang H, Gupta S, Iandola F, et al. From captions to visual concepts and back[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015: 1473-1482.
[12] Torralba A, Fergus R, Freeman W. 80 million tiny images: A large data set for nonparametric object and scene recognition[J]. IEEE TPAMI, 2008, 30(11): 1958-1970.
[13] Kuznetsova P, Ordonez V, Berg A, et al. Collective generation of natural image descriptions[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics. Jeju Island, Korea, 2012: 359-368.
[14] Verma Y, Gupta A, Mannem P, et al. Generating image descriptions using semantic similarities in the output space[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, CVPR Workshops 2013. Portland, OR, USA, 2013: 288-293.
[15] Ordonez V, Kulkarni G, Berg T. Im2Text: Describing images using 1 million captioned photographs[C]//Proceedings of Advances in Neural Information Processing Systems 24: 25th Annual Conference on Neural Information Processing Systems 2011. Granada, Spain: NIPS, 2011: 1143-1151.
[16] Patterson G, Xu C, Su H, et al. The SUN Attribute Database: Beyond Categories for Deeper Scene Understanding[J]. International Journal of Computer Vision, 2014,108 (1-2): 59-81.
[17] Mason R, Charniak E. Nonparametric method for 143 image captioning[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, ACL 2014. Baltimore, MD, USA, 2014: 592-598.
[18] A Nenkova A,L Vanderwende L. The impact of frequency on summarization[R]. Microsoft Research, 2005.
[19] Yagcioglu S, Erdem E, Erdem A, et al. A distributed representation based query expansion approach for image captioning[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing of the Asian Federation of Natural Language Processing, ACL 2015. Beijing, China, 2015: 106-111.
[20] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition [J]. arXiv preprint arXiv:1409.1556, 2014.
[21] Devlin J, Cheng H, Fang H, et al. Language models for image captioning: The quirks and what works[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing of the Asian Federation of Natural Language Processing, ACL 2015. 2015: 100-105.
[22] Hodosh M, Young P, Hockenmaier J. Framing image description as a ranking task: Data, models and evaluation metrics [J]. Journal of Artificial Intelligence Research, 2013, (47): 853-899.
[23] Socher R, Li F. Connecting modalities: Semi-supervised segmentation and annotation of images using unaligned text corpora[C]//Proceedings of the 23rd IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2010. San Francisco, CA, USA, 2010: 966-973.
[24] Socher R, Karpathy A, Le Q, et al. Grounded compositional semantics for finding and describing images with sentences [J]. Transactions of the Association for Computational Linguistics, 2014, (2): 207-218.
[25] Karpathy A, Joulin A, Li F. Deep fragment embeddings for bidirectional image sentence mapping[C]//Proceedings of Advances in Neural Information Processing Systems 27: Annual Conference on Neural Information Processing Systems. Montreal, Quebec, Canada, 2014: 1889-1897.
[26] Kiros R, Salakhutdinov R, Zemel R. Unifying visual-semantic embeddings with multimodal neural language models[C]//Proceedings of Advances in Neural Information Processing Systems Deep Learning Workshop, 2015.
[27] Vinyals O, Toshev A, Bengio S, et al. Show and tell: A neural image caption generator[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition, 2015: 3156-3164.
[28] Xu J, Gawes E, Fernando B, et al. Guiding the long-short term memory model for image caption generation[C]//Proceedings of 2015 IEEE International Conference on Computer Vision, ICCV 2015. Santiago, Chile, 2015: 2407-2415.
[29] Li X, Lan W, Dong J, et al. Adding Chinese captions to images [C]//Proceedings of the 2016 ACM on International Conference on Multimedia Retrieval. New York, USA, 2016: 271-275.
[30] Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2015. Boston, MA, USA: IEEE Computer Society, 2015: 1-9.
[31] Donahue J, Hendricks L, Guadarrama S, et al. Long-term recurrent convolutional networks for visual recognition and description[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2015: 2625-2634.
[32] Gan Z, Gan C, He X,et al. Semantic compositional networks for visual captioning[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, Hawaii, 2017: 5630-5639.
[33] Rennie S, Cui X, Goel V. Efficient non-linear feature adaptation using maxout networks[C]//Proceedings of 2016 IEEE International Conference on Acoustics, Speech and Signal Processing. Shanghai, China, 2016: 5310-5314.
[34] Kiros R,Zemel R, Salakhutdinov R. A multiplicative model for learning distributed text-based attribute representations[C]//Proceedings of Advances in Neural Information Processing Systems 27: Annual Conference on Neural Information Processing Systems. Montreal, Quebec, Canada, 2014: 2348-2356.
[35] Mao J, Xu W, Yang Y, et al. Deep captioning with multimodal recurrent neural networks(m-rnn)[J]. arXiv preprint arXiv:1412.6632, 2014.
[36] Hendricks L, Venugopalan S, Rohrbach M, et al. Deep compositional captioning: Describing novel object categories without paired training data[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA, 2016: 1-10.
[37] Tanti M, Gatt A, Camilleri K. What is the role of recurrent neural networks(RNNs) in an image caption generator[J]. arXiv preprint arXiv:1708.02043, 2017.
[38] Xu K, Ba J, Kiros R, et al. Show, attend and tell: Neural image caption generation with visual attention[C]//Proceedings of the 32nd International Conference on Machine Learning, 2015: 2048-2057.
[39] Andrej K, Li F. Deep visual-semantic alignments for generating image descriptions[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA, 2015: 3128-3137.
[40] Zhou L, Xu C, Koch P, et al. Watch what you just said: Image captioning with text-conditional attention [J]. arXiv preprint arXiv:1606.04621, 2016.
[41] Yang Z, Yuan Y, Wu Y, et al. Review networks for caption generation[C]//Proceedings of Advances in Neural Information Processing Systems 29: Annual Conference on Neural Information Processing Systems, 2016: 2361-2369.
[42] You Q, Jin H, Wang Z, et al. Image captioning with semantic attention[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA, 2016: 4651-4659.
[43] Chen F, Ji R, Su J,et al. StructCap: structured semantic embedding for image captioning[C]//Proceedings of the ACM Multimedia, Mountain View, CA USA, 2017: 46-54.
[44] Li L, Tang S, Deng L, et al. Image caption with global-local attention[C]//Proceedings of the 31st AAAI Conference on Artificial Inteligence. San Francisco, Californial USA, 2017: 4133-4139.
[45] Mun J, Cho M, Han B. Text-guided attention model for image captioning[C]//Proceedings of the 31st AAAI Conference on Artificial Inteligence. San Francisco, Californial USA, 2017: 4233-4239.
[46] Zhang L, Sung F, Liu F, et al. Actor-critic sequence training for image captioning[J]. arXiv preprint arXiv:1706.09601, 2017.
[47] Liu S, Zhu Z, Ye N, et al. Improved image captioning via policy gradient optimization of Spider[C]//Proceedings of the International Conference on Computer Vision, 2017:873-881.
[48] Ren Z, Wang X, Zhang N. Deep reinforcement learning-based image captioning with embedding reward [J]. arXiv preprint arXiv:1704.03899, 2017.
[49] Grubinger M, Clough P, et al. The IAPR TC-12 benchmark: A new evaluation resource for visual information systems[C]//Proceedings of the International Conference on Language Resources and Evaluation, 2006: 13-23.
[50] Rashtchian C, Young P, Hodosh M, et al. Collecting image annotations using amazon’s mechanical turk[C]//Proceedings of the NAACL HLT 2010 Workshop on Creating Speech and Language Data with Amazon’s Mechanical Turk, 2010: 139-147.
[51] Young P, Lai A, Hodosh M, et al, From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions[J].Transactions of the Association for Computational Linguistics, 2014, (2): 67-78.
[52] Krishna R, Zhu Y, et al. Visual genome: Connecting language and vision using crowdsourced dense image annotations [J]. International Journal of Computer Vision, 2016, 123(1): 32-73.
[53] Elliott D, Frank S, Sima’an K, Multi30K: Multilingual English-German image descriptions[C]//Proceedings of the 5th Workshop on Vision and Language, 2016: 70-74.
[54] Yoshikawa Y, Shigeto Y, Takeuchi A, STAIR captions: Constructing a large-scale Japanese image caption dataset[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, 2017: 417-421.
[55] Wu J, Zheng H,et al. AI challenger: A large-scale dataset for going deeper in image understanding. arXiv preprint arXiv:1711.06475, 2017.
[56] Papineni K, Roukos S, Ward T, et al. BLEU: A method for automatic evaluation of machine translation[C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, 2002: 311-318.
[57] Banerjee S, Lavie A. METEOR: An automatic metric for MT evaluation with improved correlation with human judgments[C]//Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization, 2005: 65-72.
[58] Lin C. ROUGE: A package for automatic evaluation of summaries[C]//Proceedings of the ACL Workshop, 2004: 25-26.
[59] Vedantam R, Zitnick C, Parikh D. CIDEr: Consensus-based image description evaluation[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition, 2015: 4566-4575.
[60] Anderson P, Fernando B, Johnson M, et al. SPICE: Semantic propositional image caption evaluation[C]//Proceedings of European Conference on Computer Vision. Springer International Publishing, 2016: 382-398.
[61] Fu K, Jin J, Cui R, et al. Aligning where to see and what to tell: Image captioning with region-based attention and scene-specific contexts [J]. IEEE TPAMI, 2017, 39(12): 2321-2334.
[62] Chen L, Zhang H, Xiao J, et al. SCA-CNN: Spatial and channel-wise attention in convolutional networks for image captioning[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017: 6298-6306.
馬龍龍(1980-),博士,副研究員,主要研究領(lǐng)域?yàn)槎嗄B(tài)信息處理與自然語(yǔ)言處理。
E-mail: longlong@iscas.ac.cn
韓先培(1984-),博士,副研究員,主要研究領(lǐng)域?yàn)樾畔⒊槿?、知識(shí)庫(kù)構(gòu)建以及自然語(yǔ)言處理。
E-mail: hanxianpei@qq.com
孫樂(lè)(1971-),博士,研究員,主要研究領(lǐng)域?yàn)樾畔z索與自然語(yǔ)言處理。
E-mail: lesunle@163.com