耿耀港,梅紅巖,張興,李曉會(huì)
遼寧工業(yè)大學(xué) 電子與信息工程學(xué)院,遼寧 錦州121000
隨著多媒體技術(shù)和計(jì)算機(jī)網(wǎng)絡(luò)的快速發(fā)展,數(shù)據(jù)的多模態(tài)性日顯突出,數(shù)據(jù)量爆發(fā)式增長,學(xué)術(shù)界和企業(yè)界對(duì)多模態(tài)數(shù)據(jù)處理的需求也日益迫切。另一方面,深度學(xué)習(xí)技術(shù)的日益成熟,給處理多模態(tài)數(shù)據(jù)提供了強(qiáng)有力的技術(shù)支持。
圖像標(biāo)題生成任務(wù)由Farhadi 等人在2010 年提出,其任務(wù)是通過模型實(shí)現(xiàn)從圖像模態(tài)到文本模態(tài)的模態(tài)轉(zhuǎn)換,具體化表示為二元組(,),模型完成圖像模態(tài)(image)到文本模態(tài)(sentence)的模態(tài)轉(zhuǎn)換。圖像標(biāo)題生成任務(wù)是計(jì)算機(jī)視覺領(lǐng)域(computer vision,CV)和自然語言處理領(lǐng)域(natural language processing,NLP)的交叉任務(wù)。這項(xiàng)任務(wù)對(duì)有一定生活經(jīng)驗(yàn)的人類來說非常簡單,但是對(duì)于計(jì)算機(jī)來說卻有著巨大的挑戰(zhàn)性,這不僅要求計(jì)算機(jī)能夠理解圖像的內(nèi)容,而且還要求計(jì)算機(jī)能夠生成符合人類語言習(xí)慣的句子。圖像標(biāo)題生成任務(wù),在圖像理解、人機(jī)交互和視覺障礙患者輔助和新聞等領(lǐng)域有著重要的作用,由于任務(wù)的重要性和挑戰(zhàn)性,逐漸成為人工智能領(lǐng)域研究的一個(gè)重要方面,越來越多的研究者們投身到了這個(gè)領(lǐng)域的研究,提出了一系列效果顯著的算法和模型框架。
從Farhadi 等人提出的基于模板的方法,到Kuznetsova 等人提出的基于檢索的方法,再到現(xiàn)在主流的基于編碼-解碼的方法,圖像標(biāo)題生成技術(shù)不斷革新,圖像標(biāo)題的質(zhì)量也越來越高。目前基于編碼-解碼的圖像標(biāo)題生成方法在圖像生成質(zhì)量和模型性能方面取得了較好的效果,備受關(guān)注。本文基于編碼-解碼圖像標(biāo)題生成方法整體流程,分別從圖像理解和標(biāo)題生成兩方面對(duì)該方法的研究進(jìn)展進(jìn)行了相關(guān)的研究與闡述。
目前圖像標(biāo)題生成領(lǐng)域中主要有三種圖像標(biāo)題生成方法,分別是基于模板的方法、基于檢索的方法和基于編碼-解碼的方法。本章簡要介紹三種方法的代表工作和各自的優(yōu)缺點(diǎn)。
基于模板的方法(template-based method)是一種依賴人工設(shè)計(jì)語言模板和目標(biāo)檢測(cè)技術(shù)的圖像標(biāo)題生成方法。首先由人工設(shè)計(jì)語言模板,然后通過目標(biāo)檢測(cè)技術(shù)檢測(cè)圖像中的對(duì)象、對(duì)象屬性、對(duì)象之間的相互關(guān)系等信息;最后使用這些信息將模板填充完整,生成圖像標(biāo)題,其代表性研究是Farhadi 等人在2010 年提出的基于模板的圖像標(biāo)題生成方法和模型。該模型首先按照語法規(guī)范人工設(shè)定句型模板和<對(duì)象,動(dòng)作,場景>三元組,然后使用計(jì)算機(jī)視覺中目標(biāo)檢測(cè)的方法檢測(cè)圖像中的場景、對(duì)象、對(duì)象的屬性及動(dòng)作所有可能的值,并使用條件隨機(jī)場算法(conditional random field,CRF)預(yù)測(cè)正確的三元組填入模板,組成標(biāo)題的基本結(jié)構(gòu);最后使用相關(guān)算法填充模板中的其他部分,生成圖像標(biāo)題,其流程如圖1所示。Kulkarni 等人在此基礎(chǔ)上提出了Baby talk 模型。該模型通過目標(biāo)檢測(cè)技術(shù),檢測(cè)多組對(duì)象及其相關(guān)信息,使用分類器對(duì)其分類。然后使用CRF 對(duì)三元組的值進(jìn)行預(yù)測(cè),最后填充模板,生成完整的標(biāo)題。該模型中使用了更多的對(duì)象及其相關(guān)信息驅(qū)動(dòng)標(biāo)題的生成,為此獲得了更為詳細(xì)、質(zhì)量更好的圖像標(biāo)題。
圖1 基于模板的方法流程Fig.1 Template-based method flow
基于模板的方法的優(yōu)點(diǎn)是生成的標(biāo)題符合語法規(guī)范,但該方法需要人工設(shè)計(jì)句法模板,依賴于硬解碼的視覺概念,受到圖像檢測(cè)質(zhì)量、句法模板數(shù)量等條件的限制,且該方法生成的標(biāo)題、語法形式單一,標(biāo)題的多樣性不足。
基于檢索的方法是一種依賴大型圖像數(shù)據(jù)庫和檢索方法的圖像標(biāo)題生成方法。該方法首先檢索數(shù)據(jù)庫中與給定圖像相似度高的圖像作為候選圖像集,從候選圖像集中選取最相似的幾個(gè)圖像,利用它們的圖像標(biāo)題,組合成給定圖像的標(biāo)題,其代表性研究是Kuznetsova 等人在2012 年提出的基于檢索方法的圖像標(biāo)題生成模型。該模型由整體的數(shù)據(jù)驅(qū)動(dòng)生成圖像標(biāo)題,基于輸入圖像,在數(shù)據(jù)庫中檢索相似圖像以及描述該圖像的人工合成短語,然后有選擇地將這些短語組合起來,生成圖像標(biāo)題,其示意圖如圖2 所示。Ordonez 等人基于對(duì)圖像數(shù)據(jù)庫規(guī)模的擴(kuò)充和相似度計(jì)算方法的改進(jìn)對(duì)該模型進(jìn)行了優(yōu)化。數(shù)據(jù)庫包括從網(wǎng)絡(luò)上收集的100 萬張帶有標(biāo)題的圖片。該模型獲取到輸入圖像后,在數(shù)據(jù)庫中檢索相似的圖像作為候選,通過目標(biāo)檢測(cè)技術(shù)檢測(cè)候選圖像中的對(duì)象、動(dòng)作、場景和TF-IDF(term frequencyinverse document frequency)權(quán)重,計(jì)算候選圖像與輸入圖像的相似度,取相似度前四的圖像標(biāo)題組合成輸入圖像的標(biāo)題。在一定程度上提高了標(biāo)題質(zhì)量。
圖2 基于檢索的方法流程Fig.2 Retrieval-based method flow
基于檢索的方法是由現(xiàn)有的圖像標(biāo)題驅(qū)動(dòng)生成新的圖像標(biāo)題,對(duì)輸入圖像與數(shù)據(jù)庫圖像的相似度有較強(qiáng)的依賴性,即若給定的圖片與數(shù)據(jù)庫中的圖像相似度高,生成的圖像標(biāo)題質(zhì)量就高;若相似度低,結(jié)果就不盡人意,且圖像標(biāo)題的形式也受到數(shù)據(jù)庫中標(biāo)題形式的限制,不會(huì)產(chǎn)生數(shù)據(jù)庫以外的單詞,標(biāo)題生成局限性較大。
基于編碼-解碼的方法是一種依賴深度學(xué)習(xí)技術(shù)的圖像標(biāo)題生成方法。該方法使用兩組神經(jīng)網(wǎng)絡(luò)分別作為編碼器和解碼器。編碼過程是使用編碼器提取圖像的特征,解碼過程是對(duì)圖像的特征進(jìn)行解碼,按照時(shí)間順序生成單詞,最終組合成圖像標(biāo)題。其代表性工作源于Cho 等人在2014 年提出的解決機(jī)器翻譯(machine translation,MT)任務(wù)的編碼器-解碼器模型,該模型使用兩個(gè)遞歸神經(jīng)網(wǎng)絡(luò)(recursive neural network,RNN)分別作為編碼器和解碼器,模型使用編碼器對(duì)源語言進(jìn)行編碼,再使用解碼器解碼成目標(biāo)語言,該模型在機(jī)器翻譯任務(wù)中取得了令人鼓舞的效果。2015年,Vinyals等人將編碼-解碼的思想引入圖像標(biāo)題生成領(lǐng)域中,提出NIC(neural image caption)模型。該模型采用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)作為編碼器,長短期記憶網(wǎng)絡(luò)(long short-term memory networks,LSTM)作為解碼器。模型獲取到輸入圖像后,首先使用CNN提取圖像的全局特征,使用圖像的全局特征初始化解碼器,然后解碼器按時(shí)刻生成單詞,最終組合成圖像標(biāo)題,其流程如圖3 所示?!?span id="j5i0abt0b" class="emphasis_italic">S代表圖像標(biāo)題中的單詞,和S為標(biāo)題的開始標(biāo)志和結(jié)束標(biāo)志,代表生成單詞的概率。
圖3 基于編碼-解碼方法流程Fig.3 Method flow based on encode-decode
基于編碼-解碼的方法擺脫了對(duì)模板和數(shù)據(jù)庫的依賴,生成的標(biāo)題具有前兩種方法不具有的高靈活性、高質(zhì)量和高擴(kuò)展性。但該種方法依然存在一些問題需要深入研究,如視覺特征的提取問題、語義鴻溝問題、模型復(fù)雜度高等問題。
圖像標(biāo)題生成方法均有其各自的優(yōu)缺點(diǎn),其中基于編碼-解碼的方法憑借其生成標(biāo)題不受模板和數(shù)據(jù)庫容量限制,具有高多樣性、高靈活性等優(yōu)點(diǎn),目前已經(jīng)成為圖像標(biāo)題生成領(lǐng)域的主流生成方法。針對(duì)基于編碼-解碼方法的研究也不斷深入,本文將在第2 章深入介紹基于編碼-解碼的圖像標(biāo)題生成方法的研究現(xiàn)狀。
隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展和針對(duì)圖像標(biāo)題生成任務(wù)研究的不斷深入,研究者們提出了一系列優(yōu)秀的模型和算法。本章按照?qǐng)D像標(biāo)題生成流程將這些模型和算法分類為圖像理解階段的研究和標(biāo)題生成階段的研究,闡述相關(guān)研究的思路、優(yōu)勢(shì)以及存在的問題。本章采用NIC 模型作為基線進(jìn)行對(duì)比。
圖像理解階段工作為完成對(duì)圖像內(nèi)容的理解,提取圖像特征。作為本節(jié)的基線,NIC 模型在圖像理解階段存在以下兩個(gè)主要缺陷:
(1)模型直接使用圖像的全局特征指導(dǎo)解碼器生成標(biāo)題,因此模型沒有關(guān)注圖像重點(diǎn)區(qū)域的能力。
(2)圖像的全局特征中只含有圖像的高層語義,其感受野較大,對(duì)圖像中對(duì)象的位置和相互關(guān)系感知能力較差,不足以支撐模型生成高質(zhì)量的標(biāo)題。
根據(jù)解決這兩個(gè)問題的方法,本文將相關(guān)研究分類為注意力機(jī)制的研究和語義獲取的研究。
注意力機(jī)制在機(jī)器翻譯領(lǐng)域廣泛應(yīng)用的背景下,研究者們針對(duì)模型生成標(biāo)題關(guān)注不到圖像重點(diǎn)的問題,提出使用注意力機(jī)制解決此問題。2015 年,Xu 等人首次將注意力機(jī)制應(yīng)用到圖像標(biāo)題生成領(lǐng)域,提出基于注意力機(jī)制的圖像標(biāo)題生成模型,其中包括基于“軟”注意力機(jī)制(soft attention)的模型和基于“硬”注意力機(jī)制(hard attention)的模型?!败洝弊⒁饬γ看谓獯a會(huì)將權(quán)重分配到所有區(qū)域,權(quán)重取值在0 到1 之間,采用后向傳播進(jìn)行訓(xùn)練?!坝病弊⒁饬C(jī)制每次解碼只關(guān)注圖中的一個(gè)區(qū)域,采用one-hot 編碼,花費(fèi)時(shí)間較少,但是不可微分,一般采用蒙特卡洛采樣方法先對(duì)梯度進(jìn)行估計(jì),然后進(jìn)行后向傳播訓(xùn)練。目前圖像標(biāo)題生成領(lǐng)域常用的注意力機(jī)制,以“軟”注意力機(jī)制為主。注意力機(jī)制模型將CNN 提取的圖像特征由全局特征優(yōu)化為區(qū)域特征。模型在生成單詞之前都會(huì)通過注意力機(jī)制計(jì)算要生成的單詞與圖像中各區(qū)域的相關(guān)度,選取相關(guān)度高的區(qū)域的區(qū)域特征,傳入解碼器,指導(dǎo)解碼器生成圖像標(biāo)題。注意力機(jī)制的引入使圖像標(biāo)題生成模型有了關(guān)注重點(diǎn)區(qū)域的能力。但這種注意力機(jī)制會(huì)將單詞與去向區(qū)域強(qiáng)制對(duì)應(yīng),像“of”“the”這種虛詞也會(huì)強(qiáng)制對(duì)應(yīng)圖像中的區(qū)域造成算力浪費(fèi)。因此,Lu等人提出一種自適應(yīng)注意力機(jī)制。該注意力機(jī)制引入“視覺前哨(visual sentinel)”向量,此向量表示生成單詞與視覺信息的相關(guān)性取值在0 和1 之間,當(dāng)單詞與圖像直接相關(guān)時(shí),取值為1,模型會(huì)關(guān)注圖像的區(qū)域并生成單詞。當(dāng)生成“of”“the”這種與圖像相關(guān)性低的單詞時(shí),則直接通過語言模型推測(cè)。該模型解決了虛詞強(qiáng)制對(duì)應(yīng)圖像區(qū)域的問題,并且有良好的泛化性,改善了原有的注意力機(jī)制的算力浪費(fèi)的問題。Huang 等人提出了一種AOA(attention on attention)模塊。AOA 是針對(duì)注意力機(jī)制設(shè)計(jì)的一種擴(kuò)展模塊,AOA 能夠更加精確地計(jì)算向量和注意力查詢的相關(guān)性,避免了即使無關(guān)也產(chǎn)生加權(quán)平均值的問題。該模塊相當(dāng)靈活,可以對(duì)任何模型和任何注意力機(jī)制進(jìn)行擴(kuò)展。
傳統(tǒng)模型采用CNN 的高層卷積層提取的圖像特征作為輸出,這種特征圖丟失了很多圖像信息并且較大的感受野會(huì)影響注意力機(jī)制的性能。于是研究者們提出使用注意力機(jī)制融合高層特征圖中的高級(jí)特征與低級(jí)特征圖中的低級(jí)特征。Chen 等人提出空間和通道注意力機(jī)制模型(spatial and channel-wise attention,SCA),融合了通道注意力機(jī)制和空間注意力機(jī)制的SCA 可以同時(shí)關(guān)注多層的圖像特征圖,即在使用低層特征圖保留的圖像信息的同時(shí)關(guān)注高層特征圖提取的圖像的高層語義,避免了傳統(tǒng)注意力機(jī)制使用高層空間特征圖造成的空間信息丟失和注意力機(jī)制功能受限的問題。Ding 等人模仿人類視覺系統(tǒng)的感官刺激理論,提出自底向上的注意力機(jī)制算法,對(duì)圖像區(qū)域的低級(jí)特征,如對(duì)比度、銳度、清晰度,高級(jí)特征,如人臉影響進(jìn)行評(píng)分,并將評(píng)分進(jìn)行綜合,以此來決定注意力應(yīng)該關(guān)注的區(qū)域。You 等人則是融合自頂向下和自底向上方法。該模型獲取到圖片后,通過CNN 獲取其視覺特征,同時(shí)檢測(cè)圖像中的視覺概念,如對(duì)象、區(qū)域、屬性等。然后通過一個(gè)語義注意力模塊將圖片的視覺特征和視覺概念融合,并使用LSTM 生成單詞。該模型能夠處理圖像中語義上重要的概念或感興趣的區(qū)域,加權(quán)多個(gè)概念所關(guān)注的相對(duì)強(qiáng)度和根據(jù)任務(wù)狀態(tài)動(dòng)態(tài)地在概念之間切換注意力。以上幾項(xiàng)研究,選擇使用注意力機(jī)制算法融合高級(jí)特征和低級(jí)特征的方式,彌補(bǔ)了只使用高級(jí)特征造成的信息丟失,獲取了更多的圖像信息。其中,文獻(xiàn)[10]直接使用完整圖像的特征圖作為圖像的高級(jí)特征,文獻(xiàn)[10-11]則是使用Faster RCNN(faster region convolutional neural network)檢測(cè)后的區(qū)域特征作為高級(jí)特征。這兩種方式在圖像方面都有一定的局限性,文獻(xiàn)[10]使用整張圖像的特征,提取的為圖像的粗粒度語義。文獻(xiàn)[11-12]提取的則是區(qū)域級(jí)的細(xì)粒度語義,會(huì)造成一定的區(qū)域外的語義丟失問題。而這一問題,也是未來需要研究的問題。
語義作為計(jì)算機(jī)視覺和自然語言處理領(lǐng)域的常見概念,其對(duì)于圖像標(biāo)題生成領(lǐng)域也是及其重要的。圖像理解階段其實(shí)就是獲取的圖像特征和語義的過程,這個(gè)階段獲取的圖像特征和語義越多,解碼器生成標(biāo)題時(shí)獲得的指導(dǎo)也就更多,而NIC 模型的全局圖像特征對(duì)對(duì)象屬性、位置和相互關(guān)系等語義反映不足。圖像標(biāo)題生成模型中語義獲取方面的問題,研究者們也進(jìn)行了相應(yīng)的探索。
Wu 等人首先對(duì)圖像標(biāo)題生成任務(wù)中是否需要圖像的高級(jí)概念(對(duì)象屬性)進(jìn)行了探究,方法是CNN和LSTM 之間加入了一層屬性預(yù)測(cè)層,構(gòu)成基于屬性的卷積神經(jīng)網(wǎng)絡(luò)(attribute convolutional neural network,att-CNN)模型。該模型是一種基于屬性的神經(jīng)網(wǎng)絡(luò)模型,att-CNN 模型中的編碼器在提取了圖像特征后,對(duì)圖像中的對(duì)象屬性進(jìn)行預(yù)測(cè),獲取圖像的高級(jí)概念,將其構(gòu)造成向量,并指導(dǎo)LSTM 生成圖像標(biāo)題。經(jīng)過實(shí)驗(yàn)對(duì)比發(fā)現(xiàn),模型獲取了圖像的高級(jí)概念之后,模型在標(biāo)準(zhǔn)數(shù)據(jù)集和評(píng)價(jià)指標(biāo)下的評(píng)分均顯著高于以NIC 模型為代表的傳統(tǒng)編碼器-解碼器模型。證明了圖像標(biāo)題生成模型中圖像高層語義的必要性和重要性。在此基礎(chǔ)上,Yao 等人探究了五種不同的將圖像特征和語義注入LSTM 的方式,分別是:(1)只注入語義特征;(2)先注入圖像特征再注入語義特征;(3)先注入語義特征再注入圖像特征;(4)先注入語義特征,將圖像特征伴隨詞嵌入注入;(5)先注入圖像特征,將語義特征伴隨詞嵌入注入。最終得出結(jié)論第五種方式是五種方式中語義特征和圖像特征結(jié)合最好的方式。文獻(xiàn)[13-14]為圖像標(biāo)題生成領(lǐng)域語義獲取方面的研究奠定了基礎(chǔ),文獻(xiàn)[13]證明了模型需要圖像的對(duì)象屬性指導(dǎo)標(biāo)題生成。而文獻(xiàn)[14]則是對(duì)語義注入解碼器的最優(yōu)方式進(jìn)行了探究。不同于將編碼器優(yōu)化為屬性預(yù)測(cè)器,Tanti等人在獲取語義方面采取了雙編碼器策略。一個(gè)CNN 提取圖像特征,一個(gè)RNN 提取標(biāo)題特征,特征融合后輸入前饋神經(jīng)網(wǎng)絡(luò),生成標(biāo)題。該模型同時(shí)對(duì)圖像和標(biāo)題進(jìn)行特征提取,獲取圖像特征及圖像語義,指導(dǎo)模型生成標(biāo)題。該方法優(yōu)點(diǎn)是更加適合遷移學(xué)習(xí),兩個(gè)編碼器都可以進(jìn)行遷移學(xué)習(xí)。
自編碼器-解碼器模型提出以來,由于技術(shù)條件所限,對(duì)圖像的高層語義提取的研究進(jìn)展較為緩慢。直到Kipf 等人提出圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional network,GCN)。GCN 在提取圖結(jié)構(gòu)這種非歐式數(shù)據(jù)的特征時(shí),表現(xiàn)出了極高的性能,而且其在未經(jīng)過訓(xùn)練時(shí)的性能也保持較高的性能。而圖結(jié)構(gòu)在表達(dá)圖像中的語義信息方面有著其他數(shù)據(jù)結(jié)構(gòu)無法比擬的優(yōu)勢(shì),其可以表達(dá)出圖像中的對(duì)象、對(duì)象的屬性以及對(duì)象間的相互關(guān)系這種圖像的高層語義。
2018 年,Yao 等人提出了GCN-LSTM 架構(gòu)的圖像標(biāo)題生成模型,首次將GCN 應(yīng)用到圖像標(biāo)題生成領(lǐng)域。模型依賴目標(biāo)檢測(cè)技術(shù)(如Faster R-CNN)。該模型首先通過目標(biāo)檢測(cè)技術(shù)檢測(cè)出圖像中的對(duì)象、對(duì)象屬性和對(duì)象之間的關(guān)系,然后構(gòu)造圖結(jié)構(gòu)。使用GCN 提取圖結(jié)構(gòu)的特征,使用該特征指導(dǎo)LSTM生成標(biāo)題。目前圖卷積神經(jīng)網(wǎng)絡(luò)被廣泛地使用在圖像標(biāo)題生成模型中。值得一提的是配合圖卷積神經(jīng)網(wǎng)絡(luò)的出現(xiàn),圖像的特征由原來的直接提取網(wǎng)格級(jí)(grid)特征變成了先由目標(biāo)檢測(cè)技術(shù)提取圖像的區(qū)域級(jí)(region)特征。Yao等人提出了層次分析法體系結(jié)構(gòu)(hierarchy parsing,HIP),該結(jié)構(gòu)通過Faster RCNN 和Mask R-CNN(mask region convolutional neural network)技術(shù)對(duì)圖像進(jìn)行區(qū)域級(jí)和實(shí)例級(jí)分割,將圖像構(gòu)造成樹結(jié)構(gòu)={,,,,其中代表圖像,代表區(qū)域級(jí)對(duì)象,代表實(shí)例級(jí)對(duì)象,代表樹結(jié)構(gòu)中的關(guān)系,然后采用GCN 提取樹結(jié)構(gòu)的特征,將特征傳入U(xiǎn)p-to-down 注意力機(jī)制進(jìn)行計(jì)算,計(jì)算出最相關(guān)的幾個(gè)對(duì)象,通過對(duì)象特征指導(dǎo)Tree-LSTM 生成圖像標(biāo)題。HIP 層次分析法,模型能夠提取到圖像的三級(jí)語義,獲取的語義更加豐富,產(chǎn)生的標(biāo)題質(zhì)量更高且模型泛化能力較強(qiáng)。但是樹結(jié)構(gòu)在表達(dá)圖像中對(duì)象的復(fù)雜關(guān)系時(shí),有一定的局限性。因此,Shi等人提出了一種標(biāo)題引導(dǎo)的視覺關(guān)系圖(captionguided visual relationship graph,CGVRG)的框架。該框架首先通過Faster R-CNN 獲取圖像中的對(duì)象,文本場景圖解析器從標(biāo)題中提取關(guān)系三元組。然后將對(duì)象和謂語動(dòng)詞通過弱監(jiān)督學(xué)習(xí)對(duì)應(yīng)起來,構(gòu)造CGVRG。將CGVRG 輸入GCN,通過GCN 提取CGVRG 的特征和上下文向量,該模型使用圖結(jié)構(gòu)的特征和上下文向量指導(dǎo)解碼器生成標(biāo)題,因此模型具有更好的語義信息。與之類似的,Chen 等人提出了一種ASG2Caption(abstract scene graph to caption),該模型通過一種名為抽象場景圖的有向圖結(jié)構(gòu)驅(qū)動(dòng)模型生成標(biāo)題。ASG 中包含三種抽象節(jié)點(diǎn),對(duì)象節(jié)點(diǎn)、屬性節(jié)點(diǎn)以及關(guān)系節(jié)點(diǎn)。模型首先通過目標(biāo)檢測(cè)技術(shù)構(gòu)建ASG,然后使用GCN 對(duì)ASG 進(jìn)行編碼,最后通過ASG 和圖像特征指導(dǎo)解碼器生成標(biāo)題。以上幾項(xiàng)研究總體上概括了圖卷積神經(jīng)網(wǎng)絡(luò)在圖像標(biāo)題生成領(lǐng)域應(yīng)用的現(xiàn)狀。首先使用Faster R-CNN 對(duì)圖像進(jìn)行目標(biāo)檢測(cè),生成區(qū)域級(jí)的圖像特征。然后使用區(qū)域級(jí)的圖像特征和語義,如對(duì)象、對(duì)象屬性和對(duì)象關(guān)系等,構(gòu)造成不同的數(shù)據(jù)結(jié)構(gòu)(大部分是各種圖結(jié)構(gòu))。最后將生成的圖結(jié)構(gòu)傳入GCN,通過解碼器生成標(biāo)題。
圖卷積神經(jīng)網(wǎng)絡(luò)高度依賴目標(biāo)檢測(cè)技術(shù)提取的區(qū)域級(jí)描述特征,這種特征本身存在缺乏上下文信息和細(xì)粒度信息的缺點(diǎn)。傳統(tǒng)卷積提取的網(wǎng)格特征不存在這兩種缺點(diǎn),但語義并不如區(qū)域級(jí)特征豐富。Luo 等人針對(duì)這個(gè)問題提出了雙極協(xié)同的Transformer 架構(gòu),這種架構(gòu)可以通過注意力機(jī)制運(yùn)算選取并融合兩種級(jí)別的特征,并傳入Transformer解碼器中生成圖像標(biāo)題。該架構(gòu)生成的標(biāo)題,具有豐富的細(xì)節(jié)和語義信息。Li等人則是通過兩個(gè)Transformer構(gòu)成一個(gè)Entangle-Transformer 結(jié)構(gòu),分別對(duì)文本和圖像進(jìn)行特征提取并通過Entangle-Transformer 融合,緩解了語義鴻溝問題。
以上針對(duì)圖像理解階段的研究模型的性能表現(xiàn)如表1 所示(實(shí)驗(yàn)數(shù)據(jù)均源自相關(guān)文章,只統(tǒng)計(jì)在Karpathy 分割下MSCOCO 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果),優(yōu)勢(shì)及缺陷如表2 所示,具體數(shù)據(jù)集和評(píng)測(cè)指標(biāo)相關(guān)內(nèi)容見第3章。由以上研究可以看出,目前在圖像理解階段的研究依然圍繞兩個(gè)方面。一方面通過各種技術(shù)獲取圖像中更豐富的語義信息,比如將屬性預(yù)測(cè)器添加進(jìn)CNN-LSTM,使用各種圖結(jié)構(gòu)表達(dá)圖像中的語義信息。另一方面則是獲取到豐富的信息之后,使用各種不同的注意力機(jī)制方法,使模型能夠在生成單詞時(shí)“關(guān)注”到正確且豐富的信息。
表1 圖像理解模型在MSCOCO 數(shù)據(jù)集上的性能表現(xiàn)Table 1 Performance of image understanding models on MSCOCO dataset
表2 圖像理解模型優(yōu)勢(shì)及局限性Table 2 Advantages and limitations of image understanding models
圖像理解階段的主流編碼器已經(jīng)完成了從CNN到GCN 的更迭,但正如文獻(xiàn)[21-22],Transformer和BERT及其相關(guān)變體模型,也逐步應(yīng)用到圖像標(biāo)題生成領(lǐng)域。相對(duì)于CNN 對(duì)整張圖片進(jìn)行特征提取,GCN 則是依賴目標(biāo)檢測(cè)技術(shù)中的Faster R-CNN 先對(duì)圖像進(jìn)行目標(biāo)檢測(cè),再提取區(qū)域級(jí)特征。目前對(duì)于GCN 的研究主要集中在構(gòu)造各種類型的圖結(jié)構(gòu),表達(dá)更多的圖像語義。這方面的研究的確取得了卓越的表現(xiàn)。但其依然存在一些問題值得未來深入研究:一方面,區(qū)域級(jí)特征和傳統(tǒng)網(wǎng)格特征融合的問題;另一方面,目前的針對(duì)圖像理解的研究還是處于割裂的階段,很少能有模型注意到標(biāo)題中的文本語義對(duì)模型的影響。因此,如何融合圖像語義和文本語義也是未來需要深入研究的一個(gè)問題。
標(biāo)題生成階段的工作為解碼器根據(jù)編碼器提取的圖像特征和語義信息生成圖像標(biāo)題。解碼器主要采用長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)。本節(jié)根據(jù)生成標(biāo)題的類型,將近年來針對(duì)標(biāo)題生成階段的研究分為三類:生成傳統(tǒng)標(biāo)題的研究、生成密集標(biāo)題的研究和生成個(gè)性化標(biāo)題的研究。
傳統(tǒng)標(biāo)題作為最常見的標(biāo)題,多為陳述性句子。按照主謂賓經(jīng)典結(jié)構(gòu),再加以適當(dāng)?shù)男揎?,能夠言簡意賅地描述出圖像的核心內(nèi)容。然而,作為主流解碼器的LSTM 存在明顯的局限性,主要有以下幾點(diǎn):
(1)LSTM 作為一種序列型語言模型,傾向于預(yù)測(cè)語料庫中出現(xiàn)頻率高的語料,造成標(biāo)題多樣性低。
(2)序列模型在逐字預(yù)測(cè)過程中,對(duì)象、對(duì)象的屬性和對(duì)象的關(guān)系的混合會(huì)影響訓(xùn)練的效果。
(3)LSTM 作為循環(huán)神經(jīng)網(wǎng)絡(luò)的一種變體,具有高復(fù)雜度的遞歸單元,且其固有時(shí)間順序,無法并行訓(xùn)練,訓(xùn)練成本較高。
因此,針對(duì)傳統(tǒng)標(biāo)題的研究熱點(diǎn)主要是站在語言模型的角度,優(yōu)化解碼器的結(jié)構(gòu)。目的是生成更流暢、更多樣以及更符合邏輯的句子。2016 年,Wang等人對(duì)LSTM 結(jié)構(gòu)進(jìn)行了調(diào)整,提出了雙向深層LSTM,這種模型將LSTM 由單向構(gòu)造為雙向,并通過堆疊多層LSTM,相較于原始LSTM,雙向深層LSTM能夠更好地表達(dá)圖像以及上下文語義。值得一提的是,該模型在未引入注意力機(jī)制的情況下,表現(xiàn)出的性能在當(dāng)時(shí)也具有很強(qiáng)的競爭力。但其缺點(diǎn)也很明顯,雙向深層LSTM 具有更高的復(fù)雜度,需要更多的訓(xùn)練時(shí)間。
Wang 等人針對(duì)序列模型的局限性,提出了組合型LSTM,該組合型LSTM 由一個(gè)骨架LSTM 和一個(gè)屬性LSTM 組成,使用含有高級(jí)語義的圖像特征的骨架LSTM 指導(dǎo)生成句子的基本骨架,然后通過屬性LSTM 生成句子的定語部分,最終組合成句子。Dai等人同樣針對(duì)此問題提出了不同的解決方法,模型首先從圖像中提取各種名詞-屬性的短語,組成初始短語池。然后遞歸地使用一個(gè)連接模塊將兩個(gè)短語組合成一個(gè)較長的短語,直到評(píng)估模塊確定獲得了一個(gè)完整的標(biāo)題。以上兩種模型都通過組合的思想,改善序列模型的問題,能夠更準(zhǔn)確、更具體地生成分布外的圖像標(biāo)題,因此該模型在SPICE 指標(biāo)上表現(xiàn)優(yōu)越,但是犧牲了一定的句子流暢度(BLEU 評(píng)分較低)。為了調(diào)節(jié)序列模型和組合模型的缺陷,Tian等人提出了一種組合神經(jīng)模塊網(wǎng)絡(luò)的序列模型,該模型結(jié)合了序列模型和組合模型的優(yōu)點(diǎn)。該模型首先提出感興趣的區(qū)域,根據(jù)上下文計(jì)算要關(guān)注的區(qū)域;然后所選區(qū)域的區(qū)域特征和整個(gè)圖像特征被輸入到一組模塊中,其中每個(gè)模塊負(fù)責(zé)預(yù)測(cè)對(duì)象的一個(gè)方面,如數(shù)量、顏色和大??;最終將這些模塊的結(jié)果動(dòng)態(tài)組合,并在多次預(yù)測(cè)后組合成標(biāo)題。該模型產(chǎn)生的標(biāo)題既擁有序列模型產(chǎn)生標(biāo)題沒有的靈活性,也比組合型模型產(chǎn)生的標(biāo)題流暢度更高。
為了增強(qiáng)LSTM 長序列依賴性,Ke 等人提出反射解碼網(wǎng)絡(luò)(reflective decoding network,RDN),該網(wǎng)絡(luò)通過反射注意力模塊(reflective attention module,RAM)和反射位置模塊(reflective position module,RPM)的協(xié)作,增強(qiáng)了解碼器的長序列依賴性和位置感知能力,有效地提高了解碼器的長序列建模能力。該網(wǎng)絡(luò)生成的圖像標(biāo)題能關(guān)注到“更早”之前生成的單詞,并且具有了聯(lián)想的能力,例如模型可以通過圖中的“火車”“鐵軌”推斷出所在的地點(diǎn)為車站。Wang 等人在解碼器上引入了一種召回機(jī)制,模仿人類進(jìn)行圖片描述時(shí)會(huì)思考過去的經(jīng)驗(yàn)的行為,提出了基于召回機(jī)制的圖像標(biāo)題生成模型。召回機(jī)制由召回單元(recall unit,RU)、語義指南(semantic guide,SG)和召回詞槽(recalled-word slot,RWS)組成。模型首先通過計(jì)算圖像特征和單詞特征映射在同一空間,然后語義指南模塊通過注意力機(jī)制計(jì)算圖像與召回詞之間的相關(guān)度,獲得召回詞權(quán)重,選擇召回詞。召回詞槽負(fù)責(zé)將被召回的單詞復(fù)制到標(biāo)題中。該模型生成的標(biāo)題更加符合人類語言邏輯,增加了模型的長依賴性。
LSTM 的遞歸性和時(shí)序性,造成其高復(fù)雜度和無法并行訓(xùn)練的固有局限。因此,Aneja 等人開創(chuàng)性提出了一種卷積解碼結(jié)構(gòu),該結(jié)構(gòu)將模型中的解碼器替換成了一組掩碼卷積神經(jīng)網(wǎng)絡(luò)。該網(wǎng)絡(luò)通過掩碼的操作能夠完成并行訓(xùn)練,且沒有任何遞歸單元,節(jié)省了模型訓(xùn)練的時(shí)間,且不受梯度消失的影響。Transformer 和BERT 近年來也開始逐漸被應(yīng)用在標(biāo)題生成階段,Cornia 等人提出了一種MTransformer(meshed-memory transformer)結(jié)構(gòu),該體系結(jié)構(gòu)改進(jìn)了圖像編碼和語言生成步驟:它整合學(xué)習(xí)到的先驗(yàn)知識(shí),學(xué)習(xí)圖像區(qū)域之間關(guān)系的多層次表示,并在解碼階段使用類似網(wǎng)格的連接來利用低級(jí)和高級(jí)特征,在降低模型復(fù)雜度的同時(shí),緩解了語義鴻溝問題。Hosseinzadeh 等人則是使用Transformer模型完成了描述圖像細(xì)微差別的任務(wù),該模型通過與圖像檢索技術(shù)相結(jié)合,能夠?qū)蓮堉挥屑?xì)微差別的圖片進(jìn)行差別描述。
密集標(biāo)題(dense caption)是標(biāo)題生成模型功能的一種擴(kuò)展。其功能是為所有檢測(cè)到的對(duì)象生成描述。具體標(biāo)題形式見圖4。
圖4 密集標(biāo)題Fig.4 Dense caption
2013 年,Kulkarni 等人在基于模板的模型上進(jìn)行了密集標(biāo)題,提出了一個(gè)能夠生成密集標(biāo)題的模型。該模型檢測(cè)到圖像中的對(duì)象后,對(duì)圖像的屬性和關(guān)系進(jìn)行推理,生成一個(gè)詳細(xì)的描述,然后通過條件隨機(jī)場生成具有一定邏輯性的段落。該模型雖然一定程度上完成生成密集的任務(wù),但是由于當(dāng)時(shí)技術(shù)限制,以及基于模板方法手動(dòng)提取特征的缺陷,導(dǎo)致該模型魯棒性較差。
2016 年,Johnson等人首次引入了密集的標(biāo)題任務(wù)概念,即為圖像生成更多條語句,多條語句之間有一定的相關(guān)性,能夠更加詳細(xì)地描述圖像的內(nèi)容。其還提出了一個(gè)全卷積定位網(wǎng)絡(luò)(fully convolutional localization network,F(xiàn)CLN)架構(gòu),該架構(gòu)由一個(gè)卷積網(wǎng)絡(luò)、一種密集定位層和生成標(biāo)簽序列的遞歸神經(jīng)網(wǎng)絡(luò)語言模型組成,密集定位層即對(duì)圖像分塊定位、分塊描述。密集定位層的加入使得圖像能夠被更精細(xì)地描述,生成更加詳細(xì)的標(biāo)題。雖然取得了令人印象深刻的結(jié)果,但這種方法沒有考慮到突出的圖像區(qū)域之外的上下文。為了解決這個(gè)問題,Yang 等人提出了使用Faster R-CNN 進(jìn)行目標(biāo)檢測(cè),并提取區(qū)域圖像特征后,將整個(gè)圖像的特征傳入解碼器中作為上下文使用。而Kim 等人提出使用POS(part of speech)標(biāo)簽指導(dǎo)生成標(biāo)題。該模型使用一個(gè)多任務(wù)三重流網(wǎng)絡(luò)預(yù)測(cè)各個(gè)對(duì)象的POS,然后使用POS 作為上下文指導(dǎo)標(biāo)題生成。以上的工作只能針對(duì)2D圖像無法捕捉到3D 圖像。Chen 等人使用commodity RGB-D 傳感器的三維掃描密集標(biāo)題任務(wù)。該模型通過三維掃描,能夠更加精準(zhǔn)地捕獲對(duì)象的定位,以及對(duì)象的特征及屬性,使模型能夠完成3D 圖像的密集標(biāo)題生成任務(wù)。
通過以上研究可以看出,針對(duì)生成圖像密集標(biāo)題的任務(wù),研究重心主要集中在對(duì)象定位的準(zhǔn)確性上,一般來說目標(biāo)檢測(cè)越精準(zhǔn),生成的密集標(biāo)題質(zhì)量也越高。
傳統(tǒng)的圖像標(biāo)題生成模型生成的標(biāo)題大多數(shù)都是陳述性句子,基本不帶有感情色彩。隨著圖像標(biāo)題生成模型在日常生活中的應(yīng)用,人們發(fā)現(xiàn)了讓生成句子帶有情感的必要性,具體標(biāo)題形式見圖5。
圖5 個(gè)性化標(biāo)題Fig.5 Stylish caption
Mathews 等人提出了具有開關(guān)式RNN 的模型。這種模型實(shí)際上是在傳統(tǒng)RNN 上添加了一個(gè)“情感門”,“情感門”通過函數(shù)來控制生成句子中的積極情感(positive)和消極情感(negative),從而生成帶有情感色彩的文本描述。但是該模型對(duì)于積極情感和消極情感的區(qū)分過于粗糙,并且無法生成帶有復(fù)雜情感的句子。Chen 等人提出了Style-Factual LSTM,通過對(duì)抗性訓(xùn)練的方法來訓(xùn)練程式化的圖像標(biāo)題生成模型。該模型可以生成積極、消極、浪漫和幽默風(fēng)格的標(biāo)題。以上這兩種方法很大程度上依賴于成對(duì)圖像的程式化句子來訓(xùn)練程式化圖像標(biāo)題生成模型。
Gan 等人提出一種StyleNet 框架,該框架使用未配對(duì)的程式化語料庫生成具有浪漫、幽默風(fēng)格的圖像標(biāo)題。該框架中使用了一種可以自動(dòng)提取文本語料庫中的樣式風(fēng)格的Factored-LSTM,可以通過對(duì)圖像數(shù)據(jù)集和帶有風(fēng)格的文本數(shù)據(jù)集的聯(lián)合訓(xùn)練,生成帶有風(fēng)格的標(biāo)題。張凱等人提出了一種雙解碼器的雙語圖像標(biāo)題生成模型,該模型使用雙解碼器,對(duì)同一圖像生成兩種語言的標(biāo)題,這種方法雖然有效地利用了兩門語言特征,但是由于不同語種的語序有所不同,兩種語言的聯(lián)合方法可能存在融合噪聲的問題。Chen 等人提出了一種可控的時(shí)尚圖像描述生成模型。使用兩種訓(xùn)練集和兩種編碼器——傳統(tǒng)訓(xùn)練集(源訓(xùn)練集)和帶有目標(biāo)風(fēng)格的文本訓(xùn)練集(目標(biāo)訓(xùn)練集),傳統(tǒng)編碼器CNN 和文本編碼器(skip-thought vectors,STV),通過對(duì)兩種數(shù)據(jù)集的聯(lián)合訓(xùn)練,可以生成帶有寫作風(fēng)格的圖像標(biāo)題,句子的靈活性有了極大的提高。Zhao 等人提出了一種新的程式化圖像字幕方法MemCap。MemCap 使用記憶模塊記憶語言風(fēng)格,并在解碼階段使用注意力機(jī)制關(guān)注標(biāo)題和語言風(fēng)格來生成標(biāo)題。因此,該方法能夠準(zhǔn)確地描述圖像的內(nèi)容,并適當(dāng)?shù)胤从吵鰣D像所期望的語言風(fēng)格。另外,該方法能夠同時(shí)執(zhí)行單風(fēng)格和多風(fēng)格標(biāo)題,泛化性強(qiáng)。
以上針對(duì)圖像理解階段的研究模型的性能表現(xiàn)如表3所示(實(shí)驗(yàn)數(shù)據(jù)均源自相關(guān)文章,只統(tǒng)計(jì)在Karpathy 分割下MSCOCO 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果),優(yōu)勢(shì)及缺陷如表4 所示,具體數(shù)據(jù)集和評(píng)測(cè)指標(biāo)相關(guān)內(nèi)容見第3章。由以上研究可以看出,相較于圖像理解階段的圍繞大方面進(jìn)行研究,標(biāo)題生成階段的研究更加多樣。傳統(tǒng)標(biāo)題生成、密集標(biāo)題生成和個(gè)性化標(biāo)題生成的研究重點(diǎn)各有側(cè)重。傳統(tǒng)標(biāo)題生成較為依賴目標(biāo)檢測(cè)技術(shù),因此其研究重點(diǎn)主要是優(yōu)化解碼器局限性,提高標(biāo)題的流暢性、邏輯性、長依賴性等質(zhì)量指標(biāo)。密集標(biāo)題生成的研究主要圍繞著如何對(duì)圖像中的對(duì)象進(jìn)行精準(zhǔn)定位,獲取更多的對(duì)象信息,如位置、屬性和相對(duì)關(guān)系等。而個(gè)性化標(biāo)題的生成研究焦點(diǎn)則是使用不同風(fēng)格的語料庫和配對(duì)方式,生成不同風(fēng)格的標(biāo)題。
表3 標(biāo)題生成模型在MSCOCO 數(shù)據(jù)集上的表現(xiàn)Table 3 Performance of caption generation models on MSCOCO dataset
表4 標(biāo)題生成模型優(yōu)勢(shì)及局限性Table 4 Advantages and limitations of caption generation models
圖像標(biāo)題生成領(lǐng)域,目前有多個(gè)常用的數(shù)據(jù)集,如MSCOCO、Flickr30K、Flickr8K 等,其信息如表5所示。
表5 圖像標(biāo)題生成數(shù)據(jù)集信息Table 5 Information of image captions generation datasets
(1)MSCOCO 數(shù)據(jù)集是目前最大的圖像標(biāo)題生成數(shù)據(jù)集,適用于各種計(jì)算機(jī)視覺任務(wù),如目標(biāo)檢測(cè)、圖像分割、圖像標(biāo)題生成等。在圖像標(biāo)題部分,包括訓(xùn)練集82 783 張圖像,驗(yàn)證集40 504 張圖像。MSCOCO 數(shù)據(jù)集對(duì)圖像標(biāo)題生成模型和算法具有極高的挑戰(zhàn)性,因?yàn)榇蠖鄶?shù)圖像中都包含復(fù)雜場景下的多個(gè)對(duì)象,每張圖像都包括5 個(gè)人工標(biāo)注的圖像標(biāo)題。模型評(píng)估時(shí),一般采用Karpathy 等人的劃分標(biāo)準(zhǔn),即從驗(yàn)證集中取出10 000 張圖像,其中5 000 張圖像用于驗(yàn)證,另外5 000 張用于最終測(cè)試。由于MSCOCO 數(shù)據(jù)集的專業(yè)性及挑戰(zhàn)性,MSCOCO 數(shù)據(jù)集目前是圖像標(biāo)題生成領(lǐng)域的主流評(píng)測(cè)標(biāo)準(zhǔn)數(shù)據(jù)集,各種模型和方法在該數(shù)據(jù)集上的評(píng)分是評(píng)價(jià)模型和算法性能的重要指標(biāo)。
(2)Flickr30K 數(shù)據(jù)集由Young 等人提出,其數(shù)據(jù)量相對(duì)較小,包括31 783 張日常活動(dòng)、事件和場景的照片,每張圖像對(duì)應(yīng)5 條人工標(biāo)注的描述句子。在線評(píng)估是采用Karpathy 等人的劃分標(biāo)準(zhǔn),取其中29 000 張圖像及其標(biāo)題作為訓(xùn)練集,1 000 張圖像及其標(biāo)題作為驗(yàn)證集,其余樣本作為測(cè)試集。Flickr30K也是圖像標(biāo)題生成領(lǐng)域的一個(gè)重要評(píng)測(cè)標(biāo)準(zhǔn)數(shù)據(jù)集,一般和MSCOCO 數(shù)據(jù)集一起評(píng)測(cè)模型和算法的性能,作為MSCOCO 的補(bǔ)充。
(3)Flickr8K 數(shù)據(jù)集,由Hodosh 等人提出,其樣本量更少,共包含8 091 張圖像。同樣地,每張圖像對(duì)應(yīng)5 條參考句子。在具體使用時(shí),一般選取其中的6 000 張圖像及其參考句子用于模型訓(xùn)練,另外1 000張圖像與參考句子用于模型驗(yàn)證,其余1 091 張圖像用于最終的模型測(cè)試。
(4)其他數(shù)據(jù)集基本都是在以上三種數(shù)據(jù)集基礎(chǔ)上擴(kuò)展而來,如Flickr8kCN 是由Li等人對(duì)Flickr8K進(jìn)行了中文標(biāo)注,STAIR 數(shù)據(jù)集是Yoshikawa 等人對(duì)MSCOCO 數(shù)據(jù)集進(jìn)行了日文標(biāo)注。
圖像標(biāo)題生成任務(wù)的研究多采用生成的標(biāo)題和參考標(biāo)題之間的匹配程度來評(píng)價(jià)生成標(biāo)題的質(zhì)量。常用的評(píng)價(jià)指標(biāo)有BLEU(bilingual evaluation understudy)、METEOR(metric for evaluation of translation with explicit ordering)、ROUGE-L(recall-oriented understudy for gisting evaluation)、CIDEr(consensusbased image description evaluation)和SPICE(semantic propositional image caption generation evaluation)。其中BLEU、METEOR 和ROUGE-L 是機(jī)器翻譯的評(píng)測(cè)標(biāo)準(zhǔn),CIDEr 和SPICE 是圖像標(biāo)題生成任務(wù)專用的評(píng)測(cè)標(biāo)準(zhǔn)。
BLEU 指標(biāo)主要用于衡量句子的準(zhǔn)確性和連貫性,它通過計(jì)算生成句子與參考句子-gram 的匹配程度對(duì)生成句子進(jìn)行打分,其中的取值為{1,2,3,4},指幾個(gè)連續(xù)的單詞分為一個(gè)元組。當(dāng)確定時(shí),BLEU 的值越高,生成的句子就越連貫,其計(jì)算公式如下:
其中,每一個(gè)語句用元組ω來表示,元組在人工標(biāo)注語句S中出現(xiàn)的次數(shù)記作h(S),元組ω在待評(píng)價(jià)語句c中出現(xiàn)的次數(shù)記作h(c),l是待評(píng)價(jià)語句的總長,l是人工標(biāo)注語句的總長度。BLEU 得分越高,性能也就越好。BLEU 指標(biāo)對(duì)句子的長度也有一定的要求,若句子過短,便會(huì)使用懲罰因子降低句子的分?jǐn)?shù)。BLEU 關(guān)注的是-gram 而不是單個(gè)單詞,考慮了更長的匹配信息。但是由于BLEU 提出的時(shí)候,研究者們還沒有發(fā)現(xiàn)召回率這個(gè)因素對(duì)評(píng)價(jià)指標(biāo)的影響,BLEU 并沒考慮到召回率這個(gè)因素。
METEOR 則是研究者們發(fā)現(xiàn)在評(píng)價(jià)指標(biāo)加入召回率之后,評(píng)測(cè)的結(jié)果和人工評(píng)測(cè)的結(jié)果相似度提高之后提出的評(píng)價(jià)指標(biāo)。METEOR 提出時(shí)就是為了解決BLEU 的固有缺陷,因此METEOR 指標(biāo)考慮了召回率的影響,并且該指標(biāo)可以計(jì)算同義詞、詞根、詞綴之間的匹配關(guān)系,評(píng)測(cè)結(jié)果與人工評(píng)測(cè)的結(jié)果相關(guān)度更高,其計(jì)算公式如下:
其中,為召回率,為準(zhǔn)確率,為匹配的總對(duì)數(shù),為候選標(biāo)題的長度,為參考標(biāo)題的長度,為懲罰因子,是為了考慮詞之間的順序,如果兩句子中,互相匹配的單詞都是相鄰的,那么就將它們定義為同一個(gè),總數(shù)為。
ROUGE 是由Lin 提出的一組評(píng)價(jià)指標(biāo),主要包括ROUGE-N、ROUGE-L、ROUGE-S、ROUGE-W、ROUGE-SU,使用者可以根據(jù)需要選擇合適的評(píng)價(jià)指標(biāo),圖像標(biāo)題生成領(lǐng)域一般采用ROUGE-L 評(píng)價(jià)指標(biāo)來評(píng)價(jià)模型的性能。ROUGE-L 主要針對(duì)BLEU 評(píng)價(jià)指標(biāo)忽視了召回率的問題做出了優(yōu)化,與BLEU 類似,ROUGE-L 也是基于-gram 的評(píng)價(jià)指標(biāo),計(jì)算生成標(biāo)題與參考標(biāo)題之間的元組重合度來衡量標(biāo)題的質(zhì)量,其思路與BLEU 基本一致,只是在算法中增加了召回率因素,其計(jì)算公式如下:
其中,表示候選標(biāo)題,表示參考標(biāo)題,(,)表示候選標(biāo)題和參考標(biāo)題的最長公共子序列長度,表示參考標(biāo)題的長度,表示候選標(biāo)題的長度。
CIDEr 是圖像標(biāo)題生成任務(wù)提出后,專門為圖像標(biāo)題生成任務(wù)設(shè)計(jì)的評(píng)價(jià)主表,避免了前幾種指標(biāo)只在自然語言的角度評(píng)價(jià)句子質(zhì)量的缺陷。CIDEr是一種對(duì)BLEU 評(píng)價(jià)指標(biāo)的改進(jìn),首先計(jì)算生成標(biāo)題和參考標(biāo)題的TF-IDF 向量,然后計(jì)算它們的余弦相似度,通過余弦相似度來衡量生成標(biāo)題與參考標(biāo)題之間的相關(guān)性,其計(jì)算公式如下:
其中,一個(gè)元組ω在人工標(biāo)注語句S中出現(xiàn)的次數(shù)記作h(S),在待評(píng)價(jià)語句中出現(xiàn)的次數(shù)記作h(C),元組的TF-IDF 權(quán)重g(S),是所有元組的個(gè)數(shù),是數(shù)據(jù)集中所有圖像的集合。CIDEr 的得分越高,生成的語句的質(zhì)量也就越好。
SPICE 指標(biāo)也是針對(duì)圖像標(biāo)題生成領(lǐng)域設(shè)計(jì)的評(píng)價(jià)指標(biāo)。與CIDEr 不同的是,SPICE 更加關(guān)注語義命題內(nèi)容。SPICE 認(rèn)為圖像標(biāo)題中應(yīng)該包括圖像中存在的各個(gè)語義命題,SPICE 將生成標(biāo)題和參考標(biāo)題均轉(zhuǎn)化為場景圖的形式,場景圖中表示了圖像中的對(duì)象、屬性和關(guān)系,通過對(duì)比場景圖來生成標(biāo)題評(píng)分,其計(jì)算公式如下:
其中,為候選標(biāo)題,為參考標(biāo)題集合,(·)表示轉(zhuǎn)換場景圖的方法,(·)表示元組轉(zhuǎn)換方法,?表示匹配運(yùn)算。
以上幾個(gè)指標(biāo)均為標(biāo)題工作中進(jìn)行語義相關(guān)性評(píng)估的指標(biāo),而個(gè)性化標(biāo)題生成任務(wù)評(píng)價(jià)指標(biāo)比較特殊。個(gè)性化標(biāo)題的評(píng)價(jià)分為兩個(gè)方面:一方面是語義相關(guān)性的評(píng)估,采用的評(píng)分標(biāo)準(zhǔn)為以上幾個(gè)評(píng)分指標(biāo),而其中SPICE 指標(biāo)在個(gè)性化標(biāo)題生成中更關(guān)鍵;另一方面是標(biāo)題的個(gè)性化評(píng)估,這方面由于其構(gòu)造數(shù)據(jù)集和評(píng)估的復(fù)雜性,目前沒有明確統(tǒng)一的評(píng)估指標(biāo),一般是采用語言風(fēng)格遷移的評(píng)價(jià)指標(biāo)或采用人工評(píng)估的方式進(jìn)行評(píng)估。
目前,經(jīng)過近幾年的研究工作,圖像標(biāo)題生成領(lǐng)域的工作已經(jīng)有了顯著的進(jìn)展。但其在語義融合、模型的高復(fù)雜度以及數(shù)據(jù)集的標(biāo)注及規(guī)模方面仍然存在諸多問題需要深入研究。
語義融合問題:目前大部分圖像標(biāo)題生成的研究圖像和文本的割裂感較為嚴(yán)重,容易出現(xiàn)語義鴻溝問題。如何將圖像語義和標(biāo)題的文本語義結(jié)合起來,關(guān)注到圖像模態(tài)和文本模態(tài),是未來值得研究的問題。
模型復(fù)雜度問題:LSTM 作為圖像標(biāo)題生成模型的解碼器,盡管一定程度上解決了RNN 網(wǎng)絡(luò)梯度消失、梯度爆炸和長依賴性等問題,表現(xiàn)出了較高的性能。但隨著自然語言處理領(lǐng)域的研究愈加深入,生成的文本越來越長,越來越復(fù)雜,LSTM 的缺陷也暴露出來,如訓(xùn)練開銷巨大,在處理長文本時(shí)性能會(huì)降低等問題。因此,解決解碼器的自身缺陷,也是圖像標(biāo)題生成領(lǐng)域的難點(diǎn)。目前解決這個(gè)問題的思路是采用2017 年Vaswani 等人提出的Transformer 模型,該模型是一種利用純注意力機(jī)制計(jì)算的神經(jīng)網(wǎng)絡(luò)模型,在處理序列數(shù)據(jù)上表現(xiàn)出了很好的性能,目前其各種變體已經(jīng)廣泛應(yīng)用在了自然語言處理領(lǐng)域和計(jì)算機(jī)視覺領(lǐng)域。因此,使用或改進(jìn)Transformer 模型,將其應(yīng)用在圖像標(biāo)題生成領(lǐng)域?qū)⑹菬衢T問題。
數(shù)據(jù)集的構(gòu)建:圖像標(biāo)題生成領(lǐng)域的數(shù)據(jù)集在構(gòu)建時(shí)需要專業(yè)人員為每張圖片標(biāo)注五條或以上不同表達(dá)形式的標(biāo)題,構(gòu)建成本高昂。隨著研究的不斷深入,高性能模型層出不窮,現(xiàn)有的數(shù)據(jù)集規(guī)模已經(jīng)很難滿足訓(xùn)練需求。另外如中文、德語、日語等數(shù)據(jù)集規(guī)模較小,難以訓(xùn)練出高性能模型,限制了圖像標(biāo)題生成模型的跨語言能力。這方面的解決思路一般是通過半監(jiān)督學(xué)習(xí)去訓(xùn)練圖像標(biāo)注的模型作為數(shù)據(jù)集。
圖像標(biāo)題生成任務(wù)作為一種融合了計(jì)算機(jī)視覺和自然語言處理的多模態(tài)任務(wù),打破了視覺與文本之間的界限,在人工智能領(lǐng)域引起了廣泛關(guān)注。自其被提出以來,經(jīng)歷了基于模板的方法、基于檢索的方法和基于編碼器-解碼器的方法。而基于編碼器-解碼器的方法中又經(jīng)歷了從CNN 到GCN,從LSTM到目前逐漸被應(yīng)用的Transformer 和BERT 的技術(shù)革新??梢园l(fā)現(xiàn)圖像標(biāo)題生成領(lǐng)域的研究與計(jì)算機(jī)視覺技術(shù)和自然語言處理技術(shù)之間的關(guān)系越來越密切。諸如目標(biāo)檢測(cè)、圖像檢索、機(jī)器翻譯等任務(wù)的思路和技術(shù)都逐漸被應(yīng)用在了圖像標(biāo)題生成領(lǐng)域,可見其研究思路的開闊性和巨大的可能性。近年來,研究者們不斷提出高性能的圖像標(biāo)題生成模型及其相關(guān)算法。本文在廣泛閱讀國內(nèi)外文獻(xiàn)的基礎(chǔ)上,對(duì)圖像標(biāo)題生成的概念和三種方法進(jìn)行了闡述。其次本文按照?qǐng)D像標(biāo)題生成的流程,將近年來的研究分為圖像理解階段的研究及標(biāo)題生成階段的研究并詳細(xì)介紹了各項(xiàng)研究的模型內(nèi)容及優(yōu)缺點(diǎn)。最后,介紹了圖像標(biāo)題生成領(lǐng)域的經(jīng)典數(shù)據(jù)集和評(píng)價(jià)指標(biāo),討論了圖像標(biāo)題生成領(lǐng)域目前的研究難點(diǎn)與熱點(diǎn)。