摘 要:基于Transformer架構(gòu)的圖像描述生成方法通常學(xué)習(xí)從圖像空間到文本空間的確定性映射,以提高預(yù)測“平均”描述語句的性能,從而導(dǎo)致模型傾向于生成常見的單詞和重復(fù)的短語,即所謂的模式坍塌問題。為此,將條件變分自編碼與基于Transformer的圖像描述生成相結(jié)合,利用條件似然的變分證據(jù)下界分別構(gòu)建了句子級和單詞級的多樣化圖像描述生成模型,通過引入全局與序列隱嵌入學(xué)習(xí)增強模型的隱表示能力。在MSCOCO基準數(shù)據(jù)集上的定量和定性實驗結(jié)果表明,兩種模型均具備圖像到文本空間的一對多映射能力。相比于目前最新的方法COS-CVAE(diverse image captioning with context-object split latent spaces),在隨機生成20個描述語句時,準確性指標CIDEr和多樣性指標Div-2分別提升了1.3和33%,在隨機生成100個描述語句的情況下,CIDEr和Div-2分別提升了11.4和14%,所提方法能夠更好地擬合真實描述分布,在多樣性和準確性之間取得了更好的平衡。
關(guān)鍵詞:圖像描述生成;多樣化描述;變分Transformer;隱嵌入
中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2024)07-042-2215-06
doi: 10.19734/j.issn.1001-3695.2023.09.0510
Diverse image description generation via global andsequential latent embedding
Abstract: The Transformer-based image captioning models have shown remarkable performance based on the powerful sequence modeling capability. However, most of them focus only on learning deterministic mappings from image space to caption space, i. e., learning how to improve the accuracy of predicting “average” captions, which generally tends to common words, repeated phrases and single sentence, leading to the severe mode collapse problem. To this end, this paper combined the conditional variational encoder with the Transformer-based image captioning model, and proposed the sentence-level and word-level diverse image captioning models, respectively. The proposed models introduced the global and sequential latent embedding learning based on the evidence lower bound(ELBO), which promoted the diversity of Transformer-based image captioning. Quantitative and qualitative experiments on MSCOCO dataset show that both models have the ability of learning one-to-many projections between the image space and the caption space. Compared with the state-of-the-art COS-CVAE, the proposed method with 20 samples improves the CIDEr and Div-2 scores by 1.3 and 33% respectively in the case of 20 samples, improves the CIDEr and Div-2 scores by 11.4 and 14%, respectively in the case of 100 samples. The proposed method can fit the distribution of ground-truth captions well, and achieve a better balance between diversity and accuracy.
Key words:image description generation; diverse image captioning; variational Transformer; latent embedding
0 引言
圖像描述生成是一項具有挑戰(zhàn)性的條件生成任務(wù),旨在生成語法正確且與圖像相對應(yīng)的描述語句,在圖像理解領(lǐng)域引起了極大的關(guān)注。近幾年,隨著深度學(xué)習(xí)技術(shù)的興起,受神經(jīng)機器翻譯啟發(fā)的編解碼(encoder-decoder)框架在圖像描述領(lǐng)域中被廣泛采用,其中卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)作為編碼器提取圖像特征,解碼器則采用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network models, RNN),將圖像特征解碼成對應(yīng)的描述[1~4],或者直接采用Transformer模型實現(xiàn)整個編碼器解碼器架構(gòu)。這些方法在一些準確性評價指標上(例如BLEU[5]、ROUGE-L[6]、CIDEr[7]),性能取得了顯著提升。然而,現(xiàn)有模型大多關(guān)注從圖像空間到文本空間的確定性映射,導(dǎo)致嚴重的模式坍塌問題。流行的Updown[8]和Transformer[9]圖像描述模型均傾向于生成重復(fù)的短語和句子,無法保證描述的多樣性。為了解決模式坍塌問題,最近一些研究者開始探索多樣化的圖像描述生成方法。這些工作通常將生成對抗網(wǎng)絡(luò)(generative adversarial network, GAN)[10]或者變分自編碼器(variational auto encoders,VAE)[11]引入圖像描述生成模型[12,13],從而賦予模型一對多映射的能力。盡管基于GAN的圖像描述模型可以有效提高句子多樣性,但是這種模型很難兼顧句子的準確性指標?,F(xiàn)有的基于條件變分自編碼器的圖像描述模型在多樣性和準確性之間取得了一個較好的平衡。然而,這些模型大多基于傳統(tǒng)的長短時期記憶網(wǎng)絡(luò)(long short term memory, LSTM)構(gòu)建,導(dǎo)致不能充分利用圖像和文本的全局信息,以及無法提供并行訓(xùn)練支撐。
針對上述存在的問題,本文將條件變分自編碼引入基于Transformer的圖像描述框架,提出一種新的圖像多樣化描述生成模型。利用條件似然的變分證據(jù)下界,通過引入全局與序列隱嵌入學(xué)習(xí),分別提出了句子級和單詞級的多樣化圖像描述生成方法。首先,本文結(jié)合條件變分自編碼和Transformer模型,提出一種句子級的變分Transformer圖像描述模型,通過全局隱空間捕獲句子級多樣性。然后,將全局隱空間拓展為序列隱空間,提出一種單詞級的條件變分Transformer圖像描述模型,通過序列隱空間捕獲單詞級多樣性。如圖1所示,本文方法具備從圖像空間到文本空間的一對多映射能力。在MSCOCO標準數(shù)據(jù)集上,針對所提出的兩種模型和對比方法進行了充分的定量和定性實驗對比分析,驗證了本文方法的有效性。
本文的主要貢獻包括以下三個方面:
a)設(shè)計了一種新穎的基于條件變分Transformer架構(gòu)的句子級圖像多樣化描述框架,支持從圖像空間到文本空間的一對多映射;
b)將句子級條件變分Transformer框架拓展為單詞級圖像多樣化描述生成模型,通過單詞級多樣性的隱空間嵌入同時提升描述的準確性和多樣性;
c)實現(xiàn)了端到端的圖像多樣化描述模型訓(xùn)練,并在MSCOCO公開數(shù)據(jù)集上進行了大量的實驗驗證,實驗結(jié)果表明,本文方法在多樣性和準確性指標上均顯著優(yōu)于現(xiàn)有的多樣化圖像描述方法。
1 相關(guān)工作
傳統(tǒng)的圖像描述生成模型通常生成輸入圖像的單一描述,聚焦描述語句的準確性指標。例如,李志欣等人[14]提出結(jié)合視覺特征和場景語義的圖像描述生成方法,利用潛在狄利克雷分布模型與多層感知機提取圖像場景語義相關(guān)的主題詞,通過主題詞指導(dǎo)單詞的準確生成。周東明等人[15]提出基于強化學(xué)習(xí)的多層級視覺融合網(wǎng)絡(luò)模型,通過將視覺特征轉(zhuǎn)換為視覺知識的特征集,從而生成更加流暢的描述語句。劉茂福等人[16]利用視覺關(guān)聯(lián)與上下文雙注意力機制,指導(dǎo)生成準確的圖像描述文本。宋井寬等人[17]通過視覺區(qū)域聚合與雙向協(xié)作學(xué)習(xí),以促進模型生成更加細粒度的圖像描述文本。盡管這些模型有效提升了圖像描述的準確性,但模型仍未從根本上解決確定性映射導(dǎo)致的模式坍塌問題,無法生成多樣化的描述語句。
最近,多樣化圖像描述生成逐漸成為本領(lǐng)域的研究熱點。Dai等人[18]首次提出了一種基于條件生成對抗網(wǎng)絡(luò)(CGAN)的圖像多樣化描述生成框架,其中生成器采用編解碼架構(gòu),解碼器所生成的描述再傳入至判別器中進行判別。隨后在聯(lián)合交替訓(xùn)練生成器和判別器的同時,通過在生成器端輸入隨機噪聲來實現(xiàn)生成描述語句的多樣化。Shetty等人[19]也基于生成對抗網(wǎng)絡(luò)提出了更進一步提高語義多樣化的模型。該方法將對抗樣本與近似耿貝爾采樣[20]相結(jié)合,用于圖像描述的訓(xùn)練中,使得生成的描述語句更貼近于人類標注的真實標簽。盡管基于生成對抗網(wǎng)絡(luò)的圖像多樣化描述方法可以有效提升生成描述的多樣化,但該類方法生成的描述與真實描述之間差異較大,精確性指標較低,且存在難以平衡生成器和判別器聯(lián)合訓(xùn)練的問題。
為了兼顧圖像描述的準確性和多樣性,基于條件變分自編碼的圖像多樣化描述方法逐漸成為主流。Wang等人[21]首次將條件變分自編碼引入到圖像多樣化描述生成任務(wù)中,不同于以往常見的采用固定高斯先驗的方式,該方法使用加性高斯先驗增加模型對于不同圖像生成描述的可變性,由此提升模型生成多樣化描述的性能。Aneja等人[22]為了提升模型的細粒度描述能力,提出了基于序列化隱空間的條件變分自編碼(sequential conditional CVAE, Seq-CVAE)方法,該方法通過對逐個單詞的隱空間建模,實現(xiàn)對單詞級的多樣化控制,并通過雙向循環(huán)神經(jīng)網(wǎng)絡(luò)和意圖模型分別實現(xiàn)訓(xùn)練和測試階段的多樣化保證。Mahajan等人[23]在Seq-CVAE的基礎(chǔ)上采用偽監(jiān)督方式對數(shù)據(jù)集擴充,然后分別對數(shù)據(jù)集中描述文本的上下文和目標進行建模,以提升多樣性。 Xu等人[24]進一步結(jié)合雙層對比學(xué)習(xí)緩解了交叉熵損失導(dǎo)致的模型坍塌問題。Deshpande等人[25]通過引入詞性標注信息提升多樣化圖像描述生成性能。與此同時,針對多樣化描述的相關(guān)評價指標也被相繼提出。Wang等人[26]提出了依賴于潛在語義分析(latent semantic analysis,LSA)方法的多樣性評價指標Self-CIDEr。 2021年,Shi等人[27]通過與強化學(xué)習(xí)相結(jié)合提出了多樣性評價指標max-CIDEr,由此提升了模型生成多樣化描述的能力。2022年,基于自評價序列訓(xùn)練(self-critical sequence training,SCST)[28],Wang等人[29]提出了與檢索獎勵相結(jié)合的多樣性評價指標CIDErBtw,該方法能夠促使模型生成的描述語句更具備多樣化的特點。
然而,上述基于變分自編碼的圖像描述生成方法大多基于LSTM構(gòu)建,受限于LSTM的序列化建模局限性,這些方法未能引入自注意力機制充分建模圖像和文本全局特征,也無法通過交叉注意力實現(xiàn)圖像與文本兩種模態(tài)的交互對齊。此外,這類模型不支持并行訓(xùn)練,這些問題嚴重制約了多樣化圖像描述生成性能的進一步提升。為此,本文探索如何在Transformer框架下構(gòu)建多樣化圖像描述生成模型,以獲得更優(yōu)的描述準確性和多樣性。
2 方法
本章首先介紹條件變分自編碼及變分證據(jù)下界,然后基于變分證據(jù)下界構(gòu)建句子級的全局變分Transformer多樣化圖像描述生成模型。最后進一步拓展全局變分Transformer框架,提出了一種基于序列變分Transformer的多樣化圖像描述生成模型。
2.1 基于全局變分Transformer的多樣化圖像描述生成模型
對于圖像描述這種條件生成任務(wù),大多數(shù)基于Transformer的模型無法針對一張圖像生成多個描述xk,k∈{1,…,K},即無法建模圖像與描述之間的一對多映射。受到條件變分自編碼的啟發(fā),擬將條件變分自編碼引入Transformer模型,以拓展其多樣化描述生成能力。具體地,假設(shè)I表示圖像視覺特征,x表示生成的描述,θ為模型參數(shù)。通過引入全局隱變量z,則條件概率分布pθ(x|I)表示如下:
pθ(x|I)=∑p(x,z|I)=∑p(x|z,I)p(z|I)(1)
為優(yōu)化式(1),引入后驗概率分布q(z|x,I),則條件概率分布pθ(x|I)的log似然變分證據(jù)下界公式可表示為
為了優(yōu)化式(2)中的變分證據(jù)下界,需要分別將后驗q(z|x,I)、先驗pθ(z|I)以及條件分布pθ(x|z,I)參數(shù)轉(zhuǎn)換為神經(jīng)子網(wǎng)絡(luò)。如圖1所示,面向多樣化圖像描述生成,構(gòu)建一種基于全局隱嵌入的條件變分Transformer模型(global conditional variational Transformer for image captioning, GCV-T-IC)。GCV-T-IC模型由后驗推斷分支網(wǎng)絡(luò)q(z|x,I)、先驗分支網(wǎng)絡(luò)pθ(z|I)以及解碼網(wǎng)絡(luò)pθ(x|z,I)構(gòu)成,其中后驗推斷分支網(wǎng)絡(luò)和先驗分支網(wǎng)絡(luò)組成了雙分支的編碼網(wǎng)絡(luò),具體描述如下:
其中:MSA表示多頭自注意力(multi-head self-attention)模塊;AN表示殘差歸一化(add&layer norm)模塊;FFN表示前饋網(wǎng)絡(luò)層(feed forward network)。
為了抽取圖像和描述的全局特征表示,引入一個可學(xué)習(xí)向量作為查詢向量,并通過交叉注意力(cross-attention, CA)模塊自適應(yīng)地將非固定長度的向量融合為單一向量,具體如下:
b)解碼網(wǎng)絡(luò)。
GCV-T-IC的解碼網(wǎng)絡(luò)pθ(x|I,z)與Transformer解碼器結(jié)構(gòu)類似,但隱嵌入變量z需要與描述語句每個單詞的詞嵌入向量進行逐個拼接作為解碼網(wǎng)絡(luò)輸入。輸入特征首先經(jīng)過線性層降維,然后利用MSA和AN模塊提取文本語義特征,并與圖像視覺特征VN一同輸入一個CA模塊,利用交叉注意力獲得加權(quán)視覺特征。依次經(jīng)過AN與FFN層與文本語義特征進行融合。最后通過線性層和softmax操作預(yù)測詞匯表中單詞出現(xiàn)的概率。
2.2 基于序列變分Transformer的多樣化圖像描述生成模型
在句子級的全局變分Transformer模型基礎(chǔ)上,進一步將其拓展為單詞級的序列變分Transformer,以提升模型的多樣化
基于式(7),通過最大化條件分布pθ(x|I)的對數(shù)似然,可以得到以下基于時間步的變分證據(jù)下界:
1)后驗推斷子網(wǎng)絡(luò)
在后驗推斷子網(wǎng)絡(luò)中,首先將單詞嵌入后的向量進行位置編碼得到輸入向量W0。隨后,將其輸入多頭自注意模塊MSA并經(jīng)過AN層可得
Wq=AN(MSA(W0,W0,W0)+W0)(9)
緊接著,通過多頭交叉注意模塊和殘差歸一化層將文本特征Wq與視覺特征VN進行融合,混合特征Fq表示為
Fq=AN(CA(Wq,VN,VN)+Wq)(10)
2.3 訓(xùn)練與推斷方法
如前所述,全局和序列變分Transformer模型均使用相應(yīng)的ELBO變分證據(jù)下界作為優(yōu)化目標函數(shù),具體地,已知圖像視覺特征V0和對應(yīng)的成對描述句子x*={x*0,x*1,…,x*T}?;谌肿兎諸ransformer的多樣化圖像描述生成模型的優(yōu)化目標如下:
其中:α表示平衡因子; 第一項表示交叉熵損失函數(shù);第二項為先驗和后驗概率之間的KL散度。
相應(yīng)地,基于序列變分Transformer的多樣化圖像描述生成模型的優(yōu)化目標如下:
其中:β表示平衡因子。
全局和序列變分Transformer模型的優(yōu)化與推斷過程如下:
a)通過N層Transformer編碼器提取圖像視覺特征VN。利用詞嵌入、位置編碼和N個注意力塊將輸入語句轉(zhuǎn)換為文本特征WN。
b)將圖像視覺特征VN與文本特征WN融合后分別映射為全局和序列后驗隱變量。
c)從兩種模型的后驗分支中采樣全局與序列隱嵌入,用于輸入解碼網(wǎng)絡(luò)生成句子。利用優(yōu)化目標函數(shù),將后驗分支網(wǎng)絡(luò)作為教師網(wǎng)絡(luò)指導(dǎo)先驗網(wǎng)絡(luò),從而實現(xiàn)先驗隱變量與后驗隱變量的對齊。
d)在測試階段,由于圖像的真實描述不可觀測,此時,使用先驗分支網(wǎng)絡(luò)替換后驗分支網(wǎng)絡(luò),從兩種模型的先驗分支中采樣對齊后的全局與序列隱嵌入,將隱嵌入與圖像特征一起輸入解碼器進行單詞推斷。解碼過程中,使用束搜索策略提升生成句子的準確性。
值得注意的是,所提出的兩種模型均可以實現(xiàn)端到端的訓(xùn)練和測試,更便于實際應(yīng)用。
3 實驗
3.1 數(shù)據(jù)集和評價標準
3.1.1 數(shù)據(jù)集
定量與定性實驗中所對比的圖像描述方法均在MSCOCO數(shù)據(jù)集上進行訓(xùn)練與測試。為了公平對比,與現(xiàn)有方法均采用常用的m-RNN數(shù)據(jù)集劃分方法[2],其中訓(xùn)練集118 287張圖像,驗證集4 000張圖像,測試集1 000張圖像,且每張圖像均有5條由人工標注的描述語句與之對應(yīng)。
3.1.2 準確性指標
實驗采用了四種在圖像描述任務(wù)中廣泛使用的評價指標來評價模型所生成描述的準確性,包括BLEU@N[5]、METEOR[31]、ROUGE-L[6]、CIDEr[7]。其中:BLEU通過計算生成文本和參考文本之間n-gram的精準率(precision)來評價生成文本的精確性;METEOR在BLEU的基礎(chǔ)上進一步考慮了召回率(recall),使得所生成描述在保證精確性的前提下更加人性化和貼合自然的描述內(nèi)容;ROUGE通過比較生成文本和人工標注文本相同的部分,實現(xiàn)對句子中單詞的重復(fù)率以及排列順序的相似度的計算;CIDEr通過比較生成文本和人工標注文本相同的部分,實現(xiàn)對句子中單詞的重復(fù)率以及排列順序的相似度計算。
傳統(tǒng)的圖像描述模型對于單張測試圖像利用生成的單個描述進行評價指標的計算, 而圖像多樣化描述生成模型需要針對生成的一組描述進行評價。目前大多采用Oracle重排序(Oracle re-ranking)計算best-1 accuracy指標。具體地,Oracle重排序使用測試圖像的真實描述作為指標計算參考描述,其中在生成的一組描述中,每個指標得分最高的描述被選為best-1,然后計算所有測試圖像的best-1準確性評價指標的平均值。
3.1.3 多樣性指標
目前圖像多樣化描述方法大多采用Consensus重排序(consensus re-ranking)的方式統(tǒng)計和對比多樣性指標。在Consensus重排序中,對于一張生成了n個描述的測試圖像,首先計算其與訓(xùn)練集中相似度最高的K個圖像,然后將n個描述分別與這K個相似圖像的M個真實描述計算CIDEr分數(shù)。其中得分最高的描述被選為best-1描述。
多樣性指標使用best-1 accuracy consensus re-ranking的排序方式,最終選取單張圖片得分最高的best-5個描述。
a)Uniqueness:測試集所有圖像生成的best-5個描述中,不重復(fù)的描述所占比例。
b)Novel:測試集生成的描述與訓(xùn)練集中真實描述不重復(fù)的描述個數(shù)。
c)mBLEU:對于每一張測試圖像的best-5,分別計算其中一個描述與其余四個描述的BLEU-4分數(shù),取單張圖像五個描述分數(shù)的平均后,再取測試集平均。
d)Div-1:計算每一張測試圖像的best-5中不重復(fù)的1-gram在五個描述總1-gram長度中所占比例,并取測試集平均。
e)Div-2:使用2-gram 替換1-gram,計算方法同Div-1。
3.2 實驗設(shè)置
所提出的模型在訓(xùn)練中的圖像特征、單詞嵌入和隱變量的維度均設(shè)置為512。在視覺編碼器中,本文方法使用預(yù)訓(xùn)練的Swin-Transformer來提取每幅圖像的網(wǎng)格特征,且維度為1 536,并將其線性映射到512維向量中。在生成器中,使用單詞嵌入并加上位置編碼作為后驗推斷網(wǎng)絡(luò)和先驗近似網(wǎng)絡(luò)的輸入。此外,視覺編碼器和生成器均是由3層的注意力塊組成的,其中多頭注意力的頭數(shù)為8。在訓(xùn)練階段,設(shè)置批大小為10,利用Adam優(yōu)化算法和warmup學(xué)習(xí)率預(yù)熱技巧來優(yōu)化提出的模型。在學(xué)習(xí)率為5×10-6和交叉熵與KL散度損失函數(shù)下訓(xùn)練30個回合。平衡因子α和β分別設(shè)置為0.1。
在測試階段,為了對比的公平性,與對比方法使用相同的束搜索參數(shù)。在進行準確性評價度量時束搜索寬度設(shè)置為2,而在多樣性評價度量時的束搜索寬度設(shè)置為1。此外,本文的實驗環(huán)境為PyTorch=3.8.2、CUDA=10.2和1個NVIDIA GTX 3080 GPU。
3.3 實驗結(jié)果定量分析
首先將本文方法與主流多樣化圖像描述方法進行對比。表1列出了各方法在MSCOCO數(shù)據(jù)集上使用M-RNN劃分和Oracle重排序后統(tǒng)計的準確性結(jié)果,其中“sample”表示每個方法采樣生成的描述語句數(shù)量,最佳結(jié)果進行了加粗顯示。具體地,與對比方法保持一致,實驗中利用先驗分支網(wǎng)絡(luò)采樣20和100個隱變量,然后輸入解碼網(wǎng)絡(luò)生成多樣化的描述語句。如表1所示,GCV-T-IC在兩種采樣下獲得的各個準確性評價指標得分均優(yōu)于其他對比方法。特別地,在與人工評價相關(guān)性較好的CIDEr指標上,GCV-T-IC顯著優(yōu)于其他方法。此外,GCV-T-IC模型在生成過程中沒有引入其他的額外信息,而AG-CVAE、POS、COS-CVAE和DCL-CVAE分別在訓(xùn)練過程中利用了目標對象信息、PoS標簽、增強的上下文信息和預(yù)訓(xùn)練模型。SCV-T-IC模型在采樣100的條件下,其準確性指標優(yōu)于當前最優(yōu)的DCL-CVAE模型,而僅次于GCV-T-IC。
表2列出了各方法在MSCOCO數(shù)據(jù)集上使用M-RNN劃分和Consensus重排序后統(tǒng)計的多樣性結(jié)果。SCV-T-IC在兩種采樣下獲得的多樣性評價指標綜合性能均優(yōu)于其他對比方法,這是因為SCV-T-IC結(jié)合自注意力機制和序列變分推斷,更加關(guān)注單詞級的多樣性,傾向于生成更加多樣的句子。
圖3展示了不同模型在采樣20個句子時每個單詞位置上各不相同的2-gram和4-gram單詞序列的數(shù)量??梢园l(fā)現(xiàn),本文方法在大多數(shù)單詞位置上的2-gram和4-gram單詞序列的數(shù)量都有顯著提高。 這是因為本文方法不僅能夠?qū)γ總€單詞位置進行細粒度的隱式表征,而且能利用Transformer全局注意力機制更好地近似條件先驗,以提供更好的泛化能力。實驗結(jié)果進一步證實,與現(xiàn)有方法相比,本文方法具有更好的多樣化圖像描述性能。
3.4 實驗結(jié)果定性分析
圖4進一步定性對比了各方法從相同的兩個測試圖像采樣得到的描述語句(參見電子版)。其中錯誤的單詞用紅色標記,重復(fù)的短語用綠色標記。直觀地說,與其他方法相比,本文方法生成的描述更加準確和多樣。如圖4第二幅圖像及其對應(yīng)描述所示,SCV-T-IC可以準確識別出圖像中鳥的數(shù)量,而其他方法則生成了不準確的量詞和錯誤的單詞。此外,對比方法傾向于生成高頻n-gram的短語,而本文提出的GCV-T-IC和SCV-T-IC方法均可以生成更連貫和精細的描述,例如,生成的描述中包含了不常見的單詞“orange beaks”“l(fā)ooking around”等。
為了更好地定性評估所提出方法的有效性,分別對本文兩種模型生成描述過程中的交叉注意力權(quán)重進行可視化。圖5展示了在每個時間步生成的單詞及其對應(yīng)的Transformer解碼網(wǎng)絡(luò)最后一層的交叉注意力權(quán)重熱圖。從圖中可以看出,本文方法可以針對生成的語句關(guān)注到與語義最相關(guān)的圖像區(qū)域,而一些與圖像無關(guān)的詞的注意力權(quán)重分布則較為稀疏,說明本文提出的兩種方法均能針對單詞推斷學(xué)習(xí)比較準確的注意力權(quán)重。
4 結(jié)束語
本文提出了一種新穎的變分Transformer多樣化圖像描述生成框架,該框架將條件變分自編碼器與端到端的Transformer的圖像描述生成模型無縫融合。基于證據(jù)下界,設(shè)計了兩種類型的條件變分Transformer模型,即GVC-T-IC和SCV-T-IC。 其中:GVC-T-IC利用全局隱嵌入捕獲句子級多樣性;SCV-T-IC將序列隱變量引入編解碼過程,以提升每個時間步生成單詞的多樣性。定量和定性實驗表明,所提出的方法在準確性和多樣性指標方面顯著優(yōu)于現(xiàn)有的多樣化圖像描述方法。下一步工作將引入擴散模型進行語言建模,以進一步提高多樣化圖像描述的性能。
參考文獻:
[1]Karpathy A,Li Feifei. Deep visual-semantic alignments for generating image descriptions [C]// Proc of IEEE/CVF Conference on Compu-ter Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2015: 3128-3137.
[2]Mao Junhua,Xu Wei,Yang Yi,et al. Deep captioning with multimodal recurrent neural networks(M-RNN) [C]// Proc of the 3rd International Conference on Learning Representations. 2015: 1-17.
[3]Vinyal O,Toshev A,Bengio S,et al. Show and tell: a neural image caption generator [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2015: 3156-3164.
[4]石義樂,楊文忠,杜慧祥,等. 基于深度學(xué)習(xí)的圖像描述綜述 [J]. 電子學(xué)報,2021,49(10): 2048-2060.(Shi Yile,Yang Wenzhong,Du Huixiang,et al. Overview of image captions based on deep learning [J]. Acta Electronica Sinica,2021,49(10): 2048-2060.)
[5]Papineni K,Roukos S,Ward T,et al. BLEU: a method for automatic evaluation of machine translation [C]// Proc of the 40th Annual Meeting of the Association for Computational Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2002: 311-318.
[6]Lin C Y. ROUGE: a package for automatic evaluation of summaries [M]// Text Summarization Branches Out. Stroudsburg,PA: Association for Computational Linguistics,2004: 74-81.
[7]Vedantam R,Zitnic C L,Parikh D. CIDEr: consensus-based image description evaluation [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2015: 4566-4575.
[8]Anderson P,He Xiaodong,Buehker C,et al. Bottom-up and top-down attention for image captioning and visual question answering [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition. Piscataway,NJ: IEEE Press,2018: 6077-6086.
[9]Vaswani A,Shazeer N,Parmar N,et al. Attention is all you need [C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc., 2017: 6000-6010.
[10]GoodFellow I J,Pouget-Abadie J,Mirza M,et al. Generative adversarial networks [J]. Communications of the ACM,2020,63(11): 139-144.
[11]Kingma D P,Wellling M. Auto-encoding variational Bayes [C]// Proc of the 2nd International Conference on Learning Representations. 2014: 1-14.
[12]Chen Chen,Mu Shuai,Xiao Wanpeng,et al. Improving image captioning with conditional generative adversarial nets [C]// Proc of the 28th International Joint Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2019: 8142-8150.
[13]Chen Fuhai,Ji Rongrong,Sun Xiaoshuai,et al. Variational structured semantic inference for diverse image captioning [C]// Proc of the 33rd International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc., 2019: 1929-1939.
[14]李志欣,魏海洋,黃飛成,等. 結(jié)合視覺特征和場景語義的圖像描述生成 [J]. 計算機學(xué)報,2020,43(9): 1624-1640.(Li Zhixin,Wei Haiyang,Huang Feicheng,et al. Combine visual features and scene semantics for image captioning [J]. Chinese Journal of Computers,2020,43(9): 1624-1640.)
[15]周東明,張燦龍,李志欣,等. 基于多層級視覺融合的圖像描述模型 [J]. 電子學(xué)報,2021,49(7): 1286-1290.(Zhou Dongming,Zhang Canlong,Li Zhixin,et al. Image captioning model based on multi-level visual fusion [J]. Acta Electronica Sinica,2021,49(7): 1286-1290.)
[16]劉茂福,施琦,聶禮強. 基于視覺關(guān)聯(lián)與上下文雙注意力的圖像描述生成方法 [J]. 軟件學(xué)報,2022,33(9): 3210-3222.(Liu Maofu,Shi Qi,Nie Liqiang. Image captioning based on visual relevance and context dual attention [J]. Journal of Software,2022,33(9): 3210-3222.)
[17]宋井寬,曾鵬鵬,顧嘉揚,等. 基于視覺區(qū)域聚合與雙向協(xié)作的端到端圖像描述生成 [J]. 軟件學(xué)報,2023,34(5): 2152-2169.(Song Jingkuan,Zeng Pengpeng,Gu Jiayang,et al. End-to-end image captioning via visual region aggregation and dual-level collaboration [J]. Journal of Software,2023,34(5): 2152-2169.)
[18]Dai Bo,F(xiàn)idler S,Urtasun R,et al. Towards diverse and natural image descriptions via a conditional GAN [C]// Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2017: 2970-2979.
[19]Shetty R,Rohrbach M,Hendricks L A,et al. Speaking the same language: matching machine to human captions by adversarial training [C]// Proc of IEEE International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2017: 4135-4144.
[20]Huijben I A M,Kool W,Paulus M B,et al. A review of the Gumbel-max trick and its extensions for discrete stochasticity in machine lear-ning [J]. IEEE Trans on Pattern Analysis and Machine Intel-ligence,2022,45(2): 1353-1371.
[21]Wang Liwei,Schwing A G,Lazebnik S. Diverse and accurate image description using a variational auto-encoder with an additive Gaussian encoding space [C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc., 2017: 5756-5766.
[22]Aneja J,Agrawal H,Batra D,et al. Sequential latent spaces for mo-deling the intention during diverse image captioning [C]// Proc of IEEE International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2019: 4261-4270.
[23]Mahajan S,Roth S. Diverse image captioning with context-object split latent spaces [C]// Proc of the 34th International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc., 2020: 3613-3624.
[24]Xu Jing,Liu Bing,Zhou Yong,et al. Diverse image captioning via conditional variational autoencoder and dual contrastive learning [J]. ACM Trans on Multimedia Computing,Communications and Applications,2023,20(1): 1-16.
[25]Deshpande A,Aneja J,Wang Liwei,et al. Fast,diverse and accurate image captioning guided by part-of-speech [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2019: 10695-10704.
[26]Wang Qingzhong,Chan A B. Describing like humans:on diversity in ima-ge captioning [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2019: 4195-4203.
[27]Shi Jiahe,Li Yali,Wang Shenjin. Partial off-policy learning: balance accuracy and diversity for human-oriented image captioning [C]//Proc of IEEE International Conference on Computer Vision. Piscata-way,NJ: IEEE Press,2021: 2187-2196.
[28]Rennie S J,Marcheret E,Mroueh Y,et al. Self-critical sequence training for image captioning [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2017: 7008-7024.
[29]Wang Jiuniu,Xu Wenjia,Chan A B,et al. On distinctive image captioning via comparing and reweighting [J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2022,45(2): 2088-2103.
[30]Liu Ze,Lin Yutong,Cao Yue,et al. Swin Transformer: hierarchical vision Transformer using shifted windows [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2021: 10012-10022.
[31]Banerjee S,Lavie A. METEOR: an automatic metric for MT evaluation with improved correlation with human judgments [C]// Proc of ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization. Stroudsburg,PA: Association for Computational Linguistics,2005: 65-72.
[32]Vijayakumar A K,Cogswell M,Selvarju R R,et al. Diverse beam search for improved description of complex scenes [C]// Proc of the 27th International Joint Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2018: 7371-7379.