宋祿琴 玄祖興 王彩云
1(北京聯(lián)合大學(xué)北京市信息服務(wù)工程重點(diǎn)實(shí)驗(yàn)室 北京 100101)2(北京聯(lián)合大學(xué)基礎(chǔ)與交叉科學(xué)研究所 北京 100101)
Image caption
當(dāng)前,深度學(xué)習(xí)迅速發(fā)展,圖像描述作為計(jì)算機(jī)視覺和自然語言處理的交叉研究課題,具有十分廣闊的前景。圖像描述生成[1]任務(wù)是指將圖像的視覺信息和圖像的文本信息相結(jié)合,對輸入圖像的視覺特征和文本的關(guān)鍵詞特征提取分析,得到一句或者一段關(guān)于該圖像的文字描述??蓱?yīng)用在無人駕駛領(lǐng)域,主要體現(xiàn)在輔助視覺障礙人群、安全輔助駕駛、交管部門管理等方面都具有廣泛的應(yīng)用價(jià)值。例如,在現(xiàn)實(shí)交通環(huán)境中,經(jīng)常出現(xiàn)行人橫穿馬路、司機(jī)隨意變道、司機(jī)疲勞駕駛等不確定性復(fù)雜的行為,這些情況給人們的出行以及交管部門的管理帶來了新的挑戰(zhàn)。
目前,國內(nèi)外出現(xiàn)許多自動(dòng)駕駛企業(yè),例如特斯拉、Mobileye、百度等,他們對汽車的智能駕駛主要是通過雷達(dá)、視覺圖像、全球定位系統(tǒng)等傳感器共同實(shí)現(xiàn)對汽車的智能駕駛。大多數(shù)學(xué)者和工業(yè)界從目標(biāo)檢測[2-3]、目標(biāo)識別[4]和全景分割[5]等角度對交通場景圖像進(jìn)行研究,忽略了語義角度?,F(xiàn)有資料表明,對交通場景圖像的圖像描述生成[6]研究較少,本文將從圖像描述角度出發(fā),利用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對部分交通場景的圖像描述。
目前,圖像描述生成算法大致分為三類:基于模板的方法、基于檢索的方法、基于神經(jīng)網(wǎng)絡(luò)的方法。本文采用的基于神經(jīng)網(wǎng)絡(luò)的方法。
基于模板的方法,這類方法一般具有固定模板,句子中包含許多空白的位置用來生成標(biāo)題。利用計(jì)算機(jī)視覺技術(shù)檢測圖像中存在的對象、屬性,以及識別出圖像可能發(fā)生的動(dòng)作,最后將關(guān)鍵字填入模板中的空白處。Farhadi等[7]提出一種三元模型,該模型由對象、動(dòng)作和場景三種元素組成,將模型檢測出的關(guān)鍵字填充在句子的空白模塊,生成與圖像相匹配的圖像描述。由于模板是預(yù)定義的,不能生成隨意變換長度的句子,因此基于固定模板的方法生成句子比較單一。
基于檢索的方法,文獻(xiàn)[8]從訓(xùn)練數(shù)據(jù)集中匹配與目標(biāo)圖像標(biāo)題視覺上類似的圖像,然后將標(biāo)題標(biāo)記為候選標(biāo)題?;跈z索的方法生成的描述和語法正確的標(biāo)題,但是對于特定語義的圖像或者數(shù)據(jù)集從未出現(xiàn)的語句無法生成正確的圖像標(biāo)題。
基于神經(jīng)網(wǎng)絡(luò)的方法,該方法通常采用編碼器-解碼器的組合架構(gòu)。在編碼階段使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)算法提取圖像特征信息,解碼階段使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)或者長短期記憶網(wǎng)絡(luò)來(Long Short Term Memory,LSTM)描述圖像。
其中,最具有代表性的算法是多模態(tài)循環(huán)神經(jīng)網(wǎng)絡(luò)(multimodal RNN,m-RNN)[9],Mao等首次將圖像描述生成任務(wù)分為兩個(gè)子任務(wù),在CNN任務(wù)中,通過AlexNet對提取圖像特征,用獨(dú)熱編碼將文字編碼為詞向量,將圖像特征和詞向量共同傳送至RNN網(wǎng)絡(luò)。由于RNN結(jié)構(gòu)單一,隨著網(wǎng)絡(luò)深度的加深,容易產(chǎn)生梯度消失,存在學(xué)習(xí)能力下降的缺點(diǎn)。Vinyals等[10]提出了神經(jīng)圖像描述生成(Neural Image Caption,NIC)算法,使用LSTM代替普通的RNN,同時(shí)在CNN結(jié)構(gòu)中使用批處理操作,在之前的算法基礎(chǔ)上,精度和速度得到大幅度的提升。該算法的不足之處在于,LSTM的輸入部分為圖像經(jīng)過CNN提取出的全局特征,并未考慮圖像中存在的關(guān)鍵信息,導(dǎo)致圖像在生成句子描述上語義表達(dá)模糊。Xu等[11]首次將注意力機(jī)制使用在圖像描述生成任務(wù)上,使圖像在生成語言文字序列時(shí),選擇關(guān)注區(qū)域,提升圖像描述生成模型的精度。在提取特征過程中,隨著網(wǎng)絡(luò)深度的增加,網(wǎng)絡(luò)存在學(xué)習(xí)能力退化問題[12],He等[13]提出殘差網(wǎng)絡(luò)(Residual Network),有效解決了網(wǎng)絡(luò)退化問題。Xu對圖像特征提取后,語言模型的輸入為固定特征向量,并不能及時(shí)獲得圖像表達(dá)的完整語義,Wang等[14]提出了多注意力機(jī)制,可以充分地使用圖像特征進(jìn)行語言描述。
You等[15]提出語義注意力模型,卷積神經(jīng)網(wǎng)絡(luò)通過top-down和bottom-up提取圖像特征,通過分類圖像特征信息提取出圖像的語義屬性特征,最后利用注意力機(jī)制選擇語義特征向量生成圖像描述。隨著網(wǎng)絡(luò)深度的加深,該模型出現(xiàn)圖像信息逐漸丟失的問題。Lu等[16]提出視覺標(biāo)記的Adaptive Attention算法,該算法在生成描述句子時(shí),自適應(yīng)地選擇依賴輸入圖像的視覺特征信息來生成視覺詞或者依賴LSTM語言模型來生成非視覺詞。Anderson等[17]提出結(jié)合bottom-up and top-down 兩種注意力機(jī)制,在提取圖像特征階段使用Faster R-CNN[18]網(wǎng)絡(luò)模型,該模型中的區(qū)域生成網(wǎng)絡(luò)(Region Proposal Network,RPN)可以提取圖像相對應(yīng)的目標(biāo)。不足之處在于RPN提取候選框較多,模型中存在較多的重復(fù)計(jì)算。文獻(xiàn)[19]提出在注意力機(jī)制中使用全卷積替代全連接操作,使得模型參數(shù)量減少,在一定程度上提升了運(yùn)行速度。上述網(wǎng)絡(luò)模型在圖像描述生成任務(wù)中各有其優(yōu)點(diǎn),能夠良好地使用自然語言描述圖像。
本文提出一種基于注意力機(jī)制的圖像描述生成模型。主要有以下特點(diǎn):(1) 使用改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)提取豐富的圖像特征,將圖像特征分為不同區(qū)域,分別依次連接注意力機(jī)制,使得算法在生成描述時(shí),可以自主選擇各區(qū)域的特征;(2) 得到帶有注意力權(quán)重的圖像特征與多層LSTM語言模型相連,使其更加準(zhǔn)確地完成對交通場景圖像描述生成;(3) 在解碼階段,對圖像的自然語言描述采用Word Embedding中的Word2vec編碼方式,相對以前常用的one-hot編碼,能夠有效地解決文本的有序性問題和文本向量維度災(zāi)難等問題。
為了驗(yàn)證算法的可靠性,本算法在MSCOCO[20]數(shù)據(jù)集上進(jìn)行了驗(yàn)證,該算法在評估指標(biāo)BLEU-1至BLEU-4上分值分別為0.735、0.652、0.368和0.323。實(shí)驗(yàn)表明,本文算法能夠準(zhǔn)確地對交通場景圖像進(jìn)行描述生成。
對交通場景圖像理解,本文從語義角度出發(fā),提出一種基于注意力機(jī)制的圖像描述算法,本文算法分為編碼階段和解碼階段。編碼階段,為了得到更加準(zhǔn)確的圖像描述,本文算法利用深度殘差網(wǎng)絡(luò)提取圖像特征,重點(diǎn)是在圖像特征中增加了注意力權(quán)重,得到帶有權(quán)值的圖像特征,定義為集合C,解碼階段結(jié)合LSTM語言模型共同完成圖像的描述生成。如圖1是本文算法的總體流程。
圖1 本文算法的總體流程
用X表示輸入的訓(xùn)練圖像,對應(yīng)的文本描述為S={S1,S2,…,Sn},其中:Si表示輸入句子的第i個(gè)單詞;n表示文本句子中單詞的最大長度。C為帶有注意力權(quán)值的圖像特征集合。
網(wǎng)絡(luò)結(jié)構(gòu)中,圖像X經(jīng)過LSTM生成的單詞概率如式(1)所示。
模型在訓(xùn)練中,訓(xùn)練目的即使圖像特征與描述句子之間的映射關(guān)系最大化,模型所需學(xué)習(xí)的模型參數(shù)表示為式(2)。
式中:S為圖像X生成的句子且長度不固定;θ為模型需要學(xué)習(xí)的參數(shù),訓(xùn)練時(shí)通過優(yōu)化θ的方式來最大化圖像生成正確的圖像描述概率。
2.1.1圖像特征提取
網(wǎng)絡(luò)層數(shù)越多,提取的特征越豐富,但是隨著網(wǎng)絡(luò)的深度加深,網(wǎng)絡(luò)在訓(xùn)練集上的準(zhǔn)確率容易趨近飽和。為了得到豐富的特征,本文使用深度殘差網(wǎng)絡(luò),該網(wǎng)絡(luò)在普通卷積網(wǎng)絡(luò)結(jié)構(gòu)中引入跳躍式連接方式構(gòu)成殘差模塊,有效地解決了隨著網(wǎng)絡(luò)層數(shù)的加深,網(wǎng)絡(luò)的準(zhǔn)確率和學(xué)習(xí)能力降低等網(wǎng)絡(luò)退化問題。
深度參數(shù)網(wǎng)絡(luò)由殘差模塊(residual block,RB)組成,圖2為一個(gè)殘差模塊結(jié)構(gòu)示意圖。
圖2 一個(gè)殘差模塊示意圖
用x表示網(wǎng)絡(luò)的輸入,H(x)表示網(wǎng)絡(luò)的輸出,x通過跳躍連接方式直接作為輸出的初始結(jié)果,得到輸出結(jié)果H(x)見式(3)。
H(x)=F(x)+x
(3)
當(dāng)F(x)=0時(shí),構(gòu)成恒等映射H(x)=x,網(wǎng)絡(luò)的學(xué)習(xí)目標(biāo)發(fā)生改變,即H(x)和x的差值,訓(xùn)練目標(biāo)為將殘差結(jié)果無限趨近0。將求恒等映射H(x)=F(x)轉(zhuǎn)變?yōu)榍笫?4),擬合殘差函數(shù)比直接擬合函數(shù)H(x)=x更加容易。
F(x)=H(x)-x
(4)
本文采用50層的深度殘差網(wǎng)絡(luò),網(wǎng)絡(luò)中包含4種不同參數(shù)的殘差模塊,每個(gè)殘差模塊由三層卷積組成。殘差模塊第二層采用3×3卷積先經(jīng)過第一層卷積核大小為1×1的卷積降維,用來減少參數(shù)的計(jì)算量,在最后一層1×1卷積時(shí)做了維度還原操作,保持了精度的情況下減少了計(jì)算量。網(wǎng)絡(luò)結(jié)構(gòu)中包含16個(gè)殘差模塊,具體網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 ResNet50網(wǎng)絡(luò)結(jié)構(gòu)
圖像經(jīng)過卷積、池化操作后得到l個(gè)特征圖,用集合A表示,見式(5),其維度為D。
A={a1,a2,…,al}ai∈RD
(5)
2.1.2融合注意力機(jī)制
在圖像描述生成中融合注意力機(jī)制,可以更準(zhǔn)確地表達(dá)圖像突出的特征信息,注意力機(jī)制的本質(zhì)是把圖像對應(yīng)的文本描述和圖像中的不同區(qū)域做一個(gè)映射。在以往的圖像描述模型中,在預(yù)測t時(shí)刻單詞時(shí),其映射關(guān)系為式(6)。
ht=f(ht-1,xt-1)
(6)
式中:ht-1表示上一時(shí)刻隱層的輸出信息;ht是當(dāng)前時(shí)刻的隱藏層輸出值。編碼階段在提取特征向量過程后,在解碼階段預(yù)測單詞均使用最初輸入的圖像特征,并不能在每個(gè)時(shí)間節(jié)點(diǎn)關(guān)注到圖像的突出區(qū)域。
將一幅圖像分為l個(gè)不同區(qū)域,對不同區(qū)域使用卷積神經(jīng)網(wǎng)絡(luò)提取特征,在l個(gè)不同區(qū)域融合注意力機(jī)制,賦予不同區(qū)域不同的權(quán)值,使得網(wǎng)絡(luò)在預(yù)測單詞過程中,可以時(shí)刻關(guān)注到圖像的重點(diǎn)區(qū)域。圖4是融合注意力機(jī)制的結(jié)構(gòu)。
圖4 融合注意力機(jī)制的結(jié)構(gòu)
表1 符號說明
用集合A表示一幅圖像共有l(wèi)個(gè)特征圖,其維度為D,將圖像分為l個(gè)待關(guān)注區(qū)域,集合A見式(5)。
wt={at1,at2,…,atl},wti是t時(shí)刻ai的權(quán)值,在訓(xùn)練注意力機(jī)制時(shí),模型的輸入是圖像與相應(yīng)的句子描述,句子通過詞嵌入(Word Embedding)方式向量化,保存在上一時(shí)刻的隱藏層狀態(tài)中。
圖4中C={c1,c2,…,cl},ci∈RD經(jīng)以下形式融合而成,r表示相關(guān)性匹配計(jì)算操作,用來計(jì)算句子中每個(gè)單詞與每個(gè)特征圖ai的相關(guān)性,再通過tanh激活函數(shù)得到bti,用式(7)表示。
bti=fatt(ai,ht-1)
(7)
式中:fatt通常為一層神經(jīng)網(wǎng)絡(luò),其映射關(guān)系如式(8)所示。
fatt=tanh(wsrht-1+warai)
(8)
式中:wsr表示單詞S的權(quán)值;war表示圖像區(qū)域的權(quán)值,為了突出重要特征權(quán)值,采用Softmax歸一化處理,使其得到的結(jié)果映射在(0,1)之間。wti表達(dá)式如式(9)所示。
式中:bti中t表示t時(shí)刻,i表示ai對應(yīng)的權(quán)重。帶有注意力權(quán)值圖像特征向量ct見式(10)。
在LSTM語言模型中,采用多個(gè)LSTM網(wǎng)絡(luò)結(jié)構(gòu),使圖像的底層的卷積特征連接底層的LSTM模塊,圖像的高層卷積特征連接高層的LSTM模塊,不同模塊之間賦予不同的注意力,充分地利用圖像特征信息。
本文的語言模型結(jié)構(gòu)如圖5所示。
圖5 語言模型結(jié)構(gòu)
本文網(wǎng)絡(luò)結(jié)構(gòu)中使用多個(gè)LSTM基本單元,隨著網(wǎng)絡(luò)的不斷加深,使得網(wǎng)絡(luò)在訓(xùn)練過程中容易飽和。LSTM提取圖像特征的注意力結(jié)構(gòu)時(shí),設(shè)計(jì)將多個(gè)LSTM基本單元使用殘差連接,可以有效地避免網(wǎng)絡(luò)無法收斂的情況。
LSTM作為語言生成模型的基本單元,模型基本結(jié)構(gòu)如圖6所示。
圖6 LSTM單元存儲(chǔ)結(jié)構(gòu)
1個(gè)LSTM單元存儲(chǔ)結(jié)構(gòu)包括3個(gè)門和一個(gè)記憶細(xì)胞M。i、f和o分別代表輸入門、遺忘門和輸出門。it、ft和ot分別表示輸入門、遺忘門和輸出門向量。ht-1表示上一個(gè)LSTM存儲(chǔ)單元的隱藏層的狀態(tài)信息,ht表示當(dāng)前單元的隱藏層輸出信息。xt表示當(dāng)前輸入的文本向量信息,Mt-1表示上一個(gè)LSTM單元的存儲(chǔ)信息,Mt表示當(dāng)前時(shí)刻即t時(shí)刻的存儲(chǔ)信息,σ為sigmoid(x)激活。it、ft和Mt分別用式(11)、式(12)和式(13)表示。
it=sigmoid(Wixt+Wiht-1+bi)
(11)
ft=sigmoid(Wfxt+Wfht-1+bf)
(12)
Mt=it×tanh(Wcxt+Wcht-1+bc)+ft×Mt-1
(13)
最后,通過輸出門控制當(dāng)前LSTM單元的輸出信息,見式(14)、式(15)。
ot=sigmoid(Woxt+Woht-1+bo)
(14)
ht=ot×tanh(Mt)
(15)
本文采用微軟提供的MSCOCO數(shù)據(jù)集,該數(shù)據(jù)集包含圖像識別、圖像分割和圖像描述生成等任務(wù)。圖像描述生成數(shù)據(jù)集由圖像數(shù)據(jù)和帶標(biāo)注的JSON文件兩部分組成。JSON文件中包含圖像的類別、物體的輪廓坐標(biāo)、邊界框坐標(biāo)、image_id,對應(yīng)于圖像數(shù)據(jù)中的存儲(chǔ)id和該圖像內(nèi)容的描述,其中每幅圖像的描述均至少有5種。表2為實(shí)驗(yàn)的訓(xùn)練集和驗(yàn)證集圖像,對于測試集,本文選用了交通場景的圖像作為測試集,更好地驗(yàn)證該算法的準(zhǔn)確性。
表2 數(shù)據(jù)集
文本實(shí)驗(yàn)采用的硬件平臺是DELL深度學(xué)習(xí)工作站,顯卡為NVIDIA GeForce GTX 1080 Ti,操作系統(tǒng)為Ubuntu 16.04.3,深度學(xué)習(xí)框架為TensorFlow 1.14。
網(wǎng)絡(luò)模型中,提取圖像特征選取改進(jìn)的ResNet50,batch為11 290,訓(xùn)練網(wǎng)絡(luò)時(shí)batch_size大小為32,epoch=50次,初始學(xué)習(xí)率0.001,衰減率設(shè)置為0.9。句子S生成詞向量,采用了詞嵌入方法,訓(xùn)練過程中,為了防止在訓(xùn)練過程中出現(xiàn)過擬合現(xiàn)象,使用正則化dropout方法,其取值為0.5。
本次實(shí)驗(yàn)結(jié)果測評選取當(dāng)前主流的雙語評估指標(biāo)(Bilingual Evaluation Understudy,BLEU)[21],該方法分析生成的候選句子和標(biāo)準(zhǔn)參考句子中n元組共同出現(xiàn)的概率,通過n-gram概率模型計(jì)算打分,取值范圍在0至1之間,取值越高,表示算法在“B-n”概率模型上效果越好。
BLEU評估指標(biāo)計(jì)算為:
式中:wn為n-gram的權(quán)重;BP為懲罰因子,當(dāng)生成候選句子的長度小于標(biāo)準(zhǔn)參考句子的情況,其值用式(17)表示。
式中:c為生成候選句子的長度;r為標(biāo)準(zhǔn)參考句子的長度。pn見式(18)。
Countclip(t)=min{Count(t),MaxRefCount(t)},t=n-gram
式中:pn為n-gram的匹配精度;Count(n-gram)為某個(gè)n元詞在生成的候選句子中出現(xiàn)的次數(shù);MaxRefCount(n-gram)是該n元詞在標(biāo)準(zhǔn)參考句子中出現(xiàn)的最大次數(shù)。
本文算法與Google NIC[10]、Hard-Attention[11]、Sem-ATT[15]、Adaptive[16]和文獻(xiàn)[6]算法在BLEU上的對比結(jié)果如表3所示。
表3 MSCOCO數(shù)據(jù)庫上實(shí)驗(yàn)結(jié)果比較(B-n代表BLEU分?jǐn)?shù),n=1,2,3,4)
表3表明,在MSCOCO數(shù)據(jù)集中,本文算法在BLEU-1至BLEU-4評估指標(biāo)中取得了較高的分值,提升了圖像描述的性能。具體算法分析如下:
(1) Google NIC算法利用卷積神經(jīng)網(wǎng)絡(luò)提取深層抽象的特征信息,再將圖像的特征信息傳送至長短期記憶網(wǎng)絡(luò)模型中,得到圖像的描述,在BLEU-4指標(biāo)上,本文算法對比Google NIC算法提升了16.6%。
(2) Hard-Attention算法在圖像特征提取過程中,獲取淺層的圖像特征信息,在淺層信息中增加了注意力權(quán)值,然后將這些信息輸入至長短期記憶網(wǎng)絡(luò)模型。在BLEU-1至BLEU-4指標(biāo)上,本文算法對比Hard-Attention算法分別提升了2.4%、29.4%、3%和29.2%。
(3) Sem-ATT算法在單詞屬性方面增加了注意力機(jī)制處理同時(shí)與圖像經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)提取t=0時(shí)刻的圖像特征,同時(shí)傳入長短期記憶網(wǎng)絡(luò)模型中。在BLEU-1、BLEU-2、BLEU-4指標(biāo)上,本文算法對比Sem-ATT算法分別提升了3.7%、21.4%和6.3%。
(4) Adaptive算法利用哨兵機(jī)制,生成圖像單詞時(shí)先計(jì)算單詞是屬于視覺詞或者上下文語義詞的概率,再由概率值分配權(quán)重得到總體特征,最后輸入至長短期記憶網(wǎng)絡(luò)模型生成圖像描述。在BLEU-2指標(biāo)上,本文算法對比Adaptive算法提升了11.6%。
(5) 文獻(xiàn)[6]提出利用顏色注意力因子,對圖像中顏色賦予不同的權(quán)值,使其對黑、白和灰有很好的辨別能力。在BLEU-1、BLEU-2、BLEU-4指標(biāo)上,本文算法對比文獻(xiàn)[6]算法分別提升了1.7%、25.9%和28.7%。
對交通場景圖像做圖像描述生成,本文提出的基于注意力機(jī)制的算法在BLEU指標(biāo)上獲得了較高的分值。融合注意力機(jī)制的網(wǎng)絡(luò)使得圖像在訓(xùn)練過程中更加關(guān)注圖像中的重要信息,如圖像中車、人的信息,使其對圖像的描述更加精確。為了進(jìn)一步測試本文算法的效果,測試圖像選取了城市主干道路和十字路口圖像,融合注意力機(jī)制算法與無融合注意力機(jī)制算法對比測試結(jié)果如圖7所示,圖7左列與右列分別表示融合注意力機(jī)制算法與未添加注意力機(jī)制算法的圖像描述生成,結(jié)果表明:本文算法可以準(zhǔn)確地用自然語言來描述交通場景圖像。
(a) 停在建筑物前面的汽車 (b) 在道路上行駛的一輛卡車
(c) 有交通信號燈和指示牌的一條城市道 (d) 城市街道上有許多交通工具
(e) 許多汽車在道路上行駛 (f) 一輛汽車停在路邊
(g) 一群人在道路上騎自行車 (h) 一個(gè)人在道路上騎自行車圖7 本文算法與無注意力機(jī)制算法描述對比測試圖像
交通場景的圖像描述生成重點(diǎn)是關(guān)注圖像中的行人和車輛,本文提出基于注意力機(jī)制的圖像描述生成算法,編碼階段將一幅交通圖像分為多個(gè)區(qū)域,不同的區(qū)域提取圖像特征后融合注意力權(quán)重,對圖像中的重點(diǎn)信息,如人和車賦予不同的權(quán)值,使得網(wǎng)絡(luò)在預(yù)測句子單詞過程中,可以時(shí)刻關(guān)注到圖像的重點(diǎn)區(qū)域。解碼階段采用多個(gè)LSTM網(wǎng)絡(luò)結(jié)構(gòu),底層的帶有注意力的卷積特征與底層LSTM單元結(jié)構(gòu)連接,高層的帶有注意力的卷積特征與高層LSTM單元結(jié)構(gòu)相連接,實(shí)現(xiàn)端到端的圖像描述。
本文算法在BLEU指標(biāo)上進(jìn)行評分,對比其他幾種注意力機(jī)制模型,評分結(jié)果表明,基于改進(jìn)的殘差網(wǎng)絡(luò)和融合注意力機(jī)制圖像描述生成的算法能很好地描述交通場景圖像,包括交通場景中的重要信息,例如人和車。下一步研究工作重點(diǎn)是對交通場景中人和車之間相互關(guān)系進(jìn)行準(zhǔn)確描述,使得圖像描述生成在無人駕駛、安全輔助駕駛等方面發(fā)揮出更大的價(jià)值。