林賢早,劉 俊,田 勝,徐小康,姜 濤
(杭州電子科技大學(xué)通信信息傳輸與融合技術(shù)國(guó)防重點(diǎn)學(xué)科實(shí)驗(yàn)室,杭州310018)
(?通信作者電子郵箱lilcore_lxz@163.com)
隨著近些年人工智能的高速發(fā)展,近海地區(qū)也在跟進(jìn)構(gòu)建智能化船舶監(jiān)測(cè)系統(tǒng)。而自動(dòng)化的情報(bào)生成就是其中至關(guān)重要的一環(huán),也是極為困難的一環(huán)。船舶監(jiān)測(cè)系統(tǒng)中關(guān)于情報(bào)的生成不僅需要船舶類(lèi)別、位置等信息,還需要描述船舶圖像內(nèi)容的語(yǔ)義信息作為數(shù)據(jù)支撐。得益于深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)中的廣泛應(yīng)用,計(jì)算機(jī)通過(guò)訓(xùn)練可以自動(dòng)生成對(duì)圖像的文本描述,同樣可以對(duì)船舶圖像的運(yùn)動(dòng)狀態(tài)和四周場(chǎng)景進(jìn)行描述。
視覺(jué)作為人類(lèi)的主要感官,發(fā)揮著巨大的作用。人們通過(guò)在短時(shí)間快速地瀏覽圖片就能在腦海中生成符合語(yǔ)言學(xué)且與內(nèi)容相符合的圖像描述。由此可知,圖像描述生成領(lǐng)域關(guān)聯(lián)兩個(gè)基礎(chǔ)問(wèn)題,也就是視覺(jué)理解和語(yǔ)言處理。換而言之,解決圖像描述生成問(wèn)題需要連接計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理兩個(gè)社區(qū),這項(xiàng)任務(wù)不僅需要高度理解圖像語(yǔ)義內(nèi)容,還需要用人類(lèi)化的語(yǔ)言表達(dá)出該信息。從以往的研究得知,確定圖片中的物體的存在、屬性還有之間的關(guān)系本身就不是一個(gè)輕松的工作,進(jìn)一步用符合語(yǔ)法的語(yǔ)句去描述此類(lèi)信息則更加提升了這項(xiàng)工作的難度。
深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理等人工智能領(lǐng)域表現(xiàn)優(yōu)越,可知深度神經(jīng)網(wǎng)絡(luò)能同時(shí)為視覺(jué)模型和語(yǔ)言模型[1]提供支撐。受到神經(jīng)機(jī)器翻譯中編解碼框架的啟發(fā),圖像描述生成任務(wù)也可以分解成兩個(gè)步驟:對(duì)圖像內(nèi)容和語(yǔ)義進(jìn)行編碼,使用語(yǔ)言模型對(duì)該特征進(jìn)行解碼。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[2]現(xiàn)如今已成為目標(biāo)檢測(cè)和識(shí)別的主流方法,而循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)在自然語(yǔ)言處理也擁有著卓越表現(xiàn),兩者的有機(jī)結(jié)合剛好為圖像描述生成提供了有效的解決方案。
早期在圖像描述生成方面的工作主要集中在基于檢索的方法和基于模板的方法。這些方法要么通過(guò)關(guān)鍵詞直接套用現(xiàn)有的描述文字[3],要么依靠嚴(yán)格編碼的語(yǔ)言結(jié)構(gòu)完成文字描述[4],因此早期工作中這兩種方法產(chǎn)生的圖像描述在很大程度上十分晦澀而又低效?,F(xiàn)如今,許多基于循環(huán)神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型已經(jīng)廣泛應(yīng)用于圖像描述生成。而這些使用深度學(xué)習(xí)的方法大多數(shù)采用編碼/解碼框架。這個(gè)框架的流程是先通過(guò)預(yù)訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)將圖像編碼成能夠表征圖像內(nèi)容的特征,然后結(jié)合部分完整描述文字提供的語(yǔ)義輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)中將該特征解碼成句子。這是Vinyals等[5]率先提出的,該模型是受到最近神經(jīng)機(jī)器翻譯[6]在序列生成中的成功應(yīng)用所啟發(fā),與神經(jīng)機(jī)器翻譯的區(qū)別就是圖像描述生成的輸入不是句子而是卷積網(wǎng)絡(luò)得到的特征,特征進(jìn)行解碼時(shí)采用了長(zhǎng)短時(shí)記憶(Long Short-Term Memory,LSTM)單元。LSTM 作為RNN 的變種,由于其門(mén)控單元的設(shè)計(jì),能夠很大程度改善RNN 在長(zhǎng)時(shí)間序列上的梯度彌散,因此后續(xù)的模型大多都是用LSTM 或其變種來(lái)解決句子生成這類(lèi)序列結(jié)構(gòu)問(wèn)題。后續(xù)的研究則分別在編碼和解碼上對(duì)其進(jìn)行改良,近來(lái)備受關(guān)注的注意力機(jī)制就廣泛應(yīng)用于該任務(wù)。Xu等[7]使用帶有空間信息的卷積圖像特征作為輸入,在二維空間上使用注意力對(duì)位置進(jìn)行選擇,他采取了兩種注意力方式,分別為只選取固定數(shù)量位置的“硬”注意力和給所有的空間位置分配不同權(quán)重的“軟”注意力。這種空間注意力能夠有效地對(duì)特征再編碼,從而提高了語(yǔ)言模型生成句子的正確性。You等[8]將注意力轉(zhuǎn)向語(yǔ)義集合中,基于語(yǔ)義特征集合解碼生成圖像描述。Chen 等[9]甚至還對(duì)不同的特征通道使用了注意力,將注意力延伸到三維空間。
圖像描述生成方法在解碼階段一般使用交叉熵函數(shù)進(jìn)行訓(xùn)練,但是測(cè)試階段評(píng)價(jià)使用的是不可微的自然語(yǔ)言評(píng)價(jià)指標(biāo),比如BLEU(Bilingual Evaluation Understudy)[10]、ROUGE(Recall-Oriented Understudy for Gisting Evaluation)[11]、CIDEr(Consensus-based Image Description Evaluation)[12]等,因此使用交叉熵函數(shù)無(wú)法直接優(yōu)化評(píng)價(jià)指標(biāo),而只能擬合模型去生成與數(shù)據(jù)集相近的語(yǔ)言描述,容易在解碼階段過(guò)擬合,無(wú)法對(duì)語(yǔ)言表達(dá)進(jìn)行有效的學(xué)習(xí)。不止于此,測(cè)試階段的圖像描述生成是通過(guò)已訓(xùn)練好的模型生成的單詞結(jié)合圖像特征,迭代地預(yù)測(cè)后續(xù)的單詞,所以這種預(yù)測(cè)方式容易對(duì)錯(cuò)誤進(jìn)行積累,這種現(xiàn)象叫作exposure bias,Rennie 等[13]1提出加入強(qiáng)化學(xué)習(xí)策略可以彌補(bǔ)交叉熵?fù)p失函數(shù)無(wú)法優(yōu)化指標(biāo)的缺陷,該策略可以在訓(xùn)練中通過(guò)采樣的方式計(jì)算獎(jiǎng)勵(lì)期望的梯度,進(jìn)而更新模型權(quán)重,使得評(píng)價(jià)指標(biāo)作為直接優(yōu)化的目標(biāo)。
圖像描述生成還受益于圖像描述生成數(shù)據(jù)集不斷擴(kuò)大,比如原先的Flicker 8K、Flicker 30K 到現(xiàn)在MSCOCO(MicroSoft Common Objects in COntext)caption 提供十幾萬(wàn)張圖片和對(duì)應(yīng)的文字描述,使得深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練得到了有效的數(shù)據(jù)集支撐。為了將該方法應(yīng)用于船舶監(jiān)測(cè)中,本文自建船舶描述數(shù)據(jù)集對(duì)船舶的運(yùn)動(dòng)狀態(tài)和四周場(chǎng)景進(jìn)行標(biāo)注。
本文提出的基于多空間混合注意力的圖像描述方法,使用預(yù)訓(xùn)練好的檢測(cè)網(wǎng)絡(luò)提取感興趣區(qū)域的特征編碼,在解碼階段對(duì)該特征施加多空間注意力和視覺(jué)選擇,引入強(qiáng)化學(xué)習(xí)的策略梯度對(duì)優(yōu)化目標(biāo)進(jìn)行重塑,從而使得訓(xùn)練和測(cè)試階段的解碼統(tǒng)一,直接針對(duì)評(píng)價(jià)指標(biāo)進(jìn)行優(yōu)化。整體框架如圖1所示,這種模式本質(zhì)上屬于端到端的設(shè)計(jì),但是由于實(shí)際訓(xùn)練中無(wú)法同時(shí)優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)和LSTM,圖像和文字雖然能表征同樣的事件或者事物,但是在表達(dá)形式上存在著鴻溝。本文將編碼解碼分成兩個(gè)步驟分開(kāi)訓(xùn)練,在得到豐富的語(yǔ)義特征之后,將該特征作為解碼模型的輸入。如圖1 所示,為了得到圖像的感興趣區(qū)域特征,算法總體框架中的卷積編碼器選用的是目標(biāo)檢測(cè)網(wǎng)絡(luò)。具體采用的感興趣區(qū)域特征提取方案是以ResNet-101[14]為卷積骨干的Faster-RCNN[15]。為了感興趣區(qū)域特征能夠表征圖像中的相關(guān)屬性,在損失函數(shù)中添加屬性分類(lèi)交叉熵?fù)p失。訓(xùn)練數(shù)據(jù)集使用的是帶有屬性、坐標(biāo)、類(lèi)別標(biāo)簽的Visual Genome 數(shù)據(jù)集。編碼采用的具體卷積結(jié)構(gòu)如圖2所示。
圖2 卷積網(wǎng)絡(luò)結(jié)構(gòu)Fig. 2 Convolution network structure
沿用Faster-RCNN 的框架,網(wǎng)絡(luò)的改動(dòng)部分如下:首先將區(qū)域候選網(wǎng)絡(luò)(Region Proposal Network,RPN)結(jié)構(gòu)接在分類(lèi)網(wǎng)絡(luò)的第4 個(gè)卷積模塊之后,得到候選區(qū)域;然后將候選區(qū)域與第4 個(gè)卷積模塊的特征結(jié)合,得到感興趣區(qū)域特征;最后利用第5個(gè)卷積模塊接的圖像特征分別對(duì)401個(gè)屬性進(jìn)行分類(lèi),對(duì)于1 601 個(gè)目標(biāo)種類(lèi)進(jìn)行目標(biāo)檢測(cè)。該目標(biāo)檢測(cè)網(wǎng)絡(luò)的設(shè)計(jì)方式是為了與ResNet-101 分類(lèi)網(wǎng)絡(luò)結(jié)構(gòu)保持一致,提高網(wǎng)絡(luò)遷移的穩(wěn)定性,使得網(wǎng)絡(luò)可訓(xùn)練。
除此之外,當(dāng)引入強(qiáng)化學(xué)習(xí)目標(biāo)作為訓(xùn)練的優(yōu)化函數(shù)之后,增加了模型的不穩(wěn)定性,通過(guò)實(shí)驗(yàn)可知,直接優(yōu)化平均期望獎(jiǎng)勵(lì)這一目標(biāo),會(huì)使得模型無(wú)法訓(xùn)練。而交叉熵?fù)p失函數(shù)往往能構(gòu)成凸函數(shù),使得模型易于收斂,所以本文先通過(guò)交叉熵模型得到性能較好的解碼模型,再使用策略梯度優(yōu)化模型時(shí)就可以穩(wěn)定地提高評(píng)價(jià)指標(biāo)。
在人類(lèi)的視覺(jué)系統(tǒng)中,注意力信號(hào)大致可以劃分為兩種:一種是自頂向下的注意力,這類(lèi)信號(hào)受當(dāng)前的任務(wù)的驅(qū)動(dòng),由人的主動(dòng)意識(shí)所控制;另外一種是外界新奇或者顯著的激勵(lì)因子組成的自底向上的信號(hào),一般是被動(dòng)地接收。這兩種注意力信號(hào)都與視覺(jué)元素的內(nèi)容相關(guān)聯(lián)。
由于卷積操作本身的特性,特征圖的每一通道都由一組卷積核對(duì)上一層特征塊卷積后得到,可將其對(duì)應(yīng)為自底向上的局部空間特征提取器,因此特征塊的通道可以認(rèn)為是圖像的不同語(yǔ)義部分。換而言之,卷積核能夠在局部感受野中融合空間和通道信息。既然卷積的作用是對(duì)圖像進(jìn)行特征編碼,那么注意力編碼的設(shè)計(jì)可以認(rèn)為是對(duì)不同位置、不同通道的特征進(jìn)行解耦。添加注意力后得到的特征圖,可以看作是對(duì)空間、通道信息的重新校準(zhǔn),可以對(duì)后續(xù)的解碼過(guò)程產(chǎn)生積極的影響。本文在解碼階段采用多空間注意力,如圖3所示。
圖3 多空間注意力Fig. 3 Multi-spatial attention
這種注意力也同樣屬于自注意力。此自注意力本質(zhì)是對(duì)特征進(jìn)行重新編碼?;仡欀暗目蚣埽疚耐ㄟ^(guò)卷積神經(jīng)網(wǎng)絡(luò)得到了圖像的特征向量表達(dá),這一環(huán)節(jié)就是結(jié)合解碼輸出構(gòu)成的上下文語(yǔ)境引導(dǎo)特征的重新編碼。具體的操作為:
att = softmax(αhTV)V (1)其中:h 為循環(huán)神經(jīng)網(wǎng)絡(luò)的隱層狀態(tài);V 為感興趣區(qū)域特征。與一般注意力不同的是,本文將這種注意力擴(kuò)展到了多個(gè)空間中。假設(shè)隱層狀態(tài)長(zhǎng)度為k 維,每個(gè)空間位置的圖像特征也為k 維,先將其擴(kuò)展成N 個(gè)子空間后,通過(guò)式(1)計(jì)算子空間注意力的權(quán)重,然后將其重新拼接成最后的注意力特征。
因?yàn)樵u(píng)價(jià)標(biāo)準(zhǔn)依據(jù)的是生成句子的內(nèi)容和流暢性,因此僅僅關(guān)注圖像的視覺(jué)部分還不夠,還需要考慮將圖像內(nèi)容串聯(lián)起來(lái)的一些非視覺(jué)詞語(yǔ),所以本文在原有的LSTM 中加入視覺(jué)選擇門(mén)控機(jī)制。帶有視覺(jué)選擇的解碼模型可以自動(dòng)決定什么時(shí)候關(guān)注視覺(jué)信號(hào),什么時(shí)候依賴(lài)語(yǔ)言模型。當(dāng)依賴(lài)視覺(jué)信號(hào)時(shí),模型同樣會(huì)決定對(duì)視覺(jué)區(qū)域的選擇作出判斷。一般的LSTM模型如下:
其中:xt是輸入向量;mt-1是t - 1 時(shí)刻的記憶細(xì)胞向量。通過(guò)在該向量上進(jìn)行擴(kuò)展,得到可供非視覺(jué)詞產(chǎn)生的信息,形成視覺(jué)選擇門(mén)控機(jī)制。
其中:Wx和Wh是需要被學(xué)習(xí)的權(quán)重;xt是LSTM 在t 時(shí)刻的輸入;gt向量對(duì)記憶細(xì)胞施加影響;mt包含了時(shí)刻t 及其之前的語(yǔ)義信息;“⊙”是點(diǎn)乘操作。
基于非視覺(jué)詞的信息st和注意力的特征attt來(lái)重新組合得到自適應(yīng)語(yǔ)義向量c′。
其中μt是一個(gè)標(biāo)量,它決定了對(duì)視覺(jué)信息的選擇,它的取值是先將st和ht映射到嵌入空間,將其進(jìn)行組合后再投射到一維空間得到標(biāo)量值,具體實(shí)現(xiàn)如下:
視覺(jué)選擇與多空間注意力構(gòu)成了多空間混合注意力,既能關(guān)注視覺(jué)方面的信息,也能對(duì)圖像中的非視覺(jué)信息進(jìn)行選擇。多空間混合注意力同時(shí)還得益于編碼特征中將圖像之間的屬性關(guān)系融合到優(yōu)化目標(biāo)中,使得感興趣區(qū)域特征融合進(jìn)了圖像的屬性信息。
如圖4 所示,循環(huán)神經(jīng)網(wǎng)絡(luò)模型可以看作一個(gè)智能體與外部環(huán)境(單詞和圖像特征)進(jìn)行交流。這個(gè)網(wǎng)絡(luò)模型的參數(shù)θ定義了策略π。策略π 會(huì)產(chǎn)生一種動(dòng)作,對(duì)應(yīng)的就是句子的預(yù)測(cè)。在每個(gè)動(dòng)作之后,這個(gè)智能體即LSTM 會(huì)更新它的狀態(tài)。這個(gè)狀態(tài)指的是LSTM 中的記憶細(xì)胞狀態(tài)和隱層狀態(tài)。這個(gè)過(guò)程迭代生成句子描述,直到生成句子結(jié)束標(biāo)識(shí)符。智能體通過(guò)觀測(cè)環(huán)境可以獲得回報(bào),動(dòng)作的選擇就是通過(guò)最小化這個(gè)回報(bào)的負(fù)期望得到的?;貓?bào)的產(chǎn)生就是依賴(lài)常用的評(píng)價(jià)指標(biāo),比如CIDEr-D,計(jì)算生成句子的得分值,本文將這種回報(bào)記作r。
圖4 強(qiáng)化學(xué)習(xí)優(yōu)化過(guò)程Fig. 4 Optimization process of reinforcement learning
目標(biāo)函數(shù)就從原來(lái)的交叉熵函數(shù)重新塑造成回報(bào)的期望:
由于無(wú)法得知回報(bào)的分布,一般常用蒙特卡洛方法經(jīng)驗(yàn)平均來(lái)作為模型期望的無(wú)偏估計(jì)。此方法主要的限制是在強(qiáng)化學(xué)習(xí)下使用小批量樣本會(huì)使需要優(yōu)化的回報(bào)這一隨機(jī)變量產(chǎn)生高的方差,從而使得訓(xùn)練過(guò)程十分不穩(wěn)定,難以收斂,并且無(wú)法選擇學(xué)習(xí)率。除了適當(dāng)?shù)卦黾优叽缤?,為了穩(wěn)定性的需要還可以加入合適的偏差修正baseline。
baseline 的設(shè)置為當(dāng)前模型在測(cè)試階段得到回報(bào)。那么式(8)可改寫(xiě)為:
因?yàn)閎aseline是一個(gè)常數(shù),所以并不影響梯度的大小。除此之外本文還使用限定采樣方式為多項(xiàng)式分布來(lái)加速訓(xùn)練過(guò)程。
針對(duì)圖像描述生成任務(wù),本文主要使用CIDEr-D 進(jìn)行評(píng)分,其他評(píng)價(jià)指標(biāo)有機(jī)器翻譯工作中基于精確度的BLEU 和自動(dòng)摘要工作中基于召回率的ROUGE。以下是CIDEr 的計(jì)算公式:
其中:ci是生成候選句子;sij是參考的句子;gn(ci)是一個(gè)向量,它的長(zhǎng)度為候選句子和真實(shí)句子中n 元詞組的個(gè)數(shù)之和,每個(gè)元素是計(jì)算n 元語(yǔ)法在候選生成句子中的TF-IDF(Term Frequency-Inverse Document Frequency);||?||是取模操作。同理gn(sij)即是將生成候選句子替換為參考句子后進(jìn)行計(jì)算。wn一般設(shè)為1/N(N 一般設(shè)為4)。為了評(píng)價(jià)的公平性,微軟官方重新對(duì)CIDEr 進(jìn)行修改,加上了句子長(zhǎng)度的差異的高斯懲罰和對(duì)大于參考句子的TF-IDF元素進(jìn)行截?cái)?,記為CIDEr-D,重寫(xiě)為:
一般使用σ = 6,乘以10 是為了讓這個(gè)分?jǐn)?shù)與其他的評(píng)價(jià)的指標(biāo)相近。
本文選用在MSCOCO caption 數(shù)據(jù)集上驗(yàn)證算法的有效性。MSCOCO 是微軟公開(kāi)的圖像描述數(shù)據(jù)集,包含著82 783張訓(xùn)練集、40 504 張驗(yàn)證集和40 775 張測(cè)試集。相對(duì)于其他小規(guī)模的圖像描述生成數(shù)據(jù)集,COCO caption 數(shù)據(jù)集更有挑戰(zhàn)力,也更加具有公信力,其中一張圖片對(duì)應(yīng)5句描述,由json格式提供。本文采取的驗(yàn)證模型優(yōu)劣的方式分為兩個(gè)步驟:先通過(guò)訓(xùn)練集和驗(yàn)證集在線下調(diào)節(jié)模型的參數(shù),然后提交測(cè)試集的結(jié)果到服務(wù)器上獲取對(duì)應(yīng)指標(biāo)的分?jǐn)?shù)。最終的解碼模型獲取分為兩輪,區(qū)別在于第一輪是對(duì)交叉熵?fù)p失函數(shù)進(jìn)行優(yōu)化,第二輪是通過(guò)策略梯度對(duì)模型進(jìn)行調(diào)節(jié)。第一輪設(shè)置為學(xué)習(xí)率0.000 1,選用Adam 優(yōu)化器降低交叉熵?fù)p失,收斂至平穩(wěn)后,再降低學(xué)習(xí)率,直至交叉熵?fù)p失無(wú)法進(jìn)一步優(yōu)化,最大迭代輪數(shù)為30。得到較穩(wěn)定的交叉熵解碼模型后,再使用策略梯度替換交叉熵?fù)p失函數(shù),采取相同的超參數(shù)進(jìn)行優(yōu)化,兩輪訓(xùn)練的總迭代周期為70。沿用Karpathy等[16]的數(shù)據(jù)集設(shè)置,分別使用5 000 張圖片用于線下的驗(yàn)證和測(cè)試。表1 列出訓(xùn)練時(shí)候的超參數(shù)設(shè)置。詞嵌入向量設(shè)為1 024,LSTM 的隱藏層向量大小設(shè)置為1 024。為了防止過(guò)擬合對(duì)加入dropout,設(shè)為0.5。
為了使實(shí)驗(yàn)結(jié)果有說(shuō)服力,本文將COCO 測(cè)試集在本地得出的圖像描述提交到后臺(tái)驗(yàn)證算法設(shè)計(jì)的有效性,并與近些年帶有注意力機(jī)制的算法進(jìn)行比較。主要實(shí)驗(yàn)內(nèi)容如表2所示。
通過(guò)表2 可以得知,相比在解碼階段單純使用LSTM,現(xiàn)今的方法都會(huì)加上注意力機(jī)制,注意力機(jī)制能夠在解碼階段對(duì)于卷積得到的整體特征再次重新編碼,使得特征得以映射到能與語(yǔ)言空間容易轉(zhuǎn)換的嵌入空間,提升特征的表達(dá)能力。而本文使用的混合注意力,則首先將特征映射到不同的空間中,擴(kuò)展注意力的表達(dá),再使用視覺(jué)選擇機(jī)制分配視覺(jué)信息與語(yǔ)言信息的權(quán)重,不僅提升了特征的表征能力,還能聯(lián)系生成單詞的語(yǔ)義,從而獲得較好的指標(biāo)結(jié)果。
在線下驗(yàn)證實(shí)驗(yàn)中,本文疊加多空間注意力和視覺(jué)選擇模塊進(jìn)行訓(xùn)練,融合成本文所提出的混合注意力進(jìn)行優(yōu)化模型。從表3 的結(jié)果來(lái)看,在沒(méi)有使用策略梯度微調(diào)模型的情況下,還是能夠使結(jié)果達(dá)到比較好的效果。當(dāng)加上策略梯度優(yōu)化時(shí)能夠極大地提升混合注意力模型解釋特征的能力。這里的強(qiáng)化學(xué)習(xí)算是一種優(yōu)化手段,本質(zhì)上也是在復(fù)雜模型提供的參數(shù)空間中尋找最優(yōu)的參數(shù)優(yōu)化指標(biāo),最終還是混合注意力起到了作用,使得該模型的圖像描述能力提升,獲得了較高的評(píng)價(jià)分?jǐn)?shù)。同時(shí)實(shí)驗(yàn)統(tǒng)計(jì)了編解碼模型在前向的耗時(shí),編碼前向平均每幀平均耗時(shí)200 ms,解碼前向每幀平均耗時(shí)40 ms。
除了在權(quán)威的COCO 數(shù)據(jù)集上進(jìn)行模型驗(yàn)證實(shí)驗(yàn)之外,本文還自建船舶描述數(shù)據(jù)集,將船舶在海上航行的情況進(jìn)行描述,為情報(bào)生成打下基礎(chǔ)。如圖5 所示,給出帶有船舶的圖片,可以自動(dòng)輸出語(yǔ)句來(lái)描述出其船舶明顯的主體顏色及其在海上航行或岸邊停靠等內(nèi)容,并且語(yǔ)句的表述能夠合乎語(yǔ)法規(guī)則。
圖5 自動(dòng)生成船舶圖像描述Fig. 5 Automatic generation of ship image descriptions
表1 超參數(shù)設(shè)置Tab. 1 Hyperparameter setting
表2 不同注意力機(jī)制的算法比較Tab. 2 Comparison of algorithms with different attention mechanisms
表3 疊加不同模塊的效果Tab. 3 Effect of adding different modules
本文深入研究了圖像描述生成方案,提出了基于多空間混合注意力的圖像描述生成模型,并將該方法應(yīng)用于船舶圖像上,以填補(bǔ)近海船舶監(jiān)測(cè)系統(tǒng)的情報(bào)生成的缺失。但是該模型還是有局限性,比如句子的長(zhǎng)度是被限制在16 個(gè)單詞,所以對(duì)于語(yǔ)義內(nèi)容多的圖片可能無(wú)法進(jìn)行有效的描述。值得一提的優(yōu)化方法有增大語(yǔ)料庫(kù)來(lái)提高生成句子的豐富性,這種方式是最直接有效的提升指標(biāo),但是工作量較大。