陶云松,張麗紅
(山西大學(xué) 物理電子工程學(xué)院,山西 太原 030006)
圖像描述是將圖像輸入到系統(tǒng)框架中自動(dòng)生成描述的任務(wù).圖像能夠生動(dòng)地表示事件和實(shí)體,但之前的圖像描述方法僅將圖像作為輸入,通過深度學(xué)習(xí)框架自動(dòng)學(xué)習(xí).例如,Oriol V等[1]設(shè)計(jì)出圖像描述的基本框架,利用卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,使用長短期記憶網(wǎng)絡(luò)生成描述.Xu等[2]將注意力機(jī)制引入到圖像描述的基本框架中,該機(jī)制可以使框架在生成描述時(shí)關(guān)注圖片中的顯著特征.但是,在深度學(xué)習(xí)框架學(xué)習(xí)的過程中,其內(nèi)部具體參數(shù)的變化難以獲取,不能獲知圖片的特征提取過程.此外,圖像描述架構(gòu)大都采用卷積神經(jīng)網(wǎng)絡(luò)提取特征,采用等分提取方法無法準(zhǔn)確提取目標(biāo)[3].為解決上述問題,提出一個(gè)新的雙通道圖像描述結(jié)構(gòu),該結(jié)構(gòu)輸入采用圖像通道與主題通道雙通道結(jié)構(gòu)生成圖像描述.主題通道采用知識(shí)強(qiáng)化方法產(chǎn)生圖像中物體相對應(yīng)的主題單詞.知識(shí)強(qiáng)化方法是在圖像描述中加入一些圖片的內(nèi)容詞來規(guī)范圖像描述.主題通道可以自動(dòng)產(chǎn)生圖片的內(nèi)容詞,而不需人為設(shè)置每張圖片的內(nèi)容詞.圖像通道采用極快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Faster Regional Convolutional Neural Network,F(xiàn)aster RCNN)提取圖像特征,能自動(dòng)確定圖像中物體的大小.輸出階段將兩通道預(yù)測的隱層信息進(jìn)行整合并生成圖像描述,進(jìn)而實(shí)現(xiàn)主題通道對圖像通道的知識(shí)強(qiáng)化.
Faster RCNN的結(jié)構(gòu)如圖1 所示.首先,將整張圖片輸入卷積神經(jīng)網(wǎng)絡(luò)中得到圖像特征,其次,將圖像特征輸入到區(qū)域建議網(wǎng)絡(luò)(Region Proposal Network,RPN)中自動(dòng)生成候選框.候選框映射到圖像特征得到興趣區(qū)域特征,將興趣區(qū)域特征通過興趣區(qū)域池化層(Region of Interest Pooling Layer,ROI Pooling)得到相同大小的輸出,再通過兩層全連接層得到興趣區(qū)域特征向量.最后,使用分類器判決興趣區(qū)域特征是否屬于一個(gè)特定的類,對于屬于某一特征的候選框,用回歸器進(jìn)一步調(diào)整其位置.RPN與卷積神經(jīng)網(wǎng)絡(luò)之間的特征映射如圖2 所示.
圖1 Faster RCNN結(jié)構(gòu)圖Fig.1 Structure diagram of Faster RCNN
圖2 特征映射圖Fig.2 Feature mapping
RPN的功能是直接生成候選框并與特征融合,這也是Faster-RCNN的顯著優(yōu)勢,能夠極大提升候選框的生成速度.經(jīng)典的傳統(tǒng)檢測方法如區(qū)域卷積神經(jīng)網(wǎng)絡(luò)、快速卷積神經(jīng)網(wǎng)絡(luò)都要采用選擇搜索性算法生成大量的候選框,這些候選框與圖像融合在一起,每個(gè)候選框內(nèi)的圖像都要輸入到卷積神經(jīng)網(wǎng)絡(luò)中,計(jì)算量很大[4].RPN使每張圖片一次性通過卷積神經(jīng)網(wǎng)絡(luò),候選框在生成圖像特征上進(jìn)行映射從而得到各候選框內(nèi)圖像特征.
ROI Polling的功能是將大小不同的候選框內(nèi)特征調(diào)整為相同大小輸出,它可以看作是一個(gè)單層的空間金字塔池化層[5].空間金字塔池化層使用空間金字塔采樣將每個(gè)窗口劃分為4×4,2×2,1×1的塊,然后每個(gè)特征塊使用最大池化下采樣,這樣對于每個(gè)窗口經(jīng)過空間金字塔池化層之后都得到了一個(gè)長度為(4×4+2×2+1)×256維度的特征向量,將此特征向量作為全連接層的輸入并進(jìn)行后續(xù)操作[6].
長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory Network,LSTM)是一類用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),它在幾個(gè)時(shí)間步內(nèi)共享相同的權(quán)重,不需要分別學(xué)習(xí)序列中每個(gè)位置的規(guī)則[7].LSTM的展開圖如圖3 所示,A代表內(nèi)部單元,x為輸入,y為輸出,ht為LSTM單元在t時(shí)刻最后保留的信息.LSTM的重要思想是每個(gè)時(shí)間步都有輸入,并且隱藏單元之間有循環(huán)連接的循環(huán)網(wǎng)絡(luò).
圖3 LSTM的展開圖Fig.3 Expansion diagram of LSTM
循環(huán)神經(jīng)網(wǎng)絡(luò)前期模型訓(xùn)練困難,其原因在于不穩(wěn)定梯度問題,在反向傳播時(shí)梯度越變越小,使得前期層學(xué)習(xí)非常緩慢.在循環(huán)神經(jīng)網(wǎng)絡(luò)中此問題更加嚴(yán)重,因?yàn)樘荻炔粌H僅通過層反向傳播,還會(huì)根據(jù)時(shí)間進(jìn)行反向傳播.網(wǎng)絡(luò)運(yùn)行很長一段時(shí)間后,梯度特別不穩(wěn)定,使網(wǎng)絡(luò)學(xué)習(xí)能力很差[8].引入LSTM可以解決上述問題,LSTM的內(nèi)部結(jié)構(gòu)如圖4 所示.
圖4 LSTM內(nèi)部結(jié)構(gòu)Fig.4 Internal structure of LSTM
在圖像描述生成時(shí),每個(gè)輸出的詞語并不是與所有的圖片特征相關(guān),因此引入注意力機(jī)制.注意力機(jī)制在輸出詞語時(shí)能夠關(guān)注圖像中不同的特征.注意力機(jī)制結(jié)構(gòu)如圖5 所示.
圖5 注意力機(jī)制內(nèi)部結(jié)構(gòu)Fig.5 Internal structure of attention mechanism
圖像特征集合V=[v1,v2,…,vL]通過壓縮原始圖像特征V的寬W和高H得到,其中L=W*H,vi∈RD,vi為D維度的空間圖像特征,代表圖片中的某個(gè)區(qū)域.
圖像特征和LSTM的隱層狀態(tài)被傳入一個(gè)單層感知機(jī)中,再通過softmax函數(shù)產(chǎn)生圖片K個(gè)區(qū)域的注意力分布.
αt=softmax(zt),(2)
式中:kv,kta,kh為一組需要學(xué)習(xí)的權(quán)重參數(shù);αt為圖像特征的注意權(quán)重.基于注意力分布,圖像顯著信息為
將注意力機(jī)制與LSTM結(jié)合在一起,如圖6 所示,由注意力機(jī)制獲得的圖像顯著信息作為LSTM的輸入之一,Ct與隱層狀態(tài)ht一起預(yù)測出結(jié)果.
圖6 與注意力機(jī)制組合的LSTMFig.6 LSTM combined with attention mechanisms
基于Faster RCNN、LSTM及注意力機(jī)制對雙通道圖像描述網(wǎng)絡(luò)進(jìn)行了設(shè)計(jì),如圖7 所示,該網(wǎng)絡(luò)由主題通道與圖像通道組成.
圖7 雙通道圖像描述結(jié)構(gòu)Fig.7 A two-channel image description structure
主題通道引用知識(shí)增強(qiáng)方法,在圖像描述結(jié)構(gòu)中加入一些圖片內(nèi)容的主題單詞進(jìn)行知識(shí)增強(qiáng),即明確描述的范圍.主題通道采用極快速卷積神經(jīng)網(wǎng)絡(luò)提取文本特征,該通道與圖像通道不同,文本特征來自極快速卷積神經(jīng)網(wǎng)絡(luò)的全連接層.主題信息通過注意力機(jī)制篩選之后輸入LSTM進(jìn)行語義推測.主題通道的優(yōu)勢在于能夠自動(dòng)生成主題信息而不是提前為每張圖片準(zhǔn)備好主題詞.
V=Faster-RCNN(I),(4)
at=softmax(zt),(6)
CcCvt-1+bc),(11)
yt=softmax(Whht+b),(14)
式中:yt為網(wǎng)絡(luò)的輸出單詞,是下一個(gè)時(shí)間的輸入單詞xt+1.
實(shí)驗(yàn)采用MS COCO數(shù)據(jù)集與Flickr30k數(shù)據(jù)集.MS COCO數(shù)據(jù)集是圖像描述中最大的數(shù)據(jù)集,擁有訓(xùn)練樣本82 783張,驗(yàn)證樣本40 504張和測試樣本40 775張,每張圖片對應(yīng)5個(gè)人的描述.在訓(xùn)練時(shí),驗(yàn)證和測試圖片都是5 000張.Flickr30k數(shù)據(jù)集中含有31 783張圖像,模型在該數(shù)據(jù)集上測試泛化性.表1 和表2 為本文模型在MSCOCO數(shù)據(jù)集和Flickr30k數(shù)據(jù)集上與其他模型評估分?jǐn)?shù)對比表,使用的評估指標(biāo)有基于共識(shí)的圖像描述評估(Consensus-based Image Description Evaluation,CIDEr)、雙語評估替換分?jǐn)?shù)(Bilingual Evaluation Understudy,BLEU)、自動(dòng)文摘評測方法(Recall-Oriented Understudy for Gisting Evaluation,ROUGE)和機(jī)器翻譯評價(jià)方法(Machine Translation Evaluation System,METEOR)[9].
表1 MSCOCO數(shù)據(jù)集上各模型參數(shù)Tab.1 Model parameters on MSCOCO dataset
表2 Flickr30k數(shù)據(jù)集上各模型參數(shù)Tab.2 Model parameters on Flickr30k dataset
雙通道圖像描述網(wǎng)絡(luò)與多種圖像描述網(wǎng)絡(luò)進(jìn)行比較,從表1 與表2 中可以看出,雙通道圖像描述網(wǎng)絡(luò)在數(shù)據(jù)集MS COCO和Flickr30k上的準(zhǔn)確率獲得了提高,在數(shù)據(jù)集Flickr30k上的測試結(jié)果也表明本文模型有良好的泛化性.
圖8 為雙通道圖像描述網(wǎng)絡(luò)在MS COCO數(shù)據(jù)集上相關(guān)參數(shù)的檢驗(yàn)值,圖9 為雙通道圖像描述網(wǎng)絡(luò)在Flickr30k數(shù)據(jù)集上CIDEr和METEOR參數(shù)的檢驗(yàn)值,縱坐標(biāo)為參數(shù)精度值,精度值越大,代表某次圖像描述效果越好,橫坐標(biāo)為檢驗(yàn)次數(shù).對檢驗(yàn)值取期望得到模型某指標(biāo)的參數(shù)值.
圖8 MSCOCO數(shù)據(jù)集下各參數(shù)檢驗(yàn)值圖Fig.8 Test values of each parameter under MSCOCO datase
如圖8 所示,CIDEr與BLEU-4檢測值分布較集中,表明在這兩個(gè)標(biāo)準(zhǔn)下圖像描述波動(dòng)較小,ROUGE-L分布較分散,表明在此標(biāo)準(zhǔn)下圖像描述好壞波動(dòng)較大.去掉METEOR中接近0的錯(cuò)誤值,其整體參數(shù)較好,并且有一定的參數(shù)值超過平均期望,即圖像描述效果較好.圖9 與圖8 相比較,參與CIDEr與METEOR分布離散度變大,但整體趨勢一致,表明在驗(yàn)證集Flickr30k上模型的泛化性較好.損失函數(shù)圖如圖10 所示,可以看出該算法是收斂的.圖11 為模型的生成圖.
圖9 Flickr30k數(shù)據(jù)集下各參數(shù)檢驗(yàn)值圖Fig.9 Test values of each parameter under Flickr30k dataset
圖10 損失函數(shù)圖Fig.10 Loss function graph
圖11 圖像樣例圖Fig.11 The sample graph
在圖像描述任務(wù)中引入知識(shí)增強(qiáng)方法來改善端對端訓(xùn)練過程中內(nèi)部參數(shù)不可控的影響.提出了一種新的雙通道圖像描述網(wǎng)絡(luò),該網(wǎng)絡(luò)包括圖像通道與主題通道兩大部分,主題通道首先提取生成圖像中的主題信息,并通過注意力機(jī)制篩選主題信息進(jìn)行語義推測;圖像通道的主要作用為提取圖像特征,通過注意力機(jī)制篩選特征進(jìn)行語義推測.最后,主題通道的語義信息與圖像通道的語義信息進(jìn)行增強(qiáng)融合后進(jìn)行語義推斷,生成圖像描述.與此同時(shí),在結(jié)構(gòu)中使用極快速卷積神經(jīng)網(wǎng)絡(luò)替換卷積神經(jīng)網(wǎng)絡(luò)提取圖像和主題特征以便更準(zhǔn)確提取特征.該結(jié)構(gòu)在雙語評估替換分?jǐn)?shù)等評價(jià)指標(biāo)上取得了較好的效果.