• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于雙路細(xì)化注意力機(jī)制的圖像描述模型①

      2020-05-22 04:47:58叢璐文
      關(guān)鍵詞:解碼器細(xì)化注意力

      叢璐文

      (中國(guó)石油大學(xué)(華東)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,青島 266580)

      1 引言

      圖像描述是計(jì)算機(jī)視覺領(lǐng)域與自然語(yǔ)言處理領(lǐng)域交叉的一項(xiàng)基本任務(wù),該任務(wù)是給定一張圖像,產(chǎn)生一句對(duì)應(yīng)的自然語(yǔ)言描述,并且具有廣泛的應(yīng)用,例如為視覺有障礙的人提供幫助,人機(jī)交互和視覺助手等.然而,用自然流暢的句子描述圖像內(nèi)容對(duì)機(jī)器來(lái)說(shuō)是一項(xiàng)具有挑戰(zhàn)性的任務(wù).它要求圖像描述模型不僅識(shí)別圖像中的顯著對(duì)象,而且識(shí)別這些對(duì)象之間的關(guān)系,并使用自然語(yǔ)言來(lái)表達(dá)語(yǔ)義信息.隨著深度學(xué)習(xí)的興起,基于深度學(xué)習(xí)的圖像描述模型逐漸發(fā)展起來(lái).但是目前的大部分圖像描述方法都只采用了單一的注意力機(jī)制,并且圖像特征中存在冗余和不相關(guān)的信息,這些信息會(huì)誤導(dǎo)注意力計(jì)算過(guò)程,使解碼器生成錯(cuò)誤的句子.本文針對(duì)上述問(wèn)題,提出了一種新的基于雙路細(xì)化注意力機(jī)制的圖像描述模型,該模型首先使用Faster RCNN[1]目標(biāo)檢測(cè)算法提取圖像區(qū)域特征,然后使用空間注意力機(jī)制關(guān)注包含顯著對(duì)象的區(qū)域,同時(shí)利用通道注意力機(jī)制關(guān)注顯著的隱藏單元,該隱藏單元包含與預(yù)測(cè)單詞更相關(guān)的語(yǔ)義信息.在計(jì)算注意力權(quán)重時(shí),首先對(duì)解碼器的隱藏狀態(tài)應(yīng)用卷積運(yùn)算來(lái)過(guò)濾掉不相關(guān)的信息.其次,將經(jīng)過(guò)注意力機(jī)制的特征輸入到特征細(xì)化模塊過(guò)濾掉其中的冗余信息,并將這些細(xì)化的特征合并到模型中.這樣,這些特征在語(yǔ)義上與圖像內(nèi)容更加相關(guān).

      2 相關(guān)工作

      近年來(lái),深度學(xué)習(xí)取得了重大進(jìn)展,研究者們提出了多種基于深度學(xué)習(xí)的圖像描述模型.Vinyals 等[2]提出了基于編碼器-解碼器的圖像描述模型,該模型借鑒了機(jī)器翻譯中常用的編碼器-解碼器架構(gòu),與機(jī)器翻譯不同的是,該模型使用卷積神經(jīng)網(wǎng)絡(luò)(Inception 網(wǎng)絡(luò)模型[3])作為編碼器提取圖像特征,使用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)[4]作為解碼器生成句子.但是,該模型僅在第一步使用圖像特征,而在隨后的生成步驟中不使用圖像特征.Wu 等[5]首先利用經(jīng)過(guò)微調(diào)的多標(biāo)簽分類器來(lái)提取圖像中的屬性信息,作為指導(dǎo)信息來(lái)指導(dǎo)模型生成描述,提高了性能.Yao 等[6]首先利用經(jīng)過(guò)多示例學(xué)習(xí)方法預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)提取圖像中的屬性信息,同時(shí)使用卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,并且設(shè)計(jì)了5 種架構(gòu)來(lái)找出利用這兩種表示的最佳方式以及探索這兩種表示之間的內(nèi)在聯(lián)系.

      強(qiáng)化學(xué)習(xí)的相關(guān)方法也被引入圖像描述任務(wù)中.Ranzato 等[7]提出了一種直接優(yōu)化模型評(píng)價(jià)標(biāo)準(zhǔn)的方法,該方法利用了策略梯度方法來(lái)解決評(píng)價(jià)標(biāo)準(zhǔn)不可微且難以應(yīng)用反向傳播的問(wèn)題.通過(guò)使用蒙特卡羅采樣方法來(lái)估計(jì)預(yù)期的未來(lái)回報(bào),該模型使得訓(xùn)練階段更加高效和穩(wěn)定.Rennie 等[8]提出了一種SCST 訓(xùn)練方法,該方法基于策略梯度強(qiáng)化學(xué)習(xí)算法,并且使用模型自身解碼生成的描述作為基準(zhǔn),提高了訓(xùn)練過(guò)程的穩(wěn)定性,SCST 訓(xùn)練方法顯著地提高了圖像描述模型的性能并且在一定程度上解決了圖像描述模型訓(xùn)練階段與測(cè)試階段不匹配的問(wèn)題.

      受人類視覺系統(tǒng)中存在的注意力機(jī)制的啟發(fā),Xu 等[9]首次將注意力機(jī)制引入到圖像描述模型中.在解碼階段的每個(gè)時(shí)刻,模型會(huì)根據(jù)解碼器的隱藏狀態(tài)來(lái)計(jì)算圖像不同位置特征的權(quán)重.這些權(quán)重衡量了圖像區(qū)域和下一個(gè)生成的單詞之間的相關(guān)性.You 等[10]提出了一種新的語(yǔ)義注意機(jī)制,該方法首先會(huì)提取出圖像的屬性信息,在模型生成描述的每個(gè)時(shí)刻,選擇最終要的屬性信息為模型提供輔助信息.Lu 等[11]提出了一種自注意力機(jī)制,該機(jī)制利用哨兵位置的概念,當(dāng)模型生成與圖像內(nèi)容無(wú)關(guān)的單詞時(shí),會(huì)將注意力放在哨兵位置上,以提高模型生成描述的準(zhǔn)確性.Chen 等[12]提出了結(jié)合空間注意力與通道注意力的圖像描述模型,與之相比,本文使用的是經(jīng)過(guò)細(xì)化的空間注意力與通道注意力,同時(shí)本文還使用Faster R-CNN提取空間區(qū)域特征,特征更加細(xì)化.

      3 模型

      如圖1所示,本文模型包含5 個(gè)基本組件:編碼器、空間注意力機(jī)制、通道注意力機(jī)制、特征細(xì)化模塊和解碼器.模型的整個(gè)流程如圖2所示.首先,編碼器使用Faster R-CNN 目標(biāo)檢測(cè)算法提取圖像區(qū)域特征.然后,在每個(gè)時(shí)刻,空間注意力機(jī)制與通道注意力機(jī)制分別計(jì)算對(duì)應(yīng)的特征權(quán)重,特征細(xì)化模塊通過(guò)過(guò)濾冗余和不相關(guān)的圖像特征來(lái)細(xì)化經(jīng)過(guò)權(quán)重修正的空間圖像特征和通道圖像特征.在經(jīng)過(guò)細(xì)化的圖像特征的指導(dǎo)下,解碼器在每個(gè)時(shí)刻生成一個(gè)單詞.

      3.1 編碼器

      本文使用Faster R-CNN 目標(biāo)檢測(cè)算法提取圖像區(qū)域特征.Faster R-CNN 引入了區(qū)域建議網(wǎng)絡(luò)(Region Proposal Network,RPN),提高了目標(biāo)檢測(cè)的準(zhǔn)確率.首先將圖像輸入到卷積神經(jīng)網(wǎng)絡(luò)中,將高層卷積特征輸入到RPN 中得到建議區(qū)域,然后再對(duì)建議區(qū)域與高層卷積特征共同使用感興趣區(qū)域池化,得到大小相同的特征圖(14×14),然后將這些特征圖輸入到另一個(gè)卷積神經(jīng)網(wǎng)絡(luò)中,將得到的特征經(jīng)過(guò)平均區(qū)域池化即可得到對(duì)應(yīng)的區(qū)域特征,最后利用非極大值抑制過(guò)濾掉置信度不高的區(qū)域.最終可以得到L個(gè)不同區(qū)域的特征,將這些特征集合到一起,記作A,如式(1)所示.每個(gè)區(qū)域的特征包含D個(gè)通道.

      全局圖像特征可以用局部特征的平均來(lái)近似,如式(2)所示.

      隨后,將局部圖像特征與全局圖像特征分別輸入到單層感知機(jī)內(nèi),并且使用ReLU作為激活函數(shù),將這些特征投影到維度d的空間中.

      式中,Wa與Wb是待學(xué)習(xí)參數(shù),L個(gè)區(qū)域圖像特征組成局部圖像特征Q={qi,···,qL}.

      圖1 整體框架

      圖2 解碼器結(jié)構(gòu)

      3.2 空間注意力模型

      空間注意力機(jī)制廣泛用于圖像描述任務(wù).遵循編碼器-解碼器結(jié)構(gòu)的傳統(tǒng)模型僅使用全局圖像特征.基于空間注意力機(jī)制的模型更加關(guān)注圖像中的顯著區(qū)域,并且能夠捕捉顯著區(qū)域的更多細(xì)節(jié).當(dāng)生成與圖像中物體相關(guān)的單詞時(shí),空間注意力模型可以增加其對(duì)圖像相應(yīng)區(qū)域的權(quán)重.本文模型也采用了空間注意力機(jī)制.

      如圖2所示,給定局部區(qū)域特征Q∈Rd×L與解碼器的當(dāng)前時(shí)刻的隱藏狀態(tài)ht∈Rd,模型首先對(duì)隱藏狀態(tài)進(jìn)行卷積操作,過(guò)濾掉其中的不相關(guān)的信息,隨后將這些信息輸入到單層感知機(jī)中,然后利用Softmax 函數(shù)計(jì)算圖像中L個(gè)區(qū)域的注意力分布.計(jì)算過(guò)程如下列公式所示:

      其中,Conv是包含一個(gè)卷積層的塊,卷積層后面跟隨ReLU激活函數(shù).1T是所有元素都為1 的向量.Wqs,Wss∈RL×d、whs∈RL是待學(xué)習(xí)的權(quán)重參數(shù).αt∈RL是圖像中L個(gè)區(qū)域的注意力分布.所關(guān)注的局部圖像特征Vt可以通過(guò)以下方式計(jì)算:

      與文獻(xiàn)[11]相同,本文也使用解碼器的當(dāng)前時(shí)刻隱藏狀態(tài)而不是上一時(shí)刻的隱藏狀態(tài)來(lái)計(jì)算對(duì)局部圖像特征的空間注意力.

      3.3 通道注意力模型

      Zhou 等[13]發(fā)現(xiàn)每個(gè)隱藏單元可以與不同的語(yǔ)義概念對(duì)齊.然而,在基于空間注意力的模型中,通道特征是相同的,忽略了語(yǔ)義差異.如圖2所示,本文同時(shí)也采用了通道注意力機(jī)制.將局部區(qū)域特征Q∈Rd×L與解碼器的當(dāng)前時(shí)刻的經(jīng)過(guò)卷積的隱藏狀態(tài)輸入單層感知機(jī)中,隨后用Softmax函數(shù)計(jì)算局部圖像特征在通道上的注意力分布:

      其中,whc∈Rd,Wqc∈Rd×L,Wsc∈Rd×d為待學(xué)習(xí)的權(quán)重參數(shù).1T是所有元素都為1 的向量.βt∈Rd是局部圖像特征中隱藏單元上的注意力分布.基于通道注意力的通道局部圖像特征Ut可以由式(11)計(jì)算獲得.

      其中,Qi表示每個(gè)區(qū)域特征中第i個(gè)通道組成的向量.

      在解碼生成描述的每個(gè)時(shí)刻,βti確定了第i個(gè)通道特征與生成的下一個(gè)單詞之間的相關(guān)性.

      3.4 特征細(xì)化模塊

      通常提取到的圖像特征中會(huì)包含一些冗余或與生成描述不相關(guān)的特征.為了減少這些特征的影響,本文設(shè)計(jì)了一個(gè)特征細(xì)化模塊來(lái)細(xì)化圖像特征,過(guò)濾掉冗余的和不相關(guān)的特征.如圖2所示,該模塊使用單層LSTM 作為細(xì)化模塊.LSTM 被命名為特征細(xì)化LSTM.在計(jì)算關(guān)注的局部圖像特征Vt和關(guān)注的通道圖像特征Ut之后,首先通過(guò)單層感知器將這些圖像特征投影到相同的維度d.然后,將這些圖像特征輸入到細(xì)化LSTM,并通過(guò)n個(gè)時(shí)間步長(zhǎng)來(lái)細(xì)化圖像特征.最后,得到細(xì)化的關(guān)注空間圖像特征和細(xì)化的關(guān)注通道圖像特征:

      其中,Wvd∈Rd×d和Wud∈Rd×L是待學(xué)習(xí)的權(quán)重參數(shù).本文使用共享參數(shù)的特征細(xì)化LSTM,以降低訓(xùn)練過(guò)程中的存儲(chǔ)成本.

      3.5 解碼器

      LSTM 通常用于現(xiàn)有的圖像描述模型中,因?yàn)長(zhǎng)STM 在對(duì)長(zhǎng)期依賴關(guān)系建模方面具有強(qiáng)大的力量.本文遵循常用的LSTM 結(jié)構(gòu),基本LSTM 塊中的門控單元和存儲(chǔ)單元定義如下:

      其中,xt、ft、it、ot、ct、ht分別是時(shí)刻t的輸入向量、遺忘門、輸入門、輸出門、存儲(chǔ)單元和隱藏狀態(tài).yt?1是前一個(gè)單詞的單熱向量,具有字典大小的維度.We是單詞嵌入矩陣.[·;·]是 兩個(gè)向量的拼接.xt是詞向量和全局圖像特征的組合.σ (·)是Sigmoid 非線性激活函數(shù),t anh(·)是 雙曲正切激活函數(shù).⊙ 表示元素乘法.

      通過(guò)使用隱藏狀態(tài)ht、細(xì)化的關(guān)注局部圖像特征、細(xì)化的通道關(guān)注局部圖像特征,當(dāng)前時(shí)刻生成的單詞條件概率分布可由式(19)計(jì)算.

      本文訓(xùn)練過(guò)程的第一個(gè)階段使用交叉熵?fù)p失函數(shù)作為目標(biāo)函數(shù)進(jìn)行訓(xùn)練,如式(20)所示,第二個(gè)階段使用SCST 訓(xùn)練方法,目標(biāo)函數(shù)如式(21)所示.

      式中,y?t,y?1,···,y?t?1表 示參考描述中的單詞序列,y1:T表示單詞序列(y1,y2,···,yT)的縮寫

      在訓(xùn)練過(guò)程中,將參考描述的單詞序列輸入到模型中,可以得到每個(gè)時(shí)刻預(yù)測(cè)的單詞概率分布,隨后計(jì)算目標(biāo)函數(shù),進(jìn)行優(yōu)化.

      在推理過(guò)程中,選擇每個(gè)時(shí)刻概率最大的單詞作為生成的單詞或者使用集束搜索(beam search),每次選擇概率最大的前k個(gè)單詞作為候選,最終輸出聯(lián)合概率最大的描述作為最終的描述結(jié)果.

      4 實(shí)驗(yàn)分析

      4.1 實(shí)驗(yàn)數(shù)據(jù)集與評(píng)價(jià)標(biāo)準(zhǔn)

      本文模型在用于圖像描述的MS COCO 數(shù)據(jù)集[14]上進(jìn)行實(shí)驗(yàn).COCO 數(shù)據(jù)集包含82 783 張用于訓(xùn)練的圖像、40 504 張用于驗(yàn)證的圖像和40 775 張用于測(cè)試的圖像.它還為在線測(cè)試提供了一個(gè)評(píng)估服務(wù)器.本文使用文獻(xiàn)[15]中的數(shù)據(jù)劃分,該數(shù)據(jù)劃分中包含5000 張用于驗(yàn)證的圖像,5000 張用于測(cè)試的圖像,其余圖像用于訓(xùn)練.

      為了驗(yàn)證本文模型生成描述的質(zhì)量,并與其他方法進(jìn)行比較,本文使用了廣泛使用的評(píng)價(jià)指標(biāo),包括BLEU[16]、METEOR[17]、ROUGE-L[18]和CIDEr[19].本文使用文獻(xiàn)[20]提供的評(píng)估工具來(lái)計(jì)算分?jǐn)?shù).BLEU 分?jǐn)?shù)衡量生成的句子和參考句子之間的n-gram 精度.ROUGE-L 分?jǐn)?shù)測(cè)量生成的句子和參考句子之間最長(zhǎng)公共子序列(LCS)的F-Score.METEOR 評(píng)分通過(guò)添加生成的句子和參考句子之間的對(duì)應(yīng)關(guān)系,與人類的評(píng)價(jià)標(biāo)準(zhǔn)更加相關(guān).與上述指標(biāo)不同,CIDEr 評(píng)分是為圖像描述設(shè)計(jì)的.它通過(guò)計(jì)算每個(gè)n-gram 的TF-IDF 權(quán)重來(lái)測(cè)量生成描述與參考描述之間的一致性.

      4.2 實(shí)現(xiàn)細(xì)節(jié)

      首先將COCO 數(shù)據(jù)集中所有的描述轉(zhuǎn)換成小寫并且將描述的最大長(zhǎng)度設(shè)置為15.如果描述的長(zhǎng)度超過(guò)15,則會(huì)截?cái)嘀髥卧~.本文過(guò)濾掉訓(xùn)練集中出現(xiàn)不到5 次的所有單詞,并且增加了四個(gè)特殊的單詞.“”表示句子的開頭,“”表示句子的結(jié)尾,“”表示未知單詞,而“”是填充單詞.經(jīng)過(guò)這樣的處理以后,得到的字典長(zhǎng)度為10 372.

      本文將LSTM 的隱藏單元的數(shù)量設(shè)置為512,隨機(jī)初始化詞嵌入向量,而不是使用預(yù)訓(xùn)練的詞嵌入向量.我們使用Adam 優(yōu)化器[21]來(lái)訓(xùn)練本文的模型.在使用交叉熵訓(xùn)練的階段,基礎(chǔ)學(xué)習(xí)率設(shè)置為5 ×10?4,并且使用1 ×10?6的重量衰減,批大小設(shè)置為256,每三輪學(xué)習(xí)率衰減0.8 倍.訓(xùn)練輪次的最大數(shù)量被設(shè)置為30.在SCST 訓(xùn)練階段,選擇交叉熵訓(xùn)練階段CIDEr 得分最高的模型作為初始模型,學(xué)習(xí)率固定為5 ×10?5,訓(xùn)練輪次設(shè)置成40.整個(gè)訓(xùn)練過(guò)程在一個(gè)NVIDIA TITAN X 圖形處理器上需要大約50 小時(shí).本文的模型使用Pytorch深度學(xué)習(xí)框架實(shí)現(xiàn).

      4.3 實(shí)驗(yàn)對(duì)比方法介紹

      Goole NIC[2]使用編碼器-解碼器框架,使用卷積神經(jīng)網(wǎng)絡(luò)作為編碼器,使用LSTM 作為解碼器.

      Hard-Attention[9]將空間注意力機(jī)制引入圖像描述模型,根據(jù)解碼器的狀態(tài)動(dòng)態(tài)地為圖像不同區(qū)域的特征分配權(quán)重.

      MSM[6]共同利用了圖像屬性信息與圖像全局特征.

      AdaAtt[11]使用了自適應(yīng)注意力機(jī)制,如果要生成的單詞與圖像內(nèi)容無(wú)關(guān),則注意力放在一個(gè)虛擬的“哨兵”位置上.

      文獻(xiàn)[22]中的模型使用了視覺屬性注意力并且引入了殘差連接.

      Att2all[8]首次提出并使用了SCST 訓(xùn)練方法.

      SCA-CNN[12]同時(shí)使用了空間與通道注意力.

      4.4 實(shí)驗(yàn)分析

      如表1所示,與SCA-CNN 模型相比,本文模型使用的雙路細(xì)化注意力以及空間區(qū)域特征對(duì)生成圖像描述有著更強(qiáng)的指導(dǎo)作用.相較于只是用單一空間注意力機(jī)制的Hard-Attention 模型、AdaAtt 模型、文獻(xiàn)[21]中的模型、Att2all 模型相比,本文模型使用的雙路細(xì)化注意力機(jī)制,可以生成更加緊湊,冗余信息更少的特征,并且除了在空間位置上施加注意力,也在通道上施加注意力,使得模型可以更好地利用與生成描述相關(guān)地特征.

      表1 本文模型與經(jīng)典算法比較

      為研究本文中不同模塊的有效性,設(shè)計(jì)了不同的模型進(jìn)行比較,實(shí)驗(yàn)結(jié)果見表2.基準(zhǔn)模型為只使用Faster R-CNN 目標(biāo)檢測(cè)算法提取圖像區(qū)域特征,不使用注意力機(jī)制與特征細(xì)化模塊,表中的“X”表示該模型在基準(zhǔn)模型的基礎(chǔ)上使用該模塊.從表2中可見,空間注意力機(jī)制、通道注意力機(jī)制、特征細(xì)化模塊都可提高模型性能.同時(shí)使用兩種注意力機(jī)制的模型3 相較于只使用一種注意力機(jī)制的模型2 與模型1,性能有進(jìn)一步的提高,證明本文提出的雙路注意力機(jī)制的有效性.模型5、模型6、本文算法在模型1、模型2、模型3 的基礎(chǔ)上增加了特征細(xì)化模塊,最終模型性能也有提高,證明了特征細(xì)化模塊的有效性.

      表2 本文模型不同模塊效果比較

      5 結(jié)論與展望

      本文提出了一種新的基于雙路細(xì)化注意力機(jī)制的圖像描述模型.本文模型整合了空間注意力機(jī)制和通道注意力機(jī)制.首先使用卷積運(yùn)算來(lái)過(guò)濾隱藏狀態(tài)的不相關(guān)信息,然后計(jì)算注意力.為了對(duì)減少關(guān)注圖像特征中的冗余和不相關(guān)特征的影響,本文設(shè)計(jì)了一個(gè)特征細(xì)化模塊來(lái)細(xì)化關(guān)注圖像特征,使關(guān)注圖像特征更加緊湊和有區(qū)分度.為了驗(yàn)證本文模型的有效性,我們?cè)贛S COCO 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,本文提出模型性能優(yōu)越.

      猜你喜歡
      解碼器細(xì)化注意力
      讓注意力“飛”回來(lái)
      科學(xué)解碼器(一)
      科學(xué)解碼器(二)
      科學(xué)解碼器(三)
      線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
      中小企業(yè)重在責(zé)任細(xì)化
      “細(xì)化”市場(chǎng),賺取百萬(wàn)財(cái)富
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      “住宅全裝修”政策亟需細(xì)化完善
      A Beautiful Way Of Looking At Things
      金华市| 新化县| 绵阳市| 渝北区| 扎赉特旗| 德江县| 新巴尔虎左旗| 子洲县| 浦东新区| 咸宁市| 佛冈县| 江北区| 徐汇区| 孝感市| 卫辉市| 怀宁县| 仙桃市| 建宁县| 周口市| 繁昌县| 武穴市| 叶城县| 宁安市| 镇江市| 新沂市| 阜宁县| 南京市| 大埔县| 温州市| 盐城市| 兴城市| 澜沧| 当雄县| 高要市| 汾阳市| 同心县| 泸溪县| 峨山| 鹤岗市| 会理县| 南京市|