• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    多頭注意力與語(yǔ)義視頻標(biāo)注

    2020-03-19 10:46:12開(kāi),胡
    關(guān)鍵詞:解碼注意力語(yǔ)義

    石 開(kāi),胡 燕

    武漢理工大學(xué) 計(jì)算機(jī)學(xué)院,武漢430070

    1 引言

    用機(jī)器自動(dòng)生成自然語(yǔ)言文字來(lái)描述視頻內(nèi)容稱為視頻標(biāo)注。它在視覺(jué)和文字之間起到非常重要的橋接作用,同時(shí)它也是計(jì)算機(jī)視覺(jué)領(lǐng)域當(dāng)中一項(xiàng)非常有挑戰(zhàn)性的任務(wù)。視頻標(biāo)注有非常廣泛的實(shí)際應(yīng)用前景,例如,可以利用文字標(biāo)注來(lái)高效地進(jìn)行視頻索引和視頻分類。結(jié)合語(yǔ)音合成技術(shù),使用語(yǔ)音描述視頻內(nèi)容也可以使視障人士受益[1]。由于基于序列學(xué)習(xí)的方式相比基于句子模板的方法產(chǎn)生視頻標(biāo)注更加直接且產(chǎn)生的句子結(jié)構(gòu)更加靈活,因此,近年來(lái)提出的模型很多都是基于序列學(xué)習(xí)的方法[2-7]。在序列學(xué)習(xí)的方法上結(jié)合注意力機(jī)制或語(yǔ)義信息目前已經(jīng)開(kāi)始逐漸受到研究人員的關(guān)注[8-11]。

    文獻(xiàn)[3]提出名為S2VT(Sequence to Sequence-Video to Text)的序列到序列的視頻標(biāo)注模型。它采用了機(jī)器翻譯領(lǐng)域廣泛應(yīng)用的編碼器-解碼器框架,用CNN 和LSTM 共同組成編碼器,解碼器單獨(dú)由LSTM 構(gòu)成。它的訓(xùn)練過(guò)程是端到端的,而且可以處理變長(zhǎng)輸入輸出并能學(xué)習(xí)輸入序列中的任意時(shí)間結(jié)構(gòu)。在S2VT模型的基礎(chǔ)之上,文獻(xiàn)[8]結(jié)合時(shí)序注意力機(jī)制,通過(guò)在解碼生成每個(gè)單詞時(shí)給編碼端第一層LSTM 的輸出分配不同權(quán)重的方式提升焦距關(guān)鍵信息的能力。文獻(xiàn)[1]中提出的基于3D CNN-LSTM 結(jié)構(gòu)的視頻標(biāo)注模型中,使用3D CNN 網(wǎng)絡(luò)學(xué)習(xí)視頻局部信息的同時(shí)使用了注意力機(jī)制學(xué)習(xí)視頻特征的全局時(shí)序關(guān)系。這兩種模型在一定程度上使解碼端能夠獲取更多的視頻編碼信息。還有一些視頻標(biāo)注模型引入了語(yǔ)義信息,如文獻(xiàn)[9]提出了一個(gè)統(tǒng)一的框架,同時(shí)學(xué)習(xí)標(biāo)注生成和語(yǔ)義嵌入,后者通過(guò)創(chuàng)建一個(gè)語(yǔ)義空間強(qiáng)化視頻內(nèi)容和生成文字之間的語(yǔ)義關(guān)系。文獻(xiàn)[10]在視頻標(biāo)注過(guò)程使用了語(yǔ)義探測(cè)機(jī)制預(yù)測(cè)視頻的語(yǔ)義標(biāo)簽概率,并將語(yǔ)義概率信息用來(lái)擴(kuò)展解碼端LSTM 網(wǎng)絡(luò)的參數(shù)矩陣,取得了非常優(yōu)秀的效果。但是它提出的模型由圖像標(biāo)注模型拓展而成,在生成視頻特征表示的時(shí)候和文獻(xiàn)[9]中的方法一樣簡(jiǎn)單的對(duì)特征序列進(jìn)行了聚合平均,使得模型失去了學(xué)習(xí)原始視頻特征時(shí)間序列信息的能力,而且,它采用的分階段的策略,語(yǔ)義探測(cè)模型和視頻標(biāo)注模型分開(kāi)訓(xùn)練,訓(xùn)練過(guò)程不是端到端的。文獻(xiàn)[11]提出的視頻標(biāo)注模型在LSTM 內(nèi)部結(jié)合了注意力機(jī)制,并且在計(jì)算損失時(shí)考慮了視頻內(nèi)容和產(chǎn)生句子語(yǔ)義相關(guān)性,標(biāo)注效果有較大提升。

    還有許多其他的視頻標(biāo)注方法,有的方法采用多模態(tài)信息,如視頻、音頻和類別信息等,同時(shí)使用這些信息產(chǎn)生視頻特征表示[12-13]。有的方法探尋使用多記憶模型來(lái)加強(qiáng)長(zhǎng)距離依賴關(guān)系學(xué)習(xí)能力[14]。還有的方法同時(shí)利用了編解碼框架中視頻到句子的前向信息和句子到視頻的后向信息[15]。這些方法極大地提升了視頻標(biāo)注的水平,但是仍然有一些問(wèn)題存在,例如將各種信息編碼成單一特征表示導(dǎo)致解碼信息單一。大部分的視頻標(biāo)注模型都先將各種信息經(jīng)過(guò)編碼器生成視頻的特征表示而后傳遞給解碼端,導(dǎo)致解碼信息過(guò)少。

    針對(duì)這個(gè)問(wèn)題,本文提出一個(gè)名為MHA-S2VT 的改進(jìn)模型,通過(guò)使用多頭注意力[16]機(jī)制使解碼端能夠獲得更多視頻編碼信息。S2VT是一個(gè)簡(jiǎn)單但是有效的視頻標(biāo)注模型,以它為基礎(chǔ)進(jìn)行改進(jìn)。MHA是Multi-Head Attention 的首字母縮寫(xiě),代表多頭注意力,原本用在機(jī)器翻譯領(lǐng)域并取得優(yōu)秀的效果。為了使解碼信息進(jìn)一步豐富,還在模型中加入了語(yǔ)義探測(cè)和語(yǔ)義融合機(jī)制。將優(yōu)化后的MHA-S2VT 模型和原始S2VT 模型以及其他一些模型進(jìn)行對(duì)比,和模型自身也進(jìn)行了分步對(duì)比,分析多頭注意力和語(yǔ)義信息給模型帶來(lái)的效果提升。

    2 視頻標(biāo)注模型

    視頻標(biāo)注模型總體結(jié)構(gòu)如圖1 所示,在S2VT 模型的基礎(chǔ)上添加了上下文環(huán)境向量用來(lái)作為多頭注意力的鍵和值。為了能夠使用語(yǔ)義信息,還在解碼端添加了語(yǔ)義探測(cè)單元。模型遵從編碼器-解碼器結(jié)構(gòu),編碼器的主體是一個(gè)雙層LSTM 網(wǎng)絡(luò),接收由CNN 提取的視頻特征序列,并用第二層LSTM 的輸出構(gòu)建上下文環(huán)境向量。解碼器由語(yǔ)義探測(cè)單元和雙層LSTM 解碼網(wǎng)絡(luò)組成。圖1中Tag代表預(yù)先提取的語(yǔ)義概念標(biāo)簽。雙層解碼LSTM 網(wǎng)絡(luò)接收編碼網(wǎng)絡(luò)、語(yǔ)義預(yù)測(cè)單元的輸出以及上下文環(huán)境向量和語(yǔ)義標(biāo)簽作為輸入。

    圖1 模型總體結(jié)構(gòu)

    2.1 S2VT模型回顧

    S2VT 模型的主體部分是一個(gè)雙層LSTM 網(wǎng)絡(luò)。LSTM 由于可以通過(guò)遺忘門(mén)釋放無(wú)關(guān)信息使得它可以避免消息飽和和梯度消失問(wèn)題,在機(jī)器翻譯和視頻標(biāo)注領(lǐng)域使用非常廣泛。

    對(duì)于一個(gè)LSTM 單元,在步數(shù)t 的時(shí)候給定輸入xt,LSTM單元可以用公式表述為:

    其中it,ft和ot代表輸入門(mén)、遺忘門(mén)和輸出門(mén)。σ 代表用sigmoid 激活函數(shù),φ 代表tanh 激活函數(shù),*代表元素點(diǎn)乘。ct代表細(xì)胞狀態(tài),ht是在第t 步產(chǎn)生的輸出。

    對(duì)于第一層LSTM網(wǎng)絡(luò)可用公式表述為:

    其中,xt在編碼端代表由CNN 提取的單個(gè)視頻特征,在解碼端則代表用零填充的空向量。

    第二層LSTM網(wǎng)絡(luò)也可以用公式表述為:

    其中,wt-1在解碼端代表上一次生成的詞向量,在編碼端則用零填充。代表第一層LSTM網(wǎng)絡(luò)的輸出。在解碼端的每一步t,用第二層LSTM 網(wǎng)絡(luò)的輸出生成單詞。生成單詞y的概率分布可以表示為:

    其中,yι∈V,V 代表整個(gè)詞表。模型選擇詞表中概率最大的單詞生成句子。為了和后面形式統(tǒng)一,把標(biāo)注生成部分的損失定義為:

    N 和M 代表生成句子總數(shù)、句子中單詞的數(shù)量。p(wj)代表根據(jù)當(dāng)前狀態(tài)和前一個(gè)生成的單詞生成的第j 個(gè)單詞在標(biāo)注中的概率。

    2.2 多頭注意力

    如圖2 所示,用A 表示多頭注意力機(jī)制,在解碼的每一步第二層LSTM 都要使用多頭注意獲取編碼端信息。多頭注意力的鍵和值都是在編碼階段生成的上下文環(huán)境向量,問(wèn)題則是上一步的輸出狀態(tài)。和文獻(xiàn)[8]使用第一層LSTM 輸出作為上下文環(huán)境向量的方式不同,使用第二層LSTM 網(wǎng)絡(luò)的輸出向量。受到文獻(xiàn)[15]中機(jī)器翻譯模型的啟發(fā),在改進(jìn)的模型中使用多頭注意力,多頭注意力的優(yōu)點(diǎn)在于可以捕獲不同子空間上的相關(guān)信息,在機(jī)器翻譯中取得了更好的效果。

    圖2 解碼單元

    多頭注意力的第一步是將問(wèn)題、鍵和值線性映射到多個(gè)不同的子空間,分別計(jì)算映射后每一子空間的上下文向量的加權(quán)和。用C 代表上下文環(huán)境向量代表LSTM 第二層網(wǎng)絡(luò)上一步輸出向量,第一步可以用公式表述為:

    第二步是將n 個(gè)子空間上的注意力輸出拼接得到多頭注意力輸出,用公式表述為:

    WO∈Rndv×dh。拼接之后的結(jié)果作為第二層LSTM 單元的輸入之一。

    對(duì)于每一個(gè)子空間,進(jìn)行線性映射需要的參數(shù)個(gè)數(shù)為2×dh×dk+dh×dv個(gè),為了方便計(jì)算,將n設(shè)置為10,上下文向量映射到10 個(gè)子空間,dk=dv=dh/10。加上拼接所用的參數(shù)WO,最后總的參數(shù)個(gè)數(shù)為4×dh×dh個(gè)。由于每個(gè)子空間都把維度減少到了原來(lái)的十分之一,所以總的參數(shù)個(gè)數(shù)和所有維度下單頭注意力相比并沒(méi)有增加多少。

    2.3 語(yǔ)義探測(cè)與語(yǔ)義融合

    受文獻(xiàn)[10]和圖像標(biāo)注[17-18]的啟發(fā),將語(yǔ)義探測(cè)看成一個(gè)多分類任務(wù)。給定一個(gè)輸入向量V,以及標(biāo)簽向量T=[t1,t2,…,tK]∈{0 ,1}K,目標(biāo)是使生成的預(yù)測(cè)標(biāo)簽和T 的交叉熵?fù)p失最小。同文獻(xiàn)[10]中一樣使用多層感知機(jī)和sigmoid 函數(shù)實(shí)現(xiàn)多分類,語(yǔ)義探測(cè)單元可用公式表述為:

    其中,f 代表多層感知機(jī),σ 是sigmoid 函數(shù)。s代表預(yù)測(cè)結(jié)果,e代表?yè)p失。

    預(yù)先選擇數(shù)據(jù)集中出現(xiàn)次數(shù)最多的K 個(gè)名詞、動(dòng)詞和形容詞組成一組語(yǔ)義概念集合,然后根據(jù)數(shù)據(jù)集中每個(gè)視頻的文字標(biāo)注中是否含有語(yǔ)義概念集合中的單詞生成視頻對(duì)應(yīng)的真實(shí)語(yǔ)義標(biāo)簽Y。將編碼完成時(shí)第一層LSTM 和第二層LSTM 的的細(xì)胞狀態(tài)拼接作為語(yǔ)義探測(cè)單元的輸入,產(chǎn)生語(yǔ)義概率S,可用公式表述為:

    c(1)和c(2)分別代表編碼端第一層和第二層的細(xì)胞狀態(tài)。對(duì)于大小為N 數(shù)據(jù)集來(lái)說(shuō),總的語(yǔ)義探測(cè)損失為:

    模型是端到端的,因此總損失為標(biāo)注模型的損失加上語(yǔ)義探測(cè)單元的損失??偟膿p失可用公式表述為:

    λ是一個(gè)常量系數(shù)。

    如圖2 所示,用D 和W 代表兩種語(yǔ)義融合方式,在解碼端三個(gè)地方用到。對(duì)于第一層網(wǎng)絡(luò),D 代表對(duì)預(yù)測(cè)的語(yǔ)義概率和預(yù)提取的語(yǔ)義標(biāo)簽進(jìn)行簡(jiǎn)單的點(diǎn)乘。在圖2 中用Tag 代表預(yù)先提取的語(yǔ)義標(biāo)簽集合,由單詞的one-hot向量組成,D操作用公式表述為:

    WS∈Rdh×K,WT∈Rdh×K,*代表元素點(diǎn)乘。S(1)對(duì)于解碼端每一步都是相同的,將S(1)作為解碼端LSTM 網(wǎng)絡(luò)第一層的輸入。

    對(duì)于解碼LSTM 網(wǎng)絡(luò),W 代表將語(yǔ)義概率用來(lái)對(duì)LSTM 進(jìn)行參數(shù)矩陣擴(kuò)展。這一部分借鑒了文獻(xiàn)[10]的方式處理,但是在LSTM 單元外部進(jìn)行參數(shù)擴(kuò)展,以減少總的參數(shù)數(shù)量和訓(xùn)練時(shí)間。

    在公式(1)中,以輸入xt-1為例,對(duì)它進(jìn)行參數(shù)矩陣語(yǔ)義擴(kuò)展:

    其中,Wb∈Rdf×K,Wc∈Rdf×dx。df代表參數(shù)擴(kuò)展后的維度,dx代表詞向量維度,*同樣代表元素點(diǎn)乘。

    同理,對(duì)于ht-1進(jìn)行同樣的操作。然后將參數(shù)擴(kuò)展后的結(jié)果和多頭注意力輸出或第一層LSTM 輸出狀態(tài)進(jìn)行拼接。特別的,xt-1和ht-1分別代表第二層LSTM單元上一步生成的單詞向量和上一步狀態(tài)輸出。將參數(shù)擴(kuò)展之后的結(jié)果和多頭注意力的輸出以及第一層LSTM單元的輸出拼接作為第二層LSTM的解碼輸入。

    在語(yǔ)義探測(cè)和語(yǔ)義融合中,總共引入的參數(shù)數(shù)量為4×dh×K+2×df×K+df×(dh+dx)。在實(shí)驗(yàn)中將K 大小設(shè)置為300,dh和dx都設(shè)置為相同維度,df設(shè)置為隱藏層單元數(shù)的一半。

    2.4 總體訓(xùn)練流程

    改進(jìn)模型在S2VT模型的基礎(chǔ)之上結(jié)合了多頭注意力以及語(yǔ)義信息的探測(cè)和使用。改進(jìn)后的模型總體訓(xùn)練流程如下:

    步驟1視頻特征提取

    對(duì)于訓(xùn)練數(shù)據(jù)集中的每一個(gè)視頻,先用預(yù)訓(xùn)練的CNN提取序列特征。

    步驟2建立詞表

    對(duì)訓(xùn)練數(shù)據(jù)集中每個(gè)視頻對(duì)應(yīng)的文字標(biāo)注,統(tǒng)計(jì)單詞出現(xiàn)次數(shù),將出現(xiàn)次數(shù)大于閥值的單詞加入詞表當(dāng)中。

    步驟3語(yǔ)義概念選擇

    在詞表中選擇出現(xiàn)次數(shù)最多的前K 個(gè)名詞、動(dòng)詞和形容詞作為語(yǔ)義概念,加入到語(yǔ)義概念集合中。

    步驟4文字標(biāo)注處理

    為詞表中每個(gè)單詞生成one-hot 向量表示,將視頻標(biāo)注和語(yǔ)義概念集合中的單詞用one-hot向量進(jìn)行替換。

    步驟5視頻真實(shí)語(yǔ)義標(biāo)簽生成

    根據(jù)視頻對(duì)應(yīng)的標(biāo)注以及語(yǔ)義概念集合,生成一個(gè)K 維的真實(shí)語(yǔ)義標(biāo)簽。若語(yǔ)義集合某個(gè)單詞出現(xiàn)在標(biāo)注中,則真實(shí)語(yǔ)義標(biāo)簽對(duì)應(yīng)位置為1,否則為0。

    步驟6數(shù)據(jù)讀取

    采用批數(shù)據(jù)處理的方式,一次讀取一批數(shù)據(jù),包括視頻特征、真實(shí)標(biāo)注和真實(shí)語(yǔ)義標(biāo)簽。

    步驟7視頻特征編碼

    按序?qū)⒁曨l特征序列中的一個(gè)特征向量輸入LSTM 編碼網(wǎng)絡(luò)中,產(chǎn)生的輸出加入上下文環(huán)境向量中。循環(huán)直到達(dá)到最大編碼步數(shù)。

    步驟8語(yǔ)義探測(cè)

    將編碼端雙層LSTM 網(wǎng)絡(luò)的細(xì)胞狀態(tài)拼接后作為語(yǔ)義探測(cè)單元輸入產(chǎn)生視頻的語(yǔ)義概率信息。

    步驟9解碼端第一層使用語(yǔ)義信息

    通過(guò)公式(12),為解碼端第一層LSTM 網(wǎng)絡(luò)生成固定的語(yǔ)義輸入。并和上一步輸出狀態(tài)一起輸入到第一層LSTM,產(chǎn)生當(dāng)前步數(shù)第一層的狀態(tài)輸出。

    步驟10多頭注意力

    通過(guò)公式(7)使用多頭注意力機(jī)制,獲得上下文向量在不同子空間的加權(quán)和。

    步驟11參數(shù)矩陣語(yǔ)義擴(kuò)展

    通過(guò)公式(13)的方式對(duì)第二層LSTM 進(jìn)行參數(shù)矩陣語(yǔ)義擴(kuò)展。

    步驟12拼接輸入

    將步驟9~11 的結(jié)果拼接輸入到第二層LSTM 中,通過(guò)公式(4)產(chǎn)生單詞輸出。轉(zhuǎn)到步驟9,直到達(dá)到最大解碼步數(shù)。

    步驟13權(quán)值更新

    通過(guò)公式(11)計(jì)算模型總損失,并對(duì)權(quán)值進(jìn)行更新。判斷是否達(dá)到最大訓(xùn)練次數(shù),如果達(dá)到則訓(xùn)練完成,否則,轉(zhuǎn)到步驟6。

    3 實(shí)驗(yàn)

    3.1 數(shù)據(jù)集和預(yù)處理

    在微軟視頻標(biāo)注數(shù)據(jù)集(the MicroSoft Video Description corpus,MSVD)上進(jìn)行實(shí)驗(yàn)。MSVD 數(shù)據(jù)集由一系列從YouTube 上剪輯的視頻片段組成,總共包含1 970 個(gè)視頻片段,視頻片段的長(zhǎng)度大約在10~25 s,每個(gè)片段包含單個(gè)活動(dòng)。MSVD 數(shù)據(jù)集中每個(gè)視頻片段都由多種語(yǔ)言進(jìn)行標(biāo)注,為了方便進(jìn)行對(duì)比,在實(shí)驗(yàn)中只使用了英文標(biāo)注,大約每個(gè)視頻都有40 條英文標(biāo)注。預(yù)處理工作第一步是用預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)提取視頻序列特征。第二步是將數(shù)據(jù)集視頻標(biāo)注中的英文單詞全部轉(zhuǎn)換成小寫(xiě)格式,去除標(biāo)注中的標(biāo)點(diǎn)符號(hào),并建立詞表,詞表中只收錄出現(xiàn)次數(shù)大于等于5 次的單詞。然后在出現(xiàn)次數(shù)最多的名詞、動(dòng)詞和形容詞中選擇K 個(gè)單詞組成語(yǔ)義集合。根據(jù)詞表產(chǎn)生語(yǔ)義集合以及視頻文字標(biāo)注的one-hot向量表示。根據(jù)選取的語(yǔ)義概念和視頻對(duì)應(yīng)的文字標(biāo)注,為每個(gè)視頻參數(shù)語(yǔ)義標(biāo)簽。然后將這些數(shù)據(jù)組織成三元組的方式以方便后續(xù)使用。對(duì)于數(shù)據(jù)集的劃分,與文獻(xiàn)[2-3]使用相同的比例,用1 200 個(gè)樣本作為訓(xùn)練集,100 個(gè)樣本作為驗(yàn)證集,剩下670樣本作為測(cè)試集。

    3.2 評(píng)價(jià)指標(biāo)

    采用了4 個(gè)廣泛使用的指標(biāo)來(lái)評(píng)價(jià)MHA-S2VT 模型的標(biāo)注效果,4個(gè)指標(biāo)如下所示:

    (1)BLEU:由IBM 在2002年提出,是一個(gè)基于精度的評(píng)價(jià)指標(biāo),用于評(píng)估機(jī)器翻譯自動(dòng)生成譯文和參考譯文n 元組共同出現(xiàn)的程度。隨著n 的增加,評(píng)分值會(huì)下降,使用的參考譯文越多,則BLEU 評(píng)分值就越高。在模型評(píng)價(jià)時(shí)取n=4。

    (2)METEOR:對(duì)機(jī)器翻譯自動(dòng)生成的譯文與參考譯文進(jìn)行詞對(duì)齊,計(jì)算詞匯完全匹配、詞干匹配和同義詞匹配等各種情況的準(zhǔn)確率、召回率。和單純基于精度的評(píng)價(jià)指標(biāo)相比,其結(jié)果和人工判斷的結(jié)果有較高的相關(guān)性。

    (3)CIDEr:針對(duì)圖片標(biāo)注提出的評(píng)價(jià)指標(biāo)。將生成的每個(gè)句子看成文檔,表示成tf-idf向量形式,計(jì)算和真實(shí)標(biāo)注之間的余弦相似度。生成的標(biāo)注越接近人類語(yǔ)言其評(píng)價(jià)的分就越高。

    (4)ROUGE-L:是一個(gè)針對(duì)自動(dòng)文摘的評(píng)價(jià)指標(biāo)。它基于機(jī)器自動(dòng)生成的摘要和人工摘要的最長(zhǎng)公共序列長(zhǎng)度計(jì)算召回率。主要考察翻譯的充分性和忠實(shí)性,無(wú)法度量翻譯的流暢性。

    3.3 實(shí)驗(yàn)設(shè)置

    對(duì)于MSVD數(shù)據(jù)集中的視頻,為了防止背景干擾先去除頭尾2 幀數(shù)據(jù),每個(gè)視頻固定采樣64 幀,然后將采樣到的幀大小統(tǒng)一調(diào)整為224×224。由于不是固定間隔進(jìn)行采樣,所以對(duì)于短的視頻來(lái)說(shuō),采樣比較密集。用預(yù)訓(xùn)練的vgg16 網(wǎng)絡(luò)提取采樣幀的特征,采用的是vgg16的fc7層的輸出,因此,每一個(gè)特征都是4 096維。

    對(duì)于編碼端,將最大編碼長(zhǎng)度設(shè)置64,對(duì)于特征序列不足64 的情況,用零進(jìn)行填充。對(duì)于解碼端,將最大解碼序列長(zhǎng)度設(shè)置為20,已經(jīng)可以滿足大部分單句標(biāo)注的需求了。用“BOS”和“EOS”分別代表標(biāo)注句子的開(kāi)頭和結(jié)尾,作為解碼端第一個(gè)文字輸入和最后一個(gè)文字輸出。

    在參數(shù)設(shè)置上,把學(xué)習(xí)率設(shè)置為0.000 1。LSTM 隱藏層單元數(shù)目是1 000,為了方便計(jì)算,實(shí)驗(yàn)中將詞向量的維度也設(shè)置為1 000,而不是很多模型中使用的512維。語(yǔ)義標(biāo)簽維度設(shè)置為K=300。在計(jì)算模型損失的時(shí)候,由于語(yǔ)義預(yù)測(cè)部分損失較小,所以將λ設(shè)置為5。MHA-S2VT 模型增加了許多參數(shù),因此將最大迭代次數(shù)增加到了2 000次。

    對(duì)于文獻(xiàn)[7]中的模型而言,輸入的特征由ResNet和C3D[19-21]特征分別聚合平均之后拼接而成。為了公平地進(jìn)行比較,將統(tǒng)一使用vgg16提取特征。

    3.4 實(shí)驗(yàn)結(jié)果與分析

    表1 展示了MHA-S2VT 模型和原始模型和其他的視頻標(biāo)注模型在4 個(gè)具體評(píng)價(jià)指標(biāo)上的對(duì)比,MP 代表文獻(xiàn)[2]提出的標(biāo)注模型,它是基礎(chǔ)S2VT 模型的前身,S2VT 只是沒(méi)有將特征序列進(jìn)行聚合平均。TA 代表文獻(xiàn)[8]提出的時(shí)序注意力視頻標(biāo)注模型,SCN代表文獻(xiàn)[10]提出的語(yǔ)義視頻標(biāo)注模型,ALSTM代表文獻(xiàn)[11]提出的注意力LSTM 標(biāo)注模型。由表1 中可以看到,模型在BLEU、METEOR 和CIDEr 三個(gè)評(píng)價(jià)指標(biāo)上取得了不錯(cuò)的成績(jī),在ROUGE-L指標(biāo)上取得了微弱的優(yōu)勢(shì)。對(duì)比于基本S2VT模型,在CIDEr指標(biāo)上提升最大,在ROUGE-L指標(biāo)上,兩個(gè)模型最接近。在METEOR 指標(biāo)上幾個(gè)模型評(píng)分都比較低,說(shuō)明這些模型自動(dòng)產(chǎn)生的標(biāo)注和人工標(biāo)注相關(guān)度都不高。

    表1 模型對(duì)比結(jié)果

    表2 展示了MHA-S2VT 模型自身的對(duì)比實(shí)驗(yàn)。在表中,A 代表使用了多頭注意力機(jī)制,TAG 表示在解碼器端第一層LSTM 單元使用語(yǔ)義信息,S 表示在解碼器第二層使用參數(shù)矩陣語(yǔ)義擴(kuò)展。從表2 中可以看到多頭注意力機(jī)制和在解碼端第二層LSTM 使用語(yǔ)義信息是模型標(biāo)注效果提升的關(guān)鍵原因,而在模型第一層使用語(yǔ)義信息標(biāo)注效果提升的幅度不是很高。一個(gè)可能的原因是多頭注意力和在解碼端第二層進(jìn)行參數(shù)矩陣語(yǔ)義擴(kuò)展時(shí)引入的參數(shù)較多。另外可以看到同時(shí)使用多頭注意力和參數(shù)矩陣語(yǔ)義擴(kuò)展,標(biāo)注效果相對(duì)于單獨(dú)使用多頭注意力或參數(shù)語(yǔ)義擴(kuò)展的提升有限,可能是兩者的結(jié)合方式不是很合理。

    表2 MHA-S2VT實(shí)驗(yàn)結(jié)果

    將表1 和表2 進(jìn)行對(duì)比,可以看到多頭注意力帶來(lái)的提升效果比單頭的大。說(shuō)明將原始信息映射到不同的線性子空間之后,通過(guò)注意力機(jī)制確實(shí)能夠?qū)W習(xí)到更加關(guān)鍵的信息。在原始的S2VT模型上結(jié)合參數(shù)矩陣語(yǔ)義擴(kuò)展帶來(lái)的效果比文獻(xiàn)[10]中的方式有微小提升,原因一方面可能是和后者編碼視頻信息的方式相比,序列到序列的方式將時(shí)序信息編碼進(jìn)了視頻特征表示中,另一方面也有可能因?yàn)镾2VT使用的雙層LSTM 網(wǎng)絡(luò)比后者使用的單層LSTM網(wǎng)絡(luò)解碼效果好。

    需要重點(diǎn)指出的是,多頭注意力機(jī)制發(fā)揮的效果受到子空間映射數(shù)量的影響,本文中為了計(jì)算簡(jiǎn)單將子空間數(shù)量設(shè)置為10 個(gè),也許并不是一個(gè)比較好的選擇。同時(shí)本文沒(méi)有對(duì)多頭注意力結(jié)果進(jìn)行歸一化操作,也在一定程度上限制了實(shí)驗(yàn)效果的提升。

    圖3 展示了一個(gè)標(biāo)注樣例,在真實(shí)人工標(biāo)注中選出了兩條和幾個(gè)模型生成的標(biāo)注進(jìn)行對(duì)比??梢钥吹讲还苁歉倪M(jìn)的MHA-S2VT 模型還是其他的模型,標(biāo)注效果和真實(shí)人工標(biāo)注之間差距還是比較明顯,主要體現(xiàn)在生成句子長(zhǎng)度比較短和只能表達(dá)視頻語(yǔ)義信息不完整上。對(duì)于人類而言,讀懂視頻信息非常容易,但是對(duì)于機(jī)器而言,機(jī)器很難理解高維的語(yǔ)義信息,往往生成的句子只能保證語(yǔ)法正確。

    圖3 視頻標(biāo)注樣例

    4 結(jié)束語(yǔ)

    在本篇論文中,在S2VT 模型中加入多頭注意力和語(yǔ)義信息給標(biāo)注效果帶來(lái)很大提升。但是正如圖3 所展示的那樣,MHA-S2VT 模型生成的標(biāo)注和人工標(biāo)注之間差距還是很大,視頻標(biāo)注的提升空間依然寬廣。

    接下來(lái)工作的一個(gè)重點(diǎn)是研究語(yǔ)義信息的使用,本篇論文在使用語(yǔ)義信息上還處于初級(jí)階段,對(duì)于語(yǔ)義信息的使用上缺乏解釋性,沒(méi)能真正發(fā)揮語(yǔ)義預(yù)測(cè)的作用。在MHA-S2VT 模型中,多頭注意力和語(yǔ)義信息之間沒(méi)有什么關(guān)聯(lián),不能達(dá)到疊加的效果。另一個(gè)重點(diǎn)將會(huì)是探索多頭注意力子空間的劃分方案,使之能發(fā)揮最大效果。此外,對(duì)于幀采樣方式、Dropout大小等也會(huì)繼續(xù)摸索。希望能夠在未來(lái)的工作當(dāng)中在減少模型使用的參數(shù)數(shù)量的同時(shí),繼續(xù)保持現(xiàn)有的標(biāo)注效果。

    猜你喜歡
    解碼注意力語(yǔ)義
    《解碼萬(wàn)噸站》
    讓注意力“飛”回來(lái)
    語(yǔ)言與語(yǔ)義
    解碼eUCP2.0
    NAD C368解碼/放大器一體機(jī)
    Quad(國(guó)都)Vena解碼/放大器一體機(jī)
    “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
    A Beautiful Way Of Looking At Things
    “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
    認(rèn)知范疇模糊與語(yǔ)義模糊
    蒙山县| 广水市| 开原市| 洞头县| 南投市| 元江| 萝北县| 吉安县| 田林县| 康定县| 黔江区| 蒲江县| 西畴县| 合作市| 伊宁县| 特克斯县| 富源县| 西宁市| 三明市| 衡南县| 达日县| 贡嘎县| 吐鲁番市| 万州区| 巴南区| 彭山县| 贵港市| 汕尾市| 宽甸| 阳曲县| 来宾市| 法库县| 赤城县| 张北县| 威远县| 沁源县| 连江县| 喀喇| 克东县| 岳阳县| 光泽县|