• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      密集幀率采樣的視頻標(biāo)題生成*

      2018-06-19 06:11:06湯鵬杰譚云蘭李金忠
      計(jì)算機(jī)與生活 2018年6期
      關(guān)鍵詞:均值特征圖像

      湯鵬杰,譚云蘭,李金忠,譚 彬

      1.井岡山大學(xué) 數(shù)理學(xué)院,江西 吉安 343009

      2.井岡山大學(xué) 流域生態(tài)與地理環(huán)境監(jiān)測(cè)國(guó)家測(cè)繪地理信息局重點(diǎn)實(shí)驗(yàn)室,江西 吉安 343009

      3.同濟(jì)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系,上海 201804

      4.井岡山大學(xué) 電子與信息工程學(xué)院,江西 吉安 343009

      1 引言

      視頻標(biāo)題生成是根據(jù)一段給定的視頻,使用文字的形式將其主要內(nèi)容重新表述出來(lái),生成人們能夠理解的自然語(yǔ)言語(yǔ)句。它在人機(jī)智能交互、視覺(jué)功能障礙者輔助、視頻過(guò)濾與檢索等領(lǐng)域具有極大的應(yīng)用價(jià)值[1-2]。但由于視頻數(shù)據(jù)量大,需要應(yīng)用多種計(jì)算機(jī)視覺(jué)技術(shù)和自然語(yǔ)言處理技術(shù),其數(shù)據(jù)處理流程復(fù)雜,具有較大的挑戰(zhàn)性。不同于靜態(tài)圖像的標(biāo)題及描述生成模型,視頻的長(zhǎng)度難以固定,且視頻中各幀之間具有時(shí)序性和結(jié)構(gòu)性,因此生成視頻標(biāo)題需要考慮更多的影響因素。

      在前期的工作中,人們傾向于使用基于模板的方式生成標(biāo)題,如因子圖模型(factor graph model,F(xiàn)GM)[3],它首先在視頻中獲得主題、動(dòng)作、物體及場(chǎng)景(S,V,O,P)的置信度信息,然后結(jié)合使用因子圖從語(yǔ)言模型中得到的置信度,進(jìn)而推導(dǎo)出最合適的(S,V,O,P)元組,生成視頻標(biāo)題。隨著深度學(xué)習(xí)在視覺(jué)領(lǐng)域的快速發(fā)展,尤其是卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的大規(guī)模應(yīng)用[4-8],人們也開(kāi)始將其應(yīng)用在視頻標(biāo)題生成這一領(lǐng)域。其基本流程為提取視頻幀的CNN特征,然后將其作為一個(gè)整體,使用馬爾科夫隨機(jī)場(chǎng)(Markov random field,MRF)或者長(zhǎng)短時(shí)記憶(long short term memory,LSTM)網(wǎng)絡(luò)逐個(gè)生成單詞。由于CNN特征的表達(dá)能力更強(qiáng),LSTM網(wǎng)絡(luò)生成句子更加靈活,將CNN和LSTM模型相結(jié)合已經(jīng)成為解決該問(wèn)題的主流方法[1-2,9-12]。

      在以往的方法中,人們通常采用間隔固定時(shí)間采樣視頻幀的CNN特征[1]或者對(duì)所有視頻幀的CNN特征進(jìn)行平均的方法[9]。取固定時(shí)間間隔的視頻幀CNN特征能夠降低模型的復(fù)雜度,減少處理時(shí)間,同時(shí)也保證了數(shù)據(jù)的稀疏性,系統(tǒng)魯棒性較強(qiáng)。但間隔采樣的方法,尤其是較長(zhǎng)的時(shí)間間隔,極有可能導(dǎo)致視頻中很多重要信息丟失,造成生成的標(biāo)題中用詞不準(zhǔn)確,語(yǔ)義信息較弱。而使用將所有視頻幀的CNN特征進(jìn)行平均的方法則保證了視頻中的所有信息都能夠參與最終的決策。但由于它將所有的CNN特征進(jìn)行了均值運(yùn)算,使得最終特征缺乏更強(qiáng)的可辨別能力;同時(shí)其均值運(yùn)算也使得特征失去了視頻的運(yùn)動(dòng)信息,最終導(dǎo)致系統(tǒng)對(duì)視頻中物體、動(dòng)作及場(chǎng)景的檢測(cè)準(zhǔn)確率低,生成的句子與參考句子相比具有較大誤差。

      結(jié)合兩種方法的優(yōu)缺點(diǎn),本文考慮以S2VT(sequence to sequence-video to text)為基礎(chǔ),設(shè)計(jì)了密集幀率采樣標(biāo)題生成模型(dense frame rate sampling based captioning model,DFS-CM)。不同于原有的間隔固定時(shí)間取幀,然后將其CNN特征直接送入LSTM網(wǎng)絡(luò)的方式,本文在一定的時(shí)間間隔內(nèi)提取所有視頻幀的CNN特征,然后對(duì)其進(jìn)行均值或最大值運(yùn)算,得到固定時(shí)間間隔的均值或最大值特征;接下來(lái)將所有均值或最大值特征作為新的時(shí)間序列,按順序送入LSTM網(wǎng)絡(luò),對(duì)視頻特征進(jìn)行“編碼”,捕捉運(yùn)動(dòng)信息;在一定的時(shí)間步內(nèi),由LSTM輸出的向量即為該視頻最終的特征向量,然后在后續(xù)的時(shí)間步中,將其送入同一個(gè)LSTM網(wǎng)絡(luò)進(jìn)行“解碼”,根據(jù)視頻特征生成相應(yīng)的句子。本文模型既能保證視頻中靜態(tài)和動(dòng)態(tài)信息的完整性,又能降低對(duì)所有幀的CNN特征進(jìn)行均值或最大值運(yùn)算所造成的特征可辨別能力受損及信息丟失對(duì)性能的影響。

      2 相關(guān)工作

      視頻標(biāo)題生成系統(tǒng)使用了計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理中的多種技術(shù),處理流程較為復(fù)雜。本文首先介紹所使用的CNN、LSTM技術(shù),然后對(duì)與本文相關(guān)的視覺(jué)內(nèi)容描述進(jìn)行說(shuō)明。

      2.1 CNN技術(shù)

      CNN技術(shù)通過(guò)使用大量的卷積核對(duì)圖像進(jìn)行濾波,不同的卷積核具有不同的權(quán)重,因此圖像經(jīng)過(guò)每個(gè)卷積核變換后,都可認(rèn)為是其一種特征,將多種特征融合在一起,得到的特征更加全面;同時(shí),CNN模型還使用多種非線性變換技術(shù),提高特征的抽象性,增強(qiáng)其表達(dá)能力和可辨別能力,如修正線性單元(rectified linear unit,ReLU)、參數(shù)化修正線性單元(parameter rectified linear unit,PReLU)[13]等;此外,它還使用池化技術(shù),如均值池化(average pooling)、最大值池化(max pooling)等,以降低參數(shù)規(guī)模和運(yùn)算復(fù)雜度,同時(shí)增強(qiáng)特征的穩(wěn)定性,適應(yīng)物體可能的多種形變。

      目前,已出現(xiàn)多個(gè)經(jīng)典的CNN模型,如早期的LeNet5模型[14]、引領(lǐng)深度學(xué)習(xí)熱潮的的AlexNet模型[4],以及近期的 VGG16/19[15]、GoogLeNet[5]和 ResNet模型[6]等,它們?cè)谟?jì)算機(jī)視覺(jué)的多個(gè)領(lǐng)域內(nèi)被廣泛應(yīng)用,如圖像和視頻的分類與識(shí)別[4-6,15]、目標(biāo)檢測(cè)與追蹤[8]、圖像分割[7]、圖像及視頻描述[1-2,9-12,16-19]等。在GooLeNet模型中,Szegedy等人共使用6個(gè)“Inception”模塊,深度達(dá)到22層;在每個(gè)“Inception”模塊中,同一層中使用多個(gè)卷積層對(duì)不同尺度的特征進(jìn)行聚類,并經(jīng)過(guò)多層線性和非線性變換,增強(qiáng)特征的表達(dá)能力;由于使用了更小的卷積核,其參數(shù)規(guī)模更小。在ILSVRC2014中,該模型贏得了分類比賽的冠軍。He等人則認(rèn)為在模型加深后,其有效消息可能會(huì)逐漸丟失,使得訓(xùn)練變得困難。為此,他們引入了“殘差(residual)”的概念,使用“跳層(short cut)”的方式將上層輸出與當(dāng)前層輸出逐元素求和之后送入下一層。使用殘差機(jī)制,他們開(kāi)發(fā)了ResNet-152模型,其深度達(dá)到152層,獲得了ILSVRC2015分類和目標(biāo)檢測(cè)兩項(xiàng)比賽的冠軍。雖然ResNet模型層次更多,但由于也采用了小卷積核技術(shù),其參數(shù)規(guī)模仍然比VGG16/19更小。鑒于GoogLeNet和ResNet模型中參數(shù)較少,且性能優(yōu)越,本文采用了這兩種模型對(duì)視頻幀提取CNN特征。

      2.2 LSTM模型

      對(duì)于具有時(shí)間序列的數(shù)據(jù),常采用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)來(lái)進(jìn)行處理。RNN是一個(gè)神經(jīng)單元,在不同的時(shí)間步上輸入時(shí)間序列數(shù)據(jù),通過(guò)跨時(shí)間的反向傳播算法(back propagation through time,BPTT)對(duì)參數(shù)進(jìn)行更新優(yōu)化,使得網(wǎng)絡(luò)具有一定的記憶功能。但RNN中采用了Sigmoid和Tanh激活函數(shù),使得梯度消失(gradient vanish)和梯度爆炸(gradient explosion)現(xiàn)象較為嚴(yán)重,造成后續(xù)時(shí)間步上的節(jié)點(diǎn)難以記憶較長(zhǎng)時(shí)間的信息,難以解決“長(zhǎng)期依賴(long term dependency)”問(wèn)題[20]。

      LSTM模型在RNN的基礎(chǔ)上增加了包括輸入門(mén)(input gate)、遺忘門(mén)(forget gate)和輸出門(mén)(output gate)在內(nèi)的多個(gè)控制門(mén)。同時(shí),通過(guò)增加記憶單元保存狀態(tài)信息,使得梯度回傳時(shí)能夠根據(jù)需求到達(dá)特定的時(shí)間步,對(duì)該時(shí)間步上的參數(shù)進(jìn)行更新,解決了RNN中所存在的問(wèn)題[21]。目前,也出現(xiàn)了多個(gè)LSTM的變種模型,如Gated RNN Unit(GRU)[22]、Depth Gated RNN[23]、雙向LSTM[24]等。為了便于對(duì)比,本文仍然使用經(jīng)典的LSTM單元建立視頻特征“編碼”模型和語(yǔ)言模型。

      2.3 視覺(jué)內(nèi)容描述

      視覺(jué)內(nèi)容描述將視覺(jué)信息轉(zhuǎn)換為自然語(yǔ)言重新表達(dá),是一個(gè)從具體到抽象,又到具體的過(guò)程,它屬于視覺(jué)信息理解中的高層任務(wù),是理解視覺(jué)內(nèi)容并跨越語(yǔ)義鴻溝的必經(jīng)過(guò)程。目前,已有大量關(guān)于視覺(jué)內(nèi)容描述的工作,主要集中于圖像描述生成任務(wù)[16-19,25]和視頻描述生成任務(wù)[1-2,9-12]。

      其中圖像描述生成流程較為簡(jiǎn)單,它不考慮運(yùn)動(dòng)信息,使用CNN模型提取深度特征,然后將其送入LSTM進(jìn)行“解碼”,生成句子即可。為了提高生成句子的準(zhǔn)確度,豐富語(yǔ)義信息,人們也結(jié)合了多種視覺(jué)和自然語(yǔ)言處理技術(shù),設(shè)計(jì)了多種生成模型。如Karpathy等人提出了基于局部區(qū)域的CNN模型RCNN(region based CNN)和雙向LSTM的多模LSTM語(yǔ)言生成模型[19];Xu等人將自然語(yǔ)言處理的注意力機(jī)制應(yīng)用到圖像描述生成上,并結(jié)合CNN和LSTM技術(shù),提出了Soft-Attention和Hard-Attention模型[18];此外,Wu等人從圖像內(nèi)容屬性出發(fā),使用多標(biāo)簽分類及遷移學(xué)習(xí)技術(shù),設(shè)計(jì)了基于屬性的生成模型,改善了生成句子的質(zhì)量[25]。

      視頻內(nèi)容描述不僅要考慮每幀中所出現(xiàn)的事件、物體及場(chǎng)景,還需要考慮前后多幀之間的關(guān)聯(lián),其數(shù)據(jù)信息更為龐大、復(fù)雜,較靜態(tài)圖像描述任務(wù)更具挑戰(zhàn)性。Venugopalan等人使用深度CNN模型提取出視頻中所有幀的CNN特征,然后求取所有特征的對(duì)應(yīng)位置的平均值,作為該視頻的特征向量,并在每個(gè)事件步上將其與前述已生成單詞的嵌入式向量共同組成多模特征送入LSTM網(wǎng)絡(luò),生成視頻標(biāo)題和描述[9]。這種方法充分利用了深度CNN特征較強(qiáng)的抽象能力和表達(dá)能力,并使用多模特征對(duì)LSTM進(jìn)行訓(xùn)練優(yōu)化,最終生成更加靈活、語(yǔ)義信息更加豐富的句子。但它過(guò)于簡(jiǎn)單粗暴,將所有幀的特征進(jìn)行均值運(yùn)算,完全忽視了視頻的運(yùn)動(dòng)特征,其本質(zhì)仍然是采用靜態(tài)圖像描述的思路。為解決這一弊端,Venugopalan等人又提出了S2VT模型[1],它采取稀疏采樣的方法,每隔固定幀數(shù)(10幀)提取一幀的CNN特征,然后將其按時(shí)間順序送入LSTM網(wǎng)絡(luò)中,由LSTM建立視頻的動(dòng)態(tài)特征,同時(shí)對(duì)視頻進(jìn)行“編碼”;然后同樣使用LSTM網(wǎng)絡(luò)對(duì)“編碼”后的特征向量進(jìn)行“解碼”,生成句子。S2VT考慮了視頻的運(yùn)動(dòng)特性,消除了只使用均值方式所導(dǎo)致的缺乏運(yùn)動(dòng)信息的缺陷。但S2VT模型采取稀疏取幀的方式,雖然能夠提供一定的正則化信息,增強(qiáng)系統(tǒng)的魯棒性,但也丟失了很多細(xì)節(jié)信息,特別是在對(duì)象快速運(yùn)動(dòng)的情況下,可能使得最終特征錯(cuò)過(guò)部分物體及場(chǎng)景信息。

      此外,Yao等人則采用注意力機(jī)制定位時(shí)序位置,并使用三維卷積提取視頻特征,取得了較好的效果[11]。Pan等人首先將整個(gè)視頻分為多個(gè)長(zhǎng)度固定且統(tǒng)一的片段,使用三維卷積的方法對(duì)每個(gè)片段提取三維卷積特征,對(duì)所有卷積特征進(jìn)行均值運(yùn)算;然后使用LSTM網(wǎng)絡(luò)建立語(yǔ)言模型,結(jié)合視頻的均值特征生成視頻標(biāo)題[2]。使用三維卷積提取視頻的視覺(jué)特征可解釋性好,符合人們的理解習(xí)慣,不僅對(duì)幀內(nèi)的物體、場(chǎng)景等信息做了深度計(jì)算,而且也對(duì)幀間的運(yùn)動(dòng)特征做了深度描述。但三維卷積運(yùn)算量大,同時(shí)大量的實(shí)驗(yàn)表明,無(wú)論是在傳統(tǒng)的視頻動(dòng)作識(shí)別,還是在視頻標(biāo)題生成領(lǐng)域,其性能和其他方法相比并不優(yōu)越。

      對(duì)比以上工作,本文以S2VT結(jié)構(gòu)為基礎(chǔ),提出了基于密集幀率采樣的模型,使得視頻中的所有幀均參與運(yùn)算過(guò)程,舍棄了間隔取幀的方式,防止某些關(guān)鍵幀中靜態(tài)信息和動(dòng)態(tài)信息的丟失,使特征表達(dá)能力更強(qiáng)。本文模型在限制復(fù)雜度的基礎(chǔ)上,進(jìn)一步改善了模型性能,提升了生成標(biāo)題的質(zhì)量。

      3 密集幀率采樣標(biāo)題生成模型

      3.1 模型原理

      3.1.1 問(wèn)題及方法概述

      視覺(jué)特征是各種視覺(jué)信息理解任務(wù)的基礎(chǔ),同時(shí),不同的視覺(jué)任務(wù)對(duì)特征的要求也不盡相同。對(duì)于視頻而言,在數(shù)據(jù)表現(xiàn)上,它具有數(shù)據(jù)量大、數(shù)據(jù)冗余度高的特點(diǎn);在高層語(yǔ)義方面,它是現(xiàn)實(shí)世界中一個(gè)片段,每幀之中涵蓋了物體、動(dòng)作、場(chǎng)景及位置關(guān)系等多種靜態(tài)視覺(jué)信息,各幀之間則表現(xiàn)了物體運(yùn)動(dòng)、動(dòng)作發(fā)生、場(chǎng)景切換及位置變化等多種運(yùn)動(dòng)信息。在人們的日常生活中,它承載著文化傳播、還原現(xiàn)實(shí)等多種功能,已成為文明社會(huì)不可或缺的一部分。自然語(yǔ)言首先是對(duì)現(xiàn)實(shí)世界的抽象或推理,然后通過(guò)一定的語(yǔ)法規(guī)則將各種語(yǔ)料重新組織起來(lái),對(duì)現(xiàn)實(shí)世界或相關(guān)推理進(jìn)行描述。使用自然語(yǔ)言對(duì)視頻中的內(nèi)容進(jìn)行重新表達(dá)是人類智力活動(dòng)的一種,其本身對(duì)人類的語(yǔ)言表達(dá)能力具有一定的挑戰(zhàn)性,它不僅要求能夠?qū)⒁曨l中的主要物體、動(dòng)作和場(chǎng)景等視覺(jué)內(nèi)容進(jìn)行準(zhǔn)確的表達(dá),還要求對(duì)整個(gè)視頻內(nèi)容進(jìn)行總結(jié)。使用計(jì)算機(jī)來(lái)完成這一過(guò)程,首先需要機(jī)器提取視頻及語(yǔ)言中的多種特征,降低數(shù)據(jù)量,提升模型的泛化能力;然后將特征送入語(yǔ)言模型進(jìn)行訓(xùn)練和測(cè)試。

      本文首先使用深度CNN模型提取視頻中每幀的特征,保證模型能夠捕捉視頻中的物體、場(chǎng)景及動(dòng)作等靜態(tài)信息;然后固定取幀長(zhǎng)度,將長(zhǎng)度內(nèi)所有幀的CNN特征進(jìn)行均值運(yùn)算或取最大值運(yùn)算,不僅保證了視頻中所有幀的信息能夠參與計(jì)算,而且還降低了數(shù)據(jù)量和復(fù)雜度,使得數(shù)據(jù)具有一定的稀疏性,便于提高模型的泛化能力。為提取視頻中的運(yùn)動(dòng)信息,將所有取均值或最大值后的CNN特征送入LSTM模型,保證每個(gè)時(shí)間步上輸入視頻一段時(shí)間的CNN特征,由LSTM網(wǎng)絡(luò)記憶時(shí)間序列信息,對(duì)運(yùn)動(dòng)特征進(jìn)行描述。上述過(guò)程屬于對(duì)視頻進(jìn)行“編碼”的階段,主要用于提取視頻中的各種特征。在使用CNN提取特征之前,首先使用ImageNet大規(guī)模數(shù)據(jù)集[26]對(duì)CNN模型參數(shù)進(jìn)行優(yōu)化,防止模型陷入過(guò)擬合狀態(tài);然后在靜態(tài)圖像描述數(shù)據(jù)集MSCOCO[27]上使用該CNN模型和LSTM網(wǎng)絡(luò)進(jìn)行聯(lián)合訓(xùn)練,對(duì)CNN模型參數(shù)進(jìn)行微調(diào),訓(xùn)練模型對(duì)自然語(yǔ)言的結(jié)構(gòu)及常用詞匯更為敏感,使之適應(yīng)句子生成的任務(wù)。

      在訓(xùn)練階段,得到視頻的特征向量之后,將其和相關(guān)參考句子中相應(yīng)詞匯的特征向量結(jié)合在一起,送入LSTM網(wǎng)絡(luò)中特定的時(shí)間步,對(duì)其中的參數(shù)進(jìn)行訓(xùn)練優(yōu)化;在測(cè)試階段,將視頻特征向量和LSTM前一時(shí)間步上所輸出的單詞特征向量融合在一起,送入LSTM當(dāng)前時(shí)間步,輸出當(dāng)前單詞;最后將所有時(shí)間步上輸出的單詞結(jié)合在一起,組成視頻的描述句子。

      3.1.2 形式化描述

      設(shè)V={V1,V2,…,Vn}表示視頻集合,S={S1,S2,…,Sn}表示相應(yīng)視頻的參考句子集合,f(?)表示系統(tǒng)函數(shù),則對(duì)于某個(gè)視頻(如第i個(gè)視頻Vi),整個(gè)模型可表示為:

      其中,V表示在訓(xùn)練集上生成的詞匯集合(字典)。

      在訓(xùn)練階段,將整個(gè)模型分為四部分:第一部分為在ImageNet數(shù)據(jù)集上對(duì)CNN模型進(jìn)行預(yù)訓(xùn)練,防止模型在訓(xùn)練樣本較少的圖像描述和視頻描述數(shù)據(jù)集上陷入過(guò)擬合。第二部分為在靜態(tài)圖像描述數(shù)據(jù)集MSCOCO再次對(duì)CNN模型進(jìn)行預(yù)訓(xùn)練微調(diào),使得模型能夠捕捉更多關(guān)于句子結(jié)構(gòu)和相關(guān)詞匯的先驗(yàn)信息;本部分使用視覺(jué)模型和語(yǔ)言模型聯(lián)合訓(xùn)練的方式,即CNN模型和LSTM語(yǔ)言模型共用目標(biāo)函數(shù),防止模型陷入局部最優(yōu)狀態(tài)。第三部分為特征處理部分,首先使用遷移學(xué)習(xí)的方法將預(yù)訓(xùn)練模型中的參數(shù)遷移至視頻描述任務(wù),然后使用這些參數(shù)提取所有視頻幀特征,最后對(duì)特征進(jìn)行固定間隔時(shí)間均值或最大值計(jì)算。第四部分則為在視頻描述數(shù)據(jù)集上進(jìn)行訓(xùn)練,主要是優(yōu)化對(duì)視頻特征進(jìn)行編碼的模型和語(yǔ)言模型,本部分也是采用LSTM網(wǎng)絡(luò)來(lái)進(jìn)行。設(shè)L1pre、L2pre和Lv-lm分別表示第一部分、第二部分和第四部分的損失函數(shù),則整個(gè)系統(tǒng)的損失函數(shù)可表示為:

      設(shè)為ImageNet訓(xùn)練集中的圖像集合,n1表示其樣本數(shù)量表示圖像對(duì)應(yīng)的標(biāo)簽集合,表示CNN 模型函數(shù)。在ImageNet上,子模型可表示為式(2):

      其中,R 表示實(shí)數(shù)域;Z 表示整數(shù)集。

      在優(yōu)化時(shí),使用交叉熵函數(shù)作為代價(jià)函數(shù),并使用隨機(jī)梯度下降算法對(duì)參數(shù)進(jìn)行更新,其損失函數(shù)為:

      其中,N1表示一次迭代中所使用的訓(xùn)練樣本數(shù)量;表示第m1張圖像的真實(shí)標(biāo)簽為經(jīng)過(guò)模型變換后得到的第m1張圖像的概率分值;θpre1是CNN模型的參數(shù)集合。在實(shí)際操作中,除求取所有圖像交叉熵的均值外,還應(yīng)該包含正則化項(xiàng)。

      在第二部分,設(shè)表示MSCOCO數(shù)據(jù)集中的訓(xùn)練圖像集合,n2表示圖像樣本數(shù)量,Spre表示每張圖像所對(duì)應(yīng)的參考句子集合,可表示為:

      其中,k表示在MSCOCO數(shù)據(jù)集中每張圖像對(duì)應(yīng)的參考句子條數(shù),k=5,即每張圖像包含5條參考句子;在每條句子中,設(shè)表示第j張圖像所對(duì)應(yīng)的第r條參考句子中詞匯的集合;ljpre表示該條句子的長(zhǎng)度。該部分的損失函數(shù)可表示為:

      其中,N2表示一次迭代中所使用的訓(xùn)練圖像樣本數(shù)量表示CNN模型和語(yǔ)言模型中的參數(shù)集合;H(?)為變換函數(shù),它將詞匯映射為在單詞表中的對(duì)應(yīng)標(biāo)簽表示在第l個(gè)時(shí)間步上所輸出的候選單詞的概率分值。

      當(dāng)模型MSCOCO數(shù)據(jù)集上收斂之后,取模型的前半部分CNN模型,將其參數(shù)遷移到視頻描述任務(wù)中,用于提取視頻幀的CNN特征。設(shè)第i個(gè)視頻所有幀的CNN特征集合為其中l(wèi)n3v表示該視頻長(zhǎng)度(總幀數(shù))。對(duì)于每幀特征可使用下式計(jì)算得到:

      式中表示視頻的第t幀。得到視頻中所有幀的CNN特征后,對(duì)于t時(shí)刻點(diǎn),使用下式計(jì)算固定時(shí)間間隔均值或最大值特征:

      其中,la和lm表示時(shí)間間隔長(zhǎng)度,本文設(shè)置分別表示均值計(jì)算(average computation)得到的特征和最大值計(jì)算(maximum computation)得到特征;表示取最大值函數(shù)。

      得到視頻的固定間隔時(shí)間的均值特征或最大值特征后,需要由第四部分建立視頻的運(yùn)動(dòng)特征模型和語(yǔ)言“解碼”模型。本文使用同一個(gè)LSTM網(wǎng)絡(luò)建立該模型,前半部分用于特征“編碼”,后半部分用于構(gòu)建語(yǔ)言模型。其損失函數(shù)與第二部分類似,可表示為式(9):

      其中為視頻集合固定間隔時(shí)間均值特征或最大值特征集合,n4為訓(xùn)練視頻樣本總量;視頻集合中,第m5個(gè)視頻片段特征由集合所構(gòu)成;Slm為訓(xùn)練句子的集合,對(duì)于某個(gè)視頻來(lái)說(shuō),其所有均值或最大值特征均對(duì)應(yīng)其相應(yīng)的句子;θv-lm為模型參數(shù)集合;N3為一次迭代中所使用的視頻數(shù)量;為第i個(gè)視頻的總長(zhǎng)度(總幀數(shù));ki表示該視頻所對(duì)應(yīng)的參考句子條數(shù);為第r條參考句子的長(zhǎng)度(詞匯個(gè)數(shù))用于表示第i個(gè)視頻中第r條參考句子的第l個(gè)單詞;為該詞匯在詞典中的位置標(biāo)簽;表示在該時(shí)間步上(第l個(gè)時(shí)間步)所輸出的概率分值。

      由以上各部分可知,系統(tǒng)的目標(biāo)為不斷優(yōu)化更新參數(shù)集合θ={θpre1,θlmpre,θv-lm},使得 L最小。因此,其目標(biāo)函數(shù)可記為:

      在測(cè)試階段,只有視頻及其提取的CNN特征,語(yǔ)言模型中沒(méi)有參考句子的輸入。因此,使用“BOS”作為開(kāi)始符號(hào),和視頻特征一起送入語(yǔ)言模型,在當(dāng)前時(shí)間步上生成第一個(gè)單詞;然后將該單詞作為下一個(gè)時(shí)間步的輸入,以此類推,逐個(gè)生成單詞,直到生成“EOS”結(jié)束符為止。在具體生成單個(gè)詞匯時(shí),其輸出為使用Softmax函數(shù)所生成的概率分值,在當(dāng)前時(shí)間步上取所有概率分值中最大者所對(duì)應(yīng)的單詞作為當(dāng)前生成的詞匯,即:wl=max1:|V|{(plm)l}? V1×|V|(11)其中,wl表示在第l個(gè)時(shí)間步上生成的單詞;V表示詞匯表;|V|表示詞匯表的大??;{(plm)l}表示第l個(gè)時(shí)間步上的所有概率分值集合。

      3.2 模型結(jié)構(gòu)

      如圖1所示,首先將整個(gè)視頻分成固定長(zhǎng)度的片段(當(dāng)視頻尾部長(zhǎng)度不足時(shí),使用空白幀填補(bǔ),使得la/m固定);接下來(lái)使用在ImageNet和MSCOCO兩個(gè)數(shù)據(jù)集上優(yōu)化完畢的深度CNN模型提取所有視頻幀的特征,然后使用均值運(yùn)算或最大值運(yùn)算的方法,對(duì)固定片段中的特征進(jìn)行進(jìn)一步處理,生成的特征向量維度與原視頻幀的特征向量維度相同。得到視頻的固定時(shí)間間隔的均值或最大值特征以后,本文以S2VT框架為基礎(chǔ),構(gòu)建兩層LSTM網(wǎng)絡(luò),在(1:t1)時(shí)間步上,使用第一層LSTM網(wǎng)絡(luò)依次接收上述步驟所生成的均值或最大值特征,對(duì)于第二層LSTM,則直接使用空白特征(0向量特征)填補(bǔ);當(dāng)把所有的視頻特征送入LSTM后,由LSTM生成視頻的唯一特征向量,在t1+1時(shí)間步上,和空白特征一起送入第一層LSTM網(wǎng)絡(luò),其輸出和“BOS”一起送入第二層LSTM網(wǎng)絡(luò)中,由第二層LSTM網(wǎng)絡(luò)對(duì)特征進(jìn)行“解碼”。

      在將視頻特征送入LSTM網(wǎng)絡(luò)之前,需要對(duì)特征進(jìn)行降維,一般使用全連接層將高維特征變換為維度較低的特征向量。而在單詞輸入到LSTM網(wǎng)絡(luò)之前,需要使用獨(dú)熱碼(One-hot)對(duì)單詞進(jìn)行編碼,再使用全連接層得到單詞的嵌入式向量,然后和“編碼”后的視頻特征向量一起送入LSTM單元。在輸出時(shí),使用全連接層將特征映射到詞匯表上,取其響應(yīng)最大者作為當(dāng)前時(shí)間步上的單詞。

      4 實(shí)驗(yàn)結(jié)果及分析

      本文4.1節(jié)介紹了驗(yàn)證模型所使用的數(shù)據(jù)集,對(duì)數(shù)據(jù)集的基本情況和使用規(guī)則進(jìn)行了描述。4.2節(jié)對(duì)實(shí)驗(yàn)?zāi)P偷幕驹O(shè)置進(jìn)行了說(shuō)明,包括基準(zhǔn)模型設(shè)計(jì)、輸入特征情況、所提模型的配置、訓(xùn)練時(shí)的部分參數(shù)及軟硬件環(huán)境等。4.3節(jié)介紹了本文所使用的評(píng)價(jià)標(biāo)準(zhǔn)。4.4節(jié)給出了實(shí)驗(yàn)結(jié)果及其相關(guān)分析。

      4.1 數(shù)據(jù)集

      本文主要使用Youtube2Text數(shù)據(jù)集[28]對(duì)模型進(jìn)行驗(yàn)證。該數(shù)據(jù)集取自于Youtube網(wǎng)站,總共包含1 970段視頻,每段視頻描述了一件事或一個(gè)動(dòng)作。其中每段視頻都對(duì)應(yīng)數(shù)十條人工標(biāo)注的句子(條數(shù)不固定);按照使用規(guī)則,取1 200段視頻及其參考句子用于訓(xùn)練,100段視頻和參考句子用于驗(yàn)證,最后的670段視頻及對(duì)應(yīng)的參考句子用于測(cè)試。本文采用文獻(xiàn)[1-2]中所使用的詞匯表,其大小為46 167。

      4.2 實(shí)驗(yàn)設(shè)置

      本文以S2VT框架為基礎(chǔ),但和S2VT不同,文中不使用視頻的光流特征,只使用原始的視頻幀作為系統(tǒng)輸入。其原因是光流特征是提取視頻中的運(yùn)動(dòng)特征,而依次將視頻幀特征輸入LSTM進(jìn)行編碼,其本身也是為了捕捉視頻的運(yùn)動(dòng)特征,因此沒(méi)有必要對(duì)運(yùn)動(dòng)特征重復(fù)提取。而實(shí)驗(yàn)結(jié)果也表明,使用光流特征的方法效果并不理想。為了降低模型復(fù)雜度,提升模型性能,本文使用了GoogLeNet模型和ResNet-152模型提取視頻幀的CNN特征,使用其最后的池化層特征作為輸入,最終特征維度為1 024和2 048;在視頻特征輸入LSTM之前,使用全連接層對(duì)特征進(jìn)行降維,輸出維度設(shè)置為1 000;使用兩層LSTM,每層LSTM的輸出單元也設(shè)置為1 000,時(shí)間總步長(zhǎng)為t2=80;在全連接層、LSTM層等兩層之間,使用Dropout技術(shù),防止模型陷入過(guò)擬合,其舍棄比率(dropout ratio)設(shè)置為0.5。在基準(zhǔn)模型中,本文遵循文獻(xiàn)[1]中的做法,對(duì)每段視頻按照每隔10幀取一幀的方式對(duì)視頻進(jìn)行采樣,然后使用GoogLeNet和ResNet-152提取CNN特征,并將其按順序送入上述LSTM網(wǎng)絡(luò)中。而在本文所提模型中,對(duì)視頻進(jìn)行密集采樣,取出所有視頻幀,然后設(shè)置la/m=10,即每隔相鄰10幀做一次均值或最大值運(yùn)算。其他設(shè)置與基準(zhǔn)模型相同。

      在模型訓(xùn)練時(shí),設(shè)置最大迭代次數(shù)為110 000次;使用隨機(jī)梯度下降算法,其Batch_size設(shè)置為32;初始學(xué)習(xí)率設(shè)置為0.01,使用逐步下降的方式,調(diào)整學(xué)習(xí)率,調(diào)整步長(zhǎng)(step size)為30 000,調(diào)整速度為0.5。由于LSTM網(wǎng)絡(luò)中采取梯度累加的方式,為防止梯度爆炸,需要對(duì)梯度值進(jìn)行裁剪,其縮放因子設(shè)置為10。

      本文采用目前流行的Caffe深度學(xué)習(xí)框架開(kāi)發(fā)部署各個(gè)模型,使用了NVIDIATITAN X高性能顯卡進(jìn)行運(yùn)算,加速模型收斂。提取視頻各幀的CNN特征后,在Matlab R2015平臺(tái)上計(jì)算特征的均值和最大值;同時(shí)部署了Python3將處理后的特征及其相關(guān)參考句子轉(zhuǎn)換為HDF5文件,加快訓(xùn)練數(shù)據(jù)的讀取速度。

      4.3 評(píng)價(jià)標(biāo)準(zhǔn)

      本文使用主觀評(píng)價(jià)和客觀統(tǒng)計(jì)評(píng)價(jià)兩種評(píng)價(jià)方法。在主觀評(píng)價(jià)中,通過(guò)觀察視頻內(nèi)容及參考句子,判斷生成句子的語(yǔ)義及合理性。在客觀評(píng)價(jià)方面,使用了 BLEU(bilingual evaluation understudy)[29]、METEOR(metric for evaluation of translation with explicit ordering)[30]、ROUGE_L(recall oriented understudy for gisting evaluation)[31]和 CIDEr(consensusbased image description evaluation metric)[32]4種較為流行的方法。其中BLEU方法以n-元組(n-Gram)為基礎(chǔ),計(jì)算所有參考句子與生成句子之間的匹配程度,n越大,BLEU值越高,說(shuō)明生成的句子單詞正確率越高,句子連貫性越好(為便于表示,本文使用B@1、B@2、B@3、B@4分別表示1-Gram、2-Gram、3-Gram和4-Gram下的BLEU值)。METEOR方法同時(shí)考慮了正確率和召回率,通過(guò)計(jì)算正確率和召回率調(diào)和均值的方法得出數(shù)值,同樣其值越高,說(shuō)明生成的句子質(zhì)量越高(為便于說(shuō)明,本文使用“M”表示METEOR)。ROUGE_L方法也是基于n-Gram方法,但它使用了最長(zhǎng)公共子序列的概念,不要求詞匯的連續(xù)匹配,同樣也不需要事先指定n的大小,其值越高,說(shuō)明生成的句子越貼近人工標(biāo)注的句子(本文使用“R”表示該指標(biāo))。以上3種方法在反映生成句子的正確度及連貫性等方面具有一定的優(yōu)勢(shì),但在反映句子的語(yǔ)義信息的豐富程度方面則有所欠缺。CIDEr評(píng)價(jià)方法提出使用“人類共識(shí)”的概念,它通過(guò)為n-Gram賦予一定的TFIDF權(quán)值,計(jì)算候選句子與生成句子之間的余弦距離,以此表明匹配程度,其值越高,說(shuō)明生成的句子與參考句子集合之間相似度越大,語(yǔ)義信息越豐富(本文使用“C”表示該指標(biāo))。

      4.4 實(shí)驗(yàn)結(jié)果及分析

      為視頻生成的標(biāo)題或描述,其服務(wù)對(duì)象是人類,目的是滿足人們的需求,因此最終評(píng)價(jià)標(biāo)準(zhǔn)也是人的主觀評(píng)價(jià)。4.4.1小節(jié)列出了部分采用本文模型為視頻所生成的候選句子,對(duì)比了其與人工標(biāo)注句子的區(qū)別,并分析了候選句子的質(zhì)量。但不同人群具有不同的語(yǔ)言表達(dá)和接受習(xí)慣,因此主觀評(píng)價(jià)易產(chǎn)生偏差,只能部分反映生成句子的質(zhì)量,且在大規(guī)模視頻標(biāo)題生成任務(wù)中,人工評(píng)價(jià)耗時(shí)較長(zhǎng)。4.4.2小節(jié)使用多種客觀評(píng)價(jià)標(biāo)準(zhǔn)對(duì)模型進(jìn)行了更加全面的評(píng)測(cè)。

      4.4.1 生成句子及分析

      如圖2所示,本文列舉了部分模型生成的視頻標(biāo)題(使用ResNet-152模型提取視頻的CNN特征),同時(shí)也列舉了部分參考句子,{R1,R2,R3,R4,R5}表示參考句子集合,{C}表示生成的句子集合。通過(guò)對(duì)比可以發(fā)現(xiàn),在多數(shù)情況下,由本文模型所生成的句子準(zhǔn)確度較高,連貫性較好,且語(yǔ)義信息非常豐富。如在第一段視頻中,所生成句子質(zhì)量甚至要高于多條參考句子(如R2、R4),不僅指明了所操作的對(duì)象(tomato sauce),還說(shuō)明了其盛放的工具(can),而在R2和R4中,則并沒(méi)有提到這一重要信息;同時(shí)生成的句子還指出了另一個(gè)操作對(duì)象(pot)所在的位置(on the stove),這是其他所有參考句子中都沒(méi)有出現(xiàn)的內(nèi)容。在第三段視頻中,本文模型也準(zhǔn)確地生成了視頻的標(biāo)題,較好地描述了視頻中所發(fā)生的事情。

      同時(shí)也需注意到,本文模型所生成的標(biāo)題還同樣存在著檢測(cè)不準(zhǔn)確及缺乏描述靈活性的問(wèn)題。如在第二段視頻中,生成的句子中出現(xiàn)了視頻中本沒(méi)有的內(nèi)容(leg),在所有的參考句子中也并沒(méi)有這一名詞出現(xiàn);而且在語(yǔ)義上,和參考句子相比也有所欠缺,如R1中所出現(xiàn)的“狗回追猴子(and is chased by dog)”、R3中出現(xiàn)的“戲弄(teasing)”等。同樣地,在第四段視頻中,其生成的句子雖然也較好地反映了視頻中所發(fā)生的事情(playing with each other),但在檢測(cè)對(duì)象上,和視頻內(nèi)容之間出現(xiàn)了較大偏差,不僅將“獅子(lion)”錯(cuò)誤地認(rèn)成了“小狗(puppy)”,還將數(shù)量(three)做了錯(cuò)誤的判斷(two)。出現(xiàn)這一問(wèn)題的原因可能是在使用LSTM對(duì)視頻特征進(jìn)行“編碼”時(shí),雖然捕捉了運(yùn)動(dòng)信息,但失去了很多幀內(nèi)的靜態(tài)信息,導(dǎo)致檢測(cè)對(duì)象出現(xiàn)了誤差。

      4.4.2 統(tǒng)計(jì)結(jié)果及分析

      為更加全面而客觀地評(píng)價(jià)本文模型,采用了BLEU、METEOR、ROUGE_L和CIDEr共4種自動(dòng)評(píng)測(cè)方法對(duì)模型進(jìn)行評(píng)價(jià)。首先,構(gòu)建了基準(zhǔn)模型(benchmark model),借助S2VT框架,使用GoogLeNet和ResNet-152模型在ImageNet和MSCOCO數(shù)據(jù)集上對(duì)其進(jìn)行訓(xùn)練優(yōu)化;然后在視頻上每隔10幀提取一次CNN特征,將其送入LSTM進(jìn)行“編碼”和“解碼”。

      此后,將本文所提模型DFS-CM(包括均值方式和最大值方式)和基準(zhǔn)模型在Youtube數(shù)據(jù)集上進(jìn)行了性能對(duì)比。結(jié)果如表1和表2所示,其分別為使用GoogLeNet和ResNet-152兩種CNN模型作為特征提取器得到的結(jié)果。通過(guò)對(duì)比可以發(fā)現(xiàn),無(wú)論是采用GoogLeNet還是ResNet-152模型特征,使用均值方式和最大值方式,其結(jié)果總體上都要好于基準(zhǔn)模型。尤其是在反映句子連貫性和語(yǔ)義豐富程度的B@4和CIDEr指標(biāo)上,在使用GoogLeNet特征和均值方式時(shí),在基準(zhǔn)模型的基礎(chǔ)上提升了1.4%和2.1%;在使用GoogLeNet特征和最大值方式時(shí),其值分別提升了1.9%和5.7%,效果更加明顯。在使用ResNet-152模型特征和均值方式時(shí),B@4和CIDEr比基準(zhǔn)模型分別提升了1.2%和0.5%;而使用最大值方式時(shí),則分別提升了1.1%和0.9%。但在METEOR指標(biāo)上,DFSCM模型優(yōu)勢(shì)并不明顯。

      Table 1 Performance comparison with GoogLeNet feature表1 GoogLeNet特征下的模型性能對(duì)比 %

      Table 2 Performance comparison with ResNet-152 feature表2 ResNet-152特征下的模型性能對(duì)比 %

      此外,本文還使用了啟發(fā)式集束搜索(beam search)方法生成候選句子,其集束池大小統(tǒng)一設(shè)置為5。各模型在GoogLeNet特征和ResNet-152特征下的實(shí)驗(yàn)結(jié)果分別如表3和表4所示。從統(tǒng)計(jì)數(shù)據(jù)可以看出,使用集束搜索后,基準(zhǔn)模型和本文所提DFSCM模型性能均有了極大提升。在使用GoogLeNet模型特征時(shí),無(wú)論是均值方式還是最大值方式,其模型性能在各個(gè)指標(biāo)上均有所提升。如在B@4上,兩種方式的性能均提升了4.5%,在CIDEr上分別提升了6.5%和8.5%,在METEOR和ROUGE_L上也表現(xiàn)良好。而在使用ResNet-152模型特征時(shí),在BLEU指標(biāo)上,本文模型兩種方法的性能也均超過(guò)了基準(zhǔn)模型,但在其他指標(biāo)上,表現(xiàn)欠佳。

      Table 3 Performance comparison with beam search(GoogLeNet feature)表3 集束搜索下的模型性能對(duì)比(GoogLeNet特征)%

      Table 4 Performance comparison with beam search(ResNet-152 feature)表4 集束搜索下的模型性能對(duì)比(ResNet-152特征)%

      通過(guò)對(duì)比也可以發(fā)現(xiàn),在本文模型所使用的兩種特征處理方法中,無(wú)論是使用集束搜索還是不使用集束搜索,使用最大值方式的模型性能在總體上要好于使用均值方式的模型。其可能的原因是,使用最大值方式能夠保留更多對(duì)詞匯的響應(yīng)信息,且能夠保持?jǐn)?shù)據(jù)的稀疏性,提升了模型的泛化能力。

      本文還將所提模型與目前其他主流方法的性能進(jìn)行了對(duì)比,結(jié)果如表5所示。可以發(fā)現(xiàn),本文模型在所有指標(biāo)上均超過(guò)了其他所列方法。在使用GoogLeNet模型特征時(shí),其B@4指標(biāo)達(dá)到了45.5%,超過(guò)了最高的LSTM-E模型;在METEOR指標(biāo)上達(dá)到了33.4%,超出最高的HRNE模型0.3%。在使用ResNet-152模型特征后,其B@4和METEOR則達(dá)到了47.1%和34.1%,分別超過(guò)以上兩種方法1.8%和1.0%。在B@1、B@2、B@3指標(biāo)上,本文模型同樣表現(xiàn)優(yōu)越。

      Table 5 Performance comparison between DFS-CM and other popular state-of-the-art methods表5 DFS-CM模型與其他主流方法的性能比較 %

      5 結(jié)論及下一步工作

      視頻標(biāo)題生成任務(wù)應(yīng)用廣泛,但由于需要使用多種計(jì)算機(jī)視覺(jué)技術(shù)和自然語(yǔ)言處理技術(shù),流程較為復(fù)雜,具有較高的挑戰(zhàn)性。隨著深度學(xué)習(xí)技術(shù)在多個(gè)視覺(jué)領(lǐng)域中取得突破性進(jìn)展,人們也開(kāi)始將其應(yīng)用在視頻標(biāo)題生成領(lǐng)域中,獲得了良好的效果,性能超過(guò)了傳統(tǒng)基于手工特征的模板填充方法。目前,基于深度CNN模型和LSTM相結(jié)合的框架已經(jīng)成為解決該問(wèn)題的主流,針對(duì)當(dāng)前方法中存在的視頻數(shù)據(jù)采樣不足而導(dǎo)致的信息丟失問(wèn)題,本文提出了一種使用固定間隔時(shí)間特征均值或最大值的方法,在S2VT模型的基礎(chǔ)上,使用了性能更加優(yōu)越的GoogLeNet和ResNet-152深度CNN模型,并改善了模型優(yōu)化策略,進(jìn)一步提升了模型性能,提高了生成句子的質(zhì)量。但通過(guò)實(shí)驗(yàn)結(jié)果也發(fā)現(xiàn),本文方法還存在著生成句子準(zhǔn)確度不夠,表達(dá)不夠靈活,語(yǔ)義仍待提升的問(wèn)題。因此,下一步工作將使用更多的視覺(jué)技術(shù),如目標(biāo)檢測(cè)、屬性分類等,提升描述對(duì)象的準(zhǔn)確度;同時(shí)也將在更大的數(shù)據(jù)集上對(duì)模型做進(jìn)一步的驗(yàn)證,使用更多的訓(xùn)練數(shù)據(jù),提高句子的表達(dá)能力和語(yǔ)義豐富程度。

      :

      [1]Venugopalan S,Rohrbach M,Donahue J,et al.Sequence to sequence-video to text[C]//Proceedings of the 2015 IEEE International Conference on Computer Vision,Santiago,Dec 13-16,2015.Washington:IEEE Computer Society,2015:4534-4542.

      [2]Pan Yingwei,Mei Tao,Yao Ting,et al.Jointly modeling embedding and translation to bridge video and language[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition,Las Vegas,Jun 27-30,2016.Washington:IEEE Computer Society,2016:4594-4602.

      [3]Thomason J,Venugopalan S,Guadarrama S,et al.Integrating language and vision to generate natural language descriptions of videos in the wild[C]//Proceedings of the 2014 International Conference on Computational Linguistics,Dublin,Aug 23-29,2014.Stroudsburg:ACL,2014:1218-1227.

      [4]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[C]//Proceedings of the 25th Annual Conference on Neural Information Processing Systems,Lake Tahoe,Dec 3-6,2012.Red Hook:CurranAssociates,2012:1097-1105.

      [5]Szegedy C,Liu Wei,Jia Yangqing,et al.Going deeper with convolutions[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition,Boston,Jun 7-12,2015.Washington:IEEE Computer Society,2015:1-9.

      [6]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual learning for image recognition[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition,Las Vegas,Jun 27-30,2016.Washington:IEEE Computer Society,2016:770-778.

      [7]Long J,Shelhamer E,Darrell T.Fully convolutional networks for semantic segmentation[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition,Boston,Jun 7-12,2015.Washington:IEEE Computer Society,2015:3431-3440.

      [8]Girshick R B,Donahue J,Darrell T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition,Columbus,Jun 23-28,2014.Washington:IEEE Computer Society,2014:580-587.

      [9]Venugopalan S,Xu Huijuan,Donahue J,et al.Translating videos to natural language using deep recurrent neural networks[C]//Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,Denver,May 31-Jun 5,2015.Stroudsburg:ACL,2015:1494-1504.

      [10]Pan Pingbo,Xu Zhongwen,Yang Yi,et al.Hierarchical recurrent neural encoder for video representation with application to captioning[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition,Las Vegas,Jun 27-30,2016.Washington:IEEE Computer Society,2016:1029-1038.

      [11]Yao Li,TorabiA,Cho K,et al.Describing videos by exploiting temporal structure[C]//Proceedings of the 2015 IEEE International Conference on Computer Vision,Santiago,Dec 7-13,2015.Washington:IEEE Computer Society,2015:4507-4515.

      [12]RohrbachA,TorabiA,Rohrbach M,et al.Movie description[J].International Journal of Computer Vision,2016,123(1):94-120.

      [13]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Delving deep into rectifiers:surpassing human-level performance on ImageNet classification[C]//Proceedings of the 2015 IEEE International Conference on Computer Vision,Santiago,Dec 7-13,2015.Washington:IEEE Computer Society,2015:1026-1034.

      [14]Lecun Y,Bottou L,Bengio Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.

      [15]Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition[C]//Proceedings of the International Conference on Learning Representations,San Diego,May 7-9,2015:1-14.

      [16]Donahue J,Hendricks L A,Rohrbach M,et al.Long-term recurrent convolutional networks for visual recognition and description[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2017,39(4):677-691.

      [17]Vinyals O,Toshev A,Bengio S,et al.Show and tell:a neural image caption generator[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition,Boston,Jun 7-12,2015.Washington:IEEE Computer Society,2015:3156-3164.

      [18]Xu K,Ba J,Kiros R,et al.Show,attend and tell:neural image caption generation with visual attention[C]//Proceedings of the 32nd International Conference on Machine Learning,Lille,Jul 6-11,2015:2048-2057.

      [19]Karpathy A,Li Feifei.Deep visual-semantic alignments for generating image descriptions[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition,Boston,Jun 7-12,2015.Washington:IEEE Computer Society,2015:3128-3137.

      [20]Bengio Y,Simard P Y,Frasconi P.Learning long-term dependencies with gradient descent is difficult[J].IEEE Transactions on Neural Networks,1994,5(2):157-166.

      [21]Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural Computation,1997,9(8):1735-1780.

      [22]Cho K,van Merri?nboer B,Gül?ehre ?,et al.Learning phrase representations using RNN encoder-decoder for statistical machine translation[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing,Doha,Oct 25-29,2014.Stroudsburg:ACL,2014:1724-1734.

      [23]Yao Kaisheng,Cohn T,Vylomova K,et al.Depth-gated LSTM[J/OL].arXiv:1508.03790,2015.

      [24]Bin Yi,Yang Yang,Shen Fumin,et al.Bidirectional long-short term memory for video description[C]//Proceedings of the 2016 ACM Conference on Multimedia Conference,Amsterdam,Oct 15-19,2016.New York:ACM,2016:436-440.

      [25]Wu Qi,Shen Chunhua,Liu Lingqiao,et al.What value do explicit high level concepts have in vision to language problems?[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition,Las Vegas,Jun 27-30,2016.Washington:IEEE Computer Society,2016:203-212.

      [26]Russakovsky O,Deng Jia,Su Hao,et al.ImageNet large scale visual recognition challenge[J].International Journal of Computer Vision,2015,115(3):211-252.

      [27]Lin T Y,Maire M,Belongie S J,et al.Microsoft COCO:common objects in context[C]//LNCS 8693:Proceedings of the 13th European Conference on Computer Vision,Zurich,Sep 6-12,2014.Berlin,Heidelberg:Springer,2014:740-755.

      [28]Chen D,Dolan W B.Collecting highly parallel data for paraphrase evaluation[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics,Portland,Jun 19-24,2011.Stroudsburg:ACL,2011:190-200.

      [29]Papineni K,Roukos S,Ward T,et al.Bleu:a method for automatic evaluation of machine translation[C]//Proceedings of the 40thAnnual Meeting of theAssociation for Computa-tional Linguistics,Philadelphia,Jul 6-12,2002.Stroudsburg:ACL,2002:311-318.

      [30]Banerjee S,Lavie A.METEOR:an automatic metric for MT evaluation with improved correlation with human judgments[C]//Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation,Ann Arbor,Jun 25-30,2005.Stroudsburg:ACL,2005:65-72.

      [31]Lin C Y,Och F J.Automatic evaluation of machine translation quality using longest common subsequence and skipbigram statistics[C]//Proceedings of the 42nd Annual Meeting of theAssociation for Computational Linguistics,Barcelona,Jul 21-26,2004.Stroudsburg:ACL,2004:605-612.

      [32]Vedantam R,Zitnick C L,Parikh D.CIDEr:consensus-based image description evaluation[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition,Boston,Jun 7-12,2015.Washington:IEEE Computer Society,2015:4566-4575.

      [33]Xu Huijuan,Venugopalan S,Ramanishka V,et al.A multiscale multiple instance video description network[J/OL].arXiv:1505.05914,2015.

      [34]Ballas N,Yao Li,Pal C,et al.Delving deeper into convolutional networks for learning video representations[C]//Proceedings of the International Conference on Learning Representations,San Diego,May 7-9,2015:1-11.

      [35]Venugopalan S,Hendricks LA,Mooney R J,et al.Improving LSTM-based video description with linguistic knowledge mined from text[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing,Austin,Nov 1-4,2016.Stroudsburg:ACL,2016:1961-1966.

      猜你喜歡
      均值特征圖像
      改進(jìn)的LapSRN遙感圖像超分辨重建
      有趣的圖像詩(shī)
      如何表達(dá)“特征”
      不忠誠(chéng)的四個(gè)特征
      抓住特征巧觀察
      均值不等式失效時(shí)的解決方法
      均值與方差在生活中的應(yīng)用
      關(guān)于均值有界變差函數(shù)的重要不等式
      對(duì)偶均值積分的Marcus-Lopes不等式
      線性代數(shù)的應(yīng)用特征
      河南科技(2014年23期)2014-02-27 14:19:15
      安阳县| 旌德县| 辽宁省| 佛山市| 荆门市| 外汇| 北辰区| 西贡区| 东至县| 宁阳县| 梅州市| 龙门县| 筠连县| 丰原市| 寿光市| 兴仁县| 安新县| 交城县| 建平县| 凤凰县| 齐河县| 英德市| 昌图县| 克什克腾旗| 大冶市| 陆良县| 湖北省| 达尔| 广安市| 郎溪县| 梁河县| 富源县| 万源市| 香格里拉县| 台前县| 揭东县| 扎赉特旗| 临汾市| 广昌县| 武邑县| 松阳县|