• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      結(jié)合局部獎勵機(jī)制的視頻摘要技術(shù)研究

      2021-06-11 10:17:00周娟平
      計算機(jī)工程與應(yīng)用 2021年11期
      關(guān)鍵詞:代表性注意力局部

      梅 鋒,周娟平,陸 璐

      1.廣東省廣播電視網(wǎng)絡(luò)股份有限公司中山分公司,廣東 中山528403 2.華南理工大學(xué) 計算機(jī)科學(xué)與工程學(xué)院,廣州510006

      隨著大數(shù)據(jù)時代的到來,視頻媒體應(yīng)用程序以前所未有的速度堆積起來。因此,如何有效地瀏覽、檢索和分析大量視頻成為越來越需要解決的問題。視頻摘要技術(shù)是解決以上問題的有效方法,它是從原始視頻中提取關(guān)鍵幀或關(guān)鍵鏡頭,以更簡潔的形式呈現(xiàn)視頻重要內(nèi)容的一種技術(shù),這樣可以加速用戶瀏覽和節(jié)省存儲空間。視頻摘要技術(shù)是一個具有很強(qiáng)的現(xiàn)實(shí)意義但在研究和行業(yè)中都有待探索的課題。它主要包括以下三個步驟(如圖1所示)。

      圖1 視頻摘要生成的一般過程

      首先,提取視頻幀的特征作為輸入序列,然后設(shè)計模型以預(yù)測視頻鏡頭重要性分?jǐn)?shù),最后,將關(guān)鍵鏡頭合成生成視頻摘要。

      傳統(tǒng)的視頻摘要技術(shù)主要是通過無監(jiān)督學(xué)習(xí)來實(shí)現(xiàn)的,包括聚類、圖模型、稀疏編碼等。盡管無監(jiān)督方法長期以來一直主導(dǎo)著視頻摘要領(lǐng)域,并且已經(jīng)開發(fā)了許多方法,但仍有一些不足之處。由于視頻摘要是一項(xiàng)主觀任務(wù)[1],因此無監(jiān)督學(xué)習(xí)難以實(shí)現(xiàn)面向用戶的視頻摘要。近年來,有監(jiān)督學(xué)習(xí)的視頻摘要方法引起了更多學(xué)者的關(guān)注[2-5]。有監(jiān)督學(xué)習(xí)是為了明確學(xué)習(xí)和總結(jié)人類選擇摘要的潛在標(biāo)準(zhǔn)。一般來說,有監(jiān)督的方法比無監(jiān)督的方法具有更好的性能[6]。

      目前最先進(jìn)的視頻摘要技術(shù)是基于編碼器-解碼器框架,該框架將輸入序列編碼為固定長度的中間向量,然后將其解碼為滿足任務(wù)要求的輸出序列。這是一個序列到序列的結(jié)構(gòu)化預(yù)測問題。編碼器和解碼器通常使用遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)技術(shù),該技術(shù)已實(shí)現(xiàn)且被證明是建模遠(yuǎn)程依賴問題的有效方法。長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)作為一種特殊的RNN,解決了梯度消失的問題,被廣泛用于視頻摘要領(lǐng)域[3,6-7]。其中文獻(xiàn)[3]中的研究是最有吸引力的,它利用行列式點(diǎn)過程(Determinant Point Process,DPP)選擇包含不同內(nèi)容的關(guān)鍵幀,從而提高視頻摘要的多樣性。此外,Ji等人[6]介紹了一種基于LSTM的注意力機(jī)制模型,為視頻幀分配不同的權(quán)重。

      以上所有編碼器/解碼器模型都已被證明是有效的,但是仍然存在很多缺陷。一方面,編碼器解碼器框架的計算復(fù)雜度很高,尤其是在使用雙向LSTM網(wǎng)絡(luò)的情況下[1]。另一方面,基于RNN的模型無法在訓(xùn)練示例中進(jìn)行并行化,使得模型在更長的視頻序列上的計算復(fù)雜度更高[8]。因此,Vaswani等人[8]通過使用注意力機(jī)制代替?zhèn)鹘y(tǒng)的RNN建立了解決seq2seq問題的整個模型框架,并取得了最好的結(jié)果。類似地,文獻(xiàn)[1]使用自注意機(jī)制和兩層全連接的神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)視頻摘要框架。注意力機(jī)制的優(yōu)點(diǎn)是能夠賦予視頻幀不同的權(quán)重一步捕獲全局信息,并忽略不相關(guān)的信息。

      Zhou等人[7]提出了使用強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)視頻摘要技術(shù),同時還考慮了生成摘要的多樣性和代表性。但由于模型是在整個視頻上評估摘要的多樣性和代表性獎勵,忽略了視頻序列中固有的時序關(guān)系,導(dǎo)致生成摘要缺乏故事情節(jié)的邏輯性。

      為了提高訓(xùn)練速度,同時考慮到視頻摘要的固有順序性質(zhì),提出了一種具有編碼器-解碼器結(jié)構(gòu)的注意力機(jī)制和局部獎勵視頻摘要網(wǎng)絡(luò)(ALRSN)。為了訓(xùn)練ALRSN模型,采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)對視頻幀進(jìn)行特征提取,而解碼器則是通過自注意力機(jī)制實(shí)現(xiàn)的神經(jīng)網(wǎng)絡(luò)。該模型的體系結(jié)構(gòu)使用簡單的矢量運(yùn)算來實(shí)現(xiàn),取代了復(fù)雜的RNN模型。即使在序列長度可變的情況下,也可以在訓(xùn)練過程中通過單次向前或向后運(yùn)行實(shí)現(xiàn)。模型的輸出結(jié)果是視頻幀被選擇作為摘要的概率。考慮到不應(yīng)該忽略順序數(shù)據(jù)的固有時間結(jié)構(gòu),把摘要結(jié)果的片段映射回原視頻中,并在局部范圍內(nèi)中評估摘要的性能,使摘要擁有原視頻的時序關(guān)系。其中,評估摘要性能的函數(shù)稱為局部獎勵函數(shù),該函數(shù)共同考慮了生成摘要的局部多樣性和局部代表性。在有限范圍內(nèi)(圖2),局部多樣性獎勵衡量被選視頻幀與其最近的幀之間的不相似程度,而局部代表性獎勵衡量視頻幀在局部范圍內(nèi)的獨(dú)特程度。這兩個局部獎勵相互作用,以促進(jìn)模型生成更多樣化和更具代表性的摘要。

      圖2 限制評估摘要性能的范圍

      綜上所述,本文的主要貢獻(xiàn)概括如下:

      (1)提出了一種基于自注意力機(jī)制和局部獎勵函數(shù)的視頻摘要框架。它比最新的視頻摘要算法結(jié)果更優(yōu),同時結(jié)構(gòu)更簡單,訓(xùn)練速度更快。

      (2)設(shè)計了局部獎勵函數(shù),在局部范圍內(nèi)實(shí)現(xiàn)視頻摘要的多樣性和代表性。

      1 相關(guān)工作

      根據(jù)最新的研究,視頻摘要有兩種主要展現(xiàn)形式:基于關(guān)鍵幀的靜態(tài)摘要和基于關(guān)鍵鏡頭的動態(tài)摘要。本文重點(diǎn)討論后者,主要步驟包括視頻內(nèi)容分析和摘要生成。

      1.1 有監(jiān)督方法

      根據(jù)視頻摘要的生成過程中是否需要標(biāo)記數(shù)據(jù),視頻摘要技術(shù)的研究可分為兩類:無監(jiān)督的和有監(jiān)督方法。有監(jiān)督方法可以直接從手動標(biāo)記的視頻摘要數(shù)據(jù)中學(xué)習(xí)選擇關(guān)鍵鏡頭的準(zhǔn)則,因此自動生成摘要的過程與人工摘要的決策過程相似,且更接近于人類的理解。Gygli等人[9]首先將視頻分割成超幀,然后結(jié)合低、中、高三個層次的特征對線性回歸模型進(jìn)行訓(xùn)練,從而預(yù)測興趣分?jǐn)?shù)。最后,通過最大化超幀的興趣分?jǐn)?shù)來選擇視頻摘要。此外,他們在后期的工作[2]中設(shè)計了一個多目標(biāo)函數(shù),使生成的摘要滿足興趣,代表性和一致性的評估標(biāo)準(zhǔn)。Wei等人[10]關(guān)注視頻摘要的語義信息,通過最小化所生成的摘要視頻描述語句與人類注釋文本之間的距離來選擇視頻鏡頭。Li等人[11]將視頻摘要表述為元學(xué)習(xí)問題,將每個視頻視為單一任務(wù),以便更好地利用從處理其他視頻的過程中學(xué)到的經(jīng)驗(yàn)和知識來處理新的視頻。Zhang等人[12]提出了一種擴(kuò)展的時態(tài)關(guān)系生成對抗網(wǎng)絡(luò),使用生成對抗網(wǎng)絡(luò)訓(xùn)練模型,并將LSTM與時態(tài)關(guān)系單元相結(jié)合,以捕獲不同時間窗口的長期依賴關(guān)系。

      1.2 注意力機(jī)制

      當(dāng)用戶選擇視頻摘要時,存在視覺注意力,即越受關(guān)注的鏡頭或視頻幀,越有可能被選中成為摘要。現(xiàn)有的一些工作試圖將注意力機(jī)制建模為摘要選擇的基礎(chǔ)。

      注意力機(jī)制關(guān)注于不同位置的編碼向量,并賦予序列不同的注意權(quán)重,從而提高了翻譯的準(zhǔn)確性。在以前的深度學(xué)習(xí)方法中,模型提取的信息以同等的重要性向后流動。如果可以提前知道一些先驗(yàn)信息,則可以基于這些信息抑制某些無效信息的流動,從而可以保留重要信息。注意機(jī)制的作用是學(xué)習(xí)模型不同部分的重要性,然后將它們結(jié)合起來。

      根據(jù)不同的計算方法,注意力機(jī)制可以分為硬注意力和軟注意力?;谲涀⒁饬C(jī)制的框架在機(jī)器翻譯、文本摘要和點(diǎn)擊率等領(lǐng)域表現(xiàn)突出。根據(jù)注意力關(guān)注的范圍不同,注意力機(jī)制又可以分為全局注意力和局部注意力。全局注意力類似于軟注意力,而局部注意力是軟注意力和硬注意力的組合,解決了硬注意力中不可分割模型的問題。對于具有注意力機(jī)制的視頻摘要,大多數(shù)方法都基于全局注意力。本文模型將重點(diǎn)放在局部信息上。

      在視頻摘要領(lǐng)域,Ji等人[6]提出了一種基于注意力機(jī)制的編解碼視頻摘要方法。編碼器是通過雙向LSTM實(shí)現(xiàn),而解碼器是基于注意力機(jī)制的LSTM網(wǎng)絡(luò)?;谧⒁饬C(jī)制的LSTM網(wǎng)絡(luò)可以自適應(yīng)地調(diào)整當(dāng)前狀態(tài)的注意權(quán)重,捕捉視頻序列的上下文信息,有助于提高模型選擇視頻摘要的準(zhǔn)確性。Fajtl等人[1]提出了使用注意力替代循環(huán)神經(jīng)網(wǎng)絡(luò),認(rèn)為人工選擇視頻摘要時存在視覺注意力,根據(jù)注意力不同捕捉視頻序列的相互依賴關(guān)系,并賦予視頻片段不同的權(quán)重。由于注意力機(jī)制的有效性和高效性,本文采用注意力機(jī)制探索視頻摘要問題。

      1.3 獎勵函數(shù)

      當(dāng)前,有些工作通過設(shè)計多目標(biāo)函數(shù),以優(yōu)化視頻摘要的通用標(biāo)準(zhǔn)實(shí)現(xiàn)。例如,Gygli等人[2]設(shè)計了多目標(biāo)函數(shù),以使生成的摘要滿足評估標(biāo)準(zhǔn),包括興趣、代表性和統(tǒng)一性。具體來說,他們將視頻摘要視為子集選擇問題,并通過優(yōu)化子模塊函數(shù)來學(xué)習(xí)線性組合。類似地,Li等人[4]設(shè)計了四個評估標(biāo)準(zhǔn),代表性、重要性、多樣性和故事性。然后,他們建立了一個評分函數(shù),將這四個標(biāo)準(zhǔn)與最大邊際算法線性地結(jié)合在一起。值得關(guān)注的是他們提出的框架對于編輯視頻摘要和原始視頻摘要都是通用的。此外,Zhou等人[7]設(shè)計了一種新的獎勵函數(shù),利用概率分布生成視頻摘要,然后計算生成摘要的多樣性和代表性。同樣,本文方法評估生成的摘要的多樣性和代表性,并進(jìn)一步考慮時間距離的程度,即評估范圍。

      2 模型

      將監(jiān)督視頻摘要任務(wù)看作是序列到序列(Seq2Seq)的預(yù)測問題,并設(shè)計了一個基于注意力機(jī)制和局部獎勵機(jī)制的視頻摘要網(wǎng)絡(luò)(ALRSN)。該網(wǎng)絡(luò)通過自注意力機(jī)制預(yù)測視頻幀的重要性得分,然后通過概率分布采樣生成視頻摘要,最后使用局部獎勵函數(shù)評估生成的摘要的多樣性和代表性。由于本文模型是實(shí)現(xiàn)動態(tài)視頻摘要,是基于鏡頭的視頻摘要,而模型的輸出結(jié)果是幀級重要性分?jǐn)?shù),因此通過算術(shù)平均將幀級重要性分?jǐn)?shù)轉(zhuǎn)換為鏡頭級別的重要性分?jǐn)?shù)。最后,選擇重要性分?jǐn)?shù)高的視頻鏡頭以形成視頻摘要。過去,序列到序列問題的常用方法是使用RNN網(wǎng)絡(luò),例如LSTM和GRU。與基于RNN的方法不同,本文方法使用注意力機(jī)制實(shí)現(xiàn),訓(xùn)練速度更快,模型簡單,更容易并行運(yùn)算。模型結(jié)構(gòu)如圖3所示。

      2.1 自注意力機(jī)制

      假設(shè)一個視頻有N個幀,并且每個幀都被預(yù)處理為特征向量(通過預(yù)訓(xùn)練的CNN)。將視頻特征序列表示為X=x1,x2,…,xN。本文的目標(biāo)是通過模型學(xué)習(xí)每個視頻幀的重要性分?jǐn)?shù),并選擇鏡頭的子集作為摘要。輸出的序列表示為Y=y1,y2,…,yN,其中yt∈[0,1)表示視頻中第t幀的重要性分?jǐn)?shù)。

      將視頻摘要看作序列到序列的學(xué)習(xí)過程。序列編碼是學(xué)習(xí)序列結(jié)構(gòu)信息的有效方法。它可以使用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)和注意力機(jī)制來實(shí)現(xiàn)。注意力機(jī)制是最快的方法,只需一步即可獲取全局信息,可以直接訪問序列中所有位置的信息(圖4(a))。計算方法是:

      公式(1)是Vaswani等人[8]提出的注意力模型的通用公式,其中attt表示視頻幀序列xt經(jīng)過注意力機(jī)制處理后的結(jié)果。A和B是用于計算相關(guān)性得分的不同序列。

      at和bi分別是A和B的項(xiàng),得分函數(shù)score用于計算A和B之間的相關(guān)性。

      圖3 ALRSN的模型結(jié)構(gòu)圖

      圖4 (a) 注意力機(jī)制模型

      圖4 (b)自注意力機(jī)制模型

      自注意力是一種特殊的注意力模型,當(dāng)A=B=X時(如圖4(b)所示),它可以捕捉序列的內(nèi)部依賴關(guān)系。用于計算自注意力相關(guān)性得分的得分函數(shù)可以寫成:

      有兩種方式來計算自注意力的相關(guān)性得分,加性注意(公式(4))和乘法注意(公式(5))。

      其中,t,i∈[0,N),Ua和Va是網(wǎng)絡(luò)權(quán)重矩陣,而ba是偏差。這些參數(shù)將在模型訓(xùn)練期間與其他參數(shù)一起調(diào)試。

      由于加法注意力僅連接視頻幀的序列,而沒有充分探索視頻幀之間的內(nèi)部關(guān)系。乘法注意力的表現(xiàn)更好,它探索了自我注意力的內(nèi)在聯(lián)系,并且更容易并行運(yùn)算[1,6],因此本文采用乘法注意力實(shí)現(xiàn)。

      一旦通過以上方法計算了相關(guān)性得分,就可以將其歸一化為注意力權(quán)重。

      在每個時間步t計算注意力權(quán)重,它反映了輸入視頻中第i個時間特征的重要性程度。然后,將具有注意權(quán)重的輸入特征進(jìn)行加權(quán)平均,可以得到結(jié)果上下文向量attt,該向量將用于最終幀得分回歸。

      最后,視頻幀得分回歸是由兩層神經(jīng)網(wǎng)絡(luò)構(gòu)成的。第一層由上下文向量和原始視頻序列的加權(quán)和實(shí)現(xiàn),這樣重要性分?jǐn)?shù)結(jié)果具有全局上下文信息,并根據(jù)注意力機(jī)制有選擇地聚合上下文。激活函數(shù)使用ReLU,然后將dropout設(shè)置為0.5以防止過擬合,最后進(jìn)行層歸一化。第二層具有相同的dropout和層歸一化層,激活函數(shù)由Sigmod實(shí)現(xiàn)。

      2.2 局部獎勵函數(shù)

      在訓(xùn)練期間,ALRSN模型將評估生成的視頻摘要的性能。一方面,將模型訓(xùn)練結(jié)果直接與人工摘要重要性分?jǐn)?shù)進(jìn)行比較。另一方面,通過局部獎勵函數(shù)來優(yōu)化模型。在模型不斷將期望與實(shí)際結(jié)果之間的損失最小化的同時,局部獎勵LR函數(shù)也使期望的獎勵回報最大化。一般而言,高質(zhì)量的視頻摘要應(yīng)該既多樣化,又能代表原始視頻的主要內(nèi)容。為此,受到Zhou等人[7]的啟發(fā),提出了一個局部獎勵函數(shù),用于評估所生成摘要的多樣性和代表性。首先,使用概率分布對注意力機(jī)制結(jié)果yt進(jìn)行采樣生成視頻摘要S。實(shí)現(xiàn)細(xì)節(jié)在公式(9)中定義。

      視頻幀之間的時間特征不應(yīng)該被忽略,因?yàn)樗鼈儗τ诠适虑楣?jié)的構(gòu)建至關(guān)重要。現(xiàn)有的大多數(shù)方法都是基于全局考慮,忽略了視頻序列固有的時間特性。為了解決這個問題,設(shè)計了一個具有局部多樣性和局部代表性的獎勵函數(shù)。具體來說,當(dāng)評估某個視頻鏡頭的多樣性和代表性時,僅選擇其前后的λ個視頻幀作為參考。λ控制時間距離的程度,即評估范圍,它是一個超參數(shù)。其中,λ1控制多樣性評估的范圍,λ2控制代表性評估的范圍。在本文的實(shí)驗(yàn)中,當(dāng)λ1=20,λ2=10,獲得最好的效果,實(shí)驗(yàn)部分將對此進(jìn)行說明。

      2.2.1 局部多樣性獎勵

      對模型結(jié)果進(jìn)行采樣并衡量生成視頻摘要的性能。局部多樣性表示視頻鏡頭在局部范圍內(nèi)與其他幀之間的不相似程度。越不相似,多樣性就越高。具體地,引入了基于時間特征的局部獎勵范圍參數(shù)λ。當(dāng)兩個幀的距離超過λ時,將忽略它們的多樣性,而僅考慮有限范圍內(nèi)的幀。這是因?yàn)楸疚恼J(rèn)為距離遙遠(yuǎn)的片段復(fù)現(xiàn)對視頻摘要的代表性是有重要意義的。最后,局部多樣性LRdiv計算為局部范圍內(nèi)視頻幀之間差異的平均值。具體實(shí)現(xiàn)如下所示:

      其中,ddiv是由公式(11)計算的差異函數(shù)。

      生成的視頻摘要S通過公式(9)采樣計算得出,ddiv表示選擇幀與附近幀之間的不相似函數(shù),這是局部多樣性。

      2.2.2 局部代表性獎勵

      代表性衡量生成的摘要能代表原始視頻的程度。為此,將代表性表示為密度問題。選擇一組中間點(diǎn),使視頻幀與最近的中間點(diǎn)之間的均方誤差最小。也就是說,視頻摘要中越多的幀到中間點(diǎn)的距離越小,則視頻鏡頭在整個視頻中所占的時間比例就越大,這樣的視頻摘要越具有代表性??紤]視頻序列的時間特征,僅將中間點(diǎn)與附近的視頻幀進(jìn)行比較。對于其他超出范圍的視頻幀,將代表性得分設(shè)置為最大值inf,這樣可以在公式(12)取最小值時忽略該幀。實(shí)驗(yàn)結(jié)果優(yōu)于不考慮時間特征的方法。將LRrep定義為公式(12),將drep定義為公式(13)。

      通過局部代表性獎勵函數(shù)LRrep,可以不斷鼓勵模型在特征空間中選擇聚類中心的視頻幀。

      2.3 函數(shù)合并

      局部獎勵函數(shù)LR由局部多樣性獎勵LRdiv和局部代表性獎勵LRrep組成,LRdiv和LRrep相互作用,共同指導(dǎo)ALRSN模型學(xué)習(xí)。具體來說,通過簡單的運(yùn)算把兩部分獎勵分?jǐn)?shù)融合形成最終的局部獎勵分?jǐn)?shù),通過最大化該獎勵分?jǐn)?shù),使模型選擇更具有多樣性和代表性的視頻摘要。

      在訓(xùn)練過程中,給LRdiv和LRrep賦予不同的重要性權(quán)重,由于β+θ=1,設(shè)置θ=1-β,并調(diào)整β的大小,β是一個超參,實(shí)驗(yàn)部分對此進(jìn)行了驗(yàn)證。

      2.4 重要性分?jǐn)?shù)轉(zhuǎn)換成視頻摘要

      動態(tài)視頻摘要的最終呈現(xiàn)是視頻鏡頭的子集,并且模型輸出結(jié)果是幀級別的重要性得分,因此需要將輸出結(jié)果轉(zhuǎn)換為鏡頭級的重要性分?jǐn)?shù)。首先,使用核時態(tài)分割算法(KTS)[13]對視頻執(zhí)行感知變點(diǎn)檢測并將其分段為視頻鏡頭,然后將鏡頭內(nèi)視頻幀的重要性分?jǐn)?shù)取平均值si作為鏡頭重要性分?jǐn)?shù)。由于視頻摘要是通過最大化鏡頭級別的重要性得分來生成的,因此使用0/1背包算法選擇重要性得分高的鏡頭組成摘要。此外,如文獻(xiàn)[1]中所示,將生成的摘要的總時長限制為原始視頻的15%(如公式(16)所示)。

      其中,yi,j代表在第i個鏡頭里第j幀的重要性得分,li是第i個鏡頭的長度。ui∈{0,1},ui=1代表第i個鏡頭被選入摘要,K表示鏡頭個數(shù),L表示視頻長總長度。

      3 實(shí)驗(yàn)結(jié)果和分析

      在上一章,已經(jīng)詳細(xì)介紹了模型的結(jié)構(gòu),接下來,首先介紹實(shí)驗(yàn)實(shí)現(xiàn)細(xì)節(jié),包括數(shù)據(jù)集、評估指標(biāo)和實(shí)驗(yàn)設(shè)置。然后,提供主要的實(shí)驗(yàn)結(jié)果和比較分析。接下來,提供模型生成的摘要結(jié)果以證明本文方法的優(yōu)勢。最后,進(jìn)行參數(shù)分析。

      3.1 實(shí)驗(yàn)設(shè)計

      3.1.1 數(shù)據(jù)集

      本文實(shí)驗(yàn)主要在TvSum[14]和SumMe[9]數(shù)據(jù)集上進(jìn)行,這是當(dāng)前僅有的適用于視頻摘要的標(biāo)記數(shù)據(jù)集。TvSum包含50個視頻,每個視頻都有20個用戶標(biāo)簽。SumMe包含25個視頻,每個視頻由15~18個用戶標(biāo)記。以上兩個數(shù)據(jù)集對于訓(xùn)練深度模型仍然很小。為了彌補(bǔ)這一缺陷,參考了Zhang等人[3]的論文,引入OVP[15]和YouTube[15]數(shù)據(jù)集作為增強(qiáng)訓(xùn)練數(shù)據(jù)集。表1提供了這四個數(shù)據(jù)集的詳細(xì)說明。

      表1 四個基準(zhǔn)數(shù)據(jù)集的詳細(xì)說明

      3.1.2 評價指標(biāo)

      為了直接與其他方法進(jìn)行比較,遵循其他方法的評價指標(biāo),并使用F值來評估本文模型的性能。F值表示精度和召回率的調(diào)和平均。公式如下:

      要獲得F值,必須同時計算精度和召回率。假設(shè)機(jī)器生成的視頻摘要為M,人工摘要為G,并且它們的重疊部分為O。精度和查全率的計算如下:

      3.1.3 實(shí)驗(yàn)設(shè)置

      根據(jù)Zhang等人[3]建議,對這兩個數(shù)據(jù)集使用5倍交叉驗(yàn)證,分為規(guī)范設(shè)置和增強(qiáng)設(shè)置。在規(guī)范的設(shè)置中,將為TvSum和SumMe數(shù)據(jù)集隨機(jī)生成五個訓(xùn)練組和測試組,其中80%的數(shù)據(jù)用于訓(xùn)練,剩余的20%用于測試。在增強(qiáng)設(shè)置中,80%仍用作訓(xùn)練集,其余用作測試集。以TvSum的增強(qiáng)設(shè)置為例,訓(xùn)練集包括SumMe、OVP和YouTube的所有樣本,以及80%的TvSum樣本,其余20%用作測試集。此外,如Fajtl等人[1]所建議,將視頻摘要限制為原始視頻長度的15%。根據(jù)Song等人[14]和Gygli等人[2]的研究,對TvSum數(shù)據(jù)集的每次訓(xùn)練取平均值,對SumMe數(shù)據(jù)集的訓(xùn)練取最大值。

      3.2 比較和分析

      3.2.1 對比實(shí)驗(yàn)

      選擇了七個最新的有監(jiān)督視頻摘要方法,與本文的ALRSN模型進(jìn)行比較。所選基準(zhǔn)算法的性能結(jié)果來自原始論文。(1)dppLSTM[3]使用LSTM建模視頻序列遠(yuǎn)程依賴關(guān)系,并使用DPP作為補(bǔ)充以增強(qiáng)視頻摘要的多樣性。(2)DR-DSNsup[7]是一個基于深度強(qiáng)化學(xué)習(xí)的視頻摘要網(wǎng)絡(luò),它同時考慮了生成摘要的多樣性和代表性。(3)SASUMsup[10]將生成摘要轉(zhuǎn)換成語義描述,并通過網(wǎng)絡(luò)選擇最具語義代表性的視頻片段。(4)AVS[6]是一種基于注意力機(jī)制的編解碼視頻摘要方法。編碼器是通過雙向LSTM實(shí)現(xiàn)的,而解碼器是引入注意力機(jī)制的LSTM網(wǎng)絡(luò)。其中,A-AVS基于加性注意力,M-AVS基于乘性注意。(5)DTR-GAN[12]實(shí)現(xiàn)了一種擴(kuò)展的時態(tài)關(guān)系生成對抗網(wǎng)絡(luò),將LSTM與時態(tài)關(guān)系單元相結(jié)合,以捕獲不同時間窗口的長期依賴關(guān)系,而模型訓(xùn)練則依賴于生成對抗網(wǎng)絡(luò)。(6)VASNet[1]實(shí)現(xiàn)了使用注意力機(jī)制來代替基于復(fù)雜RNN的視頻摘要方法。

      在表2中,無論是規(guī)范設(shè)置還是增強(qiáng)設(shè)置,本文方法都能在兩個數(shù)據(jù)集上實(shí)現(xiàn)更高的性能。具體來說,在TvSum數(shù)據(jù)集上,規(guī)范和增強(qiáng)設(shè)置分別提高了0.44個百分點(diǎn)和0.69個百分點(diǎn)。在SumMe中,規(guī)范設(shè)置和增強(qiáng)設(shè)置分別增加1個百分點(diǎn)和1.5個百分點(diǎn)。本文方法在SumMe數(shù)據(jù)集上獲得更高的性能可能是,相比于TvSum,本文的ALRSN模型可以從中提取更多的局部信息,而在TvSum中,大多數(shù)結(jié)果已經(jīng)接近人工摘要的性能。增強(qiáng)設(shè)置的結(jié)果比規(guī)范設(shè)置更好,因?yàn)橛懈嗫捎脭?shù)據(jù)共模型學(xué)習(xí),說明本文模型更適合應(yīng)用于大規(guī)模的數(shù)據(jù)集。值得一提的是,本文模型優(yōu)于過去的基于注意力機(jī)制的最佳方法VASNet[1],本文模型側(cè)重于具有局部多樣性和局部代表性的更多局部信息。

      表2 實(shí)驗(yàn)結(jié)果對比%

      3.2.2 摘要結(jié)果分析

      為了更直觀地比較重要性分?jǐn)?shù),在圖5中繪制了TvSum數(shù)據(jù)集視頻14的人工重要性分?jǐn)?shù)(紅色)和模型預(yù)測重要性分?jǐn)?shù)(藍(lán)色)。顯然,通過局部獎勵LR函數(shù),本文方法獲得更高的重要評分,而對于不重要的幀則更低。與人工重要性分?jǐn)?shù)進(jìn)行比較,可以看到它與機(jī)器摘要之間的明確關(guān)聯(lián),從而確認(rèn)了本文方法的有效性。

      圖5 視頻14的訓(xùn)練過程

      將視頻14最終的模型摘要結(jié)果與人工摘要進(jìn)行比較。這是一部關(guān)于給狗狗美容的視頻,從圖6可以看到機(jī)器選擇的視頻片段與視頻主題一致。此外,通過直方圖展示摘要結(jié)果在人工摘要中的分布情況。如圖7所示,用灰色顯示了人工重要性分?jǐn)?shù),而機(jī)器選擇的鏡頭用藍(lán)色表示,對應(yīng)的視頻幀顯示在下方,顯然機(jī)器生成的視頻摘要與真實(shí)摘要的峰值對齊,即模型選擇了人工重要性分?jǐn)?shù)較高的鏡頭,并覆蓋了整個視頻。

      3.3 參數(shù)分析

      在第2章中詳細(xì)描述了本文模型,該模型主要基于自注意力深度模型,并引入了局部獎勵函數(shù)。實(shí)際上,ALRSN的性能優(yōu)于F值中的現(xiàn)有方法,這可以從實(shí)驗(yàn)結(jié)果中看出。本章重點(diǎn)介紹模型的參數(shù)敏感性,包括LRdiv和LRrep的獎勵權(quán)重β和獎勵范圍λ。

      3.3.1 獎勵權(quán)重β

      在本小節(jié)中,分別關(guān)注局部代表性和多樣性的有效性,前者傾向于選擇不重復(fù)的視頻幀,而后者則試圖保留在視頻中出現(xiàn)時間長的視頻幀。通過共同指導(dǎo)模型選擇視頻幀的過程,這兩部分有助于鼓勵模型選擇高質(zhì)量的視頻幀,從而實(shí)現(xiàn)符合人類選擇的視頻摘要。

      圖6 視頻摘要結(jié)果展示

      圖7 模型選擇結(jié)果的分布情況

      圖8顯示了局部獎勵權(quán)重對模型結(jié)果的影響。觀測參數(shù)β從0~1之間變化,從圖中可以看出,權(quán)重分別設(shè)置為0.7和0.6可以在TvSum和SumMe數(shù)據(jù)集上獲得最好結(jié)果,F(xiàn)值分別為61.86%和50.71%。由公式(14)可知,β權(quán)重越高,表示多樣性越重要。從兩個數(shù)據(jù)集的結(jié)果來看,局部多樣性的重要程度高于代表性對測試數(shù)據(jù)的影響,這是由于被測視頻大多是主題明確,而內(nèi)容更豐富的摘要更符合人類選擇的標(biāo)準(zhǔn)。對比于SumMe數(shù)據(jù)集,TvSum數(shù)據(jù)集在β值較大時獲得最優(yōu)的結(jié)果,即多樣性的重要程度更高,這是因?yàn)門vSum的視頻更長(如表1所示),可以獲得更多內(nèi)容更豐富的片段作為摘要。此外,SumMe數(shù)據(jù)集的視頻大多是原始視頻,即未經(jīng)過編輯,存在大量冗余內(nèi)容,因此選擇代表性更高的片段更符合現(xiàn)實(shí)。

      圖8 獎勵權(quán)重β對兩個數(shù)據(jù)集性能的影響

      當(dāng)權(quán)重為0或1時,表示僅使用LRdiv或LRrep分別訓(xùn)練模型,作為本文模型對比的基線模型,分別用ALRSN_div和ALRSN_rep表示。表3顯示了詳細(xì)的訓(xùn)練結(jié)果。結(jié)果表明,將LRdiv和LRrep聯(lián)合訓(xùn)練,比單獨(dú)使用局部多樣性獎勵函數(shù)或局部代表性獎勵函數(shù)訓(xùn)練模型結(jié)果更優(yōu),這表明聯(lián)合訓(xùn)練可以更好地使ALRSN模型生成多樣且有代表性的高質(zhì)量視頻摘要。值得注意的是,單獨(dú)使用局部多樣性函數(shù)的結(jié)果比單獨(dú)使用局部代表性函數(shù)的結(jié)果更好,表明在這兩個數(shù)據(jù)集上局部多樣性的表現(xiàn)要好于局部代表性,模型更傾向于選擇內(nèi)容更豐富的片段作為摘要。

      表3 基準(zhǔn)模型訓(xùn)練結(jié)果對比%

      3.3.2 局部范圍λ

      在本小節(jié)中,關(guān)注于視頻摘要評估的范圍大小對模型結(jié)果的影響,通過此方法可以有效地關(guān)注視頻序列的時序關(guān)系。限制的多樣性評估的范圍為λ1,代表性的范圍為λ2。在圖9中可以清楚地看到,不同的局部獎勵范圍對模型結(jié)果的影響。圖9(a)表示不同范圍的局部多樣性(λ1)和局部代表性范圍(λ2=[10,20,30])對模型性能的影響,而圖9(b)相反。結(jié)果表明,當(dāng)局部多樣性范圍λ1設(shè)置為20且局部代表性范圍λ2設(shè)置為10時,F(xiàn)值最高。這可能是因?yàn)槭褂肒TS將視頻分割成鏡頭時,每個鏡頭平均為10幀,則代表性評估范圍在單個鏡頭內(nèi)最高,這符合鏡頭分割的設(shè)想。而對于多樣性評估范圍,鏡頭內(nèi)的變化比較平緩,至少在兩個鏡頭內(nèi)可以獲得更高的多樣性得分??紤]視頻序列固有的時序關(guān)系,將整個視頻限制在一定范圍內(nèi)以計算多樣性和代表性,結(jié)果優(yōu)于對應(yīng)的全局獎勵(范圍設(shè)置為最大,λ為inf)。局部多樣性是通過忽略兩個時間相距遙遠(yuǎn)幀之間的相似性來保證故事情節(jié)。局部代表性可以確保在一定范圍內(nèi)所選擇的視頻幀與其他幀距離最小,相當(dāng)于聚類的中心點(diǎn),并且它代表視頻的局部信息??紤]視頻序列的局部信息,可以使模型注意到更多有用的信息。

      圖9 改變局部獎勵函數(shù)的范圍對模型結(jié)果的影響

      4 結(jié)束語

      在這項(xiàng)工作中,提出了一個基于自注意力機(jī)制和局部獎勵機(jī)制視頻摘要網(wǎng)絡(luò)ALRSN。網(wǎng)絡(luò)可以代替復(fù)雜的RNN的網(wǎng)絡(luò)(例如具有LSTM的編碼器-解碼器模型),執(zhí)行序列到序列的轉(zhuǎn)換。實(shí)驗(yàn)結(jié)果表明,在有監(jiān)督的視頻摘要任務(wù)中,本文模型優(yōu)于現(xiàn)有方法。此外,分析了數(shù)據(jù)增強(qiáng)、局部獎勵權(quán)重和獎勵范圍對模型的影響。局部獎勵函數(shù)包括局部多樣性和局部代表性,它們共同引導(dǎo)模型選擇更符合人類標(biāo)簽的視頻摘要。鑒于本文的結(jié)果是可行的,提出了未來的研究方向??梢园l(fā)展更復(fù)雜的注意力機(jī)制以探索視頻中大量有用的信息。此外,情感分析是一個熱門的方向,為視頻摘要提供了更豐富的信息,這是未來將要考慮深入研究的方向。

      猜你喜歡
      代表性注意力局部
      國家級非遺項(xiàng)目代表性傳承人簡介
      讓注意力“飛”回來
      局部分解 巧妙求值
      非局部AB-NLS方程的雙線性B?cklund和Darboux變換與非線性波
      漳州市非物質(zhì)文化遺產(chǎn)代表性項(xiàng)目代表性傳承人名錄
      閩臺地區(qū)代表性道地藥材
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      非遺代表性傳承人
      ——勉沖·羅布斯達(dá)
      A Beautiful Way Of Looking At Things
      局部遮光器
      花垣县| 澄江县| 铜陵市| 建瓯市| 类乌齐县| 张北县| 阿克苏市| 温宿县| 星座| 西和县| 财经| 邯郸市| 清苑县| 多伦县| 灯塔市| 承德市| 乌鲁木齐县| 织金县| 永川市| 潮安县| 曲阜市| 平潭县| 太谷县| 田东县| 金坛市| 武邑县| 昭苏县| 筠连县| 文昌市| 金溪县| 精河县| 六枝特区| 祁东县| 司法| 绵阳市| 延吉市| 玛沁县| 塔河县| 边坝县| 北宁市| 安陆市|