李雷霆,武光利,2,郭振洲
1.甘肅政法大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院,蘭州730070
2.西北民族大學(xué) 中國(guó)民族語(yǔ)言文字信息技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,蘭州730030
近年來(lái),隨著科技的不斷進(jìn)步,人們拍攝各種高質(zhì)量的視頻變得越來(lái)越方便,一部手機(jī)就可以滿足日常的視頻拍攝需求,人們也可以在網(wǎng)絡(luò)上找到各種各樣的視頻資源。由于視頻包含著復(fù)雜的圖像和音頻信息,它們常常數(shù)據(jù)量巨大,結(jié)構(gòu)復(fù)雜。面對(duì)大量的視頻數(shù)據(jù),快速知曉視頻的主要內(nèi)容成為當(dāng)下的一個(gè)熱門問(wèn)題。因此,分析和理解視頻內(nèi)容的自動(dòng)工具必不可少,視頻摘要便是幫助人們?yōu)g覽視頻數(shù)據(jù)的關(guān)鍵工具[1-2]。
視頻摘要,就是以視頻的結(jié)構(gòu)和內(nèi)容為主要分析目標(biāo),獲取其中有意義的片段,然后用特定的方法將片段拼接成能概括視頻內(nèi)容的視頻概要。視頻摘要根據(jù)不同的獲取方式可以分為兩類:靜態(tài)視頻摘要和動(dòng)態(tài)視頻摘要[3-4]。
靜態(tài)摘要是從視頻中抽取出若干幀組成幀集合,這些幀稱為關(guān)鍵幀,主要分為以下幾類:
(1)基于視頻聚類的關(guān)鍵幀提取方法。鏡頭聚類以聚類的方法為基礎(chǔ),對(duì)每個(gè)鏡頭進(jìn)行分析,然后將特征相近的幀劃分為一類,最后從每一類中按照一定方法選取關(guān)鍵幀。
(2)基于視頻幀信息的關(guān)鍵幀提取方法。這一類方法主要考慮視頻幀包含的特征信息,例如顏色、形狀、紋理等,通過(guò)特征信息的變化來(lái)選取關(guān)鍵幀。
(3)基于運(yùn)動(dòng)分析的關(guān)鍵幀提取方法。該類方法一般是計(jì)算光流得到運(yùn)動(dòng)量,然后選取運(yùn)動(dòng)量最小處作為關(guān)鍵幀。
動(dòng)態(tài)視頻摘要主要包括視頻鏡頭分割、視頻鏡頭評(píng)價(jià)、視頻鏡頭選擇。視頻鏡頭分割是將一個(gè)完整視頻切分成若干個(gè)短視頻,是動(dòng)態(tài)摘要的基礎(chǔ)。視頻鏡頭評(píng)價(jià)則是根據(jù)不同的方法計(jì)算出每個(gè)鏡頭的重要性。視頻鏡頭選擇需要根據(jù)具體的需求選擇合適的鏡頭組合成視頻摘要[5]。
對(duì)于視頻鏡頭的分割最初是通過(guò)圖像的視覺(jué)特征進(jìn)行分割,如根據(jù)像素值變化判斷邊界。
傳統(tǒng)基于視覺(jué)特征的鏡頭劃分方法對(duì)于非結(jié)構(gòu)化的視頻效果并不理想,因此涌現(xiàn)了許多基于視頻內(nèi)容的分割方法。Gygli等人[6]通過(guò)超幀來(lái)進(jìn)行視頻分割,并通過(guò)能量函數(shù)對(duì)視頻段進(jìn)行評(píng)價(jià)。Ngo等人[7]對(duì)結(jié)構(gòu)化視頻用譜聚類和時(shí)間圖分析來(lái)進(jìn)行場(chǎng)景建模,然后通過(guò)動(dòng)作注意建模來(lái)進(jìn)行重要視頻段的檢測(cè)。Potapov 等人[8]提出一種內(nèi)核時(shí)間分割算法,采用核變化點(diǎn)來(lái)檢測(cè)視頻幀的變化情況,在視頻幀突變的地方定義為鏡頭邊界。上述方法能較好地完成鏡頭劃分任務(wù)。
鏡頭劃分完成后,需要選擇出合適的鏡頭組合成摘要。目前較為先進(jìn)的方法是基于編碼器-解碼器架構(gòu),將輸入編碼為中間向量,然后解碼器根據(jù)中間向量解碼為需要的輸出序列。其中門限循環(huán)單元(gated recurrent unit,GRU)和長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)經(jīng)常用于解決循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)無(wú)法進(jìn)行遠(yuǎn)程依賴的問(wèn)題,廣泛應(yīng)用于各領(lǐng)域。Zhang 等人[9]利用LSTM 和行列式點(diǎn)過(guò)程(determinantal point process,DPP)選擇視頻幀的子集,有效提高了摘要的多樣性。Zhao 等人[10]用分層的LSTM來(lái)應(yīng)對(duì)長(zhǎng)的視頻序列。Huang等人[11]將LSTM與一維卷積和二維卷積結(jié)合進(jìn)行視頻摘要建模。Ji等人[12]將注意力機(jī)制與LSTM結(jié)合,通過(guò)注意力機(jī)制為不同幀分配權(quán)重。Vaswani 等人[13]使用注意力機(jī)制代替RNN,減少了模型復(fù)雜度,取得較好的效果。Zhou等人[14]首次提出用強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)視頻摘要技術(shù),同時(shí)設(shè)計(jì)了用于評(píng)估摘要多樣性和代表性的獎(jiǎng)勵(lì)函數(shù),使得模型能夠自主學(xué)習(xí)并選擇合適的摘要。李依依等人[15]將自注意力與強(qiáng)化學(xué)習(xí)結(jié)合,通過(guò)自注意力機(jī)制建模視頻幀的重要程度,提高了模型的學(xué)習(xí)效率。
為了提高預(yù)測(cè)的準(zhǔn)確性,同時(shí)考慮到視頻是具有連續(xù)的圖像這一特性,提出了一種包含編碼器-解碼器結(jié)構(gòu)的注意力機(jī)制和隨機(jī)森林回歸視頻摘要網(wǎng)絡(luò)(attention random forest summarization network,ARFSN)。編碼器采用預(yù)訓(xùn)練的GoogLeNet提取視頻幀的深度特征,同時(shí)對(duì)編碼器的輸出添加注意力機(jī)制,而解碼器部分則由LSTM 和隨機(jī)森林共同組成,LSTM 輸出視頻幀是否是重要幀的概率,考慮到輸出結(jié)果產(chǎn)生的損失值波動(dòng)對(duì)模型影響較大,因此將LSTM輸出結(jié)果映射為重要性分?jǐn)?shù)輸入到隨機(jī)森林進(jìn)行回歸預(yù)測(cè),最后將LSTM損失和隨機(jī)森林損失通過(guò)權(quán)重融合為最終損失進(jìn)行網(wǎng)絡(luò)訓(xùn)練。通過(guò)注意力機(jī)制加大對(duì)關(guān)鍵幀的權(quán)重,使得生成的摘要具有代表性,此外隨機(jī)森林的引入,能夠有效降低波動(dòng)帶來(lái)的影響,同時(shí)提升模型的預(yù)測(cè)準(zhǔn)確率,使得生成的摘要能更好地概括原視頻的內(nèi)容。
目前視頻摘要主要分為靜態(tài)視頻摘要和動(dòng)態(tài)視頻摘要,而動(dòng)態(tài)摘要主要基于關(guān)鍵鏡頭的選擇,此生成結(jié)果更具連貫性,因此本文重點(diǎn)討論動(dòng)態(tài)視頻摘要生成。
當(dāng)用戶想要快速了解視頻的內(nèi)容時(shí),注意力往往集中在那些令用戶感興趣、印象深刻的鏡頭或者視頻幀,這些鏡頭或者視頻幀極有可能被選為摘要,因此將注意力機(jī)制應(yīng)用到視頻摘要生成的任務(wù)中具有一定的可行性。
正如名字那樣,注意力機(jī)制模仿人類觀察時(shí)目光的注意力分布是不均勻的,因此在處理序列任務(wù)時(shí)通過(guò)注意力調(diào)整序列的權(quán)重,讓某些無(wú)關(guān)緊要的信息被過(guò)濾,突出關(guān)鍵信息,使得模型能夠更好地學(xué)習(xí)到重要的部分。
按照注意力的可微性,注意力機(jī)制可以分為硬注意力和軟注意力。硬注意力機(jī)制可以看作0/1 問(wèn)題,即某個(gè)區(qū)域要么重要,要么不重要,是不可微的,通常利用強(qiáng)化學(xué)習(xí)進(jìn)行模型優(yōu)化;軟注意力則是一個(gè)[0,1]區(qū)間的連續(xù)問(wèn)題,通過(guò)分配0 到1 之間的不同值來(lái)表示關(guān)注度的高低,是可微問(wèn)題,通常用反向傳播進(jìn)行模型優(yōu)化。對(duì)于視頻摘要生成任務(wù),本文將重點(diǎn)放在軟注意力上。
注意力機(jī)制最初在自然語(yǔ)言處理(natural language processing,NLP)領(lǐng)域大放異彩,如今越來(lái)越多的研究人員將其應(yīng)用到圖像和視頻領(lǐng)域。例如視頻摘要領(lǐng)域,在編碼解碼框架中運(yùn)用注意力機(jī)制完成視頻摘要任務(wù)。編碼部分通過(guò)LSTM實(shí)現(xiàn),解碼部分是基于注意力機(jī)制的LSTM網(wǎng)絡(luò),通過(guò)注意力機(jī)制不斷調(diào)整序列的權(quán)重,幫助模型更準(zhǔn)確選出摘要。Fajtl等人[16]用注意力機(jī)制替代循環(huán)神經(jīng)網(wǎng)絡(luò)。他們認(rèn)為在進(jìn)行人工標(biāo)注時(shí),標(biāo)注的重點(diǎn)是存在視覺(jué)注意力的,因此可以使用注意力來(lái)捕獲視頻幀序列之間的遠(yuǎn)程依賴關(guān)系,并調(diào)整序列的權(quán)重。
本文使用有監(jiān)督的學(xué)習(xí)來(lái)完成視頻摘要生成任務(wù),并設(shè)計(jì)了一個(gè)基于注意力機(jī)制和隨機(jī)森林回歸的視頻摘要網(wǎng)絡(luò),如圖1所示。該網(wǎng)絡(luò)通過(guò)GoogLeNet獲取視頻幀的特征,然后利用自注意力機(jī)制調(diào)整幀特征的權(quán)重并輸入到雙向LSTM預(yù)測(cè)幀的重要性得分,同時(shí)得到相應(yīng)的損失(記為loss1),然后將預(yù)測(cè)到的重要性分?jǐn)?shù)傳給隨機(jī)森林得到另一損失(記為loss2),最后通過(guò)權(quán)重將兩個(gè)損失融合得到最終的損失值(記為L(zhǎng)oss)。本文模型最終實(shí)現(xiàn)的是動(dòng)態(tài)視頻摘要,即基于鏡頭的摘要,因此需要將預(yù)測(cè)的幀級(jí)重要性分?jǐn)?shù)轉(zhuǎn)換為鏡頭分?jǐn)?shù),通過(guò)鏡頭分?jǐn)?shù)按照一定的準(zhǔn)則選擇合適鏡頭并組合成為視頻摘要。本文將視頻摘要任務(wù)看作是序列到序列的預(yù)測(cè)問(wèn)題,同時(shí)將自注意力機(jī)制與雙向LSTM 結(jié)合,并引入了隨機(jī)森林降低波動(dòng),提升穩(wěn)定性,使得本文方法預(yù)測(cè)效果更準(zhǔn)確,更容易完成對(duì)關(guān)鍵鏡頭的選取。
圖1 ARFSN模型結(jié)構(gòu)圖Fig.1 ARFSN model structure
圖像特征提取使用預(yù)訓(xùn)練的GoogLeNet模型,網(wǎng)絡(luò)深度共22 層,使用9 個(gè)Inception 結(jié)構(gòu),最終每幀圖像輸出1 024維特征。
前面提到將視頻摘要任務(wù)看作是序列到序列的過(guò)程。序列編碼是模型學(xué)習(xí)序列信息最常用的方式,序列編碼在建立長(zhǎng)距離依賴關(guān)系時(shí)經(jīng)常會(huì)出現(xiàn)梯度消失問(wèn)題,使用全連接網(wǎng)絡(luò)可以進(jìn)行遠(yuǎn)距離依賴關(guān)系的建模,但是無(wú)法處理變長(zhǎng)的序列,而自注意力機(jī)制能夠獲取全局信息,同時(shí)能夠動(dòng)態(tài)地為變長(zhǎng)序列分配不同的權(quán)重,因此在處理序列任務(wù)方面效果良好。
注意力機(jī)制,其實(shí)是通過(guò)一個(gè)和目標(biāo)相關(guān)的查詢向量q,計(jì)算與Key的注意力分布,然后添加到Value上,最后計(jì)算出注意力值。
假設(shè)一個(gè)視頻有N幀,由2.1節(jié)可知,[N,1 024]為視頻的維度大小,用x表示視頻的特征序列為x=x1,x2,…,xN。
對(duì)于注意力機(jī)制,令Key=Value=X,那么注意力分布的計(jì)算如下:
其中,s(Xi,q)為注意力打分函數(shù)。式(2)為加性模型,式(3)為點(diǎn)積模型,式(4)為縮放點(diǎn)積模型。
其中,v、w、u是可學(xué)習(xí)的網(wǎng)絡(luò)參數(shù),D是輸入向量的維度。文獻(xiàn)[12]分別采用了式(2)和式(3),實(shí)驗(yàn)結(jié)果表明點(diǎn)積模型效果優(yōu)于加性模型。
得到注意力分布后,便可以計(jì)算注意力值:
對(duì)于自注意力機(jī)制,令Key=Value=Query=X,計(jì)算過(guò)程如圖2所示,其中深色字母表示矩陣的維度。
圖2 自注意力模型的計(jì)算過(guò)程圖Fig.2 Self-attention model calculation process
對(duì)于序列輸入xi,通過(guò)線性關(guān)系進(jìn)行映射,得到3 個(gè)向量,分別是查詢向量qi,鍵向量ki,值向量vi。對(duì)于整個(gè)輸入序列X,線性映射可以寫(xiě)為:
其中,ωq、ωk、ωv分別為線性映射的參數(shù)矩陣,Q、K、V分別是查詢向量、鍵向量和值向量構(gòu)成的矩陣。
根據(jù)鍵值注意力機(jī)制公式可得:
其中,n,i∈[1,N]為輸出和輸入向量序列的位置,αnj表示第n個(gè)輸出關(guān)注到第j個(gè)輸入的權(quán)重,s(k,q)為注意力打分函數(shù),選用式(4)。
加性注意力和點(diǎn)積注意力復(fù)雜度相近,但加性注意力僅考慮將輸入序列相連,沒(méi)有考慮到輸入序列之間的內(nèi)部關(guān)系。而點(diǎn)積注意力能夠很好地利用矩陣乘法探索自注意力的內(nèi)在聯(lián)系,當(dāng)輸入向量的維度較高時(shí),點(diǎn)積模型會(huì)有較大的方差,縮放點(diǎn)積能夠較好地解決這個(gè)問(wèn)題。因此本文采用縮放點(diǎn)積模型來(lái)實(shí)現(xiàn)自注意力。
卷積神經(jīng)網(wǎng)絡(luò)輸出的深度特征經(jīng)過(guò)自注意力機(jī)制調(diào)整序列權(quán)重后輸入到雙向LSTM網(wǎng)絡(luò)中,雙向LSTM分別從正向和反向進(jìn)行計(jì)算,能夠充分獲取上下文信息。最后將模型預(yù)測(cè)重要性分?jǐn)?shù)與人工標(biāo)注通過(guò)均方誤差(mean squared error,MSE)損失函數(shù)計(jì)算損失:
其中,M為數(shù)據(jù)個(gè)數(shù),為模型預(yù)測(cè)值。
為了讓模型能進(jìn)一步減小預(yù)測(cè)值與期望值的差距,通過(guò)引入隨機(jī)森林來(lái)降低損失值優(yōu)化模型。具體來(lái)說(shuō),將LSTM 輸出結(jié)果經(jīng)由神經(jīng)網(wǎng)絡(luò)完成對(duì)視頻幀得分的回歸預(yù)測(cè)同時(shí)得到損失lossLSTM,之后將預(yù)測(cè)得分傳入隨機(jī)森林進(jìn)行回歸預(yù)測(cè)。隨機(jī)森林的一個(gè)優(yōu)點(diǎn)是:不需要進(jìn)行交叉驗(yàn)證或獨(dú)立測(cè)試集就能獲得誤差的無(wú)偏估計(jì)。因?yàn)殡S機(jī)森林在構(gòu)建樹(shù)時(shí)對(duì)訓(xùn)練數(shù)據(jù)采用bootstrap sample,對(duì)于每棵樹(shù)而言,大約有1/3的數(shù)據(jù)沒(méi)有參與到構(gòu)建樹(shù)的過(guò)程,這部分?jǐn)?shù)據(jù)為袋外數(shù)據(jù)(out of band,OOB),然后每棵樹(shù)利用袋外數(shù)據(jù)進(jìn)行預(yù)測(cè),每棵樹(shù)損失計(jì)算如式(8)所示,最終將預(yù)測(cè)結(jié)果求和取均值作為最終結(jié)果,如式(9)。
其中,k為樹(shù)的個(gè)數(shù)。
模型最終的損失Loss 由雙向LSTM 損失lossLSTM和隨機(jī)森林損失lossRF共同構(gòu)成,用于指導(dǎo)模型學(xué)習(xí)。通過(guò)簡(jiǎn)單的運(yùn)算將兩個(gè)損失進(jìn)行融合,盡可能最小化該損失值,使模型能夠更準(zhǔn)確地預(yù)測(cè)幀級(jí)重要性分?jǐn)?shù),合成更具代表性的視頻摘要。
其中,β是一個(gè)超參數(shù),訓(xùn)練過(guò)程中通過(guò)不斷調(diào)整β的大小來(lái)優(yōu)化模型。后續(xù)實(shí)驗(yàn)部分對(duì)此進(jìn)行了驗(yàn)證。
本文的研究?jī)?nèi)容是基于動(dòng)態(tài)視頻摘要技術(shù),而最終合成的摘要應(yīng)當(dāng)是視頻鏡頭的合集,模型輸出結(jié)果是幀級(jí)別重要性得分,因此需要將幀級(jí)分?jǐn)?shù)轉(zhuǎn)化為鏡頭分?jǐn)?shù)。首先需要對(duì)視頻進(jìn)行鏡頭劃分,使用在鏡頭分割方面效果優(yōu)異的內(nèi)核時(shí)間分割算法(kernel temporal segmentation,KTS)[8]對(duì)視頻執(zhí)行變點(diǎn)檢測(cè),并將視頻進(jìn)行鏡頭分段。由每幀重要性分?jǐn)?shù)得到鏡頭重要性分?jǐn)?shù)ci(式(11))。此外,根據(jù)Fajtl 等人[16]的建議,生成摘要的長(zhǎng)度限制為原始視頻長(zhǎng)度的15%,需要選擇最大化分?jǐn)?shù)的鏡頭,選擇滿足條件的鏡頭等價(jià)于NP(non-deterministic polynomial)難問(wèn)題,因此使用0/1 背包問(wèn)題中的動(dòng)態(tài)規(guī)劃算法來(lái)選擇合適鏡頭組成摘要(式(12))。
其中,ci為第i個(gè)鏡頭,Ni為第i個(gè)鏡頭包含的幀數(shù),si,j為第i個(gè)鏡頭中第j幀的分?jǐn)?shù)。ui∈{0,1}表示是否被選為關(guān)鍵鏡頭,K表示鏡頭的數(shù)量,L表示視頻的總幀數(shù)。
前面幾章已經(jīng)介紹了相關(guān)工作和本文模型的結(jié)構(gòu),本章將重點(diǎn)介紹實(shí)驗(yàn)過(guò)程的細(xì)節(jié),包括數(shù)據(jù)集、評(píng)價(jià)指標(biāo)、實(shí)驗(yàn)參數(shù)和對(duì)比分析。
3.1.1 數(shù)據(jù)集
本次實(shí)驗(yàn)主要在TvSum[17]和SumMe[6]兩個(gè)數(shù)據(jù)集上進(jìn)行,表1展示了它們的具體信息。
表1 兩個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集詳細(xì)信息Table 1 Details of two standard datasets
TvSum 數(shù)據(jù)集是驗(yàn)證視頻摘要技術(shù)的一個(gè)基準(zhǔn)。它包含了50 個(gè)來(lái)自YouTube 的視頻,這些視頻涉及到10個(gè)主題,每個(gè)主題包含5個(gè)視頻。Song等人[17]按照一定標(biāo)準(zhǔn),使用亞馬遜機(jī)器對(duì)視頻進(jìn)行標(biāo)注,標(biāo)注人員觀看完視頻后,對(duì)視頻幀進(jìn)行標(biāo)注得分,標(biāo)注得分從1(不重要)到5(重要)進(jìn)行選擇,圖3展示了數(shù)據(jù)集的部分圖像。
圖3 TvSum視頻圖像示例Fig.3 Sample of TvSum video image
SumMe 數(shù)據(jù)集也是視頻摘要技術(shù)研究常用的基準(zhǔn),它由25個(gè)視頻組成,視頻包含航飛、節(jié)假日、運(yùn)動(dòng)挑戰(zhàn)等多個(gè)主題。每個(gè)視頻由15~18個(gè)人進(jìn)行標(biāo)注,標(biāo)注結(jié)果分為重要(1)和不重要(0)。每個(gè)視頻的長(zhǎng)度為1~6 min,標(biāo)注是在可控環(huán)境下進(jìn)行的,適用于實(shí)驗(yàn)評(píng)估。圖4展示了數(shù)據(jù)集部分圖像。
圖4 SumMe視頻圖像示例Fig.4 Sample of SumMe video image
3.1.2 評(píng)價(jià)指標(biāo)
為了與其他方法進(jìn)行比較,按照文獻(xiàn)[9]中的評(píng)價(jià)方法,即通過(guò)對(duì)比模型生成的視頻摘要和人工選擇的視頻摘要的一致性來(lái)評(píng)估模型的性能,衡量指標(biāo)采用Fscore 值。假設(shè)S為模型生成的摘要,G為人工選擇的摘要,精準(zhǔn)率和召回率計(jì)算如下:
由式(13)、(14)可以計(jì)算出用于評(píng)估視頻摘要的Fscore。
3.1.3 實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)時(shí)對(duì)數(shù)據(jù)集進(jìn)行劃分,其中80%用于訓(xùn)練,余下20%用于測(cè)試??紤]到實(shí)驗(yàn)使用的兩個(gè)基準(zhǔn)數(shù)據(jù)集數(shù)據(jù)量較小,同時(shí)為了減少過(guò)擬合現(xiàn)象的出現(xiàn)和提升模型泛化能力,對(duì)數(shù)據(jù)集使用5 折交叉驗(yàn)證。此外,對(duì)于TvSum數(shù)據(jù)集,每一幀由20個(gè)人標(biāo)注,且該數(shù)據(jù)集中的視頻存在較多的鏡頭切換,標(biāo)注得分有差異明顯,因此對(duì)于TvSum數(shù)據(jù)集計(jì)算F-score時(shí),取20個(gè)人的平均值作為最終結(jié)果;而SumMe 數(shù)據(jù)集由15~18 個(gè)人進(jìn)行標(biāo)注,數(shù)據(jù)集中的視頻多為一鏡到底的,因此標(biāo)注得分近似,從而計(jì)算F-score時(shí)選取最大值作為最終結(jié)果。
3.2.1 消融實(shí)驗(yàn)
為了驗(yàn)證注意力機(jī)制和隨機(jī)森林回歸對(duì)算法的影響,本文在TvSum 和SumMe 數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)。其中A為注意力機(jī)制模塊,L為長(zhǎng)短期記憶網(wǎng)絡(luò)模塊,R為隨機(jī)森林回歸模塊。
由表2數(shù)據(jù)可以看出,使用不同模塊時(shí)得到的F-score明顯不同,當(dāng)注意力模塊A和隨機(jī)森林回歸模塊R同時(shí)使用時(shí),實(shí)驗(yàn)達(dá)到最優(yōu)效果。這表明本文提出的基于注意力機(jī)制和隨機(jī)森林回歸的方法確實(shí)能夠更準(zhǔn)確地預(yù)測(cè)視頻幀分?jǐn)?shù),從而精準(zhǔn)得到關(guān)鍵鏡頭,生成更具代表性的視頻摘要。
表2 兩個(gè)數(shù)據(jù)集上消融實(shí)驗(yàn)結(jié)果Table 2 Results of ablation experiment on two datasets %
3.2.2 對(duì)比實(shí)驗(yàn)
本文選擇了七種最新的基于監(jiān)督學(xué)習(xí)的視頻摘要模型進(jìn)行對(duì)比,如表3所示,對(duì)比數(shù)據(jù)均來(lái)自原始論文。
表3 實(shí)驗(yàn)結(jié)果對(duì)比Table 3 Comparison of experimental results %
(1)vsLSTM[9]使用雙向LSTM 為基礎(chǔ),建立過(guò)去和將來(lái)方向上的遠(yuǎn)程依賴,最后與多層感知器相結(jié)合。(2)dppLSTM[9]是在vsLSTM 的基礎(chǔ)上新增了行列式點(diǎn)過(guò)程,能夠增加生成摘要的多樣性。(3)SUM-GANsup[5]將變分自動(dòng)編碼器(variational auto-encoder,VAE)與生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,GAN)相結(jié)合,使鑒別器能夠獲得更多的語(yǔ)義信息。(4)DR-DSNsup[14]以強(qiáng)化學(xué)習(xí)為基礎(chǔ),代表性和豐富性作為獎(jiǎng)勵(lì)函數(shù)的限制條件。(5)SASUMsup[18]是融合語(yǔ)義信息的視頻摘要方法,通過(guò)將摘要轉(zhuǎn)換為文本信息,讓模型選擇具有豐富語(yǔ)音信息的摘要片段。(6)A-AVS[12]和M-AVS[12]是以編碼解碼為基礎(chǔ),將注意力機(jī)制與解碼器結(jié)合的視頻摘要方法,編碼部分由雙向LSTM 構(gòu)成,解碼部分由引入注意力的雙向LSTM構(gòu)成,其中A-AVS的注意力打分函數(shù)為加性模型,M-AVS 的注意力打分函數(shù)為點(diǎn)積模型。(7)CSNetsup[19]通過(guò)分塊跨步網(wǎng)絡(luò)將輸入特征分為兩個(gè)流(分塊和跨步),分塊能夠更好地考慮到局部信息,跨步則充分考慮全局的時(shí)序信息。
根據(jù)表3數(shù)據(jù)可知,本文方法在兩個(gè)基準(zhǔn)數(shù)據(jù)集上都取得了較好的效果。在TvSum 數(shù)據(jù)集上,本文方法F-score 值雖略低于基于注意力的方法M-AVS,但在SumMe數(shù)據(jù)集上,相比于M-AVS有著較大提升,實(shí)驗(yàn)結(jié)果表明了本文方法的可行性。由于SumMe數(shù)據(jù)集中的視頻多為結(jié)構(gòu)化視頻,即一個(gè)視頻由一個(gè)鏡頭完整記錄,場(chǎng)景變化??;而TvSum數(shù)據(jù)集中鏡頭多為用戶自主拍攝,有明顯的場(chǎng)景變換。由此可見(jiàn),本文模型ARFSN有較好的適用性,在處理結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)時(shí)都能取得不錯(cuò)的效果。
3.2.3 定性結(jié)果與分析
為了更好地直觀展示本文方法生成的視頻摘要質(zhì)量,以數(shù)據(jù)集TvSum中的視頻17為例,繪制它們真實(shí)分?jǐn)?shù)與預(yù)測(cè)分?jǐn)?shù)如圖5所示,圖中虛線表示人工選擇的真實(shí)分?jǐn)?shù),實(shí)線表示模型預(yù)測(cè)分?jǐn)?shù)。從圖5 可以看到,本文方法預(yù)測(cè)得分與人工打分變化趨勢(shì)基本一致,同時(shí)關(guān)鍵幀(高分幀)的預(yù)測(cè)更為準(zhǔn)確,且本文方法預(yù)測(cè)的關(guān)鍵幀得分更高,說(shuō)明模型更加關(guān)注了關(guān)鍵幀??偨Y(jié)來(lái)說(shuō),本文方法與人工摘要之間具有明確的關(guān)聯(lián)性,證明了本文方法的有效性。
圖5 分?jǐn)?shù)對(duì)比圖Fig.5 Score comparison chart
視頻17是TvSum數(shù)據(jù)集中關(guān)于“三明治制作”的一個(gè)視頻,如圖6所示。將模型得到視頻17的摘要與人工標(biāo)注得到的摘要進(jìn)行對(duì)比。圖7 展示了本文模型選擇的關(guān)鍵鏡頭的分布情況,淺色的柱狀條表示人工標(biāo)注的幀的重要性分?jǐn)?shù),深色柱狀條表示模型選擇的關(guān)鍵鏡頭,同時(shí)鏡頭的分布如圖中虛線所指??梢钥吹竭x擇的關(guān)鍵鏡頭基本涵蓋了視頻的開(kāi)頭、中部和結(jié)尾部分,選擇的鏡頭分?jǐn)?shù)也較高,表明本文方法選出的摘要具有一定的多樣性和代表性。
圖6 原始視頻片段Fig.6 Original video clip
圖7 本文方法選擇摘要結(jié)果分布圖Fig.7 Summary result distribution diagram of this paper method
2.3 節(jié)介紹了損失函數(shù)的融合,損失函數(shù)的好壞對(duì)模型能否準(zhǔn)確預(yù)測(cè)有著重要影響。在模型介紹時(shí),本文方法引入了隨機(jī)森林,將雙向LSTM和隨機(jī)森林融合使用的關(guān)鍵便是權(quán)重β,選擇合適的β便是本節(jié)重點(diǎn)討論的內(nèi)容。
圖8展示了不同權(quán)重對(duì)模型的影響程度。由圖(a)可知當(dāng)β=0.7 時(shí),模型在TvSum 數(shù)據(jù)集上達(dá)到最佳Fscore。由圖(b)可知當(dāng)β=0.6 時(shí),模型在SumMe 數(shù)據(jù)集上達(dá)到最佳F-score。整體來(lái)看,隨著β增加,F(xiàn)-score基本呈上升趨勢(shì),但達(dá)到0.6~0.7附近時(shí),β的增加會(huì)使得F-score 減小,因此對(duì)于LSTM 和隨機(jī)森林損失的占比,不宜過(guò)小也不宜過(guò)大。最終分別確定了兩個(gè)數(shù)據(jù)集上的最優(yōu)β為0.7 和0.6。由于TvSum 數(shù)據(jù)集多為經(jīng)過(guò)編輯的結(jié)構(gòu)化視頻,場(chǎng)景變換更豐富,增加隨機(jī)森林占比能夠較容易預(yù)測(cè)分?jǐn)?shù),因此對(duì)隨機(jī)森林的依賴較大即β較小。而SumMe 數(shù)據(jù)集多為未經(jīng)編輯的視頻,鏡頭變化少,隨機(jī)森林對(duì)其影響力較弱,因此β值較大。
圖8 權(quán)重β 對(duì)兩個(gè)數(shù)據(jù)集性能影響Fig.8 Influence of weight β on two datasets
在視頻摘要生成任務(wù)中,本文提出了一個(gè)基于自注意力機(jī)制和隨機(jī)森林的視頻摘要網(wǎng)絡(luò)。以現(xiàn)有的LSTM 模型為基礎(chǔ),通過(guò)注意力調(diào)整對(duì)關(guān)鍵幀的關(guān)注度,用隨機(jī)森林來(lái)提高模型預(yù)測(cè)重要性分?jǐn)?shù)的準(zhǔn)確度。同時(shí)基于編碼解碼器的框架,能夠很好地對(duì)輸入序列進(jìn)行轉(zhuǎn)換(尤其是基于時(shí)間序列的數(shù)據(jù)),讓模型可以計(jì)算出更有意義的結(jié)果。實(shí)驗(yàn)證明了本文方法的可行性,但這是僅在兩個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集下的結(jié)果,因此希望在未來(lái)的研究中,能夠擴(kuò)大視頻摘要的影響領(lǐng)域。目前來(lái)說(shuō),對(duì)于監(jiān)控視頻和網(wǎng)絡(luò)直播這兩方面,視頻摘要的研究相對(duì)較少,同時(shí)這兩方面也是當(dāng)下的熱門話題,未來(lái)將更深一步研究視頻摘要在監(jiān)控視頻和網(wǎng)絡(luò)直播中的應(yīng)用。