李雷霆,武光利,2,郭振洲
1.甘肅政法大學 網(wǎng)絡空間安全學院,蘭州730070
2.西北民族大學 中國民族語言文字信息技術(shù)教育部重點實驗室,蘭州730030
近年來,隨著科技的不斷進步,人們拍攝各種高質(zhì)量的視頻變得越來越方便,一部手機就可以滿足日常的視頻拍攝需求,人們也可以在網(wǎng)絡上找到各種各樣的視頻資源。由于視頻包含著復雜的圖像和音頻信息,它們常常數(shù)據(jù)量巨大,結(jié)構(gòu)復雜。面對大量的視頻數(shù)據(jù),快速知曉視頻的主要內(nèi)容成為當下的一個熱門問題。因此,分析和理解視頻內(nèi)容的自動工具必不可少,視頻摘要便是幫助人們?yōu)g覽視頻數(shù)據(jù)的關(guān)鍵工具[1-2]。
視頻摘要,就是以視頻的結(jié)構(gòu)和內(nèi)容為主要分析目標,獲取其中有意義的片段,然后用特定的方法將片段拼接成能概括視頻內(nèi)容的視頻概要。視頻摘要根據(jù)不同的獲取方式可以分為兩類:靜態(tài)視頻摘要和動態(tài)視頻摘要[3-4]。
靜態(tài)摘要是從視頻中抽取出若干幀組成幀集合,這些幀稱為關(guān)鍵幀,主要分為以下幾類:
(1)基于視頻聚類的關(guān)鍵幀提取方法。鏡頭聚類以聚類的方法為基礎(chǔ),對每個鏡頭進行分析,然后將特征相近的幀劃分為一類,最后從每一類中按照一定方法選取關(guān)鍵幀。
(2)基于視頻幀信息的關(guān)鍵幀提取方法。這一類方法主要考慮視頻幀包含的特征信息,例如顏色、形狀、紋理等,通過特征信息的變化來選取關(guān)鍵幀。
(3)基于運動分析的關(guān)鍵幀提取方法。該類方法一般是計算光流得到運動量,然后選取運動量最小處作為關(guān)鍵幀。
動態(tài)視頻摘要主要包括視頻鏡頭分割、視頻鏡頭評價、視頻鏡頭選擇。視頻鏡頭分割是將一個完整視頻切分成若干個短視頻,是動態(tài)摘要的基礎(chǔ)。視頻鏡頭評價則是根據(jù)不同的方法計算出每個鏡頭的重要性。視頻鏡頭選擇需要根據(jù)具體的需求選擇合適的鏡頭組合成視頻摘要[5]。
對于視頻鏡頭的分割最初是通過圖像的視覺特征進行分割,如根據(jù)像素值變化判斷邊界。
傳統(tǒng)基于視覺特征的鏡頭劃分方法對于非結(jié)構(gòu)化的視頻效果并不理想,因此涌現(xiàn)了許多基于視頻內(nèi)容的分割方法。Gygli等人[6]通過超幀來進行視頻分割,并通過能量函數(shù)對視頻段進行評價。Ngo等人[7]對結(jié)構(gòu)化視頻用譜聚類和時間圖分析來進行場景建模,然后通過動作注意建模來進行重要視頻段的檢測。Potapov 等人[8]提出一種內(nèi)核時間分割算法,采用核變化點來檢測視頻幀的變化情況,在視頻幀突變的地方定義為鏡頭邊界。上述方法能較好地完成鏡頭劃分任務。
鏡頭劃分完成后,需要選擇出合適的鏡頭組合成摘要。目前較為先進的方法是基于編碼器-解碼器架構(gòu),將輸入編碼為中間向量,然后解碼器根據(jù)中間向量解碼為需要的輸出序列。其中門限循環(huán)單元(gated recurrent unit,GRU)和長短期記憶網(wǎng)絡(long short-term memory,LSTM)經(jīng)常用于解決循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network,RNN)無法進行遠程依賴的問題,廣泛應用于各領(lǐng)域。Zhang 等人[9]利用LSTM 和行列式點過程(determinantal point process,DPP)選擇視頻幀的子集,有效提高了摘要的多樣性。Zhao 等人[10]用分層的LSTM來應對長的視頻序列。Huang等人[11]將LSTM與一維卷積和二維卷積結(jié)合進行視頻摘要建模。Ji等人[12]將注意力機制與LSTM結(jié)合,通過注意力機制為不同幀分配權(quán)重。Vaswani 等人[13]使用注意力機制代替RNN,減少了模型復雜度,取得較好的效果。Zhou等人[14]首次提出用強化學習實現(xiàn)視頻摘要技術(shù),同時設(shè)計了用于評估摘要多樣性和代表性的獎勵函數(shù),使得模型能夠自主學習并選擇合適的摘要。李依依等人[15]將自注意力與強化學習結(jié)合,通過自注意力機制建模視頻幀的重要程度,提高了模型的學習效率。
為了提高預測的準確性,同時考慮到視頻是具有連續(xù)的圖像這一特性,提出了一種包含編碼器-解碼器結(jié)構(gòu)的注意力機制和隨機森林回歸視頻摘要網(wǎng)絡(attention random forest summarization network,ARFSN)。編碼器采用預訓練的GoogLeNet提取視頻幀的深度特征,同時對編碼器的輸出添加注意力機制,而解碼器部分則由LSTM 和隨機森林共同組成,LSTM 輸出視頻幀是否是重要幀的概率,考慮到輸出結(jié)果產(chǎn)生的損失值波動對模型影響較大,因此將LSTM輸出結(jié)果映射為重要性分數(shù)輸入到隨機森林進行回歸預測,最后將LSTM損失和隨機森林損失通過權(quán)重融合為最終損失進行網(wǎng)絡訓練。通過注意力機制加大對關(guān)鍵幀的權(quán)重,使得生成的摘要具有代表性,此外隨機森林的引入,能夠有效降低波動帶來的影響,同時提升模型的預測準確率,使得生成的摘要能更好地概括原視頻的內(nèi)容。
目前視頻摘要主要分為靜態(tài)視頻摘要和動態(tài)視頻摘要,而動態(tài)摘要主要基于關(guān)鍵鏡頭的選擇,此生成結(jié)果更具連貫性,因此本文重點討論動態(tài)視頻摘要生成。
當用戶想要快速了解視頻的內(nèi)容時,注意力往往集中在那些令用戶感興趣、印象深刻的鏡頭或者視頻幀,這些鏡頭或者視頻幀極有可能被選為摘要,因此將注意力機制應用到視頻摘要生成的任務中具有一定的可行性。
正如名字那樣,注意力機制模仿人類觀察時目光的注意力分布是不均勻的,因此在處理序列任務時通過注意力調(diào)整序列的權(quán)重,讓某些無關(guān)緊要的信息被過濾,突出關(guān)鍵信息,使得模型能夠更好地學習到重要的部分。
按照注意力的可微性,注意力機制可以分為硬注意力和軟注意力。硬注意力機制可以看作0/1 問題,即某個區(qū)域要么重要,要么不重要,是不可微的,通常利用強化學習進行模型優(yōu)化;軟注意力則是一個[0,1]區(qū)間的連續(xù)問題,通過分配0 到1 之間的不同值來表示關(guān)注度的高低,是可微問題,通常用反向傳播進行模型優(yōu)化。對于視頻摘要生成任務,本文將重點放在軟注意力上。
注意力機制最初在自然語言處理(natural language processing,NLP)領(lǐng)域大放異彩,如今越來越多的研究人員將其應用到圖像和視頻領(lǐng)域。例如視頻摘要領(lǐng)域,在編碼解碼框架中運用注意力機制完成視頻摘要任務。編碼部分通過LSTM實現(xiàn),解碼部分是基于注意力機制的LSTM網(wǎng)絡,通過注意力機制不斷調(diào)整序列的權(quán)重,幫助模型更準確選出摘要。Fajtl等人[16]用注意力機制替代循環(huán)神經(jīng)網(wǎng)絡。他們認為在進行人工標注時,標注的重點是存在視覺注意力的,因此可以使用注意力來捕獲視頻幀序列之間的遠程依賴關(guān)系,并調(diào)整序列的權(quán)重。
本文使用有監(jiān)督的學習來完成視頻摘要生成任務,并設(shè)計了一個基于注意力機制和隨機森林回歸的視頻摘要網(wǎng)絡,如圖1所示。該網(wǎng)絡通過GoogLeNet獲取視頻幀的特征,然后利用自注意力機制調(diào)整幀特征的權(quán)重并輸入到雙向LSTM預測幀的重要性得分,同時得到相應的損失(記為loss1),然后將預測到的重要性分數(shù)傳給隨機森林得到另一損失(記為loss2),最后通過權(quán)重將兩個損失融合得到最終的損失值(記為Loss)。本文模型最終實現(xiàn)的是動態(tài)視頻摘要,即基于鏡頭的摘要,因此需要將預測的幀級重要性分數(shù)轉(zhuǎn)換為鏡頭分數(shù),通過鏡頭分數(shù)按照一定的準則選擇合適鏡頭并組合成為視頻摘要。本文將視頻摘要任務看作是序列到序列的預測問題,同時將自注意力機制與雙向LSTM 結(jié)合,并引入了隨機森林降低波動,提升穩(wěn)定性,使得本文方法預測效果更準確,更容易完成對關(guān)鍵鏡頭的選取。
圖1 ARFSN模型結(jié)構(gòu)圖Fig.1 ARFSN model structure
圖像特征提取使用預訓練的GoogLeNet模型,網(wǎng)絡深度共22 層,使用9 個Inception 結(jié)構(gòu),最終每幀圖像輸出1 024維特征。
前面提到將視頻摘要任務看作是序列到序列的過程。序列編碼是模型學習序列信息最常用的方式,序列編碼在建立長距離依賴關(guān)系時經(jīng)常會出現(xiàn)梯度消失問題,使用全連接網(wǎng)絡可以進行遠距離依賴關(guān)系的建模,但是無法處理變長的序列,而自注意力機制能夠獲取全局信息,同時能夠動態(tài)地為變長序列分配不同的權(quán)重,因此在處理序列任務方面效果良好。
注意力機制,其實是通過一個和目標相關(guān)的查詢向量q,計算與Key的注意力分布,然后添加到Value上,最后計算出注意力值。
假設(shè)一個視頻有N幀,由2.1節(jié)可知,[N,1 024]為視頻的維度大小,用x表示視頻的特征序列為x=x1,x2,…,xN。
對于注意力機制,令Key=Value=X,那么注意力分布的計算如下:
其中,s(Xi,q)為注意力打分函數(shù)。式(2)為加性模型,式(3)為點積模型,式(4)為縮放點積模型。
其中,v、w、u是可學習的網(wǎng)絡參數(shù),D是輸入向量的維度。文獻[12]分別采用了式(2)和式(3),實驗結(jié)果表明點積模型效果優(yōu)于加性模型。
得到注意力分布后,便可以計算注意力值:
對于自注意力機制,令Key=Value=Query=X,計算過程如圖2所示,其中深色字母表示矩陣的維度。
圖2 自注意力模型的計算過程圖Fig.2 Self-attention model calculation process
對于序列輸入xi,通過線性關(guān)系進行映射,得到3 個向量,分別是查詢向量qi,鍵向量ki,值向量vi。對于整個輸入序列X,線性映射可以寫為:
其中,ωq、ωk、ωv分別為線性映射的參數(shù)矩陣,Q、K、V分別是查詢向量、鍵向量和值向量構(gòu)成的矩陣。
根據(jù)鍵值注意力機制公式可得:
其中,n,i∈[1,N]為輸出和輸入向量序列的位置,αnj表示第n個輸出關(guān)注到第j個輸入的權(quán)重,s(k,q)為注意力打分函數(shù),選用式(4)。
加性注意力和點積注意力復雜度相近,但加性注意力僅考慮將輸入序列相連,沒有考慮到輸入序列之間的內(nèi)部關(guān)系。而點積注意力能夠很好地利用矩陣乘法探索自注意力的內(nèi)在聯(lián)系,當輸入向量的維度較高時,點積模型會有較大的方差,縮放點積能夠較好地解決這個問題。因此本文采用縮放點積模型來實現(xiàn)自注意力。
卷積神經(jīng)網(wǎng)絡輸出的深度特征經(jīng)過自注意力機制調(diào)整序列權(quán)重后輸入到雙向LSTM網(wǎng)絡中,雙向LSTM分別從正向和反向進行計算,能夠充分獲取上下文信息。最后將模型預測重要性分數(shù)與人工標注通過均方誤差(mean squared error,MSE)損失函數(shù)計算損失:
其中,M為數(shù)據(jù)個數(shù),為模型預測值。
為了讓模型能進一步減小預測值與期望值的差距,通過引入隨機森林來降低損失值優(yōu)化模型。具體來說,將LSTM 輸出結(jié)果經(jīng)由神經(jīng)網(wǎng)絡完成對視頻幀得分的回歸預測同時得到損失lossLSTM,之后將預測得分傳入隨機森林進行回歸預測。隨機森林的一個優(yōu)點是:不需要進行交叉驗證或獨立測試集就能獲得誤差的無偏估計。因為隨機森林在構(gòu)建樹時對訓練數(shù)據(jù)采用bootstrap sample,對于每棵樹而言,大約有1/3的數(shù)據(jù)沒有參與到構(gòu)建樹的過程,這部分數(shù)據(jù)為袋外數(shù)據(jù)(out of band,OOB),然后每棵樹利用袋外數(shù)據(jù)進行預測,每棵樹損失計算如式(8)所示,最終將預測結(jié)果求和取均值作為最終結(jié)果,如式(9)。
其中,k為樹的個數(shù)。
模型最終的損失Loss 由雙向LSTM 損失lossLSTM和隨機森林損失lossRF共同構(gòu)成,用于指導模型學習。通過簡單的運算將兩個損失進行融合,盡可能最小化該損失值,使模型能夠更準確地預測幀級重要性分數(shù),合成更具代表性的視頻摘要。
其中,β是一個超參數(shù),訓練過程中通過不斷調(diào)整β的大小來優(yōu)化模型。后續(xù)實驗部分對此進行了驗證。
本文的研究內(nèi)容是基于動態(tài)視頻摘要技術(shù),而最終合成的摘要應當是視頻鏡頭的合集,模型輸出結(jié)果是幀級別重要性得分,因此需要將幀級分數(shù)轉(zhuǎn)化為鏡頭分數(shù)。首先需要對視頻進行鏡頭劃分,使用在鏡頭分割方面效果優(yōu)異的內(nèi)核時間分割算法(kernel temporal segmentation,KTS)[8]對視頻執(zhí)行變點檢測,并將視頻進行鏡頭分段。由每幀重要性分數(shù)得到鏡頭重要性分數(shù)ci(式(11))。此外,根據(jù)Fajtl 等人[16]的建議,生成摘要的長度限制為原始視頻長度的15%,需要選擇最大化分數(shù)的鏡頭,選擇滿足條件的鏡頭等價于NP(non-deterministic polynomial)難問題,因此使用0/1 背包問題中的動態(tài)規(guī)劃算法來選擇合適鏡頭組成摘要(式(12))。
其中,ci為第i個鏡頭,Ni為第i個鏡頭包含的幀數(shù),si,j為第i個鏡頭中第j幀的分數(shù)。ui∈{0,1}表示是否被選為關(guān)鍵鏡頭,K表示鏡頭的數(shù)量,L表示視頻的總幀數(shù)。
前面幾章已經(jīng)介紹了相關(guān)工作和本文模型的結(jié)構(gòu),本章將重點介紹實驗過程的細節(jié),包括數(shù)據(jù)集、評價指標、實驗參數(shù)和對比分析。
3.1.1 數(shù)據(jù)集
本次實驗主要在TvSum[17]和SumMe[6]兩個數(shù)據(jù)集上進行,表1展示了它們的具體信息。
表1 兩個標準數(shù)據(jù)集詳細信息Table 1 Details of two standard datasets
TvSum 數(shù)據(jù)集是驗證視頻摘要技術(shù)的一個基準。它包含了50 個來自YouTube 的視頻,這些視頻涉及到10個主題,每個主題包含5個視頻。Song等人[17]按照一定標準,使用亞馬遜機器對視頻進行標注,標注人員觀看完視頻后,對視頻幀進行標注得分,標注得分從1(不重要)到5(重要)進行選擇,圖3展示了數(shù)據(jù)集的部分圖像。
圖3 TvSum視頻圖像示例Fig.3 Sample of TvSum video image
SumMe 數(shù)據(jù)集也是視頻摘要技術(shù)研究常用的基準,它由25個視頻組成,視頻包含航飛、節(jié)假日、運動挑戰(zhàn)等多個主題。每個視頻由15~18個人進行標注,標注結(jié)果分為重要(1)和不重要(0)。每個視頻的長度為1~6 min,標注是在可控環(huán)境下進行的,適用于實驗評估。圖4展示了數(shù)據(jù)集部分圖像。
圖4 SumMe視頻圖像示例Fig.4 Sample of SumMe video image
3.1.2 評價指標
為了與其他方法進行比較,按照文獻[9]中的評價方法,即通過對比模型生成的視頻摘要和人工選擇的視頻摘要的一致性來評估模型的性能,衡量指標采用Fscore 值。假設(shè)S為模型生成的摘要,G為人工選擇的摘要,精準率和召回率計算如下:
由式(13)、(14)可以計算出用于評估視頻摘要的Fscore。
3.1.3 實驗設(shè)置
實驗時對數(shù)據(jù)集進行劃分,其中80%用于訓練,余下20%用于測試??紤]到實驗使用的兩個基準數(shù)據(jù)集數(shù)據(jù)量較小,同時為了減少過擬合現(xiàn)象的出現(xiàn)和提升模型泛化能力,對數(shù)據(jù)集使用5 折交叉驗證。此外,對于TvSum數(shù)據(jù)集,每一幀由20個人標注,且該數(shù)據(jù)集中的視頻存在較多的鏡頭切換,標注得分有差異明顯,因此對于TvSum數(shù)據(jù)集計算F-score時,取20個人的平均值作為最終結(jié)果;而SumMe 數(shù)據(jù)集由15~18 個人進行標注,數(shù)據(jù)集中的視頻多為一鏡到底的,因此標注得分近似,從而計算F-score時選取最大值作為最終結(jié)果。
3.2.1 消融實驗
為了驗證注意力機制和隨機森林回歸對算法的影響,本文在TvSum 和SumMe 數(shù)據(jù)集上進行了消融實驗。其中A為注意力機制模塊,L為長短期記憶網(wǎng)絡模塊,R為隨機森林回歸模塊。
由表2數(shù)據(jù)可以看出,使用不同模塊時得到的F-score明顯不同,當注意力模塊A和隨機森林回歸模塊R同時使用時,實驗達到最優(yōu)效果。這表明本文提出的基于注意力機制和隨機森林回歸的方法確實能夠更準確地預測視頻幀分數(shù),從而精準得到關(guān)鍵鏡頭,生成更具代表性的視頻摘要。
表2 兩個數(shù)據(jù)集上消融實驗結(jié)果Table 2 Results of ablation experiment on two datasets %
3.2.2 對比實驗
本文選擇了七種最新的基于監(jiān)督學習的視頻摘要模型進行對比,如表3所示,對比數(shù)據(jù)均來自原始論文。
表3 實驗結(jié)果對比Table 3 Comparison of experimental results %
(1)vsLSTM[9]使用雙向LSTM 為基礎(chǔ),建立過去和將來方向上的遠程依賴,最后與多層感知器相結(jié)合。(2)dppLSTM[9]是在vsLSTM 的基礎(chǔ)上新增了行列式點過程,能夠增加生成摘要的多樣性。(3)SUM-GANsup[5]將變分自動編碼器(variational auto-encoder,VAE)與生成對抗網(wǎng)絡(generative adversarial networks,GAN)相結(jié)合,使鑒別器能夠獲得更多的語義信息。(4)DR-DSNsup[14]以強化學習為基礎(chǔ),代表性和豐富性作為獎勵函數(shù)的限制條件。(5)SASUMsup[18]是融合語義信息的視頻摘要方法,通過將摘要轉(zhuǎn)換為文本信息,讓模型選擇具有豐富語音信息的摘要片段。(6)A-AVS[12]和M-AVS[12]是以編碼解碼為基礎(chǔ),將注意力機制與解碼器結(jié)合的視頻摘要方法,編碼部分由雙向LSTM 構(gòu)成,解碼部分由引入注意力的雙向LSTM構(gòu)成,其中A-AVS的注意力打分函數(shù)為加性模型,M-AVS 的注意力打分函數(shù)為點積模型。(7)CSNetsup[19]通過分塊跨步網(wǎng)絡將輸入特征分為兩個流(分塊和跨步),分塊能夠更好地考慮到局部信息,跨步則充分考慮全局的時序信息。
根據(jù)表3數(shù)據(jù)可知,本文方法在兩個基準數(shù)據(jù)集上都取得了較好的效果。在TvSum 數(shù)據(jù)集上,本文方法F-score 值雖略低于基于注意力的方法M-AVS,但在SumMe數(shù)據(jù)集上,相比于M-AVS有著較大提升,實驗結(jié)果表明了本文方法的可行性。由于SumMe數(shù)據(jù)集中的視頻多為結(jié)構(gòu)化視頻,即一個視頻由一個鏡頭完整記錄,場景變化?。欢鳷vSum數(shù)據(jù)集中鏡頭多為用戶自主拍攝,有明顯的場景變換。由此可見,本文模型ARFSN有較好的適用性,在處理結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)時都能取得不錯的效果。
3.2.3 定性結(jié)果與分析
為了更好地直觀展示本文方法生成的視頻摘要質(zhì)量,以數(shù)據(jù)集TvSum中的視頻17為例,繪制它們真實分數(shù)與預測分數(shù)如圖5所示,圖中虛線表示人工選擇的真實分數(shù),實線表示模型預測分數(shù)。從圖5 可以看到,本文方法預測得分與人工打分變化趨勢基本一致,同時關(guān)鍵幀(高分幀)的預測更為準確,且本文方法預測的關(guān)鍵幀得分更高,說明模型更加關(guān)注了關(guān)鍵幀。總結(jié)來說,本文方法與人工摘要之間具有明確的關(guān)聯(lián)性,證明了本文方法的有效性。
圖5 分數(shù)對比圖Fig.5 Score comparison chart
視頻17是TvSum數(shù)據(jù)集中關(guān)于“三明治制作”的一個視頻,如圖6所示。將模型得到視頻17的摘要與人工標注得到的摘要進行對比。圖7 展示了本文模型選擇的關(guān)鍵鏡頭的分布情況,淺色的柱狀條表示人工標注的幀的重要性分數(shù),深色柱狀條表示模型選擇的關(guān)鍵鏡頭,同時鏡頭的分布如圖中虛線所指??梢钥吹竭x擇的關(guān)鍵鏡頭基本涵蓋了視頻的開頭、中部和結(jié)尾部分,選擇的鏡頭分數(shù)也較高,表明本文方法選出的摘要具有一定的多樣性和代表性。
圖6 原始視頻片段Fig.6 Original video clip
圖7 本文方法選擇摘要結(jié)果分布圖Fig.7 Summary result distribution diagram of this paper method
2.3 節(jié)介紹了損失函數(shù)的融合,損失函數(shù)的好壞對模型能否準確預測有著重要影響。在模型介紹時,本文方法引入了隨機森林,將雙向LSTM和隨機森林融合使用的關(guān)鍵便是權(quán)重β,選擇合適的β便是本節(jié)重點討論的內(nèi)容。
圖8展示了不同權(quán)重對模型的影響程度。由圖(a)可知當β=0.7 時,模型在TvSum 數(shù)據(jù)集上達到最佳Fscore。由圖(b)可知當β=0.6 時,模型在SumMe 數(shù)據(jù)集上達到最佳F-score。整體來看,隨著β增加,F(xiàn)-score基本呈上升趨勢,但達到0.6~0.7附近時,β的增加會使得F-score 減小,因此對于LSTM 和隨機森林損失的占比,不宜過小也不宜過大。最終分別確定了兩個數(shù)據(jù)集上的最優(yōu)β為0.7 和0.6。由于TvSum 數(shù)據(jù)集多為經(jīng)過編輯的結(jié)構(gòu)化視頻,場景變換更豐富,增加隨機森林占比能夠較容易預測分數(shù),因此對隨機森林的依賴較大即β較小。而SumMe 數(shù)據(jù)集多為未經(jīng)編輯的視頻,鏡頭變化少,隨機森林對其影響力較弱,因此β值較大。
圖8 權(quán)重β 對兩個數(shù)據(jù)集性能影響Fig.8 Influence of weight β on two datasets
在視頻摘要生成任務中,本文提出了一個基于自注意力機制和隨機森林的視頻摘要網(wǎng)絡。以現(xiàn)有的LSTM 模型為基礎(chǔ),通過注意力調(diào)整對關(guān)鍵幀的關(guān)注度,用隨機森林來提高模型預測重要性分數(shù)的準確度。同時基于編碼解碼器的框架,能夠很好地對輸入序列進行轉(zhuǎn)換(尤其是基于時間序列的數(shù)據(jù)),讓模型可以計算出更有意義的結(jié)果。實驗證明了本文方法的可行性,但這是僅在兩個標準數(shù)據(jù)集下的結(jié)果,因此希望在未來的研究中,能夠擴大視頻摘要的影響領(lǐng)域。目前來說,對于監(jiān)控視頻和網(wǎng)絡直播這兩方面,視頻摘要的研究相對較少,同時這兩方面也是當下的熱門話題,未來將更深一步研究視頻摘要在監(jiān)控視頻和網(wǎng)絡直播中的應用。