中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)志碼:A
Unsupervised Video Summriztion Model Bsed on Multi-hed Concentrtion Mechnism
LI Yujie ,b , JIA Honn , LING Lia , ZHOU Wenkai°, JIANG Zhenga,DING Shuxue a,b , TAN Benying a,b (a.SchoolofArtificial Intelligence,b.KeyLaboratoryofArtificial IntellgenceAlgorithmEngineeringof Guangxi Universities,Guilin Universityof Electronic Technology,Guilin 541OO4,Guangxi,China)
Abstract:Toadressthelimitations of existing video summarization methods inestablishing long-range frame dependenciesand paralelized training,anovel unsupervisedvideosummarizationmodel basedonthe multi-headcentralized atention mechanism(MH-CASUM)was proposed.The multi-head atention mechanism was integrated intothecentralized atentionmodel,thelengthregularizationlossfunction wasimproved,andthelossthreshold formodelparameterselection was optimized.The uniquenessand diversityof video frames were leveraged to enrich thesummary information,thereby the video summarization task was more eficiently accomplished.The performanceofthe MH-CASUM model was validated through evaluation experiments on SumMe and TVSum datasets using F1 score,Kendall correlation coefficient,and Spearmancorrelationcoeffcient.Theresultsshow thatthe introductionofmulti-headatentionmechanismandthe improved method for loss threshold inmodel parameter selection significantly enhance thevideo summarization performance of the MH-CASUM model. Compared to the previously best-performing unsupervised video summarization model CASUM,the (2號(hào) F1 score of MH-CASUM on TVSum dataset is increased by 0.98% ,which proves its superiority and competitiveness in video summarization task.
Keywords: video summarization;attention mechanism;multi-head concentrated attention;unsupervised approach
隨著互聯(lián)網(wǎng)和信息技術(shù)的迅速發(fā)展,多媒體技術(shù)的廣泛應(yīng)用給人們的生活帶了極大的便利,同時(shí)視頻的“信息爆炸”也給人們帶來(lái)諸多不便[1]。據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的第53次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[2],截至2023年12月,我國(guó)短視頻用戶(hù)規(guī)模達(dá)10.92億,互聯(lián)網(wǎng)普及率達(dá) 77.5% 。雖然視頻制作者將視頻的不同部分在播放進(jìn)度條處打上節(jié)點(diǎn)和標(biāo)簽,以便觀眾快速定位,但面對(duì)海量的信息,人們還是會(huì)感到難以應(yīng)對(duì)。由于尋找所需信息的成本可能遠(yuǎn)遠(yuǎn)超過(guò)信息本身的價(jià)值,因此,視頻摘要技術(shù)就顯得尤為重要,它能幫助人們更高效地獲取信息。視頻摘要通過(guò)提取視頻中的關(guān)鍵信息,形成一個(gè)較短的視頻或視頻故事以便于人們快速了解原視頻的主要內(nèi)容。人工處理視頻摘要任務(wù)需要花費(fèi)大量時(shí)間和精力,且過(guò)程十分枯燥,由此產(chǎn)生的自動(dòng)視頻摘要技術(shù)可以大幅度提高工作效率,符合當(dāng)今信息化社會(huì)的迫切需求
早期的視頻摘要方法主要依賴(lài)于傳統(tǒng)的閾值、聚類(lèi)3或基于支配集4的關(guān)鍵幀提取。隨著深度學(xué)習(xí)的發(fā)展,基于深度學(xué)習(xí)的視頻摘要方法開(kāi)始興起,深度學(xué)習(xí)的研究與發(fā)展為計(jì)算機(jī)視覺(jué)以及視頻摘要領(lǐng)域注人了源源不斷的活力與動(dòng)力,為研究者們提供了更多探索和創(chuàng)新的方向。Zhou等[5]基于強(qiáng)化學(xué)習(xí)開(kāi)發(fā)了一個(gè)深度學(xué)習(xí)視頻摘要模型(DSN),將視頻摘要形式化為一個(gè)順序決策過(guò)程,并通過(guò)一個(gè)端到端、基于強(qiáng)化學(xué)習(xí)的框架進(jìn)行訓(xùn)練。Chen等[在后續(xù)的研究中發(fā)現(xiàn),傳統(tǒng)的基于強(qiáng)化學(xué)習(xí)的視頻摘要方法存在獎(jiǎng)勵(lì)稀疏且難以收斂的問(wèn)題,因此提出一種弱監(jiān)督的分層強(qiáng)化學(xué)習(xí)框架。Zhu等[7]提出了一種基于錨的從檢測(cè)到匯總的有監(jiān)督視頻摘要模型框架(DSNet)。Apostolidis 等[8]還提出了一個(gè)將演員(Actor)-評(píng)論家(Critic)模型嵌入到生成對(duì)抗網(wǎng)絡(luò)中的視頻摘要方法,設(shè)計(jì)的訓(xùn)練流程可以理解為演員與評(píng)論家參加一個(gè)游戲并從中逐步選擇視頻關(guān)鍵幀,他們?cè)谟螒蛑械拿恳徊蕉紩?huì)使判別器給出一組獎(jiǎng)勵(lì)。
注意力機(jī)制的發(fā)展也為視頻摘要任務(wù)帶來(lái)了新的視角。Ghauri等[9]提出多源視覺(jué)注意力(MSVA)視頻摘要深度學(xué)習(xí)模型,展示了該領(lǐng)域的新視角。Ji等[10]將視頻摘要視為序列到序列的問(wèn)題來(lái)解決,開(kāi)發(fā)了基于注意力的深度模型編碼器-解碼器網(wǎng)絡(luò)(AVS),包括加法模型A-AVS、乘法模型M-AVS,編碼器使用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bi-LSTM)來(lái)編碼輸入視頻幀的上下文信息,解碼器使用加法、乘法目標(biāo)函數(shù)研究框架中的LSTM網(wǎng)絡(luò),在選擇關(guān)鍵幀方面更貼近人類(lèi)的方式。Zhong等[1將更高層次的視覺(jué)特征與Bi-LSTM處理的語(yǔ)義特征結(jié)合,提出了用圖注意力網(wǎng)絡(luò)來(lái)調(diào)整Bi-LSTM的模型。針對(duì)LSTM網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)復(fù)雜、計(jì)算量大的問(wèn)題,F(xiàn)ajtl等[12]提出一種基于自注意力機(jī)制的視頻摘要模型。Jung等[13]在變分自編碼器(VAE)-生成對(duì)抗網(wǎng)絡(luò)(GAN)架構(gòu)的基礎(chǔ)上加以擴(kuò)展與改進(jìn),通過(guò)引入定制的注意力機(jī)制提出了一種通過(guò)引入塊和跨度的網(wǎng)絡(luò)(CSNet)和定制的差異注意力機(jī)制,用來(lái)評(píng)估不同時(shí)間粒度下幀之間的依賴(lài)性。Jung 等[14]引入一種用于估計(jì)幀重要性的方法,結(jié)合建模幀間相對(duì)位置的算法,通過(guò)分解幀序列來(lái)捕獲局部和全局依賴(lài)關(guān)系。Apostolidis 等[15-16]在無(wú)監(jiān)督視頻摘要(SUM)-GAN-sl模型的基礎(chǔ)上提出了改進(jìn)的SUM-GAN-對(duì)抗自編碼器(AAE)模型,使用確定性自動(dòng)編碼器替換變分自動(dòng)編碼器,從而提高了模型性能和訓(xùn)練速度。He等[17]提出的基于自注意力機(jī)制的GAN,生成器預(yù)測(cè)幀級(jí)重要性分?jǐn)?shù),判別器則區(qū)分加權(quán)和原始幀特征,使用條件特征選擇器引導(dǎo)模型將注意力集中于重要時(shí)間區(qū)域。
此外,多層變換器(Transformer)模型在自然語(yǔ)言處理領(lǐng)域的成功應(yīng)用也啟發(fā)了視頻摘要領(lǐng)域的研究。基于注意力機(jī)制的Transformer模型[18]解決了循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)模型長(zhǎng)距離視頻幀依賴(lài)性的建模缺陷和無(wú)法并行化的問(wèn)題。受到Transformer模型的啟發(fā),Dosovitskiy等[19提出了VisionTrans-former(ViT)并應(yīng)用于計(jì)算機(jī)視覺(jué)領(lǐng)域[20-21],自注意力是ViT的核心。與卷積神經(jīng)網(wǎng)絡(luò)(CNN)和RNN相比,自注意力復(fù)雜度更小同,參數(shù)更少,可以并行處理,解決了使用RNN存在的問(wèn)題。Apostolidis等[22提出利用集中注意力機(jī)制和幀的唯一性與多樣性進(jìn)行視頻摘要的CA-SUM方法。該方法集成了集中注意力機(jī)制來(lái)專(zhuān)注注意力矩陣主對(duì)角線中的非重疊塊,并通過(guò)提取和利用幀的唯一性與多樣性的信息來(lái)完成視頻摘要任務(wù)。該機(jī)制涉及高度可并行化的矩陣乘法運(yùn)算,考慮了整個(gè)幀序列,并且可以在單個(gè)正向和反向過(guò)程中易于訓(xùn)練,視頻幀的唯一性與多樣性豐富了已有的信息,減少了大量參數(shù),可以更好地評(píng)估視頻中不同部分幀的重要性。
當(dāng)前基于無(wú)監(jiān)督的方法盡管解決了視頻摘要標(biāo)簽獲取成本昂貴的問(wèn)題,但現(xiàn)有的視頻摘要方法仍存在無(wú)法有效建立長(zhǎng)距離幀依賴(lài)性和并行化訓(xùn)練困難等問(wèn)題。為了解決這些問(wèn)題,本文中提出一種基于多頭集中注意力機(jī)制的無(wú)監(jiān)督視頻摘要(MH-CASUM)模型。其中,集中注意力包括提取注意力矩陣中相關(guān)視頻幀的唯一性與多樣性信息并生成一個(gè)塊對(duì)角稀疏注意力矩陣來(lái)豐富視頻摘要。集中注意力機(jī)制能夠?qū)崿F(xiàn)高度可并行化的矩陣乘法運(yùn)算。本文中還改進(jìn)了長(zhǎng)度正則化損失函數(shù),優(yōu)化損失閾值以選擇模型參數(shù),結(jié)合視頻幀的唯一性與多樣性以豐富摘要信息,更有效地完成視頻摘要任務(wù)。多頭注意力機(jī)制將注意力矩陣劃分為多個(gè)子矩陣,經(jīng)過(guò)處理再連接,能夠更好地獲取注意力矩陣中重要的內(nèi)容,很好地建立長(zhǎng)距離幀依賴(lài)性,并減少大量學(xué)習(xí)參數(shù)。視頻幀的唯一性通過(guò)注意力矩陣的每一行的熵來(lái)計(jì)算,而多樣性通過(guò)所選幀之間的余弦相似度來(lái)計(jì)算,通過(guò)對(duì)多個(gè)注意力矩陣的唯一性和多樣性的關(guān)注,使得MH-CASUM模型能夠更好地優(yōu)化視頻幀信息,最終得出的視頻摘要更接近人類(lèi)需要的摘要結(jié)果的同時(shí),內(nèi)容更豐富有趣。最后在SumMe[23]和 TVSum[24] 數(shù)據(jù)集上的實(shí)驗(yàn)評(píng)估MH-CASUM模型的性能,利用Kendall相關(guān)系數(shù)和Spearman相關(guān)系數(shù)25]檢驗(yàn)MH-CASUM模型生成的視頻摘要的內(nèi)容與人類(lèi)需要的摘要內(nèi)容的相關(guān)性。
1 MH-CASUM模型
基于集中注意力機(jī)制的無(wú)監(jiān)督視頻摘要(CASUM)模型原本使用RNN來(lái)建模視頻幀間的長(zhǎng)距離依賴(lài)關(guān)系。本文中通過(guò)將多頭注意力機(jī)制融入CASUM模型,并改進(jìn)原有的長(zhǎng)度正則化損失函數(shù),顯著提升了模型性能。具體步驟是,先對(duì)輸入數(shù)據(jù)進(jìn)行線性變換,分別生成查詢(xún)矩陣 、鍵矩陣 K 和值矩陣 V ,并將其輸入多頭注意力機(jī)制進(jìn)行處理。該機(jī)制不僅能有效建模長(zhǎng)距離幀依賴(lài)關(guān)系,還能實(shí)現(xiàn)訓(xùn)練過(guò)程的并行化,同時(shí)相較于原始RNN結(jié)構(gòu),能夠大幅減少模型所需學(xué)習(xí)的參數(shù)量。此外,通過(guò)設(shè)置多個(gè)注意力頭,模型能夠從多個(gè)子空間充分學(xué)習(xí)視頻幀信息,從而增強(qiáng)了整體模型的穩(wěn)定性和魯棒性。此外,本文中在模型參數(shù)選擇過(guò)程中加入了損失閾值,選擇性能最優(yōu)的模型,最終完成無(wú)監(jiān)督視頻摘要任務(wù)。
基于多頭集中注意力機(jī)制的無(wú)監(jiān)督視頻摘要模型總體框架如圖1所示。框架包括多頭集中注意力模塊以及模型參數(shù)選擇2個(gè)部分。最后在訓(xùn)練產(chǎn)生的一系列模型中選擇一個(gè)性能最佳的模型用于無(wú)監(jiān)督的視頻摘要任務(wù)。
1.1 多頭集中注意力模塊
圖2所示為MH-CASUM中多頭集中注意力模塊的工作流程。
X={xt}t=1T 是經(jīng)過(guò)卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型預(yù)訓(xùn)練的一組視頻幀特征向量,其中 xt 為視頻幀序列中第 χt 幀的特征向量, T 為視頻幀的數(shù)量, Z={zt}t=1T 為經(jīng)多頭注意力模塊輸出的特征向量,并且將原始特征向量 X={xt}t=1T 通過(guò)殘差連接添加到其中(殘差連接即如圖2中的 符號(hào)操作),然后將此操作的結(jié)果 W={wt}Ωt=1T 送人Dropout層,再經(jīng)過(guò)一個(gè)歸一化層被送入回歸網(wǎng)絡(luò)中,最后生成一組重要性分?jǐn)?shù)
)來(lái)表示視頻幀的重要性程度,其中 yt 表示為視頻幀序列中第 χt 幀的重要性分?jǐn)?shù)。
在多頭注意力機(jī)制中, 表示查詢(xún)操作,用于在視頻幀上查找特定區(qū)域或關(guān)鍵點(diǎn), K 表示關(guān)鍵點(diǎn),用于表示視頻幀中的特征點(diǎn)或特征區(qū)域, V 表示視頻幀中的特征值??紤]到視頻幀中的某個(gè)位置可能只包含了很小一部分的信息,但是這一部分的信息對(duì)于視頻幀的理解可能有重要的作用,因此本文中使用多頭注意力機(jī)制提高模型關(guān)注視頻幀不同位置的能力,聯(lián)合來(lái)自不同的頭部學(xué)習(xí)到的信息,同時(shí)也實(shí)現(xiàn)了長(zhǎng)距離幀依賴(lài)性的建模。相較于自注意力機(jī)制,多頭注意力機(jī)制對(duì)視頻幀的處理能夠得到更多、更有效的信息。自注意力機(jī)制將
與 K 進(jìn)行相似度計(jì)算,求出的相似度值歸一化后會(huì)生成一組相似度向量,也稱(chēng)相似度權(quán)重,而 V 表示的是單個(gè)輸入視頻幀特征的向量,將 V 乘以這一組相似度權(quán)重得到關(guān)注的視頻幀位置的輸入特征,最后得到視頻幀級(jí)重要性分?jǐn)?shù)。多頭注意力機(jī)制將輸人特征平均分為8個(gè)部分,每個(gè)部分的計(jì)算過(guò)程和自注意力機(jī)制的計(jì)算過(guò)程一致,將每個(gè)部分計(jì)算得到的幀級(jí)重要性分?jǐn)?shù)拼接起來(lái),即可得到與輸人特征維度相同的幀級(jí)重要性分?jǐn)?shù)。多頭注意力機(jī)制融合了同一注意力池化產(chǎn)生的不同的信息,這些信息源于相同的 K 、
的不同子空間表示,使模型關(guān)注視頻幀不同方面的特征信息,因此降低了每個(gè)部分中
的維度,減少計(jì)算中維度的特征信息的損耗,并且可以在一定程度上防止過(guò)擬合的發(fā)生。
多頭注意力機(jī)制計(jì)算公式[18]如下:
fmh(Q,K,V)=fc(Oh,1,Oh,2,…,Oh,h)Wo,
Oh,i=fatl(QWiQ,KWiK,VWiV),
式中:函數(shù) fmh(?) 表示整個(gè)機(jī)制的輸出,它通過(guò)拼接函數(shù) fc(?) 和注意力計(jì)算函數(shù) fatt(?) 來(lái)處理; Oh,i 為每個(gè)注意力頭 h 的第 i 個(gè)輸出; Wo 為用于將多頭注意力的輸出連接并映射回原始維度的變化矩陣,能夠?qū)⒍鄠€(gè)注意力頭的結(jié)果合并成一個(gè)輸出, Wo∈ ddim 為視頻幀的特征維度,多頭注意力中的值向量的維度 dv=ddim/h ; WiQ 、 WiK 、 WiV 分別為第 i 個(gè)注意力頭的查詢(xún)變化矩陣、鍵變化矩陣和值變化矩陣,
,
, WiV∈ R R‘dimdk,多頭注意力中的鍵向量dk=dim/h。
最終,所有注意力頭的輸出通過(guò)拼接函數(shù)合并,并通過(guò)權(quán)重矩陣 Wo 進(jìn)行線性變換,得到多頭注意力機(jī)制的最終輸出,以形成多個(gè)子空間,將輸入向量映射到不同的子空間中,進(jìn)而豐富了信息的特征表達(dá)。
對(duì)于自注意力塊稀疏矩陣的相關(guān)計(jì)算仍然使用CASUM模型的計(jì)算方法,其中 T 為視頻幀的數(shù)量,M 為矩陣塊的尺寸, N 為矩陣塊的數(shù)量, ut 和 dt 分別為第 Ψt 幀的注意力獨(dú)特性和注意力多樣性的值。該算法的輸入是一組幀特征向量 X={xt}t=1T ,這些向量通過(guò)3個(gè)不同的線性變換層,分別轉(zhuǎn)換成查詢(xún)矩陣 Q={qt}t=1T ,鍵矩陣 K={kt}t=1T 和值矩陣 V= {νt}t=1T 。這些矩陣被劃分為8個(gè)部分,每個(gè)部分分別送入自注意力模塊。在模塊內(nèi)部,查詢(xún)矩陣 和鍵矩陣 K 通過(guò)矩陣乘法計(jì)算得到初步的注意力分?jǐn)?shù),然后通過(guò)歸一化層(softmax)處理,最終得到注意力特征矩陣 A={ai,j}i,j=1T 。注意力特征矩陣 A 中的元素 ai,j 表示第 i 個(gè)查詢(xún)向量 qi 與第 j 個(gè)鍵向量kj 之間的注意力權(quán)重,這個(gè)權(quán)重表示了在生成輸出時(shí),第 j 個(gè)特征向量對(duì)第 i 個(gè)特征向量的影響程度。通過(guò)計(jì)算輸入矩陣 A 的每一行的熵來(lái)估計(jì)每個(gè)幀的注意力獨(dú)特性 ut ,公式為
u=|e|1,
式中: ei 為注意力矩陣 A 第 i 行的熵; 為注意力特征矩陣 A 中第 i 行第 χt 列的元素; e 為由每一行的熵 ei 組成的列向量;
為使用所有行熵 ei 的1范數(shù)對(duì)熵矩陣 e 進(jìn)行歸一化后的結(jié)果,其中 |e|1 表示對(duì)每一行的熵 ei 組成的矩陣求1范數(shù)。
對(duì)于塊對(duì)角稀疏矩陣中的每一個(gè)塊,通過(guò)計(jì)算除當(dāng)前塊之外的幀的加權(quán)不相似性 D 的平均值來(lái)估計(jì)塊上每個(gè)幀的注意力多樣性 dt ,公式為
式中: D(b,l) 為第 l 幀中第 b 個(gè)塊的不相性似值;xb 為第 Φt 幀中第 b 個(gè)塊的特征向量; xl 為第 ξl 幀的特征向量,其中 ξl 是除當(dāng)前塊之外的幀的索引;|xb|2 和 |xl|2 分別為向量 Δxb 和向量 xl 的2范數(shù)(歐幾里得范數(shù)); db 為第 Ψt 幀中第 b 個(gè)塊的注意力多樣性; ab,l 為注意力分?jǐn)?shù)。
根據(jù)不相似性值 D(b,l) 和注意力分?jǐn)?shù) ab,l 可以計(jì)算塊級(jí)注意力多樣性 db ,然后聚合所有的塊級(jí)注意力多樣性得到幀級(jí)注意力多樣性 dt 。隨后,將幀的注意力多樣性 dι 與輸入矩陣 A 的對(duì)應(yīng)塊相加(2 (bi,j=ai,j+dj) 得到一個(gè)新的矩陣輸出 B={bi,j}i,j=1T ,其中, bi,j 是新矩陣 中的第 i 行第 j 列的元素,是原始注意力分?jǐn)?shù) a(i,j) 與注意力多樣性 dj 的和。最后將這個(gè)新矩陣
與注意力值矩陣 V 相乘,并將幀注意力的獨(dú)特性 ut 和多樣性 dι 連接到它的末尾,作為多頭稀疏矩陣中每一頭的輸出。將多個(gè)注意力頭全部連接起來(lái)得到該模塊的輸出 Z={zt}t=1T 。
在模型訓(xùn)練過(guò)程中,將輸出的幀級(jí)重要性分?jǐn)?shù)通過(guò)改進(jìn)文獻(xiàn)[26]中深度網(wǎng)絡(luò)模型的長(zhǎng)度正則化損失函數(shù)計(jì)算損失 Lreg 。
式中 σ 為長(zhǎng)度正則化因子,可調(diào)超參數(shù)。
最后采用反向傳播和梯度更新來(lái)優(yōu)化模型參數(shù),提高模型視頻摘要的能力。
1. 2 模型參數(shù)選擇中的損失閾值
在模型訓(xùn)練的過(guò)程中,將隨機(jī)劃分好的訓(xùn)練集和測(cè)試集輸入到模型中,訓(xùn)練400個(gè)批次,并將每個(gè)批次的訓(xùn)練損失值保存,用于選擇最佳的模型參數(shù)。為了能夠選擇到一個(gè)性能最佳的視頻摘要模型參數(shù),需要一個(gè)選擇最佳模型參數(shù)的準(zhǔn)則,傳統(tǒng)參數(shù)選擇準(zhǔn)則是選取損失最小的批次所對(duì)應(yīng)的模型參數(shù);但是單純考慮損失最小可能無(wú)法得到最佳的模型參數(shù),存在一定的局限性,導(dǎo)致模型過(guò)度擬合訓(xùn)練數(shù)據(jù)而無(wú)法泛化新數(shù)據(jù),因此在模型參數(shù)選擇的過(guò)程中應(yīng)當(dāng)過(guò)濾掉一部分損失值。本文中的模型參數(shù)選擇方法是設(shè)置損失閾值 ,對(duì)損失值加以限制以選擇到最優(yōu)的模型參數(shù)。
式中: γ 為選擇的最佳的模型參數(shù); L(θ) 為模型訓(xùn)練過(guò)程中的損失值。
圖3所示為MH-CASUM模型參數(shù)選擇的具體過(guò)程及損失閾值的使用方法。
2 實(shí)驗(yàn)
2. 1 數(shù)據(jù)集
分別使用SumMe數(shù)據(jù)集[23]和TVSum數(shù)據(jù)集[24]來(lái)評(píng)估本文模型的性能。SumMe數(shù)據(jù)集包含25個(gè)視頻摘要,視頻時(shí)間為 1~6min 。TVSum數(shù)據(jù)集包含50個(gè)不同類(lèi)型的視頻摘要(如新聞、紀(jì)錄片等),視頻時(shí)間為 1~11min ,每個(gè)視頻包含20個(gè)幀級(jí)重要性評(píng)分(分值1為不重要,分值5為非常重要,以此類(lèi)推)。
2.2 評(píng)估方法
性能評(píng)估基于2種不同的評(píng)估方法:方法1是目前大多數(shù)現(xiàn)有視頻摘要技術(shù)采用的評(píng)估方法,通過(guò)機(jī)器生成的視頻摘要 A 和用戶(hù)標(biāo)注的視頻摘要 B 之間的時(shí)間重疊關(guān)系[27],首先針對(duì)用戶(hù)摘要計(jì)算出精確率 P 和召回率 R ,計(jì)算 F1 值。
式中:n表示 A 與 B 之間的重合部分; ∥?∥ 表示的是時(shí)間長(zhǎng)度。
方法2采用Kendall相關(guān)系數(shù)和Spearman相關(guān)系數(shù)[25]評(píng)價(jià)。
式中: τ 為Kendall相關(guān)系數(shù); ρ 為 Spearman 相關(guān)系數(shù); c 為視頻幀的相同對(duì)數(shù); D 為視頻幀的不同對(duì)數(shù); d 為2個(gè)視頻幀之間的差值; n 為視頻中的幀數(shù); xt 和 yt 分別為2個(gè)視頻特征向量的第 χt 個(gè)元素(第 χt 幀)。
由于方法2須要使用幀級(jí)形式的用戶(hù)標(biāo)注,且SumMe數(shù)據(jù)集的用戶(hù)標(biāo)注是片段形式,因此針對(duì)SumMe數(shù)據(jù)集只能使用方法1來(lái)評(píng)估。TVSum數(shù)據(jù)集的用戶(hù)標(biāo)注是幀級(jí)的,方法2適用,并且可以通過(guò)文獻(xiàn)27中的方法關(guān)鍵幀到關(guān)鍵鏡頭和幀級(jí)分?jǐn)?shù)將幀級(jí)標(biāo)注數(shù)據(jù)轉(zhuǎn)換為關(guān)鍵片段的形式,因此該數(shù)據(jù)集也可以使用方法1來(lái)評(píng)估。
為了劃分測(cè)試集和訓(xùn)練集,本文中采用了隨機(jī)劃分的交叉驗(yàn)證技術(shù)。具體做法是,隨機(jī)選擇 20% 的視頻作為測(cè)試集,其余 80% 的視頻用作訓(xùn)練集。
這個(gè)過(guò)程重復(fù)進(jìn)行5次,以確保結(jié)果的穩(wěn)定性和可靠性。最終的評(píng)估指標(biāo),包括 F1 值、Kendall相關(guān)系數(shù)和Spearman相關(guān)系數(shù),是基于這5次隨機(jī)劃分得到的結(jié)果的平均值。這種方法有助于減小隨機(jī)性對(duì)模型評(píng)估的影響,提供一個(gè)更加穩(wěn)健的性能估計(jì)結(jié)果。
2.3 實(shí)驗(yàn)設(shè)置
本文中以CASUM模型以及ViT網(wǎng)絡(luò)模型為基礎(chǔ),使用CASUM模型的稀疏矩陣框架,引入ViT的多頭注意力訓(xùn)練思想,并改進(jìn)了一些細(xì)節(jié)。
按每秒2幀提取視頻幀,然后通過(guò)在ImageNet數(shù)據(jù)集上訓(xùn)練的谷歌神經(jīng)網(wǎng)絡(luò)(GoogleNet-pool5)獲得深度為1024的輸入特征,將矩陣塊的尺寸 M 設(shè)置為60,分頭數(shù)量 N 設(shè)置為 8,SumMe 數(shù)據(jù)集、TV-Sum數(shù)據(jù)集的損失閾值分別設(shè)置為0.013、0.007,實(shí)驗(yàn)研究這些參數(shù)對(duì)MH-CASUM模型性能的影響。學(xué)習(xí)率設(shè)置為 5×10-4 ,二模正則化因子為 10-5 。根據(jù)常用統(tǒng)一初始化方法初始化網(wǎng)絡(luò)參數(shù)[12],其中增益為 ,偏置為0.1,使用Adam優(yōu)化器進(jìn)行訓(xùn)練,訓(xùn)練400個(gè)批次。
根據(jù)Mahasseni等[28關(guān)于長(zhǎng)度正則化因子 σ 對(duì)模型性能影響的研究結(jié)果,參考CASUM模型的參數(shù)設(shè)置[22],最終將 σ 設(shè)置為[0.5,0.9],在最后的模型選擇時(shí)選取這2個(gè)長(zhǎng)度正則化因子中幀的重要性得分 s 接近上限 δ 的部分。
訓(xùn)練結(jié)束后,根據(jù)本文中提出的損失閾值的方法選擇最優(yōu)模型。首先對(duì)每一個(gè) σ 進(jìn)行判斷,然后在這5次隨機(jī)劃分訓(xùn)練得到的模型中(每一次劃分都訓(xùn)練出一個(gè)模型),分別選擇表現(xiàn)最好的 σ 值對(duì)應(yīng)的模型作為最終模型
采用CASUM模型中的公式[22]計(jì)算重要性得分。
式中 μu 和 μun 分別為訓(xùn)練過(guò)和未經(jīng)訓(xùn)練的模型在整個(gè)測(cè)試視頻集合中視頻幀的重要性分?jǐn)?shù)的平均值,
式中: X 為測(cè)試視頻的數(shù)量; Tm 為第 m 個(gè)測(cè)試視頻; yun,n?yur,n 分別為未經(jīng)訓(xùn)練的模型、訓(xùn)練過(guò)的模型在當(dāng)前測(cè)試視頻的幀的重要性分?jǐn)?shù)。此外,對(duì)于選擇的模型有一個(gè) s 值,當(dāng)此值接近實(shí)驗(yàn)定義的上限 δ=1.5 時(shí),表示模型的性能最佳,當(dāng) Sgt;δ 時(shí)表示該模型過(guò)擬合。
2.4 結(jié)果分析
MH-CASUM模型提取視頻摘要的效果如圖4所示。效果圖所展示的視頻原始長(zhǎng)度為 70s ,該視頻描述的是飛機(jī)降落的過(guò)程,MH-CASUM模型提取出的視頻摘要的長(zhǎng)度為8s,并且能夠僅根據(jù)摘要視頻理解視頻的信息,表明模型保留了絕大多數(shù)的有效信息,并有效減少了視頻的冗余程度。
2.4.1 定量實(shí)驗(yàn)結(jié)果
對(duì)于多頭塊對(duì)角稀疏注意力矩陣,集中注意力機(jī)制是整個(gè)模型的核心,首先針對(duì)稀疏矩陣塊的尺寸 M 定量實(shí)驗(yàn),研究不同的矩陣塊尺寸對(duì)模型性能的影響,該矩陣塊尺寸表示在集中注意力機(jī)制中每次選取的視頻片段的長(zhǎng)度。將分頭數(shù)量 N 定為8,只改變矩陣塊尺寸 M 的值,實(shí)驗(yàn)結(jié)果見(jiàn)表1。
實(shí)驗(yàn)結(jié)果顯示:隨著矩陣塊尺寸 M 的增大,MH-CASUM模型在TVSum數(shù)據(jù)集的性能整體呈現(xiàn)上升趨勢(shì),而在SumMe數(shù)據(jù)集的性能波動(dòng)較大。在當(dāng)矩陣塊尺寸M為6O時(shí),MH-CASUM模型在SumMe、TVSum數(shù)據(jù)集的性能均較好,繼續(xù)增大矩陣塊尺寸,MH-CASUM模型在2個(gè)數(shù)據(jù)集的性能呈現(xiàn)下降趨勢(shì),表明矩陣塊尺寸與選取的視瀕片段的長(zhǎng)度密切相關(guān)。MH-CASUM模型按每秒2幀提取視頻幀,所以視頻片段的長(zhǎng)度影響視頻幀的數(shù)量。當(dāng)視頻幀的數(shù)量少于或接近設(shè)置的矩陣塊尺寸M時(shí),對(duì)本文模型來(lái)說(shuō)塊對(duì)角稀疏矩陣就失去了價(jià)值,故設(shè) M=60 。
多頭注意力的引入有助于捕捉更加豐富的特征信息,本文中研究了不同的分頭數(shù)量 N 對(duì)特征信息捕捉的有效程度。根據(jù)表1的實(shí)驗(yàn)結(jié)果,確定 M 為60,改變分頭數(shù)量 N 的實(shí)驗(yàn)結(jié)果見(jiàn)表2。結(jié)果表明,分頭的數(shù)量對(duì)模型性能的影響并不是簡(jiǎn)單的線性關(guān)系,當(dāng)分頭數(shù)量 N 為8時(shí),模型在相關(guān)任務(wù)上的性能表現(xiàn)最好。這是因?yàn)檫m當(dāng)?shù)姆诸^數(shù)量不僅使得模型能夠在多個(gè)表示子空間中高效地捕捉和整合信息,而且還顯著提升了模型對(duì)視頻內(nèi)容的深層次理解能力。
對(duì)于模型的選擇,引入損失閾值 并針對(duì)不同閾值設(shè)置開(kāi)展實(shí)驗(yàn),控制損失閾值選擇最佳的模型,而不是只選擇對(duì)應(yīng)損失最小的模型,以消除訓(xùn)練過(guò)程中損失值的波動(dòng)對(duì)模型參數(shù)選擇的影響。對(duì)于SumMe數(shù)據(jù)集,將損失閾值設(shè)置為 0.011~ 0.020(步長(zhǎng)為0.001),計(jì)算每個(gè)閾值對(duì)應(yīng)的 F1 值,結(jié)果如圖5所示。由圖可以看出:當(dāng)損失閾值為 0.011~0.013 時(shí), F1 值逐漸增大;而損失閾值為0.013~0.02 時(shí), F1 值整體減小,因此將SumMe數(shù)據(jù)集的損失閾值設(shè)為0.013。將TVSum數(shù)據(jù)集的損失閾值設(shè)置為 0.001~0.010 (步長(zhǎng)為0.001),實(shí)驗(yàn)結(jié)果見(jiàn)圖5。由圖可見(jiàn),當(dāng)損失閾值為 0.001~0.007 時(shí), F1 值平穩(wěn)上升,并于閾值為0.007時(shí)達(dá)到峰值后開(kāi)始下降且存在波動(dòng),所以將TVSum數(shù)據(jù)集的損失閾值設(shè)為0.007,以此選擇到最佳的模型
F1 值一精確率與召回率的調(diào)和平均值。
2.4.2 性能比較
為了評(píng)估MH-CASUM模型的性能,本文中選擇幾個(gè)目前性能較好的視頻摘要模型進(jìn)行比較。表3、4分別為不同視頻摘要模型應(yīng)用于SumMe、TV-Sum數(shù)據(jù)集的 F1 值、Kendall相關(guān)系數(shù)和 Spearman相關(guān)系數(shù),以及排序情況。表3中的結(jié)果顯示:MH-CASUM模型在SumMe數(shù)據(jù)庫(kù)的 F1 值為 51.3% ,與之前的最佳方法塊跨步網(wǎng)絡(luò)(CSNet)[13]的性能相當(dāng);MH-CASUM模型在TVSum數(shù)據(jù)庫(kù)的 F1 值為62.0% ,排名第一,比之前的最佳方法CASUM模型提高了 0.98% 。綜上所述,MH-CASUM模型在各項(xiàng)性能指標(biāo)上均優(yōu)于其他方法。
注: ① AC-SUM-GAN為演員-評(píng)論家和生成對(duì)抗網(wǎng)絡(luò)模型。② DSR-RL-GRU為深度注意循環(huán)摘要網(wǎng)絡(luò)模型。 ③CSNet 為塊跨步網(wǎng)絡(luò)模型。 ④ CSNet-GL-RPE為具有全局和相對(duì)位置嵌入的跨步網(wǎng)絡(luò)模型。 (5)SUM-GDA 為全局多元注意力摘要網(wǎng)絡(luò)模型。⑥ MCSF為多源塊和跨步融合技術(shù)網(wǎng)絡(luò)模型。 ⑦ SUM-GAN-AAE為帶有確定性自注意力編碼器的生成對(duì)抗網(wǎng)絡(luò)模型。 ⑧ SUM-GAN-sl為增量訓(xùn)練的生成對(duì)抗網(wǎng)絡(luò)模型。 ⑨ ERA為實(shí)體關(guān)系感知視頻摘要網(wǎng)絡(luò)模型。 ⑩ CASUM為基于集中注意力機(jī)制的無(wú)監(jiān)督視頻摘要模型。 ① MH-CASUM為基于多頭集中注意力機(jī)制的無(wú)監(jiān)督視頻摘要模型。 ?F1 值為精確率與召回率的調(diào)和平均值。
注: ①DR-DSN 為基于多樣性代表性獎(jiǎng)勵(lì)的深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)模型。 ②CSNet 為塊跨步網(wǎng)絡(luò)模型。 ③ RSGN為重建序列圖網(wǎng)絡(luò)模型。 ④ CSNet-GL-RPE為具有全局和相對(duì)位置嵌入的跨步網(wǎng)絡(luò)模型。 ⑤ DSR-RL-GRU為深度注意循環(huán)摘要網(wǎng)絡(luò)模型。 ⑥ CASUM為基于集中注意力機(jī)制的無(wú)監(jiān)督視頻摘要模型。⑦ MH-CASUM為基于多頭集中注意力機(jī)制的無(wú)監(jiān)督視頻摘要模型。
由于SumMe數(shù)據(jù)集的用戶(hù)標(biāo)注是片段形式,不適用于Kendall相關(guān)系數(shù)和Spearman相關(guān)系數(shù)評(píng)估,因此本文中只考察TVSum數(shù)據(jù)集的Kendall相關(guān)系數(shù)和Spearman相關(guān)系數(shù)。從表4中的結(jié)果可以看出,MH-CASUM模型的Spearman相關(guān)系數(shù)為0.200,與其他方法相比,更接近人類(lèi)摘要的Spearman相關(guān)系數(shù)(O.204)。同時(shí),MH-CASUM模型的Kendall相關(guān)系數(shù)(0.150)也比絕大數(shù)已有模型更接近人類(lèi)摘要的Kendall相關(guān)系數(shù)(0.177),與性能最好的CASUM模型(Kendall相關(guān)系數(shù)為0.160)相比,也有很強(qiáng)的競(jìng)爭(zhēng)力。
2.4.3 消融實(shí)驗(yàn)
為了評(píng)估在CASUM模型中引入的主要改進(jìn)對(duì)模型性能的影響,本文中進(jìn)行了消融實(shí)驗(yàn)。具體改進(jìn)內(nèi)容包括引入多頭注意力機(jī)制以及在模型參數(shù)選擇過(guò)程中加入損失閾值。實(shí)驗(yàn)中考慮了以下變體:模型變體1——未進(jìn)行任何改進(jìn)的原始CASUM 模型;模型變體2—不使用損失閾值,只引入多頭集中注意力機(jī)制,以增加MH-CASUM模型對(duì)特征信息的捕捉,實(shí)驗(yàn)結(jié)果見(jiàn)表5。結(jié)果表明,雖然引入多頭機(jī)制的模型在SumMe數(shù)據(jù)集的性能有所下降,但是在TVSum數(shù)據(jù)集的性能提升非常明顯,表明改進(jìn)的多頭注意力機(jī)制對(duì)提升模型的總體性能是有效的。此外,在模型參數(shù)選擇中加入損失閾值后,模型在2個(gè)數(shù)據(jù)集的性能均有明顯提升,說(shuō)明加入損失閾值方法在優(yōu)化模型性能方面是可行、有效的。
3結(jié)論
本文中將多頭注意力引入集中注意力機(jī)制用于選取關(guān)鍵幀,多頭注意力機(jī)制更好地估計(jì)了視頻不同部分的重要性,同時(shí)滿(mǎn)足了并行運(yùn)算的需求。本文中探索了如何在模型參數(shù)選擇的過(guò)程中選取出最佳的模型參數(shù)結(jié)果,提出損失閾值方法。在SumMe、TVSum數(shù)據(jù)集的評(píng)估結(jié)果證明此方法與最先進(jìn)的無(wú)監(jiān)督摘要模型CASUM相比具有競(jìng)爭(zhēng)力,Spearman相關(guān)系數(shù)和Kendall相關(guān)系數(shù)也表明了MH-CASUM模型的摘要結(jié)果與人類(lèi)摘要結(jié)果趨勢(shì)相近。消融實(shí)驗(yàn)證明,本文中引入多頭注意力機(jī)制和在模型參數(shù)選擇過(guò)程中加人損失閾值的改進(jìn)措施對(duì)模型性能的提升有明顯的效果。未來(lái)將嘗試學(xué)習(xí)和研究ViT的各種變體模型,以改進(jìn)先進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu),希望能將更新穎、效果更佳的ViT網(wǎng)絡(luò)及其變體模型應(yīng)用于視頻摘要任務(wù)中,以期達(dá)到更高的性能水平。
參考文獻(xiàn):
[1] CHENZK,ZHONGFM,YUANX,etal.Frameworkof integrated bigdata:areview[C]//2O16 IEEE International Conferenceon BigData Analysis(ICBDA),March12-14,2016,Hangzhou, China.New York:IEEE,2016:1.
[2] 中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心.第53次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng) 計(jì)報(bào)告》[EB/OL].(2024-03-22)[2024-06-07].https://www. cnnic.net.cn/n4/2024/0322/c88-10964.html.
[3] 王方石,須德,吳偉鑫.基于自適應(yīng)閾值的自動(dòng)提取關(guān)鍵幀 的聚類(lèi)算法[J].計(jì)算機(jī)研究與發(fā)展,2005,42(10):1752.
[4] 聶秀山,柴彥娥,滕聰.基于支配集的視頻關(guān)鍵幀提取方法 [J].計(jì)算機(jī)研究與發(fā)展,2015,52(12):2879.
[5] ZHOUKY,QIAOY,XIANGT.Deepreinforcementlearningfor unsupervised video summarization with diversity-representativeness reward[C]//Proceedings of the Thirty-Second AAAI Conference onArtificial Intelligence and Thirtieth Innovative Applicationsof Artificial Intelligence Conference and Eighth AAAI Symposium on Educational Advances in Artificial Intelligence (AAAI'18/IAAI' 18/EAAI'18),F(xiàn)ebruary 2-7,2018,New Orleans,Louisiana, USA.MenloPark:AAAI Press,2018:7582.
[6] CHENYY,TAOL,WANGXT,etal.Weakly supervised video summarization by hierarchical reinforcement learning[C]//Prosummarize network for video summarization[J]. IEEE Transactions on Image Processing,2020,30:948.
[8]APOSTOLIDIS E,ADAMANTIDOU E,METSAI A I,et al. AC-SUM-GAN: connecting actor-critic and generative adversarial networks for unsupervised video summarization[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2O2O,31(8) : 3278.
[9] GHAURI JA,HAKIMOV S,EWERTH R. Supervised video summarization via multiple feature sets with paralel attention [C]//2O21 IEEE International Conference on Multimedia and Expo(ICME),July 5-9,2021,Shenzhen,China.New York: IEEE, 2021: 1.
[10]JI Z,XIONG KL,PANG Y W,et al.Video summarization with attention-based encoder-decoder networks[J]. IEEE Transactions on Circuits and Systems for Video Technology,2019,30 (6): 1709.
[11]ZHONG R,WANG R,ZOU Y,et al. Graph attention networks adjusted Bi-LSTM for video summarization[J]. IEEE Signal Processing Letters,2021,28:663.
[12]FAJTL J, SOKEHHS, ARGYRIOU V,et al. Summarizing videos with attention[C]//Computer Vision-ACCV 2018 Workshops: 14th Asian Conference on Computer Vision,December 2-6,2018, Perth,Australia. Cham:Springer International Publishing,2019: 39.
[13]JUNG YJ,CHO D H,KIM D H,et al. Discriminative feature learning for unsupervised video summarization[C]//Proceedings of the Thirty-Third AAAI Conference on Artificial Intelligence and Thirty-First InnovativeApplications of Artificial Intelligence Conference and Ninth AAAI Symposium on Educational Advances in Artificial Intellgence (AAAI' 19/IAAI' 19/EAAI' 19), January (204號(hào) 27- February1,2019,Honolulu,Hawaii,USA.Menlo Park : AAAI Press,2019: 8537.
[14]JUNG Y J,CHO D H,WOO S H,et al. Global-and-local relative position embedding for unsupervised video summarization [C]European Conference on Computer Vision,August 23-28, 2020,Glasgow,UK. Cham: Springer Intermational Publishing, 2020: 167.
[15]APOSTOLIDIS E,METSAI A I,ADAMANTIDOU E, et al. A stepwise,label-based approach for improving the adversarial training in unsupervised video summarization[ C]//Proceedings of the 1st International Workshop on AI for Smart TV Content Production,Access and Delivery(AI4TV'19),October 21,2019, Nice,F(xiàn)rance.New York : Association for Computing Machinery, 2019: 17.
[16] APOSTOLIDIS E,ADAMANTIDOU E, METSAI A I, et al. Unsupervised video summarization via attention-driven adversarial learning[C]//MultiMedia Modeling:26th International Conference,MMM 2020,January 5-8,2020,Daejeon,Republic of Korea.Cham:Springer International Publishing,2O20:492.
[17]HE XF,HUAY,SONG T,et al.Unsupervised video summarization with attentive conditional generative adversarial networks [C]//Proceedings of the 27th ACM International Conference on Multimedia(MM’19),October 21-25,2019,Nice,F(xiàn)rance. New York:Association for Computing Machinery,2019:2296.
[18]VASWANI A, SHAZEER N,PARMAR N, et al. Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems (NIPS’17), December 4-9,2017,Long Beach,California,USA.Red Hook:Curran Associates Inc,2017:6000.
[19] DOSOVITSKIY A,BEYER L,KOLESNIKOV A,et al. An image is worth 16x16 words:transformers for image recognition at scale[EB/OL].(2020-10-22)[2024-06-07]. htps:/doi. org/10.48550/arXiv.2010.11929.
[20]朱張莉,饒?jiān)?,吳淵,等.注意力機(jī)制在深度學(xué)習(xí)中的研究 進(jìn)展[J].中文信息學(xué)報(bào),2019,33(6):1.
[21]李依依,王繼龍.自注意力機(jī)制的視頻摘要模型[J].計(jì)算 機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2020,32(4):652.
[22]APOSTOLIDIS E,BALAOURAS G,MEZARIS V,et al. Summarizing videos using concentrated attention and considering the uniqueness and diversity of the video frames[C]//Proceedings of the 2022 International Conference on Multimedia Retrieval ((ICMR’22),June 27-30,2022,Newark,NJ,USA.New York: Association for Computing Machinery,2022:407.
[23] GYGLI M,GRABNER H,RIEMENSCHNEIDER H,et al. Creating summaries from user videos[C]//Computer Vision-ECCV 2014:13th European Conference,September 6-12,2014,Zurich Switzerland. Cham:Springer International Publishing,2014: 505.
[24]SONG YL,VALLMITJANA J,STENTA,et al. TVSum:summarizing web videos using titles[C]//2O15 IEEE Conference on Computer Vision and Pattern Recognition(CVPR),June 7-12, 2015,Boston,MA,USA.New York:IEEE,2015:5179.
[25]OTANI M,NAKASHIMA Y,RAHTU E,et al. Rethinking the evaluation of video summaries[C]//2O19 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),June 15-20,2019,LongBeach,CA,USA.NewYork:IEEE,2019: 7596.
[26] LEBRON CASAS L,KOBLENTS E. Video summarization with LSTM and deep attention models[C]//International Conference onMultimedia Modeling,January8-11,2019,Thessaloniki, Greece. Cham: Springer International Publishing,2018: 67.
[27]ZHANG K,CHAO W L,SHA F,et al. Video summarization with long short-term memory[C]//Computer Vision-ECCV 2016: 14th European Conference,October 11-14,2016,Amsterdam, The Netherlands.Cham; Springer International Publishing,2016: 766.
[28]MAHASSENI B,LAM M, TODOROVIC S. Unsupervised video summarization with adversarial LSTM networks[C]//2O17 IEEE Conference on Computer Vision and Pattern Recognition(CVPR), July 21-26,2017,Honolulu,HI,USA.New York:IEEE, 2017:202.
[29] PHAPHUANGWITTAYAKUL A,GUO Y,YING FL,et al. Self-attention recurrent summarization network with reinforcement learning for video summarization Task[C]//2021 IEEE International Conference on Multimedia and Expo (ICME). July 5-9, 2021,Shenzhen,China.New York:IEEE,2021:1.
[30] LIP,YEQH,ZHANGL M,et al.Exploring global diverse attention via pairwise temporal relation for video summarization [J].Pattern Recognition,2021,111:107677.
[31]KANAFANI H,GHAURI JA,HAKIMOV S,et al. Unsupervised video summarization via multi-source features[C]//Proceedings of the 2O21 International Conference on Multimedia Retrieval (ICMR'21),August 21-24,2021,Taipei,China.New York :Association for Computing Machinery,2021: 466.
[32] WU G D,LINJ Z, SILVA C T. ERA:entity relationship aware video summarization with Wasserstein GAN[EB/OL]. (2021- 09-06)[2024-06-07]. https://doi.org/10. 48550/arXiv. 2109. 02625.
[33] ZHAO B,LI H P,LU X Q,et al. Reconstructive sequencegraph network for video summarization[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2021,44(5) : 2793.
(責(zé)任編輯:劉飚)