冀?中,熊凱琳,馬亞茹,何宇清
?
基于重要性感知稀疏自編碼器的多視頻摘要
冀?中,熊凱琳,馬亞茹,何宇清
(天津大學(xué)電氣自動(dòng)化與信息工程學(xué)院,天津 300072)
如何有效地管理和查詢海量視頻數(shù)據(jù)是大數(shù)據(jù)時(shí)代亟待解決的問(wèn)題.基于查詢的多視頻摘要技術(shù)可提供全面且簡(jiǎn)潔的查詢內(nèi)容的相關(guān)信息,是解決此問(wèn)題的重要途徑之一.然而,多視頻內(nèi)容具有多樣性,且包含較多的噪音和冗余,從這些復(fù)雜信息中找出最具代表性的信息極具挑戰(zhàn)性.針對(duì)這一挑戰(zhàn),提出一種基于稀疏自編碼器,并將網(wǎng)絡(luò)查詢圖像內(nèi)容作為正則項(xiàng)的多視頻摘要模型.該模型不僅滿足代表性和簡(jiǎn)潔性的要求,還具有依賴查詢進(jìn)行重要性感知的能力.大量的實(shí)驗(yàn)驗(yàn)證了本文模型的有效性與先進(jìn)性.
多視頻摘要;稀疏自編碼器;重要性感知;視頻管理
近年來(lái),視頻數(shù)量的劇增,使得人們迫切需要一種有效的技術(shù)快速管理和瀏覽視頻內(nèi)容.特別對(duì)于網(wǎng)絡(luò)視頻,當(dāng)給定特定查詢內(nèi)容時(shí),搜索引擎往往返回的是大量夾雜著多樣性和噪音內(nèi)容的視頻.其中一些視頻甚至與查詢事件無(wú)關(guān)或相關(guān)性很?。@使得用戶需花費(fèi)大量的時(shí)間和精力去瀏覽整個(gè)事件,很難在短時(shí)間內(nèi)把握整個(gè)事件的主旨和重要內(nèi)容.為了提高用戶的瀏覽效率,能夠自動(dòng)提取出視頻中有代表性的內(nèi)容變得日益重要.視頻摘要作為解決此問(wèn)題的方式之一,近年來(lái)引起廣泛關(guān)注[1-4].
視頻摘要是從原始視頻中提取關(guān)鍵幀或關(guān)鍵片段,以一種更簡(jiǎn)潔的形式展現(xiàn)原視頻重要內(nèi)容的技術(shù).盡管目前已有較多視頻摘要相關(guān)研究,但大部分方法主要致力于單視頻摘要,針對(duì)如何從多個(gè)視頻中查找簡(jiǎn)潔有代表性且能反映用戶關(guān)注內(nèi)容的研究卻較少[2-3].多視頻摘要嘗試從大量主題相關(guān)的多個(gè)視頻中提取關(guān)鍵幀或關(guān)鍵片段,由于內(nèi)容具有大量冗余性和多樣性,因此更具有挑戰(zhàn)性[5-8].
自編碼器(auto-encoder)是一種有效的無(wú)監(jiān)督深度學(xué)習(xí)方法,廣泛應(yīng)用到了特征表示、圖像檢索等領(lǐng)域.最近,Han等[4]將該方法應(yīng)用到視頻摘要領(lǐng)域.利用自編碼器的重建誤差判斷輸入視頻片段的代表性和興趣度,最終生成有限長(zhǎng)度的摘要.然而,該方法忽視了摘要的簡(jiǎn)潔性要求.此外,該方法針對(duì)單視頻摘要提出,不能滿足多視頻摘要所需的重要性感知(或稱查詢相關(guān)),因此并不適合直接用于多視頻摘要領(lǐng)域.
為此,本文基于稀疏自編碼器的方法,提出一種重要性感知的多視頻摘要模型.通過(guò)利用稀疏自編碼器學(xué)習(xí)多個(gè)視頻間的重構(gòu)關(guān)系,并在此基礎(chǔ)上利用基于查詢的網(wǎng)絡(luò)圖像作為重要性感知的約束項(xiàng).這樣,不僅考慮了多個(gè)視頻之間的信息互補(bǔ)性,使提取的摘要具有代表性和簡(jiǎn)潔性,還突出了用戶的查詢意圖,對(duì)重要性內(nèi)容進(jìn)行了感知.所提方法稱為基于重要性感知稀疏自編碼器的多視頻摘要(multi-video summarization with importance-aware sparse auto-encoder,MVS-IASAE).
本文貢獻(xiàn)主要體現(xiàn)在以下兩方面.
(1) 提出一種基于稀疏自編碼器的多視頻摘要框架,其利用稀疏自編碼器的稀疏性和非線性特性設(shè)計(jì)適用于多視頻摘要的算法.
(2) 利用基于查詢的網(wǎng)絡(luò)圖像在稀疏自編器中添加了重要性約束,使得生成的摘要滿足多視頻摘要所需的代表性、簡(jiǎn)潔性和重要性感知.
論文首先介紹視頻摘要的相關(guān)工作,然后詳細(xì)描述所提MVS-IASAE模型,接著給出相應(yīng)實(shí)驗(yàn)結(jié)果與對(duì)比分析,最后進(jìn)行總結(jié)與討論.
視頻摘要按其摘要源可以分為單視頻摘要和多視頻摘要兩類(lèi).
單視頻摘要針對(duì)單個(gè)較長(zhǎng)視頻進(jìn)行總結(jié),其方法可分為有監(jiān)督和無(wú)監(jiān)督兩類(lèi).有監(jiān)督的視頻摘要常利用特定類(lèi)型的分類(lèi)器,根據(jù)訓(xùn)練數(shù)據(jù)學(xué)習(xí)得到視頻片段或者視頻幀的重要性分?jǐn)?shù)選擇視頻中的關(guān)鍵內(nèi)容[9-11].例如,Gygli等[11]將多個(gè)模態(tài)特征結(jié)合起來(lái)訓(xùn)練一個(gè)線性回歸模型,通過(guò)預(yù)測(cè)幀興趣度生成視頻摘要.文獻(xiàn)[12]利用視頻的標(biāo)簽信息構(gòu)建深度視覺(jué)-語(yǔ)義嵌入模型,選擇一個(gè)具有語(yǔ)義重要性的視頻縮略.此外,還有的方法利用視頻中的重要對(duì)象(例如人臉)選擇富含信息且多樣的視頻片段作為摘要[13]. Zhang等[14]采用深度學(xué)習(xí)方法,將單視頻摘要看作是序列到序列問(wèn)題,研究視頻幀間的相互依賴,生成盡量符合人類(lèi)感知的視頻摘要.Mahasseni等[15]引入生成對(duì)抗網(wǎng)絡(luò)到視頻摘要中,旨在使生成的視頻摘要包含和原始視頻同等的信息.
有監(jiān)督的視頻摘要需要大量的訓(xùn)練數(shù)據(jù),有一定局限性.無(wú)監(jiān)督視頻摘要?jiǎng)t僅僅利用視頻視覺(jué)信?息[16-19]和其他可獲取的外部輔助信息即可實(shí)現(xiàn)視頻摘要,因此受到了更早的關(guān)注.聚類(lèi)算法[17,20-22]是其中的一類(lèi)代表性方法,主要思想是通過(guò)聚類(lèi)相似的鏡頭或幀,并從每類(lèi)里選擇有限數(shù)量的幀從而形成摘要.例如,Gong等[22]利用關(guān)鍵幀之間的相似度最小原則,提出了seqDPP(sequential determinantal point process)幀間最小相似度的方法,生成了低冗余度的視頻摘要.圖模型也是一類(lèi)有效的方法[18,23].例如文獻(xiàn)[23]提出一種利用超圖排序的方法,首先將任意多個(gè)有內(nèi)在關(guān)聯(lián)的視頻幀使用一條超邊連接構(gòu)建超圖模型;然后依據(jù)超圖排序分類(lèi)視頻幀,選取符合條件的視頻幀形成摘要.
多視頻摘要通常指針對(duì)查詢得到的大量視頻進(jìn)行內(nèi)容摘要.由于多視頻主題較為多樣性且內(nèi)容存在大量冗余,生成多視頻摘要更具有挑戰(zhàn)性,目前針對(duì)多視頻摘要也已經(jīng)提出一些算法.例如,Shao等[24]將視覺(jué)和文本信息構(gòu)造成復(fù)雜圖,在圖中充分利用幀和關(guān)鍵字的相互關(guān)系對(duì)兩者進(jìn)行聯(lián)合聚類(lèi),最后從關(guān)鍵詞重要性分?jǐn)?shù)較高的類(lèi)中選取最具代表性的幀來(lái)形成多視頻摘要.Wang等[5]提出了一種基于事件驅(qū)動(dòng)的多視頻摘要方法.首先利用與視頻相關(guān)的標(biāo)簽用監(jiān)督學(xué)習(xí)的方法學(xué)習(xí)鏡頭語(yǔ)義,然后選擇與查詢高度相關(guān)的鏡頭作為候選關(guān)鍵鏡頭.最后,根據(jù)重要的子事件具有重復(fù)出現(xiàn)的特征,從候選關(guān)鍵鏡頭中選擇關(guān)鍵鏡頭.在文獻(xiàn)[6]中,Li等結(jié)合視覺(jué)、音頻信息,在最大邊距相關(guān)的思想下設(shè)計(jì)了迭代選擇關(guān)鍵鏡頭的多視頻摘要算法.Kuanar等[7]使用雙邊匹配約束最優(yōu)路徑森林聚類(lèi)來(lái)解決多視頻摘要問(wèn)題.Kim等[8]提出一種借助網(wǎng)絡(luò)查詢圖像摘要多視頻內(nèi)容的思路.首先利用網(wǎng)絡(luò)圖像和視頻幀構(gòu)成相似性圖,圖中執(zhí)行相似性排序,選取重要的、信息豐富的視頻幀形成摘要.Ji等[25]提出將查詢圖像和稀疏編碼結(jié)合的QUASC算法,生成代表性強(qiáng)且簡(jiǎn)潔的多視頻摘要,該算法直接利用網(wǎng)絡(luò)查詢圖像和視頻集重構(gòu)原始視頻集.所提MVS-IASAE將網(wǎng)絡(luò)查詢圖像作為相似性約束,減少網(wǎng)絡(luò)查詢圖片的噪音對(duì)摘要結(jié)果產(chǎn)生影響.
自編碼器是Hinton等[26]在1994年提出的一種無(wú)監(jiān)督的機(jī)器學(xué)習(xí)算法.自動(dòng)編碼器網(wǎng)絡(luò)使用一組識(shí)別權(quán)重將輸入轉(zhuǎn)換為編碼向量,然后使用一組生成權(quán)重將編碼矢量轉(zhuǎn)換為近似輸入的向量,目的是最小化描述輸入向量的信息重建誤差.
2010年Lemme等[27]通過(guò)在自編碼器中添加稀疏性約束,提出了稀疏自編碼器模型.稀疏自編碼器在圖像分類(lèi)、模式識(shí)別、文本分析,視頻或圖像處理等領(lǐng)域應(yīng)用廣泛.例如,Deng等[28]提出一種用于語(yǔ)音情感識(shí)別的特征傳遞學(xué)習(xí)的稀疏自編碼器方法.該方法從目標(biāo)域中的一小組標(biāo)記數(shù)據(jù)中學(xué)習(xí)一個(gè)常見(jiàn)的情緒特異性映射規(guī)則,然后通過(guò)將該規(guī)則應(yīng)用于不同域中的情感特定數(shù)據(jù)來(lái)獲得新重建的數(shù)據(jù).Liu?等[29]將稀疏自編碼用于面部表情識(shí)別和生成,提出了一種基于光流和深層神經(jīng)網(wǎng)絡(luò)組合的方法.
自編碼器(auto-encoder)是一個(gè)3層神經(jīng)網(wǎng)絡(luò),分別為輸入層、隱藏層和輸出層,是一種非監(jiān)督的深度學(xué)習(xí)算法.該算法利用后向傳播算法嘗試逼近一個(gè)恒等函數(shù),即輸入近似等于輸出.為了達(dá)到此目的,自編碼器需要捕捉可以代表輸入數(shù)據(jù)的重要特征,找到可以代表原信息的主要成分.這可看作自動(dòng)獲取輸入數(shù)據(jù)壓縮表示的過(guò)程.
?(1)
這里的激活函數(shù)是sigmoid函數(shù).自編碼器輸入盡量擬合輸出,其目標(biāo)函數(shù)為
?(2)
圖1?MVS-IASAE框架示意
稀疏自編碼器(sparse auto-encoder)是在自編碼器的基礎(chǔ)上添加了稀疏性約束,目的是用最少的神經(jīng)元來(lái)表征輸入數(shù)據(jù),使得獲取的隱藏層表征滿足稀疏性和代表性,因此更適合于視頻摘要.通常采用KL散度來(lái)控制稀疏性,具體表達(dá)為
?(3)
?(4)
????(5)
?(6)
改進(jìn)后的重要性感知的稀疏自編碼器的框架的目標(biāo)函數(shù)可設(shè)計(jì)為
?(7)
?(8)
在目前最大的公開(kāi)數(shù)據(jù)集MVS1K數(shù)據(jù)集[25]上進(jìn)行驗(yàn)證.該數(shù)據(jù)集包含10個(gè)查詢,每個(gè)查詢包含100個(gè)左右視頻,時(shí)長(zhǎng)限于0~4,min之內(nèi),且提供了用戶標(biāo)注摘要用于算法的主觀評(píng)價(jià).
本文模型同4種對(duì)比算法進(jìn)行比較,且所有的方法都采用相同視覺(jué)特征,在同一候選幀集上選取摘要.對(duì)比算法有4種.
(1)基于最小稀疏重構(gòu)的方法MSR[31]:該模型基于稀疏編碼算法,它將視頻幀集當(dāng)作字典,通過(guò)稀疏編碼學(xué)習(xí)一組基向量來(lái)重構(gòu)原來(lái)的視頻內(nèi)容空間.另外,該方法提出了重構(gòu)率(POR)自動(dòng)地決定摘要的長(zhǎng)度,用戶可以通過(guò)設(shè)置合適的POR獲得想要的摘要長(zhǎng)度.
(2)基于聚類(lèi)的方法VSUMM[17]:該方法首先利用-means聚類(lèi)候選關(guān)鍵幀,然后選擇距離類(lèi)中心最近的幀作為關(guān)鍵幀形成視頻摘要.按照MSR方法中的關(guān)鍵幀的數(shù)量來(lái)確定值.
(3)基于融合的方法TVSum[32]:該算法利用視頻的標(biāo)題搜索網(wǎng)絡(luò)圖像作為先驗(yàn)知識(shí),并利用共原型分析(co-archetypal analysis)技術(shù)學(xué)習(xí)視頻和圖像之間的共有的重要內(nèi)容.
(4)基于查詢感知稀疏編碼的方法QUASC[25]:該算法在稀疏編碼的框架下,提出了一種共同學(xué)習(xí)視頻和網(wǎng)絡(luò)圖像的共有模式的查詢感知的稀疏編碼?方法.
通過(guò)比較所提方法生成的自動(dòng)視頻摘要和人工標(biāo)記中的關(guān)鍵幀之間的距離,然后將其與預(yù)先設(shè)定的距離相比較來(lái)判斷兩幀是否匹配,從而根據(jù)匹配幀數(shù)計(jì)算摘要的Pre、Rec和F-score 3個(gè)標(biāo)準(zhǔn)來(lái)綜合評(píng)價(jià)摘要結(jié)果.具體計(jì)算方式為
?(9)
?(10)
?(11)
從表1可以看出,本文MVS-IASAE方法明顯優(yōu)于VSUMM、MSR和TVSum,在平均性能表現(xiàn)上稍強(qiáng)于QUASC方法,達(dá)到了多視頻摘要的較高水平.從Pre的角度觀察,MVS-IASAE方法分別比VSUMM、MSR和TVSum高約7%,、19%,和9%,,但比QUASC稍低約2%,,考慮到VSUMM方法和MSR方法都著重考慮視頻幀包含信息的最大容量,會(huì)將無(wú)關(guān)信息引入摘要中,TVSum著重考慮重要性,而所提方法專(zhuān)注于重構(gòu)主要視頻信息,減少摘要冗余性,相應(yīng)的準(zhǔn)確率有提升,QUASC也著重強(qiáng)調(diào)了摘要的去冗余過(guò)程,從而有較高的準(zhǔn)確率.從Rec率的角度觀察,本文方法均優(yōu)于其他對(duì)比算法.具體地,分別比VSUMM[17]、MSR[31]、TVSum[32]和QUASC[25]高約9%,、17%,、11%,和2%,.同樣地,由于VSUMM和MSR均是從視頻幀的視覺(jué)信息出發(fā),對(duì)于多視頻集的重要信息和無(wú)關(guān)信息沒(méi)有區(qū)分,這對(duì)算法的性能會(huì)有影響,召回率也會(huì)稍低.TVSum忽略了冗余信息的處理,生成摘要簡(jiǎn)潔性不高,QUASC和本文方法均采用了網(wǎng)絡(luò)查詢圖像作為約束,摘要同人工摘要的符合程度較高.F-score綜合考慮了Pre和Rec,該指標(biāo)通常作為整體性能的評(píng)價(jià)標(biāo)準(zhǔn).可以看到本文方法的平均表現(xiàn)優(yōu)于對(duì)比算法,分別比VSUMM、MSR、TVSum和QUASC高約9%,、19%,、11%,和2%,,證明了MVS-IASAE的有效性.
表1?本文方法與對(duì)比算法的客觀評(píng)價(jià)標(biāo)準(zhǔn)比較
Tab.1?Comparison of the objective evaluation criteria of the proposed method and the contrast algorithm
為了更加直觀地比較本文算法的有效性,圖2給出了MVS-IASAE的算法的直觀結(jié)果進(jìn)行對(duì)比.其中紅色框代表不相關(guān)的幀,黃色框代表冗余幀.
圖2?以查詢“MH370”的摘要結(jié)果為例的對(duì)比示意
從圖2可清楚地觀察到VSUMM的方法比其他的方法冗余度更高.這是因?yàn)樗鼘⒁曈X(jué)上相似的幀聚類(lèi)在同一類(lèi)別中,但忽略了語(yǔ)義冗余問(wèn)題.此外,該方法還包含較多無(wú)關(guān)的關(guān)鍵幀.這是因?yàn)榫垲?lèi)方法認(rèn)為視覺(jué)上不相似的幀可以構(gòu)成獨(dú)立的集群,從中可以選擇關(guān)鍵幀,因此忽略了對(duì)無(wú)關(guān)信息的處理.對(duì)于MSR方法,它包含較少的冗余幀,但是不重要的或不相關(guān)的關(guān)鍵幀較多.這是因?yàn)樗J(rèn)為視覺(jué)上不相似的關(guān)鍵幀包含更多的新信息.因此摘要傾向于選擇那些與視頻主題不相關(guān)的且又不相似的幀作為關(guān)鍵幀.TVSum方法將網(wǎng)絡(luò)搜索圖像作為重要先驗(yàn)信息,考慮了摘要的重要性,但沒(méi)有考慮到摘要的簡(jiǎn)潔性.因此,摘要中包含較多的冗余關(guān)鍵幀.而對(duì)于QUASC方法,由于其同時(shí)考慮了摘要的冗余性和重要性,使得生成的摘要冗余性較少,且包含無(wú)意義的關(guān)鍵幀較少.相比較之下本文方法雖然包含一些冗余的關(guān)鍵幀和無(wú)意義的關(guān)鍵幀,但是總體上性能優(yōu)于對(duì)比方法.
為了進(jìn)一步證明本文模型的有效性,邀請(qǐng)了5位參與者(其中3位為男性,2位為女性)對(duì)上述5種算法生成的視頻摘要進(jìn)行主觀用戶評(píng)價(jià).要求每位參與者熟悉實(shí)驗(yàn)數(shù)據(jù)集的內(nèi)容,并在無(wú)外在因素的影響下,對(duì)不同方法下的10個(gè)查詢事件下的多視頻摘要結(jié)果,給出主觀評(píng)價(jià)分?jǐn)?shù),分?jǐn)?shù)分配為1到10,其中1表示多視頻摘要的用戶體驗(yàn)效果最差,10表示用戶體驗(yàn)效果最佳.最終的主觀評(píng)價(jià)結(jié)果如圖3所示.可以看出,本文MVS-IASAE模型的評(píng)價(jià)高于其他算法.具體地,在MVS-IASAE生成的摘要中,10個(gè)查詢事件中約有8個(gè)事件的視頻摘要結(jié)果主觀評(píng)價(jià)分?jǐn)?shù)最高,且10個(gè)查詢事件的平均主觀評(píng)價(jià)分?jǐn)?shù)均高于其他對(duì)比算法.這表明該算法取得了較好的用戶體驗(yàn).
圖3?主觀評(píng)價(jià)結(jié)果可視化
另外,分析了主觀結(jié)果統(tǒng)計(jì)的可靠性,即分?jǐn)?shù)是否包含某些用戶的嚴(yán)重主觀偏差,結(jié)果如圖4所示.可以看出,各種用戶在這些方法中具有大致相似的偏好,表明主觀評(píng)價(jià)結(jié)果是可靠的.
圖4?用戶偏好度統(tǒng)計(jì)
本文提出了一個(gè)基于感知稀疏自編碼器的多視頻摘要算法.利用稀疏自編碼框架將多個(gè)視頻和網(wǎng)絡(luò)查詢圖像結(jié)合起來(lái)檢測(cè)關(guān)鍵幀,并且在多視頻數(shù)據(jù)集MVS1K上驗(yàn)證了其有效性.
考慮到將網(wǎng)絡(luò)圖像特征作為約束需要自編碼器隱層特征和查詢網(wǎng)絡(luò)圖像特征耦合,接下來(lái)將考慮將特征提取和模型訓(xùn)練結(jié)合,訓(xùn)練過(guò)程中回調(diào)特征提取模型,以增加模型的靈活性,進(jìn)一步提升算法性能.
[1] Money A G,Agius H. Video summarization:A conceptual framework and survey of the state of the art[J].,2008,19(2):121-143.
[2] Li Teng,Mei Tao,Kweon In-so,et al. Multi-video synopsis for video representation[J].,2009,89(12):2354-2366.
[3] 冀?中,蘇育挺,龐彥偉. 多視頻摘要技術(shù):方法、應(yīng)用及挑戰(zhàn)[J]. 計(jì)算機(jī)工程與應(yīng)用,2012,48(27):1-6.
Ji Zhong,Su Yuting,Pang Yanwei. Multi-video abstraction:Approaches applications and challenges[J].,2012,48(27):1-6(in Chinese).
[4] Han Mengxiong,Hu Haimiao,Liu Yang,et al. An auto-encoder-based summarization algorithm for unstructured videos[J].,2017,76(23):1-18.
[5] Wang Meng,Hong Richang,Li Guangda,et al. Event driven web video summarization by tag localization and key-shot identification[J].,2012,14(4):975-985.
[6] Li Yingbo,Merialdo Bernard. Multimedia maximal marginal relevance for multi-video summarization[J].,2016,75(1):1-22.
[7] Kuanar S K,Ranga K B,Chowdhury A S. Multi-view video summarization using bipartite matching con-strained optimum-path forest clustering[J].,2015,17(8):1166-1173.
[8] Kim G,Sigal L,Xing E P. Joint summarization of large-scale collections of web images and videos for storyline reconstruction[C]//. Columbus,USA,2014:4225-4232.
[9] He Yi,Gao Changxin,Sang Nong,et al. Graph coloring based surveillance video synopsis[J].,2017,225(15):64-79.
[10] Lu Zheng,Grauman Kristen. Story-driven summariza-tion for egocentric video[C]//. Portland,USA,2013:2714-2721.
[11] Gygli M,Grabner H,Riemenschneider H,et al. Creating summaries from user videos[C]//Zurich,Switzerland,2014:505-520.
[12] Liu Wu,Mei Tao,Zhang Yongdong,et al. Multi-task deep visual-semantic embedding for video thumbnail se-lection[C]//. Boston,USA,2015:3707-3715.
[13] Yong J L,Ghosh J,Grauman K. Discovering important people and objects for egocentric video summarization [C]//Rhode Island,USA,2012:1346-1353.
[14] Zhang Ke,Chao Weilun,Sha Fei,et al. Video summarization with long short-term memory[C]//Amsterdam,The Netherland,2016:766-782.
[15] Mahasseni B,Lam M,Todorovic S. Unsupervised video summarization with adversarial LSTM net-works[C]//Honolulu,USA,2017:202-211.
[16] Chen Bowei,Wang Jiaching,Wang Jhingfa. A novel video summarization based on mining the story-structure and semantic relations among concept entities[J].,2009,11(2):295-312.
[17] Avila S. VSUMM:A mechanism designed to produce static video summaries and a novel evaluation method [J].,2011,32(1):56-68.
[18] Wang Wei,Li Sujian,Li Wenjie,et al. Exploring hypergraph-based semi-supervised ranking for query-oriented summarization[J].,2013,237(13):271-286.
[19] Dang C,Radha H. RPCA-KFE:Key frame extraction for video using robust principal component analysis[J].,2015,24(11):3742-3753.
[20] Panda R,Kumar S K,Chowdhury A S. Scalable video summarization using skeleton graph and random walk [C]//. Stockholm,Sweden,2014:3481-3486.
[21] Zhu Xiatian,Chen C L,Gong Shaogang. Learning from multiple sources for video summarization[J].,2016,117(3):247-268.
[22] Gong Boqing,Chao Weilun,Grauman K,et al. Diverse sequential subset selection for supervised video summarization[C]//Montreal,Canada,2014:2069-2077.
[23] 冀?中,樊帥飛. 基于超圖排序算法的視頻摘要[J]. 電子學(xué)報(bào),2017,45(5):1035-1043.
Ji Zhong,F(xiàn)an Shuaifei. Video summarization with hyper-graph ranking[J].,2017,45(5):1035-1043(in Chinese).
[24] Shao Jian,Jiang Dongming,Wang Mengru,et al. Multi-video summarization using complex graph clustering and mining[J].,2010,7(1):85-98.
[25] Ji Zhong,Ma Yaru,Pang Yanwei,et al. Query-aware sparse coding for multi-video summarization[EB/OL]. http://arxiv.org/abs/1707.04021,2017-07-13.
[26] Hinton G E,Zemel R S. Autoencoders,minimum description length and helmholtz free energy[J].,1994(6):3-10.
[27] Lemme A,Reinhart R F,Steil J J. Efficient online learning of a non-negative sparse autoencoder[C]//Bruges,Belgium,2010:1-6.
[28] Deng Jun,Zhang Zixing,Marchi E,et al. Sparse autoencoder-based feature transfer learning for speech emotion recognition[C]//Geneva,Switzerland,2013:511-516.
[29] Liu Yunfan,Hou Xueshi,Chen Jiansheng,et al. Facial expression recognition and generation using sparse autoencoder[C]//. Hong Kong,China,2014:125-130.
[30] Yuan Jinhui,Wang Huiyi,Xiao Lan,et al. A formal study of shot boundary detection[J].,2007,17(2):168-186.
[31] Mei Shaohui,Guan Genliang,Wang Zhiyong,et al. Video summarization via minimum sparse reconstruction [J].,2015,48(2):522-533.
[32] Song Yale,Vallmitjana J,Stent A,et al. TVSum:Summarizing web videos using titles[C]//Boston,USA,2015:5179-5187.
(責(zé)任編輯:王曉燕)
Multi-Video Summarization with Importance-Aware Sparse Auto-Encoder
Ji Zhong,Xiong Kailin,Ma Yaru,He Yuqing
(School of Electrical and Information Engineering,Tianjin University,Tianjin 300072,China)
How to manage and search massive video data effectively is an urgent problem in the era of big data.Query based multi-video summarization can provide comprehensive and concise information about the content of query videos,which is one of the promising ways to address this problem.However,the content of multiple videos is diverse,noisy and redundant,which makes it very challenging to find the most representative information from these videos.A sparse auto-encoder-based multi-video summarization model is proposed,using web query images as regularization terms.It not only satisfies the criteria of representativeness and conciseness,but also has the capability to perceive the query-dependent importance.Extensive experiments demonstrate its effectiveness and superiority.
multi-video summarization;sparse auto-encoder;importance awareness;video management
the National Natural Science Foundation of China(No.,61472273 and No.,61771329).
TP37
A
0493-2137(2018)11-1147-07
2018-01-11;
2018-03-14.
冀?中(1979—??),男,副教授.
冀?中,jizhong@tju.edu.cn.
國(guó)家自然科學(xué)基金資助項(xiàng)目(61472273,61771329).
10.11784/tdxbz201801057