曾凡鋒,王春真,李 琛
(北方工業(yè)大學(xué)信息學(xué)院,北京 100144)
近年來,隨著手機(jī)、平板等電子設(shè)備的普及與視頻共享平臺(tái)的發(fā)展,視頻用戶規(guī)模不斷擴(kuò)大,視頻已經(jīng)成為互聯(lián)網(wǎng)上信息傳播的主導(dǎo)形式。視頻可以動(dòng)態(tài)展示出更豐富的視覺內(nèi)容,而互聯(lián)網(wǎng)上大量視頻的出現(xiàn),給人們的搜索、瀏覽和篩選帶來了壓力??焖賹?duì)視頻進(jìn)行處理和分析已經(jīng)成為當(dāng)下的迫切需求。
視頻摘要,指從原始視頻中提取出關(guān)鍵幀或關(guān)鍵鏡頭,組成一個(gè)簡(jiǎn)要的視頻概覽,使用戶能夠在短時(shí)間內(nèi)了解視頻內(nèi)容。根據(jù)在生成摘要的過程中是否使用標(biāo)簽數(shù)據(jù)對(duì)模型進(jìn)行指導(dǎo),視頻摘要方法可以分為有監(jiān)督方法和無監(jiān)督方法。隨著深度學(xué)習(xí)的發(fā)展,有監(jiān)督視頻摘要方法得到了廣泛應(yīng)用。Zhang等[1]首次提出基于長(zhǎng)短期記憶BiLSTM(Bi-directional Long Short-Term Memory)網(wǎng)絡(luò)的有監(jiān)督視頻摘要模型來預(yù)測(cè)幀的重要性得分,并增加了DPP(Determinantal Point Process)結(jié)構(gòu)增強(qiáng)所選幀的多樣性。Ji等[2]實(shí)現(xiàn)了一種序列到序列的預(yù)測(cè)過程,使用 BiLSTM對(duì)輸入序列進(jìn)行編碼,注意力層作為解碼器輸出預(yù)測(cè)分?jǐn)?shù),最后選擇關(guān)鍵鏡頭生成摘要。有監(jiān)督的網(wǎng)絡(luò)模型能夠?qū)W習(xí)人類判斷的標(biāo)準(zhǔn),使輸出的結(jié)果更加準(zhǔn)確。但是,現(xiàn)有視頻摘要數(shù)據(jù)集的人工標(biāo)注數(shù)據(jù)不夠充足,有監(jiān)督方法的性能難以得到較大提升。同時(shí),隨著模型復(fù)雜度的增加,更容易出現(xiàn)過擬合問題。
無監(jiān)督方法能夠在沒有標(biāo)簽數(shù)據(jù)的前提下,對(duì)視頻內(nèi)容進(jìn)行處理。傳統(tǒng)的無監(jiān)督視頻摘要方法如聚類[3],根據(jù)顏色直方圖信息將相似度高的幀聚為一類,然后從每個(gè)類中選擇距離中心點(diǎn)近的幀組合成摘要。但是,該方法所需的時(shí)間成本較高[4],且忽略了視頻幀之間的時(shí)序性。
基于深度學(xué)習(xí)的無監(jiān)督視頻摘要方法受到更多的關(guān)注。文獻(xiàn)[5]提出了一種基于生成對(duì)抗網(wǎng)絡(luò)的摘要模型SUM-GAN(SUMmarizer-Generative Adversarial Network),使用長(zhǎng)短期記憶LSTM(Long Short-Term Memory)網(wǎng)絡(luò)對(duì)時(shí)序信息建模,并通過最小化原始視頻與摘要之間的距離來訓(xùn)練網(wǎng)絡(luò)。與基于對(duì)抗網(wǎng)絡(luò)的方法不同,Zhou等[6]使用強(qiáng)化學(xué)習(xí)對(duì)模型進(jìn)行無監(jiān)督訓(xùn)練,設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)提高摘要的多樣性和代表性。文獻(xiàn)[7]在同等實(shí)驗(yàn)條件下,分別實(shí)現(xiàn)了基于強(qiáng)化學(xué)習(xí)和生成對(duì)抗網(wǎng)絡(luò)的2種無監(jiān)督視頻摘要模型[6,8],并進(jìn)行比較;文中指出由于缺乏對(duì)真實(shí)數(shù)據(jù)的學(xué)習(xí),2種模型輸出的幀重要性得分與人工標(biāo)注值之間仍存在偏差,在評(píng)估模型有效性時(shí)應(yīng)更加關(guān)注模型的直接輸出。
現(xiàn)有無監(jiān)督視頻摘要模型大多使用深層卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)作為特征提取器[5,6,8]。深層CNN特征能夠捕捉圖像的全局信息,在人臉識(shí)別和行為分析等任務(wù)中都取得了優(yōu)異的效果。但是,CNN特征隨著多層的卷積和池化操作,逐漸抽象為高級(jí)語義,而忽視了圖像底層和局部的細(xì)節(jié)信息[9]。文獻(xiàn)[10]指出,與尺度不變特征變換SIFT(Scale Invariant Feature Transform)[11]特征相比,深層CNN特征在通用性與幾何不變性上有所欠缺。Yan等[12]提出一種CCS(Complementary CNN and SIFT)描述符,融合CNN與SIFT特征用于圖像檢索,在多個(gè)數(shù)據(jù)集上準(zhǔn)確率有所提升。
在目前可用的各種深度神經(jīng)網(wǎng)絡(luò)模型中,GoogLeNet[13]在對(duì)象的特征上比LeNet[14]更具表現(xiàn)力[15]。GoogLeNet在2014年的ILSVRC(Image net Large Scale Visual Recognition Challenge)競(jìng)賽中獲得冠軍,與VGG(Visual Geometry Group)[16]和AlexNet[17]相比,它在網(wǎng)絡(luò)中添加了多個(gè)Inception結(jié)構(gòu),減少了參數(shù)量,但識(shí)別目標(biāo)的準(zhǔn)確率得到了大幅提升[18]。
淺層特征中,局部特征對(duì)于各種圖像變換以及光照、遮擋等情況都具有良好的不變性,廣泛應(yīng)用于圖像檢索[19]、圖像配準(zhǔn)[20]和目標(biāo)檢測(cè)[21]等任務(wù)。SIFT[11]是一種典型的局部特征描述符。Bay等[22]改進(jìn)了SIFT的特征提取方式,提出了加速穩(wěn)健特征SURF(Speed Up Robust Feature)算法。文獻(xiàn)[23]對(duì)SIFT與SURF進(jìn)行比較,兩者都是穩(wěn)健的特征檢測(cè)與匹配算法,SIFT在尺度區(qū)域更優(yōu),而SURF在旋轉(zhuǎn)、模糊、扭曲、RGB噪聲和耗時(shí)等方面具有更好的效果。不同圖像提取的局部特征是非等長(zhǎng)的,需要對(duì)特征進(jìn)行編碼歸一化。詞袋BOW(Bag Of Word)模型[24]是檢索、分類等任務(wù)常用編碼方法之一,將圖像特征展示為視覺詞的直方圖。Gidaris等[25]提出了一種使用BOW模型進(jìn)行自監(jiān)督學(xué)習(xí)圖像表示的方法,提高了檢測(cè)性能與分類精度。
為了提升無監(jiān)督模型輸出結(jié)果的準(zhǔn)確性,本文提出了一種基于深淺層特征融合的無監(jiān)督視頻摘要算法。在構(gòu)建模型時(shí),融合了深層的CNN特征與BOW編碼后的淺層SURF特征,提高了特征描述符對(duì)圖像的表述能力,降低了訓(xùn)練時(shí)真實(shí)數(shù)據(jù)缺失造成的影響。使用BiLSTM來讀取視頻的上下文信息,采用獎(jiǎng)勵(lì)機(jī)制提升網(wǎng)絡(luò)的性能。最后,根據(jù)模型輸出結(jié)果生成視頻摘要。使用動(dòng)態(tài)規(guī)劃算法來提取關(guān)鍵鏡頭;根據(jù)鏡頭內(nèi)重要性分?jǐn)?shù)的極大值來選擇關(guān)鍵幀并去除冗余。
在提升神經(jīng)網(wǎng)絡(luò)的性能時(shí),常見方法是增加網(wǎng)絡(luò)深度與寬度,同時(shí)引入稀疏性概念。稀疏連接能避免過擬合與計(jì)算能力不足的問題,但會(huì)導(dǎo)致計(jì)算的效率低下。GoogLeNet設(shè)計(jì)人員提出一種Inception結(jié)構(gòu),將稀疏矩陣分解為多個(gè)密集子矩陣,提高了計(jì)算性能。Inception的具體構(gòu)成如圖1所示。
Figure 1 Structure of Inception
Inception通過組合密集成分來構(gòu)建最優(yōu)局部稀疏結(jié)構(gòu),設(shè)置有1×1,3×3,5×5的卷積核與3×3的最大池化層,獲取不同尺度的特征并進(jìn)行通道融合。為了減少計(jì)算時(shí)的參數(shù)量,在3×3和5×5卷積之前以及最大池化之后,使用1×1卷積核對(duì)特征進(jìn)行降維。
SURF是一種圖像局部特征描述算法,相比于SIFT算子,特征提取速度更快,并且在視角與光照變化等條件下對(duì)興趣點(diǎn)的檢測(cè)性能更加優(yōu)越。
在構(gòu)建高斯金字塔尺度空間時(shí),SURF使用了Hessian矩陣來計(jì)算關(guān)鍵點(diǎn)的位置。在圖像像素點(diǎn)(x,y)與尺度σ下,Hessian矩陣及其行列式的計(jì)算如式(1)和式(2)所示:
(1)
det(H)=DxxDyy-(0.9Dxy)2
(2)
其中,Lxx(x,σ)、Lxy(x,σ)和Lyy(x,σ)為高斯二階導(dǎo)數(shù)的卷積,對(duì)尺度空間中潛在的興趣點(diǎn)進(jìn)行檢測(cè)。在計(jì)算行列式時(shí),分別使用盒式濾波器Dxx、Dxy和Dyy來近似替代高斯濾波,提升了計(jì)算速度。0.9為加權(quán)系數(shù),對(duì)使用盒式濾波器帶來的誤差進(jìn)行均衡。
在生成特征描述符時(shí),以特征點(diǎn)為中心,沿主方向劃分4×4的方形區(qū)域塊。在每一塊子區(qū)域內(nèi)計(jì)算haar小波特征,生成一個(gè)4維的向量。最后,每個(gè)特征點(diǎn)處生成一個(gè)64維的SURF特征描述子。
循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network)是一種處理時(shí)間序列信息的網(wǎng)絡(luò)。RNN實(shí)現(xiàn)了對(duì)信息的記憶功能,在自然語言處理、機(jī)器翻譯和語音識(shí)別等領(lǐng)域中具有優(yōu)勢(shì)。但是,在長(zhǎng)時(shí)間序列建模時(shí),RNN無法學(xué)習(xí)到長(zhǎng)期的依賴信息,會(huì)導(dǎo)致梯度消失與梯度爆炸問題。
LSTM網(wǎng)絡(luò)對(duì)RNN的結(jié)構(gòu)進(jìn)行了改進(jìn),加入了細(xì)胞狀態(tài)和3個(gè)門結(jié)構(gòu),實(shí)現(xiàn)了對(duì)信息的長(zhǎng)期記憶。細(xì)胞狀態(tài)在整個(gè)網(wǎng)絡(luò)上運(yùn)行,保證信息的流傳。門結(jié)構(gòu)包含一個(gè)sigmoid神經(jīng)網(wǎng)絡(luò)層和一個(gè)點(diǎn)乘運(yùn)算操作,遺忘門決定細(xì)胞狀態(tài)中需要丟棄的信息,更新門決定要在細(xì)胞狀態(tài)中進(jìn)行更新的信息,輸出門決定細(xì)胞狀態(tài)中要輸出的信息。RNN網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,輸入上一時(shí)刻的細(xì)胞狀態(tài)Ct-1、隱藏狀態(tài)ht-1與當(dāng)前時(shí)刻信息xt,網(wǎng)絡(luò)更新細(xì)胞狀態(tài)為Ct,并輸出當(dāng)前時(shí)刻隱藏狀態(tài)ht。
Figure 2 Structure of RNN
RNN與LSTM均從前向后傳遞單向信息,在許多任務(wù)中具有局限性。BiLSTM則能夠基于上下文信息對(duì)當(dāng)前時(shí)刻進(jìn)行判斷。BiLSTM由2個(gè)方向相反的LSTM層組成,接入同一個(gè)輸入序列,分別捕獲前向和后向的信息,再連接2層網(wǎng)絡(luò)的隱藏層,共同接入到輸出層進(jìn)行預(yù)測(cè)。
核時(shí)態(tài)分割KTS(Kernel Temporal Segmentation)算法[26]是一種基于核變化點(diǎn)檢測(cè)的鏡頭分割算法。輸入視頻幀的特征序列,算法通過正定核的幀間相似性矩陣,計(jì)算并輸出一組與時(shí)間段邊界相對(duì)應(yīng)的最佳“變化點(diǎn)”。設(shè)視頻幀數(shù)為n,視頻分割段數(shù)為m,約束函數(shù)通過最小化方差來劃分邊界,如式(3)所示:
(3)
其中,Lm,n為整體方差的度量,該變量計(jì)算了m個(gè)分段的方差并求和;懲罰項(xiàng)g(m,n)用于限制分段數(shù)量不能過多,參數(shù)C用于平衡Lm,n與g(m,n)產(chǎn)生的分割情況。具體計(jì)算公式如式(4)~式(7)所示:
(4)
(5)
(6)
(7)
全連接FC(Fully Connected)層一般位于神經(jīng)網(wǎng)絡(luò)的末端,該層中每一個(gè)神經(jīng)元都與前一層的所有神經(jīng)元相連。FC層能夠?qū)矸e和池化等層計(jì)算得到的特征進(jìn)行線性組合,將高維特征映射到樣本標(biāo)記空間,在網(wǎng)絡(luò)模型中起到分類器的作用。
基于深淺層特征融合的視頻摘要算法結(jié)構(gòu)如圖3所示,主要包括特征提取、重要性預(yù)測(cè)和摘要生成3個(gè)部分。特征提取模塊用于提取視頻幀的融合特征,重要性預(yù)測(cè)模塊用于訓(xùn)練模型對(duì)視頻幀進(jìn)行重要性判斷,摘要生成模塊根據(jù)重要性分?jǐn)?shù)生成關(guān)鍵鏡頭與關(guān)鍵幀序列。由于原始視頻中相鄰幀的內(nèi)容高度相似,需要先進(jìn)行下采樣操作。在原始視頻幀序列中每15幀取1幀,組成視頻幀序列,記為V={f1,f2,…,fn},其中n為總幀數(shù)。
Figure 3 Structure of unsupervised video summarization algorithm based on deep and shallow feature fusion
特征提取模塊的整體步驟如圖4所示,主要作用是提取視頻幀的深層特征與淺層特征,并進(jìn)行融合。
Figure 4 Feature extraction module
使用在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的GoogLeNet模型來提取圖像幀的深層CNN特征。GoogLeNet是一個(gè)22層的深度網(wǎng)絡(luò),取pool5層的輸出作為本文的深層特征。
提取視頻幀的SURF特征作為淺層特征。SURF描述子數(shù)目眾多,且不同圖像得到的描述子數(shù)目不盡相同,會(huì)影響后續(xù)計(jì)算。采用詞袋BOW模型對(duì)SURF特征進(jìn)行統(tǒng)一編碼。首先,對(duì)視頻中所有幀的SURF特征進(jìn)行k-means聚類,生成k個(gè)視覺特征詞典。然后,將單個(gè)圖像幀的特征點(diǎn)聚類到k個(gè)詞典中,統(tǒng)計(jì)落入每個(gè)詞典中的特征點(diǎn)個(gè)數(shù),得到一個(gè)k維的BOW特征向量。最后,使用線性函數(shù)歸一化方法,將BOW特征中的數(shù)據(jù)轉(zhuǎn)換到[0,1]內(nèi),保證特征融合的有效性。線性函數(shù)歸一化的計(jì)算公式如式(8)所示:
(8)
其中,Xmax與Xmin分別為特征向量中的最大值與最小值,Xnorm為歸一化后的X。
將上述提取的CNN特征與BOW特征進(jìn)行拼接融合,生成一個(gè)新特征x。拼接融合是早期的一種融合方法,將2種特征直接進(jìn)行連接,表現(xiàn)為特征維度增加。為了降低模型計(jì)算的復(fù)雜度,本文使用FC層對(duì)特征x進(jìn)行壓縮。與自編碼器AE(Auto- Encoder)結(jié)構(gòu)中的編碼器部分類似,特征壓縮操作將輸入數(shù)據(jù)中的噪聲進(jìn)行去除。具體操作為FC層對(duì)輸入數(shù)據(jù)應(yīng)用線性變換:
y=Wx+b
(9)
其中,x為全連接層的輸入,維度為d1;y為全連接層的輸出,維度為d2(d2 (10) 其中,W′為權(quán)重矩陣。 在網(wǎng)絡(luò)模型訓(xùn)練期間,根據(jù)Zhou等[6]的建議,本文使用強(qiáng)化學(xué)習(xí)對(duì)網(wǎng)絡(luò)進(jìn)行指導(dǎo),模型會(huì)選擇一組幀來代表視頻內(nèi)容。獎(jiǎng)賞信號(hào)R評(píng)估所選幀的多樣性與代表性,使得網(wǎng)絡(luò)對(duì)視頻幀重要性產(chǎn)生更準(zhǔn)確的判斷。R計(jì)算公式如式(11)和式(12)所示: R=αRdiv+βRrep (11) α+β=1 (12) 其中,Rdiv為多樣性約束函數(shù),衡量所選幀的特征差異程度;Rrep為代表性約束函數(shù),計(jì)算視頻幀與其最近中心點(diǎn)的的均方誤差;α和β分別為2個(gè)函數(shù)的權(quán)重,約束函數(shù)計(jì)算公式如式(13)~式(15)所示: (13) (14) (15) 其中,d(yt,yt′)是計(jì)算2幀之間差異的函數(shù),yt為第t幀視頻幀特征,γ為所選幀的索引集合,T為所選幀的數(shù)量。在訓(xùn)練過程中,對(duì)2種約束函數(shù)賦予相同權(quán)重,計(jì)算并達(dá)成獎(jiǎng)勵(lì)最大化。 視頻摘要包括靜態(tài)摘要和動(dòng)態(tài)摘要。靜態(tài)視頻摘要,是在視頻幀中選擇部分最能代表視頻內(nèi)容的幀,組成一個(gè)關(guān)鍵幀集合來呈現(xiàn)視頻中的故事情節(jié)。動(dòng)態(tài)視頻摘要,是在視頻中抽取關(guān)鍵鏡頭片段并重新組合成一個(gè)短視頻,動(dòng)態(tài)呈現(xiàn)視頻的關(guān)鍵內(nèi)容。視頻摘要生成步驟如圖5所示。 Figure 5 Steps of summary generation 在視頻的層次結(jié)構(gòu)中,一個(gè)視頻往往由一個(gè)或多個(gè)鏡頭組成,而一個(gè)鏡頭又由多個(gè)幀組成。在生成視頻摘要之前,需要先進(jìn)行鏡頭分割。本文使用KTS算法對(duì)視頻進(jìn)行變點(diǎn)檢測(cè),得到多個(gè)不相交的視頻鏡頭片段。 3.3.1 動(dòng)態(tài)摘要生成 本文基于動(dòng)態(tài)規(guī)劃的方法來生成動(dòng)態(tài)視頻摘要。首先,計(jì)算每個(gè)鏡頭內(nèi)視頻幀重要性分?jǐn)?shù)的均值,作為鏡頭重要性分?jǐn)?shù)。鏡頭的分?jǐn)?shù)越高,表示當(dāng)前鏡頭越能體現(xiàn)視頻的關(guān)鍵內(nèi)容。再根據(jù)文獻(xiàn)[27]限制摘要的長(zhǎng)度不超過原視頻的15%。最后,使用0/1背包算法在約束條件下根據(jù)鏡頭分?jǐn)?shù)選擇鏡頭生成摘要。 3.3.2 靜態(tài)摘要生成 在生成靜態(tài)視頻摘要時(shí),基于概率分布的方法能夠在視頻中根據(jù)幀重要性得分選擇幀來概括故事情節(jié)[5,7],但忽略了視頻的層次結(jié)構(gòu),并存在冗余現(xiàn)象。本文在生成靜態(tài)摘要時(shí),先基于鏡頭層次計(jì)算幀分?jǐn)?shù)的局部極大值,對(duì)關(guān)鍵幀進(jìn)行初步篩選;再計(jì)算特征相似度去除冗余。具體步驟見算法1。 算法1基于局部極大值的關(guān)鍵幀篩選算法 輸入:幀得分序列P,鏡頭序列H,特征序列Y。 輸出:關(guān)鍵幀序列K。 1.初始化關(guān)鍵幀序列K,初步關(guān)鍵幀序列K′,相似度閾值δ; 2.for(shotinH)do 3. 根據(jù)P計(jì)算shot的局部極大值,幀序號(hào)加入K′; 4.ifshot中無局部極大值then 5. 計(jì)算shot中的最大值,幀序號(hào)加入K′; 6.endif 7.endfor 8.計(jì)算序列K′中幀數(shù)num; 9.for(idx,curframein enumerate(K′))do 10.flag←1; 11.for(frameinK′[idx+1:num])<δthen 12.ifsim(Y[curframe],Y[frame])<δthen 13.flag←0; 14.endif 15.endfor 16.ifflag==1then 17.curframe加入K; 18.endif 19.endfor 在算法1中,第2~7行計(jì)算了每個(gè)鏡頭內(nèi)的重要性分?jǐn)?shù)極大值,對(duì)視頻幀進(jìn)行篩選,得到初步關(guān)鍵幀序列K′。第8~19行在初步關(guān)鍵幀序列中計(jì)算當(dāng)前幀與其他幀之間的特征相似度,使用閾值δ決定是否選擇當(dāng)前幀。第12行的sim(Y[curframe],Y[frame])為計(jì)算curframe與frame之間特征的歐氏距離。最后得到按時(shí)序生成的關(guān)鍵幀序列K。 本文在視頻摘要數(shù)據(jù)集SumMe[28]和TVSum[29]上對(duì)所提算法進(jìn)行評(píng)估。SumMe數(shù)據(jù)集包含25個(gè)以假期和體育等為主題的視頻,每個(gè)視頻長(zhǎng)度為1~6 min不等,由15~18個(gè)用戶進(jìn)行標(biāo)注。TVSum數(shù)據(jù)集由50個(gè)視頻組成,包含新聞、vlog和紀(jì)錄片等內(nèi)容。TVSum中每個(gè)視頻長(zhǎng)度為2~11 min,由20名用戶進(jìn)行幀級(jí)重要性得分的注釋。 4.1.1 模型(動(dòng)態(tài)摘要)評(píng)估 根據(jù)Zhang等[1]提出的規(guī)范實(shí)驗(yàn)設(shè)置,使用5倍交叉驗(yàn)證,即對(duì)數(shù)據(jù)集隨機(jī)劃分5次,每次劃分后都有80%用于訓(xùn)練和20%用于測(cè)試。 使用F-score對(duì)生成的動(dòng)態(tài)摘要結(jié)果進(jìn)行評(píng)估,取5次實(shí)驗(yàn)的F-score均值為最終結(jié)果。F-score是衡量網(wǎng)絡(luò)模型生成的摘要M與數(shù)據(jù)集中標(biāo)注的摘要U之間相似度的一個(gè)度量,記O為M與U之間的重疊部分。精度Precision、召回率Recall以及F-score計(jì)算公式如式(16)~式(18)所示: Precision=O/M (16) Recall=O/U (17) (18) 4.1.2 靜態(tài)摘要評(píng)估 由于數(shù)據(jù)集中沒有提供靜態(tài)摘要的衡量標(biāo)準(zhǔn),本文采用人工標(biāo)注的方式在每個(gè)鏡頭中指定關(guān)鍵幀,并以此為標(biāo)準(zhǔn)進(jìn)行后續(xù)評(píng)估。使用查準(zhǔn)率pre、查全率rec以及F1來評(píng)估本文算法提取關(guān)鍵幀的效果。計(jì)算公式如式(19)~式(21)所示: (19) (20) (21) 其中,TP為算法正確提取的關(guān)鍵幀數(shù)量,FP為算法錯(cuò)誤提取的關(guān)鍵幀數(shù)量,FN為漏檢幀數(shù)量。 4.2.1 BOW維度確定實(shí)驗(yàn) 本文實(shí)驗(yàn)設(shè)置有深層的CNN特征和淺層的BOW特征。其中,CNN特征的維度設(shè)置為1 024,BOW特征的維度根據(jù)實(shí)驗(yàn)結(jié)果來確定。在SumMe和TVSum 2個(gè)數(shù)據(jù)集中,設(shè)置幾種不同維度的BOW特征,分別與CNN特征融合并輸入模型,評(píng)估模型的F-score結(jié)果。不同BOW維度下的實(shí)驗(yàn)結(jié)果如表1所示。從表1可以看出,BOW特征取256維時(shí),與CNN特征融合,使模型在2個(gè)數(shù)據(jù)集上產(chǎn)生了最佳的效果。本文選取該維度進(jìn)行后續(xù)的實(shí)驗(yàn)。 Table 1 F-scores of BOW features under different dimensions 4.2.2 與無監(jiān)督算法對(duì)比實(shí)驗(yàn) 本節(jié)選擇了幾種無監(jiān)督視頻摘要算法與本文算法進(jìn)行對(duì)比,所選算法的數(shù)據(jù)均來自原始論文。(1)SUM-GAN[5]:使用生成對(duì)抗網(wǎng)絡(luò)來訓(xùn)練摘要網(wǎng)絡(luò)。(2)DR-DSN[6]:使用強(qiáng)化學(xué)習(xí)訓(xùn)練深度摘要網(wǎng)絡(luò),提高了摘要幀的多樣性與代表性。(3)PCDL(Property-Constrained Dual Learning)[30]:設(shè)計(jì)人員提出的一個(gè)結(jié)合摘要生成與視頻重建的雙學(xué)習(xí)框架,并增加了屬性獎(jiǎng)勵(lì)提高所選幀的多樣性與代表性。(4)ACGAN(Attentive Conditional Generative Adversarial Network)[31]實(shí)現(xiàn)了一種注意條件生成對(duì)抗網(wǎng)絡(luò),加入多頭自注意力學(xué)習(xí)長(zhǎng)時(shí)間依賴。表 2展示了規(guī)范實(shí)驗(yàn)設(shè)置下與上述幾種算法的F-score對(duì)比結(jié)果。從表2可以看出,本文算法在SumMe數(shù)據(jù)集上的F-score提高了2.6%,在TVSum數(shù)據(jù)集上的F-score提高了0.9%。分析可知,所提算法將深淺層特征融合與BiLSTM后,不同層次的信息互為補(bǔ)充,使特征的區(qū)分力更強(qiáng),促進(jìn)模型產(chǎn)生更準(zhǔn)確的判斷。 Table 2 F-score comparison results of the proposed algorithm with unsupervised video summarization algorithms 4.2.3 與有監(jiān)督算法對(duì)比實(shí)驗(yàn) 表3展示了本文算法與現(xiàn)有的幾種有監(jiān)督視頻摘要算法的對(duì)比結(jié)果。vsLSTM與dppLSTM都是由Zhang等[1]提出的有監(jiān)督學(xué)習(xí)算法,vsLSTM將BiLSTM與多層感知機(jī)MLP(Multi-Layer Perceptron)結(jié)合預(yù)測(cè)每一幀得分,dppLSTM在vsLSTM基礎(chǔ)上加入DPP結(jié)構(gòu),增強(qiáng)摘要的多樣性。SUM-GANsup[5]、DR-DSNsup[6]、PCDLsup[30]和ACGANsup[31]分別是SUM-GAN、DR-DSN、PCDL和ACGAN的有監(jiān)督變體,能夠在訓(xùn)練時(shí)學(xué)習(xí)真實(shí)的幀標(biāo)注值。 Table 3 F-score comparison results of the proposed algorithm with supervised video summarization algorithm 由表3可以看出,本文的無監(jiān)督算法性能不差于甚至超過現(xiàn)有的有監(jiān)督算法的。將深淺層特征融合用于特征表示,能夠更加全面地刻畫圖像內(nèi)容,一定程度上彌補(bǔ)了訓(xùn)練時(shí)缺乏真實(shí)數(shù)據(jù)指導(dǎo)的不足。 圖6繪制了TVSum中視頻43的人工標(biāo)注值與模型輸出的重要性得分分布。該視頻內(nèi)容為戶外騎行運(yùn)動(dòng),在關(guān)鍵幀中采樣了4幀來展示視頻內(nèi)容??梢钥闯?所提算法預(yù)測(cè)結(jié)果與人工標(biāo)注值的變化趨勢(shì)有較強(qiáng)相關(guān)性,證明了本文算法的可行性。 Figure 6 Comparison between the proposed algorithm’s output and ground_truth 圖7展示了對(duì)TVSum中視頻26使用不同算法產(chǎn)生的靜態(tài)摘要,灰色柱體為標(biāo)注的幀重要性分?jǐn)?shù),黑色柱體為所選的關(guān)鍵幀。該視頻主題為節(jié)日集會(huì),在靜態(tài)摘要中采樣了4幀作展示。從圖7可知,本文提出的基于局部極大值的算法能夠捕捉到人工標(biāo)注的重要幀,同時(shí)可見有效去除冗余。 Figure 7 Static video summaries generated by probability distribution algorithm and the proposed algorithm 表4展示了本文算法提取關(guān)鍵幀的結(jié)果。從2個(gè)數(shù)據(jù)集中選取4種不同類型的視頻,對(duì)提取的關(guān)鍵幀進(jìn)行評(píng)估。其中,視頻總幀數(shù)如第3節(jié)所說,記為原視頻幀下采樣后的數(shù)量。可以看出,對(duì)于不同類型的視頻,使用F1值綜合評(píng)估,本文算法能夠較為準(zhǔn)確地表達(dá)視頻關(guān)鍵內(nèi)容。查全率較高,表示本文算法能夠較為全面地捕捉到真實(shí)關(guān)鍵幀;但對(duì)于場(chǎng)景變化較快的視頻video_12和video_26,提取關(guān)鍵幀的準(zhǔn)確率仍有待提升,后續(xù)算法可以進(jìn)一步改進(jìn)。 Table 4 Results of key frame extraction 本文提出一種基于深淺層特征融合的無監(jiān)督視頻摘要算法。算法將CNN特征與編碼后的SURF特征進(jìn)行融合,由BiLSTM網(wǎng)絡(luò)讀取視頻幀的時(shí)空信息,使用無監(jiān)督獎(jiǎng)勵(lì)函數(shù)提升模型的性能,根據(jù)輸出的幀重要性得分生成摘要。在最終篩選關(guān)鍵幀時(shí),使用基于局部極大值的方法生成更為簡(jiǎn)潔的摘要。實(shí)驗(yàn)結(jié)果表明,本文算法要優(yōu)于其他無監(jiān)督視頻摘要算法。3.2 重要性預(yù)測(cè)
3.3 摘要生成
4 實(shí)驗(yàn)與結(jié)果分析
4.1 實(shí)驗(yàn)設(shè)計(jì)
4.2 對(duì)比實(shí)驗(yàn)
4.3 結(jié)果分析
5 結(jié)束語