張夢(mèng)琴,孟權(quán)令,張維剛
(哈爾濱工業(yè)大學(xué)(威海)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,威海264209)
隨著移動(dòng)互聯(lián)網(wǎng)的快速普及和智能電子設(shè)備的高速發(fā)展,人們獲取信息的方式已不僅僅滿足于圖像,而直接選擇使用信息更豐富、畫面感更強(qiáng)的視頻,因此也帶動(dòng)了很多視頻分享網(wǎng)站和APP的快速崛起,比如YouTube、優(yōu)酷,以及最近兩年快速流行的抖音、快手等短視頻分享APP。人們?cè)絹碓綗嶂杂趯⒆约荷钪邪l(fā)生的事情用短視頻的形式記錄下來,并且分享到主流的視頻共享網(wǎng)站上。再加上一些新聞、體育、電視、電影等相關(guān)的視頻,使得互聯(lián)網(wǎng)上的網(wǎng)絡(luò)視頻每天爆炸式增長(zhǎng),充斥在網(wǎng)絡(luò)生活中。
為了能在海量的視頻資源中快速地提高某段視頻的點(diǎn)擊率,以及快速高效地為用戶找到需要的視頻資源,現(xiàn)在較大型的視頻分享網(wǎng)站都會(huì)對(duì)每段視頻添加一個(gè)視頻縮略圖,并配上合適的標(biāo)注文本,以將視頻的內(nèi)容“直截了當(dāng)”的呈現(xiàn)給用戶。可見,對(duì)于一段視頻,用戶初步看到的是視頻縮略圖的內(nèi)容及對(duì)應(yīng)的標(biāo)注文本,這也是決定其是否點(diǎn)擊并觀看該視頻的關(guān)鍵要素之一。一個(gè)好的視頻縮略圖會(huì)讓這段視頻更有吸引力,所以研究一種能夠自動(dòng)提取有意義且有較好代表性的視頻縮略圖的方法就顯得尤為重要。
對(duì)于標(biāo)注文本,一般由視頻上傳者手動(dòng)輸入,也可通過視頻字幕(video captioning)技術(shù)來自動(dòng)生成。既然有了標(biāo)注文本,縮略圖自然要和文本內(nèi)容相匹配,因此,如何根據(jù)已有標(biāo)注文本為視頻選擇一個(gè)合適的視頻縮略圖就成為一個(gè)值得研究的問題。本文提出一種基于深度視覺語義嵌入的網(wǎng)絡(luò)視頻縮略圖自動(dòng)生成框架,主要針對(duì)給定的一段視頻及描述視頻內(nèi)容的標(biāo)注文本,從視頻中選取出既與標(biāo)注文本內(nèi)容相符又滿足用戶瀏覽體驗(yàn)需求的視頻幀作為該視頻的縮略圖。該方法首先使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)來提取視頻幀的視覺特征,并使用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)來提取標(biāo)注文本的語義特征;然后將視覺特征與語義特征嵌入到視覺語義潛在空間,視覺語義潛在空間是指視覺特征與語義特征具有相同維度與表示方式的空間,以便對(duì)視覺特征與語義特征進(jìn)行相似度匹配;最后按照相似度得分對(duì)視頻幀排序,選出分?jǐn)?shù)最高的一個(gè)視頻幀作為該視頻的縮略圖。同時(shí),該方法還將選出多個(gè)與文本語義內(nèi)容相關(guān)聯(lián)的視頻幀來作為推薦縮略圖呈現(xiàn)給用戶,以提高用戶的可選擇性。為了將選出的得分最高的縮略圖與推薦的縮略圖序列進(jìn)行區(qū)分,本文將前者稱為關(guān)鍵縮略圖,后者稱為推薦縮略圖序列。
本文的貢獻(xiàn)在于:①提出一個(gè)完整的視頻縮略圖推薦框架,該框架能夠根據(jù)描述語句推薦相關(guān)聯(lián)的視頻縮略圖序列;②提出一種深度視覺語義嵌入模型,模型將整個(gè)語句的語義特征與圖像的視覺特征嵌入到共同的潛在空間中以獲得兩者的相關(guān)性;③在已有相關(guān)數(shù)據(jù)集的基礎(chǔ)上,創(chuàng)建適用于本文任務(wù)的數(shù)據(jù)集,并取得較好的結(jié)果。
大部分視頻分享網(wǎng)站都用到了視頻縮略圖自動(dòng)生成技術(shù),但一些視頻分享網(wǎng)站的視頻縮略圖通常是來自于視頻的固定某個(gè)時(shí)序位置(第一幀、最后一幀或者中間幀),或者借助相關(guān)的圖像捕獲工具隨機(jī)從視頻中捕獲一張圖片作為視頻縮略圖。很顯然,這種方法獲取的視頻縮略圖不具有代表性并且選取的圖片質(zhì)量也得不到保證。
為了讓自動(dòng)生成的視頻縮略圖更具有代表性,Gao等[1]提出了一種反映視頻內(nèi)容主題的視頻縮略圖提取算法,他們注意到基于視頻幀顏色和運(yùn)動(dòng)信息等底層特征的所選幀可能不具有語義代表性,所以使用主題標(biāo)準(zhǔn)對(duì)生成縮略圖的關(guān)鍵幀進(jìn)行排序。Lian和Zhang[2]提出使用包含正面人臉信息、側(cè)面人臉信息的高級(jí)視頻特征與包含灰度直方圖、像素值標(biāo)準(zhǔn)方差等低級(jí)視覺信息特征進(jìn)行融合來選擇最后的縮略圖的方法。Jiang和Zhang[3]提出一種矢量量化方法來生成視頻縮略圖,利用視頻時(shí)間密度函數(shù)(VIDF)來研究視頻數(shù)據(jù)的時(shí)間特性,使用獨(dú)立分量分析(ICA)構(gòu)建空間特征。Liu等[4]提出了一種查詢敏感的動(dòng)態(tài)網(wǎng)絡(luò)視頻縮略圖生成方法,所選的縮略圖不僅在視頻內(nèi)容上具有代表性還滿足了用戶的需求。而Zhang等[5]結(jié)合其之前在文獻(xiàn)[6]中所提出的基于圖像質(zhì)量評(píng)估和視覺顯著性分析的視頻縮略圖提取方法以及在文獻(xiàn)[4]中發(fā)表的方法,提出一種綜合考慮圖像質(zhì)量評(píng)估、圖像的可訪問性、圖像的內(nèi)容代表性以及縮略圖與用戶查詢的關(guān)系等因素的方法,推薦出同時(shí)滿足視頻用戶與瀏覽器需求的縮略圖。Zhao等[7]在基于視覺美學(xué)的自動(dòng)縮略圖選擇系統(tǒng)[8]的基礎(chǔ)上提出一種利用視覺元數(shù)據(jù)和文本元數(shù)據(jù)來自動(dòng)合成類似雜志封面形式的視頻縮略圖方法;所推薦的縮略圖不是取自于原視頻,而是通過自動(dòng)合成來得到的。
上述的部分視頻縮略圖選擇方法[2-3,6]都集中于單純從視頻內(nèi)容來學(xué)習(xí)視覺代表性。文獻(xiàn)[1,4-5]研究了如何將查詢與視頻內(nèi)容相結(jié)合來為不同查詢提供不同的縮略圖,但是他們都是使用基于搜索的方法。而Liu等[9]首次引入基于學(xué)習(xí)的方法,將深度視覺語義嵌入模型應(yīng)用到視頻縮略圖生成任務(wù)中,開發(fā)一種多任務(wù)深度視覺語義嵌入模型,將查詢和視頻縮略圖映射到一個(gè)共同的潛在語義空間,直接計(jì)算查詢與視頻縮略圖之間的相似度,使得應(yīng)用可以根據(jù)視覺和邊緣信息自動(dòng)選擇依賴于查詢的縮略圖,但該方法的局限在于所用查詢是以Word Embedding(詞嵌入向量,是指將一個(gè)單詞轉(zhuǎn)換成固定長(zhǎng)度的向量表示形式)嵌入到潛在空間中,且一次只能獲取單個(gè)單詞的Word Embedding表示。對(duì)于查詢語句或者多個(gè)查詢關(guān)鍵詞需要將查詢以單詞的向量形式依次與視頻幀特征進(jìn)行相似度匹配,這種匹配方式忽略了查詢單詞之間的關(guān)聯(lián)信息。此外,文獻(xiàn)[9]中的視頻幀特征只使用簡(jiǎn)單幾層的CNN進(jìn)行提取,所提取的視頻幀特征也不夠豐富。本文提出的基于深度視覺語義嵌入的視頻縮略圖提取方法框架如圖1所示。首先使用預(yù)訓(xùn)練的深度CNN有效地依次提取各關(guān)鍵幀的視覺特征,同時(shí)使用基于RNN的神經(jīng)語言模型將整個(gè)語句的語義特征嵌入到一個(gè)固定的向量,使得語義特征不但包含了單詞之間的關(guān)聯(lián)信息,也更易與視覺特征進(jìn)行相關(guān)性比較。
圖1 基于深度視覺語義嵌入模型的視頻縮略圖推薦框架Fig.1 Video thumbnail recommendation framework based on deep visual-semantic embedding model
基于深度視覺語義嵌入的縮略圖推薦學(xué)習(xí)方法首先需要訓(xùn)練深度視覺語義嵌入模型,然后利用該模型實(shí)現(xiàn)縮略圖推薦。因此本節(jié)首先介紹深度視覺語義嵌入模型,然后介紹整個(gè)視頻縮略圖推薦框架。
深度視覺語義嵌入模型[10],實(shí)現(xiàn)將從文本域中學(xué)習(xí)的語義信息和圖像中的視覺信息共同嵌入到一個(gè)潛在的空間中,以便直接計(jì)算文本與圖像之間的相關(guān)性。并且對(duì)于與圖像內(nèi)容無關(guān)的語義信息也能夠根據(jù)與圖像之間的相關(guān)性,返回相關(guān)性較高的圖像[9]。而本文的任務(wù)就是從視頻中選擇與給定的語句語義相關(guān)的視頻幀作為推薦的視頻縮略圖,因此可利用深度視覺語義嵌入模型來計(jì)算給定的語句信息與視頻幀之間的相關(guān)性。所提出的深度視覺語義嵌入模型框架如圖2所示。首先使用預(yù)訓(xùn)練的CNN依次提取視頻關(guān)鍵幀序列的視覺特征,再使用基于RNN的神經(jīng)語言模型來提取文本的語義特征,并將視覺特征與語義特征嵌入到視覺語義潛在空間。
近年來,RNN由于具有特定的記憶功能已經(jīng)在處理序列問題和自然語言處理等領(lǐng)域取得了很大的成功,所以本文使用RNN的變式即擅長(zhǎng)解決中長(zhǎng)文本序列間依賴問題的門控循環(huán)單元(GRU)[11]來提取單詞之間的依賴信息。對(duì)于給定的描述語句,本文方法不再是簡(jiǎn)單的提取一個(gè)單詞的Word Embedding來作為其特征向量,而是將一句話中的所有單詞都用Word Embedding表示,然后將整句話作為序列輸入GRU單元,最終輸出一個(gè)表達(dá)這句話語義特征的向量,這也是典型的多對(duì)一關(guān)聯(lián)模型,其主要結(jié)構(gòu)如圖3所示,本文方法使用GRU的最后一層隱層狀態(tài)hn,作為語義特征Vs:
圖2 深度視覺語義嵌入模型示意圖Fig.2 Schematic diagram of deep visual-semantic embedding model
式中:w1,w2,…,wn為單詞序列x1,x2,…,xn的Word Embedding形式;n為輸入的單詞個(gè)數(shù)。
本文方法使用預(yù)訓(xùn)練好的 ResNet152模型[12]來提取視頻幀的視覺特征,由于所提方法旨在將視覺特征嵌入到固定的潛在空間,因此需去除ResNet網(wǎng)絡(luò)的最后一層全連接層,并提取最后一個(gè)卷積層的特征得到視覺特征Vi。
將語義特征和視覺特征分別嵌入到一個(gè)N維的潛在空間得到潛在語義特征V′s和潛在視覺特征V′i。為使語義特征向量盡可能地?cái)M合提取到的視覺特征,本文采用均方誤差損失函數(shù):
式中:MSE函數(shù)用于計(jì)算兩個(gè)向量之間的均方誤差;N為潛在空間的維度(本文中是2 048維)。
圖3 神經(jīng)語言模型Fig.3 Neural language model
本節(jié)將介紹如何利用上述深度視覺語義嵌入模型來為一段視頻選擇縮略圖。本過程分為2個(gè)階段,分別是關(guān)鍵幀提取和縮略圖推薦。
2.2.1 關(guān)鍵幀提取
本文方法使用基于順序聚類與K-means聚類相結(jié)合的關(guān)鍵幀提取算法對(duì)視頻進(jìn)行鏡頭分割。參考文獻(xiàn)[13]中的視頻鏡頭分割算法,對(duì)視頻進(jìn)行初步聚類。首先將視頻幀映射到HSV(Hue,Saturation,Value)顏色空間,將3個(gè)顏色空間分別分成12、5和5三個(gè)量級(jí),生成對(duì)應(yīng)的歸一化顏色直方圖。將3個(gè)顏色空間的直方圖結(jié)果組合到一起為每個(gè)視頻幀生成一個(gè)22維的顏色空間向量。再用順序聚類方法對(duì)轉(zhuǎn)換過的視頻幀進(jìn)行鏡頭分割[13]。對(duì)順序聚類后的每個(gè)類的視頻幀依次進(jìn)行清晰度、亮度、色偏檢測(cè),并將最后檢測(cè)的得分進(jìn)行加權(quán)融合,得出圖像質(zhì)量評(píng)價(jià)得分Df,檢測(cè)方法如下:
清晰度檢測(cè):使用Tenengrad梯度函數(shù)來計(jì)算每個(gè)視頻幀的清晰度得分fd,得分越高,圖像越清晰[14]。
色偏檢測(cè):將RGB圖像轉(zhuǎn)變到CIE L*a*b*空間(L*表示明暗度,a*表示紅-綠軸,b*表示黃-藍(lán)軸),通常存在色偏的圖像,在a*分量和b*分量上的均值會(huì)偏離原點(diǎn)很遠(yuǎn),方差也會(huì)偏?。挥?jì)算衡量圖像色偏程度的K因子得到色偏檢測(cè)得分fc,分?jǐn)?shù)越高,圖像色偏越嚴(yán)重[15]。
亮度檢測(cè):與色偏檢測(cè)相似,計(jì)算圖片在灰度圖上的均值和方差,當(dāng)存在亮度異常時(shí),均值會(huì)偏離開均值點(diǎn)(假設(shè)為128);同樣根據(jù)計(jì)算衡量圖像亮度程度的K因子得到亮度檢測(cè)得分fb,分?jǐn)?shù)越高,圖像亮度異常越嚴(yán)重。
最后的圖像質(zhì)量評(píng)價(jià)得分為3種評(píng)價(jià)屬性的得分的加權(quán)融合。本文設(shè)置清晰度檢測(cè)的權(quán)重為0.5,亮度檢測(cè)的權(quán)重為0.3,色偏檢測(cè)的權(quán)重為0.2,由于圖像質(zhì)量與亮度檢測(cè)得分fc以及色偏檢測(cè)得分fb成反比,所以最后的得分Df為
得到每個(gè)視頻幀的圖像質(zhì)量得分Df后,通過分?jǐn)?shù)排序?qū)⒚總€(gè)聚類中分?jǐn)?shù)較低的一半視頻幀過濾掉(對(duì)只包含一個(gè)視頻幀的聚類不進(jìn)行過濾)。獲得過濾后的視頻幀和聚類數(shù)K0。接下來對(duì)過濾后的視頻幀再進(jìn)行K-means聚類,K值設(shè)置為K0,得到最后的鏡頭分割結(jié)果。
如圖4所示,將視頻幀進(jìn)行鏡頭分割后,需要從每個(gè)鏡頭中提取能夠充分代表視頻鏡頭的視頻幀添加到關(guān)鍵幀序列以及為每個(gè)視頻鏡頭挑選候選縮略圖序列。
關(guān)鍵幀序列是從每個(gè)視頻鏡頭中挑選出最具代表性的一個(gè)視頻幀組成的序列,其將作為視覺語義嵌入模型的輸入以獲得關(guān)鍵幀的視覺特征序列。模型輸出關(guān)鍵幀的視覺特征序列中與輸入的文本語義特征相關(guān)性最高的視覺特征所對(duì)應(yīng)的關(guān)鍵幀作為關(guān)鍵縮略圖。
候選縮略圖序列是對(duì)關(guān)鍵幀序列的擴(kuò)充,從每個(gè)視頻鏡頭中挑選最具代表性的某幾個(gè)視頻幀,組成該視頻鏡頭的候選縮略圖序列。每個(gè)視頻鏡頭都有一個(gè)候選縮略圖序列,它們之間是獨(dú)立的。如果關(guān)鍵縮略圖屬于這個(gè)視頻鏡頭,那么這個(gè)鏡頭的候選縮略圖序列就會(huì)成為最后的推薦縮略圖序列。
圖4 基于已訓(xùn)練模型的視頻縮略圖推薦框架Fig.4 Video thumbnail recommendation framework based on trained model
為了從每個(gè)鏡頭中提取合適的視頻關(guān)鍵幀,本文使用熵值來作為視頻信息量的度量,熵值越大,表明圖像的信息越豐富,越具有代表性,在本文中,分別計(jì)算HSV三個(gè)顏色空間的熵值,其計(jì)算式為
式中:Pk為每個(gè)視頻幀生成歸一化顏色直方圖的值。然后分別計(jì)算出H 分量的熵值E(fh),m=12;S分量的熵值E(fs),m=5;以及V分量的熵值E(fv),m=5。由于人眼對(duì)Hue的敏感性比對(duì)Saturation和Value高[11],所以本文中對(duì)H、S、V三個(gè)分量的熵值分別賦0.5、0.3、0.2的權(quán)重,最終的熵值E(f)為
得到視頻鏡頭中每個(gè)視頻幀的熵值E(f)后,本文提取每個(gè)鏡頭中熵值最大的視頻幀作為該鏡頭的關(guān)鍵幀添加到關(guān)鍵幀序列。提取熵值最大的前5個(gè)視頻幀(不足5幀的鏡頭取全部視頻幀)作為該鏡頭的候選縮略圖序列。所以每個(gè)鏡頭的關(guān)鍵幀也包含在該鏡頭的候選縮略圖序列中。由于聚類數(shù)是由順序聚類結(jié)果而定,所以聚類數(shù)(視頻鏡頭數(shù))是不固定的,取得的關(guān)鍵幀序列的數(shù)量也是不固定的。
2.2.2 縮略圖推薦
縮略圖推薦,如圖4所示,獲取關(guān)鍵幀序列之后需要對(duì)所有的關(guān)鍵幀進(jìn)行視覺特征提取得到視覺特征序列Vi1,Vi2…,ViN,并將這些視覺特征都映射到視覺語義潛在空間中。對(duì)于輸入文本,使用2.1節(jié)中訓(xùn)練好的神經(jīng)語言模型提取語義特征Vs,并將其也映射到視覺語義潛在空間中。分別計(jì)算潛在語義特征V′s與潛在視覺特征序列,…,V′iN之間的余弦相似度,相似度最大的視覺特征所對(duì)應(yīng)的關(guān)鍵幀將作為關(guān)鍵縮略圖。為了增加推薦縮略圖的多樣性與可選擇性,如果某個(gè)關(guān)鍵幀被選取作為關(guān)鍵縮略圖,由于與關(guān)鍵縮略圖在同一個(gè)視頻鏡頭中的視頻幀可能具有相同的視覺特征,因此將關(guān)鍵縮略圖所在鏡頭的候選縮略圖序列作為最后的推薦縮略圖序列。顯然,推薦的縮略圖序列,必然包含關(guān)鍵縮略圖,推薦的縮略圖序列最少包含1幀,最多包含5幀。
本文的關(guān)鍵是訓(xùn)練深度視覺語義嵌入模型,在訓(xùn)練階段需要采用深度學(xué)習(xí)中的有監(jiān)督學(xué)習(xí)方法,所以首先要解決的就是數(shù)據(jù)集問題。已存在的縮略圖生成方法都是在圖像質(zhì)量評(píng)價(jià)或建立關(guān)聯(lián)模型等圖像處理的層面來獲取對(duì)應(yīng)的縮略圖,并且都是依賴于選擇算法的縮略圖生成方法。所以目前還沒有專門針對(duì)縮略圖推薦任務(wù)的數(shù)據(jù)集可供訓(xùn)練,本文只能自行收集或者對(duì)已有的相關(guān)數(shù)據(jù)集進(jìn)行改動(dòng)使其滿足對(duì)本任務(wù)的訓(xùn)練。
首先考慮的是微軟的MS COCO 2014[16]數(shù)據(jù)集,該數(shù)據(jù)集中包含8萬多張訓(xùn)練圖片,4萬多張測(cè)試圖片,由于該數(shù)據(jù)集是做圖像字幕(image captioning)任務(wù)常用的數(shù)據(jù)集,所以每張圖片都有5個(gè)左右的人工標(biāo)注文本語句來對(duì)圖像內(nèi)容進(jìn)行描述。圖像字幕任務(wù)是輸入一張圖片得到一個(gè)描述該圖像內(nèi)容的句子,本文提出的基于深度視覺語義嵌入的視頻縮略圖推薦任務(wù),雖然是基于視頻的任務(wù),但實(shí)質(zhì)上是根據(jù)輸入一句視頻描述文本,從視頻中獲取與文本內(nèi)容相關(guān)聯(lián)的一張圖像。相比于圖像字幕任務(wù),本文的任務(wù)是從文本到圖像的一個(gè)相反的過程,所以可以將MS COCO 2014數(shù)據(jù)集中的標(biāo)注語句作為模型的訓(xùn)練數(shù)據(jù),將圖片作為目標(biāo)值來進(jìn)行模型的訓(xùn)練,獲得用于訓(xùn)練的{語句,縮略圖}對(duì)。
另一個(gè)數(shù)據(jù)集是微軟的MSR-VTT(MSR Video-to-Text)[17],該數(shù)據(jù)集是用來做視頻相關(guān)任務(wù),比如視頻字幕。數(shù)據(jù)集中每段視頻大約有20條描述性語句,每段視頻時(shí)長(zhǎng)在20 s以內(nèi)。由于本文的訓(xùn)練目標(biāo)是獲得圖像,所以需要對(duì)此數(shù)據(jù)集進(jìn)行重新標(biāo)注,生成適合本任務(wù)的數(shù)據(jù)集。本文根據(jù)MSR-VTT數(shù)據(jù)集提供的描述性語句從對(duì)應(yīng)的視頻中選出與語句內(nèi)容最相關(guān)并且視覺效果較好的視頻幀,組成訓(xùn)練需要的{語句,縮略圖}對(duì)。由于該數(shù)據(jù)集中有很多存在偏義以及無法從視頻中獲得相關(guān)視頻幀的描述語句,所以本文對(duì)原數(shù)據(jù)集提供的描述語句進(jìn)行了篩選,每段視頻只留取10句左右的描述語句。之所以要在MS COCO 2014數(shù)據(jù)集訓(xùn)練后還用這個(gè)視頻數(shù)據(jù)集來訓(xùn)練是因?yàn)镸S COCO 2014數(shù)據(jù)集圖片之間的差異較大,圖片之間以及標(biāo)注文本之間的關(guān)聯(lián)性較小,不利于細(xì)節(jié)處的學(xué)習(xí)。而從MSR-VTT數(shù)據(jù)集中選出的句子有些來源于同一段視頻,所以語句之間的關(guān)聯(lián)性較大,而對(duì)應(yīng)的圖片之間也會(huì)存在一定的聯(lián)系,更有利于模型的學(xué)習(xí)。最后從MSR-VTT數(shù)據(jù)集的前400段視頻中收集了4 000多個(gè)描述語句以及對(duì)應(yīng)的800多個(gè)視頻幀,其中不同的標(biāo)注文本可能會(huì)對(duì)應(yīng)同一個(gè)視頻幀,最后得到包含4 000多個(gè){語句,縮略圖}對(duì)的數(shù)據(jù)集。
3.2.1 文本預(yù)處理
所使用的語料庫來源于MS COCO 2014數(shù)據(jù)集中的標(biāo)注文本。首先將所有標(biāo)注語句中的單詞都轉(zhuǎn)化為小寫形式,然后使用NLTK工具包中的word_tokenize函數(shù)對(duì)句子進(jìn)行分詞處理,并將標(biāo)點(diǎn)符號(hào)都移除。對(duì)每個(gè)單詞出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計(jì),將出現(xiàn)頻率小于3次的單詞移除。再加上<pad><unk>這2個(gè)補(bǔ)齊和補(bǔ)缺的標(biāo)注符,一共得到8 576個(gè)單詞的語料庫。對(duì)于輸入的文本語句,需要將語句中單詞映射成詞匯表中對(duì)應(yīng)的單詞序列號(hào),并且將每條語句的長(zhǎng)度都設(shè)置為30,語句長(zhǎng)度不夠就用<pad>對(duì)應(yīng)的序列號(hào)補(bǔ)齊,在語料庫中找不到對(duì)應(yīng)單詞則用<unk>對(duì)應(yīng)的序列號(hào)代替。
3.2.2 圖像預(yù)處理
訓(xùn)練階段的縮略圖圖像以及測(cè)試階段的視頻關(guān)鍵幀在進(jìn)行視覺特征提取之前,需要將圖像縮放到224×224大小。然后使用預(yù)訓(xùn)練的Res-Net152網(wǎng)絡(luò)模型對(duì)圖像進(jìn)行特征提取,并將最后一個(gè)卷積層的特征保存下來,得到一個(gè)2 048維的特征向量。
3.2.3 參數(shù)設(shè)置
訓(xùn)練模型階段:數(shù)據(jù)集形式為{語句,縮略圖}對(duì),潛在語義空間的維度是2 048維。訓(xùn)練神經(jīng)語言模型時(shí),設(shè)置Word Embedding維度為512,輸出的語義特征維度為2 048。由于2個(gè)數(shù)據(jù)集的規(guī)格不同,需要對(duì)其進(jìn)行分開訓(xùn)練,先在MS COCO 2014數(shù)據(jù)集上進(jìn)行訓(xùn)練,設(shè)置BatchSize為128,學(xué)習(xí)率為0.001,學(xué)習(xí)了2個(gè)epoch。然后在MS COCO 2014訓(xùn)練的基礎(chǔ)上再在處理過的MSR-VTT數(shù)據(jù)集上進(jìn)行訓(xùn)練,設(shè)置BatchSize為16,學(xué)習(xí)率為0.001,學(xué)習(xí)了100個(gè)epoch。所有的參數(shù)都使用Adam優(yōu)化器進(jìn)行優(yōu)化。
在生成縮略圖階段:首先對(duì)視頻每6幀提取一幀作為視頻的輸入,在進(jìn)行順序聚類時(shí),經(jīng)過多次實(shí)驗(yàn)將閾值設(shè)置為0.85。順序聚類所得的聚類數(shù)作為K-means聚類的K值。
為了有效地對(duì)本文提出的框架進(jìn)行評(píng)估,本文分別從YouTube和優(yōu)酷網(wǎng)站下載了不同類別的視頻來測(cè)試該框架推薦的視頻縮略圖的效果。用于測(cè)試的視頻類別主要有:教育、娛樂、電影、游戲與卡通、新聞與政治、生活、體育等。使用擊中率HIT@l[9]作為評(píng)價(jià)指標(biāo),即推薦的縮略圖序列中如果有與描述語句的語義內(nèi)容相匹配的縮略圖則為擊中,反之如果推薦的縮略圖序列中的所有縮略圖與語句描述之間都不相關(guān)的話則為不擊中。本文為了合理地顯示實(shí)驗(yàn)結(jié)果,共設(shè)置了3個(gè)等級(jí):A表示推薦的縮略圖序列中有與語義內(nèi)容完全相關(guān)的縮略圖,稱為完全擊中;B表示推薦的縮略圖序列中有與語義內(nèi)容部分相關(guān)的縮略圖,稱為一般擊中;C表示推薦的縮略圖序列與所給出的語義內(nèi)容完全不相關(guān),稱為完全不擊中。
本文為每個(gè)類別各選取2~4段視頻,每個(gè)視頻時(shí)長(zhǎng)在3 min左右,且都包含了多個(gè)場(chǎng)景的切換。針對(duì)每段視頻,結(jié)合所給的5個(gè)描述文本語句,分別進(jìn)行縮略圖推薦。根據(jù)每個(gè)描述文本語句從對(duì)應(yīng)的視頻中挑選出關(guān)鍵縮略圖作為默認(rèn)縮略圖,同時(shí)返回1~5個(gè)視頻幀作為推薦的縮略圖序列供用戶選擇。
本文采用主觀評(píng)價(jià)的方式來測(cè)定方法的有效性,邀請(qǐng)10位了解過視頻縮略圖任務(wù)的用戶對(duì)本文方法的推薦結(jié)果進(jìn)行了主觀打分評(píng)價(jià)。即針對(duì)每段視頻的每條描述文本語句所推薦的縮略圖序列,結(jié)合上述給出的3個(gè)評(píng)價(jià)等級(jí)來對(duì)推薦的結(jié)果進(jìn)行評(píng)價(jià),在實(shí)驗(yàn)測(cè)試集上獲得的評(píng)價(jià)結(jié)果如表1所示。從擊中率可以看出,所提方法對(duì)生活、電影與娛樂類視頻所推薦的視頻縮略圖有較好的效果,而對(duì)游戲與動(dòng)畫、教育類的視頻效果不是很理想。
圖5給出了部分推薦縮略圖示例,每個(gè)示例的第一個(gè)視頻幀即是選出的關(guān)鍵縮略圖,剩余為推薦的縮略圖序列。其中圖5(a)顯示的是完全擊中的視頻縮略圖(生活類視頻的推薦結(jié)果),圖5(b)顯示的是完全沒有擊中的視頻縮略圖(體育類視頻的推薦結(jié)果)。從圖5(a)中可以看出,針對(duì)每個(gè)描述文本語句,可得到1~5幅推薦縮略圖,推薦的縮略圖與給出的語句內(nèi)容完全相符,而且縮略圖序列具有一定的豐富性,增加了用戶的可選擇性;但從圖5(b)中看出,該方法針對(duì)體育類的視頻效果并不是很好,一方面是因?yàn)轶w育類的視頻包含較多的大幅度運(yùn)動(dòng),不能很好地提取和表征其視覺特征;另一方面是所采用的描述文本語句,如果其本身較復(fù)雜不易被理解,則會(huì)影響所提取的語義特征表達(dá),最終使得本文所描述的視覺語義嵌入模型不能很好的擬合。
表1 不同類別網(wǎng)絡(luò)視頻的擊中率Table 1 Hit r ates of web videos in different categories
圖5 本文方法所獲得的推薦縮略圖序列示例Fig.5 Examples of recommended thumbnail sequence obtained by proposed method
此外,由于不是在專門的縮略圖推薦評(píng)測(cè)視頻集上測(cè)試,且訓(xùn)練集中所使用的{語句,縮略圖}對(duì)中縮略圖特征表達(dá)受限,所以本文方法目前對(duì)于通俗簡(jiǎn)單易懂的描述文本語句有較好的效果,而對(duì)描述復(fù)雜理解偏難的語句,并不能較好地推薦出合適的縮略圖序列,因此還具有很大的改進(jìn)空間。
1)本文針對(duì)網(wǎng)絡(luò)視頻縮略圖的自動(dòng)推薦問題,提出一種深度視覺語義嵌入模型和縮略圖推薦框架,實(shí)現(xiàn)了將圖片的視覺信息與語句的語義信息嵌入到共同的潛在空間。
2)本文提出的框架能有效地根據(jù)給定的描述語句為用戶推薦內(nèi)容相關(guān)且具有視覺代表性的視頻縮略圖序列。20段3 min左右的視頻,100條描述語句,推薦的縮略圖序列完全擊中率為35.0%,完全擊中與一般擊中的總比率為68.3%。
3)本文提出的框架能夠?yàn)橛脩敉扑]細(xì)節(jié)多樣化的縮略圖,推薦的縮略圖語義場(chǎng)景相同但具體細(xì)節(jié)不同,增加了用戶的可選擇性。
4)對(duì)視頻表觀內(nèi)容有較好描述的文本語句,能夠獲得更好的縮略圖推薦結(jié)果;但對(duì)視頻中的運(yùn)動(dòng)信息表征識(shí)別能力偏弱,導(dǎo)致縮略圖推薦結(jié)果受影響。
由于沒有專門針對(duì)本文任務(wù)的數(shù)據(jù)集,所訓(xùn)練模型的準(zhǔn)確度還有待改進(jìn)。今后也需要在關(guān)鍵幀提取以及語料庫上進(jìn)行算法調(diào)整,以便進(jìn)一步提高模型的準(zhǔn)確度。