李想
(武漢郵電科學(xué)研究院湖北武漢430000)
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,數(shù)據(jù)量呈指數(shù)式的增長,伴隨著移動互聯(lián)網(wǎng)的浪潮,我們真正進入了大數(shù)據(jù)時代。于此同時,視頻作為網(wǎng)絡(luò)數(shù)據(jù)的重要組成部分,其數(shù)目也在飛速增長,如何管理這些視頻信息,已成為很棘手的問題。視頻檢索技術(shù)的出現(xiàn)使得我們能提取視頻關(guān)鍵信息,而深度學(xué)習(xí)的出現(xiàn)使得我們能對視頻中敏感信息進行高效準確的分類,從而能得到敏感信息。
第二部分是基于深度學(xué)習(xí)的分類模型,該模型用于將得到的關(guān)鍵幀進行分類,檢索我們需要的信息。本文設(shè)計了一種基于深度學(xué)習(xí)的網(wǎng)絡(luò)模型VGG16,它是一種卷積神經(jīng)網(wǎng)絡(luò)。由一系列的偏置項和權(quán)重項的神經(jīng)元組成,每個神經(jīng)元都接受若干輸入,并進行點積計算。將結(jié)果進行非線性處理,最后通過分數(shù)函數(shù)進行預(yù)測。整體設(shè)計流程圖如圖1所示。
圖1 總體設(shè)計流程圖
本文設(shè)計分為兩部分,第一部分為視頻關(guān)鍵幀提取部分,設(shè)計一種算法從一段視頻中提取一段關(guān)鍵幀序列,用來代表整段視頻的主要內(nèi)容。該算法對整段視頻進行鏡頭邊界檢測,對于任何一個鏡頭,我們將第n/2作為其關(guān)鍵幀,然后生成一個視頻關(guān)鍵幀候選的序列,對該段序列進行K-Means聚類,通過聚類的有效性分析方法選取最佳的聚類數(shù)量。最后對于每一類選取聚類中心的幀作為視頻的關(guān)鍵幀[1-4]。
本文設(shè)計的關(guān)鍵幀提取算法分為3部分:視頻特征的提取、視頻邊界檢測、關(guān)鍵幀序列的聚類。
特征,即對應(yīng)某一對象某些可量化的屬性。對于視頻來說,主要分為通用性特征和針對特定領(lǐng)域的特征[5-6]。針對視頻的多樣性,本文考慮的是通用性特征??偨Y(jié)考慮到關(guān)鍵幀提取速度、圖像特征提取的高效性,圖像特征選為顏色直方圖和顏色分部描述子。
一般來說圖像顏色的表示都是基于顏色空間的,例如 RGB、HSV、YCbCr等[7-8]。本文設(shè)計的算法是在HSV顏色空間中生成的顏色直方圖,其中H分為16份,S和V分為4份,所以生成了256個直方圖索引。首先對直方圖索引進行初始化即:Hist(h,s,v)=0,直方圖的兩幀fi和fj的相似度可以定義為:
其中0表示兩圖的顏色直方圖差距最大,1表示相同。對于顏色分部描述子,它是用來描述圖像中顏色的空間分部該特征提取過程分為:圖像分塊,即屬于圖像分為64個等大的區(qū)域;主導(dǎo)顏色選擇,即每一塊選取一個主導(dǎo)顏色并生成一個8*8的微縮圖;對64個像素的Y、Cb、Cr分量進行離散余弦變換,得到3組系數(shù);最后對得到的離散余弦洗漱進行Zigzag掃描,從中選取少量的低頻系數(shù)構(gòu)成改頭像的分部描述子。分別記為Dy、DCb、DCr.此時定義幀fi和幀fj之間的距離為
其中DYik表示幀fi的Y分量的離散余弦系數(shù)的第k項,wYK對應(yīng)其權(quán)重;越接近0表示兩幀圖像越相似,圖像描述子方便在不進行視頻切割的情況下,對圖像進行快速檢索。
本文的邊界檢測基于突變型的鏡頭切換,根據(jù)視頻領(lǐng)域變換的特點,給出了鏡頭邊界系數(shù)的定義,該系數(shù)抗噪能力強。設(shè)鄰域窗的寬度為2N+1,所以第i幀的鄰域窗幀差為:
其中K=N(N+1)/2。相對而言,鏡頭內(nèi)的變化比鏡頭間的變化小的多;若鏡頭內(nèi)任意兩幀距離為Ds,鏡頭間為Db,顯然Ds<<Db,若此時N取3,切第K幀和第K+1幀發(fā)生鏡頭突變,則可得去常數(shù)序列Osw(j)為(1,3,6,6,3,1),定義第i幀鏡頭邊界相似系數(shù):
根據(jù)前面所得,當(dāng)相鄰幀之間切換時,鏡頭邊界相似系數(shù)接近1,其余情況下為0與1之間一個較小的值。圖2為某段視頻的視頻邊界系數(shù)。
圖2 視頻邊界系數(shù)圖
圖中的峰值點對應(yīng)于鏡頭切換,非邊界處鏡頭邊界系數(shù)較小,這使我們更好的選取閾值,本文中取0.85,當(dāng)且僅當(dāng)鏡頭邊界系數(shù)大于該值時,我們認為檢測到了鏡頭邊界。
由于同一鏡頭可能重復(fù)出現(xiàn),這將導(dǎo)致我們得到的關(guān)鍵幀序列出現(xiàn)重復(fù),為了降低最終得到的關(guān)鍵幀序列的重復(fù)性,我們對關(guān)鍵幀序列進行了聚類操作:即K均值聚類,最后通過聚類的有效性方法確定K值[9-10]。
本文的評價方案是M.Halkidi提出的,定義了聚類性能指標SD(c)=aScat(c)+dis(c),其中Scat(c)為單一類的類內(nèi)距離,a為Dis(c)表示類之間的距離,由于此兩項的取值范圍相差較大,故設(shè)置一個權(quán)重因數(shù)a,也就是Dis(cmax),其中cmax為最大預(yù)設(shè)聚類數(shù)量。當(dāng)且僅當(dāng)該值最小時取得的c,為最優(yōu)聚類數(shù)量。
文中用到的神經(jīng)網(wǎng)絡(luò)是基于卷積神經(jīng)網(wǎng)絡(luò),它是由一系列的偏置項和權(quán)重向的神經(jīng)元組成[11-15]。具體結(jié)構(gòu)如圖3所示。
VGG16模型是一種卷積神經(jīng)網(wǎng)絡(luò)模型,數(shù)據(jù)通過帶有偏置項和權(quán)重項的神經(jīng)元輸入,然后進行點積,對結(jié)果進行非線性處理和分數(shù)函數(shù)預(yù)測。本文應(yīng)用的VGG16模型采用BP算法來求解目標函數(shù),采用將輸出的算是函數(shù)誤差反向傳播到各層的輸出單元上,求解權(quán)重梯度,之后更新權(quán)重參數(shù)。利用BP算法反復(fù)迭代減少誤差,以此來完成整個模型的訓(xùn)練。
圖3 VGG16模型結(jié)構(gòu)圖
訓(xùn)練過程中學(xué)習(xí)率為0.01,動量為0.9,權(quán)值衰減為0.000 5,每迭代10個epoch學(xué)習(xí)率衰減10倍,每迭代100次顯示一次,最大迭代次數(shù)為30個epoch。
本部分主要對上文中設(shè)計的網(wǎng)絡(luò)模型進行測試和并通過對比選出最優(yōu)結(jié)果。選取如表1所示的樣本集。
表1 各類訓(xùn)練集和測試集樣本數(shù)一覽表
針對Others類(安全類,負樣本)非常多,其它不安全類所占比例非常?。?50:1)的問題,提出在訓(xùn)練分類模型時,增大Others類訓(xùn)練樣本在整個訓(xùn)練集中所占的比例。這里我們實驗了3個模型,其它不安全類訓(xùn)練樣本數(shù)不變,Others類樣本數(shù)分別為25 000、50 000、100 000。并通過我們設(shè)計的模型進行訓(xùn)練,結(jié)果如表2~4所示。
其中,TP為系統(tǒng)檢索到的相關(guān)文件數(shù),TP+FN為系統(tǒng)所有相關(guān)的文件總數(shù),TP+FP為系統(tǒng)所有檢索到的文件總數(shù),Recall為系統(tǒng)召回率,Precision為系統(tǒng)準確率。
把表格結(jié)果各個類的召回率和準確率用折線圖表示出來如圖4所示,橫坐標表示Others類樣本數(shù)增加:
表2 訓(xùn)練集Others類樣本數(shù)為25 000
表3 訓(xùn)練集Others類樣本數(shù)為50 000
表4 訓(xùn)練集Others類樣本數(shù)為10 0000
由圖表實驗結(jié)果可以看出,隨著Others類訓(xùn)練集樣本數(shù)增加,系統(tǒng)平均Recall(召回率)下降,Precision(準確率)上升。當(dāng)Others類訓(xùn)練集樣本數(shù)為50 000時,系統(tǒng)平均召回率為0.793 158,準確率為0.719 958。當(dāng)Others類訓(xùn)練集樣本數(shù)為100 000時,系統(tǒng)平均召回率為0.755 652,準確率為0.723 318。兩個模型都滿足要求。從折線圖可以看出,隨Others類訓(xùn)練集樣本數(shù)增加,系統(tǒng)召回率下降較快,并且有一半以上的類在Others類訓(xùn)練集樣本數(shù)為50 000時,準確率最高。所以我們認為當(dāng)Others類訓(xùn)練樣本數(shù)為50 000時,模型分類效果最好。
圖4 Others類增加時類召回率(圖a)與類準確率(圖b)曲線圖
本文針對視頻中如何快速檢索敏感信息的問題,首先通過基于邊界相似系數(shù)的關(guān)鍵幀提取算法提取能表示視頻主要內(nèi)容的關(guān)鍵幀,然后可以通過應(yīng)用的VGG16模型進行敏感信息快速檢索。為了驗證該模型的有效性及最優(yōu)性,文章最后對該模型進行測試驗證,并通過改變Others類的數(shù)目對比試驗,確定了最優(yōu)模型。
[1]曹長青.基于內(nèi)容的視頻檢索中關(guān)鍵幀提取算法研究[D].太原:太原理工大學(xué),2013.
[2]汪翔.基于內(nèi)容的視頻檢索關(guān)鍵技術(shù)研究[D].合肥:安徽大學(xué),2012.
[3]惠雯,趙海英,林闖,等.基于內(nèi)容的視頻取證研究[J].計算機科學(xué),2012,39(1):27-31.
[4]夏潔,吳健,陳建明,等.基于虛擬檢測線的交通視頻關(guān)鍵幀提取[J].蘇州大學(xué)學(xué)報:工科版.2010,30(2):1-5.
[5]Jia Y,Shelhamer E,Donahue J,et al.Caffe:Convolutional architecture for fast feature embedding[C].ACM Multimedia,2014.
[6]Ross Girshick,Jeff Donahue,Trevor Darrell,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[J].Computer Science,2013:580-587.
[7]Pass G,Zabih R.Histogram refinement for content-based image retrieval[C]//IEEE Workshop on Applications ofComputer Vision.IEEE Computer Society,2012:96-102.
[8]He K,Zhang X,Ren S,et al.Deep residual learning for image recognition[J]. Computer Science,2015.
[9]Angadi S,Naik V.Entropy based fuzzy c means clustering and key frame extraction for sports video summarization[C]//Signal and Image Processing(ICSIP),2014 Fifth International Conference on.IEEE,2014:271-279.
[10]Charikar M S.Similarity estimation techniques from rounding algorithms[C]//Thiry-Fourth ACM Symposium on Theory of Computing.ACM,2010:380-388.
[11]Yoo D,Park S,Lee J Y,et al.Multi-scale pyramid pooling for deep convolutional representation[C]//Computer Vision and Pattern Recognition Workshops.IEEE,2015:71-80.
[12]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[J].Advances in Neural Information Processing Systems,2012,25(2):2012.
[13]Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition[J].Eprint Arxiv,2014.
[14]Yoo D,Park S,Lee J Y,et al.Multi-scale pyramid pooling for deep convolutional representation[C]//Computer Vision and Pattern Recognition Workshops.IEEE,2015:71-80.
[15]Szegedy C,Liu W,Jia Y,et al.Going deeper with convolutions[C].ComputerVision and Pattern Recognition,2015.