張佳豪 千博
摘 要:關(guān)鍵幀提取技術(shù)是視頻檢索領(lǐng)域的一個核心問題。關(guān)鍵幀提供了視頻的主要內(nèi)容,能減少視頻存儲占用空間。文章提出了一種基于MI-SURF特征的關(guān)鍵幀提取算法。該算法融合互信息熵和SURF圖像局部特征來提取關(guān)鍵幀。實驗結(jié)果表明,該算法所得的關(guān)鍵幀能有效表示視頻內(nèi)容。
關(guān)鍵詞:互信息熵;SURF特征點;關(guān)鍵幀提??;HSV顏色空間
隨著多媒體技術(shù)和視頻監(jiān)控技術(shù)的進一步發(fā)展,視頻數(shù)據(jù)大量充斥在我們周邊,在規(guī)定的時間內(nèi)檢索出視頻的關(guān)鍵幀具有重要意義。
此前,研究人員已經(jīng)提出了多種關(guān)鍵幀提取算法。Zhao等[1]提出利用邊緣直方圖和平均灰度直方圖的方法來提取關(guān)鍵幀,該方法主要缺點是內(nèi)容覆蓋率不高。Sun等[2]結(jié)合互信息(Mutual Information,MI)和圖像熵來提取關(guān)鍵幀。Barbieri等[3]提出利用尺度不變特征轉(zhuǎn)換(Scale Invariant Feature Transform,SIFT)局部興趣點來提取關(guān)鍵幀。
本文提出基于MI-SURF特征的關(guān)鍵幀提取算法。首先,將輸入的視頻序列轉(zhuǎn)換到HSV顏色空間。然后,根據(jù)相鄰兩幀之間的互信息熵的大小確定視頻突變邊界,將視頻分割成不同的視頻子集,最后根據(jù)視頻子集的互信息熵和視頻幀的加速穩(wěn)健特征(Speeded Up Robust Features,SURF)來提取關(guān)鍵幀。
1 理論基礎(chǔ)
1.1 HSV顏色空間
HSV顏色空間比RGB空間更能精確反映圖像的灰度變化和顏色變化,根據(jù)HSV顏色空間的定義,對于任意像素點R、G、B的分量值,其對應(yīng)的HSV顏色空間中H、S、V的分量值由如下公式[4]計算得出。
1.3 SURF特征
SIFT特征[8]是一種穩(wěn)定的具有代表性的局部興趣點,是一個128維的特征向量。它對旋轉(zhuǎn)、顏色、拍攝視角具有尺度不變性。在SIFT特征的基礎(chǔ)上,Bay等[9]提出了SURF特征。SURF特征除具有SIFT特征的尺度不變特性,還在提取圖像特征點上比SIFT快。
2 本文算法
為了能夠準(zhǔn)確提取視頻關(guān)鍵幀,本文提出了基于MI-SIFT特征的關(guān)鍵幀提取算法。該算法首先將視頻V{f1,f2,……fn}轉(zhuǎn)換到HSV顏色空間。接著,計算相鄰兩幀圖像互信息熵I(fk,fk+1),利用I(fk,fk+1)衡量兩幀圖像的相似度,如果I(fk,fk+1)T(T為設(shè)定的互信息熵標(biāo)準(zhǔn)差閾值),根據(jù)SURF特征點匹配算法選取關(guān)鍵幀,否則選取視頻子集vk的中的第一幀作為部分關(guān)鍵幀。本文算法的核心流程如圖1所示。
2.1 互信息熵特征提取
關(guān)鍵幀提取要選取合適準(zhǔn)確的特征來表示視頻圖像的主要信息。本文首先采用互信息熵標(biāo)準(zhǔn)差δk對視頻子集vk進行關(guān)鍵幀提取。算法實現(xiàn)過程如下。
Step1 根據(jù)互信息熵分割形成視頻片段集 V{v1,v2,……vk},計算每個vk相鄰兩幀的互信息熵的集合INK={I1,2,I2,3……Ik,k+1}。
Step2 計算每個視頻子集vk的互信息熵標(biāo)準(zhǔn)差δk。
Step3 比較δk與互信息熵標(biāo)準(zhǔn)差閾值T的大小,如果δk 2.2 SURF特征點匹配算法 對于vk的關(guān)鍵幀候選集KCS,需要提取多個關(guān)鍵幀。本文采用SURF特征匹配算法來提取關(guān)鍵幀。算法步驟如下。 Step1 首先將vk的KCS中第一幀作為VKS的第一個關(guān)鍵幀,保證VKS不為空,至少有一個關(guān)鍵幀。 Step2 將KCS中每一幀的SURF特征向量與VKS中每一幀的SURF特征向量進行相似性測量。當(dāng)兩幀相似性SURF特征向量大于10%,則認(rèn)為兩幀是相似的。這里特征向量相似性測量采用Zhao等[10]提出的OOS(One-to-One Symmetric)算法。反之,將該幀加入VKS中。 Step3 對每一個視頻子集vk重復(fù)進行 Step1、Step2,最終得到一系列的關(guān)鍵幀集合VKS。將所有VKS取并集得到整個視頻關(guān)鍵幀。 3 實驗結(jié)果分析 為了檢測本文算法的有效性,選擇 Windows10,Intel Corei5,8GB內(nèi)存的計算機以及MatlabR2017b作為開發(fā)平臺測試算法。實驗中選取了20個不同場景下的視頻進行測試,并確定各參數(shù)的值。S參數(shù)是一個經(jīng)驗值,在本實驗中,設(shè)定S=7.3,T參數(shù)是所有視頻子集vk的互信息熵標(biāo)準(zhǔn)差的平均值。為驗證本文算法的有效性,將本文算法與基于K-means聚類[11]的關(guān)鍵幀提取算法進行比較,比較結(jié)果如圖2—3所示。 圖2檢測到3個關(guān)鍵幀,圖3檢測到8個關(guān)鍵幀。其中,圖3存在1幀冗余。通過分析原始視頻發(fā)現(xiàn),視頻中人進行一次完整的喝水過程可分解為4個動作,包括喝水前手握水杯動作,將水杯移到嘴唇動作,喝水動作,仰起頭喝水動作,放下水杯動作。圖2僅僅檢測到手握水杯和將水杯移到嘴唇的動作。據(jù)此可以判斷圖3對視頻內(nèi)容的表達更加精準(zhǔn)。 由以上分析可知,本文提出的基于MI-SURF特征的關(guān)鍵幀提取算法優(yōu)于K-means聚類的關(guān)鍵幀提取算法,能夠較完整地表達出原視頻的主要內(nèi)容?;贙-means聚類的關(guān)鍵幀提取算法與本文算法比較,存在較多漏檢幀,對視頻中內(nèi)容的表達不夠完整。
4 結(jié)語
針對原始視頻關(guān)鍵幀提取中存在漏檢和冗余的問題,本文提出了基于MI-SURF特征的關(guān)鍵幀提取算法,在HSV顏色空間上,利用互信息熵將視頻分割成不同的視頻子集,在每一個視頻子集中,利用互信息熵標(biāo)準(zhǔn)差和SURF特征來提取關(guān)鍵幀。通過實驗證明,該算法對于原始視頻還原度好,能夠準(zhǔn)確地表達原視頻內(nèi)容。
[參考文獻]
[1]ZHAO X,LIU J,HU G,et al.Adaptive key-frame selection based on image features in Distributed Video Coding[C].Jiuzhai:International Conference on Computational Problem-Solving,2013 .
[2]SUN L N,ZHOU Y H.A key frame extraction method based on mutual information and image entropy[C].Hangzhou:International Conference on Multimedia Technology,2011 .
[3]BARBIERI T T D S,GOULARTE R. KS-SIFT: a keyframe extraction method based on local features[C].Taichung:International Symposium on Multimedia,2014 .
[4]YOON I,KIM S,KIM D,et al.Adaptive defogging with color correction in the HSV color space for consumer surveillance system[J].IEEE Transactions on Consumer Electronics,2012(1):111-116.
[5]ZIZHU F,ERGEN L.New approach on image retrieval based on color information entropy[J].Journal of Optoelectronics Laser,2008(1):1122-1126.
[6]SHI Y G,ZOU M.Performance comparison of statistics based similarity measures for image registration[J].Chinese Journal of Computers,2004(9):1278-1283.
[7]SHI Y,HUANG S N,ZHANG Y S.A mutual information and joint entropy based method for shot change detection[J].Computer Engineering & Applications,2006(30):54-56.
[8]SUKTHANKAR R,PCA-SIFT Y K.A more distinctive representation for local image descriptors[C].Washington:Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattem Recognition,2004.
[9]BAY H,TUYTELAARS T,VAN GOOL L. Surf: Speeded up robust features[C].Graz:Proceedings of the European Conference on Computer Vision,2006.
[10]ZHAO W L,NGO C W,TAN H K,et al.Near-duplicate keyframe identification with interest point matching and pattern learning[J].IEEE Transactions on Multimedia,2007(5):1037-1048.
[11]司若妍,張明.基于 K-means 聚類算法的視頻關(guān)鍵幀提取的研究[J].現(xiàn)代計算機,2016(7):59-63.