姜 靜, 張棟梁
(周口師范學(xué)院 計算機(jī)科學(xué)與技術(shù)學(xué)院, 河南 周口 466001)
隨著視頻資料日益豐富,人們對于視頻數(shù)據(jù)庫的訪問也越來越頻繁,然而用戶如何高效地檢索到所需的視頻成為研究的熱點,即視頻檢索技術(shù).傳統(tǒng)的視頻檢索描述能力有限,主觀性又強(qiáng),且需手工標(biāo)注,因此視頻檢索出現(xiàn)了一種新的方法——基于內(nèi)容的視頻檢索[1].該方法研究的重點主要集中在鏡頭分割、關(guān)鍵幀提取及鏡頭語義描述和視頻檢索上,雖然有一些演示系統(tǒng),但是不很理想,視頻檢索的研究仍不成熟.
本文在基于內(nèi)容的視頻檢索基礎(chǔ)上,設(shè)計了一種基于鏡頭的視頻檢索系統(tǒng).在視頻鏡頭檢測方面,采用了一種基于相鄰尺度小波變換乘積的鏡頭檢測方法,該方法能同時檢測出幾乎所有的突變鏡頭和漸變鏡頭.在對視頻的內(nèi)容特征提取方面, 實現(xiàn)了對鏡頭內(nèi)容的多層次描述.在對視頻的關(guān)鍵幀提取方面,采用了一種基于多特征自適應(yīng)閾值檢測的關(guān)鍵幀提取方法,實現(xiàn)了對鏡頭內(nèi)容的多層次描述,并且所選取的關(guān)鍵幀能夠很好的反映視頻內(nèi)容.
基于內(nèi)容的視頻檢索系統(tǒng)[2]是連接信息用戶與多媒體數(shù)據(jù)庫的服務(wù)系統(tǒng),該檢索系統(tǒng)首先對視頻進(jìn)行結(jié)構(gòu)分析,將視頻序列分割成鏡頭,并從分割后的鏡頭中選取出若干關(guān)鍵幀;然后進(jìn)行特征提取,把提取的特征存入視頻數(shù)據(jù)庫;最后根據(jù)用戶提交的查詢按照一定特征進(jìn)行檢索,將檢索結(jié)果按相似性程度反饋給用戶.該視頻檢索系統(tǒng)的結(jié)構(gòu)如圖1所示.
在此視頻檢索系統(tǒng)的結(jié)構(gòu)圖中,本系統(tǒng)主要對鏡頭邊緣檢測及關(guān)鍵幀提取進(jìn)行重點研究,利用鏡頭特征提取的紋理/邊緣特征進(jìn)行小波變換檢測出鏡頭邊緣,利用鏡頭特征的顏色特征和紋理/邊緣特征進(jìn)行特征融合來提取關(guān)鍵幀,最后綜合各自研究方法通過檢索平臺進(jìn)行了驗證.
視頻鏡頭邊緣檢測作為視頻結(jié)構(gòu)建立的第一步,是視頻結(jié)構(gòu)分析的主要內(nèi)容,其結(jié)果直接影響到視頻檢索的效率,因此成為基于內(nèi)容的視頻檢索首要的也是最關(guān)鍵的一步[3].本系統(tǒng)采用了一種基于相鄰尺度小波變換乘積的鏡頭邊緣檢測方法.該方法首先對鏡頭內(nèi)的每視頻幀圖像進(jìn)行小波變換,并求出各幀圖像相鄰尺度小波變換尺度積的模和方向,然后計算連續(xù)幀圖像尺度積及模之間的絕對距離,得到兩幀之間的不連續(xù)值,最后采用自適應(yīng)閥值分割,檢測出鏡頭邊緣.一組相鄰幀圖像的算法處理流程圖如圖2所示.
首先對圖像幀進(jìn)行尺度j上的小波變換,可知隨著尺度j的增加,邊緣的小波變換緩慢減少,噪聲的小波變換迅速減少[4],因而我們把相鄰尺度的小波變換進(jìn)行相乘將有利于增強(qiáng)邊緣和抑制噪聲,可利用二維信號相鄰尺度水平和垂直方向小波變換的乘積.然后利用直方圖絕對差值方法,求得視頻幀之間的相鄰尺度小波變換尺度積模和方向的不連續(xù)值δ和θ.最后采用自適應(yīng)閾值T=μ+rσ檢測出鏡頭邊緣.其中r為預(yù)先設(shè)定的常數(shù),r越大,錯誤檢出的概率越小;r越小,錯誤檢出的概率越大.μ和σ是當(dāng)前鏡頭內(nèi)δ值的均值和方差.
關(guān)鍵幀提取是基于內(nèi)容的視頻檢索的一個重要的組成部分,其算法的優(yōu)劣直接影響視頻檢索的效率.針對現(xiàn)有關(guān)鍵幀提取算法存在的特征選取單一、閾值選擇困難的問題,本系統(tǒng)提出了一種新的基于多特征自適應(yīng)閾值檢測的關(guān)鍵幀提取方法.首先,提取顏色特征、邊緣輪廓特征,然后利用多特征融合的幀間差值來捕獲視頻內(nèi)容的顯著變化,利用了自適應(yīng)閾值進(jìn)行檢測,實現(xiàn)關(guān)鍵幀提取.
(1)特征提取
特征提取是視頻檢索的基礎(chǔ),當(dāng)視頻分割成鏡頭后,就要對各個鏡頭進(jìn)行特征提取,得到一個盡可能充分反映鏡頭內(nèi)容的特征空間,這個特征空間將作為視頻聚類和檢索的依據(jù)[5].
本系統(tǒng)選擇顏色特征和邊緣輪廓特征,其中顏色特征利用HSV顏色空間與人的視覺感知系統(tǒng)有較好的一致性,可將H,S,V等三個分量按照人的顏色感知進(jìn)行非等間隔的量化,把量化后的3個顏色分量合成為一維特征向量:
I=9H+3S+V
(1)
而邊緣輪廓特征的提取利用上面鏡頭邊緣檢測中的對于特征的提取獲得.
(2)幀間差
綜合上面兩種特征,我們定義算法中多特征融合的幀間差值[6]為
D(i,i+1)=d(i,i+1)+δ(i,i+1)/δmax
(2)
其中:d(i,i+1)是顏色特征中相鄰圖像幀的一維直方圖距離,δ(i,i+1)為邊緣輪廓特征中相鄰圖像小波變換尺度積的模的差值,δmax為一組圖像幀中相鄰圖像小波變換尺度積的模差值的最大值.這樣,我們在選擇閾值時,通過兩個特征進(jìn)行綜合考慮,既避免了復(fù)雜的閾值選擇,又能準(zhǔn)確地描述圖像幀之間視覺內(nèi)容上的差異.
(3)自適應(yīng)閾值
在提取關(guān)鍵幀時,若設(shè)定的閾值過小,就會提取過多的關(guān)鍵幀;若設(shè)定的閾值過大,提取到的關(guān)鍵幀不能代表鏡頭.而且對于不同內(nèi)容的視頻序列,也不可能設(shè)定統(tǒng)一的閾值.因此本系統(tǒng)采用自動選取閾值的方法來提取關(guān)鍵幀[7].根據(jù)上述幀間差計算過程中式(2)得出的D(i,i+1),并定義閾值
其中M是一個視頻序列中的幀數(shù).若D(i,i+1)>T,則確定該幀為關(guān)鍵幀,否則丟棄.
為了檢測本算法的效果,選用了兩個具有不同特點的視頻片段組成本系統(tǒng)的實驗數(shù)據(jù)集,包括一個精彩的演講片段(YJ),以及兩個小丑的幽默短片(GX).首先對這些視頻序列檢測鏡頭邊界,然后分別根據(jù)文獻(xiàn)[8-9]中提出的多特征融合的幀間差和自適應(yīng)閾值檢測的方法提取關(guān)鍵幀,結(jié)果見表1、表2.
從以上結(jié)果可知,雖然本方法提出的關(guān)鍵幀仍有部分冗余,但仍然遵循關(guān)鍵幀提取“寧多勿缺”的原則.另外,算法中提出的關(guān)鍵幀大部分能較好或很好地表示視頻內(nèi)容,不能表示視頻內(nèi)容的一小部分幀即可認(rèn)為是冗余幀,且有較低的計算復(fù)雜度.
視頻檢索系統(tǒng)的原理與圖像檢索系統(tǒng)類似,對視頻流樣本進(jìn)行結(jié)構(gòu)化處理,解析出全部鏡頭及每個鏡頭的關(guān)鍵幀.本系統(tǒng)以一個搞笑短片作為視頻檢索的實例,首先解析出鏡頭包含的關(guān)鍵幀,然后選中某一關(guān)鍵幀作為檢索樣例.圖3是針對綜合加權(quán)得到的檢索結(jié)果.
另外,視頻檢測系統(tǒng)常用查準(zhǔn)率和查全率來分析數(shù)據(jù),查準(zhǔn)率表示查詢返回數(shù)據(jù)中正確的數(shù)據(jù)占返回數(shù)據(jù)的比例,而查全率代表查詢返回中所有正確的數(shù)據(jù)占所有正確數(shù)據(jù)的比例[10].本文也分別對方法(1)綜合加權(quán)得到特征、方法(2)只提取顏色特征、方法(3)只提取紋理/邊緣特征利用本系統(tǒng)平臺進(jìn)行查詢,根據(jù)查詢結(jié)果進(jìn)行查準(zhǔn)率和查詢率分析,如表3系統(tǒng)的檢索結(jié)果所示.
從檢索結(jié)果可以看出,在查全率和準(zhǔn)確率上方法(1)明顯好于其它兩種方法,可見該視頻檢索系統(tǒng)對于視頻變化比較細(xì)微的鏡頭查詢具有很好的查準(zhǔn)率和查全率.
本研究實現(xiàn)了一種基于鏡頭內(nèi)容的視頻檢索系統(tǒng),并給出了整個系統(tǒng)的設(shè)計流程.在鏡頭邊緣檢測方面,采用一種基于相鄰尺度小波變換乘積的鏡頭檢測方法.在視頻關(guān)鍵幀提取方面,采用了一種基于多特征自適應(yīng)閾值檢測的關(guān)鍵提取方法,實現(xiàn)了鏡頭內(nèi)容的多層次描述,并使得所選取的關(guān)鍵幀能夠很好的反映視頻內(nèi)容.
[1]章毓晉.基于內(nèi)容的視覺信息檢索[M].北京:科學(xué)出版社,2003.
[2]金紅,周源華.基于內(nèi)容檢索的視頻處理技術(shù)[J].中國圖形圖像學(xué)報,2000,5 (4):276-283.
[3]王璐,周英杰,徐正全.基于梯度向量角法的視頻序列中鏡頭漸變檢測[J].計算技術(shù)與自動化,2004(4):61-62.
[4]李宏貴,李興國.一種新的基于小波變換的邊緣檢測方法[J].計算機(jī)應(yīng)用與軟件,2005(3):103-104.
[5]吳潔明,周正喜,史建宜.面向視頻場景內(nèi)容檢索的文本解析工具設(shè)計與實現(xiàn)[J].微型機(jī)與應(yīng)用,2012(14):125-127.
[6]劉俊曉,孟祥增,劉旭花,等.基于幀差與非相鄰幀差的自適應(yīng)鏡頭檢測方法[J].計算機(jī)工程與應(yīng)用,2007,43(24):212-215.
[7]Danna L, Percannella G, Sansone C. A multi-stage approach for news video segmentation based on automatic anchorperson number detection[C]//Proc. of International Conference on Mobile Ubiquitous Computing, Systems, Services and Technologies. [S. l.]:IEEE Press, 2007.
[8]瞿中,高騰飛,張慶慶.一種改進(jìn)的視頻關(guān)鍵幀提取算法研究[J].計算機(jī)科學(xué), 2012(8):134-136.
[9]劉嘉琦,封化民,閆建鵬.基于多模態(tài)特征融合的新聞故事單元分割[J].計算機(jī)工程, 2012 (24):161-165.
[10]Sugano M,Furuya M, Nakajima Y,etal. Shot classifaction and scene segmentation based on MPEG compressed movie analysis[J]. Lecture Notes in Computer Science, 2005, 3331:271-279.