于 鵬,王永濱,柯雅明,劉 文,伏文龍
(中國傳媒大學計算機學院,北京100024)
一種基于壓縮域的視頻鏡頭檢測方法
于 鵬,王永濱,柯雅明,劉 文,伏文龍
(中國傳媒大學計算機學院,北京100024)
針對傳統的基于空域的視頻鏡頭檢測算法需要解壓縮,計算量大、效率低的缺點,提出了一種基于壓縮域的視頻鏡頭檢測方法。該方法首先根據MPEG壓縮標準,從視頻流中提取I幀中8個低頻DCT系數,并對其進行分區(qū)加權求二次幀差,從而確定鏡頭變換所在的GoP;在GoP中通過計算P幀和B幀的不同類型宏塊比率,來精確定位鏡頭邊界。實驗結果表明,該方法可大大減少計算時間和數據量,且具有良好的檢測效果。
視頻鏡頭檢測;壓縮域;MPEG;二次幀差;宏塊比率
近年來,隨著多媒體技術的蓬勃發(fā)展和“三網融合”的大力推進,視頻呈現爆炸式的增長,其所攜帶的信息量遠遠超過文本和語音,具有確切、直觀、具體、生動和高效等特點,備受人們的青睞。鏡頭是組成視頻序列的物理單位,而鏡頭檢測是視頻高層相關處理,如語義分析、索引、查詢和內容分類的基礎[1],其檢測效率和準確性直接影響高層處理的性能和效果。
許多學者對視頻鏡頭檢測進行了有益的研究,提出了若干有代表性的方法,從多個方面、多個角度捕獲了鏡頭邊緣的特征信息[2]。從大的方面來說,鏡頭的檢測方法可分為:基于空域的檢測方法和基于壓縮域的檢測方法。早期,人們對鏡頭檢測方法的研究大都是基于空域展開的,其主要依據鏡頭轉換處視頻底層顏色、紋理、輪廓形狀等特征的變化來實現鏡頭檢測的,常見的有像素比較、直方圖、聚類、運動場和邊緣的方法[2-3]。雖然基于空域的檢測算法取得了一定的成果,但是這種鏡頭檢測方法要求必須在完全解壓的前提下進行,一方面解壓視頻計算量巨大,效率低下;另一方面,解壓后數據量增大,很多算法在數據量急劇增大的情況下,效果明顯變差,這是該類算法致命的弱點[3]?;趬嚎s域的方法研究較少,比較有代表性的有Arman[4]提出的用I幀的若干DCT系數來進行鏡頭的檢測方法,但是該方法計算的幀差比較粗略,對預測編碼的處理不夠,檢測精度不高。李向偉[5]提出了基于I幀DC系數的方法,該方法雖然是在壓縮域上,但是沒有考慮P和B幀,因而鏡頭檢測不夠精確。
綜上所述,針對壓縮域的研究才剛剛起步,目前還沒有一種很好的方法。本文在深入分析研究MPEG視頻壓縮編碼及相關理論的基礎上,將基于空域檢測的成功方法與壓縮域相結合,對I幀和P、B幀進行分別處理,提出了一種基于壓縮域的視頻鏡頭檢測方法。實驗表明,該方法具有良好的檢測效果,且與傳統的方法相比,具有較低的計算復雜度和數據量,能夠滿足實際應用的要求。
1.1 鏡頭介紹
鏡頭[6]是指由攝像機從按下快門到停止的時間段內,拍攝的一組連續(xù)相關的的圖像幀,它用來表現場景中連續(xù)的一個運動過程[2]。鏡頭通過視頻剪輯工具進行連接,由于剪輯手法的多樣性,鏡頭變換也呈現豐富多彩的樣式。根據轉換處過渡特性的差異,鏡頭轉換[1,7]可分為突變和漸變兩類。突變是指連續(xù)兩個鏡頭之間沒有過渡,兩鏡頭之間沒有任何編輯效果和時間上的延遲[8];漸變則與突變截然相反,它是指兩個連續(xù)鏡頭在轉換處相互重疊,漸漸由前一鏡頭轉變?yōu)楹罄m(xù)鏡頭的方式,通常這個過程會持續(xù)十幾幀到幾十幀不等,這樣就使得鏡頭之間的過渡更加平緩,人們看起來感覺不到明顯的視覺不連續(xù)。常見的鏡頭漸變種類包括淡入淡出、融化、掃描等[1,6]。圖1給出了視頻突變漸變的示意圖。
圖1 視頻突變漸變示意圖
1.2 MPEG壓縮介紹
MPEG壓縮是當今國際上通用的視頻壓縮標準,其主要通過兩項基本技術實現壓縮:基于離散余弦變換(Discrete Cosine Transform,DCT)的壓縮技術和基于16×16宏塊的運動補償技術。其中,DCT變換是一種正交變換,可將信號從空間域變換到頻率域,充分減少圖像內容間的自相關性,使大部分的能量集中在頻率域中少數幾個能量較高的低頻系數上[5],只利用這些低頻系數就可以很好地恢復原始圖像,其余系數在經過量化后,大部分都變成了零,從而可減少空間冗余度,實現壓縮功能。MPEG在幀編碼時是按照圖像組(Group of Pictures,GoP)進行的,每一個GoP包含了3種類型的幀,分別是I幀、P幀和B幀。其中,I幀是基礎幀,采用基于DCT變換幀內編碼的形式。P幀需要參考前面最近的I幀或P幀進行前向運動補償來獲得。B幀根據前面和后面的參考幀進行雙向預測。幀間預測編碼時,編碼器在參考幀中搜索與當前幀中的每個宏塊最匹配的宏塊,從而計算出運動向量(Motion Vectors,MV),進一步計算當前宏塊的運動補償預測差異(Motion Compensation Predictive Error,MCPE),將獲得的MCPE與給定的閾值進行比較,若小于閾值,則將MCPE和MV一起進行編碼;若大于閾值,則對該宏塊進行內部編碼,這種情況說明當前幀和參考幀間的差異較大,而這種差異往往是由于鏡頭變換形成的[3]。
主要分為兩個步驟:1)鏡頭GoP檢測。抽取視頻序列中每個GoP中的首幀——I幀,以I幀中8個低頻的DCT系數為特征進行分區(qū)加權求二次幀差,將二次幀差與自適應閾值比較來粗略確定鏡頭邊界所在的GoP。2)鏡頭邊界檢測。根據GoP中P和B幀的不同類型宏塊運動比率來進一步確定鏡頭邊界。
2.1 鏡頭GoP檢測
2.1.1 視頻幀分區(qū)加權
在基于空域的鏡頭檢測算法中,通常采用分區(qū)[9-10]的概念,將視頻平均分成N×N區(qū)(N表示長和寬的單位數),分別計算每個分區(qū)的直方圖和幀差,以此彌補直方圖算法不能反映像素位置信息,但是沒有考慮視頻中不同區(qū)域的重要性因素。為了捕獲圖像的空間分布信息,同時考慮到視頻在拍攝過程中和人眼視覺對圖像不同部分的關注程度[11],將視頻非均勻的分割為3×3子區(qū),其中長和寬的比例3∶5∶3,分區(qū)的比例如圖2所示,圖中每個分區(qū)中分別標注了長和寬的單位數。
圖2 分區(qū)比例示意圖
通常,相對于圖像中心區(qū)域,4個角落和邊緣的內容顯得不是那么重要,同時圖像的底端字幕部分經常會干擾鏡頭檢測的準確性。因此,在完成分區(qū)后,又定義了一個權重矩陣W
式中:wi表示第i(i∈[1,9])個分區(qū)的權重值,加權系數和分區(qū)一一對應,通過分區(qū)區(qū)間大小和分區(qū)加權系數的不均勻分配體現不同區(qū)域的重要程度,提高鏡頭檢測的精確度。
2.1.2 二次幀差計算
在對GoP進行鏡頭檢測時,選取每個GoP的首幀作為特征來實現粗略的鏡頭檢測。由MPEG編碼相關介紹可知,I幀的DCT系數可以直接獲取,并且DCT系數的高頻部分經量化后基本為零,能量主要集中在左上角靠近DC分量的少數幾個低頻系數上,使用這些極少數的低頻系數即可恢復出原圖像。同時,將全部的DCT系數用作計算,計算量和數據量大,效率低,且意義不大。因此,選取8個低頻DCT系數為特征值進行計算,這樣既不失精確性,同時減少了計算量,使得參與計算的數據量減少了7/8。在上一步分區(qū)加權的基礎上,提供了一種二次幀差計算方法,計算幀差公式為
將其歸一化
式中:Dm(li,li+1)表示li和li+1幀中第m塊的幀差;num_ blocks代表該分區(qū)中8×8的塊數;j代表DCT系數采用“之”字編碼的前8個低頻系數下標;DCTk(li,j)表示第li幀中第k個塊中第j個DCT系數。這樣計算出相鄰兩幀對應區(qū)間的幀差值,分別記為D1,D2,…,D9,則相鄰兩幀的幀差和加權系數聯合計算得到
式中:wj為對應塊j的權重系數;DFi為第i幀的加權后的幀差。通過上面的方式計算得到的幀差就每個鏡頭而言是各不相同的。因為,每個鏡頭內的圖像變換程度是不同的,幀差的變化范圍和平均值也各不相同,對運動劇烈或者顏色變化大的鏡頭,幀差比較大,鏡頭邊界的幀差也不會比平均值大很多;而對于運動平緩或者顏色變化不大的鏡頭,幀差平均值較小,邊界幀差很大[11]。如果用一個固定的幀差的倍數作為閾值,其檢測效果是不理想的[7]。為了有效解決鏡頭邊界檢測閾值對鏡頭內容變換的敏感性,使用二次幀差(Twice Frame Difference,TFD)
式中:TFDi表示第當前i幀的二次幀差;DFi表示i幀的幀差。幀差反應的是兩幀之間的變化量,而二次幀差反映的是變化率。因此,通過二次幀差,可以有效消除不同鏡頭的幀變化量的差別,突出鏡頭的邊界特征[7,11]。
2.1.3 自適應閾值選取
通過大量的視頻數據分析,發(fā)現視頻鏡頭時間持續(xù)超過2 s[12],視頻的播放速度一般在24~30 f/s(幀/秒),一個長度為2 s的鏡頭至少包含48幀,也就是有4個GoP或I幀。此外,同一鏡頭內相鄰兩幀的視頻圖像內容由于變化不大,所以相鄰兩幀的二次幀差呈現出相對均勻分布,而突變處幀差明顯比平均值大很多;在發(fā)生漸變時,其二次幀差也發(fā)生較大的變化,因此可設定兩個門限系數,α為鏡頭突變檢測門限系數,β(β<α)為鏡頭漸變檢測門限系數。
定義一個大小為win(本文win取值為6,因為一個鏡頭至少有4個I幀)的窗口,計算窗口內的平均二次幀差,并將當前檢測幀與二次幀差進行比對。具體地,首先計算窗口內的二次幀差的和,進一步得到窗口內的二次幀差平均值。公式如下
式中:TotalTFDi為截止到當前i幀,窗口win內的二次幀差之和。
式中:aveTFDi為當前窗口內的二次幀差平均值,則突變檢測的自適應閾值[1]為Th=α×aveTFDi,漸變檢測的自適應閾值為Tl=β×aveTFDi,采用傳統的雙閾值[13]方法即可檢測出鏡頭變換所在的GoP。通過實驗發(fā)現,α選擇在3.1~4,β取1.5~2范圍內效果較好。
2.2 鏡頭邊界檢測
由于P幀和B幀的DCT系數需要進行計算才可獲得。由MPEG介紹可知,P幀和B幀以宏塊為單位進行運動補償和預測。當鏡頭變換發(fā)生在某一P幀時,大多數的宏塊將采用無運動補償的幀內編碼進行壓縮。而對于B幀,采用的是雙向預測,當鏡頭邊界發(fā)生在該幀時,絕大多數的運動矢量來自于其后的參考幀,而很少一部分來自于前向參考幀。為了檢測是否該幀為鏡頭邊界幀,分別對P幀和B幀計算一個比率RP和R[14]B
式中:NMtotal用于表示該幀中宏塊的總數;NMintra表示該幀中幀內編碼宏塊的個數。當RP大于某個閾值時,可以認為該P幀是一個鏡頭邊界。
對于B幀,計算比率
式中:NMback表示后續(xù)運動矢量的數目;NMpre表示前向運動矢量的數目。當RB出現大于某個閾值時,該B幀為鏡頭邊界。如果P幀和B幀都不是邊界,那么可以推斷I幀為鏡頭的邊界[8]。
基于上述算法,本文進行了大規(guī)模的仿真實驗,表1給出了新聞、動畫、體育等類型MPEG視頻進行實驗的檢測結果。采用視頻鏡頭檢測的通用指標,查準率和查全率[1,15]來衡量鏡頭檢測的效果,其計算公式為
表1 視頻鏡頭檢測結果
由表1可知,該算法取得了較好的檢測效果,其查準率和查全率平均約為89.9%和91.5%,其中視頻類型為體育片段的查全率略低于平均值,其主要原因是由于視頻幀之間的運動較大,可以適當提高閾值系數來獲得更好的檢測效果。此外,由于是在壓縮域進行,不需要解壓,先對鏡頭中I幀處理,如果有變換,才會進一步對GoP內各幀進行計算,因此大大的降低了計算開銷,提高了計算效率,與傳統的基于直方圖的方法相比,其性能提高了約30%。
本文基于視頻壓縮原理提出了一種視頻鏡頭檢測算法,通過提取MPEG視頻中低頻中的8個DCT系數來進行GoP鏡頭檢測,進一步根據P、B幀的運動宏塊比率精確確定鏡頭邊界。實驗表明,該方法計算量和數據量少,效率高,綜合性能好。由于本文主要針對主流的MPEG視頻格式開展的研究,但是對于其他格式不一定通用,這也是進一步研究的一個問題。
[1]印勇,侯海珍.基于直方圖幀差的自適應鏡頭分割算法[J].計算機工程與應用,2010,46(9):186-189.
[2]錢剛,曾貴華.典型視頻鏡頭分割方法的比較[J].計算機工程與應用,2004,40(32):51-55.
[3]李向偉,李戰(zhàn)明,張明新,等.基于內容的視頻鏡頭檢測技術[J].電視技術,2008,32(3):19-21.
[4]ARMAN F,HSU A,CHIU M.Image processing on compressed data for large video databases[C]//Proc.the 1st ACM International Conference on Multimedia.[S.l.]:ACM Press,1993:267-272.
[5]李向偉,李戰(zhàn)明,張明新,等.一種基于壓縮域的鏡頭檢測算法[J].蘭州理工大學學報,2008,34(6):97-101.
[6]韓全磊.基于內容的視頻鏡頭分割及檢索技術研究[D].濟南:山東大學,2009.
[7]吳晶,陳淑珍.基于樹形分類器的自適應鏡頭分割系統[J].計算機工程,2007,33(3):18-20.
[8]譚楓,馮馳.鏡頭邊界檢測及關鍵幀提取[D].哈爾濱:哈爾濱工程大學,2006.
[9]彭波,李弼程.一種因果的突變鏡頭檢測方法[J].計算機工程與應用,2004,40(5):91-93.
[10]ZHONG Y,KARU K,JAIN A.Locating text in complex color images[J].Pattern Recognition,1995,28(10):1523-1535.
[11]周藝華,曹元大,張洪欣.一種基于二次幀差的突變鏡頭檢測方法[J].計算機工程與應用,2005,41(6):22-25.
[12]劉典,劉文萍.一種基于直方圖的切變鏡頭自動檢測算法[J].北方工業(yè)大學學報,2007,19(3):16-20.
[13]ZHANG H,KANKANHALLIA,SMOLIAR S.Automatic partitioning of full-motion video[J].Multimedia Systems,1993,1(1):10-28.
[14]李玉峰.基于內容視頻檢索的鏡頭檢測及場景檢測研究[D].天津:天津大學,2009.
[15]劉俊曉,孟祥增.一種基于鏡頭內容的視頻檢索系統設計與實現[J].電視技術,2007,31(2):85-87.
伏文龍(1980— ),工程師,主要從事廣播電視信息安全、傳媒大數據等領域研究工作。
Video Shot Detection M ethod Based on Com pressed Domain
YU Peng,WANG Yongbin,KE Yaming,LIUWen,FUWenlong
(School of Computer,Communication University of China,Beijing 100024,China)
Aimed at the shortcoming in conventional airspace shot detection need to decompress,computationally intensive and low efficiency,a video shot detectionmethod based on compressed domain is proposed.In thismethod,the 8 low-frequency DCT coefficients of I frameswere extracted first from the video stream according to MPEG standard,and the frames are partitioned,weighted and computed the twice-frame-difference,so the GoPof the shot boundary is determined;In the GoP,by calculating the different types ofmacro-block ratios of the P and B frames,to accurately detect shotboundary.Experiment result showed that,the amount of computation and data is reduced greatly and has a good detection results.
video shot detection;compressed domain;MPEG;twice-frame-difference;macro-block ratios
TP391
A
于 鵬(1983— ),博士生,主要研究方向為信息安全和網絡新媒體技術;
王永濱(1963— ),博士生導師,主要研究方向為網絡新媒體技術、廣播電視與新媒體信息安全等;
柯雅明(1988— ),碩士生,主要研究方向為媒體信息安全;
劉 文(1982— ),女,碩士生導師,主要研究方向為信息安全、網絡新媒體技術;
?? 雯
2013-08-14
世界杯開賽 北京電視臺開啟全媒體報道
【本文獻信息】于鵬,王永濱,柯雅明,等.一種基于壓縮域的視頻鏡頭檢測方法[J].電視技術,2014,38(13).
國家“863”計劃項目(2011AA01A107);國家科技支撐計劃項目(2012BAH51F02)
四年一屆的世界杯在6月13日如期而至,北京電視臺新媒體平臺迅速組建世界杯報道小組,利用北京網絡廣播電視臺網站brtn.cn、官方微平臺、“BTV大媒體”移動客戶端、北京IPTV等新媒體平臺推出了一系列內容豐富,形式新穎,互動性強,用戶體驗良好的全媒體式報道。在此次報道中新媒體記者與體育、新聞頻道記者共同參與,前往世界杯最前線巴西展開聯合報道。同時,在體育頻道世界杯特別節(jié)目中量身打造了6個微門戶,網友和觀眾可以在看電視時與節(jié)目實時互動,實現了新媒體與傳統電視節(jié)目深度融合,搭起了節(jié)目與觀眾之間互動的橋梁。