摘要:隨著H.264/AVC壓縮標(biāo)準(zhǔn)得到越來越廣泛的應(yīng)用,基于H.264/AVC壓縮域的視頻鏡頭分割技術(shù)成為視頻檢索領(lǐng)域的熱點(diǎn)問題。根據(jù)鏡頭邊緣處前后幀的相關(guān)性較低的特征,統(tǒng)計(jì)幀在總體上的宏塊預(yù)測(cè)模式信息來獲取視頻的候選鏡頭邊界集,然后利用局部特性對(duì)其進(jìn)行篩選,得出了鏡頭邊界,并通過實(shí)驗(yàn)進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果證明,本算法是快速有效的。
關(guān)鍵詞:鏡頭分割;宏塊;預(yù)測(cè)模式;H.264/AVC
中圖分類號(hào):TP37文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2009)04-0944-03
Scene Change Detection Algorithms in H.264/AVC Compressed Domain
HONG Xia-jun, XIA Dian-song
(Department of Electronic Information Engineering ICE, PLAUST, Nanjing 210007, China)
Abstract: Along with widely using of H.264/AVC, the scene change detection in H.264/AVC compressed domain becomes a hot issue in Context-Based Video Retrieval field. Base on the character that there is less temporal correlation between frames where scene change occurs, according to different macro-block prediction mode in the whole frame, the proposed algorithms obtain candidates of scene change frames. To find accurate scene changes, we use the part characteristic of the fame. The experimental results shows that the proposal algorithm is fast and efficient.
Key words: scene change detection; macro-block; prediction mode; H.264/AVC
1 引言
多媒體技術(shù)和Internet的發(fā)展給人們帶來巨大的多媒體信息海洋,并進(jìn)一步導(dǎo)致了超大型多媒體信息庫的產(chǎn)生,僅僅憑關(guān)鍵詞是很難做到對(duì)多媒體信息的描述和檢索的,這就需要有一種針對(duì)多媒體的有效檢索方式。如何有效的幫助人們快速、準(zhǔn)確地找到所需要的多媒體信息,成為多媒體信息庫所要解決的核心問題?;趦?nèi)容的視頻檢索(Content-Based Video Retrieval)是一種新的檢索技術(shù),是對(duì)多媒體視頻對(duì)象的內(nèi)容及上下文語義環(huán)境進(jìn)行檢索,如對(duì)視頻中的場(chǎng)景、片斷進(jìn)行分析和特征提取,并基于這些特征進(jìn)行相似性匹配。
基于內(nèi)容的視頻信息檢索是當(dāng)前多媒體數(shù)據(jù)庫發(fā)展的一個(gè)重要研究領(lǐng)域,它以視頻鏡頭分割作為第一個(gè)步驟,將連續(xù)的視頻流劃分為具有特定語義的視頻片段——鏡頭,作為檢索的基本單元。現(xiàn)有的視頻都是以壓縮格式儲(chǔ)存的,廣泛應(yīng)用的壓縮標(biāo)準(zhǔn)有MEPG-2,MPEG-4,H.264/AVC等。然而,為了實(shí)現(xiàn)鏡頭分割,傳統(tǒng)方法需要將壓縮格式的視頻解壓縮,這是一個(gè)十分耗時(shí)的過程,無法滿足一些實(shí)時(shí)的需求。為了解決這個(gè)問題,學(xué)者們做了很多在壓縮域進(jìn)行鏡頭分割的研究。例如,MPEG-2壓縮域的鏡頭分割方法有基于DC系數(shù)的[1],運(yùn)動(dòng)向量的[2],比特率控制的[3]等等。然而H.264/AVC的一些新特性,如支持多種大小的宏塊分割、多參考幀等,使得這些基于MPEG-2的分割算法不再適用于H.264/AVC的壓縮視頻。
近幾年來,因?yàn)镠.264/AVC更高的壓縮比和良好的網(wǎng)絡(luò)親和性,它正被越來越廣泛的運(yùn)用于各類視頻壓縮中。因而基于H.264/AVC壓縮域的視頻分割技術(shù)受到了空前的重視,很多學(xué)者根據(jù)H.264/AVC的特性,提出了許多有效的算法:Sungmin等人在[4]中提出了一種比較兩個(gè)連續(xù)的I幀的宏塊分割模式來判斷鏡頭邊界的算法,這種算法運(yùn)行速度十分快,充分體現(xiàn)了壓縮域鏡頭分割算法的優(yōu)點(diǎn),有著較高的精度,而且對(duì)于檢測(cè)鏡頭漸變切換也有著不錯(cuò)的效果,但是也有一個(gè)重要的缺陷,它只能將鏡頭邊界確定在兩個(gè)I幀之間,而無法精確到具體的某一幀。
發(fā)生鏡頭切換的幀與前面的幀的差異比較大,勢(shì)必將大量的采用幀內(nèi)編碼模式,根據(jù)這種特點(diǎn)本文提出了一種改進(jìn)型的算法,并通過實(shí)驗(yàn)進(jìn)行了驗(yàn)證。
2 基于宏塊預(yù)測(cè)方式的鏡頭分割算法
2.1 原理分析
H.264/AVC中,一個(gè)編碼圖像(即一幀)通常劃分成若干個(gè)宏塊,一個(gè)宏塊由一個(gè)16*16的亮度像素和附加的一個(gè)8*8Cb和一個(gè)8*8Cr彩色像素快組成。每個(gè)圖像中,若干宏塊被排列成片的形式。
I片只包含I宏塊,P片可包含P和I宏塊,而B片可以包含B和I宏塊。I宏塊利用從當(dāng)前片中已解碼的像素作為參考進(jìn)行幀內(nèi)預(yù)測(cè),P宏塊利用前面已編碼的圖像作為參考圖像進(jìn)行預(yù)測(cè),B宏塊則利用雙向的參考圖象進(jìn)行預(yù)測(cè)。H.264的基本檔次中只利用了I片和P片,主要用于可視電話、會(huì)議電視、無線通信等實(shí)時(shí)視頻通信中。
當(dāng)鏡頭發(fā)生切換發(fā)生在第i幀時(shí),i幀與i-1幀的差異肯定很大。根據(jù)Soo-Chang Pei等在[5]中的分析,我們可以依據(jù)第i幀的類型,將鏡頭切換分為兩大類:切換發(fā)生在P或者I幀,切換發(fā)生在B幀。
1) 如果鏡頭切換發(fā)生在I或者P幀,則該I或者P幀前面的B幀中的絕大多數(shù)宏塊將
采用前向預(yù)測(cè)編碼,并且,如果鏡頭切換時(shí)發(fā)生在P幀,那么該P(yáng)幀的絕大多數(shù)宏塊將采用幀內(nèi)預(yù)測(cè)編碼。
2) 如果鏡頭切換發(fā)生在B幀,還要根據(jù)兩個(gè)P幀內(nèi)B幀的個(gè)數(shù)分別討論。
① 一個(gè)B幀:B幀的絕大多數(shù)宏塊將采用后向預(yù)測(cè)編碼,如果第i+1幀是P幀,那么該P(yáng)幀的絕大多數(shù)宏塊將采用幀內(nèi)預(yù)測(cè)編碼。
② 兩個(gè)B幀:如果鏡頭切換發(fā)生在第一個(gè)B幀,那么第i+1幀同樣是B幀,且i,i+1兩幀的絕大多數(shù)宏塊將采用后向預(yù)測(cè)編碼;如果鏡頭切換發(fā)生在第二個(gè)B幀,那么第i-1幀是B幀,它的絕大多數(shù)宏塊將采用前向預(yù)測(cè)編碼,而發(fā)生切換的B幀(i幀)的絕大多數(shù)宏塊將采用后向預(yù)測(cè)編碼。并且,如果發(fā)生接下來的如果是P幀,那么該P(yáng)幀的絕大多數(shù)宏塊將采用幀內(nèi)預(yù)測(cè)編碼。
③ 三個(gè)或三個(gè)以上B幀:原理同兩個(gè)B幀的情況,不再贅述。B幀的利用將導(dǎo)致解碼時(shí)需要進(jìn)行幀的重排列,不適合用于實(shí)時(shí)視頻中,因此本文研究的視頻是不含有B幀的視頻,圖像組的結(jié)構(gòu)為IPPP…PPPI。
2.2 實(shí)時(shí)鏡頭分割算法
為了更加精確的找出鏡頭邊界,先計(jì)算每一個(gè)P幀的幀內(nèi)預(yù)測(cè)編碼的宏塊的比例,當(dāng)大于設(shè)定的域值時(shí),標(biāo)記為候選鏡頭邊界。因?yàn)殓R頭切換不會(huì)在特別短的時(shí)間內(nèi)連續(xù)發(fā)生,所以可以通過對(duì)比兩個(gè)連續(xù)I幀的幀內(nèi)預(yù)測(cè)模式來判斷I幀是否發(fā)生了鏡頭切換[4]。這樣,我們得到了一個(gè)候選鏡頭邊界的集合C。
Intra(Pi)>t(1)
■ (2)
其中,■,NMB是幀的宏塊數(shù)。
C的篩選是根據(jù)圖像的總體特征,因此,為了從C中剔除冒牌鏡頭邊界c’,我們需要利用圖像的局部特征。把C中的幀分成若干子塊S={ S1,S2,S3,…,SN-1,SN},計(jì)算與前一幀(如果是I幀,則是比較前一I幀)在對(duì)應(yīng)子塊上的預(yù)測(cè)模式的差異。
■ (3)
■ (4)
最后,用Ti,i-1,F(xiàn)i,i-1,來表示幀的預(yù)測(cè)模式的差異。
■ (5)
■(6)
其中,■,|S|是幀的子塊數(shù),|Sk|是子塊Sk中的宏塊數(shù)。當(dāng)Ti,i-1或者Fi,i-1大于預(yù)設(shè)的域值時(shí),則該候選鏡頭邊界為鏡頭邊界。
3 實(shí)驗(yàn)與結(jié)果分析
為了驗(yàn)證算法效果,選取三組不同類型的圖像序列來作為實(shí)驗(yàn)素材進(jìn)行實(shí)驗(yàn)。第一組是電影《尼斯湖水怪》中開始的一段視頻,3737幀,共有鏡頭變換32次,其中突變30個(gè),漸變2個(gè)。第二組是電影《的士速遞》中的一段汽車快速行駛的視頻,2400幀,共有鏡頭變換43個(gè),都是突變切換。第三組是解放軍理工大學(xué)謝希仁教授主講的網(wǎng)絡(luò)課程《走進(jìn)互聯(lián)網(wǎng)(一)》中的一段,6000幀,16個(gè)鏡頭變換,都是突變切換。編碼采用JM8.6版本的baseline標(biāo)準(zhǔn),每25幀插入一個(gè)I幀,幀率為25幀/s,分辨率采用352*288的CIF格式。
為了規(guī)范實(shí)驗(yàn)結(jié)果,本文采用鏡頭分割研究領(lǐng)域中廣泛采用的查全率(Recall)和查準(zhǔn)率(Precision)來驗(yàn)證算法:
■(7)
■ (8)
其中,Nx、Nf和Nm分別表示正確判斷、誤判和漏判的鏡頭邊界。
表1 候選鏡頭邊界數(shù) 表2算法在實(shí)驗(yàn)中的查全率和查準(zhǔn)率
■
實(shí)驗(yàn)結(jié)果在表1、2中給出。從表中可以看出本算法對(duì)于基本檔次的H.264/AVC壓縮視頻的鏡頭突變檢測(cè)的效果非常好,查全率和查準(zhǔn)率都很高。第一組中漏判的兩個(gè)鏡頭都是淡入淡出的漸變切換。第二組和第三組中誤判的鏡頭則分別是由于閃光燈和演示的幻燈片內(nèi)容變化過大造成。
4 總結(jié)與展望
本文分析了鏡頭邊界處宏塊預(yù)測(cè)模式的特征,并在此基礎(chǔ)上提出了一種基于H.264/AVC壓縮域的改進(jìn)型實(shí)時(shí)鏡頭分割算法,并通過實(shí)驗(yàn)證明了其優(yōu)越性。本算法的運(yùn)行速度非???,只需進(jìn)行熵解碼就能取得算法所需的宏塊類型和預(yù)測(cè)模式,充分發(fā)揮了基于壓縮域算法的優(yōu)越性。但是,本算法對(duì)于鏡頭漸變切換和閃光燈效果的處理不夠理想,因此加強(qiáng)對(duì)各種特效的判斷將是進(jìn)一步改進(jìn)的方向。
參考文獻(xiàn):
[1] Kim J, Suh S, Sull S. Fast Scene ChangeDetection for Personal Video Recoder[J].IEEE Transaction on,2003(49):683-688.
[2] Dawood A M, Ghanbari M. Scene Cut Detection from MPEG Video Stream Coded without B Picture[J]. IEEE International Conferenceon,2001(3):645-1648.
[3] Li H, Liu G, Zhang Z, et al. Adaptive Scene Detection Alorithm for VBR Video Stream[J]. IEEE Transaction on, 2004(6):624-633.
[4] Kim S, Byun J, Won C. A Scene Change Detection in H.264/AVC[J]. LNCS3786,2005:1072-1082.
[5] Pei S C, Chou Y Z. Efficient MPEG Compressed Video Analysis Using Macroblock Type Information[J]. IEEE Transactions on Multimedia,1999,1(4).
[6] Zhang J W, Kankanhalli A, Smoliar S. Automatic Partitioning of Full-Motion Video[J]. Multimedia System, 1995,1(1):10-28.
[7] Patel N V, Sethi I K. Compressed Video Processing for Cut Detection[J].IEE Proc Visual Image Signal Process,1996,143(5):315-323.
[8] Yeo B J, Liu B. Rapid Scene Analysis on Compressed Video[J].IEEE Trans Circuits and Systems for Video Technology,1995,5(6):533-544.
[9] Arif S, Ali M. Intelligent Technique for Scene Cut Detection from Mpeg Video[J]. IEEE Virtual Environments, Human-Computer Interfaces, and Measurement Systems.
[10] 畢厚杰.新一代視頻壓縮編碼標(biāo)準(zhǔn)——H.264/AVC[M].北京:人民郵電出版社,2005.