盧陽(yáng) 孫恩情 邢延超
摘要:為快速瀏覽精彩的乒乓球回合,該文以背景重建為基礎(chǔ),在時(shí)間上運(yùn)用多時(shí)間步長(zhǎng)進(jìn)行視頻的自動(dòng)鏡頭分割,在空間上通過(guò)膚色分析和四肢提取來(lái)檢測(cè)并跟蹤乒乓球與運(yùn)動(dòng)員的運(yùn)動(dòng)軌跡,并以此評(píng)價(jià)擊球回合質(zhì)量,自動(dòng)提取最精彩的回合。實(shí)驗(yàn)證明,該文具有良好的使用性和可靠性。
關(guān)鍵詞:鏡頭分割;背景重建;運(yùn)動(dòng)軌跡
中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)35-8527-02
1 概述
面度眾多乒乓球比賽視頻,人們希望能快速瀏覽其中的精彩回合。乒乓球比賽中鏡頭切換頻繁,利用普通視頻剪輯工具處理效率太低。因此設(shè)計(jì)一個(gè)能自動(dòng)提取并評(píng)價(jià)回合精彩程度的系統(tǒng)具有顯著的實(shí)用價(jià)值。
運(yùn)動(dòng)精彩鏡頭提取有多種方法,如音視頻融合檢測(cè)[1],基于音軌分析的檢測(cè)[2],基于情感激勵(lì)檢測(cè)方法等[3]。 文獻(xiàn)[4]對(duì)乒乓球和運(yùn)動(dòng)員進(jìn)行了運(yùn)動(dòng)跟蹤以實(shí)現(xiàn)對(duì)鏡頭的評(píng)價(jià),文獻(xiàn)[5]進(jìn)一步融合了音頻信息對(duì)乒乓球精彩鏡頭進(jìn)行檢測(cè)。該文以背景重建為基礎(chǔ)對(duì)運(yùn)動(dòng)員和乒乓球進(jìn)行跟蹤。首先是鏡頭檢測(cè),然后通過(guò)運(yùn)動(dòng)和膚色信息分析改進(jìn)背景重建算法,接下來(lái)完成對(duì)運(yùn)動(dòng)員的跟蹤,最后融合乒乓球和運(yùn)動(dòng)員運(yùn)動(dòng)以提高評(píng)價(jià)可靠性。
2 鏡頭分割與分類(lèi)
為提高鏡頭檢測(cè)可靠性,該文采用多時(shí)間步長(zhǎng)聯(lián)合分析,其中時(shí)間步長(zhǎng)取1、4和8。可靠的鏡頭變化在相鄰多個(gè)步長(zhǎng)的曲線(xiàn)上都是明顯的,因此將多條曲線(xiàn)相乘得到第四條曲線(xiàn)。這條乘積曲線(xiàn)反映了三個(gè)尺度的聯(lián)合結(jié)果,具有更明顯的峰谷特性,同時(shí)還能避免瞬時(shí)遮擋等突發(fā)干擾的影響。然后再通過(guò)合并相鄰峰值消除突發(fā)干擾。
比賽視頻由多個(gè)鏡頭的內(nèi)容編輯而成,比較常見(jiàn)的鏡頭類(lèi)型包括:主機(jī)位比賽鏡頭、接發(fā)球特寫(xiě)鏡頭、教練席鏡頭、運(yùn)動(dòng)員席鏡頭、觀眾席鏡頭、裁判鏡頭等。用鏡頭分割的結(jié)果,考慮到比賽內(nèi)容的連續(xù)性,取鏡頭中間一幀作為關(guān)鍵幀。然后,利用無(wú)監(jiān)督的聚類(lèi)方法[7]對(duì)這些關(guān)鍵幀進(jìn)行聚類(lèi),用戶(hù)在聚類(lèi)的基礎(chǔ)上選定要保留的場(chǎng)景種類(lèi)。
3 比賽鏡頭背景重建
乒乓球比賽主機(jī)位相對(duì)固定,可重建球場(chǎng)背景。但簡(jiǎn)單的時(shí)間平均得到的背景會(huì)包含運(yùn)動(dòng)員信息,圖1.a和1.b是6秒和30秒視頻片段重建結(jié)果,明顯能看出運(yùn)動(dòng)員的影響。該文在重建過(guò)程中,將運(yùn)動(dòng)區(qū)域和膚色區(qū)域排除在外,可得到更可靠的重建結(jié)果,如圖1.c所示。
利用重建背景與當(dāng)前幀相減后取差值較大像素即可得到前景對(duì)象。圖2.a和圖2.b分別對(duì)應(yīng)圖1.b和圖1.c的處理結(jié)果。圖2.a中明顯可見(jiàn)背景不準(zhǔn)確的影響,會(huì)增加處理難度。如果運(yùn)動(dòng)員衣服顏色和背景一致,也會(huì)存在空洞現(xiàn)象,對(duì)后續(xù)處理產(chǎn)生一定的影響。
4 前景分析及評(píng)價(jià)
4.1乒乓球軌跡跟蹤
乒乓球線(xiàn)路和速度變化是反映比賽精彩程度的重要依據(jù)。該文首先計(jì)算幀間差并確定幀間內(nèi)容變化區(qū)域、定位候選乒乓球?qū)ο?。然后中央位置處候選乒乓球作為跟蹤起點(diǎn),采用貝葉斯決策框架實(shí)現(xiàn)跟蹤。該框架采用卡爾曼濾波器對(duì)動(dòng)態(tài)建模并跟蹤,采用增量貝葉斯算法來(lái)更新外觀參數(shù),最后取具有最大后驗(yàn)概率的候選乒乓球最為當(dāng)前幀中乒乓球的最佳位置。
4.2運(yùn)動(dòng)員動(dòng)作檢測(cè)
為提高評(píng)價(jià)質(zhì)量,通過(guò)分析運(yùn)動(dòng)員動(dòng)作來(lái)判斷精彩程度。乒乓球運(yùn)動(dòng)員四肢運(yùn)動(dòng)較多,在整體運(yùn)動(dòng)的基礎(chǔ)上結(jié)合前景檢測(cè)、膚色提取對(duì)四肢的運(yùn)動(dòng)進(jìn)行跟蹤,作為評(píng)價(jià)精彩程度的重要依據(jù)。在實(shí)現(xiàn)過(guò)程中選擇先得到候選四肢,然后利用Bayesian決策來(lái)跟蹤。
在形態(tài)處理基礎(chǔ)上對(duì)軸線(xiàn)尺寸、位置、顏色做出限制,得到候選四肢。膚色像素比例越高,屬于四肢的置信度越高。在軸線(xiàn)尺寸上,下肢尺寸比較突出,檢測(cè)結(jié)果穩(wěn)定;上肢則隨其姿態(tài)變化較多。具體數(shù)值需根據(jù)球臺(tái)尺寸和運(yùn)動(dòng)員位置調(diào)整。用于跟蹤的主要是運(yùn)動(dòng)信息和外觀信息,系統(tǒng)利用Bayesian決策框架[4]將其組合起來(lái)。使用四個(gè)Kalman濾波器對(duì)四肢分別構(gòu)建動(dòng)態(tài)模型。決定狀態(tài)隨時(shí)間進(jìn)展的卡爾曼模型和測(cè)量模型分別為:
[Xk+1=AXk+wk] (1)
[Zk+1=HkXk+vk] (2)
[Xk]是包含位置和速度的狀態(tài)向量,[Zk]是測(cè)度。[wk]是過(guò)程噪聲,[vk]是度量噪聲,都是白噪聲??柭鼮V波器假設(shè)在每一步的后驗(yàn)概率密度都是高斯的,均值和方差參數(shù)是[θ=vxe,vye,σxe,σye]。[vxe]、[vye]是速率估計(jì)值,[σxe]、[σye]是速度方差估計(jì)值。每一幀更新該混合模型以最大化后驗(yàn)估計(jì)。對(duì)每個(gè)外觀特征的高斯分布的均值和方差參數(shù)更新如下:
[μk=μk-1+μ(k)-μ(k-L+1)L-1] (3)
[k=k-1+∑(k)∑(k-L+1)L-1] (4)
4.3 回合精彩度評(píng)價(jià)
將每回合比賽中乒乓球和運(yùn)動(dòng)員運(yùn)動(dòng)信息映射到與人的感覺(jué)一致的精彩度需要專(zhuān)業(yè)知識(shí)和經(jīng)驗(yàn)。該文利用一些普遍原則來(lái)定義精彩度,主要基于球的軌跡和速度、運(yùn)動(dòng)員位置和速度、回合持續(xù)時(shí)長(zhǎng)等來(lái)定義精彩度,并取每回合成功跟蹤部分中那些最大值的平均值。
5 實(shí)驗(yàn)結(jié)果分析
共處理了奧運(yùn)會(huì)、世界杯等15場(chǎng)比賽,每場(chǎng)取一局。比賽鏡頭查全率為100%,其它鏡頭查全率為97%,誤檢率為3.5%。為了測(cè)量跟蹤性能,我們使用兩個(gè)最常用的準(zhǔn)則:查全率(recall)和精度(precision)。表1給出了跟蹤性能。我們?cè)O(shè)置Bayesian似然度閾值以確保較高的精度,以使得絕大多數(shù)能夠被跟蹤過(guò)程預(yù)測(cè)到,最終的乒乓球軌跡的形狀對(duì)missing的球不敏感(如果不是連續(xù)丟失跟蹤)。大多數(shù)丟失的情況發(fā)生在乒乓球和邊線(xiàn)重合,或與運(yùn)動(dòng)員的衣服混淆。從表1,可以觀察到大多數(shù)臺(tái)內(nèi)球跟蹤結(jié)果比臺(tái)外球更可靠。
6 總結(jié)
觀眾總是關(guān)注體育比賽的精彩級(jí)別,該文提出了一個(gè)多級(jí)評(píng)估策略來(lái)評(píng)價(jià)乒乓球比賽的興奮程度。與已有精彩程度提取方法不同,我們主要用基于具有顯式語(yǔ)義含義的高級(jí)特征(包括球的位置、運(yùn)動(dòng)員和球運(yùn)動(dòng)軌跡)的運(yùn)動(dòng)-外觀組合框架。為了對(duì)觀看者的經(jīng)驗(yàn)建模(可能需要數(shù)據(jù)挖掘),將使用SVM分類(lèi)器,利用更多的標(biāo)記過(guò)的比賽大量視頻訓(xùn)練。為組合不同級(jí)別的知識(shí),適合用Bayesian網(wǎng)絡(luò)來(lái)發(fā)現(xiàn)這些知識(shí)之間的深入關(guān)系。
參考文獻(xiàn):
[1] Yu Song, Wenhong Wang. Unified Sports Video Highlight Detection Based on Multi-feature Fusion [C].Third International Conference on Multimedia and Ubiquitous Engineering, pp: 83-87, Qingdao China, 4-6 June 2009 .
[2] Regunathan Radhakrishan,Ziyou Xiong,Divakaran, A.. Ishikawa, Y. Generation of Sports Highlights Using a Combination of Supervised and Unsupervised Learning in Audio Domain [C].Fourth International Conference on Information, Communications & Signal Processing, vol.2, pp: 935-939, Singapore, 15-18 Dec, 2003.
[3] 于俊清,何歡歡,何云峰.利用情感激勵(lì)提取足球視頻精彩鏡頭[J].計(jì)算機(jī)研究與發(fā)展,2010(10).
[4] Wei Chen, Yu-Jin Zhang. Tracking Ball and Players with Applications to Highlight Ranking of Broadcasting Table Tennis Video [C].IMACS Multiconference on Computational Engineering in Systems Applications, vol(2), pp: 1896-1903, Beijing China, 4-6 Oct,2006.
[5] 鄭福澤.視頻技術(shù)在乒乓球比賽技戰(zhàn)術(shù)分析中的應(yīng)用研究[D].北京:北方工業(yè)大學(xué),2006.
[6] Bin Zhang, Wei Chen, Weibei Dou, Yu-jin Zhang. Content-based Table Tennis Games Highlight Detection Utilizing Audiovisual Clues [C].Fourth International Conference on Image and Graphics, pp: 833-838, Sichuan China, 22-24 Aug 2007.
[7] Bailey, Ken. Numerical Taxonomy and Cluster Analysis, Typologies and Taxonomies. p.34,1994.