呂華瑋 亓振軍
1.2.山東省廣播電視監(jiān)測(cè)中心 山東省 濟(jì)南市 250014
隨著我國(guó)社會(huì)經(jīng)濟(jì)發(fā)展迅速,廣播電視制作、傳播水平突飛猛進(jìn),作為傳播國(guó)家方針政策及豐富大眾精神文化生活的重要平臺(tái),廣播電視節(jié)目特別是新聞節(jié)目的安全播出對(duì)我國(guó)社會(huì)的發(fā)展具有重要意義。為了提升廣播電視安全播出水平,作為廣播電視監(jiān)管部門必須對(duì)廣播電視新聞節(jié)目進(jìn)行有效的監(jiān)測(cè)。因此,能夠?qū)㈦娨曨l道播出的新聞視頻節(jié)目中包含的新聞片段完整地拆分出來(lái),對(duì)我們來(lái)說(shuō)至關(guān)重要。
播音員鏡頭檢測(cè)是將新聞視頻拆分成故事的關(guān)鍵步驟。然而,現(xiàn)有的主播鏡頭檢測(cè)方法與頻道相關(guān),缺乏魯棒性,無(wú)法滿足對(duì)大規(guī)模廣播中各種新聞視頻進(jìn)行有效管理的要求。
新聞播音員鏡頭檢測(cè)是一個(gè)具有挑戰(zhàn)性的研究方向,目前常見(jiàn)的解決方案為模板匹配和回歸檢測(cè)。
由于新聞節(jié)目視頻的特殊性,經(jīng)過(guò)調(diào)研,新聞節(jié)目視頻的拆分點(diǎn)通常伴隨著播音員鏡頭的出現(xiàn),在觀察不同電視臺(tái)播出的多種類型新聞廣播節(jié)目后,我們可以發(fā)現(xiàn)播音員鏡頭就是由一位或兩位新聞播音員坐在播音室里進(jìn)行新聞播報(bào)的鏡頭組成,它通常是一條新聞的開始。由此看出廣播電視新聞視頻中播音員鏡頭具有一些普遍的規(guī)律。
(1)播音員鏡頭由一到兩個(gè)播音員組成,同一個(gè)播音員在新聞的播音員鏡頭中會(huì)出現(xiàn)多次,同一播音員鏡頭相似度較大,且具有同一個(gè)播音員從出現(xiàn)到結(jié)束鏡頭之間的時(shí)間間隔比較大的情況。
(2)鏡頭中播音員一般正面朝向觀眾,上半身都在鏡頭中。不同的鏡頭中,播音員的上半身一般只存在一些由于播音員的微小動(dòng)作導(dǎo)致的差別。
(3)在一個(gè)新聞節(jié)目的播報(bào)過(guò)程中,播音員的服裝是不變的,但播音員鏡頭的背景畫面可能有較大區(qū)別。
根據(jù)上述規(guī)律,我們?cè)诒O(jiān)測(cè)廣播電視新聞節(jié)目時(shí),可以借助計(jì)算機(jī)視覺(jué)技術(shù)對(duì)新聞視頻進(jìn)行檢測(cè),完成播音員鏡頭檢測(cè)任務(wù),通過(guò)檢測(cè)播音員的視頻幀圖像來(lái)智能拆分新聞視頻節(jié)目。
首先,我們對(duì)新聞節(jié)目視頻進(jìn)行鏡頭關(guān)鍵幀提取,然后利用人臉檢測(cè)對(duì)提取的鏡頭關(guān)鍵幀進(jìn)行過(guò)濾,去除檢測(cè)不到人臉的鏡頭關(guān)鍵幀,同時(shí)記錄鏡頭關(guān)鍵幀中人臉的個(gè)數(shù)和人臉的區(qū)域,對(duì)于能檢測(cè)到多于一個(gè)人臉的鏡頭關(guān)鍵幀,通過(guò)人臉之間的空間關(guān)系判斷是否可能為包含兩個(gè)播音員的鏡頭關(guān)鍵幀。
SIFT (Scale-Invariant Feature Transform)是一種計(jì)算機(jī)視覺(jué)上用來(lái)檢測(cè)和描述圖像局部特征的算法,SIFT 特征描述不受圖像方向、亮度和縮放比例的影響,受視角影響和噪聲干擾較小。計(jì)算結(jié)果具有更高的穩(wěn)定性。當(dāng)圖像中物品比較單一時(shí),也可以產(chǎn)生豐富的特征信息以完成圖像描述任務(wù)。SIFT具有高效性,生成特征向量速度相比其他算法較快。
SIFT 特征點(diǎn)檢測(cè)方法是:第一步,對(duì)圖像在空間尺度上不斷下采樣的同時(shí),進(jìn)行高斯模糊處理,是圖像在不同尺度規(guī)模下完成高斯金字塔表示;第二步,使用DOG 函數(shù)檢測(cè)極值點(diǎn),在局部像素點(diǎn)內(nèi)計(jì)算中間點(diǎn)與相鄰點(diǎn)的差值,從而確定極值點(diǎn);第三步,通過(guò)計(jì)算高斯金字塔圖像窗口內(nèi)像素的梯度從而確定每個(gè)關(guān)鍵點(diǎn)的方向,以保證圖像的旋轉(zhuǎn)不變性;第四步,通過(guò)上述步驟得到每個(gè)關(guān)鍵點(diǎn)的尺度、位置以及方向信息,從而進(jìn)行SIFT 特征點(diǎn)匹配工作。
為了快速地在所有鏡頭關(guān)鍵幀中檢測(cè)出有人臉的關(guān)鍵幀,過(guò)濾掉不存在人臉的關(guān)鍵幀,我們利用了AdaBoost 算法。AdaBoost 算法是可以從基于Haar 型特征的弱分類器空間中自動(dòng)挑選出若干弱分類器組合成強(qiáng)分類器的統(tǒng)計(jì)學(xué)習(xí)方法。利用AdaBoost 算法學(xué)習(xí)瀑布型人臉檢測(cè)器算法是準(zhǔn)確率很高的算法。
電視頻道播出的新聞節(jié)目視頻,包含多個(gè)新聞片段,如何利用計(jì)算機(jī)多媒體技術(shù)準(zhǔn)確地將多個(gè)新聞視頻完整拆分出來(lái),從而為廣播電視監(jiān)測(cè)監(jiān)看提供便利。
首先,我們對(duì)每個(gè)鏡頭提取一幀作為關(guān)鍵幀。一個(gè)鏡頭往往需要多個(gè)關(guān)鍵幀表示,但是考慮到播音員鏡頭都比較穩(wěn)定,一個(gè)關(guān)鍵幀足以表示視覺(jué)信息,所以我們固定提取鏡頭中間一幀作為關(guān)鍵幀。另外,考慮到播音員鏡頭的出現(xiàn)伴隨著一條新的新聞條目的出現(xiàn),我們只需要考慮候選新聞條目切換點(diǎn)后的鏡頭。
鏡頭中的播音員一般都是正面朝向觀眾,所以可通過(guò)檢測(cè)關(guān)鍵幀中是否存在人臉來(lái)過(guò)濾掉不可能存在播音員的關(guān)鍵幀。人臉檢測(cè)除了可以去除大部分不可能含有播音員的關(guān)鍵幀外,還能通過(guò)定位人臉在關(guān)鍵幀中的位置計(jì)算出提取視覺(jué)特征的區(qū)域以及檢測(cè)SIFT 特征點(diǎn)的區(qū)域。
其次,對(duì)鏡頭關(guān)鍵幀的某些特定區(qū)域提取視覺(jué)特征后,對(duì)鏡頭圖片進(jìn)行人臉檢測(cè),得到人臉的位置,并使用檢測(cè)出人臉部分的SIFT 特征點(diǎn),與其他鏡頭關(guān)鍵幀中的SIFT 特征點(diǎn)中進(jìn)行匹配,若匹配到的SIFT特征點(diǎn)足夠多,則將該鏡頭視為待定播音員鏡頭,一定數(shù)量連續(xù)的待定播音員鏡頭視為待定播音員鏡頭關(guān)鍵幀組。在選擇待定播音員鏡頭中,我們發(fā)現(xiàn)同一播音員鏡頭開始到鏡頭結(jié)束相隔時(shí)間較長(zhǎng),若發(fā)現(xiàn)待定播音員鏡頭關(guān)鍵幀組的數(shù)量多于設(shè)定閾值,則視為播音員鏡頭關(guān)鍵幀組,否則判定其不是播音員鏡頭關(guān)鍵幀組。
為提高計(jì)算速度,較少計(jì)算量,我們對(duì)比圖像相似度,使用的方法是計(jì)算圖像基于顏色直方圖,通過(guò)比較兩者的相似性得到圖像相似度。相似度高的圖像繼續(xù)進(jìn)行SIFT 特征點(diǎn)匹配,否則跳過(guò)SIFT 特征點(diǎn)匹配。
圖1 算法流程圖
第三,我們運(yùn)用SIFT 技術(shù)進(jìn)一步準(zhǔn)確判定關(guān)鍵幀。只使用顏色特征對(duì)關(guān)鍵幀判定并不充分,應(yīng)同時(shí)使用SIFT 關(guān)鍵點(diǎn)匹配技術(shù)來(lái)比較兩幀,看它們是否含有同一位播音員。
根據(jù)新聞直播經(jīng)驗(yàn),不同播音員鏡頭的背景差別較大,但其衣著服飾大致不變。且新聞播報(bào)期間身體變化幅度較小,不會(huì)有較大動(dòng)作,SIFT 算法可以準(zhǔn)確匹配圖像關(guān)鍵點(diǎn)。不同的新聞播音員數(shù)量不同,通常會(huì)有1-2 個(gè)播音員,當(dāng)同時(shí)有2 個(gè)播音員播報(bào)新聞時(shí),不僅會(huì)存在2 個(gè)人同時(shí)出鏡的畫面,也會(huì)有兩者單獨(dú)出鏡的畫面,由于SIFT 的尺度不變性,2 個(gè)播音員的鏡頭仍然可以和一個(gè)播音員鏡頭匹配上,因此出現(xiàn)2 個(gè)播音員的鏡頭在鏡頭關(guān)鍵幀匹配時(shí)可以不考慮播音員在鏡頭中的大小,只要面部和服飾匹配即可。綜上所述,利用新聞播音員鏡頭特點(diǎn)結(jié)合SIFT 關(guān)鍵幀匹配技術(shù),可以從視頻中找到同一播音員的一組連續(xù)鏡頭關(guān)鍵幀。
我們利用顏色特征和SIFT關(guān)鍵點(diǎn)將相似的帶人臉的關(guān)鍵幀聚合在一組中,在進(jìn)行SIFT關(guān)鍵點(diǎn)匹配之前先用顏色特征來(lái)比較相似度,如果顏色相似度大于某個(gè)預(yù)定義的閾值,再進(jìn)行SIFT 關(guān)鍵點(diǎn)匹配,以節(jié)約計(jì)算時(shí)間。同時(shí)根據(jù)同一個(gè)播音員的鏡頭在新聞中出現(xiàn)的間隔比一般新聞鏡頭的時(shí)間長(zhǎng),計(jì)算一組相似關(guān)鍵幀中任意兩幀間的最大間隔t,如果t 小于一個(gè)預(yù)定義的閾值,則認(rèn)為它們不可能是包含播音員的鏡頭關(guān)鍵幀,可以丟棄不再考慮。這樣,我們可能得到若干組含有單個(gè)人臉的候選播音員鏡頭關(guān)鍵幀組SCi,i=I,…,l,以及若干個(gè)含有兩個(gè)人臉的候選播音員鏡頭關(guān)鍵幀組TCi,i=I,…,h。利用下列規(guī)則找出最終的新聞播音員鏡頭關(guān)鍵幀:
(1)如果I=0,則沒(méi)有檢測(cè)到播音員鏡頭關(guān)鍵幀;
(2)如果I=1,則新聞節(jié)目中只有一個(gè)播音員,SC1 中的所有關(guān)鍵幀為播音員鏡頭關(guān)鍵幀;
(3)如果I>1,h=0,則把處理中相互匹配的SIFT 特征點(diǎn)數(shù)最多的那組關(guān)鍵幀判斷為播音員鏡頭關(guān)鍵幀;
(4)如果I=2,h=1,則新聞節(jié)目中有兩個(gè)播音員,SC1 和SC2 中的所有關(guān)鍵幀為單人播音員鏡頭關(guān)鍵幀,TC1 中所有關(guān)鍵幀為同時(shí)包含兩個(gè)播音員的鏡頭關(guān)鍵幀;
(5)如果I>2,h≥I,則在TC 中選出一組TCi,在SC 中選出兩組SCj 和SCj+I,使他們之間的相互匹配的SIFT 特征點(diǎn)最多。這樣,對(duì)于包含兩個(gè)播音員的新聞節(jié)目,匹配結(jié)果中SCj和SCj+I 為單人播音員鏡頭關(guān)鍵幀集合,TCi 為同時(shí)包含兩個(gè)播音員的鏡頭關(guān)鍵幀集合。
最后,通過(guò)人臉檢測(cè)技術(shù),疊加SIFT 關(guān)鍵點(diǎn)匹配,我們能夠準(zhǔn)確找到所有播音員鏡頭關(guān)鍵幀,最終將含有單個(gè)播音員關(guān)鍵幀的鏡頭作為播音員鏡頭。
為了檢驗(yàn)上述播音員鏡頭檢測(cè)算法的準(zhǔn)確性和魯棒性,我們從實(shí)際生產(chǎn)環(huán)境中選擇了6種不同類型的新聞視頻進(jìn)行測(cè)試,包括中央1 臺(tái)《新聞聯(lián)播》《新聞30 分》,山東衛(wèi)視的《山東新聞》,浙江衛(wèi)視的《浙江新聞》,還有體育新聞和網(wǎng)絡(luò)新聞,實(shí)驗(yàn)環(huán)境為2.50GHz Intel(R)Xeon(R)CPU Linux 服務(wù)器。實(shí)驗(yàn)詳情見(jiàn)表1。
表1 中列舉的新聞中播音員出現(xiàn)的位置、姿態(tài)和大小等因素是不同的,可以對(duì)播音員檢測(cè)算法進(jìn)行較為系統(tǒng)的測(cè)試。其中,Ns,Nr,Nf和Nm指標(biāo)由m/n組成,m表示只包含一個(gè)播音員的鏡頭數(shù)量,n表示包含兩個(gè)播音員的鏡頭數(shù)量,Ns指標(biāo)表示實(shí)際新聞中包含一個(gè)或兩個(gè)播音員的鏡頭數(shù)量;Nr指標(biāo)表示通過(guò)播音員檢測(cè)算法檢測(cè)到正確的播音員鏡頭數(shù)量;Nf指標(biāo)表示播音員檢測(cè)算法的誤檢數(shù),Nm指標(biāo)表示通過(guò)播音員檢測(cè)算法漏檢的播音員鏡頭數(shù)。其中召回率和準(zhǔn)確率的計(jì)算公式為:
從表1 中可以看出,該播音員檢測(cè)算法對(duì)于大多數(shù)主流新聞節(jié)目的播音員鏡頭檢測(cè)工作具有較高的準(zhǔn)確性和較快的計(jì)算速度。對(duì)于體育新聞中漏檢的一個(gè)播音員鏡頭,原因是背景過(guò)于復(fù)雜,可以通過(guò)對(duì)一個(gè)鏡頭多次提取關(guān)鍵幀的方法解決。
表1 播音員鏡頭檢測(cè)結(jié)果
表2 列舉了本文實(shí)驗(yàn)結(jié)果與其他文獻(xiàn)中播音員鏡頭算法實(shí)驗(yàn)的召回率和準(zhǔn)確率結(jié)果對(duì)比,可以看出本文算法性能優(yōu)于其他已有的播音員鏡頭算法。
表2 其他播音員鏡頭算法對(duì)比
綜上所述,我們?cè)谟?jì)算機(jī)多媒體技術(shù)輔助下,運(yùn)用SIFT特征點(diǎn)匹配算法,在人臉檢測(cè)的基礎(chǔ)上,充分利用廣播電視新聞節(jié)目視頻中播音員這一特有鏡頭,能夠?qū)⑿侣劰?jié)目視頻片段逐一拆分出來(lái),形成單一獨(dú)立的視頻片段,為廣播電視監(jiān)測(cè)人員監(jiān)看提供便利,從而實(shí)現(xiàn)新聞節(jié)目的監(jiān)測(cè)。