崔玉斌,宿玉文,宋 征
(北京數(shù)碼視訊科技股份有限公司,北京 100085)
基于M ap-Reduce的電視新聞場(chǎng)景切分方法
崔玉斌,宿玉文,宋 征
(北京數(shù)碼視訊科技股份有限公司,北京 100085)
采用Hadoop云計(jì)算的Map-Reduce架構(gòu),對(duì)大數(shù)據(jù)電視新聞?lì)悆?nèi)容進(jìn)行并行的語(yǔ)音識(shí)別和視頻分析處理,以提高效率。主要提出了基于播音員語(yǔ)音情節(jié)連貫性的視頻段合并方法以及采用碼流分析的視頻場(chǎng)景突變檢測(cè)方法。提高了新媒體生產(chǎn)平臺(tái)自動(dòng)剪切視頻場(chǎng)景的準(zhǔn)確性。滿足用戶在第一時(shí)間使用電視、平板電腦和手機(jī)等多屏終端,享受新媒體互動(dòng)服務(wù)。
Map-Reduce;大數(shù)據(jù);視頻場(chǎng)景檢測(cè);語(yǔ)音識(shí)別
在當(dāng)前內(nèi)容爆炸的時(shí)代,電視節(jié)目的數(shù)量呈現(xiàn)快速增長(zhǎng)的趨勢(shì),每天擁有數(shù)萬(wàn)條電視新聞資訊,涉及各個(gè)方面。以前標(biāo)清分辨率的視頻日積月累后就形成了海量的大數(shù)據(jù),而隨著高清的普及,以及未來(lái)4K、甚至8K的超高清電視內(nèi)容,無(wú)疑會(huì)形成更加龐大的PB量級(jí)數(shù)據(jù)。為了適應(yīng)移動(dòng)互聯(lián)網(wǎng)“速食主義”的時(shí)代特點(diǎn),將龐大的電視新聞內(nèi)容快速加以利用,需要對(duì)電視新聞節(jié)目進(jìn)行及時(shí)的整理、標(biāo)注和入庫(kù),并建立新媒體聚合門戶,使多屏用戶按需準(zhǔn)確地檢索到。
數(shù)碼視訊新媒體智能互動(dòng)搜索平臺(tái)(IICSP)是科技部中新國(guó)際合作專項(xiàng)研究課題。IICSP基于業(yè)界流行的Hadoop云計(jì)算架構(gòu)[1],針對(duì)PB量級(jí)的電視新聞大數(shù)據(jù)進(jìn)行基于Map-Reduce架構(gòu)的并行處理,實(shí)時(shí)響應(yīng)大規(guī)模并發(fā)的用戶請(qǐng)求。該平臺(tái)的核心技術(shù)為基于自然語(yǔ)言理解的智能語(yǔ)音識(shí)別和基于碼流分析的輕量級(jí)視頻場(chǎng)景檢測(cè)方法,實(shí)現(xiàn)了具有新媒體多屏點(diǎn)播、直播等業(yè)務(wù)的智能新媒體互動(dòng)搜索平臺(tái)。在三網(wǎng)融合不斷深化的新形勢(shì)下,以及移動(dòng)流媒體蓬勃發(fā)展的新業(yè)態(tài)下,不斷滿足產(chǎn)業(yè)日益增加的新媒體業(yè)務(wù)需求。
IICSP采用了Hadoop中最核心的分布式文件系統(tǒng)HDFS和Map-Reduce軟件編程框架技術(shù)[1]。平臺(tái)的采集設(shè)備把待處理的海量電視新聞按照節(jié)目分別錄制,并保存為HDFS中的文件分塊,以分布式的存儲(chǔ)方式,均勻地分配在云中的各個(gè)數(shù)據(jù)節(jié)點(diǎn)(DataNode)內(nèi),實(shí)現(xiàn)了負(fù)載均衡。在每個(gè)數(shù)據(jù)節(jié)點(diǎn)上,運(yùn)行Map和Re?duce作業(yè)。Map主要執(zhí)行兩個(gè)操作,一是采用語(yǔ)音識(shí)別對(duì)電視新聞播音員的語(yǔ)音數(shù)據(jù)進(jìn)行處理;二是進(jìn)行視頻場(chǎng)景分析和視頻切分,輸出新媒體數(shù)據(jù)。其中第一階段的主要目的是對(duì)視頻段進(jìn)行語(yǔ)音識(shí)別,分析獲取語(yǔ)音關(guān)鍵詞作為標(biāo)簽,并為新媒體內(nèi)容搜索建立索引;而第二階段主要是產(chǎn)生三屏新媒體短視頻內(nèi)容。Reduce則把新媒體內(nèi)容進(jìn)行分類聚合,以適配新媒體聚合類應(yīng)用。IICSP采用的Map-Reduce架構(gòu)設(shè)計(jì)見(jiàn)圖1。
圖1 Map-Reduce架構(gòu)設(shè)計(jì)圖
電視新聞內(nèi)容場(chǎng)景的變換很豐富,一段視頻場(chǎng)景持續(xù)時(shí)間在幾分到幾秒不等,文獻(xiàn)[2]中按照時(shí)間對(duì)視頻文件進(jìn)行分段是比較簡(jiǎn)單的方案,沒(méi)有考慮到語(yǔ)音上下文的相關(guān)性。雖然并行計(jì)算能夠提高系統(tǒng)的有效性,但存在語(yǔ)音識(shí)別準(zhǔn)確率下降的問(wèn)題。
IICSP中每路Map處理一個(gè)新聞節(jié)目,以保證語(yǔ)音識(shí)別的準(zhǔn)確率。另外,對(duì)電視新聞內(nèi)容進(jìn)行深入分析可知,電視內(nèi)容中視頻和音頻是同步的,在語(yǔ)義上具有強(qiáng)關(guān)聯(lián)性。IICSP根據(jù)播音員語(yǔ)音內(nèi)容情節(jié)上下文的連貫性,精心設(shè)計(jì)了對(duì)固定間隔切分視頻段,按照語(yǔ)音語(yǔ)義進(jìn)行合并的算法;并設(shè)計(jì)了計(jì)算復(fù)雜度非常低的視頻場(chǎng)景檢測(cè)方法;采用了保證主客觀質(zhì)量的視頻切分方法。上述方法確保自動(dòng)產(chǎn)生的新媒體視頻在語(yǔ)義上具有連貫性、準(zhǔn)確性和完整性,在結(jié)構(gòu)上保證了音視頻文件同步且完整。
IICSP采用的電視新聞場(chǎng)景切分方法流程見(jiàn)圖2。新聞節(jié)目切分包括5個(gè)關(guān)鍵的部分:1)播音員聲紋識(shí)別模塊;2)基于播音員語(yǔ)音情節(jié)單元的視頻段合并模塊;3)語(yǔ)音情節(jié)單元邊界檢測(cè)模塊;4)視頻場(chǎng)景檢測(cè)模塊;5)文件切分模塊。
圖2 電視新聞場(chǎng)景切分流程圖
2.1 播音員聲紋識(shí)別
在語(yǔ)音識(shí)別中,只有對(duì)新聞播音員進(jìn)行標(biāo)準(zhǔn)語(yǔ)音識(shí)別才能獲得95%以上的準(zhǔn)確率。因此采用該模塊來(lái)鑒別獲得播音員的語(yǔ)音文件,以便后續(xù)處理。聲紋識(shí)別技術(shù)目前已經(jīng)非常成熟,本文采用文獻(xiàn)[3]提出的方法進(jìn)行處理。
2.2 基于播音員語(yǔ)音情節(jié)單元的視頻段合并算法
總體設(shè)計(jì)思想是把待處理的語(yǔ)音文件分成等間隔的小段,根據(jù)語(yǔ)音段頻繁出現(xiàn)的熱詞來(lái)判斷相鄰語(yǔ)音小段內(nèi)容的相似性,把內(nèi)容相似的小段合并為一個(gè)情節(jié)單元(CU)。定義語(yǔ)音的情節(jié)單元為一段內(nèi)容上下文關(guān)聯(lián)度很強(qiáng)的音視頻片段。而對(duì)于非播音員的語(yǔ)音片段,自動(dòng)劃歸為前一段播音員語(yǔ)音的CU。
1)播音員語(yǔ)音小段劃分
設(shè)Vi代表第i個(gè)t秒間隔的采樣語(yǔ)音段,其中i=1,2,…,n;其中t的初始值為對(duì)樣本新聞視頻播音員說(shuō)一句話持續(xù)時(shí)間長(zhǎng)短統(tǒng)計(jì)學(xué)習(xí)得到的樣本均值,一般不超過(guò)10 s,并根據(jù)實(shí)際的處理視頻自適應(yīng)地調(diào)整t值,對(duì)于不足t秒的播音員語(yǔ)音,按照實(shí)際時(shí)間處理。
2)合并算法
通過(guò)對(duì)新聞內(nèi)容的分析可知,一段主題新聞內(nèi)容播音員都會(huì)反復(fù)提到人名、事件名、地名、時(shí)間等所謂的熱詞。把這類詞定義為關(guān)鍵詞,關(guān)鍵詞數(shù)據(jù)結(jié)構(gòu)如下:
上面結(jié)構(gòu)體中的變量含義為:①按人、事件、物、地點(diǎn)、時(shí)間等設(shè)置枚舉變量,設(shè)系統(tǒng)初始的總類數(shù)為C;②保存關(guān)鍵詞的名稱;③用(j)代表第i段語(yǔ)音中、第v類、第j個(gè)關(guān)鍵詞經(jīng)過(guò)統(tǒng)計(jì)出現(xiàn)的頻度數(shù)量,其中變量v 基于上段所述的準(zhǔn)則,可以認(rèn)為前后兩段音頻內(nèi)容的重點(diǎn)一致。接下來(lái),進(jìn)行最終的語(yǔ)音小段合并準(zhǔn)則判定其中,用關(guān)鍵詞類的權(quán)重與關(guān)鍵詞出現(xiàn)頻率的乘積作為最終判定分段內(nèi)容相似性的參數(shù)。而TH為經(jīng)驗(yàn)閾值,一般根據(jù)分類樣本進(jìn)行統(tǒng)計(jì),初始值設(shè)為樣本均值,并可自適應(yīng)進(jìn)行調(diào)整。 2.3 情節(jié)單元邊界檢測(cè)算法 為了確定兩段內(nèi)容獨(dú)立的語(yǔ)音情節(jié)單元的精確切分點(diǎn),在前后兩小段t秒的語(yǔ)音段不能合并的情況下,記錄后t秒各類經(jīng)過(guò)排序的前Δ個(gè)關(guān)鍵詞與前t秒對(duì)應(yīng)各類關(guān)鍵詞的補(bǔ)集內(nèi)(即后t秒中新出現(xiàn)的關(guān)鍵詞集合)的關(guān)鍵詞名稱。依次選取補(bǔ)集中頻率最高的各類關(guān)鍵詞的名稱,在前后2t秒的語(yǔ)音中尋找該關(guān)鍵詞第一次出現(xiàn)的時(shí)間點(diǎn),確定2t秒內(nèi)最前面的時(shí)間點(diǎn)為語(yǔ)音情節(jié)單元邊界,以便在該語(yǔ)音對(duì)應(yīng)的視頻圖像組(GoP)鄰域內(nèi)找到精確的文件切分點(diǎn)。 2.4 視頻場(chǎng)景檢測(cè)算法 在確定了語(yǔ)音情節(jié)單元邊界對(duì)應(yīng)的視頻幀后,在該幀所在GoP和前后2個(gè)相鄰的GoP內(nèi)進(jìn)行碼流分析,獲得宏塊序號(hào)、DC系數(shù)、運(yùn)動(dòng)矢量殘差值和幀內(nèi)編碼宏塊數(shù)量等關(guān)鍵數(shù)據(jù)。該視頻突變場(chǎng)景檢測(cè)方法計(jì)算復(fù)雜度非常低,僅讀取2.5 s左右時(shí)間內(nèi)的60幀視頻碼流,進(jìn)行比特級(jí)的解碼即可。而對(duì)于視頻漸變場(chǎng)景則采用語(yǔ)音關(guān)鍵詞進(jìn)行切分。 1)播音員頭肩像關(guān)鍵幀檢測(cè) 對(duì)于新聞?lì)惞?jié)目,具有播音員頭肩像的視頻幀是輔助進(jìn)行場(chǎng)景劃分的重要依據(jù)。采用有監(jiān)督機(jī)器學(xué)習(xí)的方式,選取各個(gè)電視臺(tái)新聞播音員各種播報(bào)場(chǎng)景幀作為樣本,提取具有播音員頭肩像的關(guān)鍵幀的宏塊/塊的序號(hào)和DC分量數(shù)值,進(jìn)行統(tǒng)計(jì),獲取樣本均值和方差等數(shù)字特征,形成樣本特征庫(kù)。在實(shí)際檢測(cè)中采用最小二乘法與樣本特征庫(kù)內(nèi)的特征數(shù)據(jù)進(jìn)行比對(duì),只要波動(dòng)不超過(guò)樣本方差,即可判斷當(dāng)前幀是播音員頭肩像。 2)運(yùn)動(dòng)復(fù)雜度分析 在GoP鄰域內(nèi),設(shè)RF為參考幀,CF為當(dāng)前幀,Σmv為累加的CF解碼宏塊/塊的解碼運(yùn)動(dòng)矢量差值之和,如果Σmv 3)幀內(nèi)宏塊數(shù)統(tǒng)計(jì) 在GoP鄰域內(nèi),設(shè)NαIntraMB代表第α幀的幀內(nèi)編碼宏塊數(shù)量,α為視頻幀的序號(hào)。設(shè)ThNumIntraMB為通過(guò)對(duì)樣本分析獲取的視頻預(yù)測(cè)幀(P、B幀)幀內(nèi)宏塊的數(shù)量閾值,一般取樣本均值。如果NαIntraMB?Nα-1IntraMB,即后一預(yù)測(cè)幀的幀內(nèi)編碼宏塊數(shù)突然成倍增加,則認(rèn)為前后預(yù)測(cè)幀紋理差異較大或運(yùn)動(dòng)特別劇烈,存在場(chǎng)景切換的可能。 如果在GoP鄰域內(nèi)檢測(cè)到播音員頭肩像的關(guān)鍵幀,且連續(xù)GoP場(chǎng)景平滑,則可以判定當(dāng)前場(chǎng)景是播音員頭肩像場(chǎng)景,該場(chǎng)景的第一個(gè)GoP可以作為切分前后新聞內(nèi)容短視頻的備選斷點(diǎn)。 對(duì)于兩段新聞片段之間沒(méi)有播報(bào)場(chǎng)景視頻幀的情況,采用視頻場(chǎng)景突變檢測(cè)方法:如果前后預(yù)測(cè)幀運(yùn)動(dòng)劇烈變化,或幀內(nèi)編碼宏塊劇烈上升,則當(dāng)前GoP可以作為切分前后新聞內(nèi)容短視頻的備選斷點(diǎn)。 2.5 文件切分算法 GoP從I幀開(kāi)始。當(dāng)檢測(cè)到幀類型是I幀后,則確定為GoP邊界。切分文件的原則是保持播音員語(yǔ)音的完整性且保持音視頻同步。對(duì)于播音員語(yǔ)音從I幀開(kāi)始且為開(kāi)環(huán)GoP的情況,需要去掉I幀后面緊接著的兩個(gè)B幀的前向參考然后切分,以便在解碼時(shí)能正確重建。而對(duì)于閉環(huán)GoP,則無(wú)需處理,直接切分。如果播音員語(yǔ)音開(kāi)始的時(shí)間點(diǎn)對(duì)應(yīng)的視頻幀非I幀,分為以下兩種情況進(jìn)行處理。 對(duì)于P幀:解碼該P(yáng)幀,并重新編碼為全幀內(nèi)宏塊P幀,丟棄當(dāng)前GoP中顯示時(shí)間在該P(yáng)幀前面的視頻幀對(duì)應(yīng)的碼流,后面其他幀碼流無(wú)變化。 對(duì)于B幀:確定其后向參考幀,如果是I幀不處理,是P幀則解碼重建,并重新編碼為全幀內(nèi)宏塊P幀。解碼該B幀,再編碼為全幀內(nèi)宏塊P幀,丟棄當(dāng)前GoP中顯示時(shí)間在該B幀前面的視頻幀對(duì)應(yīng)的碼流,而對(duì)顯示時(shí)間在該B幀后面的B幀,進(jìn)行解碼重建,并重新編碼為全幀內(nèi)宏塊P幀。 IICSP基于云計(jì)算Map-Reduce架構(gòu)并行對(duì)大數(shù)據(jù)電視新聞內(nèi)容進(jìn)行高效且精確地主題劃分、打標(biāo)簽、建立索引。采用了新穎的視頻場(chǎng)景切分算法,獲得準(zhǔn)確完整的新媒體短視頻。運(yùn)營(yíng)商搭建IICSP后,可提供一系列智能、交互、時(shí)尚的新媒體內(nèi)容服務(wù),使其擁有的海量電視內(nèi)容迅速增值。IICSP較現(xiàn)有的其他同類平臺(tái),具有處理效率高且更準(zhǔn)確的優(yōu)點(diǎn),節(jié)省了勞動(dòng)力,提高了性價(jià)比。 [1] Apache Hadoop[EB/OL].[2013-08-25].http://hadoop.apache.org/. [2]王碩,劉文.并行化語(yǔ)音識(shí)別系統(tǒng)的研究與設(shè)計(jì)[J].計(jì)算機(jī)工程和應(yīng)用,2012,48(11):71-74. [3] TAN L,WEIG.Blind signal separation of convolution mixture sig?nals via minimum mutual information(MMI)method[J].Journal of China Institute of Communications,1999,20(10):49-55. TN949.6 B ?? 雯 2013-11-22 【本文獻(xiàn)信息】崔玉斌,宿玉文,宋征.基于Map-Reduce的電視新聞場(chǎng)景切分方法[J].電視技術(shù),2014,38(6). 國(guó)家國(guó)際科技合作專項(xiàng)(2012DFG11800) 崔玉斌(1979—),高級(jí)工程師,主研多媒體通信、視頻內(nèi)容分析、語(yǔ)音識(shí)別、云計(jì)算等; 宿玉文(1973—),高級(jí)工程師,主研數(shù)字電視傳輸、媒體內(nèi)容保護(hù)和增值業(yè)務(wù)技術(shù)等; 宋 征(1975—),高級(jí)工程師,主要研究方向三網(wǎng)融合、物聯(lián)網(wǎng)、云計(jì)算等。3 小結(jié)