吳 綱
(遼寧省廣播電視及信息網(wǎng)絡(luò)視聽節(jié)目監(jiān)測臺,遼寧 沈陽 110000)
隨著移動互聯(lián)網(wǎng)的蓬勃發(fā)展,碎片化式新聞內(nèi)容傳播更符合當(dāng)下市場發(fā)展的需求。電視新聞節(jié)目逐漸開始采用“分段”的傳播方式,即將一個完整的新聞視頻依據(jù)內(nèi)容進(jìn)行拆分,從而形成短小、完整的新聞片段。
本文結(jié)合傳統(tǒng)方法和前沿的人工智能研究成果,創(chuàng)新性地提出了一種特征聚合新聞拆條的辦法,設(shè)計(jì)并實(shí)現(xiàn)了面向電視新聞節(jié)目的智能拆條軟件系統(tǒng),具有小樣本、無需標(biāo)注、識別速度快、準(zhǔn)確率高的優(yōu)點(diǎn),快速智能地把一個長視頻,按照新聞內(nèi)容分成一個一個獨(dú)立的新聞。系統(tǒng)通過機(jī)器學(xué)習(xí)系統(tǒng),對特定的視頻進(jìn)行學(xué)習(xí)之后,就可以對同類型的視頻進(jìn)行自動拆條,大大提高了工作效率,有效地提高了新聞的傳播速度。
(1)轉(zhuǎn)場識別:是在收錄素材遷移的環(huán)節(jié)進(jìn)行,通過底層識別庫自動抽取素材轉(zhuǎn)場幀來輔助快速定位片段切點(diǎn),節(jié)省了拆條時 seek素材的時間,尤其對新聞類節(jié)目的拆條效率有很大提升。拆條客戶端在執(zhí)行拆條素材審核時,會根據(jù)數(shù)據(jù)庫中記錄的素材信息,自動加載素材對應(yīng)的轉(zhuǎn)場幀,用戶可直接對轉(zhuǎn)場幀進(jìn)行操作。對于收錄素材的邊采邊編,刷新素材的同時也實(shí)現(xiàn)了轉(zhuǎn)場幀的刷新加載。
(2)人臉識別技術(shù):主要應(yīng)用于新聞主持人畫面的精確定位,為后續(xù)智能處理區(qū)分主持人畫面和其他畫面提供基礎(chǔ)數(shù)據(jù)。
(3)字幕識別技術(shù):節(jié)目畫面中往往已經(jīng)有編輯好的標(biāo)題,可以直接用于拆條后素材片段的標(biāo)題。使用字幕識別技術(shù),拆條系統(tǒng)只需要框選需要識別的標(biāo)題畫面,系統(tǒng)會自動將畫面識別成標(biāo)題文字,簡單快捷。
(4)畫面識別技術(shù):通過畫面識別技術(shù),智能處理分析可以準(zhǔn)確定位識別素材屬于哪檔節(jié)目,準(zhǔn)確定位節(jié)目的開始位置。
(5)語音識別技術(shù):語音識別模塊通過對指定音頻通道的音頻基帶信號進(jìn)行解析,按照語音斷句記錄每個識別語句的起始時碼、結(jié)束時碼和識別的文本,識別結(jié)果會在物理素材的同目錄下生成一個和物理素材同名的txt文檔。拆條系統(tǒng)將此識別結(jié)果封裝成字幕文件,并和素材的其他數(shù)據(jù)信息一同存入數(shù)據(jù)庫的素材信息表中。
標(biāo)準(zhǔn)的內(nèi)容包括主持人標(biāo)注和 OCR標(biāo)注:
(1)主持人標(biāo)注:需要人工標(biāo)注視頻中的主持人人臉,用來幫助圖像算法關(guān)鍵幀,進(jìn)而切割視頻。
(2)OCR標(biāo)注:用來畫出新聞視頻中常出現(xiàn)的標(biāo)題版位置和大小,以確定新聞標(biāo)題。
系統(tǒng)建設(shè)初期就需要標(biāo)注一遍,并且每次新聞人員流動和頻道改版都需要重新維護(hù),一個省級的新聞監(jiān)管中心往往有大約 30個左右的地方臺,長期維護(hù)成本高昂。
基于圖像的方法(轉(zhuǎn)場識別、人臉識別)在視頻端點(diǎn)處往往會出現(xiàn)誤判,導(dǎo)致切割不準(zhǔn),嚴(yán)重依賴人工編審修正過程。
隨著視頻普遍高清化,原始視頻文件也變得越來越大,傳統(tǒng)拆條系統(tǒng)的性能不足以滿足高速處理的需求,為了確保新聞能第一時間在新媒體渠道上發(fā)布,往往依賴人工手段解決,費(fèi)時費(fèi)力。
地方性的新聞內(nèi)容口音現(xiàn)象是普遍現(xiàn)象,通用的語音識別引擎需要大量數(shù)據(jù)訓(xùn)練(>1,000小時)后才能有較好的效果。而實(shí)際中一年也僅能產(chǎn)生大約200小時不到的數(shù)據(jù),語音識別引擎字幕翻譯效果很差,進(jìn)一步給內(nèi)容監(jiān)管造成了很大的困難。
首先獲取需要進(jìn)行拆條的原始視頻文件,然后經(jīng)過粗拆階段以及細(xì)拆階段拆分為多個新聞片段,同時提供人工變身模塊用于對系統(tǒng)拆分結(jié)果進(jìn)行修訂。
圖1 基于特征聚合的新聞拆條流程
基于主持人識別、聲紋識別和音頻分段技術(shù),快速確定主持人和新聞內(nèi)容的大致分段。
(1)對于收集到的原始視頻,首先通過預(yù)處理提取音視頻信息。
(2)利用主持人在新聞節(jié)目中出鏡率高的特點(diǎn),先通過聲紋識別、主持人臉識別技術(shù)快速明確節(jié)目主持人。
(3)結(jié)合人臉識別和音頻端點(diǎn)檢測技術(shù),根據(jù)主持人播報的時間對視頻進(jìn)行粗拆。
大部分新聞節(jié)目都會有新聞介紹,所以我們把主持人集中播報的第一段粗粒度視頻單獨(dú)提出來作為新聞開場單獨(dú)進(jìn)行后續(xù)分析。
通過綜合運(yùn)用語音識別、 OCR識別和 NLU技術(shù),實(shí)現(xiàn)對大段內(nèi)容的精細(xì)化拆分,并生成每段新聞的標(biāo)題。
最終新聞識別率可達(dá) 99%,分割誤差在1 s內(nèi)。得到的短新聞送給人工編審模塊,以方便用戶發(fā)布修正,并做部分?jǐn)?shù)據(jù)回流。
粗拆出來的視頻是相當(dāng)不精確的,除了起止時間不夠準(zhǔn)外,經(jīng)常含有多條新聞內(nèi)容,所以有必要進(jìn)行進(jìn)一步的拆分。
(1)我們先把所有的視頻送到語音識別引擎中進(jìn)行語音識別,采用清華大學(xué)基于 CRF-CTC[1]技術(shù)的新一代語音識別引擎,在小樣本集上表現(xiàn)優(yōu)異,非常適合這個場景。
(2)粗粒度的片段通過語音識別引擎可以生成字幕文本。新聞開場可以生成新聞?wù)?,供后面的NLU分析做參考。
(3)同時粗粒度片段進(jìn)行關(guān)鍵幀的OCR識別,獲得標(biāo)題板文本。
(4)把得到的標(biāo)題版文本,字幕文本和新聞?wù)腿胄侣劸C合拆分系統(tǒng)。
三種輸入數(shù)據(jù)有以下特點(diǎn):
(1)文本字幕:不夠精確,并且有大量無意義的采訪人字幕。
(2)OCR識別:無關(guān)背景干擾,無關(guān)的內(nèi)容(采訪人信息),采訪字幕等。
(3)新聞?wù)嚎偨Y(jié)性好,但粒度太大。
新聞綜合拆分系統(tǒng)的工作原理如下:
(1)首先對數(shù)據(jù)進(jìn)行一些預(yù)處理,去除標(biāo)題版文本中和字幕文本的冗余信息。
(2)然后對文本字幕進(jìn)行語義分割,分段的結(jié)果通過和標(biāo)題版文本進(jìn)行差分比對去除字幕內(nèi)容,得到備選標(biāo)題和權(quán)重,再對新聞?wù)M(jìn)行學(xué)習(xí),調(diào)整備選標(biāo)題權(quán)重,得到最終標(biāo)題;對于無明顯標(biāo)題的小新聞,通過文本摘要生成一個標(biāo)題。
(3)確定了文本內(nèi)容分段后,根據(jù)文本起止的時間,對視頻的切割點(diǎn)進(jìn)行修正,得到細(xì)拆的新聞片段。
(4)新聞片段和標(biāo)題一起構(gòu)成短新聞存到知識庫,配合人工編審模塊提供人工修正;人工修正的結(jié)果回流到語義拆分系統(tǒng)的 NLU模塊進(jìn)行模型修正,以提升拆分準(zhǔn)確率。
表1是各種方法各個數(shù)據(jù)集上的 F值橫向?qū)Ρ?,可以看到特征聚合的方法遠(yuǎn)優(yōu)于傳統(tǒng)辦法或者端到端方法。遷移性強(qiáng),數(shù)據(jù)要求低。
表1 拆條準(zhǔn)確率對比表
通過特征聚合技術(shù)的新聞拆條,能夠在新聞快速生產(chǎn)過程中非常迅速地實(shí)現(xiàn)對新聞的拆條,并同時對新聞標(biāo)題字進(jìn)行識別,大大提高了工作效率。