徐進苗,郭國輝,王春輝,尚健廷
(中國電子科技集團公司第三研究所,北京 100016)
近年來,語音識別、場景識別等依托智能引擎的應用技術在音視頻領域得到廣泛的應用。高質(zhì)量的長、短視頻節(jié)目在社交平臺、視頻網(wǎng)站等傳播渠道的吸粉程度最高。社交平臺和視頻網(wǎng)站等傳播渠道不受頻道、時間限制,對內(nèi)容的需求是海量的,傳統(tǒng)的節(jié)目制作模式已經(jīng)無法支撐[1]。如何利用智能化技術提高內(nèi)容生產(chǎn)效率,媒體行業(yè)也在不斷地進行探討。
由于社交平臺和視頻網(wǎng)站等傳播渠道對內(nèi)容多樣性、海量性的要求,媒體行業(yè)的內(nèi)容生產(chǎn)機構在內(nèi)容制作流程中需要投入大量人力、物力。其中,風格迥異的視頻節(jié)目模板是節(jié)目制作流程的重要環(huán)節(jié),也是設計成分最高的環(huán)節(jié)[2]。例如,人為地對諸多不同的視頻節(jié)目內(nèi)容、風格、背景、時長等進行觀察和分析,然后進行模板制作。這種人工制作模板的方式,在應對單一的或少量的節(jié)目生產(chǎn)時,基本能夠滿足節(jié)目內(nèi)容生產(chǎn)需求,但在應對當前多個不同社交平臺、視頻網(wǎng)站的不同視頻節(jié)目時,就會顯得力不從心,且誤差明顯、效率一般,不能滿足視頻節(jié)目內(nèi)容生產(chǎn)高質(zhì)量、高效性的要求,也不能滿足視頻節(jié)目內(nèi)容發(fā)布及時性的要求。
對此,可以利用語音識別、場景識別、語義理解等智能化技術提供的能力,應用于視頻模板制作場景,構建視覺信息智能化提取應用技術、視頻劇本智能語義理解應用技術、視頻畫面優(yōu)質(zhì)信息理解及重構應用技術,從而形成視頻模板智能生成系統(tǒng)[3]。視頻模板智能生成系統(tǒng)能夠?qū)Σ煌瑑?nèi)容、不同風格的視頻信息進行學習和理解,自動重構出不同內(nèi)容、不同風格的視頻制作模板樣式,為視頻節(jié)目編輯包裝提供模板應用支撐,滿足多樣性、復雜性的節(jié)目制作需求,同時滿足內(nèi)容發(fā)布及時性的要求。
視頻模板智能生成,首先要對視頻節(jié)目進行智能識別與分析理解,同時也需要對視頻劇本進行智能語義理解,其次進行綜合性優(yōu)質(zhì)信息分析與提煉,梳理出視頻信息風格與特點,最后重構出通用化的視頻節(jié)目制作模板[4]。與之對應,這里主要涉及基于視覺信息智能化提取技術、視頻劇本智能語義理解技術以及視頻畫面優(yōu)質(zhì)信息理解及重構技術。
面對當下社交平臺、視頻網(wǎng)站的視頻節(jié)目豐富多樣的環(huán)境,各式各樣的視頻制作模板需求越來越高。傳統(tǒng)人工制作多樣化模板時,需要理解分析大量視頻資源,通過提取時長、畫幅、風格等生產(chǎn)要素,然后人工制作模板。面對多樣化的視頻節(jié)目需求,人工制作模板生產(chǎn)過程效率較低,質(zhì)量標準也參差不齊,而人工智能(Artificial Intelligence,AI)技術的出現(xiàn)和發(fā)展,使視覺信息智能化提取工程化和規(guī)范化變得可以實現(xiàn)。
視覺信息智能化提取是利用人臉識別、物體識別、場景識別以及智能化標簽提取等技術,對視頻節(jié)目的名稱、編目、來源以及節(jié)目里的人物、場景等重要信息進行綜合分析處理,實現(xiàn)視頻節(jié)目模板生產(chǎn)要素識別、歸納、提取及結構化管理[5]。結構化管理的生產(chǎn)要素可以支持AI 視覺信息智能化標簽篩選檢索,方便對視頻中的生產(chǎn)要素進行定位和調(diào)整,優(yōu)化生產(chǎn)要素信息提取的準確性。具體提取層面,主要涉及畫面構成重要信息識別與標記、視頻生產(chǎn)要素提取。
(1)畫面構成重要信息識別與標記,基于場景識別、OCR 識別、語音識別、智能標簽等AI 技術,構建畫面構成重要信息識別與標記應用引擎,對視頻節(jié)目的畫面進行理解與區(qū)分,對視頻內(nèi)容構成信息進行識別與定位,包括畫面的LOGO 區(qū)域、畫面的背景區(qū)域、畫面的視頻播放區(qū)域、字幕區(qū)域、視頻場景切換時間點、背景音樂等信息,以及畫面構成基礎信息進行有效的識別,并將重要信息進行標記,記錄視頻中生產(chǎn)要素的獲取時間點與位置,為視頻生產(chǎn)要素的提取提供基礎支撐。
(2)視頻生產(chǎn)要素提取,基于智能摳像、字幕替換、渲染模型等技術,面向標記完成的視頻模板要素,進行拆解與提取,包括但不限于背景音樂提取、背景圖片提取、視頻畫面疊加圖片提取、視頻播放時間點標記信息提取、視頻轉場時間點提取以及視頻字幕位置信息提取等,為后續(xù)視頻模板重構提供基礎支撐。
視頻節(jié)目中的畫面、音頻以及字幕等內(nèi)容,都存在大量的有效信息。在視頻節(jié)目生產(chǎn)過程中,節(jié)目特效、轉場也與視頻傳達的信息緊密相關,而音頻的內(nèi)容完全是視頻傳達信息構成的具象化體現(xiàn)。因此,對視頻中的音頻信息進行識別與深度分析,有利于生產(chǎn)制作人員對節(jié)目內(nèi)容及邏輯結構的理解[6]。然而,目前生產(chǎn)制作人員只能依賴個人經(jīng)驗對音頻內(nèi)容及字幕進行深度理解,從而復制應用。受人員和時間的限制,這種模式只能生產(chǎn)少量優(yōu)質(zhì)模板,無法批量產(chǎn)出大量優(yōu)質(zhì)的視頻模板,不能高效輔助媒體內(nèi)容的快速生產(chǎn)制作。
針對以上問題,可以采用語音識別技術、機器翻譯技術、自然語言理解技術,構建視頻劇本智能語義理解應用引擎,實現(xiàn)對視頻內(nèi)容中音頻信息的識別、糾正、理解以及轉化。通過自然語言的深度理解,完成對視頻內(nèi)在故事線、劇本的邏輯理解與拆解,有利于對視頻模板的轉場時間點、視頻模板分配時間線位置、視頻模板播放時長等視頻模板生產(chǎn)要素的精準化輸出。
利用語音識別技術,對視頻素材中的音頻內(nèi)容進行識別,將其轉化為文字,可以為下一步對音頻內(nèi)容的語義理解做好準備。如有外文,可利用機器翻譯技術,進行統(tǒng)一文字規(guī)范,能夠基于中文內(nèi)容進行語義理解。然后利用自然語言理解技術,通過分詞、詞性標注、句法分析、文本相似度等處理,對文本內(nèi)容進行語義分析與理解,并與對應的視頻畫面關聯(lián),間接分析出視頻類型、風格等特點。例如,通過分析語音內(nèi)容,可得到此視頻素材畫面風格屬于具體哪一類視頻,視頻具有什么樣的風格特點,視頻畫面中有哪些信息需要保留、有哪些冗余信息需要去除,有利于視頻畫面生產(chǎn)要素的精準提取和視頻模板輸出。
視頻制作模板的智能生產(chǎn),需要對大量視頻節(jié)目信息進行分析和理解,對視頻中的生產(chǎn)要素進行分析和理解,然后進行去冗存精,才可以重新構造出預期的視頻制作模板,并對模板進行結構化管理,便于模板查找和調(diào)用。
在基于視覺信息智能化提取結果、視頻劇本智能語義理解結果基礎之上,可以利用AI 技術,構建視頻畫面要素優(yōu)質(zhì)信息理解及重構生成應用引擎,把視頻畫面和語音內(nèi)容相互結合進行綜合分析與理解,對視頻內(nèi)容進行畫面分析、多元語義理解,歸納出視頻畫面特征和風格?;诠?jié)目制作生產(chǎn)系統(tǒng)的時間線邏輯,結合視頻內(nèi)容中提取的模板構成要素以及在視頻內(nèi)容中識別到的關鍵要素時間點信息,進行模板劇本的構建。按照模板劇本調(diào)用時間線工程,匹配視頻模板生產(chǎn)要素,形成視頻模板工程時間線文件,重構輸出視頻畫面,形成面向社交平臺或視頻網(wǎng)站的視頻制作模板。批量化生成后的模板自動保存到模板庫中進行統(tǒng)一管理,便于視頻生產(chǎn)系統(tǒng)直接調(diào)用。
視頻模板在智能節(jié)目生成中的應用架構設計,如圖1 所示,主要包含基礎支撐層、數(shù)據(jù)要素層、能力供給層及能力生成層。
圖1 視頻模板應用架構
基礎資源層包含計算資源、存儲資源及網(wǎng)絡資源等,為上層技術引擎和應用業(yè)務提供基礎環(huán)境支撐。本次應用設計能夠適應在公有云、私有云、傳統(tǒng)機架式服務器等不同基礎環(huán)境的部署與運行,保障技術層面先進性的同時,也有利于新舊計算資源的充分綜合利用。
數(shù)據(jù)要素層對元數(shù)據(jù)、實體數(shù)據(jù)關聯(lián)關系及數(shù)據(jù)庫集等數(shù)據(jù)進行分類、定義,為視頻模板智能化生成提供充足的數(shù)據(jù)資源,主要包括數(shù)據(jù)分析要素和實體數(shù)據(jù)要素。數(shù)據(jù)分析要素包括畫面使用度、畫面共性度、畫面背景、視頻元素及視頻動作等。實體數(shù)據(jù)要素包括人臉數(shù)據(jù)庫、場景數(shù)據(jù)類型庫、動作類型庫、字幕類型庫、語音類型庫及視頻素材庫等不同的數(shù)據(jù)資源。
能力供給層為視頻模板智能生成業(yè)務應用提供能力供給支撐,包括視覺信息智能化提取、視頻劇本智能語義理解、視頻畫面優(yōu)質(zhì)信息理解及重構。視覺信息智能化提取主要是對視頻畫面處理、視頻畫面構成重要信息識別與標記以及視頻生產(chǎn)要素提取。視頻劇本智能語義理解主要進行視頻語音轉化處理、視頻內(nèi)容語義理解以及劇本要素信息提取。視頻畫面優(yōu)質(zhì)信息理解及重構是在視覺信息智能化提取、視頻劇本智能語義理解的基礎上,進行綜合性的視頻畫面結構理解,提取視頻畫面生產(chǎn)要素,進行視頻畫面重構,并進行視頻模板的管理。
能力生成層是體現(xiàn)業(yè)務能力的應用,包括視頻模板生成、模板編輯及系統(tǒng)管理等應用,主要是合成輸出多頻率元素、多頻率模塊以及同款對應風格的制作模板。
整個應用設計提供規(guī)范化、開放式接口,便于信息資源管理系統(tǒng)的接入,快速調(diào)用圖片、短視頻、網(wǎng)絡媒體視頻等媒體資源,以及生產(chǎn)系統(tǒng)的接入,能夠調(diào)用智能化生成的視頻節(jié)目模板。
在應用流程設計方面,充分考慮信息制作業(yè)務流程需求,并與現(xiàn)有技術相互結合,進行整體規(guī)劃設計,以提高信息制作整體生產(chǎn)能力和效率,為行業(yè)用戶提供快速高效的視頻生產(chǎn)能力支撐。設計的應用流程如圖2 所示。
圖2 應用流程
視覺信息智能化節(jié)目模板重構可與信息資源管理系統(tǒng)對接,調(diào)用不同的多媒體成品節(jié)目,進行不同視頻畫面生產(chǎn)要素的提取與分析,然后根據(jù)生產(chǎn)要素進行畫面重構,渲染輸出生成不同風格、不同樣式的制作模板,供生產(chǎn)系統(tǒng)進行模板調(diào)用,全流程下在必要時可進行人工調(diào)整。
本文圍繞視頻模板智能生產(chǎn)技術的應用設計,通過對視覺信息智能化提取技術、視頻劇本智能語義理解技術、視頻畫面要素優(yōu)質(zhì)信息理解及重構技術等三個方面的智能技術應用分析,可以預知,人工智能技術在視頻模板制作方面的應用是可行的,但人工智能技術受限于材料學習與訓練,并不能完全按照制作人員的期望或要求去生產(chǎn)模板。這就需要不斷地對智能模型或算法進行進化訓練,提升視頻畫面智能識別的準確率和模板重構轉化率,迭代提高制作模板生成質(zhì)量,才可以逐步向視頻制作人員的預期效果靠攏。
智能化視頻模板重構的創(chuàng)新應用,不僅能夠提升內(nèi)容創(chuàng)作人員的生產(chǎn)效率,也可以為內(nèi)容創(chuàng)作者提供更多的創(chuàng)意參考。未來,更高質(zhì)量、高效率、高智能化地輔助創(chuàng)作者進行制作模板的輸出,也有很大的發(fā)展空間,也是智能技術一個重要的應用研究方向。只有通過不斷的理論探索與操作實踐,才能穩(wěn)步推進智能化技術在媒體行業(yè)不同業(yè)務層面的創(chuàng)新應用。