尚健廷,于紅雪,尹建新,汪 帥
(中國電子科技集團(tuán)公司第三研究所,北京 100016)
當(dāng)前,在媒體融合發(fā)展的大背景下,媒體內(nèi)容不斷豐富,節(jié)目形式多種多樣,節(jié)目資料包括大量的文字、圖片、圖像、聲音等各種形式的信息。同時(shí),隨著云計(jì)算、超高清、人工智能(Artificial Intelligence,AI)、大數(shù)據(jù)等技術(shù)的快速發(fā)展,傳統(tǒng)媒資管理系統(tǒng)已無法支撐當(dāng)前及未來的大數(shù)據(jù)量、多媒體類型、4K/8K 超高清等新業(yè)務(wù)形態(tài)的需求[1]。
為適應(yīng)媒體生產(chǎn)業(yè)務(wù)發(fā)展需要,依托人工智能、云計(jì)算等新興技術(shù),為傳統(tǒng)媒體資產(chǎn)管理系統(tǒng)搭建一個(gè)智能處理中心,構(gòu)建一個(gè)面向媒體融合、超高清業(yè)務(wù)的全新型智能媒體資產(chǎn)管理系統(tǒng),進(jìn)一步拓展媒體資料數(shù)據(jù)的匯聚、開放、共享能力,就顯得尤為迫切與重要。
針對媒資系統(tǒng)現(xiàn)狀,面對未來發(fā)展需求,本文提出為傳統(tǒng)媒資管理系統(tǒng)構(gòu)建智能處理中心,賦能傳統(tǒng)媒資系統(tǒng)。整體思路是:為傳統(tǒng)媒資管理系統(tǒng)搭建智能處理中心,提供人臉識(shí)別、語音識(shí)別、物體識(shí)別、OCR 識(shí)別、場景識(shí)別、圖像增強(qiáng)以及語義理解等智能能力,并將其封裝為多模態(tài)內(nèi)容分析、跨模態(tài)智能檢索、智能編目及智能審核等智能應(yīng)用服務(wù),為整個(gè)媒資業(yè)務(wù)網(wǎng)絡(luò)提供智能服務(wù)支撐,提升媒資生產(chǎn)及業(yè)務(wù)流轉(zhuǎn)效率[2]。
構(gòu)建智能處理中心賦能傳統(tǒng)媒資系統(tǒng),既要考慮現(xiàn)有智能技術(shù)的適配能力,又要考慮傳統(tǒng)媒資系統(tǒng)的實(shí)際業(yè)務(wù)情況,進(jìn)而做到智能技術(shù)與媒資業(yè)務(wù)的有效融合[3]。在設(shè)計(jì)功能架構(gòu)時(shí),需綜合考慮以上因素,以形成一個(gè)成熟、穩(wěn)定、實(shí)用的智能處理中心。本文設(shè)計(jì)的智能處理中心功能架構(gòu)如圖1 所示。
圖1 智能處理中心功能架構(gòu)設(shè)計(jì)
智能處理中心整體上分為基礎(chǔ)層、數(shù)據(jù)層、能力層、應(yīng)用層及運(yùn)營層。
基礎(chǔ)層為智能處理中心的運(yùn)行提供基礎(chǔ)環(huán)境,主要包括網(wǎng)絡(luò)服務(wù)器、網(wǎng)絡(luò)存儲(chǔ)及網(wǎng)絡(luò)交換等設(shè)備。這些資源既可以由公有云提供,也可以由私有云提供。需要注意的是,考慮到媒資系統(tǒng)中有大量的視音頻內(nèi)容,基礎(chǔ)環(huán)境中需要配置高性能圖形處理器(Graphics Processing Unit,GPU)運(yùn)算節(jié)點(diǎn),為智能處理中心能力層提供圖形圖像高性能算力支撐。
數(shù)據(jù)層為智能處理中心提供豐富的媒體支撐服務(wù),是智能處理中心的數(shù)據(jù)倉庫,包括視、音、圖、文等不同形態(tài)的數(shù)據(jù),以及元數(shù)據(jù)信息、標(biāo)簽數(shù)據(jù)等,可為智能處理中心能力層提供媒體數(shù)據(jù)處理分析對象支撐服務(wù),同時(shí)也為應(yīng)用層提供編目、檢索、下載等媒體業(yè)務(wù)數(shù)據(jù)支撐服務(wù)。
能力層是智能處理中心數(shù)據(jù)處理的核心層,包括現(xiàn)有較為成熟的人臉識(shí)別、語音識(shí)別、圖像識(shí)別、OCR 識(shí)別、圖像增強(qiáng)等具體的AI 技術(shù)能力。通過對這些具體的AI 技術(shù)能力有針對性的訓(xùn)練與封裝,形成具有專業(yè)方向特點(diǎn)的能力引擎,如視頻處理與分析引擎、圖片處理與分析引擎、文字處理與分析引擎以及多模態(tài)內(nèi)容處理與分析引擎等,便于對媒資庫中的視、音、圖、文等不同類型的數(shù)據(jù)進(jìn)行智能化處理與分析,輸出更精細(xì)、更準(zhǔn)確的數(shù)據(jù),供媒資業(yè)務(wù)系統(tǒng)調(diào)用[4]。
智能處理中心的應(yīng)用層直接面向用戶提供編目、檢索、下載等服務(wù),建立在能力層之上,通過配置、調(diào)用能力層不同的服務(wù)引擎,實(shí)現(xiàn)語音檢索、跨模態(tài)檢索、智能編目及智能審核等智能化業(yè)務(wù)應(yīng)用。
運(yùn)營層作為智能處理中心的后臺(tái)管理系統(tǒng),為用戶提供統(tǒng)一門戶展現(xiàn)、統(tǒng)一用戶登錄、任務(wù)調(diào)度管理及第三方接口對接等功能服務(wù)。通過運(yùn)營層,智能處理中心可以與第三方媒資系統(tǒng)有效整合,實(shí)現(xiàn)智能處理中心與第三方媒資系統(tǒng)的整體、高效運(yùn)營管理。
傳統(tǒng)媒資系統(tǒng)在內(nèi)容處理、編目、審核、檢索等業(yè)務(wù)流程中可直接調(diào)用智能處理中心的智能應(yīng)用和能力服務(wù)。智能處理中心接收到調(diào)用信息,創(chuàng)建并下發(fā)智能任務(wù),根據(jù)任務(wù)類型匹配相應(yīng)的智能能力模塊或應(yīng)用服務(wù)模塊,按需智能分配相應(yīng)的算力資源進(jìn)行智能化處理,并對其結(jié)果進(jìn)行存儲(chǔ)、管理、應(yīng)用,實(shí)現(xiàn)傳統(tǒng)媒資系統(tǒng)對系統(tǒng)內(nèi)資源的跨模態(tài)智能檢索、智能編目、智能審核等多業(yè)務(wù)應(yīng)用能力。
用戶可以清晰、直觀、實(shí)時(shí)地監(jiān)控智能處理中心各項(xiàng)任務(wù)的運(yùn)行狀態(tài),并能對相關(guān)任務(wù)進(jìn)行管理,如任務(wù)優(yōu)先級調(diào)整、暫停、刪除等常規(guī)操作。同時(shí),智能處理中心也可將任務(wù)處理消息、任務(wù)執(zhí)行消息反饋至媒資系統(tǒng)。智能處理中心的信息流程如圖2 所示。
圖2 智能處理中心信息流程圖
媒資用戶終端可以在統(tǒng)一門戶界面直接上傳媒體文件進(jìn)行智能處理,并將結(jié)果輸出到指定位置,同時(shí)提供糾錯(cuò)、打分、評價(jià)等功能,結(jié)合系統(tǒng)業(yè)務(wù)統(tǒng)計(jì)數(shù)據(jù),實(shí)現(xiàn)對智能服務(wù)和能力進(jìn)行效能評估,為后續(xù)智能處理中心服務(wù)和能力的提升、優(yōu)化提供數(shù)據(jù)依據(jù)。
2.3.1 跨模態(tài)智能檢索
智能處理中心基于圖像特征、視頻特征、事件標(biāo)注、OCR 識(shí)別、NLP 等AI 技術(shù)能力,對視頻、語音、文本、圖像等內(nèi)容的多維理解,對媒體資源進(jìn)行特征和結(jié)構(gòu)化標(biāo)簽提取,存儲(chǔ)在對應(yīng)的庫中,實(shí)現(xiàn)對視頻、音頻、圖片、文字等多種類型數(shù)據(jù)的跨語種語義檢索,實(shí)現(xiàn)以圖搜圖、搜視頻等跨模態(tài)智能檢索功能,提升資源利用的精準(zhǔn)度以及用戶檢索的體驗(yàn)感[5]??缒B(tài)智能檢索示意如圖3 所示,主要包括以視頻搜、以音頻搜、以圖搜及以文搜4 種檢索方式。
圖3 跨模態(tài)檢索示意圖
(1)以視頻搜。輸入視頻,快速查詢其所屬哪個(gè)節(jié)目內(nèi)容或媒資素材,以及出現(xiàn)的時(shí)間片段;同時(shí)可搜索與視頻中的人物、場景等元素相關(guān)的媒資。
(2)以音頻搜。輸入音頻,根據(jù)音頻的聲學(xué)特征,搜索其所在的視頻和音頻。
(3)以圖搜。輸入圖像,快速查詢其所屬媒資內(nèi)容以及出現(xiàn)的時(shí)間點(diǎn),幫助用戶更便捷地搜索感興趣的媒資內(nèi)容;同時(shí)可搜索與圖片中的人物、場景等元素相關(guān)的媒資。
(4)以文搜。輸入人物、地點(diǎn)、場景等關(guān)鍵詞,快速找出相關(guān)的視頻、圖片、音頻等內(nèi)容。
2.3.2 智能編目
智能處理中心遵循國家音像資料編目原則,基于多模態(tài)內(nèi)容分析,為媒體內(nèi)容提供智能編目功能,對媒資內(nèi)容中的視頻畫面、語音和文字等信息進(jìn)行分析推理,輸出題名、內(nèi)容摘要、關(guān)鍵詞等編目信息,方便后續(xù)業(yè)務(wù)使用及系統(tǒng)數(shù)據(jù)管理。
通過人臉識(shí)別和OCR 識(shí)別,智能處理中心對所管理的視音頻、圖片類資源進(jìn)行自動(dòng)化預(yù)處理,自動(dòng)標(biāo)識(shí)關(guān)鍵人物、敏感人物信息,提取畫面中的字幕、標(biāo)題、彈幕等文字內(nèi)容的關(guān)鍵詞,自動(dòng)形成部分編目信息;通過語音識(shí)別,實(shí)現(xiàn)對普通話連續(xù)語音的文字轉(zhuǎn)寫,自動(dòng)提取出關(guān)鍵詞、內(nèi)容簡介、分類等信息,自動(dòng)完善資源編目信息,減少人工編目工作的投入。智能編目標(biāo)注流程如圖4 所示。
圖4 智能編目標(biāo)注流程圖
基于對視頻、語音及圖像的綜合分析理解,智能處理中心還可精細(xì)化識(shí)別視頻、圖片等媒體內(nèi)容中出現(xiàn)的物體和場景,形成物體分類和場景分類標(biāo)簽,更好地支撐編目、檢索等基礎(chǔ)應(yīng)用服務(wù)。
2.3.3 智能審核
內(nèi)容審核是對具體的媒體內(nèi)容進(jìn)行審核。針對內(nèi)容審核環(huán)節(jié)單純依靠人工審核存在的效率低、質(zhì)量差、成本高的痛點(diǎn),可將內(nèi)容審核分為人工觀看判斷和智能審核兩部分。
智能審核主要是對敏感信息審核,基于視覺AI技術(shù),通過機(jī)器學(xué)習(xí)結(jié)合深度學(xué)習(xí),為用戶提供針對音視頻、圖片、文本的內(nèi)容審核能力,主要涉及涉政、色情、暴恐、違禁等審核場景,提高音視頻內(nèi)容審核的效率,降低人工審核漏審風(fēng)險(xiǎn),縮減平臺(tái)的人力成本,助力媒體行業(yè)進(jìn)行產(chǎn)業(yè)升級,賦能媒體行業(yè)的內(nèi)容審核環(huán)節(jié),保障內(nèi)容傳播的監(jiān)管,杜絕違規(guī)內(nèi)容,減少低質(zhì)內(nèi)容。智能審核服務(wù)流程如圖5 所示。
圖5 智能審核服務(wù)流程圖
本文基于AI 技術(shù),構(gòu)建智能處理中心,賦能傳統(tǒng)媒資系統(tǒng)。該設(shè)計(jì)可將傳統(tǒng)媒資系統(tǒng)依靠人力編目生成元數(shù)據(jù)、手動(dòng)進(jìn)行素材初始化的功能模式,轉(zhuǎn)變?yōu)橄到y(tǒng)智能化、自動(dòng)化完成,全方位提升媒資系統(tǒng)在內(nèi)容處理、編目、審核以及檢索等環(huán)節(jié)的業(yè)務(wù)能力。該設(shè)計(jì)遵循實(shí)效原則,充分進(jìn)行組件和資源利舊,在保障用戶現(xiàn)有媒資系統(tǒng)平穩(wěn)運(yùn)行的前提下,通過部署智能化音視頻處理引擎及可視化操作界面,同時(shí)為相關(guān)聯(lián)系統(tǒng)提供標(biāo)準(zhǔn)接口對接能力,實(shí)現(xiàn)系統(tǒng)間業(yè)務(wù)對接,為整個(gè)媒體業(yè)務(wù)網(wǎng)絡(luò)提供智能服務(wù)支撐。