羅 莉,苗 方,吳 敏
(1.中國傳媒大學 信息工程學院,北京100024;2.中國國際廣播電臺 技術管理辦公室,北京100040)
隨著數(shù)字技術和網(wǎng)絡技術的發(fā)展,信息傳播進入了融合媒體時代。媒體內(nèi)容的采集、匯聚、生產(chǎn)、分發(fā)和呈現(xiàn)形式發(fā)生了巨大的轉(zhuǎn)變。傳統(tǒng)的媒體傳播形式已不能充分滿足廣大用戶的需求,新興的視頻網(wǎng)站、IPTV、手機電視等視聽媒體的出現(xiàn),使得媒體內(nèi)容更多地通過互聯(lián)網(wǎng)渠道發(fā)布,并通過電視、手機、平板、計算機等多終端方式呈現(xiàn)。電視臺紛紛設立網(wǎng)絡電視臺,新興視頻網(wǎng)站如愛奇藝、優(yōu)酷土豆等也紛紛自制電視節(jié)目涉足廣電行業(yè),電視觀眾轉(zhuǎn)變?yōu)槎嗥粱酉碌挠脩?,線上的節(jié)目內(nèi)容與線下的互動結(jié)合日益緊密。
融合媒體環(huán)境下,媒體內(nèi)容碎片化和媒體數(shù)據(jù)的異構化趨勢使它們之間的語義關聯(lián)更加復雜。如何實現(xiàn)媒體內(nèi)容資源的有效聚合、存儲、管理、利用,如何在海量異構的媒體數(shù)據(jù)和多樣的用戶需求之間進行匹配,形成信息的精準高效的分發(fā)和傳遞是亟待解決的問題。海量的媒體數(shù)據(jù)價值仍有待挖掘,對視頻、圖片、文本等異構數(shù)據(jù)的管理和利用顯得日趨重要。一方面,對海量視頻內(nèi)容的檢索技術并不像簡單文本檢索,對資料文本標注進行索引,目前應用中主要側(cè)重于對視頻的文本描述的元數(shù)據(jù)檢索。而對視頻的內(nèi)容檢索主要是對視頻底層特性的提取,而缺乏對視頻語義信息的提取。因此語義信息的檢索和聚合成為近年來研究的熱點;另一方面,為了方便有效地對資源進行管理、檢索、聚合,傳統(tǒng)的元數(shù)據(jù)編目規(guī)范有待改進。因此,在媒體資產(chǎn)管理系統(tǒng)中,需要構建視頻內(nèi)容的關聯(lián)信息庫,利用網(wǎng)絡訪問和交互的用戶行為數(shù)據(jù)以及視頻內(nèi)容關聯(lián)信息等異構元數(shù)據(jù),進行深層次的關聯(lián)聚合,進而通過智能挖掘與推薦形成用戶個性化互動的新業(yè)務模式。
對海量媒體信息的管理主要包括信息的檢索過濾、編目描述以及數(shù)據(jù)挖掘。視頻的信息檢索即基于內(nèi)容的視頻檢索,包括對特征信息的提取、高層語義的分析、建立索引等;融合媒體的元數(shù)據(jù)需要更加全面地對內(nèi)容及其關聯(lián)信息進行描述;此外還需要利用分類、聚類等數(shù)據(jù)處理技術,進一步挖掘視頻內(nèi)容資源的價值。
基于內(nèi)容的視頻檢索是自動地對視頻數(shù)據(jù)進行分析和處理,提取視頻的底層特征和語義信息,并將特征和語義信息存入到數(shù)據(jù)庫,建立索引。這包括四個過程[1]:鏡頭分割、關鍵幀提取、特征提取和形成索引。其中,涉及到視頻內(nèi)容關聯(lián)信息的過程是特征提取。
特征提取是在鏡頭分割和關鍵幀提取的基礎上,對視頻中描述的信息分布進行提取。視頻內(nèi)容關聯(lián)信息分布在三個層次[2]:
1)底層特性。從原始視頻數(shù)據(jù)中利用自動分析技術提取出來的特性,如顏色、紋理、形狀、運動等。2)物理對象時空信息。包括從視頻中提取出來的物體、它們的運動軌跡以及它們之間的時空關系。3)語義信息。是人類在觀看視頻時所感知到的信息,反映人們對于視頻內(nèi)容的理解,如對象、行為、場景或者感情色彩等高層語義。
3 層信息中,底層特性和物體對象時空特性能利用特征提取的方法,一方面,可以在鏡頭和關鍵幀層次上進行特征提取。對鏡頭的特征提取一般是提取鏡頭中的運動信息(物理對象時空信息)。對關鍵幀的特征提取,一般是提取關鍵幀的視覺特征(顏色、紋理、形狀等)信息。另一方面,可以在提取的鏡頭特征與關鍵幀特征的基礎上,對鏡頭進行聚類,從而形成較高層次的視頻描述即場景。而語義信息,需要單獨構建底層特性與語義描述的映射。
國內(nèi)媒體元數(shù)據(jù)描述應用主要采用兩種方式。一種是傳統(tǒng)電視臺音像資料編目和大部分互聯(lián)網(wǎng)視聽媒體網(wǎng)絡公司采用的元數(shù)據(jù)規(guī)范“Dublin Core Metadata”。該規(guī)范提供了易于掌握和使用的網(wǎng)絡資源著錄格式和的檢索途徑,較全面概括了電子資源的主要特征。原國家廣電總局采用Dublin Core Metadata 制定了GYT202.1—2004《廣播電視音像資料編目規(guī)范 第1 部分:電視資料》[3],該規(guī)范定義了電視節(jié)目資料編目的元數(shù)據(jù)框架,使用DC 的15 個元數(shù)據(jù)項分配編目項目,根據(jù)電視節(jié)目資料本身的特點,將編目分為4 個層次,從上到下依次是節(jié)目層、片段層、場景層、鏡頭層。
另一種媒體元數(shù)據(jù)描述借鑒國外網(wǎng)絡運營商應用于同類業(yè)務所采用的元數(shù)據(jù)定義標準,如美國Cable Television Laboratories 制定的視頻點播業(yè)務VOD 標準及資產(chǎn)分發(fā)接口ADI定義標準。制定GYT259—2012《下一代廣播電視網(wǎng)(NGB)視頻點播系統(tǒng)元數(shù)據(jù)規(guī)范》[4]吸取了ADI 規(guī)范的長處,適用于各有線電視網(wǎng)絡公司新部署的NGB 視頻點播系統(tǒng)業(yè)務。優(yōu)點是包含了點播業(yè)務的互動設置,如拆條信息、打點信息等內(nèi)容標記,缺點是國外的編目元數(shù)據(jù)定義方式與國內(nèi)業(yè)務運營的實際應用存在較大出入,不能夠與互聯(lián)網(wǎng)視聽媒體數(shù)據(jù)交換。元數(shù)據(jù)交換統(tǒng)一采用XML 格式,滿足傳統(tǒng)媒體和新媒體的異構平臺的數(shù)據(jù)交換。
數(shù)據(jù)挖掘,就是從大量無序的數(shù)據(jù)中發(fā)現(xiàn)隱含的、有價值的知識,根據(jù)特點的情況建立模型,得到所需的信息。聚類、分類技術作為數(shù)據(jù)挖掘的主要方法之一,對于建立高效的數(shù)據(jù)庫索引、實現(xiàn)快速準確的信息檢索具有重要的理論和現(xiàn)實意義。聚類分析是一種把數(shù)據(jù)對象劃分為許多簇,使得簇內(nèi)的對象之間相似度盡可能高的過程,常用的聚類方法有kmeans 算法、層次聚類方法、基于統(tǒng)計學或神經(jīng)網(wǎng)絡等模型的方法等。分類是一種重要的數(shù)據(jù)分析形式,它提取和刻畫重要數(shù)據(jù)類的模型,形成分類器,通常分為兩個階段,一是訓練數(shù)據(jù)集學習來構造分類器,二是使用訓練得到的分類器對每個數(shù)據(jù)對象進行分類。常用的分類方法有決策樹、神經(jīng)網(wǎng)絡、樸素貝葉斯分類、支持向量機等。
視頻內(nèi)容的關聯(lián)信息主要是指人們觀看視頻時所理解的信息,即視頻中發(fā)生的事件、對象以及場景等語義信息,與其他內(nèi)容資源形成關聯(lián)映射。這樣用戶能夠通過信息主題詞關聯(lián)到視頻,從視頻關聯(lián)到下鉆信息。因此,需要建立語義信息庫,同時完善元數(shù)據(jù)的描述規(guī)范。
視頻語義信息庫對于視頻內(nèi)容的描述,反映了人們觀看視頻時對視頻內(nèi)容的理解,如對象、行為、場景或者感情色彩等。特征提取的算法只能自動提取出視頻內(nèi)容關聯(lián)信息的底層特性和物理對象時空信息,目前基于內(nèi)容的視頻檢索還未做到基于語義信息的檢索,建立視頻語義信息庫可以利用特征提取與機器學習技術提取視頻低層特征、高層語義,再采用統(tǒng)一的視頻內(nèi)容描述標注對低層和語義信息標注。
2.1.1 利用特征提取和機器學習提取視頻關聯(lián)信息
視頻低層特性通過特征提取技術,提取視頻中關鍵幀、鏡頭層的圖像的顏色、空間、場景特征。而視頻語義信息的提取是從底層特征中采用機器學習抽象出視頻的語義特征。具體過程是待檢索視頻入庫后,首先提取視頻中關鍵幀的圖像的底層特征,采用一定的分析方法,如使用HSV 顏色模型分析運動對象的顏色,使用背景建模分析輪廓特征、場景特征,使用小波變換分析文字特征等;其次將圖像的底層特征存入數(shù)據(jù)庫,通過機器學習的方法訓練分類器,如貝葉斯分類器、支持向量機和神經(jīng)網(wǎng)絡等監(jiān)督學習,對待檢索的視頻進行處理,生成相應的圖像幀的語義信息庫。
2.1.2 利用MPEG-7 統(tǒng)一標準描述視頻內(nèi)容
MPEG-7 是動態(tài)圖像專家組提出的視頻描述接口標準,該標準利用結(jié)構化文本,如XML 的形式來描述視頻的低層特性、高層語義信息[5]。MPEG-7 描述的底層特性包括顏色描述子、紋理描述子和形狀描述子。對于底層特性的描述方案,可以通過自動分析、分段、特征提取工具而獲得,而對視頻高層語義上的問題,目前研究階段需要人工參與標注才能完成。通過對所有入庫視頻進行預處理,入庫前對視頻資源進行編輯、壓縮、格式轉(zhuǎn)換,結(jié)合視頻低層特征對語義標注。這樣就建立了視頻的底層特征與高層語義信息的關聯(lián),使得計算機能識別圖像中的語義內(nèi)容,實現(xiàn)視頻的語義檢索。建立視頻語義信息庫的框架如圖1 所示。
圖1 視頻語義信息庫框架
視聽媒體元數(shù)據(jù)庫主要分布在各大電視臺和互聯(lián)網(wǎng)視聽媒體,由于它們均采用的都柏林核心元數(shù)據(jù)集DC,從媒體融合的角度出發(fā),本文充分考慮對廣播電視音像資料編目規(guī)范的繼承和對互聯(lián)網(wǎng)視聽新媒體元數(shù)據(jù)的應用,擴展DC 元數(shù)據(jù)項和擴展DC 元數(shù)據(jù)的修辭詞(標簽)來增加視頻內(nèi)容關聯(lián)信息的描述。
2.2.1 擴展DC 元數(shù)據(jù)的修辭詞
DC 規(guī)范包括的15 個元數(shù)據(jù)項包括三類,其中資源內(nèi)容描述類元素屬于對視音頻節(jié)目信息的描述。借鑒NGB 視頻點播的拆條信息、打點信息元數(shù)據(jù)項互動設置[4],可增加視頻關聯(lián)信息的互動,具體是通過在資源內(nèi)容描述類元素“描述”的修辭詞類別中,增加視頻拆條信息、視頻打點信息、視頻對象信息,具體如圖2 所示。視頻拆條信息對應視頻片段,視頻打點信息對應圖像,視頻對象信息對應視頻圖像某區(qū)域,以此建立了描述視頻內(nèi)容關聯(lián)信息的標簽。
圖2 擴展“描述”元數(shù)據(jù)項結(jié)構
2.2.2 擴展DC 元數(shù)據(jù)項
將互聯(lián)網(wǎng)視聽媒體交易運營模式加入到原有的DC15 元數(shù)據(jù)項中,添加“運營”元數(shù)據(jù)項,其標簽包括:收藏、點播、推薦、收益、評論、記錄、分級[6]。
16 個元數(shù)據(jù)項的元素修飾詞(標簽)根據(jù)融合媒體的特點限定和表示,部分元數(shù)據(jù)項如類型、來源、相關資源、運營等由URL 描述。
應用擴展的媒體元數(shù)據(jù)規(guī)范,在電視臺和視頻網(wǎng)站電視節(jié)目制作中,對節(jié)目媒資靈活編目,不用涵蓋電視臺規(guī)范的四層體系,對節(jié)目層、片段層等關鍵字段編目。編目內(nèi)容涉及視頻內(nèi)容關聯(lián)信息的部分如圖2 所示,描述了對視頻片段、視頻圖像、視頻圖像某區(qū)域的標簽。
視頻關聯(lián)信息服務平臺是對媒體內(nèi)容的關聯(lián)信息形成管理、利用、聚合、分發(fā)的整體架構。媒體信息采集入媒資庫,進到媒體內(nèi)容資源管理平臺后,構建出與視頻內(nèi)容關聯(lián)的信息庫,包括自動特征提取的視頻底層特性庫、視頻語義信息庫和來自電視臺和互聯(lián)網(wǎng)視聽網(wǎng)站的媒體元數(shù)據(jù)庫。有線電視運營系統(tǒng)和互聯(lián)網(wǎng)門戶網(wǎng)站后臺提供用戶行為數(shù)據(jù)庫。通過高效數(shù)據(jù)匯聚索引技術,將這些存儲于數(shù)據(jù)庫中結(jié)構化、半結(jié)構化、非結(jié)構化的異構數(shù)據(jù)的存取地址形成一個索引目錄,可采用非關系型數(shù)據(jù)庫,如NoSQL,構建分布式存儲和管理平臺。當有請求到達時,能快速訪問視頻及相關數(shù)據(jù)??刹捎没诿襟w大數(shù)據(jù)的智能挖掘算法[7]對視頻內(nèi)容的關聯(lián)信息進行分析挖掘和智能推薦。由多渠道發(fā)布為用戶提供個性化服務,如電視互動、電視電商T2O、社交互動以及各門戶網(wǎng)站的消費、評價等。電視終端和移動終端的數(shù)據(jù)分別通過有線電視運營系統(tǒng)后臺和互聯(lián)網(wǎng)門戶網(wǎng)站系統(tǒng)后臺進行反饋并更新用戶行為數(shù)據(jù)庫,視頻內(nèi)容關聯(lián)的信息庫通過多渠道內(nèi)容匯聚及時更新,這些反饋數(shù)據(jù)將進一步影響媒體內(nèi)容的生產(chǎn)和管理。總體來看,視頻關聯(lián)信息服務平臺是對視頻內(nèi)容關聯(lián)信息的管理、利用、聚合、分發(fā)一體化的閉環(huán)架構(見圖3)。
圖3 視頻關聯(lián)信息服務平臺架構
融合媒體環(huán)境下海量的媒體內(nèi)容以及豐富多樣的信息關聯(lián),使得對內(nèi)容的深度挖掘和高效智能管理愈發(fā)重要。各種創(chuàng)新的業(yè)務模式,需要建立以用戶為核心的運營體系,主要包括媒體內(nèi)容實時、智能編排,異構元數(shù)據(jù)自動歸類、識別,大規(guī)模用戶數(shù)據(jù)分析挖掘,高效索引匯聚,多渠道發(fā)布,反饋體制完善等方面構建。建立視頻關聯(lián)信息服務平臺,有利于實現(xiàn)電視媒體和用戶的深層互動,使得傳統(tǒng)廣電媒體真正具有互聯(lián)網(wǎng)思維。
[1]曹長青.基于內(nèi)容的視頻檢索技術中關鍵幀提取算法研究[D].太原:太原理工大學,2012.
[2]王煜,周立柱,邢春曉.視頻語義模型及評價準則[J].計算機學報,2007,3(30):337-351.
[3]GYT202.1—2004,廣播電視音像資料編目規(guī)范 第1 部分:電視資料[S].2004.
[4]GYT259—2012,下一代廣播電視網(wǎng)(NGB)視頻點播系統(tǒng)元數(shù)據(jù)規(guī)范[S].2012.
[5]劉峻峰.基于MPEG-7 與內(nèi)容的圖像檢索技術的研究[D].西安:西安科技大學,2008.
[6]張偉.網(wǎng)絡視聽新媒體內(nèi)容元數(shù)據(jù)研究[J].廣播與電視技術,2013,12(8):42-44.
[7]紀海,曹三省. 基于互聯(lián)網(wǎng)融合媒體的大數(shù)據(jù)應用技術分析[J].電視技術,2014,38(21):76-78.