文/劉永剛
隨著信息和媒體技術(shù)的極大發(fā)展,視聽生態(tài)迎來了巨變。生態(tài)中的兩極,傳統(tǒng)媒體(電視臺)和網(wǎng)絡(luò)新興媒體(互聯(lián)網(wǎng)公司),從各自領(lǐng)域向?qū)Ψ綕B透。最終,涵蓋了手機電視、OTT、IPTV、網(wǎng)絡(luò)視頻的“視聽平臺”成為雙方短兵相見的戰(zhàn)場。
視聽平臺被傳統(tǒng)媒體稱為“平臺型媒體”,被互聯(lián)網(wǎng)公司稱為“媒體型平臺”,其本質(zhì)都是提供視聽服務(wù)并最大化占領(lǐng)注意力市場?!?018中國網(wǎng)絡(luò)視聽發(fā)展研究報告》描述了我國網(wǎng)絡(luò)視聽發(fā)展現(xiàn)狀及趨勢,指出我國網(wǎng)絡(luò)視聽用戶規(guī)模持續(xù)增加,行業(yè)蓬勃發(fā)展;內(nèi)容付費收入顯著提升,頭部視頻平臺優(yōu)勢凸顯;用戶喜好差異化明顯,圈層消費正形成;人工智能算法將優(yōu)化視聽產(chǎn)品制播流程。而根據(jù)《2018中國廣播電視及網(wǎng)絡(luò)視聽業(yè)發(fā)展現(xiàn)狀及前景分析》可以發(fā)現(xiàn),傳統(tǒng)電視媒體也正通過構(gòu)建“電視+互聯(lián)網(wǎng)”雙受眾市場媒介戰(zhàn)略以獲得全新價值增長點。
視聽平臺成為新老媒體鏖戰(zhàn)的陣地,如何基于業(yè)務(wù)開展深入分析,建立完整的用戶模型,挖掘用戶價值,創(chuàng)造盡可能大的影響力及商業(yè)價值將是視聽平臺成敗的關(guān)鍵。大數(shù)據(jù)分析技術(shù)是實現(xiàn)這一目標(biāo)的有力保障??梢哉f,數(shù)據(jù)已成為網(wǎng)絡(luò)視聽的重要生產(chǎn)資料,數(shù)據(jù)應(yīng)用技術(shù)和方法成為重要的生產(chǎn)力,數(shù)據(jù)評估成為網(wǎng)絡(luò)視聽行業(yè)正導(dǎo)向、助傳播、擴影響的重要抓手。網(wǎng)絡(luò)視聽數(shù)據(jù)越來越受到社會各界的關(guān)注,移動化、數(shù)據(jù)化、智能化正在成為網(wǎng)絡(luò)視聽的三大趨勢。在大數(shù)據(jù)時代,如何應(yīng)用好大數(shù)據(jù),利用數(shù)據(jù)創(chuàng)造價值,成為視聽平臺整體業(yè)務(wù)發(fā)展、技術(shù)轉(zhuǎn)型、經(jīng)營支撐的重要工作。
《互聯(lián)網(wǎng)視聽節(jié)目服務(wù)管理規(guī)定》中明確了互聯(lián)網(wǎng)視聽節(jié)目服務(wù)的定義,即制作、編輯、集成并通過互聯(lián)網(wǎng)向公眾提供視音頻節(jié)目,為他人提供上載傳播視聽節(jié)目服務(wù)的活動。大數(shù)據(jù)是繼云計算之后信息技術(shù)的又一次顛覆性的技術(shù)變革。顧名思義,大數(shù)據(jù)是一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合。大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進行專業(yè)化處理。
具體到視聽大數(shù)據(jù),是指當(dāng)媒體作為信息鏈的重要主體時,依附于媒體的、寬泛的數(shù)據(jù)。視聽大數(shù)據(jù)涵蓋了媒體的方方面面,如媒體的生產(chǎn)、儲存、傳播等不同階段,如用戶、內(nèi)容、渠道等不同維度,又如媒體內(nèi)容的制作、發(fā)行、營銷、播出等不同角度。視聽大數(shù)據(jù)帶給媒體服務(wù)最明顯的好處包括用戶行為可跟蹤分析,可定向精準(zhǔn)服務(wù);用戶可管可控、黏著度強;市場管理相對有保障。
下面筆者以手機電視為例,闡述針對視聽平臺的經(jīng)營發(fā)展如何構(gòu)建視聽經(jīng)營分析大數(shù)據(jù)系統(tǒng),如何采集、分析并總結(jié)各種經(jīng)營所需的數(shù)據(jù)、如何為視聽平臺經(jīng)營決策提供支撐。
系統(tǒng)架構(gòu)?;诙嗄甑慕?jīng)營經(jīng)驗積累,總體設(shè)計視聽經(jīng)營分析大數(shù)據(jù)系統(tǒng)的系統(tǒng)架構(gòu)如圖1所示,主要包括數(shù)據(jù)采集及傳輸層、大數(shù)據(jù)平臺層、數(shù)據(jù)分析層、實時/批量應(yīng)用執(zhí)行層和應(yīng)用層。
數(shù)據(jù)采集及傳輸層主要負(fù)責(zé)把終端用戶(自有APP及網(wǎng)站)的訪問行為以及第三方經(jīng)營商的用戶行為統(tǒng)計數(shù)據(jù)傳輸?shù)酱髷?shù)據(jù)平臺,在此基礎(chǔ)上做進一步的分析及應(yīng)用處理。根據(jù)數(shù)據(jù)采集的時效性,應(yīng)用數(shù)據(jù)采集方式分為兩大類:一是自有平臺及APP應(yīng)用數(shù)據(jù)實時采集,在網(wǎng)頁及APP應(yīng)用中嵌入特定代碼,當(dāng)用戶訪問該網(wǎng)頁或APP應(yīng)用時,前端應(yīng)用把用戶訪問行為(如逗留時長、點擊內(nèi)容等)通過即時通訊協(xié)議傳輸?shù)较鄳?yīng)的即時通訊服務(wù)端,實時傳輸?shù)紿adoop大數(shù)據(jù)平臺進一步處理;二是第三方平臺及自有平臺數(shù)據(jù)批量采集,第三方平臺及自有平臺把需要上傳的增量數(shù)據(jù)按照一定格式存放到數(shù)據(jù)交換平臺或自有平臺數(shù)據(jù)緩沖區(qū)內(nèi),然后由大數(shù)據(jù)平臺定時把增量數(shù)據(jù)進行初步清洗和整理后,存儲到數(shù)據(jù)倉庫。
大數(shù)據(jù)平臺層包括以Hadoop技術(shù)為基礎(chǔ)的大數(shù)據(jù)存儲及處理服務(wù)集群和關(guān)系型數(shù)據(jù)倉庫集群。大數(shù)據(jù)平臺層結(jié)合了Hadoop平臺和關(guān)系型數(shù)據(jù)倉庫的不同優(yōu)勢,即基于Hadoop平臺對海量數(shù)據(jù)進行高性能查詢及處理工作,以及關(guān)系型數(shù)據(jù)倉庫處理及存儲復(fù)雜處理后的預(yù)匯總數(shù)據(jù)。大數(shù)據(jù)平臺層通過MQTT服務(wù)端實時上傳用戶行為數(shù)據(jù),并通過Kafka把實時用戶行為數(shù)據(jù)發(fā)送到存儲實時用戶行為數(shù)據(jù)的數(shù)據(jù)倉庫;通過Spark技術(shù)對實時用戶行為數(shù)據(jù)進行流式處理,然后通過相應(yīng)的實時應(yīng)用執(zhí)行服務(wù)層輸出相應(yīng)的實時運算結(jié)果,以滿足實時分析需要(如內(nèi)容主動推薦、事件營銷等)。
數(shù)據(jù)分析層主要包括三大部分,即可視化分析應(yīng)用,數(shù)據(jù)挖掘及文本內(nèi)容分析。一是數(shù)據(jù)可視化分析,應(yīng)用既可以幫助業(yè)務(wù)人員直接訪問大數(shù)據(jù)平臺,并通過簡單易用的功能快速完成大部分臨時性業(yè)務(wù)分析需求,也可以把常用的可視化分析應(yīng)用予以固化并由前端頁面進行調(diào)用并展現(xiàn)。二是數(shù)據(jù)挖掘,即提供了快速建模功能,也提供了專業(yè)建模能力,從而滿足突發(fā)性的數(shù)據(jù)挖掘需求,如臨時性、緊急的精準(zhǔn)營銷活動;也可以完成更為專業(yè)的預(yù)測模型,如事件營銷等,把模型直接部署到執(zhí)行平臺側(cè)。三是文本內(nèi)容分析,主要負(fù)責(zé)對非結(jié)構(gòu)化文本進行分析,如視頻內(nèi)容描述、搜索關(guān)鍵字、用戶評論、彈幕等,結(jié)合產(chǎn)品內(nèi)置算法和語義理解結(jié)果構(gòu)建相應(yīng)的情感分析及主題分類規(guī)則,最后實現(xiàn)根據(jù)特定的業(yè)務(wù)需求對新的非結(jié)構(gòu)化數(shù)據(jù)進行情感分析或主題分類,如正面/負(fù)面評論、視頻內(nèi)容大類分類、篩選敏感視頻等。
實時應(yīng)用執(zhí)行層主要包括兩大部分:一是基于自定義業(yè)務(wù)規(guī)則的數(shù)據(jù)處理及分析,二是基于機器學(xué)習(xí)模型的數(shù)據(jù)處理及分析。由于數(shù)據(jù)脫敏屬于基于自定義業(yè)務(wù)規(guī)則的數(shù)據(jù)處理,考慮到數(shù)據(jù)下載量過大可能對系統(tǒng)運行性能造成的影響,因此系統(tǒng)設(shè)計時加入下載數(shù)據(jù)量限制,對超過下載數(shù)據(jù)量限制的作業(yè)采用批量方式進行,即系統(tǒng)等閑時再啟動數(shù)據(jù)脫敏作業(yè),處理后存儲到交換區(qū)供其他用戶進行下載,對下載數(shù)據(jù)量低于限制的作業(yè)則采用實時下載方式進行?;跈C器學(xué)習(xí)模型的數(shù)據(jù)處理及分析是根據(jù)代碼執(zhí)行率,實時應(yīng)用部分的模型轉(zhuǎn)換成Java代碼進行部署,批量應(yīng)用部分的效模型轉(zhuǎn)換成該系統(tǒng)代碼進行部署,由服務(wù)器在前端閑時進行批處理。實時應(yīng)用執(zhí)行層主要對平臺的實際業(yè)務(wù)需求進行歸納總結(jié),構(gòu)建靈活的數(shù)據(jù)處理規(guī)則配置方式,從而實現(xiàn)數(shù)據(jù)處理規(guī)則“動態(tài)配置,即時實現(xiàn)”,既保證數(shù)據(jù)處理性能,又能滿足用戶大部分?jǐn)?shù)據(jù)處理需求。實時應(yīng)用執(zhí)行層對基礎(chǔ)大數(shù)據(jù)進行復(fù)雜處理后基于各前端應(yīng)用接口,生成相應(yīng)的數(shù)據(jù)接口文件,然后由相關(guān)前端應(yīng)用做進一步的處理操作。
應(yīng)用層既包括整個視聽平臺的管理及分析應(yīng)用構(gòu)建的前端展現(xiàn)應(yīng)用,也包括相應(yīng)的基于經(jīng)營執(zhí)行需要的前端執(zhí)行應(yīng)用,如精準(zhǔn)營銷平臺、搜索引擎優(yōu)化等。分析層、應(yīng)用層既可以采用傳統(tǒng)的B/S及C/S模式部署,也可以采用云服務(wù)平臺模式部署。
功能模塊。視聽經(jīng)營分析大數(shù)據(jù)系統(tǒng)包括八大模塊。頁面或客戶端埋碼模塊可實現(xiàn)對瀏覽器或移動終端用戶內(nèi)容瀏覽及播放完整行為的采集,從而幫助相關(guān)分析人員進一步了解用戶行為習(xí)慣。多數(shù)據(jù)源數(shù)據(jù)采集及統(tǒng)一存儲模塊可實現(xiàn)對不同播放渠道提供的數(shù)據(jù)進行清洗、處理并統(tǒng)一存儲到大數(shù)據(jù)平臺中,為后續(xù)的數(shù)據(jù)挖掘、文本分析及可視化展現(xiàn)等應(yīng)用提供高質(zhì)量的數(shù)據(jù)基礎(chǔ)。KPI統(tǒng)計及數(shù)據(jù)挖掘模塊可對大數(shù)據(jù)平臺中的基礎(chǔ)數(shù)據(jù)根據(jù)管理及分析要求進行描述性統(tǒng)計,形成相應(yīng)的KPI(包括播放時長、點擊次數(shù)、訂購用戶數(shù)等);還可結(jié)合特定的業(yè)務(wù)需求及數(shù)據(jù)挖掘工具構(gòu)建相應(yīng)的數(shù)據(jù)挖掘應(yīng)用,幫助相關(guān)業(yè)務(wù)人員及時了解用戶行為偏好及潛在需求,從而為個性化推薦、精準(zhǔn)營銷及管理優(yōu)化提供準(zhǔn)確的客觀建議。數(shù)據(jù)可視化展現(xiàn)模塊提供報表、儀表盤等傳統(tǒng)可視化圖表展現(xiàn)功能(展現(xiàn)方式包括大屏、PC端、智能移動端等);提供簡單易用的數(shù)據(jù)可視化工具幫助業(yè)務(wù)分析人員能夠根據(jù)業(yè)務(wù)分析需要,快速對大數(shù)據(jù)分析平臺中的數(shù)據(jù),通過各種可視化方式進行呈現(xiàn),從而及時幫助相關(guān)人員發(fā)掘企業(yè)經(jīng)營中的潛在問題及商業(yè)機遇。
個性化推薦模塊結(jié)合數(shù)據(jù)挖掘模型、協(xié)同過濾算法等方式,及時了解用戶行為偏好,并通過相應(yīng)的推送渠道為用戶主動提供用戶可能感興趣的視頻內(nèi)容,在提升用戶滿意度的同時,提升平臺整體收入。視頻描述內(nèi)容及搜索關(guān)鍵字分析模塊對用戶搜索關(guān)鍵字,視頻內(nèi)容描述等非結(jié)構(gòu)化數(shù)據(jù)進行分析,一方面幫助相關(guān)分析人員及時從最新上線的海量視頻內(nèi)容中了解當(dāng)前熱點,或發(fā)現(xiàn)不合規(guī)的視頻內(nèi)容;另一方面幫助相關(guān)分析人員了解用戶當(dāng)前關(guān)注的視頻熱點,從而幫助經(jīng)營人員優(yōu)化視頻內(nèi)容,實現(xiàn)精準(zhǔn)主動信息推送以及提高輿論導(dǎo)向及管控效率。拆賬及報表輸出模塊對用戶上傳或改編的原創(chuàng)視頻內(nèi)容訪問及訂閱情況進行統(tǒng)計,根據(jù)約定的拆賬規(guī)則,對收入進行拆賬及結(jié)算(拆賬內(nèi)容還包括與第三方經(jīng)營商合作的手機電視視頻業(yè)務(wù))。數(shù)據(jù)脫敏模塊可根據(jù)設(shè)定的規(guī)則對需要輸出的數(shù)據(jù)進行脫敏,如關(guān)聯(lián)關(guān)鍵字需要保持一致,指標(biāo)保持同比例關(guān)系等,以及脫敏數(shù)據(jù)結(jié)果的還原,并能把相應(yīng)的脫敏過程形成相應(yīng)的作業(yè)流并進行統(tǒng)一存儲及管理。
數(shù)據(jù)流程設(shè)計。視聽經(jīng)營分析大數(shù)據(jù)系統(tǒng)的數(shù)據(jù)流轉(zhuǎn)流程設(shè)計如圖2所示,主要包括幾個階段:第一階段是數(shù)據(jù)來源,包括各個內(nèi)容服務(wù)平臺以及相關(guān)的播出控制、經(jīng)營支撐等平臺;第二階段是數(shù)據(jù)預(yù)處理及匯總,形成數(shù)據(jù)倉庫和集市;第三階段是數(shù)據(jù)深度處理,包括數(shù)據(jù)脫敏、挖掘等;第四階段是數(shù)據(jù)的應(yīng)用,包括可視化以及對外輸出接口等。
接口設(shè)計。視聽經(jīng)營分析大數(shù)據(jù)系統(tǒng)的數(shù)據(jù)接口設(shè)計為三大類:一是全量數(shù)據(jù)采集接口,包括批量加載接口、實時加載接口以及系統(tǒng)日志采集及解析接口等;二是系統(tǒng)內(nèi)數(shù)據(jù)共享接口,分為實時接口和批量接口,分別適用兩個應(yīng)用場景;三是系統(tǒng)外第三方數(shù)據(jù)共享接口,包括數(shù)據(jù)脫敏、實時共享和批量共享,其中數(shù)據(jù)脫敏接口可以設(shè)置各種脫敏選項,如目標(biāo)字段、脫敏算法、關(guān)系匹配等。
基于以上視聽經(jīng)營分析大數(shù)據(jù)系統(tǒng)構(gòu)建了各種應(yīng)用,涵蓋數(shù)據(jù)的全生命過程。視聽經(jīng)營分析大數(shù)據(jù)系統(tǒng)的應(yīng)用設(shè)計比較繁復(fù),以下就其中幾個方面進行舉例說明。
全量數(shù)據(jù)采集。通過頁面或客戶端埋碼,對頁面或客戶端用戶體驗分析的全量數(shù)據(jù)采集方式以及對接CDN的數(shù)據(jù)采集等技術(shù)方式,對多終端產(chǎn)品(包括手機客戶端、PC端、頁面等)、播放器等各類信息采集;融合媒體集成播控平臺和視聽平臺等自身數(shù)據(jù)采集;同步第三方平臺用戶和經(jīng)營數(shù)據(jù)等方式實現(xiàn)平臺內(nèi)容數(shù)據(jù)、用戶數(shù)據(jù)、用戶行為數(shù)據(jù)、產(chǎn)品經(jīng)營數(shù)據(jù)等的全量數(shù)據(jù)采集工作。
數(shù)據(jù)挖掘及分析。在經(jīng)營分析系統(tǒng)中,對上述采集到的數(shù)據(jù)進行統(tǒng)計分析,包括訪問、使用、訂購、收入等經(jīng)營類數(shù)據(jù),產(chǎn)品、渠道、節(jié)目等業(yè)務(wù)類數(shù)據(jù)以及聚合量、改編量、轉(zhuǎn)碼量、審核量、分發(fā)量等平臺類數(shù)據(jù)的數(shù)據(jù)統(tǒng)計分析,建立分析引擎并行處理各種不同的工作流和算法。同時,建立用戶、內(nèi)容和產(chǎn)品等數(shù)據(jù)模型,驗證和檢驗這些模型,并通過深度學(xué)習(xí)來提高模型分析的精準(zhǔn)性。實現(xiàn)從數(shù)據(jù)采集、分析到最終數(shù)據(jù)應(yīng)用的整個過程形成良性的閉環(huán)式生態(tài)循環(huán),讓原始數(shù)據(jù)對產(chǎn)品的經(jīng)營提供商業(yè)價值參考,同時又反哺于原始數(shù)據(jù)的采集工作,逐步豐富經(jīng)營分析系統(tǒng)進而不斷為用戶的使用、內(nèi)容的質(zhì)量提升和產(chǎn)品的多元化帶來效益。
數(shù)據(jù)可視化展現(xiàn)。數(shù)據(jù)的可視化展現(xiàn)不僅局限于報表、儀表盤、KPI考核等報表展現(xiàn)方式,還可根據(jù)實際數(shù)據(jù)展現(xiàn)需求,定制、設(shè)計各類型數(shù)據(jù)展現(xiàn)模型,支持多種數(shù)據(jù)展現(xiàn)的可視化場景模板選取,多種數(shù)據(jù)庫內(nèi)容的數(shù)據(jù)源整合,對實時動態(tài)業(yè)務(wù)經(jīng)營數(shù)據(jù)、系統(tǒng)實時監(jiān)控數(shù)據(jù)以及通過離線方式進行數(shù)據(jù)加工后的數(shù)據(jù)等進行展現(xiàn)。支持多終端的數(shù)據(jù)可視化展現(xiàn)方式,展現(xiàn)終端包含大屏終端、電視終端、PC終端以及不同的移動終端等(如圖3、圖4)。
智能推薦及搜索?;谟脩裟P?、內(nèi)容相似性模型等數(shù)據(jù)模型,以及用戶搜索行為及熱詞分析,挖掘不同人群用戶的同質(zhì)化觀看習(xí)慣,基于用戶行為分析結(jié)論,并根據(jù)內(nèi)容的內(nèi)在相關(guān)性,快速生成大量的用戶興趣標(biāo)簽,為用戶智能推薦其所喜愛的內(nèi)容,提高用戶黏性,展開精細(xì)化內(nèi)容營銷,個性化推薦,觀眾維系挽留,獲取新的用戶,并進行風(fēng)險控制,獲得價值的最大化。同時結(jié)合元數(shù)據(jù)標(biāo)簽等數(shù)據(jù),為經(jīng)營人員及編輯提供視頻素材搜索功能,方便對素材內(nèi)容進行二次加工(如圖5)。
數(shù)據(jù)拆賬及報表輸出?;趯I(yè)用戶(PGC)上傳或改編的原創(chuàng)內(nèi)容產(chǎn)生的數(shù)據(jù)及產(chǎn)生的收入,根據(jù)事先約定的拆賬規(guī)則,實現(xiàn)PGC用戶的數(shù)據(jù)拆分及內(nèi)容結(jié)算?;跀?shù)據(jù)的拆賬同時包含與經(jīng)營商合作的相關(guān)業(yè)務(wù)的結(jié)算數(shù)據(jù)的拆賬。
數(shù)據(jù)脫敏。對經(jīng)營分析平臺數(shù)據(jù)的數(shù)據(jù)脫敏是出于對平臺數(shù)據(jù)輸出的安全性考慮。系統(tǒng)數(shù)據(jù)脫敏首先對多類型的數(shù)據(jù)源進行統(tǒng)一管理,然后通過脫敏規(guī)則發(fā)現(xiàn)數(shù)據(jù)源中的敏感數(shù)據(jù),對數(shù)據(jù)進行脫敏輸出,同時支持對脫敏流程的作業(yè)化管理。
以上視聽經(jīng)營分析大數(shù)據(jù)系統(tǒng)已應(yīng)用在某國家級視聽平臺及其與之合作的多個移動視聽平臺、省網(wǎng)視聽平臺上,實現(xiàn)了從多個渠道、各種終端的數(shù)據(jù)采集,對多數(shù)據(jù)源進行整合和管理,對業(yè)務(wù)進行深入分析,從而建立了用戶模型,挖掘了用戶價值,并最終提升該平臺的影響力及商業(yè)價值。