劉丹 趙云飛
摘要:當(dāng)今,在新媒體的猛烈攻勢(shì)下,傳統(tǒng)電視媒體受到了很大的沖擊。傳統(tǒng)媒體正開(kāi)始尋求與新媒體的融合發(fā)展,媒介融合、臺(tái)網(wǎng)互動(dòng)由學(xué)術(shù)概念發(fā)展到實(shí)際的業(yè)務(wù)當(dāng)中。本文在對(duì)國(guó)內(nèi)外研究成果梳理、總結(jié)的基礎(chǔ)上,結(jié)合自身的項(xiàng)目經(jīng)歷,運(yùn)用大數(shù)據(jù)、數(shù)據(jù)挖掘、文本情感分析等理論和方法,探索了大數(shù)據(jù)在互聯(lián)網(wǎng)電視節(jié)目效果評(píng)估中的應(yīng)用。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)挖掘;電視節(jié)目
引言
大數(shù)據(jù)時(shí)代,每一檔電視節(jié)目,觀眾均會(huì)對(duì)其發(fā)表大量的網(wǎng)絡(luò)評(píng)論,這些評(píng)論帶有觀眾對(duì)電視節(jié)目的態(tài)度和觀點(diǎn),通過(guò)研究這些網(wǎng)絡(luò)評(píng)論數(shù)據(jù)可以挖掘觀眾態(tài)度、喜好,電視工作者通過(guò)這些信息可以更好地進(jìn)行節(jié)目?jī)?nèi)容的創(chuàng)作。
1 需求分析
本文研究的內(nèi)容來(lái)源于實(shí)際項(xiàng)目的需要,研究電視節(jié)目在新媒體領(lǐng)域的傳播效果。系統(tǒng)主要功能包括:視頻網(wǎng)站中電視欄目的用戶(hù)評(píng)論的采集、海量用戶(hù)評(píng)論的存儲(chǔ)、用戶(hù)評(píng)論的分析。本次研究,將選取綜藝節(jié)目《奔跑吧兄弟》,采集其在愛(ài)奇藝、優(yōu)酷、騰訊視頻平臺(tái)的評(píng)論數(shù)據(jù),通過(guò)海量數(shù)據(jù)的數(shù)據(jù)挖掘,評(píng)估用戶(hù)對(duì)節(jié)目的情感傾向性。
2 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
2.1 系統(tǒng)總體設(shè)計(jì)
本系統(tǒng)的技術(shù)架構(gòu)[1]:
(1)數(shù)據(jù)采集層:采集海量的用戶(hù)評(píng)論數(shù)據(jù)。采集后的數(shù)據(jù)經(jīng)過(guò)抽取、轉(zhuǎn)換、加載的處理。
(2)數(shù)據(jù)存儲(chǔ)層:匯總存儲(chǔ)采集的用戶(hù)評(píng)價(jià)數(shù)據(jù)。
(3)數(shù)據(jù)挖掘?qū)樱河晒芾砥脚_(tái)負(fù)責(zé)整體任務(wù)的調(diào)度,MapReduce負(fù)責(zé)計(jì)算引擎,通過(guò)機(jī)器學(xué)習(xí)模型,實(shí)現(xiàn)海量用戶(hù)評(píng)論數(shù)據(jù)的文本情感分析,并將分析后的數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)中。
(4)數(shù)據(jù)可視化層:接收用戶(hù)提交的各項(xiàng)分析任務(wù)請(qǐng)求,調(diào)用底層的分析引擎進(jìn)行數(shù)據(jù)的分析任務(wù),將底層分析結(jié)果返回給前臺(tái)界面顯示。
數(shù)據(jù)流的走向設(shè)計(jì):
2.2 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)
本系統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)基于數(shù)據(jù)立方體理論進(jìn)行設(shè)計(jì)[2],包含2-D數(shù)據(jù)表,以及3-D數(shù)據(jù)表:
2.3 大數(shù)據(jù)平臺(tái)設(shè)計(jì)
本次課題研究將選取Cloudera發(fā)行版作為大數(shù)據(jù)平臺(tái)。
基礎(chǔ)環(huán)境采用4臺(tái)機(jī)器的集群模式,單臺(tái)機(jī)器配置:
CPU:Intel(R) Core(TM) i7-6700 CPU @ 3.40GHz *4
內(nèi)存:32G
硬盤(pán):1T
操作系統(tǒng):CentOS6.5
主機(jī) Hadoop組件
CDH Node1 HBase Master、HBase RegionServer、HDFS NameNode、HDFS DataNode、YARN NodeManager、Zookeeper Server
CDH Node2 HBase RegionServer、HDFS DataNode、HDFS SecondaryNameNode、YARN NodeManager、YARN ResourceManager、Zookeeper Server
CDH Node3 HBase RegionServer、HDFS DataNode、Oozie Server、YARN NodeManager、Zookeeper Server
CDH Node4 HBase RegionServer、HDFS DataNode、YARN NodeManager
2.4 數(shù)據(jù)采集模塊的設(shè)計(jì)與實(shí)現(xiàn)
本系統(tǒng)涉及的數(shù)據(jù)源包括優(yōu)酷、愛(ài)奇藝、騰訊三個(gè)視頻網(wǎng)站的綜藝節(jié)目《奔跑吧兄弟》的用戶(hù)評(píng)論數(shù)據(jù)。
用戶(hù)評(píng)論數(shù)據(jù)表,共分為三個(gè)數(shù)據(jù)庫(kù)表comment_youku、comment_iqiyi、comment_qq,MySQL數(shù)據(jù)庫(kù)表設(shè)計(jì)
數(shù)據(jù)采集模塊的工作流程:獲取用戶(hù)評(píng)論數(shù)據(jù)URL->解析URL數(shù)據(jù)->將數(shù)據(jù)暫存到MySQL數(shù)據(jù)庫(kù)。
2.5 數(shù)據(jù)存儲(chǔ)模塊的設(shè)計(jì)與實(shí)現(xiàn)
數(shù)據(jù)存儲(chǔ)模塊,定期從數(shù)據(jù)庫(kù)表comment_youku、comment_iqiyi、comment_qq同步數(shù)據(jù)到HBase中。
使用ETL工具將MySQL數(shù)據(jù)庫(kù)中的用戶(hù)評(píng)論數(shù)據(jù)定期、增量導(dǎo)入到HBase,處理流程:配置MySQL/HBase數(shù)據(jù)源->MySQL中的數(shù)據(jù)表與HBase中的數(shù)據(jù)表進(jìn)行映射和規(guī)則轉(zhuǎn)換->配置每天零點(diǎn)定時(shí)執(zhí)行的計(jì)劃任務(wù)。
2.6 數(shù)據(jù)分析模塊的設(shè)計(jì)與實(shí)現(xiàn)
本文將采用基于機(jī)器學(xué)習(xí)的情感分析方法。為了能針對(duì)海量評(píng)論數(shù)據(jù)進(jìn)行大規(guī)模的情感分析,需要基于MapReduce計(jì)算引擎完成。
本系統(tǒng)將使用Java開(kāi)發(fā)實(shí)現(xiàn)MapReduce的過(guò)程:連接HBase數(shù)據(jù)庫(kù)->創(chuàng)建MapReduce任務(wù)->Map過(guò)程:調(diào)用機(jī)器學(xué)習(xí)模型完成每條用戶(hù)評(píng)價(jià)的情感傾向性判斷->Reduce過(guò)程:實(shí)現(xiàn)電視節(jié)目評(píng)價(jià)分析的數(shù)據(jù)匯總。
2.7 數(shù)據(jù)可視化模塊的設(shè)計(jì)與實(shí)現(xiàn)
數(shù)據(jù)可視化模塊,使用Web交互模式,用戶(hù)可以通過(guò)瀏覽器查詢(xún)分析結(jié)果。采用MVC設(shè)計(jì)模式。在頁(yè)面展示方面,圖表展示基于ECharts框架進(jìn)行開(kāi)發(fā)。
數(shù)據(jù)可視化模塊的處理流程:互聯(lián)網(wǎng)電視節(jié)目評(píng)價(jià)分析查詢(xún)->根據(jù)用戶(hù)選擇的不同維度匹配不同的分析引擎->查詢(xún)數(shù)據(jù)倉(cāng)庫(kù)相應(yīng)的維度數(shù)據(jù)->頁(yè)面呈現(xiàn)。
3 結(jié)語(yǔ)
大數(shù)據(jù)挖掘技術(shù)應(yīng)用于電視節(jié)目效果評(píng)估,本文進(jìn)行了研究及系統(tǒng)設(shè)計(jì)實(shí)現(xiàn)。我們可以基于此系統(tǒng),進(jìn)行非常廣泛的實(shí)際應(yīng)用,例如通過(guò)獲取觀眾對(duì)電視節(jié)目的評(píng)論信息,分析觀眾對(duì)電視節(jié)目的喜好,及時(shí)調(diào)整電視節(jié)目的制作。
參考文獻(xiàn)
[1]曹佳豪. 基于Hadoop的報(bào)文數(shù)據(jù)挖掘研究與應(yīng)用[D]. 武漢郵電科學(xué)研究院,2018.
[2]丁青松. 基于Hadoop平臺(tái)的大數(shù)據(jù)增量處理技術(shù)的研究[D]. 東北大學(xué),2014.
作者簡(jiǎn)介:劉丹(1980-),女,漢族,遼寧沈陽(yáng)人,碩士,軟件工程師,研究方向:大數(shù)據(jù)技術(shù)