于洪涌,聞劍峰,蔡鑫,邱晨旭
(中國電信股份有限公司上海研究院,上海 200122)
基于大數(shù)據(jù)的IPTV精準營銷方案研究與應用
于洪涌,聞劍峰,蔡鑫,邱晨旭
(中國電信股份有限公司上海研究院,上海 200122)
分析了大數(shù)據(jù)技術(shù)在IPTV精準營銷中的應用,因地制宜地制定了“Hadoop大數(shù)據(jù)平臺+爬蟲技術(shù)+建模工具”的框架方案,并對方案中的關(guān)鍵點和整個數(shù)據(jù)分析建模過程在現(xiàn)網(wǎng)中的應用進行了深入分析。在IPTV精準營銷中取得了較好的效果,具有較高的應用價值。
大數(shù)據(jù)技術(shù);數(shù)據(jù)建模;IPTV;精準營銷
隨著2015年國務院“65號文”全面開放運營商進入IPTV領(lǐng)域和運營商網(wǎng)絡升級,IPTV迎來一個發(fā)展良機。來自流媒體網(wǎng)的數(shù)據(jù),2016年1-6月,IPTV用戶凈增1 991.7萬戶,總數(shù)達到6 581.2萬戶。然而,在運營商業(yè)務體系中,IPTV主要起到寬帶業(yè)務填充和增加用戶黏性的作用,直接收入貢獻不突出。IPTV互聯(lián)網(wǎng)特性提供了點播等不同于傳統(tǒng)電視的業(yè)務模式,為IPTV業(yè)務增收另辟蹊徑。同時,隨著視頻業(yè)務在網(wǎng)絡流量中比重日益增加以及政策放開帶來的競爭,發(fā)展新用戶也是IPTV業(yè)務當前的發(fā)展重點。
在當前IPTV業(yè)務營銷中,最大問題是準確定位 “向誰”營銷“什么業(yè)務”,傳統(tǒng)方式指向性不夠,導致營銷效率低下,且容易引起用戶反感。另一方面,電信運營商擁有豐富的用戶數(shù)據(jù),從數(shù)據(jù)中掘金,是當前大勢所趨?,F(xiàn)在數(shù)據(jù)具有體量大、類型多樣、速度快、價值密度低4個特征,為適應新形式下的數(shù)據(jù)挖掘,大數(shù)據(jù)技術(shù)應運而生。
在IPTV業(yè)務實際運營中,發(fā)現(xiàn)存在以下問題。
(1)訂購用戶少
以某運營商省公司2016年5月數(shù)據(jù)為例,增值業(yè)務用戶數(shù)僅占全部IPTV用戶數(shù)的10%左右,增值業(yè)務收入占IPTV業(yè)務收入的1/4。
(2)基于用戶惰性行為的分析
增值業(yè)務訂購有點播、包月、包年等不同時效的產(chǎn)品包,從用戶行為看,少有用戶不停點播不同內(nèi)容的,應該更多地發(fā)展包年用戶。
(3)不同內(nèi)容產(chǎn)品包的用戶差距明顯
以某運營商省公司的數(shù)據(jù)為例,訂購最多的“影院高清包年”用戶是“英超高清包年”的上百倍。
(4)高清拉動
隨著高清電視的普及和帶寬的提升,用戶對高清視頻需求增長明顯。
(5)積分訂購和賬單訂購用戶退訂行為差距大
積分訂購用戶在業(yè)務到期后退訂明顯,賬單訂購用戶退訂相對平緩。
針對以上分析,發(fā)展增值業(yè)務用戶需要考慮:用戶的視頻需求,包括觀看時間、內(nèi)容、是否高清敏感等;用戶的支付習慣,包括消費敏感度、積分支付行為等。對于發(fā)展新用戶,首先在寬帶用戶中發(fā)展,由于目標用戶還沒有使用IPTV,應基于運營商ODS(operating data store,運營數(shù)據(jù)倉儲)數(shù)據(jù)和網(wǎng)絡DPI(deep packet inspection,深度分組檢測)數(shù)據(jù)對用戶進行分析,向有視頻傾向的寬帶用戶推薦IPTV業(yè)務,同時推薦用戶感興趣的增值業(yè)務。
3.1 基于Hadoop大數(shù)據(jù)平臺實現(xiàn)數(shù)據(jù)匯聚
本文方案用到的數(shù)據(jù)比較復雜:數(shù)據(jù)體量大,僅IPTV業(yè)務數(shù)據(jù)就包括十幾個表,每天大于5 GB的裸數(shù)據(jù)(某運營商省公司IPTV業(yè)務數(shù)據(jù)),而DPI數(shù)據(jù)更是體量大、價值密度低;數(shù)據(jù)類型多,包括ODS傳統(tǒng)數(shù)據(jù)庫數(shù)據(jù)、IPTV日志類業(yè)務數(shù)據(jù)、DPI數(shù)據(jù)和網(wǎng)上爬取的數(shù)據(jù)等;不同類型和來源的數(shù)據(jù)需要進行用戶和格式的統(tǒng)一;涉及的數(shù)據(jù)大多來自現(xiàn)網(wǎng)數(shù)據(jù),包括IPTV業(yè)務數(shù)據(jù)、用戶套餐信息等,為避免影響現(xiàn)網(wǎng)業(yè)務,有必要新建數(shù)據(jù)平臺進行數(shù)據(jù)保存處理。
采用Hadoop技術(shù)搭建大數(shù)據(jù)平臺,集群規(guī)模為 “2+ 16+1”(名稱節(jié)點+數(shù)據(jù)節(jié)點+接口機),50 TB存儲空間(能滿足同時開展3個省公司的IPTV大數(shù)據(jù)分析的數(shù)據(jù)存儲),部署了 Sqoop、Flume等數(shù)據(jù)同步工具,Big、Hive、Impala、Spark等數(shù)據(jù)查詢分析工具。
3.2 基于CRISP-DM的數(shù)據(jù)挖掘流程
CRISP-DM (cross-industry standard process for data mining,跨行業(yè)數(shù)據(jù)挖掘標準流程)提供了一個數(shù)據(jù)挖掘生命周期的全面評述,在數(shù)據(jù)挖掘中被廣泛采用。其流程如圖1所示。
CRISP-DM模型流程包括圖1中的6個步驟[1],說明如下。
圖1 CRISP-DM模型處理流程示意
(1)商業(yè)問題定義
主要從項目目標和業(yè)務角度理解需求,并制定初步計劃;為發(fā)展IPTV增值業(yè)務和IPTV新用戶提供數(shù)據(jù)挖掘服務,精準定位需求用戶,其中發(fā)展IPTV增值業(yè)務包括發(fā)展增值業(yè)務新用戶、增值業(yè)務升級(點播/包月轉(zhuǎn)包年)、業(yè)務升級(標清轉(zhuǎn)高清/4K(即4K分辨率,ultra HD標準),寬帶升級)等;發(fā)展新用戶主要在寬帶用戶中發(fā)展IPTV用戶。
(2)數(shù)據(jù)理解
從數(shù)據(jù)收集開始進行數(shù)據(jù)探索,發(fā)現(xiàn)數(shù)據(jù)內(nèi)部屬性;需要的數(shù)據(jù)包括IPTV業(yè)務數(shù)據(jù)、用戶電信畫像數(shù)據(jù)(用戶套餐信息、家庭成員結(jié)構(gòu)、支付習慣等)、用戶視頻畫像數(shù)據(jù)等。
(3)數(shù)據(jù)準備
數(shù)據(jù)準備階段包括從未處理數(shù)據(jù)中構(gòu)造最終數(shù)據(jù)集的所有活動?;跇I(yè)務目標,對匯集的數(shù)據(jù)進行分析,縮小數(shù)據(jù)范圍,并對不同來源數(shù)據(jù)進行對接統(tǒng)一;Hive提供的Hive SQL非常適合熟悉SQL語言的人使用,本項目使用Hive的UDF(user defined function,用戶定義函數(shù))進行數(shù)據(jù)提取,為數(shù)據(jù)建模提供寬表數(shù)據(jù)。
(4)建模
對數(shù)據(jù)進行建模分析;建??梢允褂肦語言、Python言語、Mahout編程實現(xiàn),但對實現(xiàn)者要求高,實現(xiàn)周期長,管理復雜;數(shù)據(jù)探索結(jié)果顯示,經(jīng)過數(shù)據(jù)分析提取,最終用于數(shù)據(jù)挖掘的數(shù)據(jù)量并不多(以某運營商省公司的“包月轉(zhuǎn)包年”模型為例,經(jīng)過分析后獲取的寬表數(shù)據(jù)每個月數(shù)據(jù)量在50~70 MB),這非常適合使用成熟的建模工具進行處理,本文采用支持CRISP-DM模型的現(xiàn)成建模工具。
(5)評估
檢查構(gòu)造模型的步驟,確保模型可以完成業(yè)務目標;對建模的算法、效果進行分析比較,并基于測試分區(qū)進行檢查。
(6)部署
將模型獲得的知識進行應用;模型導出營銷用戶清單及對應的推薦業(yè)務,營銷部門根據(jù)該清單進行營銷,并反饋營銷效果。
3.3 總體框架方案
基于上述分析,框架方案可如圖2所示,“IPTV精準營銷大數(shù)據(jù)平臺”基于Hadoop技術(shù)搭建,匯聚了數(shù)據(jù)分析所需的數(shù)據(jù),同時部署了爬蟲程序用于爬取視頻相關(guān)數(shù)據(jù),構(gòu)建用戶視頻畫像(詳見第4.2節(jié)),還有數(shù)據(jù)的預處理分析也在“IPTV精準營銷大數(shù)據(jù)平臺”上進行,經(jīng)過處理向建模工具輸出寬表數(shù)據(jù);建模工具實現(xiàn)數(shù)據(jù)的建模分析,向營銷部門輸出營銷用戶清單。營銷由專門的營銷部門實現(xiàn),是方案成果的使用部門和價值體現(xiàn),同時還需要根據(jù)營銷結(jié)果進行數(shù)據(jù)分析和建模的調(diào)整。
4.1 運營商數(shù)據(jù)匯聚
本文用到的運營商數(shù)據(jù)包括IPTV業(yè)務數(shù)據(jù)、用戶套餐信息、家庭標簽、支付標簽、ODS數(shù)據(jù)、DPI數(shù)據(jù)等,處理的方式各不相同:IPTV業(yè)務數(shù)據(jù)目前沒有匯聚到運營商大數(shù)據(jù)平臺,需要與IPTV業(yè)務平臺對接,定期采集數(shù)據(jù)到“IPTV精準營銷大數(shù)據(jù)平臺”;用戶套餐信息、家庭標簽、支付標簽等數(shù)據(jù)從運營商ODS系統(tǒng)中查詢獲取,將結(jié)果保存到“IPTV精準營銷大數(shù)據(jù)平臺”;DPI數(shù)據(jù)已經(jīng)保存到運營商大數(shù)據(jù)平臺,利用其租戶空間進行數(shù)據(jù)初步分析,獲取用戶視屏標簽數(shù)據(jù),結(jié)果匯聚到“IPTV精準營銷大數(shù)據(jù)平臺”。
4.2 通過數(shù)據(jù)爬取構(gòu)建用戶視頻畫像
數(shù)據(jù)爬取需求主要包括:節(jié)目信息爬取和建立視頻標簽的數(shù)據(jù)爬取。
IPTV業(yè)務平臺只有節(jié)目的名稱,沒有視頻節(jié)目標簽數(shù)據(jù),如節(jié)目分類、主演、地區(qū)等;需要通過爬蟲爬取節(jié)目信息,為用戶IPTV播放記錄打上視頻標簽。輸入輸出樣例如下:
輸入樣例:00000050000000010000000011024895|愛回家6_26
輸出樣例:00000050000000010000000011024895|愛回家6_26|標題=愛·回家|年份=2012|分類=電視劇|主演=劉丹/徐榮/黎諾懿/郭少蕓/朱慧敏/林漪娸|地區(qū)=香港|導演=徐遇安|類型=劇情/搞笑/時裝/家庭|編劇=冼翠貞
對于沒有使用IPTV業(yè)務的寬帶用戶,可通過其DPI數(shù)據(jù)獲取視頻觀看記錄,構(gòu)建其視頻畫像,雖然運營商大數(shù)據(jù)平臺已有包括視頻標簽的完整標簽體系,但指向性不夠,兼顧目標和效率,本文選取樂視、優(yōu)酷、愛奇藝等幾個規(guī)模大、更接近電視屏的視頻網(wǎng)站,基于用戶對這些視頻網(wǎng)站的訪問行為構(gòu)建用戶的視頻畫像,為此本文通過爬蟲爬取了明星庫、節(jié)目庫、基于主要視頻網(wǎng)站的視頻分類和標簽信息,構(gòu)建了用于刻畫用戶畫像的視頻標簽系統(tǒng)。
圖2 IPTV精準營銷框架方案流程
爬蟲程序基于開源項目Scrapy自主開發(fā),并分布式部署在“IPTV精準營銷大數(shù)據(jù)平臺”,爬取的數(shù)據(jù)自動保存到“IPTV精準營銷大數(shù)據(jù)平臺”。其中爬取的節(jié)目信息直接通過自主開發(fā)的程序為用戶IPTV觀看行為數(shù)據(jù)打視頻標簽;爬取的明星庫、節(jié)目庫、視頻分類信息構(gòu)建了用戶視頻標簽系統(tǒng),并運營商大數(shù)據(jù)平臺租戶空間中對用戶DPI數(shù)據(jù)打視頻標簽,并將最終打上視頻標簽的數(shù)據(jù)匯聚到“IPTV精準營銷大數(shù)據(jù)平臺”。
4.3 數(shù)據(jù)預處理
預處理包括從用戶維度對數(shù)據(jù)進行統(tǒng)一處理,并根據(jù)業(yè)務邏輯進行數(shù)據(jù)抽取,形成統(tǒng)一的寬表數(shù)據(jù),供建模分析。預處理體現(xiàn)了建模的人工智慧——需要確定數(shù)據(jù)抽取的范圍、粒度,體現(xiàn)了數(shù)據(jù)挖掘的業(yè)務邏輯,其成果將直接影響建模的有效性。具體包括:數(shù)據(jù)的統(tǒng)一,基于用戶寬帶賬號、IPTV賬號對應的用戶標識進行數(shù)據(jù)的統(tǒng)一;數(shù)據(jù)提取,根據(jù)業(yè)務分析確定業(yè)務處理邏輯,并從原始數(shù)據(jù)中提取、匯總、比較等,生成最終用于建模的數(shù)據(jù)。“匯聚的數(shù)據(jù)—數(shù)據(jù)分析—建模分析”間的關(guān)系就如同“經(jīng)初步處理的棉麻原料—布匹—成衣”的過程。
以IPTV包月轉(zhuǎn)包年模型為例,經(jīng)過數(shù)據(jù)分析后形成的寬表數(shù)據(jù)包括以下方面。
(1)用戶基礎信息
包括用戶寬帶套餐、積分數(shù)據(jù)、IPTV業(yè)務狀態(tài)、IPTV機頂盒信息(廠商、型號、清晰度、數(shù)量等)等,這些信息基本上可以直接通過數(shù)據(jù)抽取得到。
(2)用戶IPTV增值業(yè)務使用信息
包括按不同支付方式匯總近3年訂購金額、次數(shù),在訂產(chǎn)品包個數(shù)和總金額等;用戶在訂/退訂各年包/半年包匯總數(shù)據(jù);用戶在訂、退訂的最長時間產(chǎn)品包信息;用戶點播的高清/非高清電影、電視劇等不同種類節(jié)目匯總的次數(shù)、天數(shù)、時長、節(jié)目數(shù)等;這些數(shù)據(jù)要從匯聚的數(shù)據(jù)經(jīng)過計算、匯總得到;用戶觀看直播節(jié)目匯總信息。
(3)用戶其他畫像信息
基于用戶住宅區(qū)域、套餐信息和賬單支付形成的用戶支付畫像,基于用戶工作日寬帶網(wǎng)絡、IPTV使用情況,家庭Wi-Fi使用、網(wǎng)站訪問搜索和購物信息等形成的家庭人口畫像,這些已有運營商大數(shù)據(jù)平臺生成,可直接抽取用戶標簽數(shù)據(jù)使用。
還有的需要進行額外的數(shù)據(jù)比較,如通過比較用戶IPTV清晰度和帶寬信息(加上用戶高清視頻標簽),推薦用戶進行帶寬升級、IPTV清晰度升級或兩者均升級等;這需求比較IPTV標清/高清/4K需要的帶寬信息、用戶套餐的帶寬信息、用戶IPTV機頂盒清晰度信息,定義用戶帶寬和IPTV滿足度的新字段。
經(jīng)過預處理的數(shù)據(jù)優(yōu)化了數(shù)據(jù)結(jié)構(gòu),大大降低了數(shù)據(jù)量,更易于建模分析。提交給建模的數(shù)據(jù)包括觀察數(shù)據(jù)和預測數(shù)據(jù),觀察數(shù)據(jù)用于建模,得到“實現(xiàn)業(yè)務目標”的用戶模型,然后用這些用戶模型對預測數(shù)據(jù)分析,得出“下月可能實現(xiàn)業(yè)務目標”的用戶清單。
建模過程輸入寬表數(shù)據(jù),輸出營銷月用戶清單。整個分析過程包括:根據(jù)觀察數(shù)據(jù)建立用戶模型;根據(jù)用戶模型對預測數(shù)據(jù)進行分析,得出下月營銷目標用戶,并根據(jù)用戶的視頻畫像進行聚類,向用戶推薦合適的產(chǎn)品包。本部分以“包月轉(zhuǎn)包年”模型為例描述建模分析過程。
5.1 數(shù)據(jù)建模分析
具體的建模分析過程可分為數(shù)據(jù)預處理和數(shù)據(jù)建模兩部分。
其中數(shù)據(jù)預處理主要是根據(jù)建模要求,對寬表數(shù)據(jù)做進一步處理,使其更符合建模分析的需要,以“包月轉(zhuǎn)包年”模型為例,數(shù)據(jù)預處理包括以下方面。
(1)字段處理
將寬表數(shù)據(jù)根據(jù)建模要求進行數(shù)據(jù)統(tǒng)計、新字段定義,如統(tǒng)計用戶產(chǎn)品月齡、在訂/退訂產(chǎn)品包信息,定義“次月是否新訂年包”等;基于營銷時機的處理,如選擇最近訂購或退訂過包月業(yè)務的用戶。
(2)區(qū)別不同訂購方式
業(yè)務分析中,發(fā)現(xiàn)用戶賬單支付和積分支付行為差距明顯,在建模前將兩類數(shù)據(jù)區(qū)別開,分別進行建模。
(3)數(shù)據(jù)分區(qū)
建模中將數(shù)據(jù)按訓練數(shù)據(jù)和測試數(shù)據(jù)進行分區(qū)。
(4)數(shù)據(jù)平衡
整體用戶中訂購用戶相對稀疏,以某月數(shù)據(jù)為例,訂購用戶和未訂購用戶之比接近1∶60,在建模前需要對訂購用戶和未訂購用戶進行數(shù)據(jù)平衡。
數(shù)據(jù)建模主要是選擇合適的算法對數(shù)據(jù)進行分析,并選擇最優(yōu)模型用于用戶預測?!鞍罗D(zhuǎn)包年”模型建模選擇了“自動分類器”中的C5、判別、CHAID、C&R樹、Quest等算法進行建模,其中賬單支付的各算法建模結(jié)果比較如圖3所示,基于“總體精確性”指標選擇最優(yōu)算法(賬單支付中選擇判別算法),用于后續(xù)進行用戶預測的模型。
圖3 賬單支付下各算法建模結(jié)果比較
積分訂購建模中總體成功率更高,以選擇的“C&R樹”算法為例,訓練數(shù)據(jù)集結(jié)果為78.299%,測試數(shù)據(jù)集結(jié)果為84.206%,這與業(yè)務分析是一致的:對于積分支付用戶來說,只要用戶喜歡這些增值業(yè)務(有視頻觀看偏向),手里又有積分,那訂購的成功率還是較高的;對于賬單支付用戶來說,用戶要真金白銀的出錢考慮的因素就多了,況且還有樂視、優(yōu)酷等其他互聯(lián)網(wǎng)品牌可以選擇。
5.2 導出營銷用戶清單
導出營銷用戶清單包括數(shù)據(jù)預處理、用戶預測和推薦產(chǎn)品包選擇。數(shù)據(jù)預處理包括字段處理、用戶剔除(最近半年已營銷用戶等)和區(qū)分用戶支付方式等。
數(shù)據(jù)預處理后,使用第5.1節(jié)中選定的數(shù)據(jù)模型分別對賬單支付用戶和積分用戶進行預測,得到下個月“根據(jù)模型可能訂購業(yè)務”的用戶,并設置置信度閾值,選取營銷目標用戶。
最終提交的營銷清單還包括向用戶推薦的產(chǎn)品包,嚴格意義上應該分析用戶的視頻觀看行為得到用戶的視頻畫像,向用戶推薦“用戶最感興趣”的節(jié)目,實際營銷中營銷的產(chǎn)品包往往是有限的——根據(jù)自身資源和統(tǒng)計“最熱門”的產(chǎn)品來確定。本次營銷根據(jù)IPTV平臺的節(jié)目資源和以往用戶訂購統(tǒng)計信息,確定了包括“影院高清年包”“熱劇年付”“全能看包年”“紀實高清半年包”“動漫高清半年包”等在內(nèi)的十幾個產(chǎn)品包,內(nèi)容集中在電影、電視劇、動漫、紀實上。
為此,采用k-means聚類算法,對用戶視頻觀看行為進行聚類,并根據(jù)營銷的產(chǎn)品包顯示高清電影觀看時長(vod_hd_mov_dur)、標清電影觀看時長(vod_non_hd_mov_ dur)、高清電視劇觀看時長(vod_hd_tvp_dur)、標清電視劇觀看時長 (vod_non_hd_tvp_dur)、高清紀實觀看時長(vod_hd_doc_dur)、高清動漫觀看時長(vod_hd_ct_dur)在聚類中的分布,結(jié)果如圖4所示,其中圖4(a)是按“總體重要性排序”的絕對分布,從中可看出對總體重要性而言,動漫、紀實排在前兩位,這可以解釋大多用戶對電影、電視劇偏向的普遍性;圖4(b)是“聚類內(nèi)重要性”的相對分布,基于圖4向用戶推薦產(chǎn)品包(其中聚類2只有兩個值作為離群值概率),見表1。
圖4 對用戶觀看內(nèi)容的聚類結(jié)果
表1 向不同聚類用戶推薦不同產(chǎn)品包
5.3 模型評估優(yōu)化
模型的評估優(yōu)化包括部署前模型本身的評估和部署后根據(jù)營銷反饋的優(yōu)化。
模型本身的評估包括:算法和測試分區(qū)的驗證、平衡因子的調(diào)整、字段的調(diào)整等。首先,通過選擇不同的算法得出不同的算法模型,結(jié)合測試分區(qū)的驗證,選擇最優(yōu)算法或算法組合;本例中通過選擇“自動分類器”中不同算法,并結(jié)合測試分區(qū)的驗證確定最優(yōu)模型。然后通過調(diào)整平衡因子調(diào)整目標用戶在整體數(shù)據(jù)中的比例,多次運行模型,確定平衡因子的最優(yōu)范圍。還有結(jié)合建模結(jié)果中各字段的重要性進行字段微調(diào)。
同時模型還要根據(jù)營銷反饋的數(shù)據(jù)進行優(yōu)化,可以結(jié)合建模將用戶隨機分成幾組,調(diào)整算法、置信度、字段等,結(jié)合不同的營銷效果進行模型的調(diào)優(yōu),這部分工作還在進行中。
總之,數(shù)據(jù)挖掘中建立數(shù)據(jù)模型不是分析的結(jié)束,而是又一輪分析的開始,要經(jīng)過各種手段的調(diào)整優(yōu)化,不斷提升數(shù)據(jù)挖掘的效果。
本次分析主要配合某運營商省公司的電銷進行,從效果來看,營銷成功率比原先提升將近一倍,效果最好的“包月轉(zhuǎn)包年”營銷成功率由原來的不到5%提升到12%,應該說取得了比較好的效果。
當然數(shù)據(jù)挖掘在營銷過程中主要還是幕后的“軍師”,本文主要通過數(shù)據(jù)建模得出下月有可能成為“IPTV用戶”或“訂購增值業(yè)務的用戶”。而實際營銷主要是向用戶提供滿足用戶需求的、性價比可接受的產(chǎn)品,大數(shù)據(jù)分析在IPTV用戶需求分析、產(chǎn)品提供等其他方面也可以發(fā)揮幕后軍師的作用,全方位提升IPTV的營銷效果。同時,大數(shù)據(jù)分析也可以擴大到其他更廣的領(lǐng)域,就運營商內(nèi)部而言,在終端換機、3G升4G、交叉營銷等方面,已經(jīng)利用大數(shù)據(jù)分析技術(shù)來有的放矢提高營銷成功率??梢哉f,大數(shù)據(jù)技術(shù)在電信行業(yè)已經(jīng)也將發(fā)揮更大的作用。
[1]CRISP-DM方法論[EB/OL].[2016-11-04].http://wiki.mbalib. com/wiki/CRISP-DM方法論.
于洪涌(1976-),男,中國電信股份有限公司上海研究院數(shù)據(jù)分析師,主要從事IPTV數(shù)據(jù)分析、智慧家庭數(shù)據(jù)分析等方面工作。
聞劍峰(1977-),男,中國電信股份有限公司上海研究院大數(shù)據(jù)智慧運營研發(fā)(高級)工程師,主要從事大數(shù)據(jù)基礎架構(gòu)研發(fā)工作。
蔡鑫(1975-),男,中國電信股份有限公司上海研究院高級工程師,主要研究方向為數(shù)據(jù)規(guī)劃、數(shù)據(jù)分析、數(shù)據(jù)標準。
邱晨旭(1973-),男,中國電信股份有限公司上海研究院高級工程師,主要從事電信數(shù)據(jù)規(guī)劃、項目管理等工作。
Research and application of IPTV precision marketing based on big data
YU Hongyong,WEN Jianfeng,CAI Xin,QIU Chenxu
Shanghai Research Institute of China Telecom Co.,Ltd.,Shanghai 200122,China
The big data technology in IPTV precision marketing was analyzed.According to local conditions,the framework solution of“Hadoop big data platform+Web crawler+modeling tool”was developed.The key points of the solution and the whole data modeling process were analyzed.Good results were achieved in IPTV precision marketing,and higher application value was gained.
big data technology,data modeling,IPTV,precision marketing
F274
A
10.11959/j.issn.1000-0801.2016316
2016-11-08;
2016-12-13