(中國(guó)移動(dòng)通信集團(tuán)設(shè)計(jì)院有限公司,北京 100080)
基于Hadoop的運(yùn)營(yíng)商流量經(jīng)營(yíng)分析系統(tǒng)建設(shè)方案
常海防
(中國(guó)移動(dòng)通信集團(tuán)設(shè)計(jì)院有限公司,北京 100080)
隨著移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展,運(yùn)營(yíng)商的核心戰(zhàn)略轉(zhuǎn)向以智能管道為基礎(chǔ)的流量經(jīng)營(yíng)。本文在對(duì)Hadoop平臺(tái)和流量經(jīng)營(yíng)分析系統(tǒng)進(jìn)行分析的基礎(chǔ)上,提出了一種基于Hadoop平臺(tái)的流量經(jīng)營(yíng)分析系統(tǒng)實(shí)現(xiàn)方案,以期有助于提升運(yùn)營(yíng)商的流量?jī)?nèi)容研究能力和智能營(yíng)銷支持能力,避免“量收剪刀差”的不斷拉大。
運(yùn)營(yíng)商;流量經(jīng)營(yíng);Hadoop;系統(tǒng)建設(shè)
近年來(lái),隨著移動(dòng)互聯(lián)網(wǎng)的迅猛發(fā)展,智能手機(jī)、平板電腦等3G/4G移動(dòng)終端的快速普及,移動(dòng)互聯(lián)網(wǎng)流量以前所未有的速度高速增長(zhǎng)。在智能終端、移動(dòng)應(yīng)用和服務(wù)為主的移動(dòng)互聯(lián)網(wǎng)時(shí)代,運(yùn)營(yíng)商的話音業(yè)務(wù)收入比重下降,數(shù)據(jù)和互聯(lián)網(wǎng)業(yè)務(wù)增長(zhǎng)快速。運(yùn)營(yíng)商的業(yè)務(wù)模式由傳統(tǒng)的“話音+短信+增值業(yè)務(wù)”轉(zhuǎn)變?yōu)椤霸捯?流量+內(nèi)容/應(yīng)用”,運(yùn)營(yíng)商的核心戰(zhàn)略轉(zhuǎn)向以智能管道為基礎(chǔ)的流量經(jīng)營(yíng),以應(yīng)對(duì)“啞管道化”、“去電信化”、“ 話音免費(fèi)”等運(yùn)營(yíng)風(fēng)險(xiǎn)。在此背景下,運(yùn)營(yíng)商急需通過(guò)流量經(jīng)營(yíng)分析系統(tǒng)的建設(shè),提升流量?jī)?nèi)容研究能力和智能營(yíng)銷支持能力,推進(jìn)全網(wǎng)數(shù)據(jù)流量的精細(xì)化經(jīng)營(yíng),加快實(shí)現(xiàn)用戶流量、內(nèi)容數(shù)據(jù)與運(yùn)營(yíng)數(shù)據(jù)的綜合分析,研究客戶偏好與需求,引導(dǎo)客戶使用高附加值業(yè)務(wù),為實(shí)現(xiàn)“智能管道”的運(yùn)營(yíng)目標(biāo)提供智能運(yùn)營(yíng)支撐平臺(tái)。
目前移動(dòng)數(shù)據(jù)業(yè)務(wù)和流量的爆炸式增長(zhǎng),網(wǎng)絡(luò)承載呈現(xiàn)“兩高兩低”的現(xiàn)象,即GSM網(wǎng)無(wú)線負(fù)荷高、數(shù)據(jù)業(yè)務(wù)占用高、TD-SCDMA網(wǎng)利用率低、WLAN網(wǎng)絡(luò)手機(jī)終端流量占比低,并且大量非價(jià)值數(shù)據(jù)流量業(yè)務(wù)占用了大量的流量資源。
為了應(yīng)對(duì)所面臨的挑戰(zhàn)和需求,流量經(jīng)營(yíng)分析系統(tǒng)通過(guò)對(duì)網(wǎng)絡(luò)側(cè)和市場(chǎng)側(cè)海量數(shù)據(jù)資源(包括客戶流量、終端流量、業(yè)務(wù)流量、套餐流量、網(wǎng)絡(luò)流量5者)的整合、分析和應(yīng)用,研究客戶使用流量過(guò)程中的營(yíng)銷機(jī)會(huì),以客戶流量特征為依據(jù),定位目標(biāo)客戶。一個(gè)典型的流量經(jīng)營(yíng)分析系統(tǒng)應(yīng)具備流量綜合分析能力,流量?jī)?nèi)容研究能力,流量智能營(yíng)銷支持能力。
(1)流量綜合分析:實(shí)現(xiàn)流量按客戶、業(yè)務(wù)、資費(fèi)、網(wǎng)絡(luò)、終端等維度進(jìn)行綜合分析,為流量套餐設(shè)計(jì)優(yōu)化、流量業(yè)務(wù)定價(jià)測(cè)算、TD-SCDMA/WLAN協(xié)同分析提供數(shù)據(jù)支撐。
(2)流量?jī)?nèi)容研究:依據(jù)上網(wǎng)用戶的上網(wǎng)清單日志和URL內(nèi)容分類結(jié)果,建立用戶內(nèi)容、時(shí)間、生活軌跡等偏好模型,為內(nèi)容精確營(yíng)銷和客戶服務(wù)工作提供支持。
(3)流量智能營(yíng)銷支持:深度洞察客戶的流量使用特征、業(yè)務(wù)偏好、終端特征、位置活動(dòng)軌跡特征等信息,挖掘客戶上網(wǎng)需求,精確定位目標(biāo)客戶,為市場(chǎng)流量營(yíng)銷和網(wǎng)絡(luò)流量控制策略提供分析依據(jù)。
Hadoop是Apache開源組織的一個(gè)分布式計(jì)算開源框架,廣泛應(yīng)用于海量非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和分析。借助于Hadoop平臺(tái),用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序,充分利用服務(wù)器集群的優(yōu)勢(shì)高速運(yùn)算和存儲(chǔ)。它具有海量存儲(chǔ)(能夠處理PB級(jí)別的數(shù)據(jù))、低成本(可以部署在廉價(jià)的x86服務(wù)器集群上)、高效率、高可靠性、高擴(kuò)展性和高容錯(cuò)性等特點(diǎn)。Hadoop主要由分布式文件系統(tǒng)(HDFS,Hadoop Distributed File System)、MapReduce分布式計(jì)算框架和Hbase數(shù)據(jù)庫(kù)組成。
2.1 HDFS分布式文件系統(tǒng)
HDFS是Hadoop分布式計(jì)算的存儲(chǔ)基石,是一個(gè)可以運(yùn)行在x86架構(gòu)服務(wù)器集群上的分布式文件系統(tǒng),為用戶提供海量數(shù)據(jù)的分布式存儲(chǔ)服務(wù)。HDFS采用了主從(Master/Slave)結(jié)構(gòu)模型,從最終用戶的角度來(lái)看,它就像傳統(tǒng)的文件系統(tǒng)一樣,可以通過(guò)目錄路徑對(duì)文件執(zhí)行CRUD(Create、Read、Update和Delete)操作。但由于分布式存儲(chǔ)的性質(zhì),HDFS集群是由一個(gè)NameNode和若干DataNode組成。NameNode可以看作是分布式文件系統(tǒng)中的管理者,主要負(fù)責(zé)管理文件系統(tǒng)的命名空間、集群配置信息和存儲(chǔ)塊的復(fù)制等。DataNode是文件存儲(chǔ)的基本單元,它將Block存儲(chǔ)在本地文件系統(tǒng)中,保存了Block的Meta-data,同時(shí)周期性地將所有存在的Block信息發(fā)送給NameNode。
2.2 MapReduce分布式計(jì)算框架
MapReduce是Hadoop平臺(tái)用來(lái)進(jìn)行海量數(shù)據(jù)并行運(yùn)算的計(jì)算模型,MapReduce模型對(duì)數(shù)據(jù)的處理過(guò)程主要分成Map和Reduce兩個(gè)階段。Map就是將一個(gè)任務(wù)分解成為多個(gè)任務(wù),Reduce就是將分解后多任務(wù)處理的結(jié)果匯總起來(lái),得出最后的分析結(jié)果。在Map之前會(huì)對(duì)輸入的數(shù)據(jù)有split(分割)的過(guò)程,保證任務(wù)并行效率,在Map之后還會(huì)有shuffle(混合)的過(guò)程,對(duì)于提高Reduce的效率以及減小數(shù)據(jù)傳輸?shù)膲毫τ泻艽蟮膸椭?/p>
2.3 HBase數(shù)據(jù)庫(kù)
HBase是一個(gè)高可靠性、高性能、面向列、可伸縮的分布式非關(guān)系(NoSQL)數(shù)據(jù)庫(kù)系統(tǒng),適合于海量非結(jié)構(gòu)化數(shù)據(jù)的收集、存儲(chǔ)、管理和維護(hù)。HBase依托于Hadoop的HDFS作為存儲(chǔ)基礎(chǔ),所有數(shù)據(jù)文件都存儲(chǔ)在HDFS文件系統(tǒng)上。因此其結(jié)構(gòu)也類似于Hadoop的Master-Slave模式,HBase Master Server負(fù)責(zé)管理所有的Region Server,但HBase Master Server本身并不存儲(chǔ)Hbase中的任何數(shù)據(jù)。Region Server負(fù)責(zé)處理用戶的讀寫請(qǐng)求,向Master Server上報(bào)自己的狀態(tài),并獲取自己需要服務(wù)的Region。HBase邏輯上的Table被定義成為一個(gè)Region存儲(chǔ)在某一臺(tái)Region Server上。
流量經(jīng)營(yíng)分析系統(tǒng)涉及大量的非結(jié)構(gòu)化數(shù)據(jù)的處理與存儲(chǔ),主要來(lái)自于A接口、Gn接口、WLAN、DPI等用戶流量日志數(shù)據(jù),包含大量的與用戶流量和行為相關(guān)的信息。運(yùn)營(yíng)商一個(gè)典型A類省公司大約有5 000萬(wàn)的用戶規(guī)模,流量經(jīng)營(yíng)分析系統(tǒng)數(shù)據(jù)源月數(shù)據(jù)量規(guī)模在60 TB以上。這些數(shù)據(jù)是不方便用數(shù)據(jù)庫(kù)二維邏輯表來(lái)表現(xiàn)的非結(jié)構(gòu)化數(shù)據(jù),而且伴隨著移動(dòng)互聯(lián)網(wǎng)技術(shù)的發(fā)展,非結(jié)構(gòu)化數(shù)據(jù)的數(shù)量將日趨增大。
根據(jù)運(yùn)營(yíng)商流量經(jīng)營(yíng)分析系統(tǒng)的特點(diǎn),本文設(shè)計(jì)了兩種系統(tǒng)建設(shè)方案:第1種方案采用比較穩(wěn)妥的常規(guī)小型機(jī)+高端磁盤陣列進(jìn)行組網(wǎng)的方案;第2種方案是基于x86服務(wù)器的Hadoop集群組網(wǎng)方案。
3.1 方案1:傳統(tǒng)小型機(jī)和高端磁盤陣列
小型機(jī)是指性能和價(jià)格介于x86服務(wù)器和大型主機(jī)之間的一種高性能 64位計(jì)算機(jī),通常采用精簡(jiǎn)指令集(RISC)處理器,運(yùn)行Unix操作系統(tǒng)。在服務(wù)器市場(chǎng)中處于中高端位置。小型機(jī)具有區(qū)別x86服務(wù)器和大型主機(jī)的特有體系結(jié)構(gòu),基本上各廠家小型機(jī)使用自家的Unix版本和處理器。一般而言,小型機(jī)具有高運(yùn)算處理能力、高可靠性、高服務(wù)性、高可用性、高成本等特點(diǎn)。
磁盤陣列是利用RAID技術(shù),把多塊獨(dú)立的物理磁盤按一定的方式組合起來(lái)形成一個(gè)邏輯磁盤組,通過(guò)在多塊磁盤上同時(shí)存儲(chǔ)或讀取數(shù)據(jù)來(lái)大幅度的提高磁盤陣列的I/O帶寬。高端磁盤陣列具有大容量、高性能、高可靠性、高可用性、高成本等特點(diǎn)。
3.2 方案2:基于x86服務(wù)器的Hadoop分布式集群
Hadoop技術(shù)的發(fā)展,為流量經(jīng)營(yíng)分析系統(tǒng)的構(gòu)建提供了另一種低成本、高可靠性、高擴(kuò)展性的技術(shù)手段。
x86服務(wù)器通常采用復(fù)雜指令集(CISC)處理器,運(yùn)行Linux或者Windows操作系統(tǒng)。企業(yè)級(jí)x86服務(wù)器普遍采用2~4個(gè)CPU結(jié)構(gòu),擁有獨(dú)立的雙PCI通道和內(nèi)存擴(kuò)展板設(shè)計(jì),具有高內(nèi)存帶寬、大容量熱插拔硬盤、較強(qiáng)的數(shù)據(jù)處理能力、優(yōu)良的擴(kuò)展性能等技術(shù)特點(diǎn)。
Hadoop分布式系統(tǒng)可以部署在低成本的x86服務(wù)器集群上,用于實(shí)現(xiàn)對(duì)海量非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)、運(yùn)算和分析。
3.3 系統(tǒng)方案比較
根據(jù)上述分析,方案1和方案2的優(yōu)缺點(diǎn)比較如表1所示。
Hadoop最適合的就是海量數(shù)據(jù)的分析,并行和串行結(jié)合的計(jì)算也可以很好地在分布式集群的資源下得以高效的處理。同時(shí)Hadoop系統(tǒng)具有很好的可擴(kuò)展性,在系統(tǒng)資源擴(kuò)展時(shí),無(wú)需考慮暫停數(shù)據(jù)處理,原有資源繼續(xù)進(jìn)行數(shù)據(jù)處理,新增加的服務(wù)器接入后所有的數(shù)據(jù)會(huì)根據(jù)Hadoop架構(gòu)在整體硬件資源內(nèi)進(jìn)行重新處理,并不會(huì)影響到整個(gè)系統(tǒng)的數(shù)據(jù)處理,以此保證集群的高效并發(fā)計(jì)算和線性擴(kuò)展特性。
表1 系統(tǒng)方案對(duì)比
此外,采用傳統(tǒng)小型機(jī)+盤陣方式需采購(gòu)數(shù)據(jù)庫(kù)軟件,而Hadoop是開源的分布式計(jì)算平臺(tái),更加節(jié)省了第三方軟件的采購(gòu)。
根據(jù)上述方案特點(diǎn)的對(duì)比,本文建議采用方案2:基于x86服務(wù)器的Hadoop集群技術(shù)來(lái)構(gòu)建流量經(jīng)營(yíng)分析系統(tǒng)。該方案通過(guò)基于x86服務(wù)器的Hadoop集群完成大量非結(jié)構(gòu)化數(shù)據(jù)的高速處理分析,不僅很好地貼合了流量經(jīng)營(yíng)分析系統(tǒng)日志分析計(jì)算的業(yè)務(wù)場(chǎng)景,在節(jié)約投資的同時(shí),其良好的線性擴(kuò)展能力對(duì)后續(xù)業(yè)務(wù)發(fā)展起到很好的保障作用。
4.1 業(yè)務(wù)功能架構(gòu)
流量經(jīng)營(yíng)分析系統(tǒng)實(shí)現(xiàn)面向市場(chǎng)的3個(gè)主要應(yīng)用:綜合分析能力、流量?jī)?nèi)容研究能力和智能營(yíng)銷支撐能力。具體的業(yè)務(wù)功能架構(gòu)可劃分為3部分:采集層、數(shù)據(jù)處理層和應(yīng)用功能層。
(1)采集層:作為流量經(jīng)營(yíng)分析平臺(tái)的信息數(shù)據(jù)載體,為上層應(yīng)用功能提供數(shù)據(jù)源包括WLAN數(shù)據(jù)、GPRS數(shù)據(jù)、日志類CMWAP網(wǎng)關(guān)日志、A接口數(shù)據(jù)、互聯(lián)網(wǎng)類信息、業(yè)務(wù)類(用戶資料)等數(shù)據(jù)接口;信息采集包括流量數(shù)據(jù)采集、網(wǎng)頁(yè)信息采集(爬蟲等)、接口文件信息采集(FTP)。
(2)數(shù)據(jù)處理層:主要完成對(duì)采集到的信息數(shù)據(jù)加工,完成信息整合,包括信息處理和信息管理。其中信息處理包括URL處理和匹配、用戶偏好處理、內(nèi)容語(yǔ)義解析、標(biāo)簽信息處理等;信息管理包括網(wǎng)頁(yè)分詞管理、網(wǎng)頁(yè)標(biāo)簽規(guī)則、終端特征配置、應(yīng)用特征配置、GPRS&WLAN熱點(diǎn)配置等。
(3)應(yīng)用功能層:主要在信息整合基礎(chǔ)上,實(shí)現(xiàn)總體監(jiān)控、綜合分析、流量?jī)r(jià)值評(píng)估、配置管理以及營(yíng)銷支撐功能??傮w監(jiān)控包括流量發(fā)展總體KPI監(jiān)控、流量套餐監(jiān)控及價(jià)值評(píng)估等;綜合分析包括網(wǎng)絡(luò)分析、終端分析、應(yīng)用分析、和用戶偏好分析等;營(yíng)銷支撐包括流量營(yíng)銷服務(wù)應(yīng)用和輔助流量業(yè)務(wù)策略等。
4.2 系統(tǒng)網(wǎng)絡(luò)組網(wǎng)
隨著分布式集群計(jì)算的廣泛應(yīng)用,傳統(tǒng)的基于TCP/ IP交換機(jī)組網(wǎng)架構(gòu)的缺陷和局限性日益突出,這種基于PCI架構(gòu)的I/O技術(shù)已經(jīng)不能滿足移動(dòng)互聯(lián)網(wǎng)、電子商務(wù)、存儲(chǔ)網(wǎng)絡(luò)等大量的I/O需求。本文建議采用Infiniband交換機(jī)組網(wǎng),在避開PCI架構(gòu)上述問(wèn)題的同時(shí),提供了高帶寬、低時(shí)延、低成本、擴(kuò)展性強(qiáng)等特點(diǎn)。Infiniband在Hadoop多個(gè)節(jié)點(diǎn)之間提供了40 Gbit/s InfiniBand接入,良好地支持Hadoop集群部署的實(shí)現(xiàn),有效支撐Hadoop集群和數(shù)據(jù)庫(kù)處理平臺(tái)內(nèi)部的高速數(shù)據(jù)交互需求。
運(yùn)營(yíng)商開展流量經(jīng)營(yíng)所要解決的主要問(wèn)題是“量收剪刀差”,即流量快速增長(zhǎng),占用了大量的網(wǎng)絡(luò)資源,而收入沒(méi)有同步增長(zhǎng),業(yè)務(wù)收入的增長(zhǎng)曲線與流量的增長(zhǎng)曲線產(chǎn)生了背離,數(shù)據(jù)業(yè)務(wù)的投入產(chǎn)出效益日益降低。流量經(jīng)營(yíng)分析系統(tǒng)的構(gòu)建,將為基于流量經(jīng)營(yíng)的智能營(yíng)銷系統(tǒng)和新型營(yíng)銷模式,提供分析支持。該系統(tǒng)涉及大量的非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)與處理,采用x86服務(wù)器集群以開源Hadoop為基礎(chǔ)平臺(tái)構(gòu)建流量經(jīng)營(yíng)分析系統(tǒng),可以為運(yùn)營(yíng)商提供基于分布式環(huán)境的海量數(shù)據(jù)運(yùn)算分析能力,完善流量分析監(jiān)控手段,提升數(shù)據(jù)流量經(jīng)營(yíng)的支撐能力和水平,助力運(yùn)營(yíng)商流量經(jīng)營(yíng)工作的開展。
[1] 陳吉榮,樂(lè)嘉錦. 基于Hadoop生態(tài)系統(tǒng)的大數(shù)據(jù)解決方案綜述[J]. 計(jì)算機(jī)工程與科學(xué), 2013,35(10): 25-32.
[2] 全波,姚素丹. 移動(dòng)互聯(lián)網(wǎng)時(shí)代電信運(yùn)營(yíng)商流量經(jīng)營(yíng)探索[J].電信科學(xué), 2012,28(7): 18-21.
[3] 翟巖龍,羅壯,楊凱,徐晟晨. 基于Hadoop的高性能海量數(shù)據(jù)處理平臺(tái)研究[J]. 計(jì)算機(jī)科學(xué), 2013,40(3): 100-103.
Study on the solution to the data traffic monetization analysis system of operators based on Hadoop
CHANG Hai-fang
(China Mobile Group Design Institute Co., Ltd., Beijing 100080, China)
With the rapid development of mobile internet, operators are now shifting their key strategies to the data traffic business via “intelligent channels”. Based on the Hadoop platform study, this paper introduces a implementation of the data traff c monetization system based on Hadoop. This paper sets out to provide insights to enhance the operators’ research ability of data traff c contents as well as their caliber to support“intelligent marketing”, which helps avoid widening gap between “quantity and revenue”.
operators; data traff c monetization; Hadoop; system construction
TN929.5
A
1008-5599(2014)07-0037-04
2014-06-16