中國電信股份有限公司阜陽分公司 高 陽
所謂的大數(shù)據(jù)主要是指對海量數(shù)據(jù)的采集、計算、智能分析等,將數(shù)據(jù)向信息和知識進行轉(zhuǎn)變,從而拓展其價值。在大數(shù)據(jù)背景下,電信運營商的通訊渠道也將被拓寬,利用該通訊渠道的應用軟件數(shù)量逐漸增加,各維度數(shù)據(jù)量也呈現(xiàn)出爆炸式的增長。但是,由于受到以往傳統(tǒng)通訊管理模式的制約,使其在互聯(lián)網(wǎng)競爭過程中處于劣勢地位,因此,建立大數(shù)據(jù)平臺,充分發(fā)揮大數(shù)據(jù)價值顯得十分必要。
電信運營商大數(shù)據(jù)平臺建設的主要目的是將企業(yè)內(nèi)外系統(tǒng)中各種類型的數(shù)據(jù)信息進行整合,進而實現(xiàn)對數(shù)據(jù)進行統(tǒng)一的采集、預處理、存儲、計算、管控和服務。(1)數(shù)據(jù)源,主要包括業(yè)務系統(tǒng)數(shù)據(jù)源、B/O/M三域支撐系統(tǒng)等內(nèi)部數(shù)據(jù)源和政府數(shù)據(jù)等外部數(shù)據(jù)源。(2)數(shù)據(jù)采集,主要作用是對各種渠道采集而來的數(shù)據(jù)源,根據(jù)數(shù)據(jù)的特征,采用適當?shù)姆绞竭M行抽取和收集。(3)預處理,在這一環(huán)節(jié)中,主要是對采集來的數(shù)據(jù)進行轉(zhuǎn)換和過濾,使其能夠被有效的整合,與大數(shù)據(jù)平臺中的數(shù)據(jù)做到規(guī)范和統(tǒng)一。(4)數(shù)據(jù)存儲和計算,目標對象為大數(shù)據(jù)平臺中的全部數(shù)據(jù),以分布式的方式對其進行存儲、計算、挖掘、加工處理等,使其能夠與各類應用對數(shù)據(jù)服務的需求相適應。(5)數(shù)據(jù)服務,通過標準化的接口提供開放服務,主要包括資源開放、工具開放、數(shù)據(jù)開放等等,以此來滿足企業(yè)的內(nèi)外部需求。(6)數(shù)據(jù)管控,管控的目標是大數(shù)據(jù)平臺中的全部數(shù)據(jù),平臺將對其全生命周期進行管控,例如數(shù)據(jù)安全、元數(shù)據(jù)、數(shù)據(jù)質(zhì)量等功能[1]。
構(gòu)建數(shù)據(jù)分層結(jié)構(gòu)是為了提升電信運營商對于跨域數(shù)據(jù)模型的接受程度,使數(shù)據(jù)模型的使用效率得到有效的提升,做到不同粒度的數(shù)據(jù)都能夠在各種類型的應用中被靈活且高效的訪問。其中,數(shù)據(jù)粒度由細到粗在層次上的排列分別是,原始數(shù)據(jù)層→基礎數(shù)據(jù)層→融合信息層→信息子層。在原始數(shù)據(jù)層中,能夠?qū)Ω鞣N類型的數(shù)據(jù)源系統(tǒng)向大數(shù)據(jù)平臺進行轉(zhuǎn)存,但是這種保存只是暫時的,同時還能夠?qū)υ聪到y(tǒng)的數(shù)據(jù)質(zhì)量進行驗證。在基礎數(shù)據(jù)層當中,首先對原始數(shù)據(jù)層中的數(shù)據(jù)信息進行轉(zhuǎn)換和清洗之后,使數(shù)據(jù)在命名、格式上變得更加標準和統(tǒng)一,能夠充分符合大數(shù)據(jù)平臺中的相關(guān)要求,有效避免由于源系統(tǒng)差異對數(shù)據(jù)質(zhì)量產(chǎn)生的不良影響,然后根據(jù)事先劃分好的主題域?qū)?shù)據(jù)進行存儲,使數(shù)據(jù)訪問的周期變得更長,信息變得更加全面。在融合信息層當中,在上述兩個層次作用的基礎上,對基礎數(shù)據(jù)進行整合和計算,使其構(gòu)成一個具有較強穩(wěn)定性和可用性的中間數(shù)據(jù)層,使數(shù)據(jù)的使用效率得到極大的提升,例如業(yè)務辦理信息歸總、用戶清單整合等。在信息子層中,能夠為各種類型的應用提供直接的服務,針對基礎數(shù)據(jù)進行加工和計算之后,構(gòu)成數(shù)據(jù)層,包括KPI報表、標簽庫等等[2]。
對于不同的大數(shù)據(jù)技術(shù)來說,在應用的層次與場景配置方面也各不相同,在電信運營商中進行的平臺架構(gòu),與以往傳統(tǒng)的平臺架構(gòu)之間存在一定的區(qū)別,其屬于一種集多種技術(shù)和應用于一身、通過混搭模式構(gòu)建而成的大數(shù)據(jù)平臺,對于平臺中各項數(shù)據(jù)的構(gòu)建如下所示。
在大數(shù)據(jù)平臺中,其數(shù)據(jù)采集層主要是對網(wǎng)絡管理支撐域、業(yè)務支撐域、管信支撐域以及互聯(lián)網(wǎng)數(shù)據(jù)進行統(tǒng)一的采集,以此來保障大數(shù)據(jù)平臺始終處于數(shù)據(jù)資產(chǎn)中心的位置,有效防止數(shù)據(jù)信息被重復采集、存儲等現(xiàn)象發(fā)生。在數(shù)據(jù)采集層中主要包括兩個部分,即互聯(lián)網(wǎng)數(shù)據(jù)采集和內(nèi)部數(shù)據(jù)采集。其中,在互聯(lián)網(wǎng)數(shù)據(jù)采集中,通常是利用大數(shù)據(jù)平臺中的爬蟲服務器來完成的,該服務器被部署在平臺的內(nèi)部,依靠URL對網(wǎng)頁進行下載和瀏覽,以此來采集到相應的數(shù)據(jù)信息。
在內(nèi)部數(shù)據(jù)采集方面,通常是利用Flume采集方式,該方式具有較強的可靠性、可用性,能夠通過分布式對海量日志信息進行采集、傳輸和整合,并且數(shù)據(jù)的發(fā)送方和接收方都可以進行相應的設置。這里所指的數(shù)據(jù)發(fā)送方為實時日志、靜態(tài)日志等,數(shù)據(jù)的接收方為流計算、Hadoop等。對于離線應用場景來說,數(shù)據(jù)量較大且類型眾多,具有十分龐大的非結(jié)構(gòu)化數(shù)據(jù),因此采用HDFS的方式來存儲原始數(shù)據(jù)更為合適,具體的配置步驟為:源系統(tǒng)服務器靜態(tài)日志→硬盤→HDFS;對于在線實時應用場景或者準實時場景來說,通常情況下,對于原始數(shù)據(jù)的存儲不采用硬盤的方式,而是以源系統(tǒng)實時日志→內(nèi)存→流計算隊列→流計算的方式來實現(xiàn),如若實際需要通過硬盤進行數(shù)據(jù)存儲,則可以采用此種配置方式,即源系統(tǒng)實時日志→內(nèi)存→流計算隊列→HDFS[3]。
大數(shù)據(jù)平臺中的數(shù)據(jù)處理層的主要目的是對電信運營商中的全部數(shù)據(jù)信息進行整合和管理,對所有的數(shù)據(jù)資產(chǎn)進行統(tǒng)一的預處理、存儲、計算,進而分析和挖掘出更多的大數(shù)據(jù)價值,使內(nèi)外部對數(shù)據(jù)的應用能力以及數(shù)據(jù)的服務能力都能夠得到顯著的增強。首先,在預處理方面,數(shù)據(jù)信息的預處理只能在離線的狀態(tài)下進行,對于原始數(shù)據(jù)來說,需要在原始數(shù)據(jù)層中進行清洗與轉(zhuǎn)換,然后獲得基礎數(shù)據(jù),由于原始數(shù)據(jù)的信息量十分龐大,在數(shù)據(jù)類型上也多中多樣,具有眾多非結(jié)構(gòu)化的數(shù)據(jù),并且在計算方式上較為簡單,因此對其進行預處理操作可以采用Spark的方式進行,并且在HDFS的基礎上將數(shù)據(jù)存儲到基礎數(shù)據(jù)層當中。同時,還能夠在實際需求的基礎上,將部分數(shù)據(jù)傳輸?shù)紿Base當中,在高并發(fā)的查詢場景中進行應用[4]。
對于基礎數(shù)據(jù)處理層來說,其主要作用在于對各跨域應用模型的使用,其中的大多數(shù)操作均為匯總計算,由于受龐大的基礎數(shù)據(jù)量影響,并且沒有多表復雜關(guān)聯(lián)情況,為了節(jié)省建設成本,主要采用Spark核心計算的方式,在HDFS的基礎上將融合數(shù)據(jù)層中的數(shù)據(jù)進行保存。在融合數(shù)據(jù)層中,在對數(shù)據(jù)挖掘類應用或者是文本分析、日志分析等非結(jié)構(gòu)類的應用進行處理時,在融合數(shù)據(jù)方面主要采用的是Spark核心計算引擎;在對結(jié)構(gòu)化數(shù)據(jù)、多表復雜關(guān)聯(lián)類應用進行處理時,可以先將融合數(shù)據(jù)導入到MPP當中進行處理。在信息子層中進行數(shù)據(jù)數(shù)據(jù)處理時,由于其能夠作為一種高度匯總數(shù)據(jù),可以直接應用到各種類型的應用當中,需要獲得標準SQL支持,并且在統(tǒng)一性、實時性等方面的要求也十分嚴格,對此,可以采用傳統(tǒng)關(guān)系型數(shù)據(jù)庫、MPP等方式進行處理;在在線應用場景下,針對海量數(shù)據(jù)進行計算時,應對其進行實時或者準實時的分析,然后利用流計算等方式來滿足需求,使其獲得更加良好的效果。
在數(shù)據(jù)讀物層中,主要作用是對大數(shù)據(jù)平臺中的資源、工具、數(shù)據(jù)等進行統(tǒng)一且集中的使用和調(diào)度,利用標準化的接口提升其對外服務的水平,通過多租戶的方式,滿足公司數(shù)據(jù)資產(chǎn)按需服務與共享的要求。在數(shù)據(jù)管控層中,電信運營商的主要目的是為了能夠?qū)崿F(xiàn)平臺的智能運維以及全生命周期的數(shù)據(jù)處理,以此來提升對數(shù)據(jù)的處理和使用效率,促進電信運營的現(xiàn)代化、信息化發(fā)展。
現(xiàn)階段,最為典型的大數(shù)據(jù)應用是精準營銷,主要作用是能夠有效克服以往傳統(tǒng)營銷過程中,在目標客戶、營銷時機、營銷產(chǎn)品中存在的問題,并且在盡量減少對客戶進行打擾的基礎上,使營銷的成功率得到顯著的提升。在此背景下,電信運營商可以利用大數(shù)據(jù)來提升自身的服務水平,通過電子化的溝通渠道來實現(xiàn)對客戶的精準營銷。本文將以電信運營商電子渠道精準營銷為例,在大數(shù)據(jù)平臺的基礎上,對具體的營銷流程進行設計,如圖1所示[5]。
圖1 通過電子化渠道進行精準營銷流程圖
根據(jù)上述精準營銷的流程圖能夠看出,主要分為六個步驟:
標簽計算,在大數(shù)據(jù)平臺的基礎上,對基礎數(shù)據(jù)、融合數(shù)據(jù)進行充分的整合,按照不同的數(shù)據(jù)特點對標簽進行定義和分類,通過MPP、Spark等對數(shù)據(jù)進行匯總,對其中的關(guān)聯(lián)進行計算,最后獲得每個客戶在各個維度中的標簽數(shù)據(jù)值,并且將其存儲到傳統(tǒng)關(guān)系數(shù)據(jù)庫或者MPP當中。
換機模型識別,在換機方面首先需要對客戶群體進行定位,搜索和選擇曾經(jīng)發(fā)生或換機行為的客戶,將其當做是訓練集,通過Spark的方式對該模型進行訓練,并且對其中相應的業(yè)務指標,如標簽屬性等進行識別,進而從中發(fā)現(xiàn)潛在的換機群體,并針對這一業(yè)務特征進行識別。上述操作的具體應用方式可以利用決策樹、邏輯回歸等方式來實現(xiàn)。
目標客戶的選擇,通過換機模型的識別,對潛在的換機客戶群體進行確定,在基礎數(shù)據(jù)與融合數(shù)據(jù)的基礎上,通過MPP或者Hadoop等對尚未換機客戶的換機概率進行計算,并且根據(jù)專業(yè)人員進行的主觀推斷,確立門限值,如若某個客戶的換機概率大于所設定的門限值,則代表著其將成為本次營銷中的目標客戶之一。
營銷客戶與產(chǎn)品推薦列表,在目標客戶信息以及存在以往換機行為的客戶信息基礎上,采用Spark的方式進行協(xié)同過濾運算,進而獲得營銷目標客戶與產(chǎn)品的推薦列表。
營銷時機配置,在利用大數(shù)據(jù)平臺進行實時精準營銷的過程中,營銷時機配置方面主要是:用戶登錄到網(wǎng)廳當中,并且搜索關(guān)鍵詞“4G手機”“手機”“華為”等字樣,這時網(wǎng)廳中的彈窗將會為客戶提供所搜索到的相應產(chǎn)品信息。
實時在線推薦,通過Flume以及Spark等方式便能夠通過大數(shù)據(jù)對用戶的實時上網(wǎng)行為進行獲取,然后通過Spark Atreaming對已經(jīng)擁有此產(chǎn)品的用戶和產(chǎn)品列表進行篩選,對此方面數(shù)據(jù)進行重新的分析和計算,使產(chǎn)品能夠得到進一步推薦,并且提升其推薦的準確性。最后,通過電子銷售渠道中的營銷位,以彈窗的形式為客戶顯示產(chǎn)品的信息,最終完成整個電子渠道的精準營銷過程。
H電信省公司的IP城域覆蓋了全部地州,在2015年底,出口鏈路達到了3000G,其中省會城域網(wǎng)中的出口鏈路為1200G。目前,在IP城域網(wǎng)的出口部署了DPI系統(tǒng),寬帶監(jiān)控能力為280G,主要的作用為全協(xié)議分析、多終端私接監(jiān)控等等,但是在應用過程中卻存在一些問題,主要包括覆蓋面積較小,城域網(wǎng)的覆蓋范圍僅為9%,對于單地市不具備較為全面良好的監(jiān)控能力;功能短缺,目前尚未實現(xiàn)網(wǎng)站識別、終端識別、應用識別等功能[6]。
在建立大數(shù)據(jù)平臺的基礎上,可以采用以下幾種方案進行改造。第一種,全覆蓋部署,在城域網(wǎng)進行出口部署,出口鏈路達到3000G,以此來實現(xiàn)全覆蓋目標。第二種,在兩地州與省會之間進行輪詢部署,其中,地州輪詢,在適當?shù)奈恢锰幉渴?63骨干機房,將采集設備部署其中,在容量配置方面,兩地州相加共計620G。省會輪詢,將采集設備部署到省會CR機房當中,在容量配置方面,兩縣區(qū)相加共計為680G。第三種,采用一個地州和一個區(qū)縣輪詢的方式,地州輪詢設備部署在163骨干機房,在容量配置方面為310G,省會輪詢設備部署在省會CR機房,在容量配置方面為340G,輪詢周期應超過一個月,以免由于過于頻繁對大數(shù)據(jù)系統(tǒng)中的數(shù)據(jù)質(zhì)量和可用性產(chǎn)生損害。上述三種方案只是在覆蓋范圍、資金投入方面存在一定的區(qū)別,如若在資金較為充足的情況下,建議采用第一種方案進行改造;如若投資較為緊張,則可以選擇第三種方案進行輪詢部署。
在方案具體實施時,首先需要新建一個分組域DPI,將其劃分為采集部分和處理部分,主要針對3G、4G、AAA等數(shù)據(jù)信息進行采集,然后經(jīng)過DPI的解析之后,將數(shù)據(jù)內(nèi)容與大數(shù)據(jù)平臺和其他相關(guān)平臺共享。在大數(shù)據(jù)的基礎上對目前現(xiàn)有的七號信令監(jiān)測系統(tǒng)進行改造,對手機信令進行采集,并且通過A口獲取到以下數(shù)據(jù):采集區(qū)域內(nèi)部手機主叫數(shù)據(jù)、關(guān)機被叫數(shù)據(jù)、手機短信數(shù)據(jù)、手機位置更新數(shù)據(jù)等。
綜上所述,隨著網(wǎng)絡信息技術(shù)的不斷發(fā)展,在大數(shù)據(jù)背景下,技術(shù)得到不斷的演進,應用也不斷的更新,電信運營商也緊隨時代發(fā)展的潮流,在自身實際需求的基礎上與大數(shù)據(jù)進行密切的聯(lián)系,使全維度數(shù)據(jù)優(yōu)勢得到充分的發(fā)揮,在大數(shù)據(jù)背景下,實現(xiàn)自身的順利轉(zhuǎn)型,提升自身的運營效率和質(zhì)量,為客戶帶來更加方便快捷的服務。
[1]袁濤,謝攀,趙清.基于大數(shù)據(jù)平臺的數(shù)據(jù)分發(fā)機制研究[J].信息通信技術(shù),2015,9(06)∶17-23.
[2]程燁.大數(shù)據(jù)背景下運營商IP城域網(wǎng)DPI系統(tǒng)部署方案探討[J].電信網(wǎng)技術(shù),2015,(09)∶32-37.
[3]趙晶.針對運營商的大數(shù)據(jù)建設方案研究[J].電信工程技術(shù)與標準化,2015,28(03)∶17-21.
[4]張金剛,王昕,耿輝.電信運營商省級公司大數(shù)據(jù)平臺建設關(guān)鍵問題探討[J].電信工程技術(shù)與標準化,2015,28(03)∶22-25.
[5]趙躍東,王雋峰,曾王平.電信運營商大數(shù)據(jù)應用系統(tǒng)建設方案研究[J].中國新通信,2015,17(04)∶81-82.
[6]馮明麗,陳志彬.基于電信運營商的大數(shù)據(jù)解決方案分析[J].通信與信息技術(shù),2013(05)∶36-40.