黃勇軍 ,馮 明 ,丁圣勇 ,樊勇兵
(1.中國電信股份有限公司廣東研究院 廣州510630;2.中國電信集團(tuán)公司 北京 100032)
近年來,以海量數(shù)據(jù)處理為目標(biāo)的大數(shù)據(jù)技術(shù)正成為新的研究熱點。盡管沒有嚴(yán)格的定義,但大數(shù)據(jù)的4V(volume——容 量 ,value——價 值 ,velocity——快 速 ,variety——多樣)特點以及主流的處理技術(shù)已經(jīng)基本得到認(rèn)可,使用傳統(tǒng)技術(shù)在短時間內(nèi)無法處理的任務(wù)或問題目前都可歸為大數(shù)據(jù)問題,相應(yīng)的處理技術(shù)被稱為大數(shù)據(jù)技術(shù)。
大數(shù)據(jù)技術(shù)起源于互聯(lián)網(wǎng)公司,最初主要用于解決海量非結(jié)構(gòu)化網(wǎng)頁數(shù)據(jù)的存儲、分析以及檢索等問題,在設(shè)計理念上采用經(jīng)濟(jì)的服務(wù)器構(gòu)建超大規(guī)模的集群,以獲得海量的數(shù)據(jù)存儲和處理能力。與傳統(tǒng)集群技術(shù)不同的是,在大數(shù)據(jù)解決方案下,盡管單臺節(jié)點服務(wù)器的性能與可靠性不足以與高性能服務(wù)器媲美,但可以通過超大規(guī)模(上萬臺)集群以及冗余設(shè)計獲得顯著的成本和擴(kuò)展優(yōu)勢。大數(shù)據(jù)技術(shù)的擴(kuò)展性、先進(jìn)性已被Google、微軟、Yahoo、Facebook等頂級互聯(lián)網(wǎng)公司所驗證。
與此同時,隨著電信運營商的全業(yè)務(wù)化運營以及3G推動下移動互聯(lián)網(wǎng)業(yè)務(wù)的爆炸式增長,電信行業(yè)的數(shù)據(jù)類型、數(shù)據(jù)規(guī)模、數(shù)據(jù)速度、數(shù)據(jù)價值在大數(shù)據(jù)的4個維度上得到顯著體現(xiàn)。對于電信運營商來說,在不需要大量增加網(wǎng)絡(luò)投資和運營成本的條件下,大數(shù)據(jù)體系極有可能成為未來企業(yè)新的價值增長點。但由于電信運營商在大數(shù)據(jù)的人才方面無明顯優(yōu)勢,且內(nèi)部系統(tǒng)復(fù)雜,大數(shù)據(jù)技術(shù)尚未在電信運營商中得到廣泛應(yīng)用并發(fā)揮價值,如何在電信行業(yè)中引入大數(shù)據(jù)技術(shù)并抓住大數(shù)據(jù)的機(jī)遇為客戶提供更深入的服務(wù),是當(dāng)前一個急迫的問題,本文就電信行業(yè)的大數(shù)據(jù)應(yīng)用策略展開探討。
大數(shù)據(jù)技術(shù)的核心任務(wù)可分為兩種:一種是基礎(chǔ)的大數(shù)據(jù)存取,功能上類似于傳統(tǒng)文件系統(tǒng)操作或數(shù)據(jù)庫操作,但規(guī)模遠(yuǎn)超傳統(tǒng)任務(wù);另一種是數(shù)據(jù)挖掘分析,目的是從海量的數(shù)據(jù)中挖掘出有價值的信息。前者是較為簡單的任務(wù),是比較共性的需求,對應(yīng)的大數(shù)據(jù)技術(shù)主要為分布式文件系統(tǒng)和分布式數(shù)據(jù)庫;后者則需要通過在大數(shù)據(jù)計算平臺上實現(xiàn)特定的算法才能完成相關(guān)任務(wù),涉及的主要技術(shù)包括大數(shù)據(jù)計算平臺和基于大數(shù)據(jù)計算平臺的分布式數(shù)據(jù)挖掘技術(shù)。
(1)分布式文件系統(tǒng)技術(shù)
大數(shù)據(jù)時代的分布式文件系統(tǒng)利用大量普通服務(wù)器的存儲能力,提供超大規(guī)模的文件存儲能力,目前典型的技術(shù)是使用集中服務(wù)器維護(hù)數(shù)據(jù)分配信息。客戶端對分布式文件系統(tǒng)進(jìn)行存取操作時,首先通過集中服務(wù)器獲得數(shù)據(jù)存取的節(jié)點以及相應(yīng)分塊位置,從而完成定位操作,一旦定位,數(shù)據(jù)存取就歸結(jié)為普通的流讀寫。此外,為了提高可靠性,數(shù)據(jù)在寫入時進(jìn)行冗余復(fù)制,從而保證系統(tǒng)具有高度的可靠性。目前主流的分布式文件系統(tǒng)如Hadoop File System,多為基于Google開放的GFS技術(shù)實現(xiàn)。
(2)分布式數(shù)據(jù)庫技術(shù)
分布式數(shù)據(jù)庫技術(shù)用來實現(xiàn)海量數(shù)據(jù)的存取,這里的數(shù)據(jù)以記錄形式存在,一般具有固定的屬性,有別于流式的文件數(shù)據(jù)。分布式數(shù)據(jù)庫的核心技術(shù)反映在CAP(consistency,availability,partition tolerance)定理中。CAP 定理理論上證明了任何數(shù)據(jù)庫都無法同時滿足一致性、可用性、分區(qū)容忍性的要求。目前的分布式數(shù)據(jù)庫放棄了傳統(tǒng)數(shù)據(jù)庫的一些特性,如事務(wù)操作,實現(xiàn)超大規(guī)模的數(shù)據(jù)讀寫能力,將分布式數(shù)據(jù)庫的核心定位為
(3)分布式計算平臺技術(shù)
分布式計算平臺是為應(yīng)用程序提供并行化的計算平臺,能夠?qū)⒂嬎闳蝿?wù)自動地加載在多臺機(jī)器上并執(zhí)行,將相應(yīng)結(jié)果進(jìn)行匯總。分布式計算平臺不能支持為單機(jī)編寫的普通程序,只能支持遵循其編程模式和規(guī)范的程序,即使用分布式計算平臺的開發(fā)者必須根據(jù)分布式計算平臺的特性自行設(shè)計任務(wù)分解方法,這也是使用分布式計算平臺的主要困難所在。目前有兩種典型的分布式計算平臺,介紹如下。
· 實時流計算平臺,支持實時流數(shù)據(jù)處理,開發(fā)者可定義每條數(shù)據(jù)的處理環(huán)節(jié)以及相應(yīng)的處理方法,平臺每接收到一條新數(shù)據(jù)就會自動調(diào)用不同的處理環(huán)節(jié),以保證每條數(shù)據(jù)都被完整處理。這種平臺通過將處理環(huán)節(jié)自動部署在不同的節(jié)點上,實現(xiàn)并行化的處理能力。典型的平臺有Storm。
· 批量式計算平臺,與實時流計算平臺不同,其任務(wù)輸入是已經(jīng)存在的數(shù)據(jù)集合,執(zhí)行任務(wù)時將這些數(shù)據(jù)集合分成若干塊,每塊啟動一個任務(wù)進(jìn)行處理并自動匯總結(jié)果。典型的平臺有Hadoop MapReduce。
(4)分布式數(shù)據(jù)挖掘技術(shù)
分布式數(shù)據(jù)挖掘基于分布式計算平臺實現(xiàn)數(shù)據(jù)挖掘算法,從而支持大規(guī)模的數(shù)據(jù)挖掘分析。將各種傳統(tǒng)的數(shù)據(jù)挖掘算法(如聚類算法、分類算法)根據(jù)底層計算平臺的要求進(jìn)行并行化實現(xiàn),必要時進(jìn)行適當(dāng)?shù)暮喕赃m應(yīng)底層平臺的要求。典型的分布式數(shù)據(jù)挖掘算法有迭代式K-means、基于Gibbs采樣的LDA以及SVM等。
經(jīng)過幾年的發(fā)展,以上技術(shù)已被互聯(lián)網(wǎng)巨頭公司廣泛使用,并且形成了一系列開源平臺,如Hadoop、Storm、Hbase、MongoDB等。大數(shù)據(jù)技術(shù)的成本和擴(kuò)展性優(yōu)勢已毋庸置疑,但由于大數(shù)據(jù)平臺和產(chǎn)品最初多定位為滿足互聯(lián)網(wǎng)公司的自身需求,從可運營、可管理的角度看,尚不能完全滿足運營級的產(chǎn)品要求,現(xiàn)有大數(shù)據(jù)平臺往往需要深度的優(yōu)化才能穩(wěn)定可靠地運行。相比一些頂級互聯(lián)網(wǎng)公司,電信運營商在這方面起步較晚,特別是在大數(shù)據(jù)平臺技術(shù)方面,還沒有形成足夠的積累。但另一方面,電信運營商在基礎(chǔ)設(shè)施(如數(shù)據(jù)中心建設(shè)、用戶網(wǎng)絡(luò)行為分析、市場經(jīng)營分析等)方面有較強的技術(shù)積累,這些積累為運營商快速應(yīng)用大數(shù)據(jù)奠定了良好基礎(chǔ),包括提供大數(shù)據(jù)基礎(chǔ)設(shè)施服務(wù)以及開展各種前向、后向合作運營大數(shù)據(jù)的機(jī)會。
電信運營商的系統(tǒng)本質(zhì)是為用戶與用戶、設(shè)備與設(shè)備、用戶與設(shè)備之間提供通信信道,每天承載著海量信息,是互聯(lián)網(wǎng)大數(shù)據(jù)的源頭。電信運營商大體上掌握3類數(shù)據(jù):第1類是支撐網(wǎng)絡(luò)運營的設(shè)備狀態(tài)及資源利用率數(shù)據(jù),這類網(wǎng)絡(luò)運維數(shù)據(jù)與用戶無關(guān),是純粹的信道層面的數(shù)據(jù),對網(wǎng)絡(luò)優(yōu)化擴(kuò)容極其重要;第2類是與用戶緊密相關(guān)的數(shù)據(jù),具體又包括兩部分,一是相對靜態(tài)的體現(xiàn)用戶身份的賬號數(shù)據(jù),伴隨著用戶業(yè)務(wù)的開通產(chǎn)生,另一種是實時的用戶行為數(shù)據(jù)、用戶通話的信令數(shù)據(jù)、用戶網(wǎng)絡(luò)訪問日志等,是內(nèi)容層面的數(shù)據(jù),對經(jīng)營分析極為重要;第3類是增值服務(wù)類數(shù)據(jù),如流媒體內(nèi)容數(shù)據(jù)、視頻監(jiān)控數(shù)據(jù)、網(wǎng)頁數(shù)據(jù)等。圖1展示了前兩類數(shù)據(jù)的來源、挖掘分析的服務(wù)對象及應(yīng)用價值。
第1類數(shù)據(jù)以結(jié)構(gòu)化為主,處理邏輯相對簡單,局限于某個區(qū)域網(wǎng)絡(luò),數(shù)據(jù)量也相對較小。但在全網(wǎng)范圍看,由于網(wǎng)絡(luò)節(jié)點多,設(shè)備數(shù)量大,傳統(tǒng)技術(shù)已很難實現(xiàn)長時段、全網(wǎng)級的統(tǒng)計分析。由于這類數(shù)據(jù)的結(jié)構(gòu)化屬性較強,統(tǒng)計方法相對簡單,使用分布式文件系統(tǒng)和分布式數(shù)據(jù)庫技術(shù)能夠基本滿足數(shù)據(jù)存儲和基礎(chǔ)分析的需求。
第2類數(shù)據(jù)具有典型的大數(shù)據(jù)4V特點,即規(guī)模大、變化速度快、價值高、類型復(fù)雜。在規(guī)模方面,國內(nèi)主流運營商的用戶數(shù)達(dá)到數(shù)億規(guī)模,用戶每天的網(wǎng)絡(luò)行為日志無疑構(gòu)成海量數(shù)據(jù),并不亞于頂級互聯(lián)網(wǎng)公司。在速度方面,時刻都在變化,以記錄海量用戶的實時行為。在類型方面,具有典型的多樣性,首先體現(xiàn)在數(shù)據(jù)來源方面,數(shù)據(jù)可能來自寬帶網(wǎng)絡(luò),也可能來自無線網(wǎng)絡(luò)或3G網(wǎng)絡(luò);其次體現(xiàn)在結(jié)構(gòu)方面,既包含結(jié)構(gòu)化的用戶賬號數(shù)據(jù),也包含半結(jié)構(gòu)化的用戶訪問日志。在價值方面,蘊含著用戶興趣、位置、身份信息,無論是對電信企業(yè)自身還是對外部互聯(lián)網(wǎng)企業(yè),都具有無窮的價值。但由于這類數(shù)據(jù)涉及電信運營商的核心業(yè)務(wù),很多數(shù)據(jù)處理任務(wù)對事務(wù)性、實時性、可靠性都有極高的要求,目前的大數(shù)據(jù)解決方案尚不能完全滿足這些要求。因此對于這類數(shù)據(jù),大數(shù)據(jù)初期適合定位于補充性的分析處理,如提供用戶話單查詢、基于用戶網(wǎng)絡(luò)訪問日志的用戶興趣畫像等。
第3類數(shù)據(jù)具有明顯的非結(jié)構(gòu)化特性,特別適合利用大數(shù)據(jù)技術(shù)處理。如流媒體和視頻監(jiān)控數(shù)據(jù),可以使用分布式文件系統(tǒng)代替?zhèn)鹘y(tǒng)的存儲系統(tǒng)(如SAN),可以使用實時流計算平臺進(jìn)行編解碼處理;再如互聯(lián)網(wǎng)增值應(yīng)用中的網(wǎng)頁數(shù)據(jù)抓取、分析、索引,完全可以借鑒互聯(lián)網(wǎng)公司廣泛使用的大數(shù)據(jù)處理技術(shù)。
大數(shù)據(jù)技術(shù)在數(shù)據(jù)挖掘的廣度、深度方面都帶來了新的機(jī)遇,電信運營商應(yīng)當(dāng)把握大數(shù)據(jù)時代的契機(jī),加強數(shù)據(jù)挖掘與分析工作,將特有的數(shù)據(jù)資源轉(zhuǎn)化為資產(chǎn)與核心競爭力。但與此同時,電信運營商應(yīng)當(dāng)認(rèn)識到,大數(shù)據(jù)技術(shù)和產(chǎn)品具有互聯(lián)網(wǎng)化的特點,目前大數(shù)據(jù)技術(shù)沒有成熟的可直接運營的產(chǎn)品,大數(shù)據(jù)的上下游產(chǎn)業(yè)鏈也遠(yuǎn)不如傳統(tǒng)網(wǎng)絡(luò)設(shè)備完善,這意味著大數(shù)據(jù)的應(yīng)用是個長期漸進(jìn)的過程,也是需要自主研發(fā)、運營、優(yōu)化的過程。依據(jù)目前大數(shù)據(jù)的技術(shù)及產(chǎn)業(yè)鏈現(xiàn)狀,從“人才培養(yǎng)、技術(shù)研發(fā)、平臺建設(shè)、應(yīng)用切入、業(yè)務(wù)運營”的角度,分析探討電信行業(yè)應(yīng)用大數(shù)據(jù)的策略。
圖1 電信核心數(shù)據(jù)來源示意
(1)人才培養(yǎng)
無論在哪個行業(yè),應(yīng)用大數(shù)據(jù)都需要同時熟悉行業(yè)知識以及大數(shù)據(jù)分析或者大數(shù)據(jù)技術(shù)的綜合人才。從業(yè)界觀點來看,大數(shù)據(jù)改變的是從“樣本分析”到“全量分析”的模式,分析方法是一個巨大的挑戰(zhàn),而企業(yè)需要的數(shù)據(jù)人才也大致包括產(chǎn)品和市場分析、安全和風(fēng)險分析以及商業(yè)智能3大類。電信運營商的數(shù)據(jù)人才,一方面應(yīng)是數(shù)據(jù)分析和研發(fā)人才,能夠建立適應(yīng)電信運營商的數(shù)據(jù)架構(gòu),提供有效的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘分析模式的能力;另一方面應(yīng)熟悉電信自身的業(yè)務(wù),即電信行業(yè)的數(shù)據(jù)科學(xué)家。綜合考慮大數(shù)據(jù)上下游產(chǎn)業(yè)鏈的不完善現(xiàn)狀以及大數(shù)據(jù)技術(shù)對未來企業(yè)發(fā)展的重要作用,電信運營商應(yīng)當(dāng)加強大數(shù)據(jù)人才的儲備,引入高層次大數(shù)據(jù)人才,并通過內(nèi)部大數(shù)據(jù)應(yīng)用快速培養(yǎng)人才。
(2)技術(shù)研發(fā)
大數(shù)據(jù)研發(fā)包括平臺型研發(fā)和基于平臺的應(yīng)用型研發(fā)。從現(xiàn)狀出發(fā),電信運營商應(yīng)該基礎(chǔ)設(shè)施與應(yīng)用并重,但首先以應(yīng)用型研發(fā)為主,即能夠首先用好大數(shù)據(jù),與此同時適度進(jìn)行平臺型研發(fā),以支撐大數(shù)據(jù)應(yīng)用。在積累到一定經(jīng)驗后,加大平臺型研發(fā)的投入,以逐步從對內(nèi)服務(wù)轉(zhuǎn)向?qū)ν膺\營。大數(shù)據(jù)的應(yīng)用十分廣泛,但完整部署需要較長的時間,應(yīng)用切入的方式有利于兼顧近期運營和長遠(yuǎn)規(guī)劃,而大數(shù)據(jù)基礎(chǔ)設(shè)施也是一個逐步完善的過程,建議以自有研發(fā)力量為主建立核心研發(fā)團(tuán)隊,打造未來成為企業(yè)價值核心的大數(shù)據(jù)系統(tǒng)。
(3)平臺建設(shè)
電信企業(yè)的各套系統(tǒng)基本上都需要大數(shù)據(jù)支持。每套系統(tǒng)獨立建設(shè)大數(shù)據(jù)平臺不僅浪費,且不具備相應(yīng)人才。大數(shù)據(jù)在基礎(chǔ)設(shè)施層面盡量實現(xiàn)共享,以發(fā)揮大數(shù)據(jù)規(guī)模集群的優(yōu)勢。結(jié)合電信運營商的系統(tǒng)及管理現(xiàn)狀,可建設(shè)省級大數(shù)據(jù)中心及全國級大數(shù)據(jù)中心,省級大數(shù)據(jù)中心定位于滿足省內(nèi)各種應(yīng)用和系統(tǒng)對大數(shù)據(jù)能力的需求,全國級大數(shù)據(jù)中心定位于滿足全國性系統(tǒng)對大數(shù)據(jù)能力的需求。
(4)應(yīng)用切入
任何一個新技術(shù)都很難一次性替換原有系統(tǒng)的技術(shù)。大數(shù)據(jù)技術(shù)的初期切入策略可定位為補充式切入,即重點實現(xiàn)傳統(tǒng)技術(shù)難以實現(xiàn)的問題,如全網(wǎng)流量分析、用戶行為畫像、用戶話單查詢、“號百”餐飲搜索等。
(5)業(yè)務(wù)運營
在基礎(chǔ)設(shè)施層面,考慮到行業(yè)對大數(shù)據(jù)需求的普及以及大數(shù)據(jù)技術(shù)對基礎(chǔ)設(shè)施平臺的規(guī)模和彈性要求,運營商可結(jié)合云數(shù)據(jù)中心提供云化的大數(shù)據(jù)基礎(chǔ)設(shè)施服務(wù),為大數(shù)據(jù)服務(wù)提供商或用戶提供高質(zhì)量的、專業(yè)的彈性基礎(chǔ)設(shè)施平臺,并在平臺上部署基礎(chǔ)的大數(shù)據(jù)平臺軟件和分析系統(tǒng),同時嵌入特有的電信能力,發(fā)揮運營商的基礎(chǔ)設(shè)施服務(wù)優(yōu)勢。在數(shù)據(jù)挖掘分析層面,大數(shù)據(jù)技術(shù)初期以優(yōu)先服務(wù)內(nèi)部系統(tǒng)為主,從解決內(nèi)部系統(tǒng)的實際需求出發(fā),積累大數(shù)據(jù)的開發(fā)、運營經(jīng)驗,在充分掌握大數(shù)據(jù)技術(shù)的基礎(chǔ)上逐步對外提供大數(shù)據(jù)分析服務(wù),積極尋求與行業(yè)或者企業(yè)開展大數(shù)據(jù)運營的合作。同時要注意的是,電信行業(yè)大數(shù)據(jù)的運營應(yīng)該充分發(fā)揮運營商已有的企業(yè)數(shù)據(jù)倉庫(EDW)系統(tǒng)體系,用好電信運營商傳統(tǒng)的數(shù)據(jù)體系,結(jié)合新的海量用戶行為數(shù)據(jù),創(chuàng)造更大的數(shù)據(jù)應(yīng)用價值。
在具體技術(shù)架構(gòu)方面,電信運營商大數(shù)據(jù)平臺可以依托開源項目,采用分層、模塊化思想對主要平臺元素進(jìn)行設(shè)計,各層相對獨立,通過標(biāo)準(zhǔn)接口向外部應(yīng)用系統(tǒng)開放。參考技術(shù)架構(gòu)如圖2所示。
其中,最底層為硬件平臺層,將PC服務(wù)器集群、存儲、網(wǎng)絡(luò)等基礎(chǔ)設(shè)施資源組合在一起,形成大規(guī)模的計算機(jī)集群,供上層應(yīng)用系統(tǒng)使用。
第2層是分布式平臺層,在物理平臺的基礎(chǔ)上部署分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、緩存服務(wù)、任務(wù)分解、資源調(diào)度等一系列分布式軟件,把多臺獨立的PC服務(wù)器組合成具有超大規(guī)模計算和存儲能力的系統(tǒng)。分布式平臺屏蔽了分布式系統(tǒng)任務(wù)分解、資源調(diào)配等復(fù)雜的底層工作,簡化了上層分布式應(yīng)用的開發(fā)流程。
第3層是基礎(chǔ)能力層,將基于數(shù)據(jù)分析的一系列公共基礎(chǔ)服務(wù)抽象成功能模塊,開放給上層系統(tǒng)和應(yīng)用開發(fā)者。對外提供包括數(shù)據(jù)倉庫查詢分析、數(shù)據(jù)挖掘、統(tǒng)計分析等在內(nèi)的基礎(chǔ)數(shù)據(jù)分析功能。
第4層是服務(wù)能力層,在基礎(chǔ)能力層上形成搜索引擎、位置信息、內(nèi)容分發(fā)等功能更為完善的服務(wù)。這些服務(wù)獨立于應(yīng)用系統(tǒng)的業(yè)務(wù)邏輯,可作為應(yīng)用程序的能力補充。
圖2 電信大數(shù)據(jù)平臺參考架構(gòu)
第5層是應(yīng)用層,即需要使用大數(shù)據(jù)服務(wù)的一系列電信應(yīng)用系統(tǒng),如大規(guī)模用戶行為分析、全網(wǎng)流量分析等,通過調(diào)用平臺的大數(shù)據(jù)服務(wù)接口快速實現(xiàn)大數(shù)據(jù)能力。
此外,為滿足大數(shù)據(jù)平臺的可運營、可管理要求,平臺需實現(xiàn)運營管理能力,為應(yīng)用系統(tǒng)提供訪問控制、資源分配等一系列管理服務(wù)。
結(jié)合大數(shù)據(jù)的技術(shù)框架和電信運營商的數(shù)據(jù)特點,對大數(shù)據(jù)適用性進(jìn)行了分析,并在此基礎(chǔ)上給出電信運營商大數(shù)據(jù)發(fā)展的策略建議,旨在為電信運營商應(yīng)用大數(shù)據(jù)技術(shù)提供參考。云計算服務(wù)模式的出現(xiàn),拉近了網(wǎng)絡(luò)運營商、企業(yè)、用戶之間的距離,大數(shù)據(jù)的普及將使得三者之間形成更為緊密的依賴關(guān)系,為電信運營商更好地服務(wù)客戶提供新的機(jī)遇。
1 White Tom.Hadoop:the Definitive Guide.O’Reilly Media,p.3.ISBN978-1-4493-3877-0,2012
2 Nancy Lynch,Seth Gilbert.Brewer’s conjecture and the feasibility of consistent,available,partition-tolerant web services.ACM SIGACT News,2002,33(2):51~59
3 Ghemawat,Sanjay,Howard Gobioff,et al.The Google file system.ACM SIGOPSOperating Systems Review,2003,37(5)