周實(shí)奇
摘 要:大數(shù)據(jù)平臺(tái)生態(tài)圈產(chǎn)品眾多,提供了眾多功能,開源產(chǎn)品為主,普遍面向功能層面,相比傳統(tǒng)關(guān)系型產(chǎn)品圈,大數(shù)據(jù)平臺(tái)更缺乏全局的統(tǒng)籌管理;大數(shù)據(jù)平臺(tái)面對(duì)的數(shù)據(jù)更多,數(shù)據(jù)量更多,處理更為復(fù)雜;平臺(tái)的靈活性,為不同用戶提供了不同的數(shù)據(jù)視覺;復(fù)雜度靈活性也帶來了對(duì)數(shù)據(jù)管理的難度;過去關(guān)系型數(shù)據(jù)的管理與管控往往是事后行為,數(shù)據(jù)的管理與管控效果較差;在大數(shù)據(jù)更為復(fù)雜的環(huán)境下,有效的管控變得更為重要。
關(guān)鍵詞:移動(dòng)互聯(lián)網(wǎng)、大數(shù)據(jù)平臺(tái)
1 背景
1.1 什么是大數(shù)據(jù)
最早提出“大數(shù)據(jù)”時(shí)代到來的是全球知名咨詢公司麥肯錫,麥肯錫稱:“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對(duì)于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來?!?/p>
本文將立足大數(shù)據(jù)在電信運(yùn)營(yíng)商支撐體系的定位、價(jià)值應(yīng)用和支撐方案等方面展開討論。
1.2 大數(shù)據(jù)的特點(diǎn)
要理解大數(shù)據(jù)這一概念,首先要從"大"入手,"大"是指數(shù)據(jù)規(guī)模,大數(shù)據(jù)一般指在10TB(1TB=1024GB)規(guī)模以上的數(shù)據(jù)量。大數(shù)據(jù)同過去的海量數(shù)據(jù)有所區(qū)別,其基本特征可以用4個(gè)V來總結(jié)(Volume、Variety、Value和Velocity),即體量大、多樣性、價(jià)值密度低、速度快。
第一,數(shù)據(jù)體量巨大。從TB級(jí)別,躍升到PB級(jí)別。
第二,數(shù)據(jù)類型繁多,如網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等。
第三,價(jià)值密度低。以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒。
第四,處理速度快。1秒定律。最后這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機(jī)、平板電腦、PC以及遍布地球各個(gè)角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式。
1.3 大數(shù)據(jù)在電信運(yùn)營(yíng)商IT支撐體系中的應(yīng)用定位
而對(duì)于企業(yè)來講,尤其是電信運(yùn)營(yíng)商企業(yè),為了達(dá)到匯集數(shù)據(jù),并最大發(fā)揮數(shù)據(jù)的價(jià)值,建設(shè)數(shù)據(jù)中心是不二的選擇。那么在大數(shù)據(jù)時(shí)代,大數(shù)據(jù)的數(shù)據(jù)范圍應(yīng)該包含哪些?我們又應(yīng)該通過什么樣的方式管理和最大程度的挖掘其價(jià)值呢?
首先,為了達(dá)到輔助企業(yè)精細(xì)精確化運(yùn)營(yíng),大數(shù)據(jù)的范圍應(yīng)該包括企業(yè)運(yùn)營(yíng)產(chǎn)生的全部數(shù)據(jù),即我們通常所說支撐體系中B、O、E、M、D域中的全部數(shù)據(jù)。同時(shí)為了不斷適應(yīng)發(fā)展環(huán)境,我們還應(yīng)該考慮納入互聯(lián)網(wǎng)數(shù)據(jù),乃至物聯(lián)網(wǎng)數(shù)據(jù)。在大數(shù)據(jù)支撐體系架構(gòu)設(shè)計(jì)上,還應(yīng)考慮通過靈活的手段,支撐未來更大范圍的數(shù)據(jù)。
2 業(yè)務(wù)現(xiàn)狀
處于大數(shù)據(jù)爆炸時(shí)代下的電信運(yùn)營(yíng)商,也不能獨(dú)善其身,電信運(yùn)營(yíng)商的數(shù)據(jù)來源可以分為三類:
(1)用戶數(shù)據(jù):包括用戶的姓名、年齡、職業(yè)等基本數(shù)據(jù),上網(wǎng)記錄、瀏覽網(wǎng)站、瀏覽內(nèi)容等興趣愛好,支付交易、資金往來等消費(fèi)水平,上網(wǎng)地點(diǎn)、使用時(shí)間等行為軌跡,朋友圈、同學(xué)群等交往圈子。
(2)產(chǎn)品數(shù)據(jù):包括產(chǎn)品形態(tài)、產(chǎn)品聲音、圖片、視頻,流量,短信、渠道、品牌等。
(3) 網(wǎng)絡(luò)數(shù)據(jù):網(wǎng)管能力,網(wǎng)絡(luò)基礎(chǔ)通信能力,運(yùn)維數(shù)據(jù)等。
面對(duì)這些幾何式增長(zhǎng)的數(shù)據(jù),如何管理并有效它們成為擺在每個(gè)電信管理者面前必需解決的問題。目前電信運(yùn)營(yíng)商在大數(shù)據(jù)管理方面所面臨的一些挑戰(zhàn):
(1)大數(shù)據(jù)平臺(tái)生態(tài)圈產(chǎn)品眾多,提供了眾多功能,開源產(chǎn)品為主,普遍面向功能層面,相比傳統(tǒng)關(guān)系型產(chǎn)品圈,大數(shù)據(jù)平臺(tái)更缺乏全局的統(tǒng)籌管理;
(2)大數(shù)據(jù)平臺(tái)面對(duì)的數(shù)據(jù)更多,數(shù)據(jù)量更多,處理更為復(fù)雜;平臺(tái)的靈活性,為不同用戶提供了不同的數(shù)據(jù)視覺(如MapReduce和Hive);復(fù)雜度靈活性也帶來了對(duì)數(shù)據(jù)管理的難度;
(3)過去關(guān)系型數(shù)據(jù)的管理與管控往往是事后行為,數(shù)據(jù)的管理與管控效果較差;在大數(shù)據(jù)更為復(fù)雜的環(huán)境下,有效的管控變得更為重要;
(4)大數(shù)據(jù)平臺(tái)目前混合架構(gòu)會(huì)長(zhǎng)期存在,混合架構(gòu)的數(shù)據(jù)管理產(chǎn)品缺乏。面對(duì)挑戰(zhàn),適應(yīng)潮流,建設(shè)一套統(tǒng)一的數(shù)據(jù)管理平臺(tái)對(duì)每個(gè)運(yùn)營(yíng)商來說勢(shì)在必行。
3 建設(shè)原則分析
大數(shù)據(jù)平臺(tái)建設(shè)并不單純?nèi)Q于企業(yè)的業(yè)務(wù)規(guī)模、需求等因素,而是與企業(yè)本身的技術(shù)水平、基礎(chǔ)數(shù)據(jù)的可信度、對(duì)統(tǒng)計(jì)分析需求的理解等多方面有著密切的關(guān)系。綜合上述因素,在建設(shè)中應(yīng)堅(jiān)持以下的建設(shè)原則要求:
(1)系統(tǒng)的建設(shè)與電信運(yùn)營(yíng)商信息化數(shù)據(jù)分布及接口現(xiàn)狀結(jié)合
大數(shù)據(jù)的建設(shè)應(yīng)與信息化數(shù)據(jù)分布及接口現(xiàn)狀緊密結(jié)合,引入有效的數(shù)據(jù)管理和控制手段,對(duì)分散在各系統(tǒng)的數(shù)據(jù)進(jìn)行科學(xué)、實(shí)用的整合,對(duì)系統(tǒng)間各類數(shù)據(jù)傳遞接口進(jìn)行合理、高效的整合,保證數(shù)據(jù)的一致性、完整性、準(zhǔn)確性,從而順利實(shí)現(xiàn)大數(shù)據(jù)建設(shè)目標(biāo)。
(2)堅(jiān)持從實(shí)際出發(fā),統(tǒng)籌規(guī)劃、突出重點(diǎn)、分步實(shí)施的系統(tǒng)建設(shè)理念
信息化建設(shè)是一個(gè)逐步推進(jìn)和不斷完善的過程,不可能一蹴而就,尤其是作為企業(yè)數(shù)據(jù)架構(gòu)之一的大數(shù)據(jù)支撐平臺(tái)建設(shè),既要有高瞻遠(yuǎn)矚的戰(zhàn)略眼光,又要有腳踏實(shí)地的務(wù)實(shí)精神。大數(shù)據(jù)的建設(shè)應(yīng)把當(dāng)前需求與長(zhǎng)遠(yuǎn)規(guī)劃發(fā)展結(jié)合起來,突出重點(diǎn)、分步實(shí)施,實(shí)現(xiàn)對(duì)精確管理和品牌經(jīng)營(yíng)的有力支撐。
4 平臺(tái)總體設(shè)計(jì)
在明晰了電信運(yùn)營(yíng)企業(yè)在大數(shù)據(jù)的定位和價(jià)值體現(xiàn)后,我們來談?wù)勗鯓觼韺?shí)現(xiàn)。
對(duì)于大數(shù)據(jù)的特點(diǎn),業(yè)界已經(jīng)達(dá)成基本4V特點(diǎn)的共識(shí),即Volume(數(shù)據(jù)大)、Variety(種類多)、Velocity(及時(shí)性要求高)、Value(價(jià)值密度低)。而我們要說大數(shù)據(jù)的特點(diǎn),應(yīng)該是為更好的處理大數(shù)據(jù)找到相應(yīng)的方法,對(duì)于其規(guī)模大的特點(diǎn),我們是不是應(yīng)該想辦法把大數(shù)據(jù)變??;對(duì)于其結(jié)構(gòu)復(fù)雜,我們是不是應(yīng)該找到不同類型數(shù)據(jù)相應(yīng)的處理方法;對(duì)于它價(jià)值密度低,我們應(yīng)該怎么樣更好的分類和設(shè)計(jì)挖掘的模型;對(duì)于時(shí)效性要求,我們應(yīng)該怎么樣提高處理速度,滿足需求。這應(yīng)該是我們總結(jié)大數(shù)據(jù)特點(diǎn)的初衷,而這些特點(diǎn)相應(yīng)的解決方案應(yīng)融入到我們的架構(gòu)設(shè)計(jì)中去。
5 平臺(tái)實(shí)現(xiàn)方案
大數(shù)據(jù)管理平臺(tái)共由六大模塊組成,分別是運(yùn)維門戶,數(shù)據(jù)安全管理,數(shù)據(jù)運(yùn)維管理,數(shù)據(jù)生命周期管理,數(shù)據(jù)質(zhì)量管理以及元數(shù)據(jù)管理。下面分別介紹這六大模塊。
5.1 數(shù)據(jù)運(yùn)維門戶
數(shù)據(jù)運(yùn)維門戶提供統(tǒng)一的信息服務(wù)功能入口,實(shí)現(xiàn)大數(shù)據(jù)信息的共享。其主要實(shí)現(xiàn)的功能包括以下三點(diǎn):
1.界面集成,即在運(yùn)維門戶系統(tǒng)的一個(gè)頁面中將多個(gè)系統(tǒng)頁面進(jìn)行統(tǒng)一呈現(xiàn),使用戶無需在各個(gè)系統(tǒng)之間進(jìn)行登錄切換,增加用戶查看信息的便利性;
2.數(shù)據(jù)集成,運(yùn)維門戶系統(tǒng)需要采集各個(gè)系統(tǒng)的業(yè)務(wù)數(shù)據(jù),然后進(jìn)行歸納、加工和處理,提取出對(duì)使用者更有價(jià)值的信息并進(jìn)行展示;
3.功能集成,運(yùn)維門戶系統(tǒng)還需要對(duì)各系統(tǒng)的功能進(jìn)行集成,使用戶在門戶中也能夠使用各系統(tǒng)中的特定功能。
5.2 數(shù)據(jù)安全管理
通過集中的數(shù)據(jù)安全管理來保證組織數(shù)據(jù)安全、合理的使用;數(shù)據(jù)安全管理包敏感數(shù)據(jù)脫敏、數(shù)據(jù)權(quán)限管理、訪問控制、接入認(rèn)證、數(shù)據(jù)傳輸安全和權(quán)限控制。
敏感數(shù)據(jù)脫敏指對(duì)某些敏感信息通過脫敏規(guī)則進(jìn)行數(shù)據(jù)的變形,實(shí)現(xiàn)敏感隱私數(shù)據(jù)的可靠保護(hù)。這樣,就可以在開發(fā)、測(cè)試和其它非生產(chǎn)環(huán)境以及外包環(huán)境中安全地使用脫敏后的真實(shí)數(shù)據(jù)集。
訪問控制是指能夠識(shí)別非法來源的請(qǐng)求,并拒絕為其提供服務(wù),從而防止對(duì)系統(tǒng)惡意攻擊。
接入認(rèn)證是指對(duì)接入者的身份認(rèn)證,對(duì)于認(rèn)證失敗的請(qǐng)求,拒絕提供服務(wù)。
5.3 數(shù)據(jù)運(yùn)維管理
數(shù)據(jù)運(yùn)維活動(dòng),基于基礎(chǔ)的元數(shù)據(jù)管理、數(shù)據(jù)生命周期管理、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)安全管理等活動(dòng),將這些活動(dòng)有序的組織貫通,以保證組織數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)使用的有效運(yùn)作。
5.4 數(shù)據(jù)生命周期管理
數(shù)據(jù)生命周期管理通過制定合理的管理制度、組織架構(gòu)以及對(duì)應(yīng)的技術(shù)規(guī)范,協(xié)調(diào)各流程制度、技術(shù)規(guī)范的有效運(yùn)行,以提升數(shù)據(jù)服務(wù)水平與數(shù)據(jù)使用效率,從而實(shí)現(xiàn)降低成本、提高效率的目標(biāo)。數(shù)據(jù)存儲(chǔ)和備份規(guī)范是保障和基礎(chǔ),數(shù)據(jù)管理和維護(hù)是執(zhí)行方法,通過高效的數(shù)據(jù)管理和維護(hù)效率,從而不斷提升數(shù)據(jù)服務(wù)水平。
5.5 數(shù)據(jù)質(zhì)量管理
數(shù)據(jù)質(zhì)量管理通過對(duì)數(shù)據(jù)質(zhì)量進(jìn)行檢查,發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題后及時(shí)進(jìn)行報(bào)警。并采取相應(yīng)的解決方案。運(yùn)營(yíng)支撐系統(tǒng)和源系統(tǒng)形成閉環(huán)的數(shù)據(jù)管理流程,避免產(chǎn)生不合格的數(shù)據(jù),影響運(yùn)營(yíng)商系統(tǒng)環(huán)境。
5.6 元數(shù)據(jù)管理
大數(shù)據(jù)系統(tǒng)的元數(shù)據(jù)包括Hadoop元數(shù)據(jù)、Hbase元數(shù)據(jù)、Hive元數(shù)據(jù)等。
Hadoop元數(shù)據(jù)
HDFS文件的目錄樹、文件名稱、文件路徑、文件大小、文件權(quán)限和擁有者、文件訪問時(shí)間和修改時(shí)間, HDFS文件的分類目錄、文件生成規(guī)則和命名規(guī)則、業(yè)務(wù)描述和模型結(jié)構(gòu)定義信息、任務(wù)調(diào)度數(shù)據(jù)等。
Hbase元數(shù)據(jù)
HBASE庫表目錄、庫表名稱、庫表結(jié)構(gòu)、HBASE庫表的模型分類目錄、業(yè)務(wù)描述、模型結(jié)任務(wù)調(diào)度數(shù)據(jù)等元數(shù)據(jù)。
Hive元數(shù)據(jù)
HIVE庫表目錄、庫表名稱、庫表結(jié)構(gòu)、庫表大小、HIVE庫表的模型分類目錄、業(yè)務(wù)描述、模型結(jié)構(gòu)、任務(wù)調(diào)度數(shù)據(jù)等元數(shù)據(jù)。
6 大數(shù)據(jù)平臺(tái)建設(shè)關(guān)鍵點(diǎn)分析
關(guān)鍵點(diǎn)一:明確的系統(tǒng)定位和目標(biāo)。
大數(shù)據(jù)系統(tǒng)的建設(shè),是個(gè)復(fù)雜龐大的工程,需要多期的持續(xù)化建設(shè),所以在初期的建設(shè)中,需要明確整體系統(tǒng)定位和各期各階段的建設(shè)目標(biāo),在保持一定先進(jìn)性的前提條件下合理演進(jìn)。在大的系統(tǒng)定位和業(yè)務(wù)支撐明確后,還需在各期建設(shè)中,不斷的進(jìn)行規(guī)劃咨詢,通過細(xì)微的調(diào)整,來滿足不同時(shí)期重要緊急的能力支撐,保證整體系統(tǒng)體系的高效建設(shè)和發(fā)展。
關(guān)鍵點(diǎn)二:從運(yùn)營(yíng)商公司實(shí)際需求出發(fā),選擇合理的技術(shù)架構(gòu)。
技術(shù)不是萬能的,但沒有技術(shù)也是萬萬不能的。大數(shù)據(jù)平臺(tái)涉及到的技術(shù)花樣繁多,Hadoop框架、MPP數(shù)據(jù)庫、列式存儲(chǔ)、并行計(jì)算、實(shí)時(shí)計(jì)算、內(nèi)存計(jì)算、交互式查詢、可視化展現(xiàn)等等,有很多的技術(shù)路線分支,大多數(shù)又是開源的,集成商對(duì)其掌握的深入程度,在其之上改造提升的程度,如何選用及整合合適的技術(shù)路線產(chǎn)品,性能、穩(wěn)定性、安全性、可維護(hù)性、快速問題解決能力、二次開發(fā)的方便性,都成為大數(shù)據(jù)平臺(tái)建設(shè)的關(guān)鍵因素。
關(guān)鍵點(diǎn)三:對(duì)業(yè)務(wù)數(shù)據(jù)的深刻理解和科學(xué)的數(shù)據(jù)存儲(chǔ)規(guī)劃。
做大數(shù)據(jù)項(xiàng)目,首要點(diǎn)在于對(duì)各類數(shù)據(jù)的理解和掌握。對(duì)于BSS/OSS的數(shù)據(jù)、客戶行為的數(shù)據(jù)、增值業(yè)務(wù)系統(tǒng)的數(shù)據(jù)等等是否有深入的理解和認(rèn)識(shí)?這些數(shù)據(jù)如何進(jìn)行關(guān)聯(lián),如何能夠打通不同網(wǎng)絡(luò),前后端的數(shù)據(jù)?哪些數(shù)據(jù)是真實(shí)有效的,存在哪些數(shù)據(jù)盲點(diǎn)?對(duì)于盲點(diǎn)數(shù)據(jù),如何彌補(bǔ)數(shù)據(jù)缺陷?如果沒有對(duì)數(shù)據(jù)全方位完整深入的認(rèn)識(shí),由此建設(shè)的大數(shù)據(jù)項(xiàng)目就會(huì)成為花架子,中看不中用。
關(guān)鍵點(diǎn)四:打造開放的體系架構(gòu),盤活數(shù)據(jù)資產(chǎn)。
大數(shù)據(jù)能力產(chǎn)品與應(yīng)用平臺(tái)作為對(duì)外數(shù)據(jù)能力和平臺(tái)能力的支撐平臺(tái),為了更好發(fā)揮大數(shù)據(jù)能力與應(yīng)用平臺(tái)的價(jià)值作用,如何規(guī)劃建設(shè)開放化的架構(gòu)體系,豐富數(shù)據(jù)服務(wù)能力和平臺(tái)能力,為用戶提供完善的數(shù)據(jù)服務(wù)和平臺(tái)服務(wù),將一定程度上決定系統(tǒng)的生命力。
關(guān)鍵點(diǎn)五:“百花齊放”的應(yīng)用開發(fā)支撐,充分挖掘數(shù)據(jù)“金礦”。
傳統(tǒng)時(shí)代是“有問題找數(shù)據(jù)”,大數(shù)據(jù)時(shí)代是“用數(shù)據(jù)找機(jī)會(huì)”。如何從“看數(shù)據(jù)”到“用數(shù)據(jù)”再到“養(yǎng)數(shù)據(jù)”,讓數(shù)據(jù)成為構(gòu)建企業(yè)生產(chǎn)力的重要部分,成為企業(yè)取之不盡,用之不竭的“金礦”。這必須要有一個(gè)基于“百花齊放”思想的應(yīng)用開發(fā)支撐框架,以及豐富的應(yīng)用的支持。大數(shù)據(jù)應(yīng)用將不是簡(jiǎn)單地提供一些報(bào)表或分析模塊,而是需要站在企業(yè)運(yùn)營(yíng)(營(yíng)銷、客服、運(yùn)維等)及對(duì)外數(shù)據(jù)價(jià)值變現(xiàn)的各個(gè)方面,將數(shù)據(jù)的力量和思考的力量融合在一起,推動(dòng)更主動(dòng)的管理和更多的創(chuàng)新。
關(guān)鍵點(diǎn)六:可持續(xù)發(fā)展的系統(tǒng)平臺(tái)。
如何適應(yīng)運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)建設(shè)規(guī)劃的發(fā)展,以及大數(shù)據(jù)平臺(tái)不斷豐富完善的過程,進(jìn)行大數(shù)據(jù)平臺(tái)的配套建設(shè),靈活適應(yīng)業(yè)務(wù)發(fā)展和管理完善的要求,制定切實(shí)可行的平臺(tái)和業(yè)務(wù)支撐演進(jìn)計(jì)劃,是在本期系統(tǒng)平臺(tái)和應(yīng)用開發(fā)設(shè)計(jì)需要重點(diǎn)考慮的,同時(shí)也是打造一個(gè)可持續(xù)發(fā)展的系統(tǒng)平臺(tái)的關(guān)鍵問題。
7 結(jié)束語
基于Hadoop平臺(tái)建設(shè)大數(shù)據(jù)中心數(shù)據(jù)管理平臺(tái),收集HDFS、Hive、Hbase、Hcatalog、Oozie等核心產(chǎn)品和關(guān)系型數(shù)據(jù)處理相關(guān)的元數(shù)據(jù)信息,實(shí)現(xiàn)對(duì)大數(shù)據(jù)元數(shù)據(jù)的統(tǒng)一管控,并結(jié)合實(shí)際的業(yè)務(wù)需求,實(shí)現(xiàn)基于大數(shù)據(jù)平臺(tái)的數(shù)據(jù)運(yùn)維。在大數(shù)據(jù)環(huán)境下,實(shí)現(xiàn)大數(shù)據(jù)相關(guān)的元數(shù)據(jù)管理及數(shù)據(jù)運(yùn)維輔助支撐。從遠(yuǎn)景來看,實(shí)現(xiàn)大數(shù)據(jù)環(huán)境下面向全行業(yè)數(shù)據(jù)的管理與管控平臺(tái),提供企業(yè)級(jí)的數(shù)據(jù)運(yùn)營(yíng)管理平臺(tái)。
參考文獻(xiàn)
[1] 鄭雪菲.國(guó)外電信運(yùn)營(yíng)商大數(shù)據(jù)應(yīng)用及啟示.
[2] 盧曄.大數(shù)據(jù)--移動(dòng)互聯(lián)網(wǎng)時(shí)代通信運(yùn)營(yíng)商的破局之道.