□ 文 董昭 李娟 張海峰 張?zhí)祢?/p>
大數(shù)據(jù)位置類應(yīng)用實(shí)現(xiàn)方式研究
□ 文 董昭 李娟 張海峰 張?zhí)祢?/p>
大數(shù)據(jù)技術(shù)日益發(fā)展成熟,已經(jīng)在互聯(lián)網(wǎng)尤其是電商、社交、搜索等領(lǐng)域取得了較為成熟的應(yīng)用。電信運(yùn)營(yíng)商擁有多年的數(shù)據(jù)積累,數(shù)據(jù)已成為一種商業(yè)資本和一項(xiàng)重要的經(jīng)濟(jì)投入,而如何應(yīng)用和挖掘海量數(shù)據(jù),則成為運(yùn)營(yíng)商贏得市場(chǎng)的關(guān)鍵因素。
為滿足政府、商業(yè)機(jī)構(gòu)及公司內(nèi)部市場(chǎng)部分的需求,電信運(yùn)營(yíng)商需洞察一定區(qū)域范圍內(nèi)的人群位置信息,推出基于位置信令等數(shù)據(jù)的統(tǒng)計(jì)、分析和挖掘服務(wù)。交通運(yùn)輸、城市安全、智慧旅游、商業(yè)經(jīng)營(yíng)等均是規(guī)模龐大、潛力巨大的市場(chǎng)。
大數(shù)據(jù)位置類應(yīng)用是基于位置信令等數(shù)據(jù)的統(tǒng)計(jì)、分析和挖掘的服務(wù),為機(jī)構(gòu)選址、城市規(guī)劃、智慧旅游等場(chǎng)景提供解決方案。主要的產(chǎn)品形態(tài)和服務(wù)形態(tài)為結(jié)合地理信息的GIS數(shù)據(jù)產(chǎn)品及服務(wù),面向用戶的實(shí)時(shí)位置查詢API服務(wù)。具體如下:
(一) 機(jī)構(gòu)選址
基于大數(shù)據(jù)位置類信息,結(jié)合用戶特征信息,對(duì)特定區(qū)域進(jìn)行人口流動(dòng)性分析,面向零售、餐飲、娛樂服務(wù)等商家在輔助選址和顧客分析方面提供高效的信息獲取、全面的信息匯聚和深度的客戶洞察等數(shù)據(jù)應(yīng)用服務(wù),尋求提升商家在某個(gè)區(qū)域競(jìng)爭(zhēng)力的機(jī)會(huì)。
(二) 城市規(guī)劃
區(qū)域商圈規(guī)劃:根據(jù)城市特點(diǎn)和人群分布結(jié)構(gòu),合理規(guī)劃區(qū)域和商圈,分?jǐn)偤诵膮^(qū)域壓力。
交通規(guī)劃設(shè)計(jì):根據(jù)人群分布和通勤特點(diǎn),科學(xué)合理制定交通路線、站臺(tái)位置等,提高城市交通效率。
建設(shè)項(xiàng)目選址:根據(jù)建設(shè)項(xiàng)目和人群特點(diǎn),合理規(guī)劃項(xiàng)目位置。
(三) 公共區(qū)域安全監(jiān)測(cè)
特定區(qū)域監(jiān)控:在特定區(qū)域內(nèi)全方位常態(tài)監(jiān)控人群流量、密度、駐留時(shí)間等,以及在特定區(qū)域內(nèi)人群流量或密度突增時(shí)觸發(fā)預(yù)警。
區(qū)域智能預(yù)警:監(jiān)控、預(yù)警未知區(qū)域的人群突增,即根據(jù)區(qū)域歷史數(shù)據(jù)建模輸出區(qū)域內(nèi)人群突增三個(gè)級(jí)別的預(yù)警參考值,依據(jù)參考值設(shè)置預(yù)警指標(biāo)值,滿足未知區(qū)域人群突增智能預(yù)警。
(四) 城市交通
高速公路監(jiān)控:交通樞紐、事故多發(fā)地段車流量監(jiān)控、高速分路段通暢情況監(jiān)控。監(jiān)控情況和交通部門現(xiàn)有攝像監(jiān)控、車速監(jiān)控雷達(dá)結(jié)合,形成對(duì)外消息發(fā)布和預(yù)警及處理信息。
(五) 智慧旅游
通過對(duì)景點(diǎn)的游客來源、駐留時(shí)長(zhǎng)、組成特征進(jìn)行多維度分析,為景區(qū)精細(xì)化營(yíng)銷、景點(diǎn)路線規(guī)劃與服務(wù)提升提供數(shù)據(jù)支撐。還可進(jìn)行游客來源分析,逗留時(shí)長(zhǎng)分析,旅游路線分析,景區(qū)熱度分析,優(yōu)化最佳旅游路線,科學(xué)調(diào)配旅游資源。
通過上面的分析我們看到,如果運(yùn)營(yíng)商要發(fā)展位置類自有產(chǎn)品,具有四點(diǎn)優(yōu)勢(shì):
第一,使用壁壘低。用戶可隨時(shí)隨地?zé)o需受到硬件限制即可獲得位置服務(wù),而GPS定位需要硬件支持,成本高、普及難度大;
第二,適用人群廣。只要有手機(jī),都可以使用,而“簽到”定位及GPS定位適用于年輕群體及偏好高新技術(shù)群體;
第三,實(shí)時(shí)性高。具有地圖數(shù)據(jù)、交通路況等實(shí)時(shí)更新的優(yōu)勢(shì);
第四,體系內(nèi)產(chǎn)品的支持力度大??梢酝ㄟ^短信、彩信、增值業(yè)務(wù)平臺(tái)等多種方式推送定位結(jié)果。
另一方面,如果運(yùn)營(yíng)商要發(fā)展嵌入式第三方產(chǎn)品,其位置輸出能力也具有一定優(yōu)勢(shì),運(yùn)營(yíng)商向第三方輸出位置能力,通常作為第三方產(chǎn)品定位的必要補(bǔ)充手段,其優(yōu)勢(shì)在于龐大的用戶規(guī)模和真實(shí)準(zhǔn)確的基站信息庫(kù)。與手機(jī)號(hào)碼的捆綁使運(yùn)營(yíng)商可同時(shí)為第三方在業(yè)務(wù)支撐與控制、業(yè)務(wù)分析與運(yùn)營(yíng)上提供支持。
在移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)蓬勃發(fā)展的今天,用戶密度決定市場(chǎng)寬度,如果運(yùn)營(yíng)商能夠?qū)⑽恢媚芰εc大數(shù)據(jù)平臺(tái)分析能力結(jié)合起來,將可大幅度的提高位置服務(wù)的價(jià)值,為增值服務(wù)市場(chǎng)迎來爆發(fā)式增長(zhǎng)。
目前對(duì)大數(shù)據(jù)處理主要采用兩種核心技術(shù):一種是基于磁盤處理任務(wù)調(diào)度的批處理技術(shù),另一種是基于內(nèi)存計(jì)算的實(shí)時(shí)流處理技術(shù)。本文主要研究實(shí)現(xiàn)位置類應(yīng)用的流處理技術(shù)。流處理的特點(diǎn)主要包括:
? 可以可靠的處理無(wú)界持續(xù)的流數(shù)據(jù),保證每個(gè)消息至少能得到一次完整處理;
? 分布式的集群架構(gòu),伸縮性良好,易擴(kuò)展且容錯(cuò)性高;
? 可實(shí)時(shí)處理海量數(shù)據(jù),高性能即處理速度快。
這里面主要介紹實(shí)現(xiàn)大數(shù)據(jù)平臺(tái)位置類應(yīng)用采用到的Kafka、Storm、Flume及Streaming等關(guān)鍵技術(shù):
Storm:分布式實(shí)時(shí)計(jì)算系統(tǒng),可用來處理源源不斷流進(jìn)來的消息,處理之后將結(jié)果寫入到存儲(chǔ)中。Storm集群主要由一個(gè)主節(jié)點(diǎn)(master node)和一群工作節(jié)點(diǎn)(worker nodes)組成,通過Zookeeper集群進(jìn)行協(xié)調(diào)。主節(jié)點(diǎn)運(yùn)行Nimbus進(jìn)程,負(fù)責(zé)資源分配和任務(wù)調(diào)度,通知監(jiān)控工作節(jié)點(diǎn)的運(yùn)營(yíng)狀態(tài)。工作節(jié)點(diǎn)運(yùn)行Supervisor進(jìn)程,負(fù)責(zé)接受nimbus分配的任務(wù),啟動(dòng)和停止屬于自己管理的工作進(jìn)程。Storm通常被廣泛用來進(jìn)行實(shí)時(shí)日志處理,從kafka中讀取實(shí)時(shí)日志消息,經(jīng)過一系列處理,最終將處理結(jié)果寫入到一個(gè)分布式存儲(chǔ)中,提供給應(yīng)用程序訪問。每天處理幾十億的用戶日志信息,從用戶行為發(fā)生到完成分析延遲在秒級(jí)。
S4:S4是一個(gè)通用的、分布式的、可擴(kuò)展的、分區(qū)容錯(cuò)的流式系統(tǒng),其計(jì)算平臺(tái)具有可伸縮、易擴(kuò)展、分區(qū)容錯(cuò)的特點(diǎn),通常處理實(shí)時(shí)性要求高的業(yè)務(wù)。通過部署廉價(jià)的服務(wù)器集群,S4進(jìn)行分布式處理,處理模型參照MapReduce模式。S4是同類平臺(tái)中為數(shù)不多采用對(duì)等架構(gòu)的系統(tǒng),集群中的所有工作節(jié)點(diǎn)都是對(duì)等的,不存在主節(jié)點(diǎn)。使得系統(tǒng)具有很強(qiáng)的伸縮性,并且不存在單點(diǎn)故障,系統(tǒng)的部署和運(yùn)維也得以簡(jiǎn)化。但無(wú)法保障數(shù)據(jù)傳輸過程中的可靠性,某節(jié)點(diǎn)故障后將導(dǎo)致該節(jié)點(diǎn)數(shù)據(jù)丟失。因此,S4更適合對(duì)數(shù)據(jù)處理精確性要求不高的場(chǎng)景。
Streaming:實(shí)時(shí)數(shù)據(jù)流處理組件,是spark體系中的一個(gè)流式處理框架,建立在Spark上的實(shí)時(shí)計(jì)算框架,可以實(shí)現(xiàn)高吞吐量的、具備容錯(cuò)機(jī)制的實(shí)時(shí)流數(shù)據(jù)的處理。通過它提供的豐富的API、基于內(nèi)存的高速執(zhí)行引擎,用戶可以結(jié)合流式、批處理和交互試查詢應(yīng)用。支持從多種數(shù)據(jù)源獲取數(shù)據(jù),從數(shù)據(jù)源獲取數(shù)據(jù)之后,可以使用諸如map、reduce等高級(jí)函數(shù)進(jìn)行復(fù)雜算法的處理。最后還可以將處理結(jié)果輸出到多種不同的數(shù)據(jù)平臺(tái)中,包括文件系統(tǒng)和數(shù)據(jù)庫(kù)等。
Kafka:分布式消息隊(duì)列,是一種分布式的,基于發(fā)布/訂閱的消息系統(tǒng),同時(shí)支持離線和在線日志處理。以時(shí)間復(fù)雜度為O(1)的方式提供消息持久化能力,即使對(duì)TB級(jí)以上數(shù)據(jù)也能保證常數(shù)時(shí)間的訪問性能,具有高吞吐率,即使在非常廉價(jià)的商用機(jī)器上也能做到單機(jī)支持每秒100K條消息的傳輸。Kafka中可以將Topic從物理上劃分成一個(gè)或多個(gè)分區(qū)(Partition),每個(gè)分區(qū)在物理上對(duì)應(yīng)一個(gè)文件夾,該文件夾下存儲(chǔ)這個(gè)分區(qū)的所有消息和索引文件,這使得Kafka的吞吐率可以水平擴(kuò)展。
圖1 位置應(yīng)用平臺(tái)架構(gòu)圖
Flume:Flume是Cloudera提供的一個(gè)高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng),F(xiàn)lume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù)。同時(shí),F(xiàn)lume提供對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單處理,并寫到各種數(shù)據(jù)接受方的能力。Flume以agent為最小的獨(dú)立運(yùn)行單位,單agent由Source、Sink和Channel構(gòu)成。
位置類應(yīng)用以位置信令處理為核心服務(wù)內(nèi)容,實(shí)現(xiàn)對(duì)位置信令進(jìn)行加密、過濾以及關(guān)聯(lián)回填。本文主要采用實(shí)時(shí)計(jì)算實(shí)現(xiàn)位置類應(yīng)用平臺(tái),實(shí)時(shí)計(jì)算過程一般劃分為以下三個(gè)節(jié)點(diǎn):數(shù)據(jù)的產(chǎn)生于收集、傳輸與分析處理、儲(chǔ)存并對(duì)外提供服務(wù)。參考實(shí)時(shí)計(jì)算的框架位置應(yīng)用平臺(tái)主要包括數(shù)據(jù)源、數(shù)據(jù)接入、數(shù)據(jù)處理及存儲(chǔ)、數(shù)據(jù)服務(wù)及數(shù)據(jù)應(yīng)用等內(nèi)容。如圖1所示。
數(shù)據(jù)源:將MC口數(shù)據(jù)、S1-MME數(shù)據(jù)、基站基礎(chǔ)信息數(shù)據(jù)等作為數(shù)據(jù)源傳輸至大數(shù)據(jù)平臺(tái)。
數(shù)據(jù)接入:數(shù)據(jù)接入層完成數(shù)據(jù)的采集和預(yù)處理工作,實(shí)時(shí)從數(shù)據(jù)源采集S1-MME等信令數(shù)據(jù)。數(shù)據(jù)采集分為兩種方式:一對(duì)于實(shí)時(shí)性要求較強(qiáng)的信令數(shù)據(jù),由接收服務(wù)層實(shí)現(xiàn)實(shí)時(shí)位置信令的采集,通過flume解析實(shí)時(shí)上報(bào)的位置信令;二對(duì)于實(shí)時(shí)性要求不高的數(shù)據(jù),采用周期性文件采集方式匯聚到平臺(tái)。同時(shí),大數(shù)據(jù)平臺(tái)按照數(shù)據(jù)處理規(guī)則完成數(shù)據(jù)的初步清洗、合并等工作,以提供后繼對(duì)位置業(yè)務(wù)處理工作。
數(shù)據(jù)存儲(chǔ)處理:數(shù)據(jù)存儲(chǔ)處理層負(fù)責(zé)數(shù)據(jù)存儲(chǔ)與計(jì)算工作。對(duì)于經(jīng)過預(yù)處理的實(shí)時(shí)信令數(shù)據(jù),部分落地至數(shù)據(jù)存儲(chǔ)介質(zhì)中(如分布式文件系統(tǒng)HDFS,MPP等),另一份經(jīng)過實(shí)時(shí)流計(jì)算處理引擎進(jìn)行數(shù)據(jù)脫敏處理和數(shù)據(jù)過濾處理,在數(shù)據(jù)脫敏處理中,主要是對(duì)用戶隱私字段進(jìn)行脫敏處理,如將用戶號(hào)碼信息通過哈希等加密方式進(jìn)行加密。在數(shù)據(jù)過濾處理中,主要是依據(jù)應(yīng)用的需求,過濾出所需字段。
數(shù)據(jù)服務(wù):通過API和文件接口兩種方式,對(duì)外提供服務(wù),供應(yīng)用調(diào)用。
數(shù)據(jù)應(yīng)用:提供基于位置信令數(shù)據(jù)的對(duì)外服務(wù),如機(jī)構(gòu)選址、位置營(yíng)銷、智慧旅游、城市規(guī)劃等。
(一)建設(shè)原則
大數(shù)據(jù)平臺(tái)位置類應(yīng)用規(guī)劃和建設(shè)遵循以下基本原則:
1、先進(jìn)性原則
位置類應(yīng)用的建設(shè)必須實(shí)現(xiàn)“高起點(diǎn)、高標(biāo)準(zhǔn)、高要求”,要本著“低成本高效”原則,充分引入云計(jì)算、大數(shù)據(jù)、智能展示等新技術(shù)。
表1 方案對(duì)比分析
2、標(biāo)準(zhǔn)化原則
位置類應(yīng)用需遵循標(biāo)準(zhǔn)化原則,逐步深化平臺(tái)系統(tǒng)建設(shè)的標(biāo)準(zhǔn)化工作,包括標(biāo)準(zhǔn)化信息模型、標(biāo)準(zhǔn)化數(shù)據(jù)接口、標(biāo)準(zhǔn)化開發(fā)管理、標(biāo)準(zhǔn)化對(duì)外服務(wù)等系統(tǒng)建設(shè)模式。
3、開放性原則
系統(tǒng)中的各種網(wǎng)絡(luò)協(xié)議、硬件接口和數(shù)據(jù)接口等應(yīng)符合業(yè)界開放式標(biāo)準(zhǔn)。應(yīng)逐步通過數(shù)據(jù)封裝開放系統(tǒng)數(shù)據(jù)內(nèi)容和應(yīng)用功能,全面支持市場(chǎng)經(jīng)營(yíng)工作以及其它IT系統(tǒng)的數(shù)據(jù)和應(yīng)用需求,實(shí)現(xiàn)應(yīng)用百花齊放,充分滿足個(gè)性化需求,提升大數(shù)據(jù)平臺(tái)分析系統(tǒng)的廣度和深度。
(二)建設(shè)方式
如表1,大數(shù)據(jù)位置類應(yīng)用平臺(tái)可采用如下兩種方式進(jìn)行建設(shè):
方案一:全網(wǎng)集中建設(shè)一套一級(jí)位置類應(yīng)用平臺(tái)
全國(guó)統(tǒng)一建設(shè)一套位置類應(yīng)用平臺(tái),統(tǒng)一采集全網(wǎng)數(shù)據(jù),統(tǒng)一負(fù)責(zé)位置數(shù)據(jù)的匯總及加工,并以API的形式開放給外部應(yīng)用使用。
方案二:分散各地建設(shè)多套二級(jí)位置類應(yīng)用平臺(tái)
按區(qū)域劃分建設(shè)多套二級(jí)位置類應(yīng)用平臺(tái),數(shù)據(jù)和產(chǎn)品能力全部在各區(qū)域大數(shù)據(jù)平臺(tái)。將數(shù)據(jù)上傳給一級(jí)位置類應(yīng)用平臺(tái),由一級(jí)平臺(tái)通過服務(wù)調(diào)用或查詢服務(wù),滿足對(duì)全網(wǎng)服務(wù)的需求。
圖2 分工及數(shù)據(jù)處理流程
方案比較:
方案一工程進(jìn)度較快,且便于對(duì)數(shù)據(jù)源進(jìn)行追溯,對(duì)技術(shù)與運(yùn)營(yíng)團(tuán)隊(duì)技術(shù)要求較高,可滿足互聯(lián)網(wǎng)全網(wǎng)服務(wù)。方案二各地進(jìn)度不統(tǒng)一,且面向全網(wǎng)服務(wù)較為困難,但可成分調(diào)動(dòng)各區(qū)域公司的建設(shè)熱情,滿足本區(qū)域內(nèi)的服務(wù)需求。
本文以方案一為例舉例說明位置類應(yīng)用平臺(tái)的各部分工作分工及數(shù)據(jù)處理流程。如圖2。
由各數(shù)據(jù)源將將位置信令數(shù)據(jù)透?jìng)髦链髷?shù)據(jù)平臺(tái),由大數(shù)據(jù)平臺(tái)實(shí)現(xiàn)數(shù)據(jù)的格式統(tǒng)一、敏感信息脫敏、關(guān)聯(lián)處理等操作,并將結(jié)果提供給各位置類應(yīng)用使用。
1、由各數(shù)據(jù)源將Mc口、S1-MME口等位置信息數(shù)據(jù)透?jìng)髦链髷?shù)據(jù)平臺(tái);
2、大數(shù)據(jù)平臺(tái)實(shí)時(shí)采集數(shù)據(jù)后對(duì)數(shù)據(jù)進(jìn)行過濾、加密并輸出到緩存;
3、大數(shù)據(jù)平臺(tái)實(shí)現(xiàn)數(shù)據(jù)的格式統(tǒng)一、敏感信息脫敏、數(shù)據(jù)過濾、數(shù)據(jù)匹配、關(guān)聯(lián)處理等操作;
4、數(shù)據(jù)存儲(chǔ)需對(duì)所有數(shù)據(jù)進(jìn)行持久化存儲(chǔ),為位置類平臺(tái)提供數(shù)據(jù)支持;
5、大數(shù)據(jù)平臺(tái)負(fù)責(zé)位置數(shù)據(jù)的匯總及加工,并以API的形式開放給外部應(yīng)用使用。
隨著大數(shù)據(jù)平臺(tái)的實(shí)時(shí)處理能力相關(guān)技術(shù)的發(fā)展,基于用戶位置的位置類便民信息服務(wù)已成為重要亮點(diǎn)。今后隨著用戶可隨時(shí)隨地查詢身邊的地鐵口、加油站、銀行ATM、電力/水力營(yíng)業(yè)廳、移動(dòng)營(yíng)業(yè)廳以及WLAN熱點(diǎn)等公共設(shè)施的分布情況,“掌上公交”、“商戶聯(lián)盟”、“實(shí)時(shí)交通”等一系列位置類應(yīng)用服務(wù)將廣受好評(píng),大數(shù)據(jù)平臺(tái)位置類應(yīng)用的建設(shè)必將更加受到廣泛關(guān)注?!?/p>
中國(guó)移動(dòng)通信集團(tuán)設(shè)計(jì)院有限公司網(wǎng)絡(luò)所)
[1]吳京潤(rùn),黃經(jīng)業(yè)譯.顛覆大數(shù)據(jù)分析:基于Storm、Spark等Hadoop替代技術(shù)的實(shí)時(shí)應(yīng)用.電子工業(yè)出版社,2015.
[2]泰德.敦寧,流式架構(gòu)Kafka與MapR Streams數(shù)據(jù)流處理.電子工業(yè)出版社,2017.
[3](美)吉奧茲,(美)奧尼爾 著,董昭 譯. Storm分布式實(shí)時(shí)計(jì)算模式.機(jī)械工業(yè)出版社,2015.
[4]丁維龍,Storm:大數(shù)據(jù)流式計(jì)算及應(yīng)用實(shí)踐,電子工業(yè)出版社,2015.
[5]張毅,大數(shù)據(jù)環(huán)境下的實(shí)時(shí)流式數(shù)據(jù)處理技術(shù),東南大學(xué) , 2014.