林哲,蔡曉珍
(1.中國移動通信集團(tuán)廣東有限公司,廣州 510623;2.廣州帷策智能科技有限公司,廣州 510620)
運營商大數(shù)據(jù)場景化應(yīng)用實踐思路淺析
林哲1,蔡曉珍2
(1.中國移動通信集團(tuán)廣東有限公司,廣州 510623;2.廣州帷策智能科技有限公司,廣州 510620)
隨著大數(shù)據(jù)從概念走向應(yīng)用,數(shù)據(jù)價值開始在各類應(yīng)用場景顯現(xiàn),這對商業(yè)、社會以及人民生活都產(chǎn)生變革性影響。作為海量數(shù)據(jù)資源的擁有者,運營商具備極大的大數(shù)據(jù)場景化應(yīng)用優(yōu)勢。在分析運營商的數(shù)據(jù)資源狀況后,闡述運營商開展大數(shù)據(jù)場景化應(yīng)用的實踐思路,并以肇慶馬拉松大數(shù)據(jù)分析為例,展現(xiàn)運營商大數(shù)據(jù)如何應(yīng)用于實際場景中。
大數(shù)據(jù);場景化應(yīng)用;運營商
伴隨互聯(lián)網(wǎng)技術(shù)、云計算平臺以及智能設(shè)備的深入發(fā)展,各類數(shù)據(jù)源源不斷產(chǎn)生,數(shù)據(jù)量出現(xiàn)爆發(fā)性增長。人們隨之開始探索大數(shù)據(jù)的應(yīng)用價值,這逐漸使大數(shù)據(jù)從概念走向應(yīng)用,并由此催生了一系列場景化應(yīng)用實例,如,精準(zhǔn)營銷[1]、商業(yè)選址[2]以及城市規(guī)劃[3]等。
擁有海量數(shù)據(jù)的主體通常更能容易實現(xiàn)各類大數(shù)據(jù)應(yīng)用場景,這類主體通常包括政府、運營商、大型互聯(lián)網(wǎng)企業(yè)以及金融企業(yè)等。而運營商擁有位置、通信行為等區(qū)別于其他主體的數(shù)據(jù),具備了獨特的數(shù)據(jù)資源優(yōu)勢。因此,在當(dāng)下,探索運營商大數(shù)據(jù)的場景化應(yīng)用思路,不僅能夠?qū)崿F(xiàn)運營商數(shù)據(jù)增值,還能豐富解決問題的數(shù)據(jù)維度,使數(shù)據(jù)價值得到更充分的發(fā)揮。
運營商在數(shù)據(jù)獲取方面得天獨厚。其自身不僅積累了龐大的用戶群,而且能夠通過多渠道多形式持續(xù)性地收集用戶通信、身份、上網(wǎng)以及社交等各維度數(shù)據(jù),進(jìn)而形成龐大的數(shù)據(jù)資源庫。以廣東移動為例,目前,廣東移動具備近億級的客戶量,占據(jù)了廣東地區(qū)移動端用戶70%的市場份額;同時還擁有NGBOSS、網(wǎng)分系統(tǒng)、標(biāo)簽庫等多個業(yè)務(wù)信息系統(tǒng),可實現(xiàn)用戶數(shù)據(jù)的持續(xù)性采集。按照廣東移動的總用戶量計算,其用戶每秒能產(chǎn)生9.8G的上網(wǎng)流量、880條短信,而每人每天的平均通話時則長達(dá)9分鐘。以這樣的數(shù)據(jù)生成速度,可見運營商數(shù)據(jù)體量非同一般。
相較于互聯(lián)網(wǎng)公司用戶的線上行為數(shù)據(jù),運營商具備用戶移動互聯(lián)網(wǎng)行為、社交行為、基礎(chǔ)屬性、位置軌跡、消費行為等多維度的數(shù)據(jù),具備了不可比擬的資源優(yōu)勢,更有利于開展應(yīng)用拓展和數(shù)據(jù)變現(xiàn)。
用戶通過移動網(wǎng)絡(luò)產(chǎn)生的上網(wǎng)行為(上網(wǎng)時間、地點、頻率)、App行為數(shù)據(jù),經(jīng)過二次梳理可以衍生出用戶行為偏好、內(nèi)容偏好等數(shù)據(jù)。但由于互聯(lián)網(wǎng)行為數(shù)據(jù)非常敏感,一般不以個體為單位輸出,需要通過脫敏操作輸出泛化的群體數(shù)據(jù)。
用戶通過點對點通話或短信等方式產(chǎn)生的社交圈關(guān)系數(shù)據(jù),通過對社交數(shù)據(jù)進(jìn)行挖掘和應(yīng)用,可以對用戶進(jìn)行“分群歸類”,形成不同的關(guān)系圈,構(gòu)建“關(guān)系圈”效應(yīng)。
用戶的歸屬地、年齡、性別、職業(yè)等屬性類別的數(shù)據(jù),能夠有效構(gòu)建客戶畫像。由于數(shù)據(jù)存在高度敏感性,一般不針對個體用戶輸出,需要以特定客群的形式輸出,并僅限用于趨勢分析、區(qū)域分析等服務(wù)。
位置軌跡數(shù)據(jù)指用戶地理區(qū)域信息,通常包括經(jīng)緯度、地址、通信小區(qū)等位置數(shù)據(jù)。用戶通過2/3/4G網(wǎng)絡(luò)行為交互,由附近基站附著產(chǎn)生的記錄,同時也包括用戶的漫游行為數(shù)據(jù)。結(jié)合這兩種數(shù)據(jù)能夠全面刻畫了用戶的活動軌跡行為。
用戶在運營商內(nèi)部的通信行為數(shù)據(jù),涵蓋了通話消費、流量消費、業(yè)務(wù)訂購等信息,能夠作為通信側(cè)的畫像信息補充,反映了用戶在通信側(cè)的個人偏好。
開展運營商大數(shù)據(jù)的場景化應(yīng)用,包括四個主要環(huán)節(jié)。
選擇大數(shù)據(jù)的應(yīng)用場景,并基于場景確定應(yīng)用目標(biāo)。如在重大活動中,通常需要對現(xiàn)場人流量進(jìn)行實時跟蹤監(jiān)測,以保障重大活動順利進(jìn)行。
運營商的數(shù)據(jù)來源通常有多種,其中,內(nèi)部數(shù)據(jù)源包括業(yè)務(wù)系統(tǒng)和基站,外部數(shù)據(jù)源包括用戶(如用戶提交個人實名認(rèn)證信息)、網(wǎng)絡(luò)(如利用網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù))以及政府(如政府輔助提供數(shù)據(jù))等。根據(jù)應(yīng)用場景、目標(biāo)以及效果的差異,確定數(shù)據(jù)采集途徑和時間窗口。
如在人流監(jiān)測任務(wù)中,運營商的數(shù)據(jù)采集依賴于基站數(shù)據(jù)。通常情況下,運營商將所轄區(qū)域劃分為多個通信小區(qū),每個小區(qū)均設(shè)置有一個或幾個基站,用于滿足用戶通信需求。到達(dá)特定基站的用戶信號數(shù)據(jù)將被相應(yīng)基站檢測并記錄,這些信息主要包括MNC,LAC,CID(Cell)三個參數(shù)。借助這些數(shù)據(jù),運營商可對特定區(qū)域中的人流數(shù)據(jù)進(jìn)行采集,為后續(xù)分析提供基礎(chǔ)。
利用已采集的數(shù)據(jù),運用統(tǒng)計分析軟件(如Excel、SPSS等)開展數(shù)據(jù)處理工作。
從數(shù)據(jù)分析結(jié)果中獲取特定場景下的數(shù)據(jù)洞察,更進(jìn)一步,可據(jù)此作出相應(yīng)的決策或行動。如實時統(tǒng)計重大活動中的人流變化情況,在人流量到達(dá)危機臨界點時,及時進(jìn)行人流疏導(dǎo),從而有效避免踩踏事件發(fā)生。
2016年5月8日,肇慶國際半程馬拉松賽(以下簡稱“肇慶馬拉松”)在肇慶市端州區(qū)鳴笛開跑。該比賽屬于中國田徑協(xié)會注冊并認(rèn)證的A類賽事,此次賽事的舉辦將帶來大量人流,這對周邊商圈的影響力不容小覷。在該活動舉辦過程中,運營商大數(shù)據(jù)的應(yīng)用場景之一便是挖掘賽事對周邊商圈的提升作用。遵循上述四個環(huán)節(jié),借助運營商大數(shù)據(jù),可實現(xiàn)此場景應(yīng)用目標(biāo)。
(1)場景選擇:挖掘賽事對周邊商圈的提升作用,評估賽事影響力。
(2)數(shù)據(jù)采集:選定賽前、賽后時間窗口,并利用基站獲取人流數(shù)據(jù)。
(3)數(shù)據(jù)處理:統(tǒng)計不同商圈內(nèi)的基站人流總量及人流增幅。
(4)數(shù)據(jù)分析:評估賽事對商圈的提升作用。
在選擇場景之后,數(shù)據(jù)采集、處理及分析的具體過程如下。
此次馬拉松的舉辦時間為5月8日,故選擇5月4日-5日(賽前)和5月9-10日(賽后)為數(shù)據(jù)采集的時間窗口。同時,確定各商圈內(nèi)的目標(biāo)基站,這些基站均布點于商圈范圍內(nèi),共涉及8大商圈,780個基站,根據(jù)目標(biāo)基站獲取相應(yīng)信號數(shù)據(jù)。各商圈的基站數(shù)量如表1所示。
表1 八大商圈所包含的基站數(shù)量
根據(jù)不同的數(shù)據(jù)采集窗口,將各大商圈內(nèi)基站所采集的終端號碼進(jìn)行合并后去重,即:
其中,i為該商圈內(nèi)基站總數(shù),f表示去重函數(shù)。
據(jù)此,可以統(tǒng)計各大商圈在賽前及賽后的日人流數(shù)據(jù),結(jié)果如表2所示。
表2 八大商圈比賽前后的人流量統(tǒng)計情況
利用求和平均數(shù),可得到不同商圈賽前及賽后的人流量,進(jìn)而可計算比賽前后人流增幅,如表3所示。
根據(jù)運營商大數(shù)據(jù)的監(jiān)測結(jié)果,可以看到2016年肇慶馬拉松為各大商圈吸引了大量的人流,其人流提升幅度均超過30%,平均提升幅度達(dá)到66%,賽事影響力非常強;其中,東門廣場商圈受影響最為明顯,人流增幅達(dá)到187%。
表3 八大商圈比賽前后人流提升情況
本文歸納總結(jié)了運營商大數(shù)據(jù)的數(shù)據(jù)資源狀況,并給出了利用運營商大數(shù)據(jù)開展場景化應(yīng)用的實踐思路,同時輔以肇慶馬拉松對商圈的提升實例加以說明。運營商大數(shù)據(jù)可應(yīng)用于諸如需求預(yù)測、融合營銷、換機監(jiān)控、交通管理、城市規(guī)劃等多類數(shù)據(jù)應(yīng)用場景下,這無論是對于運營商自身業(yè)務(wù)發(fā)展,或是社會管理服務(wù),都將起到重要的推動作用。
[1]王波,吳子玉.大數(shù)據(jù)時代精準(zhǔn)營銷模式研究.經(jīng)濟師,2013.5:14-16.
[2]吳雯漫,辛葉舟,李小娟.基于大數(shù)據(jù)可視化的電信運營商營業(yè)廳選址方法研究.電子技術(shù)應(yīng)用,2015(z1):67-69.
[3]茅明睿.大數(shù)據(jù)在城市規(guī)劃中的應(yīng)用:來自北京市城市規(guī)劃設(shè)計研究院的思考與實踐.北京:清華大學(xué)出版社,2007.29(6):51-55.
The Practice on Big Data of Communication Operators Used in Various Scenarios
LIN Zhe1,CAI Xiao-zhen2
(1.China Mobile Group Guangdong Co.,Ltd,Guangzhou 510623;2.Guangzhou Wislife Intelligent Technology Co,Ltd.,Guangzhou 510620)
With the development of big data,the value of data has begun to appear,bringing forth great influence among the business,society and people's lives.As the owner of massive data,operators have advantages of using data in various scenarios.After introducing operators'data resources,presents a general idea of how communication operators can use their own big data,at the same time,takes the Zhaoqing's marathon as an example to show the real practice.
Big Data;Scenarios;Communication Operators
1007-1423(2017)31-0058-04
10.3969/j.issn.1007-1423.2017.31.015
林哲(1985-),男,福建漳州人,碩士,從事領(lǐng)域為大數(shù)據(jù)創(chuàng)新業(yè)務(wù)、流量創(chuàng)新業(yè)務(wù)以及政企創(chuàng)新業(yè)務(wù)
蔡曉珍(1992-),女,廣東揭陽人,碩士,研究方向為數(shù)據(jù)挖掘、文本處理
2017-08-29 < class="emphasis_bold">修稿日期:2
2017-10-22