中國電信大數(shù)據(jù)應(yīng)用實踐
Application of big data in China Telecom
張宇中(1969-),男,中國電信股份有限公司云計算分公司首席數(shù)據(jù)分析師、大數(shù)據(jù)分析顧問,主要研究方向為消費者研究、互聯(lián)網(wǎng)網(wǎng)民行為分析和數(shù)據(jù)挖掘、新媒體傳播及媒介價值研究、網(wǎng)絡(luò)營銷效果評估優(yōu)化、汽車數(shù)字營銷。
李名洋(1983-),男,中國電信股份有限公司云計算分公司數(shù)據(jù)分析師,主要負(fù)責(zé)大數(shù)據(jù)分析、模型搭建應(yīng)用、行業(yè)大數(shù)據(jù)研究等工作。
* 本文為2015中國大數(shù)據(jù)技術(shù)大會(BDTC)演講約稿
大數(shù)據(jù)的應(yīng)用隨著計算技術(shù)的進(jìn)步、互聯(lián)網(wǎng)的爆發(fā)、科學(xué)計算的需求而高速發(fā)展。各類互聯(lián)網(wǎng)巨頭公司積累了大量運營、用戶和交易數(shù)據(jù),并籌建了大量的運算資源。它們的各類商業(yè)目的推動了大數(shù)據(jù)處理技術(shù)的發(fā)展。
對中國電信運營商而言,三網(wǎng)總的活躍移動連接超過10億,其中超六成終端為智能終端,每天各類應(yīng)用和業(yè)務(wù)被使用,持續(xù)產(chǎn)生大量的數(shù)據(jù)流。用戶通過智能終端的通信和數(shù)據(jù)業(yè)務(wù)使用各類應(yīng)用,使移動網(wǎng)絡(luò)成為大數(shù)據(jù)存儲、流動的天然載體。運營商不僅擁有傳統(tǒng)的用戶基礎(chǔ)信息、網(wǎng)絡(luò)數(shù)據(jù),還有通過管道功能獲取的用戶互聯(lián)網(wǎng)活動數(shù)據(jù),用戶信息全面真實。
而這些數(shù)據(jù)的利用面臨著諸多的問題。從數(shù)據(jù)的歸屬權(quán)和隱私控制方面看,數(shù)據(jù)擁有權(quán)和使用權(quán)的劃分、用戶授權(quán)方式、法律風(fēng)險的防控等,對大數(shù)據(jù)行業(yè)的發(fā)展方向有較大的影響;從數(shù)據(jù)的有效性看,在大量數(shù)據(jù)中尋找關(guān)聯(lián)信息并驗證其有效性,是非常巨大的工作量;從業(yè)務(wù)邏輯看,對于運營商來講,將原本用于經(jīng)營的數(shù)據(jù)產(chǎn)生機制用于大數(shù)據(jù)領(lǐng)域,需要從硬件、軟件、人才諸方面進(jìn)行調(diào)整,甚至可能面臨大的變革。
大數(shù)據(jù)的應(yīng)用問題不僅僅是一個企業(yè)內(nèi)部的事情,也是整個行業(yè)乃至跨行業(yè)的事情。從軟硬件方面看,大數(shù)據(jù)應(yīng)用涉及硬件設(shè)施、基礎(chǔ)軟件、應(yīng)用軟件和信息服務(wù)等方面;從數(shù)據(jù)生產(chǎn)流程看,大數(shù)據(jù)應(yīng)用涉及數(shù)據(jù)生成與采集、數(shù)據(jù)存儲、數(shù)據(jù)處理和數(shù)據(jù)應(yīng)用。在運營商核心數(shù)據(jù)資源的外圍,聚集著大量各類型、各行業(yè)的支撐公司、上下游企業(yè)和合作伙伴。
2.1 中國電信的大數(shù)據(jù)業(yè)務(wù)
中國電信大數(shù)據(jù)業(yè)務(wù)的開展依托于中國電信云計算分公司,由集團(tuán)市場部直接管理。中國電信2014年開始啟動全國大數(shù)據(jù)的集約化運營,著力推進(jìn)全集團(tuán)數(shù)據(jù)匯集和發(fā)掘應(yīng)用,實現(xiàn)大數(shù)據(jù)應(yīng)用產(chǎn)業(yè)化、規(guī)模化發(fā)展。根據(jù)集團(tuán)規(guī)劃,云計算分公司作為大數(shù)據(jù)運營支撐單位,承擔(dān)大數(shù)據(jù)產(chǎn)品集約開發(fā)、運營、銷售、服務(wù)和經(jīng)營支撐工作。
2.2 云計算分公司大數(shù)據(jù)工作的主要內(nèi)容
中國電信大數(shù)據(jù)數(shù)量巨大、來源分散、格式多樣,對系統(tǒng)的數(shù)據(jù)處理能力和分析挖掘能力提出了巨大挑戰(zhàn),需要新技術(shù)將龐雜無序的數(shù)據(jù)進(jìn)行清洗、處理、分析和集成,變成有用的信息,與行業(yè)應(yīng)用融合產(chǎn)生價值。目前這主要涉及以下4個方面的工作內(nèi)容。
● 建設(shè)大數(shù)據(jù)能力平臺。實現(xiàn)全網(wǎng)數(shù)據(jù)集約(接入、計算、存儲)及數(shù)據(jù)資產(chǎn)集中管理維護(hù)。
● 建設(shè)海量數(shù)據(jù)處理所需的五大基礎(chǔ)能力。包括數(shù)據(jù)傳導(dǎo)(被動/主動接入能力、數(shù)據(jù)傳導(dǎo)、數(shù)據(jù)開放)、存儲(結(jié)構(gòu)化、非結(jié)構(gòu))、計算(批量、流式)、安全運營(提供對數(shù)據(jù)、系統(tǒng)安全運營保障的手段)、資源調(diào)度(協(xié)同協(xié)調(diào)、資源隔離、能力配額)。
● 數(shù)據(jù)生產(chǎn)線技術(shù)架構(gòu)設(shè)計。適應(yīng)電信大數(shù)據(jù)兩種業(yè)務(wù)數(shù)據(jù)模型,包括批量—調(diào)度系統(tǒng):基礎(chǔ)表、母表、子表、基礎(chǔ)服務(wù)層;實時—消息系統(tǒng):基礎(chǔ)拓?fù)?、融合拓?fù)洹⒒A(chǔ)服務(wù)層。
● 產(chǎn)品應(yīng)用體系設(shè)計。選擇市場需求明確、市場規(guī)模大、應(yīng)用模式清晰、適合電信大數(shù)據(jù)特點的領(lǐng)域建設(shè)產(chǎn)品應(yīng)用平臺。
中國電信大數(shù)據(jù)能力產(chǎn)品與應(yīng)用體系如圖1所示。
3.1 電信大數(shù)據(jù)的構(gòu)成與特點
(1)中國電信大數(shù)據(jù)的構(gòu)成
中國電信的數(shù)據(jù)優(yōu)勢在于數(shù)據(jù)的廣度和深度。中國電信具有海量數(shù)據(jù)基數(shù),包括2億手機用戶和1.5億寬帶用戶(覆蓋了全國70%的寬帶用戶上網(wǎng)份額)產(chǎn)生的數(shù)據(jù)。此外,還有IPTV、Wi-Fi熱點數(shù)據(jù)。這些數(shù)據(jù)涵蓋運營商全業(yè)務(wù)形態(tài)。同時,中國電信還擁有大量第三方基礎(chǔ)合作數(shù)據(jù)。中國電信自有數(shù)據(jù)主要包括IT類數(shù)據(jù)、網(wǎng)絡(luò)類數(shù)據(jù)、信令數(shù)據(jù)和終端數(shù)據(jù)。合作數(shù)據(jù)包括地圖POI(興趣點)數(shù)據(jù)、金融征信類數(shù)據(jù)、行業(yè)數(shù)據(jù)等。
(2)電信大數(shù)據(jù)的特點
中國電信擁有大量真實的用戶。真實有效的數(shù)據(jù)能夠支撐可信度高的分析與結(jié)論,還可進(jìn)行多維度精細(xì)用戶群體分析。中國電信作為互聯(lián)網(wǎng)接入服務(wù)提供商,承載了國內(nèi)電信用戶各類業(yè)務(wù)數(shù)據(jù),涵蓋通信數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)、信令數(shù)據(jù)等方面,提供全方位的服務(wù),數(shù)據(jù)應(yīng)用的可靠性高。同時,中國電信用戶本身樣本的覆蓋具有無偏差的特點,可以有效保證分析的準(zhǔn)確度。
3.2 電信大數(shù)據(jù)的開發(fā)原則
完善的隱私保護(hù)、提供安全可靠的服務(wù)、平臺級的開發(fā)能力、支撐行業(yè)企業(yè)發(fā)展、構(gòu)建健康大數(shù)據(jù)生態(tài)環(huán)境,是電信大數(shù)據(jù)開發(fā)與利用的基本原則。
(1)保護(hù)用戶隱私是大數(shù)據(jù)開發(fā)的前提
保護(hù)隱私是國家和法律對公共基礎(chǔ)設(shè)施提供者的硬性約束,也是電信行業(yè)的基本要求。在大數(shù)據(jù)開發(fā)過程中,采用行業(yè)內(nèi)最高的安全等級存儲和處理用戶數(shù)據(jù),將原始數(shù)據(jù)對外全方位屏蔽,不會針對個體進(jìn)行分析,所有結(jié)果僅進(jìn)行狀態(tài)匹配和標(biāo)簽輸出,而且所有的數(shù)據(jù)分析都在中國電信自有平臺上進(jìn)行。
圖1 中國電信大數(shù)據(jù)能力產(chǎn)品與應(yīng)用體系
(2)為公眾和社會服務(wù)是中國電信的理念
作為一個大型央企,廣泛促進(jìn)社會福利水平,保護(hù)公眾隱私不受侵犯,為企業(yè)和個人提供高效數(shù)據(jù)服務(wù),提升數(shù)據(jù)社會價值,是中國電信在大數(shù)據(jù)開發(fā)主要考慮的方面。
(3)建設(shè)專有的大數(shù)據(jù)應(yīng)用平臺進(jìn)行開發(fā)
集約地整合、處理、分析所有電信端數(shù)據(jù),通過搭建自有服務(wù)器資源,保證電信團(tuán)隊、合作企業(yè)有足夠的資源在電信的平臺上做深入的數(shù)據(jù)分析。能夠為企業(yè)級應(yīng)用提供從數(shù)據(jù)整合,到計算能力、發(fā)布平臺全流程的服務(wù)。
(4)廣泛的業(yè)務(wù)合作,支撐行業(yè)內(nèi)產(chǎn)業(yè)鏈企業(yè)的發(fā)展
電信大數(shù)據(jù)的工作任務(wù)是提升數(shù)據(jù)的應(yīng)用價值,通過打造大數(shù)據(jù)平臺,吸引行業(yè)內(nèi)的各類企業(yè)共同開發(fā)利用,并與各自的數(shù)據(jù)資源進(jìn)行融合。業(yè)務(wù)定位是提供大數(shù)據(jù)基礎(chǔ)能力支撐,與產(chǎn)業(yè)鏈各方一起促進(jìn)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展,共同成長。
(5)營造健康發(fā)展環(huán)境,建設(shè)大數(shù)據(jù)應(yīng)用生態(tài)
中國電信致力于建設(shè)開放、合作的大數(shù)據(jù)應(yīng)用生態(tài)。與產(chǎn)業(yè)鏈各方共同營造安全、合規(guī)的數(shù)據(jù)使用環(huán)境,有助于未來電信數(shù)據(jù)能夠更好地對外服務(wù)。如圖2所示,在面向最終客戶提供大數(shù)據(jù)應(yīng)用服務(wù)時,產(chǎn)業(yè)鏈各方充分發(fā)揮各自在數(shù)據(jù)、產(chǎn)品建模、平臺技術(shù)、解決方案提供方面的作用,實現(xiàn)優(yōu)勢互補,合作共贏。
圖2 共建大數(shù)據(jù)應(yīng)用生態(tài)
4.1 天翼大數(shù)據(jù)“4+1”產(chǎn)品體系
中國電信天翼大數(shù)據(jù)現(xiàn)有“4+1”的產(chǎn)品體系,包括兩大類型:數(shù)據(jù)型產(chǎn)品和平臺型產(chǎn)品。
(1)數(shù)據(jù)型產(chǎn)品
數(shù)據(jù)型產(chǎn)品主要依托中國電信的數(shù)據(jù)資源,同時整合外部數(shù)據(jù)資源(如金融、電商等行業(yè)),開展分析、挖掘類數(shù)據(jù)業(yè)務(wù),服務(wù)形態(tài)主要包括:標(biāo)簽、報告以及SaaS應(yīng)用。其中,“星圖”系列以用戶畫像和分析為主,分別是風(fēng)險防控及精準(zhǔn)營銷2類產(chǎn)品;“鯤鵬”系列以區(qū)域分析、群體趨勢分析、群體畫像為主,分別是咨詢報告及區(qū)域洞察2類產(chǎn)品。
做數(shù)據(jù)型產(chǎn)品的目的是更好地從非運營商業(yè)務(wù)的視角來理解數(shù)據(jù),了解數(shù)據(jù)如何更好地為行業(yè)服務(wù),如何有效地與產(chǎn)業(yè)鏈合作伙伴協(xié)同。
(2)平臺型產(chǎn)品
平臺型產(chǎn)品為合作而生?!帮w龍”系列大數(shù)據(jù)云PaaS提供資源托管、數(shù)據(jù)處理分析、產(chǎn)品孵化3類服務(wù)。
大數(shù)據(jù)離不開云計算基礎(chǔ)設(shè)施,依托中國電信“8+2+X”的云資源布局,通過構(gòu)建云計算PaaS平臺產(chǎn)品,提供比基礎(chǔ)設(shè)施層更高、更豐富的平臺服務(wù),降低用戶使用大數(shù)據(jù)挖掘門檻,使得開展大數(shù)據(jù)業(yè)務(wù)的企業(yè)無需擔(dān)憂技術(shù)實現(xiàn)問題,而是將更多的精力和資源投入對需求的挖掘、分析和滿足上;讓傳統(tǒng)企業(yè)能更快、更高效地通過分布式計算框架、完善的數(shù)據(jù)分析工具組件,實現(xiàn)大數(shù)據(jù)時代的IT升級換代、同時,通過PaaS平臺能力開放以及平臺敏捷可靠的開發(fā)環(huán)境,越來越多的應(yīng)用開發(fā)者、越來越豐富的數(shù)據(jù)能力為整個產(chǎn)業(yè)鏈提供了有力的生態(tài)保證。
4.2 電信大數(shù)據(jù)產(chǎn)品應(yīng)用
(1)終端咨詢報告
利用中國電信擁有的完整終端自注冊信息以及終端用戶數(shù)據(jù),判斷用戶終端的使用狀態(tài)、使用行為特征、消費能力以及偏好等數(shù)據(jù),通過數(shù)據(jù)整合與能力封裝,提供終端分布、終端使用行為分析等分析報告服務(wù)。
針對終端廠商,提供查詢自有品牌終端及競爭伙伴終端的相關(guān)數(shù)據(jù)及趨勢分析,分析本產(chǎn)品和競爭產(chǎn)品的市場份額、終端網(wǎng)齡、終端生命周期、換機流向,助力終端設(shè)計生產(chǎn)。針對終端銷售渠道,提供銷售終端份額、終端規(guī)模增速、價格構(gòu)成、價值貢獻(xiàn)等信息查詢和分析功能,提升銷售渠道快速掌握銷售市場動向、調(diào)整銷售策略的能力。針對應(yīng)用開發(fā)商,提供應(yīng)用滲透率、應(yīng)用的終端市場占比、應(yīng)用的使用周期等信息的實時查詢,幫助開發(fā)商更快、更準(zhǔn)確地了解應(yīng)用市場動向。
(2)精準(zhǔn)營銷產(chǎn)品
基于運營商多維數(shù)據(jù)的交織分析,通過關(guān)聯(lián)挖掘海量電信數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù),對用戶進(jìn)行標(biāo)簽化處理;與傳統(tǒng)互聯(lián)網(wǎng)標(biāo)識不同,電信標(biāo)識體系能更精準(zhǔn)識別自然人,通過結(jié)合興趣標(biāo)簽和用戶屬性標(biāo)簽,更好地服務(wù)行業(yè)客戶;并通過“用戶行為—興趣—產(chǎn)品”的關(guān)聯(lián)標(biāo)簽,結(jié)合電信各種新式媒體和觸點,將企業(yè)營銷信息推送到比較準(zhǔn)確的受眾群體中,為企業(yè)節(jié)省營銷成本,為用戶找到合適的需求點,達(dá)到ROI(投資回報率)最大化的效果。
(3)區(qū)域洞察商業(yè)選址
在中國電信的海量數(shù)據(jù)中,還有一類最有價值的數(shù)據(jù)就是海量用戶的位移數(shù)據(jù)。依托中國電信移動網(wǎng)絡(luò)的蜂窩模型及用戶的位移,鯤鵬—商業(yè)選址產(chǎn)品提供了更有效的數(shù)據(jù)分析能力,通過海量的用戶樣本更精準(zhǔn)地實現(xiàn)對區(qū)域商業(yè)價值的評估,改變了傳統(tǒng)依托“公開數(shù)據(jù)+掃街調(diào)查”,通過少量樣本進(jìn)行商業(yè)選址的傳統(tǒng)區(qū)域價值評估模式。
依托中國電信大數(shù)據(jù),通過用戶的區(qū)域通信行為,結(jié)合POI信息,提供區(qū)域常住人口特征分析、車流人流分析、各類商業(yè)業(yè)態(tài)分布和區(qū)域競爭信息,讓商業(yè)選址更智能,真正從行業(yè)的視角,以數(shù)據(jù)的方法幫助客戶以最優(yōu)的性價比選擇線下商鋪的地址,支撐商鋪的運營。
(4)人口流動分析
隨著人們生活水平的改善,越來越多的人在節(jié)假日選擇出行、旅游。公安、旅游等部門都面臨如何有效地在人群聚集的狀態(tài)進(jìn)行及時的安全監(jiān)控預(yù)警和高效地進(jìn)行區(qū)域人員的分析和預(yù)測,避免公共場所群體安全事件發(fā)生的問題。
中國電信多樣化的數(shù)據(jù)、政府相關(guān)部門的數(shù)據(jù)、合作伙伴的數(shù)據(jù)等多源數(shù)據(jù),實現(xiàn)了以移動用戶的實時數(shù)據(jù)為基礎(chǔ),有效地對區(qū)域人流進(jìn)行信息化監(jiān)控預(yù)警、分析及服務(wù),讓政府的管理機構(gòu)可以以科學(xué)的技術(shù)手段實現(xiàn)對關(guān)注區(qū)域的人流密集程度、流動方向、人流群體的結(jié)構(gòu)、人流特征等多個維度信息的及時掌控。通過實時/準(zhǔn)實時的數(shù)據(jù)匯聚、清洗、分析,各類人流熱圖的呈現(xiàn),開發(fā)了多種可視化手段。
人口流動類宏觀產(chǎn)品已經(jīng)在流動人口分析、疾病防控、京津冀一體化規(guī)劃等進(jìn)行了有益的嘗試。在2015年廣西東盟博覽會上,中國電信與合作伙伴一起為大會主辦方提供了包括互聯(lián)網(wǎng)專線、IPTV、Wi-Fi及大數(shù)據(jù)安全預(yù)警在內(nèi)的會展解決方案。通過對手機用戶數(shù)據(jù)、信令位置數(shù)據(jù)和現(xiàn)場視頻數(shù)據(jù)的關(guān)聯(lián),運用大數(shù)據(jù)建模和可視化組件,為展會提供了實時人流監(jiān)控和人群結(jié)構(gòu)分析服務(wù),做到了及時、準(zhǔn)確、可靠的安全預(yù)警,有效降低了安保成本和風(fēng)險。
4.3 電信大數(shù)據(jù)應(yīng)用推廣
(1)不斷深化產(chǎn)業(yè)鏈合作
中國電信始終秉承“合作共贏”的經(jīng)營理念,在大數(shù)據(jù)領(lǐng)域不斷加強與產(chǎn)業(yè)鏈的開放合作。經(jīng)過一年多的開發(fā)以及與大量廠商的合作開發(fā),電信大數(shù)據(jù)產(chǎn)品一系列產(chǎn)品已經(jīng)能夠滿足海量業(yè)務(wù)的調(diào)用,能夠提供高性能的平臺運算能力。
2015年11月中國電信正式發(fā)布了“天翼大數(shù)據(jù)”品牌,推出精準(zhǔn)營銷、風(fēng)險防控、區(qū)域洞察、咨詢報告4類數(shù)據(jù)型產(chǎn)品和大數(shù)據(jù)云平臺型產(chǎn)品,重點服務(wù)于旅游、金融、廣告、交通、政府等行業(yè)和部門。其中,風(fēng)險防控產(chǎn)品基于中國電信用戶標(biāo)簽數(shù)據(jù)建立用戶信用模型,主要服務(wù)于銀行、保險、征信、P2P等金融機構(gòu);區(qū)域洞察產(chǎn)品基于中國電信用戶位置標(biāo)簽數(shù)據(jù),為道路交通、區(qū)域人流分析、商業(yè)選址分析、智慧城市建設(shè)、智慧旅游建設(shè)等領(lǐng)域提供數(shù)據(jù)服 務(wù)。
在發(fā)布會現(xiàn)場,中國電信與浪潮集團(tuán)、全聯(lián)房地產(chǎn)商會、東方國信科技股份有限公司、中誠信征信有限公司、中智誠征信有限公司、華為技術(shù)有限公司、中興通訊股份有限公司、神州泰岳軟件股份有限公司等10余家合作伙伴簽署了戰(zhàn)略合作協(xié)議。中國電信將與戰(zhàn)略合作伙伴在大數(shù)據(jù)產(chǎn)品和解決方案等領(lǐng)域持續(xù)開展深度合作。
(2)積極推動中國企業(yè)大數(shù)據(jù)聯(lián)盟(BDU)發(fā)展
通過建立數(shù)據(jù)標(biāo)準(zhǔn)、交換規(guī)則,推動跨界合作,創(chuàng)新商業(yè)模式,提升參與各方大數(shù)據(jù)應(yīng)用的整體水平,提升產(chǎn)業(yè)競爭力;匯聚各方力量,吸收國內(nèi)外先進(jìn)經(jīng)驗,使聯(lián)盟成為推動技術(shù)進(jìn)步、應(yīng)用創(chuàng)新的中堅力量,為大數(shù)據(jù)產(chǎn)業(yè)健康發(fā)展做出貢獻(xiàn)。
(3)推出大數(shù)據(jù)成長計劃
該計劃旨在構(gòu)建有影響力的大數(shù)據(jù)生態(tài)圈,以中國電信大數(shù)據(jù)開放平臺、高價值數(shù)據(jù)為支撐,面向行業(yè)伙伴提供數(shù)據(jù)、產(chǎn)品、銷售3種合作模式,快速形成聚合效應(yīng),促進(jìn)中國大數(shù)據(jù)產(chǎn)業(yè)健康發(fā)展,拉動信息消費,為推動社會轉(zhuǎn)型升級做出貢獻(xiàn)。立足于現(xiàn)有平臺和未來發(fā)展,聯(lián)合各類企業(yè)、科研單位、高校單位等,共同成長。同時中國電信主辦了大數(shù)據(jù)分析競賽,推動大數(shù)據(jù)分析在未來人群中的認(rèn)知、發(fā)展和人才儲備等。
業(yè)務(wù)需求:分析某省份省會城市轄區(qū)中流動人口的比例、構(gòu)成以及人群的特點,推演出其在醫(yī)療衛(wèi)生方面的需求,為政府和組織的服務(wù)提供參考。
將需求分為兩個部分,第一部分為如何盡可能準(zhǔn)確地描述流動人口,盡可能多地將真實的流動人口提取出來,提高準(zhǔn)確率;第二部分為對確認(rèn)的流動人口進(jìn)行人口學(xué)特征、網(wǎng)絡(luò)使用偏好、居住信息、活動區(qū)域、家庭情況、工作情況方面的分析,支撐政府醫(yī)療衛(wèi)生服務(wù)方面的措施推進(jìn)。
(1)明確流動人口的定義
根據(jù)項目的需求,將從省內(nèi)非省會城市遷徙而來、時間高于1個月的用戶設(shè)定為研究對象,其中將居住時間超過3個月(可調(diào))的用戶定義為流動人口。分別從時間、位置方面初步區(qū)分流動人口群體。
(2)人群初步區(qū)分
分析前提:所有“在用”狀態(tài)的用戶,將設(shè)定幾個用于區(qū)分人群的標(biāo)準(zhǔn),見表1,綜合如下。
由于不知道戶籍方面的信息,單純從電信數(shù)據(jù)看,A部分是最有可能產(chǎn)生流動人口的群體;其次為B部分,即流動人口在居住地?fù)Q本地號碼的情況;第C部分需要根據(jù)戶籍信息是否變動、居住時間等條件判斷,根據(jù)輔助條件,少量歸入流動人口的群體;第D部分為當(dāng)?shù)鼐用竦目赡苄愿?,認(rèn)為非流動人口群體。
然而以上分類較粗,錯誤率會較高,因此加入了其他的輔助篩選條件,如進(jìn)入本市時長、是否有省內(nèi)漫游、是否有省內(nèi)長途電話。
根據(jù)就近和信息有效的原則,從開始研究的月份之前倒推6個月開始積累數(shù)據(jù),對每月居住時長達(dá)到某一閾值的用戶,折算為居住一個月。
有省內(nèi)漫游和省內(nèi)長途通話的用戶將比無省內(nèi)漫游和省內(nèi)長途通話的用戶為流動人口的可能性更高。
通過以上條件篩選,最終篩選出可能性最大的流動人口的人群,總計約10萬人。根據(jù)電信用戶的比例計算,符合需求的流動人口總量應(yīng)為70萬~80萬人。
(3)通過模型進(jìn)一步擴大流動人口篩選的范圍
根據(jù)與需求方的深度溝通,在以上篩選方法的基礎(chǔ)上,將流動人口與非流動人口進(jìn)行對比測試,從相關(guān)數(shù)百個字段中挑選出了30多個最相關(guān)變量和衍生變量,將相關(guān)變量分為核心變量、輔助變量,并對核心變量進(jìn)行權(quán)重劃分。
經(jīng)過各類模型分析結(jié)果對比,選擇了人工神經(jīng)網(wǎng)絡(luò)作為最終的模型。初步的結(jié)果顯示,基本上能夠?qū)⒛壳皵?shù)據(jù)樣本中絕大部分疑似流動人口的用戶識別出來,并應(yīng)用于具體的數(shù)據(jù)分析工作。
(4)部分分析結(jié)果舉例
通過每月數(shù)據(jù)的監(jiān)測,對每月流動人口的變動進(jìn)行描述,得到了一段時間內(nèi)人口流動的波動信息和人口的基本信息,如圖3、圖4所示。
通過可視化方法,在地圖上顯示出流動人口的分布、每日流向等信息,還能以動態(tài)的方式展示。結(jié)合POI等信息,還可以分析出流動人口生活環(huán)境狀況等。
表1 根據(jù)人和手機號的歸屬地劃分人群
圖3 流動人口月數(shù)量分布
圖4 流動人口年齡占比情況比較
利用組合模型,可以分析出特定人群的分布、人群特征、活動特征等信息,例如通過對用戶網(wǎng)絡(luò)行為和位置行為建模分析,能夠區(qū)分出育齡婦女人群以及她們大體所處的孕育階段,能夠更加精準(zhǔn)地為政府決策、公共衛(wèi)生服務(wù)提供參考。
大數(shù)據(jù)開發(fā)的最終目標(biāo)是行業(yè)應(yīng)用,它依托于大量的數(shù)據(jù)、強大的分析資源、各類優(yōu)秀的業(yè)務(wù)模型以及對垂直領(lǐng)域的洞察。中國電信作為運營商級別的大數(shù)據(jù)開發(fā)者,能夠在數(shù)據(jù)、平臺、合作等方面為全社會提供基礎(chǔ)資源,促進(jìn)各行業(yè)大數(shù)據(jù)的開發(fā)、融合、應(yīng)用。
中國電信已經(jīng)開發(fā)了“4+1”的產(chǎn)品體系,并將開發(fā)更多的大數(shù)據(jù)產(chǎn)品、更多的接口,與更多的企業(yè)合作。大數(shù)據(jù)的深度利用,將成為社會經(jīng)濟發(fā)展的重要推動力。
[1] 童曉渝, 張云勇, 房秉毅, 等.大數(shù)據(jù)時代電信運營商的機遇[J].信息通信技術(shù),2013(1):5-9.TONG X Y, ZHANG Y Y, FANG B Y, et al.Opportunities for Telecom operators in the big data age[J].Information and Communications Technology, 2013(1):5-9.
[2] 黃勇軍, 馮明, 丁圣勇, 等.電信運營商大數(shù)據(jù)發(fā)展策略探討[J].電信科學(xué), 2013, 29(3): 6-11.HUANG Y J, FENG M, DING S Y, et al.Big data development strategy for telecom operators[J].Telecommunications Science, 2013, 29(3): 6-11.
[3] HORNIK K, STINCHCOMBE M, WHITE H.Multilayer feed forward networks are universal approximators[J].Neural networks, 1989, 2(5): 359-366. □
TP399
A
10.11959/j.issn.2096-0271.2016036