曾嘉,劉詩凱,袁明軒
1.華為諾亞方舟實驗室,香港 999077;2.華為大數(shù)據(jù)分析產(chǎn)品部,江蘇 南京 210012
電信大數(shù)據(jù)關(guān)鍵技術(shù)挑戰(zhàn)
曾嘉1,劉詩凱2,袁明軒1
1.華為諾亞方舟實驗室,香港 999077;2.華為大數(shù)據(jù)分析產(chǎn)品部,江蘇 南京 210012
大數(shù)據(jù)逐漸對用戶體驗和生產(chǎn)效率帶來顛覆性影響。電信大數(shù)據(jù)來源于運營商通信網(wǎng)絡(luò)平臺的B S S和O S S,沉淀了海量用戶7個維度的信息:1維用戶真實I D、1維行為數(shù)據(jù)、1維社交數(shù)據(jù)、1維時間數(shù)據(jù)和3維空間數(shù)據(jù)。運營商構(gòu)建電信大數(shù)據(jù)分析平臺,通過對7維用戶數(shù)據(jù)建模,可以實現(xiàn)3個數(shù)據(jù)業(yè)務(wù)方向的升級:用戶洞察、網(wǎng)絡(luò)洞察和數(shù)據(jù)開放。著重探討電信大數(shù)據(jù)分析平臺遇到的9個關(guān)鍵技術(shù)挑戰(zhàn)和可能的技術(shù)突破方向。
電信大數(shù)據(jù);用戶洞察;網(wǎng)絡(luò)洞察;數(shù)據(jù)開放
大數(shù)據(jù)的3V特性(volume、variety、velocity)正在逐步改善用戶體驗和生產(chǎn)效率。電信運營商提供基礎(chǔ)通信平臺連接每一位用戶。每天數(shù)以億計的用戶在管道中留下的通信行為數(shù)據(jù)構(gòu)成電信大數(shù)據(jù)。如何挖掘大數(shù)據(jù)來智能支撐運營商各項業(yè)務(wù)并進行業(yè)務(wù)轉(zhuǎn)型,是一個需要深入思考的問題。首要任務(wù)就是匯集豐富的用戶行為數(shù)據(jù),存儲在統(tǒng)一的電信大數(shù)據(jù)分析平臺,并根據(jù)業(yè)務(wù)需求靈活部署統(tǒng)計、規(guī)則和預(yù)測算法,在不改變業(yè)務(wù)人員使用習(xí)慣的情況下做到及時、多屏、準(zhǔn)確、直白、客觀地沉淀用戶數(shù)據(jù)(例如不同時間跨度的知識標(biāo)簽),幫助企業(yè)減少營銷成本的同時做到360度營銷,降低業(yè)務(wù)人員的學(xué)習(xí)成本,賦能、提高營銷效率??傮w而言,電信大數(shù)據(jù)沉淀了海量用戶7個維度的信息:1維用戶真實ID(基本信息)、1維行為數(shù)據(jù)(通信行為、互聯(lián)網(wǎng)行為、消費行為、投訴行為、網(wǎng)絡(luò)體驗、反饋行為)、1維社交數(shù)據(jù)、1維時間數(shù)據(jù)和3維空間數(shù)據(jù)(室外宏基站定位和室內(nèi)微基站定位)。通過對7維用戶數(shù)據(jù)建模,可以實現(xiàn)運營商在3個數(shù)據(jù)業(yè)務(wù)方向的升級:用戶洞察、網(wǎng)絡(luò)洞察和數(shù)據(jù)開放。如圖1所示,電信大數(shù)據(jù)平臺的目標(biāo)是實現(xiàn)用戶、網(wǎng)絡(luò)和數(shù)據(jù)的統(tǒng)一自動化管理,實現(xiàn)“三個了解”和“三個提升”,即了解用戶、了解產(chǎn)品(服務(wù)和渠道)、了解網(wǎng)絡(luò),提升營銷轉(zhuǎn)化率、提升決策準(zhǔn)確率和提升自動化率(數(shù)據(jù)化→信息化→智能化)。
全生命周期的用戶洞察是電信大數(shù)據(jù)的基礎(chǔ),目標(biāo)是改善用戶體驗,提升營銷效率,從而沉淀更多用戶的行為數(shù)據(jù)作為反饋。以用戶為中心的網(wǎng)絡(luò)洞察有助于提升運營商在網(wǎng)絡(luò)規(guī)劃、網(wǎng)絡(luò)建設(shè)、網(wǎng)絡(luò)優(yōu)化、網(wǎng)絡(luò)維護方面的投資效率,改善用戶網(wǎng)絡(luò)體驗,并降低運營成本。面向全行業(yè)的數(shù)據(jù)開放的重點是利用電信大數(shù)據(jù)優(yōu)勢構(gòu)建數(shù)據(jù)產(chǎn)業(yè)生態(tài)鏈,使其能提供面向全行業(yè)的數(shù)據(jù)服務(wù),例如幫助行業(yè)客戶進行獲客、營銷、選址分析、人流量檢測、區(qū)域價值規(guī)劃等。然而,在3個業(yè)務(wù)方向的升級都急需強有力的電信大數(shù)據(jù)分析平臺支撐,這將面臨9個方面的技術(shù)挑戰(zhàn),分別是特征工程、預(yù)測算法、根本原因分析、實時分析、時空數(shù)據(jù)挖掘、知識管理、多媒體數(shù)據(jù)挖掘、圖數(shù)據(jù)挖掘和隱私保護。本文重點描述這些技術(shù)挑戰(zhàn)的來源和可能的解決方案,討論如何構(gòu)建高效的電信大數(shù)據(jù)平臺。
圖1 電信大數(shù)據(jù)平臺的目標(biāo)
電信大數(shù)據(jù)平臺是一個提供統(tǒng)一數(shù)據(jù)存儲、分析處理、數(shù)據(jù)服務(wù)的云計算平臺。如圖2所示,平臺需要融合并存儲來自BSS(B域)和OSS(O域)系統(tǒng)的數(shù)據(jù),提供6種通用數(shù)據(jù)的處理。BSS是商業(yè)支撐系統(tǒng),包括客戶關(guān)系、計費、營銷和傳統(tǒng)商業(yè)智能系統(tǒng),記錄用戶的話單、賬單、基礎(chǔ)信息和營銷反饋記錄。BSS數(shù)據(jù)特點是量小(約占電信大數(shù)據(jù)總量的3%)、匯總、離線(非實時更新)、貼近用戶行為。OSS是網(wǎng)絡(luò)運營支撐系統(tǒng),包括基站、傳輸、固網(wǎng)和核心網(wǎng)等網(wǎng)絡(luò)單元(CS系統(tǒng)負(fù)責(zé)語音/短信、PS系統(tǒng)負(fù)責(zé)上網(wǎng)流量),記錄大量信令數(shù)據(jù),包括用戶聯(lián)接網(wǎng)絡(luò)體驗、互聯(lián)網(wǎng)內(nèi)容和位置信息。OSS數(shù)據(jù)特點是量大(約占電信大數(shù)據(jù)總量97%,主要是位置數(shù)據(jù)和互聯(lián)網(wǎng)內(nèi)容數(shù)據(jù))、精細(xì)、實時和貼近網(wǎng)絡(luò)行為。以600萬個活躍用戶為例,每天產(chǎn)生大約14 TB數(shù)據(jù),這些數(shù)據(jù)大部分來自O(shè)SS,通過擴展,可估算中國12億用戶每天產(chǎn)生的數(shù)據(jù)量。盡管數(shù)據(jù)來源不同,但所有數(shù)據(jù)可抽象為六大通用數(shù)據(jù)類型,分別是時空數(shù)據(jù)、圖數(shù)據(jù)、表數(shù)據(jù)、流數(shù)據(jù)、多媒體數(shù)據(jù)和文本數(shù)據(jù)。建模算法可以面向這六大類通用數(shù)據(jù)類型進行設(shè)計和部署。
電信大數(shù)據(jù)核心資產(chǎn)是海量用戶的7個維度信息。如圖3所示,這些數(shù)據(jù)可以支撐對內(nèi)和對外服務(wù)優(yōu)化,如全生命周期的用戶管理和基于位置的服務(wù)。用戶洞察的核心是圍繞用戶回答7個W的問題:who(用戶ID)、when(時間)、where(空間)、what(行為結(jié)果)、how(行為過程)、why(行為根本原因)、Web(社交)。通過7D用戶數(shù)據(jù)建模實現(xiàn)7W洞察是電信大數(shù)據(jù)分析的核心需求。
圖2 融合BSS和OSS數(shù)據(jù)
大數(shù)據(jù)時代,建模思維逐漸從研究各種映射算法到研究數(shù)據(jù)本身,如從豐富的數(shù)據(jù)中抽取更加合理的特征表示、從數(shù)據(jù)中根據(jù)業(yè)務(wù)規(guī)則自動定義標(biāo)簽和訓(xùn)練數(shù)據(jù)以及利用用戶營銷反饋數(shù)據(jù),自動化整個營銷流程等。從數(shù)據(jù)出發(fā),尋求合適、好用的算法是建模的核心。清晰定義訓(xùn)練數(shù)據(jù),熟悉業(yè)務(wù)流程,才能將挖掘算法的價值發(fā)揮到最大。用戶和基站聯(lián)接行為將BSS和OSS數(shù)據(jù)打通,因此通用的用戶模型可以用二分圖表示,即一層節(jié)點是用戶,另一層節(jié)點是網(wǎng)絡(luò),兩層節(jié)點之間的邊表示用戶聯(lián)接網(wǎng)絡(luò)的時間??傮w而言,可以通過電信大數(shù)據(jù)的二分圖表示實現(xiàn)用戶洞察、網(wǎng)絡(luò)洞察和數(shù)據(jù)開放3個業(yè)務(wù)目標(biāo)。
圖3 7維度用戶數(shù)據(jù)建模和7W洞察
電信大數(shù)據(jù)分析面臨9個關(guān)鍵的挑戰(zhàn),分別是特征工程、預(yù)測算法、根本原因分析、實時分析、時空數(shù)據(jù)挖掘、知識工程、多媒體挖掘、圖挖掘和隱私保護。
3.1 以時空數(shù)據(jù)為核心的特征工程
隨著移動設(shè)備和移動互聯(lián)網(wǎng)的普及,隨時隨地使用移動終端已經(jīng)成為人們的一種基本生活習(xí)慣。因而電信數(shù)據(jù)成為獲取城市用戶、區(qū)域細(xì)粒度時空行為信息的重要數(shù)據(jù)源。這些細(xì)粒度行為信息可以被用作建模的重要特征,從而大幅提升電信數(shù)據(jù)挖掘效果[1]。因為電信數(shù)據(jù)來自多個數(shù)據(jù)源,如BSS(B域)的數(shù)據(jù)來自CRM(customer relationship management,客戶關(guān)系管理)、賬單、BI(business intelligence,商業(yè)智能)、客服和渠道等系統(tǒng),OSS(O域)的數(shù)據(jù)來自于MR(measurement report,測量報告)、Gn口和Mc口等系統(tǒng),時空和用戶ID關(guān)聯(lián)是把這些數(shù)據(jù)整合成統(tǒng)一特征集合的關(guān)鍵因素。以時空數(shù)據(jù)為核心的特征工程需要結(jié)合B域和O域進行關(guān)聯(lián)分析,找出網(wǎng)絡(luò)和用戶特征的關(guān)聯(lián)性。如圖4所示,復(fù)雜的特征工程可以在以時空數(shù)據(jù)為核心的各種數(shù)據(jù)類型上構(gòu)建。如人的社交關(guān)系可以表述為電話網(wǎng)絡(luò)、短信網(wǎng)絡(luò)和接觸網(wǎng)絡(luò)(兩個人在相近時間、相近地點出現(xiàn)算是一次有效接觸)。每個電話、短信或接觸都有發(fā)生的時間和地點。需要設(shè)計有效的算法研究如何在這種有時空約束的圖中提取反映用戶復(fù)雜社會關(guān)系的特征。另一個例子是將用戶的賬單、影響力或者離網(wǎng)行為映射到每個位置上來評估每個位置的價值,從而可以得到高價值用戶或者離網(wǎng)用戶聚集的位置,開展基于位置的服務(wù)和營銷。同時也可以構(gòu)建基于用戶行為的基站投資分析,得出精確基站選址目標(biāo)。將通信行為、互聯(lián)網(wǎng)行為、消費行為、營銷反饋行為映射到時空位置坐標(biāo),也可以開放給其他行業(yè),輸出專業(yè)性的評估報告,有助零售業(yè)或者旅游業(yè)掌握移動用戶的行為。例如,西班牙電信Telefonica的Smart Steps洞察方案將時空數(shù)據(jù)脫敏后開放給行業(yè)客戶,每年有數(shù)千萬歐元營收。其他的多媒體數(shù)據(jù)(客服語音記錄)、文本數(shù)據(jù)(服務(wù)記錄和移動搜索記錄)和用戶軌跡數(shù)據(jù)等都需要設(shè)計有效的特征提取算法。所以電信大數(shù)據(jù)挖掘的第一個核心挑戰(zhàn)是以時空數(shù)據(jù)為核心的異構(gòu)特征工程。
圖4 以時空數(shù)據(jù)為核心的特征工程
3.2 更加精準(zhǔn)的預(yù)測算法
圖5 精確的預(yù)測算法
當(dāng)特征工程完成以后,下一步需要做的是預(yù)測(如離網(wǎng)預(yù)測[1]),并根據(jù)預(yù)測結(jié)果做決策。業(yè)務(wù)價值通常取決于預(yù)測的精度,精度越高越好。圖5對比了傳統(tǒng)數(shù)據(jù)挖掘的預(yù)測流程和大數(shù)據(jù)下的預(yù)測流程,主要區(qū)別之一是傳統(tǒng)數(shù)據(jù)挖掘采用的預(yù)測模型較簡單(參數(shù)少),無法刻畫數(shù)據(jù)統(tǒng)計分布的細(xì)節(jié),而大數(shù)據(jù)背景下,通常采用大規(guī)模參數(shù)學(xué)習(xí)(如支撐十億級別的模型參數(shù)處理百萬級別的稠密連續(xù)特征向量),從而充分刻畫統(tǒng)計細(xì)節(jié)和數(shù)據(jù)的相互依賴關(guān)系,達(dá)到更高的預(yù)測精度和更好的解釋。傳統(tǒng)的梯度下降(上升)算法在并行架構(gòu)下可以優(yōu)化大規(guī)模參數(shù)的神經(jīng)網(wǎng)絡(luò)模型,是未來高精度預(yù)測算法發(fā)展的主要方向之一。但是,電信領(lǐng)域的數(shù)據(jù)種類相對互聯(lián)網(wǎng)領(lǐng)域數(shù)據(jù)種類較少,通常使用較少的特征也能帶來業(yè)務(wù)性能的提升。未來需要更多的實驗驗證高維豐富的特征對電信業(yè)務(wù)的有效性和必要性。
3.3 根本原因推斷輔助商業(yè)決策
商業(yè)智能的核心競爭力是分析用戶行為的根本原因,即明確哪些主要變量影響用戶最終的行為。如圖6所示,運營商關(guān)心的是何種原因(如網(wǎng)絡(luò)質(zhì)量體驗、資費、服務(wù)體驗不好)導(dǎo)致用戶離網(wǎng)行為,從而可以針對性地改進產(chǎn)品和服務(wù),持續(xù)改善在網(wǎng)用戶體驗。未來個性化的營銷也需要對用戶多個行為變量進行排序,從而匹配到最為需要的產(chǎn)品。根本原因推斷技術(shù)的主要方向仍然是特征變量的排序和變量之間相關(guān)性分析。由于大部分特征變量僅僅反映表象,根本原因分析需要對隱藏變量進行推斷,然而目前大部分統(tǒng)計學(xué)習(xí)算法仍然難以有效地產(chǎn)生可以解釋的隱藏變量,需要持續(xù)探索。
3.4 實時分析能力逐步成為基本需求
OSS數(shù)據(jù)的一個特點是更新速度快,如用戶對網(wǎng)絡(luò)的體驗、網(wǎng)絡(luò)故障診斷和位置更新信息,都是在秒級或者分鐘級采集產(chǎn)生的。這些數(shù)據(jù)一旦不及時處理分析,將失去商業(yè)價值。例如,客戶當(dāng)時上網(wǎng)體驗不好(例如無法使用支付寶或者微信支付出租車費),很有可能會即時撥打投訴電話,因此需要即時得到分析結(jié)果,并做一些補償措施,給用戶良好的體驗。又例如網(wǎng)絡(luò)故障診斷,需要在故障發(fā)生之后,立即分析并隔離相關(guān)的網(wǎng)絡(luò)單元,啟動備用方案?;谖恢玫臓I銷需要及時判斷用戶的當(dāng)前位置,推送附近商鋪的合理產(chǎn)品,或者是當(dāng)用戶靠近營業(yè)廳附近時,推送合適的業(yè)務(wù)服務(wù)。實時分析能力需要流處理架構(gòu)和在線學(xué)習(xí)算法,通過統(tǒng)計、預(yù)測一個短時間窗口內(nèi)的數(shù)據(jù)流,迅速更新模型參數(shù),并做出決策。之后的決策都基于模型,不需要重新學(xué)習(xí)歷史數(shù)據(jù),因此大大加快了模型的更新速度和分析速度,達(dá)到實時處理的目標(biāo)。尤其對于海量OSS數(shù)據(jù),流處理和在線學(xué)習(xí)技術(shù)是非常必要的。另一個挑戰(zhàn)的技術(shù)方向是時間序列的挖掘,如何在數(shù)據(jù)流中快速捕捉數(shù)據(jù)在時序上的依賴關(guān)系(上下文關(guān)系),做出準(zhǔn)確的預(yù)測,仍然十分困難,需要持續(xù)研究。
圖6 根本原因推斷算法輔助商業(yè)智能
3.5 時空數(shù)據(jù)挖掘
電信數(shù)據(jù)相較于其他數(shù)據(jù)的一個核心優(yōu)勢就是含有用戶細(xì)粒度的時空行為信息。有效的挖掘并利用這些時空數(shù)據(jù)可以充分地發(fā)揮電信數(shù)據(jù)的價值。但是,電信時空數(shù)據(jù)的挖掘面臨4個核心挑戰(zhàn):數(shù)據(jù)的不精確性、數(shù)據(jù)的超稀疏性、數(shù)據(jù)的強依賴性和異構(gòu)性,如圖7所示。數(shù)據(jù)的不精確性是指通過電信數(shù)據(jù)計算的用戶位置精度遠(yuǎn)低于GPS精度(但是電信位置數(shù)據(jù)的好處是不需要客戶端任何負(fù)擔(dān),位置數(shù)據(jù)天然存在于網(wǎng)絡(luò)側(cè))。如圖7中淺色圓圈是某區(qū)域用戶真實GPS位置,淺色圓圈是使用基于距離的定位算法從電信記錄恢復(fù)的用戶位置[2]??梢钥吹街苯邮褂煤唵蔚幕谖恢玫亩ㄎ凰惴?,數(shù)據(jù)存在很大的不精確性。如何設(shè)計更好的定位算法,如充分利用指紋和地圖等信息,降低位置數(shù)據(jù)的不確定性,是第1個挑戰(zhàn)。第2個挑戰(zhàn)是數(shù)據(jù)的超稀疏性。每個用戶只會出現(xiàn)在城市的一個很小的區(qū)域和一些小的時間片段中。如果把所有用戶的時空數(shù)據(jù)放在一起,把每個小時間片段和地點的組合看成一個記錄點,一個用戶在絕大多數(shù)的記錄點都是沒有信息的。所以時空數(shù)據(jù)是一個超稀疏的數(shù)據(jù)集,如何處理并清洗這種超稀疏的數(shù)據(jù)集是一個技術(shù)挑戰(zhàn)。時空數(shù)據(jù)有很強的時間和空間關(guān)聯(lián)關(guān)系,如果按照時間切片或者地點切分將時空數(shù)據(jù)輸入數(shù)據(jù)挖掘模型,這種關(guān)聯(lián)關(guān)系就無法被有效地使用[3]。如何有效地組合使用有效的算法,如時間序列和神經(jīng)網(wǎng)絡(luò)來有效地表述時空數(shù)據(jù)的時空強依賴性,是第3個技術(shù)挑戰(zhàn)。第4個技術(shù)挑戰(zhàn)是時空數(shù)據(jù)和其他數(shù)據(jù)結(jié)合時導(dǎo)致的數(shù)據(jù)異構(gòu)性,如圖、文本挖掘都需要考慮相關(guān)數(shù)據(jù)產(chǎn)生的時間和地點才能進行更有效的信息提取。
圖7 電信時空數(shù)據(jù)挖掘的4個核心挑戰(zhàn)
3.6 知識管理是智慧延展的基礎(chǔ)
運營商每年有大量業(yè)務(wù)人員沉淀經(jīng)驗知識用于營銷、網(wǎng)絡(luò)優(yōu)化和客服。大部分知識都是通過文本的形式保存下來,但是這并不方便查詢和尋找知識之間的關(guān)系。文本挖掘的一個重要方向是自動構(gòu)建知識圖譜,通過發(fā)現(xiàn)文檔中知識單元之間的相互關(guān)系,方便用戶查詢和學(xué)習(xí)。如圖8所示,左邊是從幾十萬份網(wǎng)絡(luò)故障相關(guān)的文本中提出的關(guān)鍵詞(知識單元)和相互之間的關(guān)系,通過點擊相關(guān)的知識單元,可以查到對應(yīng)的文本摘要,大大縮短定位問題的時間。類似地,客服系統(tǒng)每年都存有大量用戶投訴咨詢記錄,通過構(gòu)建知識圖譜,可以容易地發(fā)現(xiàn)投訴熱點,并做出持續(xù)改進,節(jié)省大量人力、物力。
3.7 多媒體數(shù)據(jù)挖掘
電信數(shù)據(jù)中的多媒體數(shù)據(jù)主要指客服的語音記錄。語音記錄中包含了客戶關(guān)注的問題和客服服務(wù)質(zhì)量和有效性信息。與客服人員手工記錄的文字信息相比,客服語音信息包含更原始和真實的信息,如客戶的情緒、關(guān)注點和客服的效率等信息。有效地挖掘這些信息可以自動化地發(fā)現(xiàn)咨費、網(wǎng)絡(luò)、服務(wù)和競爭對手的問題,提升服務(wù)質(zhì)量。語音數(shù)據(jù)中提取的特征也可以被有效地應(yīng)用于其他數(shù)據(jù)挖掘模型。語音數(shù)據(jù)的處理包含兩個部分,語音識別和文本自然語言處理。語音識別主要有兩個挑戰(zhàn),一個是當(dāng)前電信記錄系統(tǒng)很多是8音道數(shù)據(jù),數(shù)據(jù)質(zhì)量較差;另一個挑戰(zhàn)是語音中含有很多方言和電信業(yè)務(wù)相關(guān)專用詞匯,需要特殊的算法提升識別精度。語音識別為文本后,需要自然語言處理算法準(zhǔn)確地提取關(guān)注主題、客戶情緒和服務(wù)質(zhì)量等信息。當(dāng)前深度學(xué)習(xí)技術(shù)已經(jīng)在百度和谷歌等公司的語音識別①Baidu.Deep speech[EB/OL].(2014-12-19) [2015-11-10].http://36kr.com/ p/217970.html和自然語言處理②Google.com.NLP Group[EB/OL].[2015-11-10].http://research.google.com/pubs/ NaturalLanguage Processing.html方面顯示出強大的能力。如圖9所示,如何針對電信語音數(shù)據(jù)設(shè)計合適的深度學(xué)習(xí)算法是多媒體數(shù)據(jù)挖掘的技術(shù)挑戰(zhàn)。
圖8 知識圖譜用于沉淀并管理業(yè)務(wù)知識
圖9 深度學(xué)習(xí)技術(shù)應(yīng)用于多媒體數(shù)據(jù)挖掘
3.8 圖數(shù)據(jù)挖掘與社交分析
電信數(shù)據(jù)包含3種基本的用戶社交網(wǎng)絡(luò):電話網(wǎng)絡(luò)、短信網(wǎng)絡(luò)和用戶接觸網(wǎng)絡(luò)。圖挖掘技術(shù)已經(jīng)在很多數(shù)據(jù)挖掘場景(如推薦系統(tǒng))中取得了很好的效果。電信圖數(shù)據(jù)的主要特點是每個圖不僅包含社交信息,還包含社交發(fā)生的時間和地點信息。含有時間和地點的圖的分析算法需要新的設(shè)計[4]。如何在時間和地點都有約束的網(wǎng)絡(luò)中構(gòu)建有效的并行分析算法,并將算法結(jié)果轉(zhuǎn)化為模型分析的重要特征是一個技術(shù)挑戰(zhàn)。如圖10所示。
3.9 隱私保護
電信數(shù)據(jù)含有用戶的通信行為、消費行為、互聯(lián)網(wǎng)行為、社交行為和時空行為等高隱私信息。隱私保護是需要考慮的一個核心技術(shù)。當(dāng)前隱私保護最有效的方法是差分隱私保護[5]。差分隱私將數(shù)據(jù)分析人員和分析數(shù)據(jù)隔離,保證攻擊者在有任何背景知識的情況下,都只能以極小的概率區(qū)分某個特定用戶是否在數(shù)據(jù)集中。如何將差分隱私保護緊密地結(jié)合在電信挖掘的算法中是一個值得研究的課題。從當(dāng)前實際系統(tǒng)需求分析,另外一個更加重要的隱私問題是防止數(shù)據(jù)濫用技術(shù)的研發(fā)。當(dāng)前數(shù)據(jù)挖掘都是經(jīng)過用戶授權(quán)使用數(shù)據(jù),但是電信運營商為了保障數(shù)據(jù)隱私安全,要求分析人員只能在嚴(yán)格控制的內(nèi)網(wǎng)分析匿名數(shù)據(jù),從而隔絕分析人員和分析數(shù)據(jù)。而推薦系統(tǒng)等應(yīng)用需要不斷迭代的特征工程以保證最優(yōu)的挖掘效果,在這種場景下的分析技術(shù)尚不成熟,例如無法不斷迭代特征工程來保證推薦系統(tǒng)等應(yīng)用的最優(yōu)挖掘效果。實際商業(yè)中最緊迫的場景是和第三方合作,即授權(quán)第三方使用數(shù)據(jù)完成某項數(shù)據(jù)挖掘任務(wù)(用戶授權(quán)情況下)時,如何限制分享的數(shù)據(jù)只能被用在這個特定的數(shù)據(jù)挖掘任務(wù)而不被使用在任何其他場景,即閱后即焚的功能。
圖10 電信圖數(shù)據(jù)挖掘與社交分析
電信大數(shù)據(jù)沉淀于通信管道內(nèi),覆蓋12億中國用戶,需要運營商、設(shè)備商和大數(shù)據(jù)產(chǎn)業(yè)鏈共同努力以發(fā)揮其巨大的商業(yè)價值。本文提出的9個技術(shù)挑戰(zhàn)中,一部分已經(jīng)有相對完善的解決方案,但大部分還需要研發(fā)人員和市場人員的努力,在數(shù)據(jù)挖掘和商業(yè)模式方面做進一步突破。2014年是中國電信大數(shù)據(jù)元年,到2015年,電信大數(shù)據(jù)已經(jīng)在用戶洞察、網(wǎng)絡(luò)洞察和數(shù)據(jù)開放3個業(yè)務(wù)方向上積累了不少成功的經(jīng)驗。隨著技術(shù)進步,電信大數(shù)據(jù)將逐漸釋放巨大的商業(yè)價值,提升用戶體驗,降低運營成本,催熟整個大數(shù)據(jù)產(chǎn)業(yè)鏈。
[1] HUANG Y Q, ZHU F Z, YUAN M X, et al.Telco churn prediction with big data[C]// The 2015 ACM SIGMOD International Conference on Management of Data, May 31-June 4, 2015, Melbourne, VIC, Australia.New York: ACM Press, 2015: 607-618.
[2] LI Z T, LI R F, WEI Y H, et al.Survey of localization techniques in wireless sensor networks[J].Information Technology Journal, 2010, 99(8): 1754-1757.
[3] SHANG J B, ZHENG Y, TONG W Z, et al.Inferring gas consumption and pollution emission of vehicles throughout a city[C]// The 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, August 24-27, 2014, New York, USA.New York: ACM Press, 2014: 1027-1036.
[4] WU H H, CHENG J, HUANG S L, et al.Path problems in temporal graphs[C]// The VLDB Endowment, September 1-5, Hangzhou, China.New York: ACM Press, 2014: 721-732.
[5] HU X Y, YUAN M X, YAO J G, et al.Differential privacy in telco big data platform[C]//The 41st International Conference on Very Large Data Bases, August 31-September 4, Hawaii, USA.[S.l.:s.n.], 2015: 1692-1703.
* 本文為2015中國大數(shù)據(jù)技術(shù)大會(BDTC)演講約稿
Key technical challenges in telecom big data
ZENG Jia1, LIU Shikai2, YUAN Mingxuan1
1.Huawei Noah’s Ark Lab, Hong Kong 999077, China
2.Huawei Big Data Product and Solution, Nanjing 210012, China
Big data has been improving steadily user experience and productivity.Telecom big data comes from the telecommunication platform composed of the BSS (business supporting system) and OSS (operation supporting system), which accumulate billions of customers’ 7-dimensional (7D) data including 1D for real ID, 1D for customer behavior data, 1D for social network, 1D for time series and 3D for spatial information.Telecom big data platform can support modeling of 7D customer data, which enables three business upgrades, including customer insight, network insight and data openness.9 technical challenges of telecom big data analytics and possible solutions were described and discussed.
telecom big data, customer insight, network insight, data openness
TP391
A
10.11959/j.issn.2096-0271.2016034
曾嘉(1980-),男,博士,華為諾亞方舟實驗室高級研究員和項目經(jīng)理,主要研究方向為機器學(xué)習(xí)算法和時空數(shù)據(jù)挖掘,近期特別在大規(guī)模概率主題建模算法做出一系列改進。在相關(guān)頂級學(xué)術(shù)期刊和會議(TPAMI、JMLR、TKDE、TIST、TFS、SIGMOD、VLDB、WWW、ICDM)發(fā)表過多篇文章,目前是CCF/ACM會員、IEEE高級會員。
劉詩凱(1983-),男,華為大數(shù)據(jù)分析產(chǎn)品部主任工程師,主要研究方向為電信業(yè)務(wù)場景下分析技術(shù)的自動化,包含特征表達(dá)、參數(shù)搜索等。在2015年中國大數(shù)據(jù)技術(shù)大會、2014中國移動技術(shù)大會上做過技術(shù)專題介紹。
袁明軒(1980-),男,華為諾亞方舟實驗室研究員,主要研究方向為電信數(shù)據(jù)管理與挖掘、時空數(shù)據(jù)管理與挖掘。2013-2015年,作為核心成員成功完成電信領(lǐng)域多個數(shù)據(jù)挖掘系統(tǒng)的研發(fā)與實際部署應(yīng)用。
2015-12-30