楊明川+賈元昕
隨著互聯(lián)網(wǎng)+的提出與發(fā)展,大數(shù)據(jù)分析作為傳統(tǒng)行業(yè)分析、利用數(shù)據(jù)的技術(shù)手段,迎來了新的發(fā)展。電信運營商具有得天獨厚的數(shù)據(jù)優(yōu)勢,但數(shù)據(jù)質(zhì)量、分析能力及隱私安全等問題對運營商發(fā)展大數(shù)據(jù)提出了更高的要求。本文總結(jié)中國電信“燈塔大數(shù)據(jù)行業(yè)應(yīng)用平臺”過程中的一些經(jīng)驗,探討了中國電信運營商在大數(shù)據(jù)領(lǐng)域的技術(shù)創(chuàng)新與研究成果,面向互聯(lián)網(wǎng)+的大數(shù)據(jù)挑戰(zhàn)進(jìn)行分析。
互聯(lián)網(wǎng)+在大數(shù)據(jù)應(yīng)用中的機(jī)遇與挑戰(zhàn)在大數(shù)據(jù)浪潮中,電信運營商是率先開展大數(shù)據(jù)研究和應(yīng)用的行業(yè)之一。通過利用運營商海量的網(wǎng)絡(luò)大數(shù)據(jù)資源,各個運營商都構(gòu)建大數(shù)據(jù)平臺并開展大數(shù)據(jù)創(chuàng)新。對燈塔大數(shù)據(jù)定位于整合多源數(shù)據(jù)、打造能力平臺、創(chuàng)新行業(yè)應(yīng)用, 通過對800億電信數(shù)據(jù)的脫敏、互聯(lián)網(wǎng)數(shù)據(jù)(來自地產(chǎn)、金融和社交)的抓取和對第三方(如法院、銀行、人力)數(shù)據(jù)的接入,形成龐大的相對基層的數(shù)據(jù)量;并對多源數(shù)據(jù)進(jìn)行整合,控制數(shù)據(jù)質(zhì)量,增強(qiáng)數(shù)據(jù)融合,同時對數(shù)據(jù)能力封裝,由此開展數(shù)據(jù)行業(yè)應(yīng)用創(chuàng)新。
在大數(shù)據(jù)應(yīng)用到互聯(lián)網(wǎng)+的過程中,目前發(fā)現(xiàn)還有大量的問題需要解決(見圖),主要包括如下三個方面:
數(shù)據(jù)質(zhì)量不高是常態(tài),如何建立更加有效的分析方法?
數(shù)據(jù)的價值密度是關(guān)鍵,如何尋找價值高地?
用戶的隱私保護(hù)日益重要,如何找到平衡點?
運營商大數(shù)據(jù)關(guān)鍵技術(shù)研究
為了有效的服務(wù)于互聯(lián)網(wǎng)+,大數(shù)據(jù)需要在如下幾個方面進(jìn)行技術(shù)突破:
(1) 數(shù)據(jù)拼接技術(shù)
(2) 高階深度標(biāo)簽技術(shù)
(3) 行業(yè)知識建模技術(shù)
(4) 基于場景的智能推薦技術(shù)
(5) 海量模糊數(shù)據(jù)降維和關(guān)聯(lián)分析技術(shù)
(6) 大規(guī)模交互式數(shù)據(jù)可視化技術(shù)
(7) 數(shù)據(jù)安全和隱私保護(hù)
文本對其中幾個關(guān)鍵技術(shù)進(jìn)行介紹。
數(shù)據(jù)拼接技術(shù)
大數(shù)據(jù)的一個特征是異構(gòu)多維,只有將來自不同來源的異構(gòu)數(shù)據(jù)進(jìn)行有效的整合,才能真正發(fā)揮大數(shù)據(jù)的價值。猶如瞎子摸象,每個單一來源都只涉及一個單一的側(cè)面,只有把不同的側(cè)面重新組合并且關(guān)聯(lián)起來,才能完整的拼出一只“大象”。但是這個工作遠(yuǎn)比想象的要難,原因有幾個方面:數(shù)據(jù)格式不同;數(shù)據(jù)標(biāo)識(ID)不同;數(shù)據(jù)覆蓋不同;數(shù)據(jù)計量標(biāo)準(zhǔn)不同(特別是經(jīng)過一定處理后數(shù)據(jù));大量的數(shù)據(jù)噪聲(重復(fù)數(shù)據(jù),錯誤數(shù)據(jù))。這些因素導(dǎo)致將不同數(shù)據(jù)拼接成一個完整的立體數(shù)據(jù)具有非常大的挑戰(zhàn)。
然而,在這方面,運營商有較大的資源優(yōu)勢。結(jié)合運營商數(shù)據(jù)廣度覆蓋的特點,有可能作為所有數(shù)據(jù)的基礎(chǔ)數(shù)據(jù)而實現(xiàn)數(shù)據(jù)拼接功能。在技術(shù)上,我們開發(fā)了基于圖的數(shù)據(jù)模型,進(jìn)行數(shù)據(jù)拼接。
高階深度標(biāo)簽技術(shù)
用戶畫像一直是大數(shù)據(jù)研究的重點方向。在DMP中,系統(tǒng)根據(jù)用戶訪問軌跡來打標(biāo)簽,但是DMP通常僅僅通過關(guān)鍵詞提取來打標(biāo)簽。為了進(jìn)一步滿足行業(yè)大數(shù)據(jù)的應(yīng)用需求,我們需要補(bǔ)充兩類標(biāo)簽,一類是模糊標(biāo)簽;一類是抽象標(biāo)簽。模糊標(biāo)簽是因為數(shù)據(jù)缺失而需要通過算法來補(bǔ)全的標(biāo)簽,例如用戶的性別屬性,如果基礎(chǔ)數(shù)據(jù)里面沒有這個屬性,我們就需要通過機(jī)器學(xué)習(xí)算法去預(yù)測這個值,而且這個值往往是一個概率。抽象標(biāo)簽是針對一類高階的屬性,例如用戶購買力,用戶購物模式,用戶口味偏好等,去建立標(biāo)簽?zāi)P?。在燈塔平臺中,我們建立了一套相對比較完整的深度標(biāo)簽體系。
圖3是分別用TAN和NBC算法進(jìn)行標(biāo)簽計算的效果:
行業(yè)知識建模技術(shù)
在互聯(lián)網(wǎng)+結(jié)合行業(yè)大數(shù)據(jù)的過程中,行業(yè)知識的獲取和利用是關(guān)鍵的一環(huán)。只有將行業(yè)知識通過建模數(shù)據(jù)化,才能將行業(yè)知識和其他數(shù)據(jù)進(jìn)行混合和關(guān)聯(lián)處理。行業(yè)知識建??梢苑譃閮蓚€層次:第一個層次是行業(yè)字典,通過大規(guī)模爬蟲,可以將行業(yè)信息轉(zhuǎn)化為行業(yè)字典。目前,燈塔平臺已經(jīng)積累了超過三億條行業(yè)字典,包括一億條電商字典,五千萬條視頻字典;第二個層次是知識圖譜,字典的缺點是信息之間缺乏關(guān)聯(lián)性,我們通過構(gòu)建知識圖譜,去建立語義級的行業(yè)知識。
基于場景的智能推薦技術(shù)
推薦系統(tǒng)是非常成熟的大數(shù)據(jù)精準(zhǔn)營銷技術(shù),目前已經(jīng)在廣告、電商、視頻、閱讀等領(lǐng)域得到了廣泛的應(yīng)用。但是,通常的推薦系統(tǒng)往往存在推薦效率不高,重復(fù)推薦,過度推薦等問題。在大數(shù)據(jù)的場景下,我們結(jié)合地理位置分析和場景識別技術(shù),對推薦系統(tǒng)進(jìn)行了優(yōu)化。
大數(shù)據(jù)交互式可視化技術(shù)
數(shù)據(jù)可視化不僅僅是大數(shù)據(jù)分析結(jié)果的直觀展現(xiàn),更重要的是一種分析數(shù)據(jù)關(guān)聯(lián)性的方法和手段。通過交互式數(shù)據(jù)可視化的方法,可以從不同的角度去分析數(shù)據(jù),并直接得到結(jié)果。交互式可視化在技術(shù)上最大的難點在于針對大規(guī)模數(shù)據(jù)進(jìn)行可視化操作的時候性能優(yōu)化。例如基于地理的可視化數(shù)據(jù)分析,需要在不同的放大尺度下對數(shù)據(jù)進(jìn)行實時的歸并和關(guān)聯(lián)性計算。圖5是通過地理位置和人群信息模型進(jìn)行交互式可視化,實現(xiàn)人口遷徙分析的案例。
中國電信大數(shù)據(jù)的探索與實踐
通過在互聯(lián)網(wǎng)+的大數(shù)據(jù)關(guān)鍵技術(shù)突破,燈塔大數(shù)據(jù)團(tuán)隊構(gòu)建了面向互聯(lián)網(wǎng)+的行業(yè)大數(shù)據(jù)平臺。
在燈塔平臺的基礎(chǔ)之上,打造了一套完整的5+1+1大數(shù)據(jù)產(chǎn)品體系,即5個直客產(chǎn)品方向、1個流量入口、1個能力平臺。中國電信面向行業(yè)垂直領(lǐng)域直接客戶,結(jié)合燈塔平臺的能力,開發(fā)5類細(xì)分產(chǎn)品并逐步商用,并且根據(jù)融合數(shù)據(jù)、整合深度標(biāo)簽、ID圖譜、GIS、爬蟲、行業(yè)字典等平臺能力,面向行業(yè)和政府提供技術(shù)解決方案。
互聯(lián)網(wǎng)+的提出與發(fā)展為作為基礎(chǔ)設(shè)施的大數(shù)據(jù)帶來了新的發(fā)展契機(jī),是傳統(tǒng)行業(yè)與互聯(lián)網(wǎng)融合的一種有效的手段;運營商發(fā)展大數(shù)據(jù)應(yīng)用已經(jīng)成為一種趨勢,然而數(shù)據(jù)處理的障礙使得尋求技術(shù)創(chuàng)新與轉(zhuǎn)型成為必然;中國電信“燈塔”大數(shù)據(jù)行業(yè)應(yīng)用平臺力圖打造大數(shù)據(jù)行業(yè)應(yīng)用生態(tài)圈,加速產(chǎn)業(yè)升級和商業(yè)模式創(chuàng)新,提供零售研究、消費者研究、店鋪選址、精準(zhǔn)營銷、泛義征信,背景調(diào)查等服務(wù),通過技術(shù)創(chuàng)新和應(yīng)用創(chuàng)新共同驅(qū)動,分析利用互聯(lián)網(wǎng)中的大數(shù)據(jù),使世界更加扁平化,同時也為自身轉(zhuǎn)型走出了一條創(chuàng)新之路。