汪曉東
【摘 要】通過大數(shù)據(jù)的研究處理將獲得的有用信息服務(wù)于企業(yè)或機構(gòu),使其在競爭中取得優(yōu)勢,來為企業(yè)提供更好的處理大數(shù)據(jù)的方法,幫助企業(yè)更深刻的理解客戶對其的需求和體驗,以利于業(yè)務(wù)的發(fā)展,用戶也可以更好地體驗移動互聯(lián)網(wǎng)各種資源。本文首先對移動互聯(lián)網(wǎng)大數(shù)據(jù)做了概述,然后分析了移動互聯(lián)網(wǎng)大數(shù)據(jù)處理中存在的問題,最后詳細闡述了移動互聯(lián)網(wǎng)的大數(shù)據(jù)處理關(guān)鍵技術(shù)。
【關(guān)鍵詞】移動互聯(lián)網(wǎng);大數(shù)據(jù);處理;排重;整合
一、移動互聯(lián)網(wǎng)大數(shù)據(jù)概述
移動互聯(lián)網(wǎng)大數(shù)據(jù)是指用戶使用智能終端在移動網(wǎng)絡(luò)中產(chǎn)生的數(shù)據(jù),主要包括:與網(wǎng)絡(luò)信令、協(xié)議、流量等相關(guān)的網(wǎng)絡(luò)信息數(shù)據(jù);與用戶信息相關(guān)的用戶數(shù)據(jù);與業(yè)務(wù)相關(guān)的數(shù)據(jù)。
大數(shù)據(jù)提供客戶經(jīng)歷的各種體驗的完整信息,可以詳盡到在任何時間、地點,結(jié)合移動客戶體驗方案來分析相關(guān)數(shù)據(jù),從而幫助運營商更詳細掌握客戶體驗情況,提前預(yù)知網(wǎng)絡(luò)上可能發(fā)生的問題,及時做出合理響應(yīng),這些信息對運營商的服務(wù)提供很大的幫助。大數(shù)據(jù)分析為整個電信產(chǎn)業(yè)帶來了前所未有的機遇與挑戰(zhàn),如何高效地發(fā)揮這些數(shù)據(jù)資源的作用,是擺在為運營商面前的關(guān)鍵問題。
二、移動互聯(lián)網(wǎng)大數(shù)據(jù)處理中存在的問題
(一)多源數(shù)據(jù)采集問題
大數(shù)據(jù)時代的數(shù)據(jù)存在如下幾個特點:多源異構(gòu)、分布廣泛、動態(tài)增長、先有數(shù)據(jù)后有模式。舉例來說,一個用戶的一條位置信息的價值是很小的,但是很多這樣的低價值數(shù)據(jù)可以完整刻畫出用戶的運動軌跡,獲得本質(zhì)上的價值提升。然而,在已有的數(shù)據(jù)采集系統(tǒng)中,數(shù)據(jù)收集不全面是一個普遍的問題,如何處理來自多源的數(shù)據(jù)是移動互聯(lián)網(wǎng)大數(shù)據(jù)時代面臨的新挑戰(zhàn)。其中,迫切需要解決如下幾個問題:
1.無線移動網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,需要在網(wǎng)絡(luò)中高效地采集數(shù)據(jù)。
2.多源數(shù)據(jù)集成和多類型數(shù)據(jù)集成的技術(shù)。
3.兼顧用戶的隱私和數(shù)據(jù)的所有權(quán)和使用權(quán)等。
(二)移動互聯(lián)網(wǎng)海量異構(gòu)數(shù)據(jù)管理問題
據(jù)統(tǒng)計,2003年前人類共創(chuàng)造了5艾字節(jié)(Exabytes)的數(shù)據(jù),而今天兩天的時間就可以創(chuàng)造如此大量的數(shù)據(jù)。這些數(shù)據(jù)大部分是異構(gòu)數(shù)據(jù),有些具有用戶標注、有些沒有;有些是結(jié)構(gòu)化的(比如數(shù)值、符號)、有些是非結(jié)構(gòu)化話的(比如圖片、聲音);有些時效性強、有些時效性弱;有些價值度高、有些價值度低。移動互聯(lián)網(wǎng)海量異構(gòu)數(shù)據(jù)管理平臺包含以下關(guān)鍵研究和技術(shù):海量異構(gòu)大數(shù)據(jù)傳輸控制、大數(shù)據(jù)存儲、大數(shù)據(jù)質(zhì)量管理。
(三)移動互聯(lián)網(wǎng)大數(shù)據(jù)實時數(shù)據(jù)挖掘問題
傳統(tǒng)意義上的數(shù)據(jù)分析(Analysis)主要針對結(jié)構(gòu)化數(shù)據(jù)展開,且已經(jīng)形成了一整套行之有效的分析體系。首先,利用數(shù)據(jù)庫來存儲結(jié)構(gòu)化數(shù)據(jù),在此基礎(chǔ)上構(gòu)建數(shù)據(jù)倉庫,根據(jù)需要構(gòu)建數(shù)據(jù)立方體進行聯(lián)機分析處理(OLAP,OnlineAnalyticalProcessing),可以進行多個維度的下鉆(Drill-down)或上卷(Roll-up)操作。對于從數(shù)據(jù)中提煉更深層次的知識的需求促使了數(shù)據(jù)挖掘技術(shù)的產(chǎn)生,并發(fā)明了聚類、關(guān)聯(lián)分析等一系列在實踐中行之有效的方法。這一整套處理流程在處理相對較少的結(jié)構(gòu)化數(shù)據(jù)時極為高效。但是,對于移動互聯(lián)網(wǎng)來說,涉及更多的是多模態(tài)數(shù)據(jù)挖掘,這些數(shù)據(jù)包括手機上的傳感器,包括加速度計、陀螺儀、指南針、GPS、麥克風(fēng)、攝像頭、以及各種無線信號(如GSM、WiFi)和藍牙等。這些原始數(shù)據(jù)在不同維度上刻畫被感知的對象,需要經(jīng)過不同層次的加工和提煉才能形成從數(shù)據(jù)到信息再到知識的飛躍。移動互聯(lián)網(wǎng)半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)量的迅猛增長,給傳統(tǒng)的分析技術(shù)帶來了巨大的沖擊和挑戰(zhàn)。
三、移動互聯(lián)網(wǎng)的大數(shù)據(jù)處理關(guān)鍵技術(shù)
(一)數(shù)據(jù)處理的整體框架
數(shù)據(jù)處理的整個過程如下圖所示,主要包括四個模塊:分詞(WordsAnalyze)、排重(ContentDeduplicate)、整合(Integrate)和數(shù)據(jù)。
這四個模塊的主要功能如下。
分詞:對抓取到的網(wǎng)頁內(nèi)容進行切詞處理。
排重:對眾多的網(wǎng)頁內(nèi)容進行排重。
整合:對不同來源的數(shù)據(jù)內(nèi)容進行格式上的整合。
數(shù)據(jù):包含兩方面的數(shù)據(jù),SpiderData(爬蟲從網(wǎng)頁中抽取出來的數(shù)據(jù))和DpData(在整個數(shù)據(jù)處理過程中產(chǎn)生的的數(shù)據(jù))。
(二)數(shù)據(jù)處理的基本流程
整個數(shù)據(jù)處理過程的基本步驟如下:
1.對抓取來的網(wǎng)頁內(nèi)容進行分詞;
2.將分詞處理的結(jié)果寫入數(shù)據(jù)庫;
3.對抓取來的網(wǎng)頁內(nèi)容進行排重;
4.將排重處理后的數(shù)據(jù)寫入數(shù)據(jù)庫;
5.根據(jù)之前的處理結(jié)果,對數(shù)據(jù)進行整合;
6.將整合后的結(jié)果寫入數(shù)據(jù)庫。
(三)數(shù)據(jù)處理的關(guān)鍵技術(shù)
1.排重
排重就是排除掉與主題相重復(fù)項的過程,網(wǎng)頁排重就是通過兩個網(wǎng)頁之間的相似度來排除重復(fù)項。Simhash算法是一種高效的海量文本排重算法,相比于余弦角、歐式距離、Jaccard相似系數(shù)等算法,Simhash避免了對文本兩兩進行相似度比較的復(fù)雜方式,從而大大提高了效率。
采用Simhash算法來進行抓取網(wǎng)頁內(nèi)容的排重,可以容納更大的數(shù)據(jù)量,提供更快的數(shù)據(jù)處理速度,實現(xiàn)大數(shù)據(jù)的快速處理。
Simhash算法的基本思想描述如下:輸入為一個N維向量V,比如文本的特征向量,每個特征具有一定權(quán)重。輸出是一個C位的二進制簽名S。
(1)初始化一個C維向量Q為0,C位的二進制簽名S為0。
(2)對向量V中的每一個特征,使用傳統(tǒng)的Hash算法計算出一個C位的散列值H。對1<=i<=C,如果H的第i位為1,則Q的第i個元素加上該特征的權(quán)重;否則,Q的第i個元素減去該特征的權(quán)重。
(3)如果Q的第i個元素大于0,則S的第i位為1;否則為0。
(4)返回簽名S。
對每篇文檔根據(jù)SimHash算出簽名后,再計算兩個簽名的海明距離(兩個二進制異或后1的個數(shù))即可。根據(jù)經(jīng)驗值,對64位的SimHash,海明距離在3以內(nèi)的可以認為相似度比較高。
2.整合
整合就是把抓取來的網(wǎng)頁內(nèi)容與各個公司之間建立對應(yīng)關(guān)系。對于每一個公司來說,可以用一組關(guān)鍵詞來對該公司進行描述,同樣的,經(jīng)過dp處理之后的網(wǎng)頁內(nèi)容,也可以用一組關(guān)鍵詞來進行描述。因此,整合就變成了兩組關(guān)鍵詞(公司關(guān)鍵詞,內(nèi)容關(guān)鍵詞)之間的匹配。
對于網(wǎng)頁內(nèi)容的分詞結(jié)果來說,存在著兩個特點:(1)分詞結(jié)果的數(shù)量很大;(2)大多數(shù)的分詞對描述該網(wǎng)頁內(nèi)容來說是沒有貢獻的。因此,對網(wǎng)頁的分詞結(jié)果進行一下簡化,使用詞頻最高的若干個詞匯來描述該網(wǎng)頁內(nèi)容。
3.流處理系統(tǒng)
移動互聯(lián)網(wǎng)的多源異構(gòu)數(shù)據(jù)每時每刻都在大量產(chǎn)生著。數(shù)據(jù)探測模塊根據(jù)這些數(shù)據(jù)處理的不同要求,將數(shù)據(jù)分別送給實時處理系統(tǒng)和批處理系統(tǒng)。很多互聯(lián)網(wǎng)公司將根據(jù)業(yè)務(wù)的需求和處理的時間將劃分為在線、近線和離線三種方式來處理業(yè)務(wù)消耗的時間。這其中,在線處理的處理時間通常在毫秒級,一般采用流處理方式;離線處理的處理時間通常以天為單位,一般采用批處理方式。這樣會最大程度地利用好輸入/輸出系統(tǒng)。近線處理對其處理模式?jīng)]有特別的要求,處理的時間一般在分鐘級或小時級,在實際情況中多采用此處理方式,可根據(jù)需求靈活選擇。
四、結(jié)語
綜上,隨著移動互聯(lián)網(wǎng)的迅猛發(fā)展,客戶處理的業(yè)務(wù)越來越復(fù)雜,與其相關(guān)的大數(shù)據(jù)正逐漸增長,大數(shù)據(jù)分析技術(shù)已經(jīng)成為各方關(guān)注的焦點。合理使用大數(shù)據(jù)將有效的發(fā)揮移動互聯(lián)網(wǎng)大數(shù)據(jù)的資源作用,使大數(shù)據(jù)為用戶獲得前所未有的體驗,為企業(yè)發(fā)展提供完整清晰的指引。
參考文獻:
[1]張錚.淺析網(wǎng)絡(luò)大數(shù)據(jù)的采集和處理方法[J].信息系統(tǒng)工程.2015(10)
[2]劉智慧,張泉靈.大數(shù)據(jù)技術(shù)研究綜述[J].浙江大學(xué)學(xué)報(工學(xué)版).2014(06)
[3]王秀磊,劉鵬.大數(shù)據(jù)關(guān)鍵技術(shù)[J].中興通訊技術(shù).2013(04)