翟金亭
關(guān)鍵詞:Spark;大數(shù)據(jù);分析管理;應(yīng)用研究
1引言
隨著互聯(lián)網(wǎng)、云計算和人工智能的快速發(fā)展,人們的日常生活和工作中會產(chǎn)生大量的小文件,如圖片、信息等數(shù)據(jù)文件。這些小文件數(shù)據(jù)規(guī)模越來越大,因此,高效地管理海量小文件數(shù)據(jù)是非常重要的應(yīng)用需求。數(shù)字?jǐn)?shù)據(jù)的數(shù)量爆炸使得研究人員和開發(fā)人員尋找更加科學(xué)合理的新方法,“大數(shù)據(jù)”應(yīng)運而生。大數(shù)據(jù)分析對于管理海量數(shù)據(jù)具有重要的意義,從已有的數(shù)據(jù)資源中挖掘更有價值的知識具有重要的作用。大數(shù)據(jù)在擴展性,復(fù)雜性,速度等方面都面臨不一樣的挑戰(zhàn),擴展性是指以指數(shù)形式將數(shù)據(jù)量由Terabytes發(fā)展為Petabytes, Exabyt, Zettabyt, Yottabyt等;復(fù)雜性意味著數(shù)據(jù)具有多樣性,可表現(xiàn)為結(jié)構(gòu)化,非結(jié)構(gòu)化以及半結(jié)構(gòu)化,其內(nèi)容涵蓋了多種格式,種類以及結(jié)構(gòu),如文本、數(shù)字、圖像、音頻、視頻、順序、時間序列、社交媒體數(shù)據(jù)以及多維數(shù)組[1-3]。
近年來,數(shù)字?jǐn)?shù)據(jù)增長仍然呈指數(shù)型增長,需要尋找一種高效的手段對海量數(shù)據(jù)進行實時處理并提取信息,如分布式數(shù)據(jù)處理工具Hadoop,Spark計算技術(shù)等。國內(nèi)外學(xué)者針對此類問題進行了大量的研究,并取得豐富的研究成果,如2012年Gartner認(rèn)為,大數(shù)據(jù)將會成為新技術(shù)發(fā)展的熱點,海量和多樣化的信息資產(chǎn)需要一種新的處理模式,而大數(shù)據(jù)正好可以從海量數(shù)據(jù)中提取關(guān)鍵信息,使數(shù)據(jù)信息使用者可以高效使用信息,增強企業(yè)洞察危險的能力,優(yōu)化數(shù)據(jù)的流程,最終決策也更加準(zhǔn)確和科學(xué);Victor在《大數(shù)據(jù)日寸代——生活、工作與思維的大變革》一書中指出,大數(shù)據(jù)時代要想得到有價值的信息,就需要從總體數(shù)據(jù)進行分析,而不是使用少量數(shù)據(jù)樣本分析與實務(wù)相關(guān)的數(shù)據(jù)。其更為關(guān)注數(shù)據(jù)之間的相關(guān)性,而不是探求數(shù)據(jù)的因果關(guān)系和精確性。
2Spark計算技術(shù)的優(yōu)劣勢
能夠有效地進行大數(shù)據(jù)處理研究的Spark技術(shù)的框架系統(tǒng),最初是由Matei Zaharia于2009年在加州大學(xué)伯克利分校的AMPLab開發(fā)的,并于2010年作為Apache項目成為開源項目,Spark技術(shù)主要使用分布式彈性數(shù)據(jù)集(RDD),旨在促進編寫和提高重復(fù)、重用數(shù)據(jù)(交互或迭代算法)的大數(shù)據(jù)應(yīng)用程序的執(zhí)行速度[4]。截至2015年,國內(nèi)外學(xué)者已經(jīng)開始使用Spark技術(shù)進行數(shù)據(jù)的評估分析,并且一些企業(yè)已經(jīng)開始使用Spark技術(shù)存儲、探索和分析在企業(yè)運行過程中產(chǎn)生的海量數(shù)據(jù)。2018年,郭育辰基于大數(shù)據(jù)框架Spark,利用話單大數(shù)據(jù)進行了詐騙電話的識別和響應(yīng)模型研究,來降低詐騙分子的成功率,達到保護人民群眾財產(chǎn)安全的目的;2018年,毛辰陽利用Spark平臺獲取好友列表和共同好友,基于話單分析的人物關(guān)系可視化分析可疑聯(lián)系人,為偵察嫌疑人提供技術(shù)支持;2019年,呂亮亮基于Spark實現(xiàn)電信客戶細(xì)分?jǐn)?shù)據(jù)分析平臺的應(yīng)用。
2.1Spark計算技術(shù)的優(yōu)勢
首先,Spark是一種基于內(nèi)存的計算,傳統(tǒng)的硬盤由于物理性質(zhì)限制進行提升非常困難,而CPU和內(nèi)存的發(fā)展近年來卻是十分迅速。內(nèi)存的發(fā)展遵循著摩爾定律,近幾十年來內(nèi)存價格不斷下降,內(nèi)存量逐漸增加?,F(xiàn)在主流的服務(wù)器中就有大量幾百GB或幾TB的內(nèi)存儲量,使得內(nèi)存數(shù)據(jù)庫的實現(xiàn)成為可能,而Spark正是利用這種計算資源而設(shè)計出的一種基于內(nèi)存的分布式處理軟件,以達到取代MapReduce的目的。其次,Spark計算模式的速度具有優(yōu)越性,研究表明,在內(nèi)存中運行時比Hadoop快100倍,在磁盤上運行時比Hadoop快10倍。Spark計算模式能夠?qū)崿F(xiàn)對HDFS進行數(shù)據(jù)的讀取功能,并且能夠支持YARN、MapReduce模型,還支持SQL查詢、流數(shù)據(jù)、機器學(xué)習(xí)和圖算法等部署模式,支持多種編程語言,Spark提供Java,Scala和Python語言的內(nèi)置API。
2.2Spark計算技術(shù)的劣勢
近年來,基于Spark技術(shù)在大數(shù)據(jù)計算分析應(yīng)用過程中也發(fā)現(xiàn)存在一些缺點,對該技術(shù)的性能造成一定的影響。在系統(tǒng)架構(gòu)穩(wěn)定性方面,Spark技術(shù)基于Java語言代碼實現(xiàn)數(shù)據(jù)處理功能,一般情況下,在處理大數(shù)據(jù)的過程中系統(tǒng)的RAM會出現(xiàn)內(nèi)存占用率太高的現(xiàn)象,但系統(tǒng)代碼回收數(shù)據(jù)垃圾的效率比較低,嚴(yán)重影響系統(tǒng)架構(gòu)的穩(wěn)定性,導(dǎo)致處理過程中會出現(xiàn)報錯等錯誤信息。其次,由于Spark計算海量數(shù)據(jù)對硬件設(shè)備要求比較高,因此,普通常用的服務(wù)器無法滿足需求,需要更大的服務(wù)器集成群完成計算任務(wù),從而有利于更好地改善計算環(huán)境,提高使用效率。
3基于Spark計算的數(shù)據(jù)分析實際應(yīng)用
3.1基于Spark平臺的電信行業(yè)用戶流失預(yù)警
隨著電信行業(yè)和Spark技術(shù)的快速發(fā)展以及手機的普及應(yīng)用,電信行業(yè)系統(tǒng)的應(yīng)用規(guī)模越發(fā)擴大,行業(yè)內(nèi)應(yīng)用同時所產(chǎn)生的數(shù)據(jù)量則呈現(xiàn)指數(shù)型增長的趨勢。鑒于此,尋求一種有效且能夠解決實際問題的大數(shù)據(jù)處理技術(shù)以及方法手段成了目前行業(yè)的迫切需求。
隨著電信產(chǎn)業(yè)的不斷發(fā)展壯大,其海量的電信數(shù)據(jù)為Spark技術(shù)提供了獨特的應(yīng)用空間。在云計算、大數(shù)據(jù)背景下,對于行業(yè)客戶流失的預(yù)警分析就顯得尤為重要。在電信行業(yè)發(fā)展的同時,如何控制或減少行業(yè)客戶流失已經(jīng)變成電信行業(yè)目前的難題。在面對海量數(shù)據(jù)進行分類預(yù)測時,Spark強大的計算能力就顯得非常適合。因此,我們引入大數(shù)據(jù)平臺的Spark組件,借助隨機森林分類預(yù)算法構(gòu)建用戶流失預(yù)警模型,分析用戶使用情況的細(xì)微波動,同時不斷改進模型以及模型的參數(shù),調(diào)整預(yù)測效果。不同的目標(biāo)客戶有著不同需求,針對性地設(shè)計專屬的營銷方法,可以有效減少客戶的流失,最大限度地實現(xiàn)對客戶的守護。
3.2基于Spark平臺及話單分析的人物關(guān)系可視化的研究與應(yīng)用
近年來,隨著網(wǎng)絡(luò)的飛速發(fā)展,手機技術(shù)的革新也越來越快,同時手機的功能和角色也越來越多樣化,我們在使用手機的同時,手機信息安全等信息記錄安全就顯得尤為重要。最近幾年,很多犯罪分子會廣泛應(yīng)用手機實施犯罪活動,此時,對手機中各種犯罪信息記錄進行分析就成為公安日常辦案中不可或缺的重要技術(shù)手段。警方可以通過手機分析犯罪嫌疑人的通話記錄和相關(guān)人物及機主的相關(guān)特征,其對破獲案件和緝拿犯罪嫌疑人有著不可替代的作用,本文以Spark技術(shù)為平臺,將通話記錄和相關(guān)信息作為本次研究的基礎(chǔ)數(shù)據(jù),對基礎(chǔ)數(shù)據(jù)進行預(yù)處理、查詢和分析相關(guān)數(shù)據(jù),通過決策樹分類算法獲得犯罪嫌疑人的人物關(guān)系,這就可以為警方辦案提供有用的線索,如圖1所示。
綜上所述,基于Spark平臺及話單分析的人物關(guān)系可視化的研究與應(yīng)用不僅可以對緝拿犯罪嫌疑人有巨大的幫助,而且可以協(xié)助電信行業(yè)、輔助電信用戶獲取隱藏在話單中的有價值信息。
3.3基于Spark話單大數(shù)據(jù)的詐騙電話識別與響應(yīng)模型研究
網(wǎng)絡(luò)技術(shù)飛速發(fā)展的同時,其也變成了一把雙刃劍,很多犯罪團伙會借助網(wǎng)絡(luò)技術(shù)渠道實施網(wǎng)絡(luò)詐騙,使得人們財產(chǎn)及生命安全面臨嚴(yán)重的威脅。由于手機功能的多樣化,使得電話詐騙變成最普遍及后果最嚴(yán)重的詐騙方式。但是,電話詐騙存在手段隱蔽、詐騙組織隱秘等特點,對于后期的破解存在難度大且治標(biāo)未治本的特征。近年來,雖然國家開發(fā)了國家反詐騙APP等一些防詐騙軟件,但是由于詐騙組織技術(shù)的頑劣,依然很難杜絕詐騙事件的發(fā)生。此時,如何在詐騙前或中期及時地發(fā)現(xiàn)詐騙事件、及時阻止詐騙事件的發(fā)生,將對群眾和社會的危險降到最低就成了一個較為關(guān)鍵的研究應(yīng)用熱點。本文基于Spark技術(shù),以話單數(shù)據(jù)作為分析的切人點,對獲取的詐騙電話通信記錄信息進行離線數(shù)據(jù)分析,從而構(gòu)建出詐騙電話識別與響應(yīng)模型,以實現(xiàn)快速識別詐騙組織實施詐騙犯罪行為時間段內(nèi)的詐騙電話,為警察以及反電信詐騙平臺提供重要的技術(shù)依據(jù)。
3.4基于Spark技術(shù)的電信客戶細(xì)分?jǐn)?shù)據(jù)分析平臺實現(xiàn)和應(yīng)用
201 8年,中華人民共和國工業(yè)和信息化部公布了11月通信業(yè)經(jīng)濟運行狀況,報告中表明當(dāng)前移動用戶的用戶人數(shù)大約為15.6億,同比之前上漲速度極快。這也表明了不僅網(wǎng)絡(luò)速度增加了,而且隨之帶來了人們生活方式的改革。在電信行業(yè),由于移動用戶的變化、用戶消費的變化、行業(yè)系統(tǒng)的改革、數(shù)據(jù)量等的變化導(dǎo)致企業(yè)的運營發(fā)展需要進行不斷的更新以求新的變通。面對目前競爭激烈的市場,對于電信公司而言,同等質(zhì)量的服務(wù)背景下,如何做好客戶的服務(wù)及防止客戶的流失顯得無比重要,同時客戶的細(xì)分對于維護客戶關(guān)系成了很重要的前提和基礎(chǔ)。本文基于Spark技術(shù),利用電信運營商的CRM數(shù)據(jù)、計費數(shù)據(jù)及客戶的興趣偏好等為切入點,將目標(biāo)客戶進行細(xì)分,幫助電信企業(yè)實現(xiàn)效益最大化,對電信運營商進行客戶維護和防止客戶流失具有重要的參考意義。
4結(jié)束語
Spark是一種新興的技術(shù),與Hadoop MapReduce相比,Spark的迭代計算速度更快,應(yīng)用前景更加廣泛。通過總結(jié)歸納國內(nèi)外相關(guān)研究文獻發(fā)現(xiàn),目前Spark在大數(shù)據(jù)處理方面的理論及實踐都有一定的研究成果,但在系統(tǒng)架構(gòu)、算法設(shè)計等方面仍然存在著很多不足。Spark已成為一種具有高級內(nèi)存編程模型與可擴展上層庫的大數(shù)據(jù)分析框架,具有先進的內(nèi)存編程模型,并應(yīng)用于可擴展機器學(xué)習(xí)、圖形分析、流媒體以及結(jié)構(gòu)化數(shù)據(jù)處理等領(lǐng)域,但是由于其自身的諸多缺陷,對于大數(shù)據(jù)量、穩(wěn)定性方面還需進一步的改進完善。