張揚
摘要
近年來,網(wǎng)絡(luò)技術(shù)發(fā)展迅速,且為推動我國科技創(chuàng)新的發(fā)展做出了較大的貢獻,作為網(wǎng)絡(luò)技術(shù)發(fā)展的組成部分,基于大數(shù)據(jù)技術(shù)的網(wǎng)絡(luò)日志分析系統(tǒng)的研究,不僅關(guān)系著網(wǎng)絡(luò)日志分析系統(tǒng)自身的大數(shù)據(jù)技術(shù)發(fā)展,而且對于現(xiàn)代化網(wǎng)絡(luò)技術(shù)的發(fā)展也具有重要的影響?;诖耍疚恼归_了對大數(shù)據(jù)時代背景下,網(wǎng)絡(luò)日志分析系統(tǒng)的研究。
【關(guān)鍵詞】大數(shù)據(jù)技術(shù) 網(wǎng)絡(luò) 日志 分析系統(tǒng)
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,我國進入了大數(shù)據(jù)時代,且大數(shù)據(jù)技術(shù)的發(fā)展也呈現(xiàn)出了良好局勢。因此,本文首先闡述了網(wǎng)絡(luò)日志分析系統(tǒng)的功能,其次研究了大數(shù)據(jù)技術(shù)的網(wǎng)絡(luò)日志分析算法,最后說明了大數(shù)據(jù)技術(shù)網(wǎng)絡(luò)日志分析系統(tǒng)的實驗效果。此次課題研究的主要目的是明確網(wǎng)絡(luò)日志分析系統(tǒng)功能,進而提升網(wǎng)絡(luò)日志的分析水平,推動大數(shù)據(jù)技術(shù)的發(fā)展。
1 網(wǎng)絡(luò)日志分析系統(tǒng)的功能
對于大數(shù)據(jù)的采集,網(wǎng)絡(luò)日志分析系統(tǒng)被廣泛使用,該系統(tǒng)具有四個“V”特征,即數(shù)據(jù)的Volume(體量)巨大、數(shù)據(jù)的Variety(類型)多、數(shù)據(jù)的Velocity(速度)快以及數(shù)據(jù)Value(價值)大。對于網(wǎng)絡(luò)日志的大數(shù)據(jù)特性來說,通過對日志數(shù)據(jù)存儲與流程分析相結(jié)合,此次課題提出了網(wǎng)絡(luò)日志分析系統(tǒng)的功能分層,主要包括五大類,第一類為日志源層,主要構(gòu)成包括企業(yè)內(nèi)網(wǎng)中的網(wǎng)絡(luò)設(shè)備以及計算機軟硬件,并產(chǎn)生大量的日志記錄。第二類為采集層,其日志的采集服務(wù)器主要由一個或多個構(gòu)成,主要負責接收與存儲日志記錄。第三類為存儲層,存儲層主要負責存儲原始日志及統(tǒng)計分析結(jié)果。第四類為業(yè)務(wù)層,主要構(gòu)成為由各種日志的分析程序,主要解決日志數(shù)據(jù)的統(tǒng)計以及分析問題。第五類為顯示層,顯示層是指對業(yè)務(wù)層的處理結(jié)果再處理。并顯示在界面上。
2 大數(shù)據(jù)技術(shù)的網(wǎng)絡(luò)日志分析算法
在大數(shù)據(jù)網(wǎng)絡(luò)服務(wù)器中,一般會受到DoS與DDoS的攻擊,導致服務(wù)器出現(xiàn)高負荷運轉(zhuǎn)的現(xiàn)象,最終服務(wù)呈現(xiàn)出癱瘓狀態(tài)。在服務(wù)器訪問日志中,通過對不同的IP地址請求次數(shù)的統(tǒng)計,進而找到請求次數(shù)較多的IP地址,最終達到對攻擊源、防御攻擊檢測的目的。在服務(wù)器的訪問日志中,數(shù)據(jù)信息繁多,日志文件的數(shù)量會達到GB級別,相對于傳統(tǒng)的單機模式,對數(shù)據(jù)的統(tǒng)計算法的時效性很強。根據(jù)Map Reduce的計算特點,這種由并行算法改為傳統(tǒng)單機的算法,是大時代網(wǎng)絡(luò)日志分析的創(chuàng)新算法。
在網(wǎng)路日志分析系統(tǒng)中,數(shù)據(jù)主要是以文件的形式存入HDFS中,利用Map函數(shù),分析每一行的日志數(shù)據(jù),從而對申請訪問的源IP進行提取,輸出的Key與Value之間的比值為源IP/1。出入的Reduce是相同的源IP,通過對源IP地址的累加,輸出的Key與Value的比值是源IP/n,也就是說,同一個IP源對服務(wù)器請求的次數(shù)。
3 大數(shù)據(jù)技術(shù)網(wǎng)絡(luò)日志分析系統(tǒng)的實驗效果
在網(wǎng)絡(luò)日志分析系統(tǒng)中,主要是由8臺普通的PC組成,主要包括一臺為Master、一臺Syslog以及六臺Slave。
實驗題目一:加速比的實驗分析,以及并行算法執(zhí)行性能以及效果的分析。首先,對加速比概念進行定義,即T1與Tn的比值,其中,T1是指1個Slave算法的運行時間,Tn是指由n個Slave組合算法的運行時間。
其次,分別選取1個、2個、4個以及6個Slave進行實驗。根據(jù)實驗結(jié)果所示,當數(shù)據(jù)集顯示為固定時,通過對計算節(jié)點的不斷增加,分析并行算法對不同實驗性能的影響。
在Map Reduce框架中,其計算工作會被隨機分配為到個Slave上,從理論上來看,當計算節(jié)點沒增加一個時,運其算速度會相比為增加之前提升1倍,然而,在實驗中發(fā)現(xiàn),實際效果并非如此。其原因主要是各節(jié)點之間的額外開銷,即同步、信以及調(diào)度等額外開銷,隨著節(jié)點的增多,開銷也逐漸變大。盡管開銷變大,但整體上的加速比也是呈上升趨勢的。
實驗題目二:等效度量的實驗分析。最大加速比的計算結(jié)點數(shù)值為n,受額外開銷影響,實際的加速比Sn不會超過n,所以,利用等效度量指標,能夠有效地反映出加速比與n的關(guān)系。
實驗分別啟動了2個、4個以及6個Slave,根據(jù)不同程度的數(shù)據(jù)規(guī)模,對日志文件進行并行預(yù)算。實驗結(jié)果顯示,隨著不斷增大的數(shù)據(jù)規(guī)模,等效度量指標也在逐漸提高;隨不斷增加的Slave個數(shù),等效度量指標也逐漸呈現(xiàn)下降趨勢。當數(shù)據(jù)規(guī)模與Slave個數(shù)一同增多時,等效度量指標為常數(shù)。2個Slave能夠?qū)崿F(xiàn)對3.8GB日志文件的處理,4個Slave能夠?qū)崿F(xiàn)對8GB日志文件的處理,6個Slave能夠?qū)崿F(xiàn)對20GB日志文件的處理。其等效度量的指標E維持在0.75左右。也就是說,隨著系統(tǒng)處理數(shù)據(jù)的增多,通過增加計算節(jié)點能會對系統(tǒng)的性能造成一定的影響[3]。
4 結(jié)論
本文在對網(wǎng)絡(luò)日志分析系統(tǒng)功能的分析基礎(chǔ)上,展開了對大數(shù)據(jù)技術(shù)的網(wǎng)絡(luò)日志分析算法的研究,最后分析了大數(shù)據(jù)技術(shù)網(wǎng)絡(luò)日志分析系統(tǒng)的實驗效果。分析結(jié)果表明,在網(wǎng)絡(luò)日志分析系統(tǒng)中,分析算法受計算節(jié)點、額外開銷、處理數(shù)據(jù)以及等效度量的影響,其中,計算節(jié)點的增多會影響額外開銷,呈正相關(guān),處理數(shù)據(jù)的多少也直接影響著等效度量,也呈正相關(guān)。
參考文獻
[1]鄧小盾.一種基于大數(shù)據(jù)的網(wǎng)絡(luò)日志分析模型構(gòu)建研究[J].電子設(shè)計工程,2017,25(23):97-100.
[2]郗超.校園無線網(wǎng)絡(luò)日志大數(shù)據(jù)分析平臺的研究與實現(xiàn)[D].內(nèi)蒙古農(nóng)業(yè)大學,2017,52(03):197-198.
[3]任凱,鄧武,俞琰.基于大數(shù)據(jù)技術(shù)的網(wǎng)絡(luò)日志分析系統(tǒng)研究[J].現(xiàn)代電子技術(shù),2016,39(02):39-41+44.