摘 要:瀏覽網(wǎng)頁是互聯(lián)網(wǎng)用戶的重要上網(wǎng)行為,分析網(wǎng)絡(luò)用戶的網(wǎng)頁訪問行為可以為優(yōu)化網(wǎng)絡(luò)管理提供依據(jù)。本文建立了一種網(wǎng)絡(luò)用戶的網(wǎng)頁訪問行為的分析架構(gòu),以訪問網(wǎng)頁時(shí)產(chǎn)生的網(wǎng)絡(luò)數(shù)據(jù)流為數(shù)據(jù)源,分析網(wǎng)頁數(shù)據(jù)包的傳輸規(guī)律,通過網(wǎng)絡(luò)活動(dòng)的關(guān)鍵特征信息構(gòu)建網(wǎng)頁訪問行為,從網(wǎng)頁訪問行為歷史記錄信息中生成新的網(wǎng)頁訪問行為類型,采用網(wǎng)頁訪問行為特征庫識(shí)別網(wǎng)頁訪問行為類型。
關(guān)鍵詞:網(wǎng)頁訪問行為;網(wǎng)頁數(shù)據(jù)包;行為分析;行為特征;行為記錄
中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2018)09-0015-03
Abstract:Browsing web pages is an important behavior of surfing the internet to network users. The analysis of web page browsing behaviors of network users can provide bases for the optimization of network management. An analytical architecture for web page browsing behavior of network users is constructed in this paper. The regular pattern of transmitting web page packages is analyzed with the data source which are network traffics generated by browsing web pages. Web page browsing behaviors are constructed through key features of network activities. New classes of web page browsing behaviors are sought out from the historical behavior records. The behavior type is recognized through the behavior feature library.
Keywords:Web page browsing behavior;Web page package;behavior analysis;behavior feature;behavior record
0 引 言
訪問網(wǎng)頁是網(wǎng)絡(luò)用戶頻繁產(chǎn)生的網(wǎng)絡(luò)活動(dòng),這些網(wǎng)頁訪問活動(dòng)反映了用戶使用互聯(lián)網(wǎng)的情況,它們構(gòu)成了特定的網(wǎng)頁訪問行為。網(wǎng)頁訪問行為表現(xiàn)為網(wǎng)絡(luò)用戶訪問網(wǎng)頁的活動(dòng)及其動(dòng)態(tài)變化規(guī)律,可以按照訪問的網(wǎng)頁內(nèi)容對(duì)其進(jìn)行分類,而網(wǎng)頁訪問行為的類型就隱藏在訪問網(wǎng)頁時(shí)形成的網(wǎng)絡(luò)數(shù)據(jù)流中。
網(wǎng)頁表現(xiàn)為一個(gè)或多個(gè)HTML(超文本標(biāo)記語言)文件,HTML是網(wǎng)頁內(nèi)容架構(gòu)的基礎(chǔ),它將文本、圖形、語音、視頻、郵件等資源包羅其中,讓用戶能夠便捷地實(shí)現(xiàn)互聯(lián)網(wǎng)訪問。在W3C(萬維網(wǎng)聯(lián)盟)于2014年10月公開發(fā)布HTML5標(biāo)準(zhǔn)(HTML第5版)[1]后,更多的應(yīng)用被移植到網(wǎng)頁上,尤其是在移動(dòng)互聯(lián)網(wǎng)領(lǐng)域,基于網(wǎng)頁的移動(dòng)終端APP更是得到了快速的發(fā)展,這促使網(wǎng)頁數(shù)量和網(wǎng)頁訪問活動(dòng)數(shù)量迅猛增加。
網(wǎng)站是網(wǎng)頁運(yùn)行的載體,它已成為互聯(lián)網(wǎng)最關(guān)鍵的應(yīng)用之一。中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)于2017年1月發(fā)布《第39次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,該報(bào)告指出,截止2017年12月,我國的網(wǎng)站數(shù)量約為533余萬個(gè),年增長10.6%,而網(wǎng)頁的數(shù)量更是驚人,已超過2600億個(gè),年增長10.3%[2]。
與日俱增的網(wǎng)頁訪問活動(dòng)構(gòu)成了重要的用戶上網(wǎng)行為大數(shù)據(jù),它反映了用戶的常用互聯(lián)網(wǎng)內(nèi)容使用情況,對(duì)網(wǎng)頁訪問行為進(jìn)行有效的分析,可以為網(wǎng)絡(luò)管理提供科學(xué)的依據(jù),還可以為網(wǎng)絡(luò)行為的安全審計(jì)提供數(shù)據(jù)來源。分析網(wǎng)頁訪問行為的方法主要有以下幾個(gè)方面:以網(wǎng)頁訪問日志為基礎(chǔ)分析用戶瀏覽行為習(xí)慣[3]、挖掘分析網(wǎng)站的運(yùn)行日志文件發(fā)現(xiàn)用戶訪問行為特征和潛在規(guī)律[4]、抽取網(wǎng)頁的HTML源代碼特征進(jìn)行分析[5]。目前還缺乏通過訪問網(wǎng)頁時(shí)產(chǎn)生的網(wǎng)絡(luò)數(shù)據(jù)流分析網(wǎng)頁訪問行為的方法,也沒有通用的分析架構(gòu)。
本文建立了一種網(wǎng)頁訪問行為分析的架構(gòu),該架構(gòu)以網(wǎng)絡(luò)數(shù)據(jù)流為數(shù)據(jù)基礎(chǔ),通過提取網(wǎng)頁數(shù)據(jù)包的關(guān)鍵特征信息,構(gòu)建反映用戶真實(shí)網(wǎng)頁訪問活動(dòng)的網(wǎng)頁訪問行為數(shù)據(jù),同時(shí),分析網(wǎng)頁訪問行為的記錄數(shù)據(jù),識(shí)別網(wǎng)頁訪問行為的類型,從而發(fā)現(xiàn)網(wǎng)絡(luò)用戶訪問網(wǎng)頁的活動(dòng)規(guī)律。
1 分析架構(gòu)
本文以網(wǎng)絡(luò)用戶訪問網(wǎng)頁時(shí)產(chǎn)生的網(wǎng)絡(luò)數(shù)據(jù)流為數(shù)據(jù)基礎(chǔ),分析網(wǎng)頁訪問行為信息,目的在于識(shí)別出用戶訪問網(wǎng)頁的行為類型,其分析架構(gòu)如圖1所示。該架構(gòu)由5個(gè)操作模塊和2個(gè)數(shù)據(jù)庫組成,前者包含網(wǎng)絡(luò)數(shù)據(jù)捕獲模塊、網(wǎng)頁特征抽取模塊、網(wǎng)頁訪問行為構(gòu)建模塊、網(wǎng)頁訪問行為匹配模塊和網(wǎng)頁訪問行為學(xué)習(xí)模塊,后者包含網(wǎng)頁訪問行為特征庫和網(wǎng)頁訪問行為記錄庫。
整個(gè)架構(gòu)的運(yùn)行流程和數(shù)據(jù)庫含義將在下面的小節(jié)中進(jìn)行介紹。
1.1 網(wǎng)絡(luò)數(shù)據(jù)捕獲
網(wǎng)絡(luò)數(shù)據(jù)捕獲模塊獲取網(wǎng)絡(luò)數(shù)據(jù)流,并篩選出用于網(wǎng)頁通信的網(wǎng)絡(luò)數(shù)據(jù)包。針對(duì)個(gè)人用戶訪問網(wǎng)頁的行為分析,需要捕獲用戶本機(jī)的網(wǎng)頁數(shù)據(jù)流。針對(duì)群體用戶訪問網(wǎng)頁的行為分析,可以在用戶所在計(jì)算機(jī)網(wǎng)絡(luò)的關(guān)鍵網(wǎng)絡(luò)設(shè)備上設(shè)置鏡像端口,從該端口接入網(wǎng)絡(luò)數(shù)據(jù)捕獲模塊,并將捕獲模式設(shè)置為混雜模式,即可獲取該網(wǎng)絡(luò)內(nèi)所有的網(wǎng)頁數(shù)據(jù)流量。網(wǎng)絡(luò)用戶訪問網(wǎng)頁時(shí),用戶客戶端和Web服務(wù)器之間采用應(yīng)用層協(xié)議HTTP(超文本傳輸協(xié)議)進(jìn)行通信,Web服務(wù)器的默認(rèn)端口號(hào)為80,有些也會(huì)設(shè)置為8080。在捕獲報(bào)文時(shí),可以通過判別這些端口號(hào),來篩選出用于傳輸網(wǎng)頁的網(wǎng)絡(luò)數(shù)據(jù)包。
1.2 網(wǎng)頁特征抽取
網(wǎng)頁特征抽取模塊對(duì)網(wǎng)頁數(shù)據(jù)包進(jìn)行預(yù)處理,將用于建立網(wǎng)頁傳輸連接、斷開網(wǎng)頁傳輸連接、重復(fù)傳輸請求等網(wǎng)絡(luò)數(shù)據(jù)包剔除,只留下傳輸實(shí)際網(wǎng)頁內(nèi)容的網(wǎng)頁數(shù)據(jù)包,并抽取出這些網(wǎng)頁數(shù)據(jù)包的關(guān)鍵特征信息。網(wǎng)頁數(shù)據(jù)包里既含有網(wǎng)絡(luò)層和傳輸層中的源/目的IP地址、包長度、TTL、包頭校驗(yàn)和、協(xié)議類型、源/目的端口號(hào)等數(shù)據(jù)流特征信息,也含有HTTP協(xié)議信息,例如:協(xié)議版本號(hào)、語言類型、瀏覽器類型、URL、內(nèi)容創(chuàng)建時(shí)間、主體對(duì)象類型、主體長度、標(biāo)題內(nèi)容等。在抽取網(wǎng)頁數(shù)據(jù)包的特征信息時(shí),必須考慮反映一個(gè)網(wǎng)頁頁面的主要特征,這些特征需要同時(shí)表達(dá)網(wǎng)頁內(nèi)容的關(guān)鍵信息和網(wǎng)絡(luò)用戶訪問網(wǎng)頁的活動(dòng)信息,前者包含URL、標(biāo)題內(nèi)容等,后者包含訪問時(shí)間、瀏覽器類型等。
1.3 網(wǎng)頁訪問行為構(gòu)建
網(wǎng)頁訪問行為構(gòu)建模塊以網(wǎng)頁特征為基礎(chǔ),實(shí)時(shí)構(gòu)建出網(wǎng)絡(luò)用戶瀏覽網(wǎng)頁的行為數(shù)據(jù),同時(shí)將構(gòu)建的網(wǎng)頁訪問行為存入網(wǎng)頁訪問行為記錄數(shù)據(jù)庫。網(wǎng)頁訪問行為反映了用戶訪問網(wǎng)頁的活動(dòng)及其動(dòng)態(tài)變化的規(guī)律,一個(gè)網(wǎng)頁訪問行為可能由用戶訪問一個(gè)或多個(gè)網(wǎng)頁來實(shí)現(xiàn)。一個(gè)網(wǎng)頁中可以嵌入豐富的文本、圖片、多媒體、其他頁面等信息,所以從數(shù)據(jù)流傳輸?shù)慕嵌葋砜?,為了訪問一個(gè)網(wǎng)頁頁面,一般需要在客戶端和Web服務(wù)器之間傳輸多個(gè)網(wǎng)頁數(shù)據(jù)包。構(gòu)建網(wǎng)頁訪問行為就是要采用一種適合數(shù)據(jù)流分析的數(shù)學(xué)方法,對(duì)大量的網(wǎng)頁數(shù)據(jù)包進(jìn)行分析,從中發(fā)現(xiàn)網(wǎng)頁數(shù)據(jù)包之間的關(guān)聯(lián),并識(shí)別其傳輸規(guī)律。最后提取出屬于同一個(gè)網(wǎng)頁訪問活動(dòng)的網(wǎng)頁數(shù)據(jù)包的關(guān)鍵特征信息,并采用數(shù)學(xué)方法構(gòu)建網(wǎng)頁訪問行為。
1.4 網(wǎng)頁訪問行為匹配
網(wǎng)頁訪問行為匹配模塊以網(wǎng)頁訪問行為特征庫為基礎(chǔ),識(shí)別網(wǎng)絡(luò)用戶的網(wǎng)頁訪問行為類型,并將不能識(shí)別的網(wǎng)頁訪問行為通知網(wǎng)絡(luò)管理員,由網(wǎng)絡(luò)管理員進(jìn)行標(biāo)注或由網(wǎng)頁訪問行為學(xué)習(xí)模塊分析后加入網(wǎng)頁訪問行為特征庫。網(wǎng)頁訪問行為構(gòu)建模塊形成的網(wǎng)頁訪問行為傳至本模塊后,采用高效、精確的特征匹配方法,將每條網(wǎng)頁訪問行為信息的關(guān)鍵特征與網(wǎng)頁訪問行為特征庫的記錄進(jìn)行匹配操作,如果特征庫中有滿足匹配閾值的記錄,則采用該記錄定義的網(wǎng)頁訪問行為類型對(duì)用戶的訪問活動(dòng)進(jìn)行標(biāo)記,否則標(biāo)記為可疑行為,并通知網(wǎng)絡(luò)管理員進(jìn)行標(biāo)注。
1.5 網(wǎng)頁訪問行為學(xué)習(xí)
網(wǎng)頁訪問行為學(xué)習(xí)模塊采用特定的分析方法,對(duì)不能匹配的網(wǎng)頁訪問行為進(jìn)行數(shù)據(jù)分析,以期識(shí)別出未知的網(wǎng)頁訪問行為類型。網(wǎng)絡(luò)用戶的大規(guī)模增長和基于網(wǎng)頁的新應(yīng)用的不斷涌現(xiàn),導(dǎo)致網(wǎng)頁訪問行為的類型也在不斷變化,同時(shí)也使得一些未知的網(wǎng)頁訪問行為不能被網(wǎng)頁訪問行為特征庫中的記錄所識(shí)別。網(wǎng)頁訪問用戶的歷史訪問記錄都存儲(chǔ)在網(wǎng)頁訪問行為記錄數(shù)據(jù)庫中,該數(shù)據(jù)庫中蘊(yùn)藏了所有的網(wǎng)頁訪問活動(dòng)信息,通過構(gòu)建合適的機(jī)器學(xué)習(xí)方法,可以從這些歷史記錄中挖掘出特定的網(wǎng)頁訪問行為類型信息。當(dāng)識(shí)別出新的網(wǎng)頁訪問行為類型后,將其存入網(wǎng)頁訪問行為特征庫中,以供網(wǎng)頁訪問行為匹配模塊識(shí)別網(wǎng)頁訪問活動(dòng)信息。
1.6 網(wǎng)頁訪問行為特征庫
網(wǎng)頁訪問行為特征庫存儲(chǔ)網(wǎng)頁行為類型的特征數(shù)據(jù),其數(shù)據(jù)為網(wǎng)頁訪問行為匹配模塊識(shí)別用戶訪問網(wǎng)頁的行為類型提供依據(jù)。該庫中的每條記錄都映射了一個(gè)網(wǎng)頁訪問行為類型,它包含了用戶訪問網(wǎng)頁活動(dòng)的規(guī)律信息,其初始數(shù)據(jù)來自經(jīng)典的網(wǎng)頁訪問行為特征。為了獲取經(jīng)典的網(wǎng)頁訪問行為特征數(shù)據(jù),可以搭建精心設(shè)置的網(wǎng)絡(luò)環(huán)境,禁止額外網(wǎng)絡(luò)活動(dòng)的發(fā)生,讓用戶按照特定行為類型訪問設(shè)置的網(wǎng)頁,模擬真實(shí)的網(wǎng)頁訪問行為,通過上述網(wǎng)絡(luò)數(shù)據(jù)捕獲、網(wǎng)頁特征抽取和網(wǎng)頁訪問行為構(gòu)建功能捕獲網(wǎng)頁訪問行為特征數(shù)據(jù),并為這些特征數(shù)據(jù)標(biāo)注網(wǎng)頁訪問行為類型。另外,網(wǎng)頁訪問行為學(xué)習(xí)模塊識(shí)別出的網(wǎng)頁訪問行為類型,也存入網(wǎng)頁訪問行為特征庫,這為發(fā)現(xiàn)網(wǎng)頁訪問行為類型提供了動(dòng)態(tài)性。
1.7 網(wǎng)頁訪問行為記錄庫
網(wǎng)頁訪問行為記錄數(shù)據(jù)庫存儲(chǔ)用戶的網(wǎng)頁訪問行為的歷史信息,它包含了所有發(fā)生過的網(wǎng)頁訪問行為。該庫中的數(shù)據(jù)全部來自網(wǎng)頁訪問行為構(gòu)建模塊產(chǎn)生的網(wǎng)頁訪問行為,其每條記錄都包含了一個(gè)網(wǎng)頁訪問行為的特征信息,但該信息中并沒有具體的行為類型。網(wǎng)頁訪問行為記錄數(shù)據(jù)完整體現(xiàn)了網(wǎng)絡(luò)用戶訪問網(wǎng)頁活動(dòng)的信息,這些信息都是按照時(shí)間序列順序存儲(chǔ),可以為網(wǎng)頁訪問行為的安全審計(jì)提供數(shù)據(jù)來源。網(wǎng)頁訪問行為學(xué)習(xí)模塊采用特定的方法對(duì)這些數(shù)據(jù)進(jìn)行分析,可以發(fā)現(xiàn)里面隱藏的用戶訪問網(wǎng)頁的規(guī)律,以便為識(shí)別新型的網(wǎng)頁訪問行為提供依據(jù)。
2 結(jié) 論
網(wǎng)絡(luò)用戶通過訪問網(wǎng)頁實(shí)現(xiàn)許多常見的網(wǎng)絡(luò)活動(dòng),識(shí)別海量網(wǎng)頁訪問活動(dòng)中的行為類型,可以發(fā)現(xiàn)網(wǎng)絡(luò)用戶訪問網(wǎng)頁活動(dòng)的一定規(guī)律。本文構(gòu)建的網(wǎng)頁訪問行為分析架構(gòu)既含有網(wǎng)頁傳輸數(shù)據(jù)處理的功能模塊,也含有網(wǎng)頁訪問行為特征和歷史數(shù)據(jù)的存儲(chǔ)數(shù)據(jù)庫。本架構(gòu)從傳輸網(wǎng)頁的網(wǎng)絡(luò)數(shù)據(jù)流中,抽取出能夠反映網(wǎng)頁訪問活動(dòng)的關(guān)鍵特征信息,以此構(gòu)建網(wǎng)頁訪問行為。同時(shí),一方面通過已有的網(wǎng)頁訪問特征識(shí)別用戶訪問網(wǎng)頁的行為類型,另一方面通過網(wǎng)頁訪問的歷史記錄信息生成新的網(wǎng)頁訪問行為類型,為網(wǎng)頁訪問行為類型的識(shí)別提供了一種動(dòng)態(tài)分析的思路。
參考文獻(xiàn):
[1] W3C.HTML5.2W3CRecommendation [OL].[2017-12-14].https://www.w3.org/TR/html5/.
[2] CNNIC.第41次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告 [OL].[2018-01-31].http://www.cnnic.cn/hlwfzyj/hlwxzbg/hlwtjbg/201803/P020180305409870339136.pdf.
[3] 郭俊霞,高城,許南山,等.基于網(wǎng)頁瀏覽日志的用戶行為分析 [J].計(jì)算機(jī)科學(xué),2014,41(3):110-115.
[4] 張亮,趙娜.網(wǎng)絡(luò)用戶瀏覽行為的分析 [J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2016,25(6):260-264.
[5] 劉暢.面向惡意網(wǎng)頁的靜態(tài)特征體系研究 [J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2016,25(7):213-218.
作者簡介:張雁(1979-),女,四川萬源人,講師,碩士。研究方向:網(wǎng)絡(luò)安全;通訊作者:劉才銘(1979-),男,四川武勝人,博士,教授。研究方向:網(wǎng)絡(luò)安全。