陳淼 西南科技大學(xué)信息學(xué)院 621000
網(wǎng)絡(luò)數(shù)據(jù)分析技術(shù)研究
陳淼 西南科技大學(xué)信息學(xué)院 621000
在網(wǎng)絡(luò)用戶(hù)行為分析領(lǐng)域研究的方法很多,主要都是利用針對(duì)用戶(hù)原始行為流量的頻度分析和關(guān)聯(lián)分析來(lái)實(shí)現(xiàn)的。從數(shù)據(jù)挖掘方式上分為服務(wù)器事件跟蹤、網(wǎng)絡(luò)數(shù)據(jù)包嗅探、客戶(hù)端主動(dòng)探測(cè)。
行為分析;數(shù)據(jù)挖掘;數(shù)據(jù)源
目前的用戶(hù)行為模式是利用針對(duì)用戶(hù)原始行為流量的頻度分析和關(guān)聯(lián)分析來(lái)實(shí)現(xiàn)的。我們可以建立一個(gè)用戶(hù)行為模式庫(kù),然后通過(guò)網(wǎng)絡(luò)監(jiān)聽(tīng)及流量分析的技術(shù),嘗試?yán)脭?shù)據(jù)挖掘的方法,將這種屬于用戶(hù)自身所特有的行為模式從網(wǎng)絡(luò)流量中提取出來(lái),并存入用戶(hù)行為模式庫(kù)中。利用w eb挖掘技術(shù)可以在海量的w eb訪問(wèn)數(shù)據(jù)中研究人們從w eb上獲取信息的模式、獲取信息的類(lèi)型,從而可以得到用戶(hù)興趣的偏好等方面的信息[1]。
網(wǎng)站訪問(wèn)用戶(hù)行為統(tǒng)計(jì)分析的基礎(chǔ)是獲取網(wǎng)站的基本數(shù)據(jù),基于這些數(shù)據(jù)可以開(kāi)展三個(gè)類(lèi)別的深度挖掘,每類(lèi)包含若干數(shù)量的統(tǒng)計(jì)指標(biāo)。
1.1 網(wǎng)站流量指標(biāo)
網(wǎng)站流量指標(biāo)常用來(lái)對(duì)網(wǎng)站效果進(jìn)行評(píng)價(jià),主要指標(biāo)包括:
獨(dú)立訪問(wèn)者數(shù)量;
重復(fù)訪問(wèn)者數(shù)量;
頁(yè)面瀏覽數(shù);
每個(gè)訪問(wèn)者的頁(yè)面瀏覽數(shù);
某些具體文件/頁(yè)面的統(tǒng)計(jì)指標(biāo),如頁(yè)面顯示次數(shù)、文件下載次數(shù)等。
1.2 用戶(hù)行為指標(biāo)
用戶(hù)行為指標(biāo)主要反映用戶(hù)是如何來(lái)到網(wǎng)站的、在網(wǎng)站上停留了多長(zhǎng)時(shí)間、訪問(wèn)了那些頁(yè)面等,主要的統(tǒng)計(jì)指標(biāo)包括:
用戶(hù)在網(wǎng)站的停留時(shí)間、跳出率、回訪者、新訪問(wèn)者、回訪次數(shù)、回訪相隔天數(shù);
注冊(cè)用戶(hù)和非注冊(cè)用戶(hù),分析兩者之間的瀏覽習(xí)慣;
用戶(hù)所使用的搜索引擎、關(guān)鍵詞、關(guān)聯(lián)關(guān)鍵詞和站內(nèi)關(guān)鍵字;
用戶(hù)選擇什么樣的入口形式(廣告或者網(wǎng)站入口鏈接)更為有效;
用戶(hù)訪問(wèn)網(wǎng)站流程,用來(lái)分析頁(yè)面結(jié)構(gòu)設(shè)計(jì)是否合理;
用戶(hù)在頁(yè)面上的網(wǎng)頁(yè)熱點(diǎn)圖分布數(shù)據(jù)和網(wǎng)頁(yè)覆蓋圖數(shù)據(jù);
用戶(hù)在不同時(shí)段的訪問(wèn)量情況等;
用戶(hù)在網(wǎng)站的信息關(guān)注類(lèi)型和熱度;
為用戶(hù)提供個(gè)性化服務(wù)。
1.3 用戶(hù)瀏覽網(wǎng)站的方式
用戶(hù)瀏覽網(wǎng)站的方式相關(guān)統(tǒng)計(jì)指標(biāo)主要包括:
用戶(hù)上網(wǎng)設(shè)備類(lèi)型;
用戶(hù)瀏覽器的名稱(chēng)和版本;
訪問(wèn)者電腦分辨率顯示模式;
用戶(hù)所使用的操作系統(tǒng)名稱(chēng)和版本;
用戶(hù)所在地理區(qū)域分布狀況等。
2.1 服務(wù)器端事件跟蹤[3]
服務(wù)器端數(shù)據(jù)是從W eb服務(wù)器日志和網(wǎng)絡(luò)監(jiān)視器中收集到的數(shù)據(jù)以及服務(wù)器端保存的網(wǎng)站描述性信息,它記錄了用戶(hù)訪問(wèn)站點(diǎn)的數(shù)據(jù),每當(dāng)站點(diǎn)的網(wǎng)頁(yè)被用戶(hù)訪問(wèn)一次,W eb服務(wù)器就在日志文件中添加一條相應(yīng)的記錄,這些記錄數(shù)據(jù)反映了用戶(hù)對(duì)W eb站點(diǎn)的訪問(wèn)行為。服務(wù)器端存儲(chǔ)的其他類(lèi)型的使用信息,如Cook ie以及用戶(hù)的查詢(xún)數(shù)據(jù),也是服務(wù)器端數(shù)據(jù)的一個(gè)重要組成部分。
2.1.1 基于服務(wù)器日志方法的優(yōu)點(diǎn)通過(guò)日志文件可以獲得很有價(jià)值的網(wǎng)站使用情況的數(shù)據(jù)。
① 日志文件是由w eb 服務(wù)器自動(dòng)生成,所以花費(fèi)比較小。
② 與人為建造的可用性實(shí)驗(yàn)室環(huán)境相比,通過(guò)日志文件獲得的數(shù)據(jù)更能夠反映真實(shí)環(huán)境下用戶(hù)的真實(shí)情況。
③ 與只對(duì)幾個(gè)用戶(hù)在幾小時(shí)內(nèi)進(jìn)行的測(cè)試所獲得的數(shù)據(jù)相比, 通過(guò)日志文件獲得的是大量的用戶(hù)在相當(dāng)長(zhǎng)一段時(shí)間內(nèi)的行為數(shù)據(jù),這對(duì)分析用戶(hù)的行為是十分有利的, 可以利用數(shù)據(jù)挖掘等技術(shù)對(duì)用戶(hù)進(jìn)行分析。
④ 開(kāi)發(fā)基于日志文件的數(shù)據(jù)分析工具相對(duì)比較容易, 花費(fèi)也不是太大。
2.1.2 基于服務(wù)器日志方法的缺點(diǎn)基于日志的方法對(duì)于網(wǎng)站的可用性研究來(lái)說(shuō)還存在著很多不足之處,由于日志文件就是被設(shè)計(jì)用來(lái)產(chǎn)生站點(diǎn)級(jí)的性能統(tǒng)計(jì)數(shù)據(jù),因此不可避免的是,日志文件所提供的數(shù)據(jù)與用來(lái)分析網(wǎng)站可用性所需的大量數(shù)據(jù)相比會(huì)有所不足,對(duì)于研究潛在的可用性問(wèn)題只能提供少量的數(shù)據(jù)甚至還可能提供一些誤導(dǎo)性的數(shù)據(jù)。這是因?yàn)橐坏﹚ eb服務(wù)器把用戶(hù)請(qǐng)求的頁(yè)面發(fā)送出去之后,如果用戶(hù)不發(fā)出請(qǐng)求,則頁(yè)面和用戶(hù)之間發(fā)生了什么w eb 服務(wù)器并不記錄。
2.2 數(shù)據(jù)包嗅探
從原始數(shù)據(jù)包中提取各個(gè)字段詳細(xì)信息。在應(yīng)用層字段信息理解中,根據(jù)p2p業(yè)務(wù)的差異,可以對(duì)業(yè)務(wù)類(lèi)別進(jìn)行快速識(shí)別。這種基于原始數(shù)據(jù)包的業(yè)務(wù)理解識(shí)別技可為媒體應(yīng)用研究領(lǐng)域提供高可信度的參考信息。在數(shù)據(jù)還原研究中,結(jié)合會(huì)話(huà)識(shí)別技術(shù)從已捕獲的數(shù)據(jù)包中分離、重組出網(wǎng)頁(yè)數(shù)據(jù)傳輸過(guò)程中的獨(dú)立完整會(huì)話(huà),然后結(jié)合編碼規(guī)則還原出可見(jiàn)文本。從已還原的可見(jiàn)文本中,結(jié)合語(yǔ)料庫(kù)經(jīng)過(guò)分詞處理,再對(duì)其進(jìn)行應(yīng)用語(yǔ)義抽取。在語(yǔ)義抽取和行為分析中,基于統(tǒng)計(jì)模型,在群體用戶(hù)行為習(xí)慣挖掘中發(fā)現(xiàn)特定群體用戶(hù)行為具有一定群聚性,針對(duì)群體用戶(hù)行為群聚性可以對(duì)網(wǎng)絡(luò)服務(wù)進(jìn)行適當(dāng)調(diào)整,對(duì)于優(yōu)化網(wǎng)絡(luò)服務(wù)體系結(jié)構(gòu)有著積極作用。通過(guò)對(duì)用戶(hù)行為挖掘模型的研究和完善,采用增量補(bǔ)充的方式逐步建立一個(gè)具有高度行為識(shí)別能力的行為庫(kù)。在此基礎(chǔ)上,可以對(duì)用戶(hù)的查詢(xún)和檢索提供更為方便、快捷、高效的應(yīng)用服務(wù)。同時(shí),結(jié)合我們對(duì)搜索相關(guān)領(lǐng)域的研究基礎(chǔ),可以快速定位、識(shí)別用戶(hù)檢索主題[4]。
2.3 客戶(hù)端收集和分析數(shù)據(jù)
由于通過(guò)日志文件獲得的信息會(huì)出現(xiàn)失真的情況, 而且有很多重要的數(shù)據(jù)只通過(guò)日志文件很難獲得, 這些信息對(duì)研究網(wǎng)站的可用性問(wèn)題卻很重要, 因此為了進(jìn)一步獲得更多的有價(jià)值的可用性數(shù)據(jù), 發(fā)現(xiàn)更多的網(wǎng)站可用性問(wèn)題, 逐漸產(chǎn)生了很多技術(shù)用于從客戶(hù)端(pageside) 直接獲得用戶(hù)與網(wǎng)站的交互情況。由于是直接從客戶(hù)端獲得數(shù)據(jù), 所以, 能夠獲得大量的難以從服務(wù)器端獲得的用戶(hù)行為數(shù)據(jù), 這對(duì)進(jìn)一步分析用戶(hù)瀏覽網(wǎng)站行為, 改善潛在的網(wǎng)站可用性問(wèn)題提供了更大的幫助[1]。
客戶(hù)端收集用戶(hù)行為數(shù)據(jù)的優(yōu)點(diǎn):由于用戶(hù)是在真實(shí)的環(huán)境下所進(jìn)行的操作(如在家里或辦公室) , 減少了人為地干擾因素, 因此獲得的數(shù)據(jù)更加真實(shí)。與基于日志文件的方法相比, 從客戶(hù)端收集到的數(shù)據(jù)更加精確, 能夠克服如上描述的很多問(wèn)題。
該方法的弊端就是需要在客戶(hù)端安裝軟件,而很多用戶(hù)是不愿意接收的,因此這種方法不能對(duì)廣大用戶(hù)群體做分析。
綜上所述,網(wǎng)絡(luò)數(shù)據(jù)分析方法中,數(shù)據(jù)包嗅探最能反映實(shí)際情況,但復(fù)雜度最高,服務(wù)器端數(shù)據(jù)在表現(xiàn)網(wǎng)站的信息特點(diǎn)很合適,但客戶(hù)信息情況不能準(zhǔn)確全面。在我們做行為分析時(shí),針對(duì)主要分析的目標(biāo)對(duì)象,采用多種方式相結(jié)合,發(fā)揮各方法的優(yōu)勢(shì),將網(wǎng)絡(luò)用戶(hù)行為分析做得更全面、準(zhǔn)確。
[1]王利強(qiáng),劉正捷,張麗萍,張海昕, 陳軍亮.網(wǎng)站用戶(hù)行為數(shù)據(jù)收集和分析方法[J].電腦開(kāi)發(fā)與應(yīng)用.1003-5850.0.2004-02-001
[2]http://www.cnii.com.cn/20070520/ca416298.htm
[3]郭媛香.面向用戶(hù)行為的Web使用挖掘技術(shù)[J]. 晉中學(xué)院學(xué)報(bào). JGZK.0.2009-03-023
[4]Tan Shunhua,User Behavior Mining on Large Scale Web Log Data [C].3rd International Conference on Computer Design and Applications
10.3969/j.issn.1001-8972.2011.10.068