杜衛(wèi)華,翁傳芳
(南昌航空大學(xué)科技學(xué)院,江西 九江 332020)
對(duì)Web日志記錄進(jìn)行分析可以挖掘網(wǎng)站用戶(hù)的訪(fǎng)問(wèn)模式,在此基礎(chǔ)上獲得用戶(hù)在網(wǎng)站中的訪(fǎng)問(wèn)規(guī)律,這種技術(shù)在商業(yè)智能、系統(tǒng)改進(jìn)和個(gè)性化推薦等領(lǐng)域中得到了廣泛的應(yīng)用[1]。目前挖掘用戶(hù)在網(wǎng)站中的訪(fǎng)問(wèn)模式常用的方法包括樹(shù)形拓?fù)浣Y(jié)構(gòu)法、最大向前序列法和參考長(zhǎng)度法,但上述方法都存在以下問(wèn)題:
1)用戶(hù)的訪(fǎng)問(wèn)興趣僅通過(guò)用戶(hù)在網(wǎng)站中的瀏覽頻度進(jìn)行反映,挖掘精度低[2];
2)由于數(shù)據(jù)在Web分布上具有海量、動(dòng)態(tài)和異構(gòu)等特點(diǎn),上述方法無(wú)法處理海量的日志數(shù)據(jù)。
在這種背景下,亟需對(duì)網(wǎng)站用戶(hù)訪(fǎng)問(wèn)模式挖掘方法進(jìn)行研究。王福[3]等人通過(guò)最大頻繁模式挖掘方法分析網(wǎng)站用戶(hù)訪(fǎng)問(wèn)特點(diǎn),聚類(lèi)處理網(wǎng)站中的用戶(hù),根據(jù)積累結(jié)果獲得類(lèi)型不同的用戶(hù)在網(wǎng)站中頻繁使用的訪(fǎng)問(wèn)模式,實(shí)現(xiàn)挖掘。該方法沒(méi)有對(duì)網(wǎng)站信息進(jìn)行過(guò)濾處理,在挖掘過(guò)程中受噪聲的干擾,延長(zhǎng)了挖掘時(shí)間,存在挖掘效率低的問(wèn)題。楊陽(yáng)[4]等人對(duì)項(xiàng)集對(duì)應(yīng)的最大概率權(quán)重值進(jìn)行計(jì)算,在Spark框架中通過(guò)剪枝方法建立模式樹(shù),實(shí)現(xiàn)網(wǎng)站用戶(hù)訪(fǎng)問(wèn)模式的挖掘,該方法存在挖掘準(zhǔn)確率低和挖掘效率低的問(wèn)題。
為了解決上述方法中存在的問(wèn)題,提出基于頻繁偏愛(ài)度的網(wǎng)站用戶(hù)訪(fǎng)問(wèn)模式挖掘方法。
信息過(guò)濾的時(shí)間可通過(guò)信息預(yù)處理得以降低[5],基于頻繁偏愛(ài)度的網(wǎng)站用戶(hù)訪(fǎng)問(wèn)模式挖掘方法通過(guò)切分標(biāo)志法獲取網(wǎng)絡(luò)信息的切分標(biāo)志,建立網(wǎng)絡(luò)信息的特征集合。并通過(guò)統(tǒng)計(jì)學(xué)方法選取覆蓋度、直線(xiàn)斜率和集中度作為切分標(biāo)志,對(duì)網(wǎng)頁(yè)信息進(jìn)行處理。
設(shè)S(Ti)代表的是詞T在文檔中的覆蓋率,其計(jì)算公式如下
(1)
式中,ni描述的是文檔數(shù)量;N代表的是學(xué)習(xí)語(yǔ)料數(shù)量。
設(shè)C(Ti)代表的是詞T在文檔中的集中度,其表達(dá)式為
(2)
式中,σ(Ti)代表的是詞Ti對(duì)應(yīng)的標(biāo)準(zhǔn)方差;E(Ti)代表的是詞Ti對(duì)應(yīng)的頻率數(shù)學(xué)期望;fik代表的是文檔中詞Ti出現(xiàn)的頻率。
根據(jù)數(shù)理統(tǒng)計(jì),用Y描述詞頻,用X描述文檔編號(hào),詞頻在文檔中的分布通常情況下符合一元線(xiàn)性回歸方程Y=α+βX+ε,利用一元線(xiàn)性回歸方程計(jì)算詞頻分布直線(xiàn)斜率G(Ti)
(3)
通過(guò)相關(guān)規(guī)則和描述表示網(wǎng)站中存在的文檔以及文檔構(gòu)成的集合[6]。通過(guò)這些描述和規(guī)則在網(wǎng)頁(yè)信息過(guò)濾過(guò)程中對(duì)文檔類(lèi)、給定文檔和未知文檔的相似度進(jìn)行評(píng)價(jià)[7]。
基于頻繁偏愛(ài)度的網(wǎng)站用戶(hù)訪(fǎng)問(wèn)模式挖掘方法采用VSM模型結(jié)構(gòu)化表示網(wǎng)絡(luò)文檔,其原理是將特征詞條Term(t)作為基本單位對(duì)文檔Document(d)進(jìn)行表示,用Weight(w)描述文檔中特征詞條對(duì)應(yīng)的權(quán)值,集合D={di}由文檔構(gòu)成,用|D|=S描述文檔在D中的數(shù)量,其中,1≤i≤S,集合T={tj}由特征詞構(gòu)成,特征詞的數(shù)量用|T|=M表示,其中,1≤j≤M,將t1,t2,…,tm作為基坐標(biāo),用M維向量(wi1,wi2,wi3,…,wim)表示文檔di,構(gòu)建文檔di的向量空間模型Vi,其表達(dá)式如下
Vi=(ti1,wi1;ti2,wi2;…;tim,wim)
(4)
基于頻繁偏愛(ài)度的網(wǎng)站用戶(hù)訪(fǎng)問(wèn)模式挖掘方法采用VSM模型結(jié)構(gòu)化處理文檔的具體過(guò)程為:
1)構(gòu)建詞頻矩陣,對(duì)特征詞對(duì)應(yīng)的詞頻進(jìn)行統(tǒng)計(jì),詞頻矩陣的行和列分別是特征詞t和文檔d向量,用空間向量V表示文檔,詞頻用來(lái)反映文檔d和特征詞t之間存在的關(guān)聯(lián)度,即向量值。
2)對(duì)特征詞對(duì)應(yīng)的權(quán)重進(jìn)行計(jì)算,根據(jù)計(jì)算結(jié)果建立文檔向量。
用t1,t2,…,tM描述文檔集中存在的特征項(xiàng),通過(guò)下式對(duì)其權(quán)值進(jìn)行計(jì)算
(5)
由上述計(jì)算得到的權(quán)值獲得向量(wi1,wi2,wi3,…,wim),其中,tfik代表的是在文檔di中詞條tk出現(xiàn)的頻率數(shù);nk代表的是存在tk的文檔數(shù)量;對(duì)上式進(jìn)行分析可知,權(quán)值wik的大小隨頻率數(shù)tfik發(fā)生變化。
通過(guò)下式規(guī)范化處理特征向量,使其映射到單位空間向量中
(6)
特征權(quán)值越大表明其越重要,越可以描述文檔中存在的內(nèi)容,反之亦然。
3)將t1,t2,…,tM作為基坐標(biāo),通過(guò)M維歐式空間的向量(wi1,wi2,wi3,…,wim)表示文檔di,構(gòu)建向量空間模型Vi=(ti1,wi1;ti2,wi2;…;tim,wim)。
從文檔向量空間角度分析,當(dāng)兩篇文檔相關(guān)或者相似時(shí),表明其對(duì)應(yīng)的矢量距離較小,即這兩個(gè)矢量構(gòu)成的夾角不大,對(duì)余弦函數(shù)的性質(zhì)進(jìn)行分析可知,余弦值大,相關(guān)度高,余弦值小,相關(guān)度低。當(dāng)余弦值為1時(shí),表明矢量構(gòu)成的夾角為0,說(shuō)明兩篇文章此時(shí)完全相符,設(shè)Sin(Di,di)代表的是文檔之間存在的相關(guān)度,其計(jì)算公式如下
(7)
網(wǎng)絡(luò)信息過(guò)濾的具體過(guò)程為:
1)用m描述文檔類(lèi)型數(shù)量,建立文檔矩陣Vi=(ti1,wi1;ti2,wi2;…;tim,wim);
2)通過(guò)文檔向量{di}=(wi1,wi2,…,wim)建立矩陣D;
3)對(duì)不同類(lèi)型文檔之間存在的相關(guān)系數(shù)Sim(Di,di)進(jìn)行計(jì)算,根據(jù)計(jì)算結(jié)果構(gòu)建相關(guān)系數(shù)矩陣Sm×n=V×DT;
4)修正相關(guān)系數(shù),優(yōu)化相關(guān)系數(shù)矩陣,利用優(yōu)化后的矩陣判定文檔屬性,實(shí)現(xiàn)網(wǎng)頁(yè)信息過(guò)濾。
選取過(guò)濾處理后的Web日志,建立訪(fǎng)問(wèn)矩陣,在行向量的基礎(chǔ)上建立Hamming距離矩陣[8,9],對(duì)比Hamming距離矩陣中的值和相似度閾值,根據(jù)對(duì)比結(jié)果確定候選興趣子路徑2-項(xiàng)集。在候選興趣子路徑2-項(xiàng)集中通過(guò)頻繁偏愛(ài)度剔除不符合的子路徑,獲得用戶(hù)偏愛(ài)的瀏覽路徑,完成網(wǎng)站用戶(hù)訪(fǎng)問(wèn)模式的挖掘。
用戶(hù)訪(fǎng)問(wèn)網(wǎng)站的信息通常都存在于Web日志中,通過(guò)信息過(guò)濾方法對(duì)Web日志中存在的數(shù)據(jù)進(jìn)行過(guò)濾處理,日志的格式經(jīng)過(guò)處理后表示為S=
通過(guò)訪(fǎng)問(wèn)信息建立URL_R-URL矩陣,其中元素值為支持度,即訪(fǎng)問(wèn)URL的頻率,矩陣中的列和行分別為URL、URL_R。用戶(hù)可能在網(wǎng)頁(yè)中、書(shū)簽訪(fǎng)問(wèn)和地址欄鍵入U(xiǎn)RL結(jié)束訪(fǎng)問(wèn),不用通過(guò)其它站點(diǎn)鏈接或網(wǎng)頁(yè)進(jìn)入目的網(wǎng)頁(yè),因此,需要將NULL引入第一行和第一列中,如果網(wǎng)站中URL的數(shù)量為n,則構(gòu)成的矩陣M(n+1)(n-1)屬于(n+1)階,其表達(dá)式如下
(8)
式中,Aij為矩陣M(n+1)(n-1)中存在的元素,上述矩陣的對(duì)角元素為0,為了平衡進(jìn)出,矩陣中t列總和應(yīng)該與矩陣中t行總和相等,此時(shí)存在下式
(9)
式中,0≤t≤n。
1)建立Hamming距離矩陣
基于頻繁偏愛(ài)度的網(wǎng)站用戶(hù)訪(fǎng)問(wèn)模式挖掘方法對(duì)矩陣中存在的所有元素進(jìn)行掃描,當(dāng)?M[i,j]>0時(shí),令M[i,j]的值為1,對(duì)上述矩陣進(jìn)行變換
(10)
基于頻繁偏愛(ài)度的網(wǎng)站用戶(hù)訪(fǎng)問(wèn)模式挖掘方法利用Hamming矩陣度量上述矩陣行和列的相似度,當(dāng)X,Y∈{0,1}n,且n≥1時(shí),通過(guò)下式計(jì)算X、Y之間存在的Hamming距離Hd(X,Y)
(11)
通過(guò)上式計(jì)算結(jié)果,獲得對(duì)稱(chēng)矩陣Mr,由行向量Hamming距離構(gòu)成,其表達(dá)式如下
(12)
2)獲取用戶(hù)瀏覽興趣子路徑
設(shè)?代表的是相似度閾值,其主要作用在于判斷用戶(hù)瀏覽興趣子路徑在矩陣Mr中的相似度,其計(jì)算公式如下:
(13)
在上述過(guò)程中,沒(méi)有對(duì)URL之間的訪(fǎng)問(wèn)頻率進(jìn)行考慮,因此需要進(jìn)一步確認(rèn)interset_path_set2,此時(shí)基于頻繁偏愛(ài)度的網(wǎng)站用戶(hù)訪(fǎng)問(wèn)模式挖掘方法引入頻繁偏愛(ài)度Pthreshold,通過(guò)下式對(duì)瀏覽子路徑的頻繁偏愛(ài)度Pthreshold進(jìn)行計(jì)算:
(14)
刪除候選子路徑集中頻繁偏愛(ài)度Pthreshold較小的子路徑,在集合interset_path_set2中存儲(chǔ)被剔除的子路徑。
基于頻繁偏愛(ài)度的網(wǎng)站用戶(hù)訪(fǎng)問(wèn)模式挖掘方法通過(guò)上式計(jì)算結(jié)果確認(rèn)interset_path_set2時(shí),需要提前設(shè)置閾值,當(dāng)閾值設(shè)置不合理時(shí),會(huì)出現(xiàn)規(guī)則冗余或規(guī)則丟失的現(xiàn)象,此時(shí)會(huì)影響系統(tǒng)的運(yùn)行效率。
3)模式挖掘
基于頻繁偏愛(ài)度的網(wǎng)站用戶(hù)訪(fǎng)問(wèn)模式挖掘方法通過(guò)逐步合并法對(duì)上述獲取的頻繁偏愛(ài)度Pthreshold較大的子路徑進(jìn)行合并處理,獲得用戶(hù)瀏覽興趣路徑,實(shí)現(xiàn)網(wǎng)站用戶(hù)訪(fǎng)問(wèn)模式的挖掘。
為了驗(yàn)證基于頻繁偏愛(ài)度的網(wǎng)站用戶(hù)訪(fǎng)問(wèn)模式挖掘方法的整體有效性,需要對(duì)其進(jìn)行測(cè)試。
分別采用基于頻繁偏愛(ài)度的網(wǎng)站用戶(hù)訪(fǎng)問(wèn)模式挖掘方法、文獻(xiàn)[3]方法和文獻(xiàn)[4]方法進(jìn)行如下對(duì)比測(cè)試。
1)時(shí)間測(cè)試
分別采用所提方法、文獻(xiàn)[3]方法和文獻(xiàn)[4]方法進(jìn)行測(cè)試,在以下兩種情況下對(duì)比上述方法的時(shí)間性能。
①在不同日志文件大小情況下對(duì)比上述方法模式挖掘所用的時(shí)間,測(cè)試結(jié)果如圖1所示。
圖1 不同日志文件大小下的執(zhí)行時(shí)間
②采用上述方法對(duì)多個(gè)訪(fǎng)問(wèn)模式進(jìn)行挖掘,對(duì)比執(zhí)行時(shí)間,測(cè)試結(jié)果如圖2所示。
圖2 不同模式數(shù)量下的執(zhí)行時(shí)間
由圖1和圖2可知,隨著日志文件大小的增加,模式種類(lèi)的增加,所提方法、文獻(xiàn)[3]方法和文獻(xiàn)[4]方法的執(zhí)行時(shí)間逐漸增加,但所提方法在以上兩種情況下的執(zhí)行時(shí)間均低于文獻(xiàn)[3]方法和文獻(xiàn)[4]方法的執(zhí)行時(shí)間,表明所提方法的挖掘效率高,因?yàn)樵摲椒▽?duì)網(wǎng)站用戶(hù)訪(fǎng)問(wèn)模式進(jìn)行挖掘之前,對(duì)網(wǎng)站信息進(jìn)行了過(guò)濾處理,消除了網(wǎng)站中存在的冗余信息和噪聲信息,避免挖掘過(guò)程受到影響,提高了所提方法的挖掘效率。
2)準(zhǔn)確率
采用所提方法、文獻(xiàn)[3]方法和文獻(xiàn)[4]方法對(duì)網(wǎng)站用戶(hù)訪(fǎng)問(wèn)模式進(jìn)行挖掘,測(cè)試上述方法在模式訪(fǎng)問(wèn)挖掘過(guò)程的準(zhǔn)確率,結(jié)果如圖3所示。
圖3 挖掘準(zhǔn)確率測(cè)試結(jié)果
根據(jù)圖3中的數(shù)據(jù)可知,采用所提方法、文獻(xiàn)[3]方法和文獻(xiàn)[4]方法對(duì)不同用戶(hù)在網(wǎng)站中的訪(fǎng)問(wèn)模式進(jìn)行挖掘時(shí),所提方法的挖掘準(zhǔn)確率均在90%以上,高于其它兩種方法的挖掘準(zhǔn)確率,通過(guò)測(cè)試可知,所提方法可準(zhǔn)確地實(shí)現(xiàn)對(duì)不同類(lèi)型用戶(hù)在網(wǎng)絡(luò)中的訪(fǎng)問(wèn)模式挖掘。
3)覆蓋率
分別采用所提方法、文獻(xiàn)[3]方法和文獻(xiàn)[4]方法進(jìn)行訪(fǎng)問(wèn)模式挖掘測(cè)試,對(duì)比不同方法的覆蓋率,測(cè)試結(jié)果如表1所示。
表1 覆蓋率測(cè)試結(jié)果
對(duì)表1中的數(shù)據(jù)進(jìn)行分析可知,隨著挖掘路徑條數(shù)的增加,所提方法、文獻(xiàn)[3]方法和文獻(xiàn)[4]方法的覆蓋率均有所提升,通過(guò)對(duì)比發(fā)現(xiàn),所提方法獲取的覆蓋率在不同挖掘路徑條數(shù)下均高于文獻(xiàn)[3]方法和文獻(xiàn)[4]方法,表明所提方法具有良好的挖掘性能。
用戶(hù)在網(wǎng)上進(jìn)行股票交易、學(xué)習(xí)和購(gòu)物等活動(dòng)的頻率隨著Web技術(shù)的發(fā)展不斷增加,但信息過(guò)載等問(wèn)題逐漸成為人們高效使用網(wǎng)絡(luò)的制約因素,在海量Web日志數(shù)據(jù)中對(duì)用戶(hù)訪(fǎng)問(wèn)模式進(jìn)行挖掘,可以?xún)?yōu)化網(wǎng)站網(wǎng)頁(yè)的架構(gòu),因此需要對(duì)網(wǎng)站用戶(hù)訪(fǎng)問(wèn)模式挖掘方法進(jìn)行研究。目前網(wǎng)站用戶(hù)訪(fǎng)問(wèn)模式挖掘方法存在挖掘效率低、挖掘準(zhǔn)確率低和挖掘覆蓋率低的問(wèn)題,提出基于頻繁偏愛(ài)度的網(wǎng)站用戶(hù)訪(fǎng)問(wèn)模式挖掘方法,首先對(duì)網(wǎng)站中存在的信息進(jìn)行過(guò)濾處理,其次通過(guò)頻繁偏愛(ài)度實(shí)現(xiàn)網(wǎng)絡(luò)用戶(hù)訪(fǎng)問(wèn)模式的挖掘,解決并優(yōu)化了傳統(tǒng)方法中存在的問(wèn)題,為網(wǎng)站網(wǎng)頁(yè)架構(gòu)的優(yōu)化奠定了基礎(chǔ)。