劉張榕
(福建林業(yè)職業(yè)技術學院 信息工程系, 福建 南平 353000)
E-OEM模型是一種描述半結構化數(shù)據(jù)的自描述數(shù)據(jù)模型,模型中同時存在數(shù)據(jù)值和模式,在不同數(shù)據(jù)值和模式的配合下,可以靈活表示數(shù)據(jù)結構[1]。Web數(shù)據(jù)挖掘技術是以Web環(huán)境作為支撐,將網(wǎng)絡技術與網(wǎng)頁技術結合起來的一項技術[2]。
隨著計算機信息技術的快速發(fā)展,相關研究受到國內外很多學者的廣泛關注。在國外,首次提出Web挖掘技術是在上個世紀末,在各項技術的支持發(fā)展下,現(xiàn)今已經(jīng)形成了一種Web會話聚類的一種新框架,Web數(shù)據(jù)挖掘的精度也有了一定的提升[3]。國外有學者引入分布式算法,設計JAM系統(tǒng),通過JAM有效挖掘并提取數(shù)據(jù)信息到相互獨立的數(shù)據(jù)庫中。而在國內關于Web數(shù)據(jù)挖掘的相關研究起步較晚,有學者在考慮服務器的應用邏輯基礎上,將Web產(chǎn)生的頁面拓撲結構整合為一種挖掘算法[4]。也有學者基于Hadoop大數(shù)據(jù)開發(fā)系統(tǒng)平臺開發(fā)了PDMiner系統(tǒng),改進傳統(tǒng)算法的開發(fā)組件,以提高數(shù)據(jù)挖掘精度。目前,相關研究已進入到快速發(fā)展的階段。
但是現(xiàn)有的Web數(shù)據(jù)挖掘方法受到圖片數(shù)據(jù)的后綴影響,所構建的數(shù)據(jù)結構較為冗雜,此外,在大數(shù)據(jù)的背景下,數(shù)據(jù)結構呈現(xiàn)出了多元化的發(fā)展,使得Web數(shù)據(jù)挖掘的精度較低,不能有效實現(xiàn)數(shù)據(jù)挖掘,為此在E-OEM模型的支持下,設計一種Web數(shù)據(jù)精準挖掘方法。通過E-OEM模型分類數(shù)據(jù)結構,降低數(shù)據(jù)結構的冗雜影響,從而實現(xiàn)精準挖掘。
Web數(shù)據(jù)主要由Web日志中的各項數(shù)據(jù)組成,所以在采集數(shù)據(jù)時,需將Web日志文件轉換為數(shù)據(jù)庫文件,并使用HITS算法處理轉化后的頁面[5],計算Web頁面間的權威權重數(shù)值為式(1)。
(1)
其中,q,p分別表示W(wǎng)eb頁面;hq表示兩個頁面之間的HITS算法。選用權重數(shù)值大于0對應的數(shù)據(jù)作為Web數(shù)據(jù),形成的Web數(shù)據(jù)預處理過程如圖1所示。
圖1 Web數(shù)據(jù)預處理過程
在圖1所示的數(shù)據(jù)預處理過程下,首先清洗文檔中的無用數(shù)據(jù),以文件無用的后綴數(shù)據(jù)作為數(shù)據(jù)特征值[6-7],計算得到文檔中無用后綴數(shù)據(jù)出現(xiàn)的次數(shù),計算式可表示為式(2)。
wi(d)=φ(tfi(d))
(2)
其中,t表示數(shù)據(jù)庫文件;φ表示文檔中的無用后綴數(shù)據(jù);tfi(d)表示無用后綴數(shù)據(jù)出現(xiàn)的次數(shù)。根據(jù)文件庫中文件的數(shù)量,計算得到總的無用后綴數(shù)據(jù)總和,為了消除該部分數(shù)據(jù)的影響,歸一化處理上述次數(shù)權重數(shù)值,計算式可表示為式(3)。
(3)
其中各項系數(shù)含義不變,清洗無用數(shù)據(jù)后,識別Web日志上顯示的站點用戶,根據(jù)數(shù)據(jù)信息顯示出的信息增益[7],識別出用戶與Web站點間產(chǎn)生的會話,站點產(chǎn)生的信息增益可表示為式(4)。
(4)
其中,F(xiàn)表示產(chǎn)生的會話信息;P(W)表示信息站點;P(Ci)表示信息的特征值。在上述所得信息特征值的控制下,采用長度法構建一個有效的用戶會話過程,有效的用戶會話過程就可表示為式(5)。
(5)
其中,ipt表示用戶會話的用戶IP;uidt表示該項會話的用戶標識;Lt表示會話類型數(shù)量;Si表示用戶會話的集合。設定上述有效會話間的時間差后,以時間差規(guī)劃得到的路徑作為補充[8],不斷補充有效對話間的有效數(shù)據(jù),整合有效數(shù)據(jù)后,采用E-OEM模型分類處理Web數(shù)據(jù)結構。
為了使數(shù)據(jù)挖掘更精準,需要對Web服務器的應用邏輯、頁面拓撲等方面多重考慮,在用戶瀏覽時產(chǎn)生的Web數(shù)據(jù)都是統(tǒng)一登記在日志表中,利用E-OEM模型分類數(shù)據(jù)結構,綜合考慮了Web頁面拓撲結構和用戶瀏覽路徑等多個數(shù)據(jù)源,通過結合數(shù)據(jù)屬性三元組方法解決對用戶訪問數(shù)據(jù)的標定問題,降低數(shù)據(jù)結構的冗雜影響。使用上述處理得到的Web數(shù)據(jù),標記處理各個數(shù)據(jù)的類內標識后,根據(jù)數(shù)據(jù)對應的ID,使用E-OEM模型構建一個單獨系列的子樹,其表達為式(6)。
T={P1,P2,P3,…,Pn}
(6)
其中,Pn(n=1,2,3,…,n)為子樹序列。在上述子樹結構中,以L作為標簽數(shù)據(jù)所含的屬性,構建預處理后Web數(shù)據(jù)間的屬性關系,采用三元組表示數(shù)據(jù)間的屬性關系后[9],根據(jù)數(shù)據(jù)間的相似度劃分為不同的數(shù)據(jù)組,就可通過計算得到相似度S,如式(7)。
(7)
其中,wi表示數(shù)據(jù)屬性關系的三元組;p表示子樹序列一點;wli表示帶有標簽的數(shù)據(jù)屬性關系的三元組;k表示網(wǎng)絡數(shù)據(jù)的類型;n表示數(shù)據(jù)的分布參數(shù)。將相似度數(shù)值結果相近的數(shù)據(jù)劃分為一個類別,采用K-means聚類算法處理對應為一個類別的數(shù)據(jù)集[10],首先選取對應類別的數(shù)據(jù)中心,聚類數(shù)據(jù)中心計算過程就可表示為式(8)。
(8)
其中,uic表示分區(qū)矩陣;Xi表示數(shù)據(jù)集合。在上述處理過程下,聚類中心的形成過程如圖2所示。
圖2 聚類中心的形成過程
在圖2所示的聚類中心形成過程下,定義不同的聚類中心代表不同的Web數(shù)據(jù)結構,以數(shù)據(jù)聚類中心作為精準挖掘的點[11],在實現(xiàn)Web數(shù)據(jù)的精準挖掘時,設置聚類中心的序列模式。
在上述聚類中心的控制下,以聚類中心周圍的有效數(shù)據(jù)作為處理對象[12],處理上述有效數(shù)據(jù)為度量指標,處理過程可表示為式(9)。
(9)
其中,C表示聚類數(shù)量;S(Uk)表示聚類數(shù)據(jù)的類內相似度;S(Ul)表示聚類數(shù)據(jù)的類間相似度;d(Uk,Ul)表示相似度數(shù)值間的有效距離數(shù)值。處理有效Web數(shù)據(jù)為度量指標后,將度量指標整合為一條節(jié)點序列,確定序列中的頻繁項,計算式可表示為式(10)。
(10)
其中,tk表示不同序列長度;CD表示D頻繁項對應的序列長度;CS表示S頻繁項對應的序列長度。通過兩兩序列對比的方式,不斷確定頻繁項序列的長度大小,在不同的序列長度模式上附加一個數(shù)值ei,將ei作為數(shù)據(jù)序列的尾部標識,計算含尾部標識的序列支持度,計算式可表示為式(11)。
(11)
其中,mi表示尾部標識在序列中的權重數(shù)值。以式(11)得到的支持度,整合為不同的挖掘條件序列[13],以支持度數(shù)值3作為支持度處理對象,形成挖掘條件序列結果如圖3所示。
圖3 形成的序列挖掘條件
在圖3所示的序列挖掘條件下,當存在兩個聚類中心時,以Root作為精準挖掘的起點,結合不同序列的支持度數(shù)值[14-15],在a、b、h序列基的參與下,形成不同的精準挖掘路徑。綜合上述處理,最終完成對基于E-OEM模型的Web數(shù)據(jù)精準挖掘方法的研究。
準備計算機軟硬件參數(shù)如表1所示。
表1 軟硬件參數(shù)
使用上表所示參數(shù)的服務器6臺,搭建實驗環(huán)境如圖4所示。
圖4 搭建的實驗環(huán)境
在圖4所示的實驗環(huán)境下,使用版本為1.7的JDK環(huán)境,上傳JDK安裝包后,規(guī)劃安裝目錄,解壓安裝過程,如圖5所示。
圖5 JDK解壓安裝
采用Iris數(shù)據(jù)集作為精準挖掘的對象,分別使用傳統(tǒng)挖掘方法、文獻[1]中的挖掘方法以及文中設計的挖掘方法進行實驗,對比3種挖掘方法的性能。
基于上述實驗準備,調用上圖實驗環(huán)境內的6臺服務器同時運行Iris數(shù)據(jù)集,控制JDK中的變量后,實現(xiàn)Web數(shù)據(jù)的待采集狀態(tài),將6個服務器作為6個挖掘對象,控制3種挖掘方法同時進行挖掘,對比3種挖掘方法的作用時間,得到時間結果,如圖6所示。
圖6 3種挖掘方法作用時間結果
由圖6所示的作用時間結果可知,在3種挖掘方法的控制下,針對同等實驗環(huán)境內的相同實驗數(shù)據(jù)集,傳統(tǒng)挖掘方法實際作用時產(chǎn)生的挖掘時間最長,當待挖掘數(shù)據(jù)集為6時,實際的挖掘時間在16 s左右,所消耗的挖掘時間較長。文獻[1]中挖掘方法在相同數(shù)量的數(shù)據(jù)集下,實際挖掘時間在12 s左右,所消耗的挖掘時間較短。而文中設計的挖掘方法在挖掘相同數(shù)量的數(shù)據(jù)集時,所需的時間僅在4 s左右,與上述兩種挖掘方法相比,文中設計的挖掘方法消耗的挖掘時間最短。
在上述實驗環(huán)境下,隨機抽取3個Iris數(shù)據(jù)集作為實驗對象,將數(shù)據(jù)集定義為3種類型,定義3種數(shù)據(jù)集中的聚類中心為精準挖掘中心,精準挖掘中心結果如圖7所示。
圖7 定義的挖掘中心
圖中用不同的圖案形狀表達對數(shù)據(jù)集中數(shù)據(jù)的分類,并通過聚類分析得到圖7所示的聚類中心X,即為數(shù)據(jù)精準挖掘的對象。使用3種挖掘方法對圖7中的Iris數(shù)據(jù)集進行分類,以聚類分析得出的3種數(shù)據(jù)集中的聚類中心位置作為標準參考,對比聚類中心X的位置變化,統(tǒng)計3種挖掘方法挖掘的結果。結果如圖8所示。
(a) 傳統(tǒng)挖掘方法挖掘中心結果
(b) 文獻[1]中的挖掘方法挖掘中心結果
(c) 文中設計的挖掘方法挖掘中心結果
圖中用藍色X表示設定的聚類中心位置,黑色X表示采用該數(shù)據(jù)挖掘方法后的聚類中心位置,用紅色虛線表示聚類中心偏移差。
由圖8所示的實驗結果可知,以Iris數(shù)據(jù)集的聚類中心作為精準挖掘中心,在3種挖掘方法的控制下,傳統(tǒng)挖掘方法得到的挖掘中心在橫縱坐標上偏離標準坐標1個單位距離,文獻[1]中的挖掘方法偏離標準挖掘中心0.4個單位距離,而文中設計的挖掘方法得到的挖掘中心與標準的挖掘中心相差不大,與前述兩種挖掘方法相比,該種挖掘方法得到的挖掘中心更加準確。
保持上述實驗環(huán)境不變,將準備的Iris數(shù)據(jù)集以10個數(shù)據(jù)作為一個實驗組,共劃分為15個實驗數(shù)據(jù)組,以該實驗組作為對象,統(tǒng)計并計算3種挖掘方法對數(shù)據(jù)分類的的準確性,準確率結果如表2所示。
表2 挖掘準確率結果
由表2可知,以相同數(shù)量不同內容的數(shù)據(jù)作為挖掘對象,在3種挖掘方法的控制下,傳統(tǒng)挖掘方法對數(shù)據(jù)分類的準確率數(shù)值在72%-80%之間,準確率數(shù)值較小。文獻[1]中的挖掘方法對數(shù)據(jù)分類的準確率結果在85%-89%之間,準確率數(shù)值也不高。而文中設計的挖掘方法對數(shù)據(jù)分類最終得到的準確率數(shù)值在92%-98%之間,實際得到的準確率數(shù)值最大。綜合上述實驗結果可知,文中設計的精準挖掘方法挖掘時間最短,確定得到的挖掘中心最標準且數(shù)據(jù)分類的準確率最高。
對數(shù)據(jù)的精準挖掘是當下Web數(shù)據(jù)技術的研究重點,在E-OEM模型技術的支持下,設計一種數(shù)據(jù)精準挖掘方法,能夠改善現(xiàn)有精準挖掘方法挖掘時間較長的不足,同時能夠有效地消除Web數(shù)據(jù)中的冗余數(shù)據(jù),增強挖掘方法的準確性,為今后研究精準挖掘方法提供參考。