張曉偉
泰山職業(yè)技術學院 山東 泰安 271000
在計算機網絡技術不斷更新過程中,網絡終端用戶在尋找所需信息時,會搜索出大量不相關的信息,準確找到所需信息需要進一步篩選和確認,這是因為目前各網站的結構復雜化,網站中包含的內容信息量快速增加。幫助用戶快速找到所需的信息資源,是網站設計時所要考慮的重要環(huán)節(jié),即在技術上實現搜索資源的快速定位。搜索信息涉及到網絡日志的數據挖掘。數據量大、不規(guī)范、不完整是網絡日志數據的特點,在對網絡日志數據進行數據挖掘之前,要對數據進行預處理。通過對網絡日志數據的預處理可提高網絡日志的規(guī)范度。
對網絡日志進行預處理主要是指:網絡日志的數據凈化,網絡用戶的識別,用戶會話的識別及補充路徑、識別事務等。會話識別是網絡日志數據預處理的重要步驟之一,會話識別的準確程度對后續(xù)其它數據的分析起到重要的作用。設計一種什么樣的會話識別算法,關系到會話識別的質量。有采用將會話切分成事務最大向前引用的方法 (Park提出);有采用立方結構模式進行數據挖掘的方法(Srivastava提出);有采用基于時間啟發(fā)式的方法(Spiliopoulou提出);有莊力可博士等人提出的基于時間間隔的會話切分方法。其特點都是采用單一固定的時間閾值,而沒有考慮用戶個體之間存在的差異,可能會導致會話記錄不能準確的劃分,影響到會話識別的總體質量。
在網絡日志數據預處理中的會話識別算法中,本文提出一種新的算法。新算法中核心是依據網頁的內容、網站點的結構,對頁面的鏈入和鏈出數目一并考慮,有針對性對二者進行權重的綜合處理。在會話識別中首先獲得一個用戶頁面訪問的時間閾值,利用時間閾值進行用戶會話的切分,在切分得到的會話集合中進行篩選,會話中存在鏈接不感興趣的頁面進行刪除,進一步形成有效的頁面序列集合。
對日志數據進行預處理是數據挖掘之前必須進行的一個過程,網絡日志就是訪問服務器時存儲在其上的一組、一組的數據,形成的數據不是結構化的,而是半結構化的數據形式,還不能對這樣的數據直接進行挖掘,需要進行預處理。前面提到網絡日志數據的預處理主要是指對日志數據的清理、凈化過慮、優(yōu)化組合的過程,刪除對數據挖掘過程中冗余的數據。網絡日志數據的預處理包括日志的數據凈化、網絡用戶的識別、用戶會話的識別、路徑的補充及事務識別等階段。
進行網絡日志的挖掘網關鍵就是首先對網絡日志數據的進行預處理,沒有設計一個良好的日志預處理算法,就談不上后續(xù)的數據挖掘的質量、效率及準確性,日志數據預處理的重要步驟之一就是會話識別。傳統會話識別算法用固定時間閾值的方式來進行預處理,忽略了用戶多樣、個性的特點,對大于時間閾值的同一個會話頁面將分到下一個會話中,產生錯分的現象,從而導致網絡日志預處理的效率低。
設定一個網絡終端用戶(User)通過瀏覽器訪問,在服務器存儲器中形成用戶會話(Session),設定用戶開始訪問網站記錄到離開網站進行的所有活動為用戶會話,這是由用戶訪問形成的所有鏈接的集合。對這些集合數據或者說訪問日志記錄劃分為單一的會話過程就是會話識別。一次會話認為就是用戶的一次網頁瀏覽過程,瀏覽過程就形成了一系列帶訪問時間次序的頁面集合。
定義US(user session)為一個用戶會話,US由用戶標識、訪問頁面兩個元素構成,即US<userID,RS>,其中userID為用戶標識,RS為該時間段用戶請求訪問的Web頁面集合。RS包含所請求頁面的標識符Pid、請求的時間Time,則用戶會話(US)可以表示為:
先通過用戶識別后,得到用戶訪問的Web頁面序列集合,再設定時間閾值,進一步識別得到用戶會話,設定時間閾值(T)為整個用戶會話的時間,上式(1)中的會話一定滿足下列條件:
傳統會話識別算法步聚:
(1)設定時間上界Tvisit。用戶在兩個相鄰頁面間的請求時間與時間上界(Tvisit)相比,如果超過整個時間上界(Tvisit),開始一個新的用戶會話。設t0表示會話初始頁的時間戳,t表示用戶請求時間,如果t-t0≤Tvisit,則加入當前會話。
緊急切斷閥應具有自動和手動關閉功能,手動關閉功能包括控制室遙控關閉和現場手動關閉[9]。當液位高高或低低報警時通過SIS完成聯鎖緊急切斷功能,及時切斷儲罐進出口管道上的進出口閥門,避免溢油冒罐或抽癟儲罐的情況發(fā)生;同時,在操作站設置緊急切斷閥的遠程控制開關,或在SIS輔操臺上設置緊急關閥按鈕,便于操作人員在發(fā)生火災或安全聯鎖失效等突發(fā)狀況時能夠遠程手動切斷閥門;另外,安裝于火災危險區(qū)域外的現場操作開關可以使現場人員在第一時間發(fā)現異常后及時切斷閥門,防止事故升級。
(2)若用戶是通過歷史和參引頁上的鏈接請求進入,應認為是同一會話。
(3)用戶兩個連續(xù)請求的時間間隔為△t,若△t超過在一個頁面停留時間閾值T,則認為開始一次新會話,否則,就認為是同一個會話,一般情況下設時間閾值為10分鐘。
(4)最大向前參引模型。最大向前參引是指用戶在瀏覽網頁過程中,按下返回按鈕將瀏覽前一個網頁,即一個會話結束,新一個會話開始。
實際登錄網絡過程中,由于每一個用戶的自身的各方面差異,如形成的習慣、個人的興趣度、操作的熟練程度及網絡速度的不同,導致不同用戶的會話時間不同。但是傳統的用戶識別算法采用預先設定方法,會話時間間隔閾值相同,沒有考慮不同用戶間差異,產生了超過時間閾值的會話會分到下一個會話中,降低了用戶訪問效率。
考慮到用戶訪問網絡時會話識別的時間與網頁內容及網站結構有關,提出一種改進的會話識別算法,總體思路:綜合分析網頁的內容、網站設計結構、網頁對用戶的重要程度,同時加入頁面鏈入、鏈出數因素,形成不同的用戶訪問Web頁面的不同時間閾值,根據得到的不同時間閾值進行會話的劃分,對劃分后得到的會話集合進行刪除候選,刪除哪些用戶對頁面內容不感興趣的鏈接頁面,形成最終頁面序列集合,從而提高會話識別的質量和效率。
前面提到的傳統會話識別算法采用時間閾值預先設定的方式,本文按照優(yōu)化的總體策略對頁面進行重新時間閾值的設置,然后再進行會話的識別。考慮加入頁面鏈入、鏈出數來衡量頁面重要程度的因素,設定Li為鏈入數,表示鏈接到該頁面的頁面?zhèn)€數;設Lo為鏈出數,表示頁面所包含的鏈接頁面的個數;設PS表示該頁面內容大小,則頁面鏈入數、鏈出數與PS之比反映出時間閾值的動態(tài)變化,用Riop表示。
考慮一個頁面的鏈入和鏈出的程度一般情況下不會相同,應加入兩者的權重系數,可以認為鏈入相對鏈出重要。鏈入權重設定在0.6~0.8之間,鏈出權重設定在0.4~0.2之間,如果采用黃金點分割(0.618Li,0.382Lo)更具有可操作性。
由于Riop反映了時間閾值的動態(tài)變化,利用它生成一個時間閾值因子β。
假設訪問網頁時的網頁下載時間為Td,瀏覽閱讀時間為Tr,時間閾值T為:
考慮到用戶的個體差異及終端設備等情況,對于鏈接速度較慢的終端用戶,允許用戶在沒有完全下載完成前就可以閱讀網頁相關信息,如果再把下載時間Td作為用戶開始閱讀的時間時,就會使會話的識別產生誤差,為此,加入一平滑系數α對下載時間Td進行處理,時間閾值修訂為:
對一個頁面瀏覽時間相對其它頁面時間長,瀏覽次數多,瀏覽的瀏覽興趣度就高,瀏覽興趣度是與瀏覽時間、瀏用戶覽次數等參數有關。設P表示用戶的瀏覽興趣度,用戶從Web頁面i進入j頁面的瀏覽時間用Timeij表示,瀏覽次數用Countij表示,用戶在頁面j上的瀏覽興趣度表示為Pj:
其中,Sbij表示從頁面i進入到頁面j接收到的字節(jié)數。
一個用戶在某個Web頁面上瀏覽時間長,說明示用戶對該網頁內容感興趣;另外,應考慮到瀏覽時間還與不同用戶的瀏覽速度有關,在網絡日志中,瀏覽速度用Web頁面的接收字節(jié)數來表示。上面(7)式中的Pj可以客觀反映用戶對某一頁面的關注程度,因此可以刪除不能引起用戶興趣的Web頁面。
優(yōu)化會話識別算法的步驟如下:
首先對網絡日志數據進行篩選。對用戶訪問網頁形成的網絡日志初始數據進行篩選、縮減。
對數據清洗后的日志數據進行用戶識別。
根據不同的用戶對日志中的數據進行分析處理,確定用戶訪問網頁時的下載時間Td和在線閱讀時間Tr。
計算時間閾值因子β,再通過公式(6)計算每個頁面訪問時間閾值T。
依據時間閾值T進行網絡日志的劃分,得到用戶上網的會話集合。
最后計算用戶的頁面興趣度P,對用戶興趣度不高的鏈接頁面進行刪除。
隨著計算機網絡廣泛應用的普及和網絡技術的更新發(fā)展,在網絡海量信息中快速準確查詢到有用的信息需要技術的不斷更新,進行網絡日志數據挖掘技術的研究旨在解決這方面的問題。本文是在傳統的網絡日志挖掘預處理基礎上進行了算法的優(yōu)化,提出改進網絡日志數據中會話識別的預處理算法,提高了下一步進行數據挖掘的效率。
[1]楊富華.網絡日志預處理中優(yōu)化的會話識別算法[J].計算機仿真,2011,28(4):123-125.
[2]于飛,丁華福,姜倫.Web日志挖掘中數據預處理技術的研究[J.]計算機技術與發(fā)展,2010,20(5):47-50.
[3]李瑞,朱鶴祥.Web日志挖掘預處理中會話識別算法的優(yōu)化[J].電腦知識與技術,2009,5(11):8616-8618.
[4]方元康,胡學剛,夏啟壽.一種改進的Web日志會話識別方法[J].計算機技術與發(fā)展,2008,18(11):214-216.