◆施金妹 章 欣
(海南科技職業(yè)學(xué)院 海南 571126)
WEB日志下數(shù)據(jù)挖掘的行為分析
◆施金妹 章 欣
(海南科技職業(yè)學(xué)院 海南 571126)
本文通過Web日志的數(shù)據(jù)挖掘搜索行為分析研究,得出如何進(jìn)行Web日志挖掘和在Web日志挖掘中應(yīng)采取的數(shù)據(jù)挖掘技術(shù)以及利用WEB挖掘技術(shù)應(yīng)用的用戶搜索行為技術(shù)。
Web; 數(shù)據(jù)挖掘; 搜索行為
數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中自動(dòng)地提取出有價(jià)值的知識(shí)和信息。數(shù)據(jù)挖掘技術(shù)主要研究結(jié)構(gòu)化的數(shù)據(jù)挖掘,而Web數(shù)據(jù)的挖掘是應(yīng)用于Internet的技術(shù)研究,是從半結(jié)構(gòu)或無結(jié)構(gòu)的Web頁面中,抽取感興趣的、潛在的模式。
隨著Internet的迅猛發(fā)展,Web挖掘逐漸成為數(shù)據(jù)挖掘的熱點(diǎn),但是因?yàn)閃eb自身的特點(diǎn)——多數(shù)據(jù)源、數(shù)據(jù)結(jié)構(gòu)的半結(jié)構(gòu)化或無結(jié)構(gòu)以及動(dòng)態(tài)性等,Web挖掘又是一個(gè)難點(diǎn)。Web數(shù)據(jù)挖掘是指針對包括Web頁面內(nèi)容、頁面之間的結(jié)構(gòu)、用戶訪問信息、電子商務(wù)信息等在內(nèi)的各種Web數(shù)據(jù),應(yīng)用傳統(tǒng)數(shù)據(jù)挖掘方法以發(fā)現(xiàn)有用的知識(shí),幫助人們從WWW中提取知識(shí)。盡管Internet是一個(gè)半結(jié)構(gòu)化的系統(tǒng),很難對它進(jìn)行處理,但是Web服務(wù)器日志記錄具有良好的結(jié)構(gòu),非常有利于數(shù)據(jù)挖掘的進(jìn)行。因此,Web日志挖掘是Web數(shù)據(jù)挖掘的一個(gè)分支,網(wǎng)絡(luò)管理人員可以根據(jù)Web日志的分析結(jié)果改進(jìn)網(wǎng)站的設(shè)計(jì),實(shí)現(xiàn)網(wǎng)站的有效管理,保證網(wǎng)絡(luò)的安全,它作為Web挖掘的一個(gè)重要組成部分,具有獨(dú)特的理論和實(shí)踐意義[1]。
1.1 Web數(shù)據(jù)挖掘種類
(1)內(nèi)容挖掘。指對Web頁面內(nèi)容及后臺(tái)交易數(shù)據(jù)庫進(jìn)行挖掘,從Web文檔內(nèi)容及其描述中的內(nèi)容信息中獲取有用知識(shí)的過程[2]。
(2)結(jié)構(gòu)挖掘。從人為的鏈接結(jié)構(gòu)中獲取有用的知識(shí)。由于文檔之間的互連,WWW能夠提供除文檔內(nèi)容之外的有用信息。利用這些信息,可以對頁面進(jìn)行排序,發(fā)現(xiàn)重要的頁面。
(3)日志挖掘。使用記錄挖掘是通過挖掘相應(yīng)站點(diǎn)的日志文件和相關(guān)數(shù)據(jù)來發(fā)現(xiàn)該站點(diǎn)上的瀏覽者的行為模式,獲取有價(jià)值信息的過程。
1.2 技術(shù)處理
(1)通過數(shù)據(jù)預(yù)處理技術(shù),將Internet上非結(jié)構(gòu)化或半結(jié)構(gòu)化的信息組織成邏輯單元,以表示事務(wù)或用戶會(huì)話,并將所有事務(wù)組成一個(gè)自定義的事務(wù)數(shù)據(jù)庫,這樣就可以利用對傳統(tǒng)數(shù)據(jù)挖掘的方法(如關(guān)聯(lián)規(guī)則和序列模式的發(fā)現(xiàn)等)對Web數(shù)據(jù)進(jìn)行挖掘; 另外,采用數(shù)據(jù)清洗技術(shù)從用戶訪問信息中去除大量無用或與當(dāng)前挖掘無關(guān)的數(shù)據(jù),有效地提高了挖掘效率[3]。
(2)從傳統(tǒng)數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則發(fā)現(xiàn)技術(shù)引入Web數(shù)據(jù)挖掘,求高頻站點(diǎn)集是關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的核心,也是計(jì)算量最大部分,可以采用了一種快速算法Apriori,并針對在Web應(yīng)用的特點(diǎn)進(jìn)行改進(jìn),能有效地提高了求高頻站點(diǎn)集的效率。通過分析Web訪問信息,可以發(fā)現(xiàn)用戶訪問站點(diǎn)之間的一些關(guān)聯(lián)規(guī)則,以及站點(diǎn)中頁面之間的一些訪問規(guī)則。關(guān)聯(lián)規(guī)則發(fā)現(xiàn)可以在網(wǎng)站構(gòu)造、Web廣播等活動(dòng)中得到廣泛應(yīng)用。
(3)寬帶網(wǎng)進(jìn)行Web廣播時(shí),其播出的內(nèi)容是一個(gè)大的Web頁面集合。針對如何得到這個(gè)Web頁面集合,以及如何組織這Web頁面集合以利于用戶瀏覽這兩個(gè)問題,有一種新的聚類方法WebClustering,通過聚類得出聚類中心和聚類集,通過關(guān)聯(lián)規(guī)則算法得出可信度,據(jù)此構(gòu)造出一個(gè)有價(jià)值的Web頁面播出集合并且根據(jù)挖掘到的用戶訪問興趣,通過形成索引頁面集來幫助用戶訪問這個(gè)Web頁面集合。這種方法較好地解決了Web廣播中的內(nèi)容選擇及頁面組織問題,取得了較為理想的效果。
(4)Web訪問信息挖掘的一般過程是將傳統(tǒng)數(shù)據(jù)挖掘過程中的各種關(guān)鍵技術(shù),如數(shù)據(jù)預(yù)處理,聚類算法,關(guān)聯(lián)規(guī)則、序列模式發(fā)現(xiàn)等引入到對于Web信息的挖掘活動(dòng)中,并通過一系列的實(shí)驗(yàn)進(jìn)行驗(yàn)證及評價(jià); 在以上工作的基礎(chǔ)上,可以設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)Web訪問信息挖掘原型系統(tǒng)(WWWMiner)。
WEB日志挖掘的主要目標(biāo)是從WEB的訪問記錄中抽取感興趣的模式,互連網(wǎng)中的每個(gè)服務(wù)器都保留了訪問日志(WEB Access Log),記錄了關(guān)于用戶訪問和交互的信息。利用web挖掘技術(shù),可以提高搜索引擎獲取信息的準(zhǔn)確性,并可以對用戶搜索結(jié)果進(jìn)行相關(guān)處理,盡量實(shí)現(xiàn)查準(zhǔn)率和查全率的有機(jī)結(jié)合。利用WEB日志挖掘技術(shù)進(jìn)行用戶搜索行為技術(shù)如下:
(1)文檔自動(dòng)分類,與一般的純文本文件不同,Web頁面是HTML格式的超文本,頁面中有很多標(biāo)記,用以描述頁面的標(biāo)題、關(guān)鍵詞、以及URL等,這些都包含了重要的分類信息。通過Web挖掘和機(jī)器學(xué)習(xí)技術(shù)可以對索引數(shù)據(jù)庫中的信息進(jìn)行整理,對文檔進(jìn)行自動(dòng)分類,從而提高了用戶的檢索速度和檢索的精確度。由于采用了機(jī)器自動(dòng)分類的方法,克服了人工分類中信息檢索不全面、更新速度慢的缺點(diǎn)[4]。
(2)搜索結(jié)果聚類。用戶檢索時(shí)會(huì)得到大量的返回記錄集,其中很大一部分是與用戶的查詢請求不相關(guān)的。通過對檢索結(jié)果的文檔集合進(jìn)行聚類,可以使得與用戶檢索結(jié)果相關(guān)的文檔聚類得比較靠近,從而遠(yuǎn)離那些不相關(guān)的文檔。在對用戶搜索日志進(jìn)行分析時(shí),可以把相關(guān)信息整合到結(jié)果聚類的過程,對擁有相似興趣的人返回的搜索結(jié)果集相關(guān)度也應(yīng)該是比較高的。
(3)實(shí)現(xiàn)個(gè)性化的搜索引擎。當(dāng)用戶接收到搜索引擎的返回結(jié)果時(shí),用戶會(huì)根據(jù)簡短的文檔摘要進(jìn)行判斷,發(fā)現(xiàn)感興趣的內(nèi)容后會(huì)點(diǎn)擊該文檔,查看詳細(xì)內(nèi)容。通過對用戶在文檔上停留的時(shí)間,以及是否在該文檔進(jìn)一步訪問其他鏈接到該頁的文檔,是否重復(fù)訪問該文檔等歷史信息的不斷收集,可以發(fā)現(xiàn)一些與用戶所檢索的關(guān)鍵詞密切相關(guān)的網(wǎng)頁等說明了搜索引擎存在個(gè)性化性質(zhì)。
(4)自動(dòng)文摘的形成。利用web文本挖掘中的文本總結(jié)技術(shù),可以從web頁中提煉出重要信息形成文檔摘要,使用戶能快速、方便地了解檢索信息。自動(dòng)文摘技術(shù)可以使用戶直觀地快速地了解檢索出文檔的主要內(nèi)容。
(5)查詢結(jié)果的相關(guān)度排序
相關(guān)性是WEB檢索的核心。它使搜索引擎的主要目標(biāo)是檢索出所有與用戶查詢相關(guān)的文檔,盡可能減少不相關(guān)的文檔?;赪eb文檔內(nèi)容的挖掘是建立在這樣一種假設(shè)之上,即從文檔中提取的文檔表示或者相關(guān)概率都可以是相對固定的。也就是認(rèn)為所有文檔都有一些客觀存的特征信息在那里等待提取[5]。用戶主觀上認(rèn)為相關(guān)的文檔才是真正的相關(guān)文檔?;谖臋n內(nèi)容中包括的超文本鏈接信息的挖掘雖然考慮了網(wǎng)頁設(shè)計(jì)者對相關(guān)文檔的主觀判定,但忽略了真正的網(wǎng)頁使用者——用戶的心理。通過分析搜索用戶日志就能知道用戶在文檔相關(guān)判定上的意見,就能更好地挖掘相關(guān)文檔[6]。
數(shù)據(jù)挖掘及其用戶搜索行為的分析已成為數(shù)據(jù)庫技術(shù)和機(jī)器學(xué)習(xí)方面的重要的研究課題??梢姡_的使用數(shù)據(jù)挖掘的搜索行為可以實(shí)現(xiàn)網(wǎng)站的有效管理,保證網(wǎng)絡(luò)安全的同時(shí)大大提高我們的工作效率,在最好的時(shí)間內(nèi)搜索挖掘到我們想要獲取的知識(shí)與信息。
[1]朱彥霞,張雪萍,王家耀.改進(jìn)的頻繁項(xiàng)集挖掘算法[J].計(jì)算機(jī)工程與應(yīng)用,2009.
[2]陳文.基于Fp樹的加權(quán)頻繁模式挖掘算法[J].計(jì)算機(jī)工程,2012.
[3]李曉昕,謝維奇.基于Web日志挖掘的網(wǎng)上學(xué)習(xí)行為研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2011.
[4]吳夢杰,陳紅琳.基于Web日志挖掘的用戶興趣度分析[J].智能計(jì)算機(jī)與應(yīng)用,2011.
[5]朱彤,劉奕群,茹立云,馬少平.基于用戶行為的長查詢用戶滿意度分析[J].模式識(shí)別與人工智能,2012.
[6]孫玲芳,夏聰.Web使用挖掘在用戶行為分析中的應(yīng)用[J].江蘇科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2011.