摘要:隨著網(wǎng)絡(luò)的飛速發(fā)展,Web挖掘技術(shù)已成為一個研究熱點(diǎn)。本文就Web挖掘與相關(guān)研究進(jìn)行了對比,介紹了Web挖掘的概念、分類及步驟,最后給出了Web挖掘的研究方向。
關(guān)鍵詞:Web挖掘;數(shù)據(jù)挖掘;信息檢索
隨著數(shù)字化信息時代的到來,網(wǎng)絡(luò)日漸成為人們獲得信息的重要途徑。然而網(wǎng)絡(luò)中信息量巨大且分散無序,Web用戶經(jīng)常發(fā)現(xiàn)難以找到其所需的信息,造成“信息過載,知識匱乏”[1]的現(xiàn)狀。通用搜索引擎給人們提供了進(jìn)行信息檢索的方法,但也存在查準(zhǔn)率不高、查全率不能保證等問題。Web挖掘技術(shù)正是應(yīng)這一需求而出現(xiàn)的一項(xiàng)新技術(shù)。人們運(yùn)用Web挖掘技術(shù),尋找網(wǎng)絡(luò)中有趣的、潛在的、有用的模式或隱藏的信息,并利用這些信息加快用戶檢索的效率,從而使網(wǎng)絡(luò)資源更好的為人們服務(wù)。
1 Web挖掘定義與相關(guān)研究
1.1 Web挖掘的定義
Web挖掘[2]就是從Web頁面和Web用戶訪問活動中發(fā)現(xiàn)、抽取有用模式和隱藏的信息。它是以從Web上挖掘有用知識為目標(biāo),以數(shù)據(jù)挖掘、文本挖掘、多媒體挖掘?yàn)榛A(chǔ),并綜合運(yùn)用計算機(jī)網(wǎng)絡(luò)、數(shù)據(jù)庫與數(shù)據(jù)倉儲、人工智能、信息檢索等技術(shù),將傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)與Web結(jié)合起來的一門新興學(xué)科。
1.2 Web挖掘與數(shù)據(jù)挖掘
數(shù)據(jù)挖掘[3]是從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、潛在有用信息的頻繁過程。從廣義觀點(diǎn)來說,數(shù)據(jù)挖掘就是從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其它信息庫中的大量數(shù)據(jù)中挖掘有趣知識的過程。
Web 挖掘從數(shù)據(jù)挖掘發(fā)展而來,在研究方法上有很多相似之處。但是,Web 挖掘與數(shù)據(jù)挖掘相比有許多獨(dú)特之處。首先,Web 挖掘的對象是大量、異質(zhì)、分布的 Web 文檔。其次,Web 在邏輯上是一個由文檔節(jié)點(diǎn)和超鏈接構(gòu)成的圖,因此 Web 挖掘所得到的模式可能是關(guān)于 Web 內(nèi)容的,也可能是關(guān)于Web 結(jié)構(gòu)的。
1.3 Web挖掘與信息檢索
信息檢索[4]是自動獲取相關(guān)文檔的同時盡可能少的獲取不相關(guān)文檔,其主要的目標(biāo)是索引文本,尋找有用的文檔。
Web挖掘與信息檢索在一些方面有所不同。首先,信息檢索是目標(biāo)驅(qū)動的,用戶需要明確提出查詢要求,其目的在于幫助用戶發(fā)現(xiàn)資源;Web 挖掘是機(jī)會主義的,其結(jié)果獨(dú)立于用戶的信息需求,揭示文檔中隱含的知識是它的目標(biāo);第二,信息檢索使用精度和查全率來評價其性能;而 Web挖掘采用受益度、置信度、簡潔性等來衡量所發(fā)現(xiàn)知識的有效性、可用性和可理解性。
2 Web挖掘的分類
Web挖掘大致分為三類:Web內(nèi)容挖掘(Web content mining)、Web結(jié)構(gòu)挖掘(Web structure mining)、Web使用記錄挖掘(Web usage mining).下圖為Web挖掘的分類圖:
xieht01.tif
2.1 Web內(nèi)容挖掘
Web內(nèi)容挖掘是指從 Web上的網(wǎng)頁內(nèi)容及其描述信息中獲取潛在的、有價值的知識模式,以實(shí)現(xiàn)Web資源的自動檢索,提高Web數(shù)據(jù)利用率的過程。Web內(nèi)容挖掘根據(jù)不同的標(biāo)準(zhǔn),有多種不同的分類方法。按挖掘?qū)ο髞韯澐职▽ξ谋疚臋n的挖掘和多媒體文檔的挖掘 ;按方法來劃分有信息查詢觀點(diǎn)的挖掘和數(shù)據(jù)庫觀點(diǎn)的挖掘;按內(nèi)容又可分為對Web 文檔的挖掘和對搜索結(jié)果的挖掘。
2.2 Web結(jié)構(gòu)挖掘
Web結(jié)構(gòu)挖掘的基本思想是將Web看作一個有向圖,它的頂點(diǎn)是Web頁面,頁面間的超鏈接就是有向圖的邊。然后利用圖論對 Web的拓?fù)浣Y(jié)構(gòu)進(jìn)行分析。這種思想源于引文分析,即通過分析一個網(wǎng)頁鏈接和被鏈接數(shù)量以及對象來建立Web自身的鏈接結(jié)構(gòu)模式。在Web結(jié)構(gòu)挖掘領(lǐng)域最著名的兩個算法是:PageRank算法和HITS算法。它們的共同點(diǎn)是使用一定方法計算Web頁面之間的超鏈接質(zhì)量,從而得到頁面的權(quán)重。
2.3 Web使用記錄挖掘
Web使用記錄挖掘又稱為Web日志挖掘,主要目標(biāo)是從Web的訪問記錄中發(fā)現(xiàn)感興趣的模式;分析不同Web站點(diǎn)的訪問日志可以幫助人們理解用戶的行為和Web結(jié)構(gòu),從而改進(jìn)站點(diǎn)的結(jié)構(gòu),或?yàn)橛脩籼峁﹤€性化的服務(wù)。Web使用挖掘的基本流程包括四個階段:數(shù)據(jù)預(yù)處理、挖掘算法實(shí)施、模式分析、可視化。
3 Web挖掘的過程
Web挖掘的處理流程[5]包括如下四個步驟:資源發(fā)現(xiàn)、信息選擇和預(yù)處理、模式發(fā)現(xiàn)、模式分析。
1)資源發(fā)現(xiàn)
網(wǎng)絡(luò)爬蟲在線收集Web文檔、網(wǎng)站的日志等數(shù)據(jù),并從中得到有用的數(shù)據(jù)。
2)信息選擇和預(yù)處理
剔除Web資源中無用信息并將信息進(jìn)行必要的整理,如Web文檔中自動去除廣告連接、去除多余格式標(biāo)記、英文單詞的詞干提取、高額低頻詞的過濾、漢語詞的切分等。
3)模式發(fā)現(xiàn)
自動進(jìn)行模式發(fā)現(xiàn)。可以在同一個站點(diǎn)內(nèi)部或多個站點(diǎn)之間進(jìn)行,以自動發(fā)現(xiàn)Web站點(diǎn)的共有模式。
4)模式分析
驗(yàn)證、解釋上一步驟產(chǎn)生的模式,并進(jìn)行可視化。
4 Web挖掘研究方向
Web挖掘的應(yīng)用非常廣闊,不但涉及頁面信息的提取、站點(diǎn)的分析和設(shè)計,而且在基于Internet 的電子商務(wù)方面也有很好的應(yīng)用前景。
今后幾年Web挖掘研究的主要方向有:(1)Web知識庫的動態(tài)維護(hù)、更新,各種知識和模式的融合、提升,以及知識的評價綜合方法;(2)基于Web挖掘和信息檢索的、高效的、具有自動導(dǎo)航功能的智能搜索引擎相關(guān)技術(shù)的研究;(3)研究和開發(fā)基于Web的多層數(shù)據(jù)體系結(jié)構(gòu)和智能集成系統(tǒng),提供相應(yīng)的查詢語言,優(yōu)化和維護(hù)機(jī)制;(4)現(xiàn)有的數(shù)據(jù)挖掘方法與技術(shù)的改進(jìn)及其向Web數(shù)據(jù)的擴(kuò)展,挖掘算法的適應(yīng)性和時效性的研究;(5)Web挖掘的相關(guān)技術(shù)在電子商務(wù)領(lǐng)域的應(yīng)用研究等。
5 總結(jié)
隨著網(wǎng)絡(luò)的飛速發(fā)展,Web挖掘技術(shù)已成為一個研究熱點(diǎn)。本文就Web挖掘與相關(guān)研究進(jìn)行了對比,介紹了Web挖掘的概念、分類及步驟,最后給出了Web挖掘的研究方向。
參考文獻(xiàn):
[1]Raymond Kosala,and Hendrik Blockeel.Web Mining Research: A Survey[J]. SKGKDD Explorations,July 2000.
[2] 韓家煒,孟小峰,王靜,等.Web挖掘研究[J].計算機(jī)研究與發(fā)展,2001,38(4):405-410.
[3] Jiawei Han,Micheline Kamber 。范明譯。數(shù)據(jù)挖掘概念與技術(shù)[M]。北京,機(jī)械工業(yè)出版社,2000.
[4] 王繼成,蕭嶸,孫正興,等.Web信息檢索研究進(jìn)展[J].計算機(jī)研究與發(fā)展,2001(2).
[5]Yuefeng Lia,Ning Zhong.Web mining mobel and its applications for information gathering[J].Knowledge-Based Systems,2004(17):207-217.
收稿日期:2009-04-28
作者簡介: 謝海艇(1982-),男,山東淄博人。研究方向:信息檢索、數(shù)據(jù)挖掘等。