陳 維 阮海紅
〔摘 要〕首先對(duì)網(wǎng)絡(luò)環(huán)境下信息檢索的現(xiàn)狀進(jìn)行分析,主要介紹網(wǎng)絡(luò)信息檢索的代表工具—搜索引擎的工作原理、缺陷及發(fā)展方向,引出數(shù)據(jù)挖掘技術(shù),并進(jìn)一步對(duì)WEB數(shù)據(jù)挖掘技術(shù)作了概要的介紹,闡明WEB數(shù)據(jù)挖掘技術(shù)是網(wǎng)絡(luò)信息檢索智能化的重要發(fā)展方向之一。最后,提出一個(gè)結(jié)合數(shù)據(jù)挖掘技術(shù)的新的搜索引擎結(jié)構(gòu)模型。
〔關(guān)鍵詞〕信息檢索;搜索引擎;WEB數(shù)據(jù)挖掘
〔中圖分類號(hào)〕G250.73 〔文獻(xiàn)標(biāo)識(shí)碼〕B 〔文章編號(hào)〕1008-0821(2009)05-0144-03
Information Retrieval and Data Mining in the Network EnvironmentChen Wei Ruan Haihong
(Library,Zhejiang University of Media and Communications,Hangzhou 310018,China)
〔Abstract〕Based on the analysis of information retrieval in the network environment,this paper introduced the working principle,defects and development of search engine which was a kind of typical tools of information retrieval.Then,data mining and its applications in the web were introduced.It was illuminated that web data mining technology was an important development of intelligentized information retrieval.A new search engine structure model which was combined with data mining was presented in the end.
〔Keywords〕information retrieval;search engine;WEB data mining
隨著網(wǎng)絡(luò)應(yīng)用的普及,網(wǎng)上信息量以驚人的速度增長(zhǎng)。網(wǎng)絡(luò)信息資源具有數(shù)量巨大,增長(zhǎng)迅速,形式多樣,分布廣泛,結(jié)構(gòu)復(fù)雜等特點(diǎn)。人們面對(duì)的問(wèn)題不再是缺乏有用信息,而是如何高效地找到自己所需要的信息。但目前的現(xiàn)狀是“數(shù)據(jù)豐富,但信息貧乏”,人們迫切需要能夠從網(wǎng)絡(luò)上快速、有效地發(fā)現(xiàn)資源和知識(shí)的工具。
網(wǎng)絡(luò)搜索引擎的出現(xiàn)部分地解決了資源發(fā)現(xiàn)問(wèn)題,但是它檢索效率低,往往會(huì)返回給用戶成千上萬(wàn)個(gè)檢索到的網(wǎng)頁(yè),存在大量的隱性信息,其中很大一部分與用戶的檢索要求無(wú)關(guān),用戶不能快速、準(zhǔn)確地得到所需的有價(jià)值的信息,無(wú)法滿足用戶個(gè)性化的需求。此外,搜索引擎的目的在于發(fā)現(xiàn)網(wǎng)絡(luò)上的資源,就網(wǎng)絡(luò)上的知識(shí)發(fā)現(xiàn)而言,即使檢索精度再高,搜索引擎也不能夠勝任。因此,人們需要比信息檢索層次更高的、能包含網(wǎng)絡(luò)數(shù)據(jù)庫(kù)在內(nèi)的新的數(shù)據(jù)挖掘技術(shù),以更有效的手段對(duì)各種大量數(shù)據(jù)進(jìn)行挖掘并發(fā)揮其潛能[1]。
數(shù)據(jù)挖掘正是在這樣的應(yīng)用需求環(huán)境下產(chǎn)生并迅速發(fā)展起來(lái)的。但是,數(shù)據(jù)庫(kù)領(lǐng)域采用的數(shù)據(jù)挖掘技術(shù)所涉及的多是結(jié)構(gòu)化數(shù)據(jù),為了處理WEB上的異質(zhì)、非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),WEB數(shù)據(jù)挖掘成為數(shù)據(jù)挖掘研究的一個(gè)重要分支。盡管WEB數(shù)據(jù)挖掘是比網(wǎng)絡(luò)信息檢索更高層次的技術(shù),但它并不是用來(lái)取代網(wǎng)絡(luò)信息檢索技術(shù)的,二者是相輔相成的[2]。
1 網(wǎng)絡(luò)信息檢索
信息檢索(information retrieval)作為一門學(xué)科,其歷史可追溯到20世紀(jì)中期。在此之前,信息存儲(chǔ)和傳播主要以紙質(zhì)介質(zhì)為載體,信息檢索活動(dòng)也圍繞著文獻(xiàn)的獲取和控制展開。20世紀(jì)50年代,計(jì)算機(jī)技術(shù)開始得到實(shí)際應(yīng)用,“情報(bào)檢索”也開始與IT技術(shù)緊密結(jié)合,從而產(chǎn)生了現(xiàn)代意義的“信息檢索”[3]。
信息檢索主要是研究如何獲取WWW上的信息資源,又稱為Web信息檢索[4],它有以下幾個(gè)特點(diǎn)[5]:大數(shù)據(jù)量、分布式、多用戶、非專業(yè)。網(wǎng)絡(luò)信息資源檢索的上述特點(diǎn),造成了網(wǎng)上信息獲取的障礙。從20世紀(jì)60年代以來(lái),信息檢索領(lǐng)域在索引模型、文檔內(nèi)容表示、匹配策略等方面取得了許多研究成果。這些成果被成功地應(yīng)用在WEB上,產(chǎn)生了搜索引擎,著名的有Google,Yahoo!,Altavista等。
1.1 搜索引擎的工作原理
常見(jiàn)的Web信息檢索系統(tǒng)的具體實(shí)例是搜索引擎。搜索引擎(Search Engine)[6]指對(duì)www站點(diǎn)資源和其他網(wǎng)絡(luò)資源進(jìn)行標(biāo)引和檢索的一類檢索系統(tǒng)機(jī)制。其基本功能通常包含三部分:(1)下載Web文檔和有關(guān)的信息資源到本地進(jìn)行預(yù)處理;(2)對(duì)文檔內(nèi)容建立索引;(3)搜索引擎按照用戶提出的檢索請(qǐng)求,通過(guò)建立的索引檢索出匹配的文檔及其相關(guān)的鏈接返回給用戶。
搜索引擎通常有6個(gè)相對(duì)獨(dú)立的基本組成部分:Robot、臨時(shí)文檔數(shù)據(jù)庫(kù)、索引器、索引數(shù)據(jù)庫(kù)、檢索器和用戶接口。Robot(又叫做Crawler、Spider、Worm等)是一個(gè)能利用HTTP協(xié)議獲取Web頁(yè)面并沿著HTML文檔中的超鏈在Internet上自動(dòng)漫游的程序,對(duì)Internet進(jìn)行系統(tǒng)、全面的遍歷,將分布在不同Web服務(wù)器上的信息資源收集下載到本地存儲(chǔ)在臨時(shí)文檔數(shù)據(jù)庫(kù)中;索引器對(duì)下載的文檔進(jìn)行預(yù)處理,依據(jù)所使用的檢索模型對(duì)文檔進(jìn)行形式化表示,建立索引后存儲(chǔ)在索引數(shù)據(jù)庫(kù)中以提高系統(tǒng)的檢索效率;用戶接口依據(jù)所使用的Web信息檢索模型對(duì)用戶提交的查詢進(jìn)行分析,并由檢索器在索引庫(kù)中查找匹配文檔,計(jì)算各個(gè)文檔與查詢的相關(guān)度;最后,將相關(guān)的文檔按照相關(guān)度遞減的順序排列作為檢索結(jié)果返回給用戶。其結(jié)構(gòu)如圖1所示[7]。
1.2 搜索引擎的缺陷
1.2.1 邏輯運(yùn)算符
現(xiàn)有的搜索引擎提供的提問(wèn)函數(shù)是相當(dāng)有限的,大多數(shù)的搜索引擎只提供關(guān)鍵詞間最基本的布爾連接。例如Yahoo只提供AND和OR運(yùn)算,并且一旦選用了一個(gè)邏輯運(yùn)算符,它必須應(yīng)用于所有的關(guān)鍵詞。OpenTextIndex允許用戶用不同的布爾運(yùn)算符,但僅運(yùn)行4個(gè)運(yùn)算符且必須按出現(xiàn)次序運(yùn)算。像SQL語(yǔ)言那樣復(fù)雜的查詢語(yǔ)言在現(xiàn)有的搜索引擎中還不能應(yīng)用。
1.2.2 僅使用關(guān)鍵詞提問(wèn)
現(xiàn)有的搜索引擎僅允許用一組關(guān)鍵詞及邏輯運(yùn)算符組成提問(wèn)。但關(guān)鍵詞檢索不能完全滿足用戶的要求,而且它是一種盲目的匹配。而自然語(yǔ)言理解又是非常困難的任務(wù),現(xiàn)在仍在研究之中。
1.2.3 簡(jiǎn)單的結(jié)果表示方法
大多數(shù)的搜索引擎都只返回一張長(zhǎng)長(zhǎng)的檢索結(jié)果表,一般有好幾頁(yè)。該表中可能包含成千上萬(wàn)個(gè)指向Web站點(diǎn)的鏈接指針。用戶可能只選擇一小部分,而放棄其余部分。因?yàn)橛脩舨豢赡苡羞@么好的耐心。結(jié)果是他們可能丟失了很多有用的信息。
1.2.4 單個(gè)引擎的限制
由于現(xiàn)在Web上的信息量變得越來(lái)越大,單個(gè)搜索引擎不可能包括整個(gè)網(wǎng)絡(luò)的軌跡。索引機(jī)器人的能力,索引數(shù)據(jù)庫(kù)的大小,系統(tǒng)維護(hù)開銷等,都限制了一個(gè)搜索引擎的能力,因此,用戶必須嘗試用所有搜索引擎去找出他所要的信息。最壞的是每個(gè)引擎互相覆蓋,用戶會(huì)重復(fù)發(fā)現(xiàn)一條信息?,F(xiàn)在已出現(xiàn)了一些解決方法,如元搜索引擎和分布式搜索引擎。
1.2.5 不能利用檢索歷史信息
用戶的每次檢索都是從頭開始的檢索,不能從原有的查詢結(jié)果中作進(jìn)一步的提煉。
1.3 網(wǎng)絡(luò)信息檢索的發(fā)展方向
通過(guò)上面的分析可以看出,當(dāng)前搜索引擎所使用的技術(shù)都難以解決“找信息難”的問(wèn)題。造成這種困難的實(shí)質(zhì)在于搜索引擎缺乏知識(shí)處理能力和理解能力,對(duì)要檢索的信息僅僅采用機(jī)械的關(guān)鍵詞匹配來(lái)實(shí)現(xiàn),對(duì)所檢索到的結(jié)果只經(jīng)過(guò)簡(jiǎn)單的處理就直接送給用戶,由用戶自己逐個(gè)瀏覽取舍。
如何使WEB信息檢索的智能化程度更高,更能滿足用戶的需求,一個(gè)很有發(fā)展?jié)摿Φ姆椒ň褪牵簩EB數(shù)據(jù)挖掘技術(shù)引入到WEB信息檢索領(lǐng)域中來(lái)。下面,將概括介紹一下WEB數(shù)據(jù)挖掘技術(shù),以及WEB數(shù)據(jù)挖掘和WEB信息檢索的關(guān)系。
2 WEB數(shù)據(jù)挖掘
數(shù)據(jù)挖掘(Data Mining)是指從大量的數(shù)據(jù)中挖掘那些令人感興趣的、有用的、隱含的、先前未知的和可能有用的模式或知識(shí),它是一門涉及面很廣的交叉學(xué)科。WEB挖掘[8]從數(shù)據(jù)挖掘發(fā)展而來(lái),但是,WEB挖掘與傳統(tǒng)的數(shù)據(jù)挖掘相比有許多獨(dú)特之處。WEB挖掘是指從大量、異質(zhì)、分布的WEB文檔的集合中抽取感興趣的、有用的模式和隱含信息。
一般地,WEB挖掘可分為三類[9]:WEB內(nèi)容挖掘(WEB Content Mining)、WEB結(jié)構(gòu)挖掘(WEB Structure Mining)和WEB使用記錄的挖掘(WEB Usage Mining)。
2.1 WEB內(nèi)容挖掘
WEB內(nèi)容挖掘是從文檔內(nèi)容或其描述中抽取知識(shí)的過(guò)程。由于WEB文檔絕大部分內(nèi)容是以文本形式存在,所以WEB內(nèi)容挖掘主要針對(duì)的是WEB文檔的文本部分。文本挖掘主要包括直接對(duì)WEB頁(yè)面文檔內(nèi)容以及搜索引擎的查詢結(jié)果進(jìn)行文本的總結(jié)、分類、聚類、關(guān)聯(lián)分析等。除了文本數(shù)據(jù)挖掘以外,還有針對(duì)多媒體數(shù)據(jù)等的挖掘。
2.2 WEB結(jié)構(gòu)挖掘
WEB結(jié)構(gòu)挖掘是從WWW的組織結(jié)構(gòu)和鏈接關(guān)系中推導(dǎo)知識(shí)。由于文檔之間的互連,WWW能夠提供除文檔內(nèi)容之外的有用信息。利用這些信息,可以對(duì)頁(yè)面進(jìn)行排序,發(fā)現(xiàn)重要的頁(yè)面。
2.3 WEB使用記錄的挖掘
WEB使用記錄挖掘的主要目標(biāo)則是從WEB的訪問(wèn)記錄中抽取感興趣的模式。WWW中的每個(gè)服務(wù)器都保留了訪問(wèn)日志(WEB Access Log),記錄了關(guān)于用戶訪問(wèn)和交互的信息。分析這些數(shù)據(jù)可以幫助理解用戶的行為,從而改進(jìn)站點(diǎn)的結(jié)構(gòu),或?yàn)橛脩籼峁﹤€(gè)性化的服務(wù)。
WEB數(shù)據(jù)挖掘和WEB信息檢索是2種不同的技術(shù),WEB數(shù)據(jù)挖掘是數(shù)據(jù)挖掘領(lǐng)域的一個(gè)分支,屬于知識(shí)發(fā)現(xiàn)的范圍,而WEB信息檢索是以檢索信息為目的的,屬于信息查詢的范圍,從這個(gè)角度上來(lái)看,WEB數(shù)據(jù)挖掘技術(shù)的層次要比WEB信息檢索高。但是因?yàn)閃EB內(nèi)容和結(jié)構(gòu)特有的復(fù)雜性,使得WEB數(shù)據(jù)挖掘和WEB信息檢索之間的界限并不像數(shù)據(jù)庫(kù)領(lǐng)域中的數(shù)據(jù)挖掘和數(shù)據(jù)查詢之間的界限那樣直觀分明。我們可以通過(guò)對(duì)數(shù)據(jù)挖掘若干技術(shù)的研究,來(lái)解決WEB信息檢索中搜索引擎的模型,WEB上文本信息的預(yù)處理(即:文本分類),WEB上的知識(shí)發(fā)現(xiàn)及對(duì)WEB上已經(jīng)獲得知識(shí)的維護(hù)等問(wèn)題,所以說(shuō)WEB數(shù)據(jù)挖掘技術(shù)是WEB信息檢索智能化的重要發(fā)展方向。
3 一個(gè)新的搜索引擎結(jié)構(gòu)模型
按照搜索引擎的結(jié)構(gòu)模型不同,目前搜索引擎系統(tǒng)可以分為兩大類:兩層結(jié)構(gòu)(客戶/服務(wù)器)、三層結(jié)構(gòu)(客戶/中間層/服務(wù)器),如圖2、3所示。但是,由于這些模型的缺陷,它們所構(gòu)造的搜索引擎并不能滿足用戶需求。
這里我們建立一個(gè)新的模型,如圖4所示,其結(jié)構(gòu)是三層,但是它的工作方式界于兩層和三層之間,所以這里稱該模型為混合模型。它的工作方式是首先在客戶端根據(jù)用戶在用戶界面輸入的查詢信息,由Agent判斷個(gè)性化知識(shí)庫(kù)中是否含有相關(guān)知識(shí),如有則構(gòu)成查詢語(yǔ)句后提交給服務(wù)器端,如果無(wú)則與中間層的Agent相聯(lián)系,由Agent通過(guò)通用知識(shí)庫(kù)來(lái)獲得相關(guān)知識(shí)并加入個(gè)性化知識(shí)庫(kù),然后構(gòu)成查詢語(yǔ)句后提交給服務(wù)器端,由服務(wù)器查詢并將結(jié)果返回給客戶端的Agent,由它處理后給用戶界面,并根據(jù)用戶的使用來(lái)更新個(gè)性化知識(shí)庫(kù),這個(gè)過(guò)程隨著用戶查詢不斷進(jìn)行,逐漸完善用戶的個(gè)性化知識(shí)庫(kù)。
實(shí)現(xiàn)此模型關(guān)鍵是依靠WEB挖掘中的一些技術(shù)。
3.1 數(shù)據(jù)分類技術(shù)
將WWW上的資源進(jìn)行分類,一方面利于資源管理,同時(shí)在查詢時(shí)可以縮小范圍,進(jìn)行快速查詢;另一方面有利于構(gòu)建知識(shí)庫(kù),避免了多義詞問(wèn)題。例如:“美洲豹”在動(dòng)物類中,我們知道它一定是一個(gè)動(dòng)物的種類;如果在汽車類中,可以知道它是一個(gè)汽車品牌;在足球比賽中,可以知道,它一定是一個(gè)球隊(duì)名字。因此在一個(gè)詞在類中,好比它有了上下文,因此在很大程度上解決了多義詞的問(wèn)題。針對(duì)WWW上的數(shù)據(jù)特點(diǎn),可以采用適應(yīng)非在線和在線不同情況的分類算法。
3.2 關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則是發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)目集合之間的關(guān)聯(lián)或相關(guān)關(guān)系。它應(yīng)用到WWW上,可以有助于發(fā)現(xiàn)用戶的行為,從而有利于方便建立用戶的知識(shí)庫(kù)。
模型中對(duì)發(fā)現(xiàn)關(guān)聯(lián)規(guī)則加上時(shí)間這個(gè)因素,可以發(fā)現(xiàn)周期性關(guān)聯(lián)規(guī)則。同時(shí)由于數(shù)據(jù)挖掘目的是從大量的數(shù)據(jù)中找到數(shù)據(jù)之間的關(guān)系,但矛盾的是在數(shù)據(jù)挖掘的結(jié)果中卻會(huì)產(chǎn)生許多規(guī)律,從而產(chǎn)生另一個(gè)新的知識(shí)管理問(wèn)題。為了處理該問(wèn)題,可以對(duì)已發(fā)現(xiàn)的規(guī)則進(jìn)行修剪和分組,以更好地對(duì)已發(fā)現(xiàn)的規(guī)律進(jìn)行的理解,同時(shí)可以保證知識(shí)庫(kù)數(shù)據(jù)中正確和少冗余。
3.3 知識(shí)庫(kù)維護(hù)
對(duì)于知識(shí)庫(kù)中的數(shù)據(jù)維護(hù)技術(shù)已經(jīng)有很多,這里可以采用序列模式的維護(hù)。利用樣品抽樣的方法來(lái)評(píng)估序列模式改變的程度,并根據(jù)改變的程度決定何時(shí)對(duì)整個(gè)數(shù)據(jù)庫(kù)進(jìn)行操作來(lái)更新序列模式,從而較好地解決了序列模式維護(hù)的問(wèn)題。
這里同時(shí)必須注意到,要想使搜索引擎更好的工作,必須得利用數(shù)據(jù)挖掘的一些技術(shù)挖掘得知識(shí),而要想充分發(fā)揮數(shù)據(jù)挖掘得作用,還需要更多更好得有關(guān)數(shù)據(jù),這一定依賴于WWW網(wǎng)站的應(yīng)用服務(wù)器的設(shè)計(jì)。它能更好的收集數(shù)據(jù)提供給數(shù)據(jù)挖掘用,同時(shí)數(shù)據(jù)挖掘不僅提供知識(shí)給我們建立知識(shí)庫(kù),同時(shí)也可以幫助組織網(wǎng)站的內(nèi)容以更好發(fā)
揮網(wǎng)站的功能。
4 結(jié)束語(yǔ)
隨著網(wǎng)絡(luò)的不斷發(fā)展,以及WEB信息的激增,如何快速、高效、準(zhǔn)確地檢索網(wǎng)絡(luò)信息變得越來(lái)越重要,WEB信息檢索的發(fā)展越來(lái)越需要借助各種技術(shù)來(lái)進(jìn)一步推動(dòng)。作為數(shù)據(jù)挖掘一個(gè)重要研究分支的WEB數(shù)據(jù)挖掘,由于它具有比WEB信息檢索更高的技術(shù)層次,同時(shí)又與WEB信息檢索的關(guān)系非常密切,對(duì)WEB信息檢索有很大借鑒作用,所以可以通過(guò)應(yīng)用WEB數(shù)據(jù)挖掘技術(shù)的研究成果到WEB信息檢索領(lǐng)域中,提高WEB信息檢索的智能處理能力,使得WEB信息檢索發(fā)展到一個(gè)新的水平。
參考文獻(xiàn)
[1]劉俊熙,吳英.信息檢索和網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)的比較分析[J].圖書館學(xué)刊,2005,(6):111-113.
[2]苑兆忠,姜華.Web挖掘技術(shù)在信息檢索中的應(yīng)用研究[J].聊城大學(xué)學(xué)報(bào):自然科學(xué)版,2006,19(1):74-77.
[3]章俊玲.基于多Agent的智能信息檢索技術(shù)研究[J].浙江工商職業(yè)技術(shù)學(xué)院學(xué)報(bào),2007,6(1):39-41.
[4]Pokorny,J.Web searching and information retrieval[J].Computing in Science & Engineer-Ing,2004,6(4):43-48.
[5]封鋒.網(wǎng)絡(luò)信息檢索現(xiàn)狀研究綜述[J].科技文獻(xiàn)信息管理,2007,(1):16-18.
[6]張輝,趙需要.因特網(wǎng)信息檢索模式及其優(yōu)化設(shè)想[J].情報(bào)科學(xué),2007,25(1):77-81.
[7]徐敏.基于數(shù)據(jù)挖掘的Web信息檢索研究[D].南京:南京航空航天大學(xué),2006.
[8]韓家煒,孟小峰.Web挖掘研究[J].計(jì)算機(jī)研究與發(fā)展,2001,38(4):405-414.
[9]劉振巖,王萬(wàn)森,陳立.WEB信息檢索與WEB數(shù)據(jù)挖掘[J].微機(jī)發(fā)展,2003,13(7):66-68.