王水萍
(鄭州經(jīng)貿(mào)職業(yè)學院計算機系 河南 460005)
隨著Web信息成指數(shù)級的增長,傳統(tǒng)搜索引擎能夠搜索出來的網(wǎng)頁越來越多,但這些搜索出來的網(wǎng)頁大多都與用戶請求無關(guān),并且網(wǎng)頁之間沒有任何關(guān)系,用戶需要從眾多的結(jié)果中過濾出自己所要的信息,大大加重了用戶的檢索負擔。傳統(tǒng)的搜索引擎是通用型的搜索引擎,一般來說,不同的用戶輸入相同的查詢請求總會返回相同的查詢結(jié)果,然而,對于每一個用戶來說,由于關(guān)注點不同,用戶更期望得到個性化的檢索結(jié)果。
搜索引擎本就是為了方便用戶在網(wǎng)絡信息中搜索有用的信息。利用個性化技術(shù)來提高搜索引擎系統(tǒng)的性能,主要是為了給查詢用戶提供較為準確的個性化搜索結(jié)果。比如,當用戶用傳統(tǒng)的搜索引擎來查詢時,如果輸入“蘋果”,由于傳統(tǒng)搜索引擎采用普通的排序算法排序,不同的用戶輸入“蘋果”,搜索引擎返回的結(jié)果都是相同的。一般情況下,排在前面的網(wǎng)頁都是一些“平板電腦”、“手機”等電子產(chǎn)品的頁面,然而如果用戶的興趣不在于此,而是想查詢蘋果收購和銷售方面的信息,那么相關(guān)的搜索結(jié)果就不是他們想要的。但是,當傳統(tǒng)的搜索引擎使用了個性化檢索技術(shù)后,用戶的查詢結(jié)果就發(fā)生了改變,這時搜索引擎系統(tǒng)利用用戶興趣模型來對初始的搜索結(jié)果頁面集進行優(yōu)化過濾,從而為用戶返回個性化的查詢結(jié)果,這也就是用戶想要的結(jié)果。
個性化信息檢索系統(tǒng)主要是面向廣大的Internet用戶,因此本文設(shè)計的該系統(tǒng)考慮綜合了多種解決方法和個性化技術(shù)。
Web挖掘是Web技術(shù)、數(shù)據(jù)挖掘、計算機技術(shù)、信息科學的一個交叉學科,是數(shù)據(jù)挖掘在網(wǎng)絡環(huán)境下的應用。在Web信息檢索領(lǐng)域使用Wcb挖掘技術(shù),目的是提高信息檢索的準確率和效率,改善查詢結(jié)果。其幾點應用如下:
①使用Web內(nèi)容挖掘中的聚類技術(shù)、文檔分類技術(shù)對Web文檔進行分析處理,對文檔進行摘要,以改善Web文檔索引的組織結(jié)構(gòu),提高檢索效率。
②Wcb結(jié)構(gòu)挖掘通常分析頁面間的鏈接結(jié)構(gòu)和組織結(jié)構(gòu)發(fā)現(xiàn)重要的信息,用以改進檢索的結(jié)果。
③Web使用挖掘常用的一個領(lǐng)域就是對服務器端用戶日志進行挖掘,通過用戶日志挖掘出用戶的興趣,從而獲取用戶的反饋信息,也可以通過對用戶日志里的訪問歷史進行分析來發(fā)現(xiàn)有用的用戶訪問模式,為構(gòu)建用戶的興趣模型提供有效的信息,利用用戶興趣模型對檢索結(jié)果的過濾可以提高信息檢索系統(tǒng)的查準率。因此,將Web挖掘技術(shù)運用到個性化信息檢索系統(tǒng)中,能夠提高信息檢索的效率及準確度。
基于Web挖掘的個性化信息檢索系統(tǒng)架構(gòu)如圖1所示。
圖1 個性化信息檢索系統(tǒng)架構(gòu)
個性化信息檢索系統(tǒng)的整個運行過程可以描述為:首先,我們利用信息搜集索引模塊中的Spiders來遍歷Internet自動獲取收集文檔信息,并通過過濾、轉(zhuǎn)換技術(shù)對文檔信息進行處理,提取索引項生成索引表,將索引處理過的數(shù)據(jù)放入索引數(shù)據(jù)庫;接著,在處理后的數(shù)據(jù)上利用個性化模型進行相關(guān)度檢測,并對搜索結(jié)果進行個性化過濾,最終用戶可以搜索到符合自己興趣的個性化結(jié)果。因為用戶隨著環(huán)境的變化和時間的推移會形成新的興趣,也同樣會對原來感興趣的東西失去興趣,用戶的興趣處于不斷變化之中,所以個性化興趣模型也需要不斷更新。由此可見,我們需要及時根據(jù)用戶的興趣變化來調(diào)整個性化興趣模型。因此,個性化興趣模型的功能非常重要。利用智能代理能夠?qū)崟r跟蹤監(jiān)視用戶行為,分析判斷用戶的瀏覽行為來及時發(fā)現(xiàn)用戶興趣的變化。因此,個性化興趣模型的主要工作就是用戶興趣模塊的構(gòu)建和及時更新。
該個性化信息檢索系統(tǒng)為了滿足不同用戶個性化檢索的需求,構(gòu)建用戶興趣模型,采用相關(guān)反饋技術(shù)過濾掉了大量不相關(guān)文檔,有效地提高了用戶進行信息檢索的效率。
根據(jù)圖1,系統(tǒng)架構(gòu)主要包括下面幾個模塊組成:信息搜集索引模塊、用戶興趣建模模塊、用戶興趣自動更新模塊、結(jié)果過濾模塊。其中的用戶興趣建模和用戶興趣自動更新模塊構(gòu)成了個性化模型。本系統(tǒng)考慮了用戶個性化的需求和用戶個體的差異,所以能夠提供更準確更高質(zhì)量的檢索結(jié)果。
①信息搜集索引模塊
利用Spiders來遍歷Internet自動獲取收集文檔信息,并通過過濾、轉(zhuǎn)換技術(shù)對文檔信息進行處理,提取索引項生成索引表,最后將處理過的數(shù)據(jù)放入索引數(shù)據(jù)庫。
②用戶興趣建模模塊
本模塊采用一種不需要用戶干預的用戶動態(tài)興趣學習方法來生成初始的用戶興趣模型。該模塊通過分析用戶客戶端Wcb緩存中用戶瀏覽過的網(wǎng)頁以及用戶在網(wǎng)頁上的行為,來提煉出用戶的興趣,生成初始化的用戶興趣描述文件。
③用戶興趣自動更新模塊
用戶興趣建模模塊得到的是一個初始化的用戶興趣模型,然而用戶的興趣是動態(tài)變化的,如果用戶模型在檢索過程中一直靜態(tài)不變,那么根據(jù)此用戶模型判斷而做出的輸出結(jié)果多半是不準確的。用戶興趣自動更新模塊主要根據(jù)用戶的瀏覽行為動態(tài)的更新用戶興趣模型。其中用戶在訪問過程中的行為包括了用戶從上網(wǎng)開始到結(jié)束的所有動作,比如:用戶對某個頁面的訪問次數(shù)、停留時間、是否保存、是否下載等,這些行為動作都能體現(xiàn)出用戶的興趣。本模塊采用智能Agent對用戶瀏覽網(wǎng)頁的所有行為動作進行跟蹤,深度挖掘出隱含在這些行為里的用戶興趣,并隨時對用戶興趣文件進行更新,從而使用戶興趣模型得以動態(tài)更新。
用戶興趣建模模塊與用戶興趣自動更新模塊共同構(gòu)成了個性化模型,也是本系統(tǒng)的重點組成部分。
④結(jié)果過濾模塊
本模塊主要利用文本相似度算法比較計算用戶興趣模型和每一個初始結(jié)果的相關(guān)度,然后依據(jù)用戶興趣的相關(guān)度按照由大到小的順序返回給用戶,從而使用戶得到個性化的檢索結(jié)果,在最大程度上滿足了用戶的個性化需求。
個性化信息檢索系統(tǒng)中各模塊都實現(xiàn)了不同的重要功能,是該系統(tǒng)的核心。這些模塊不但實現(xiàn)的功能各不相同,而且運行機制方式也不盡相同。信息搜集索引模塊和用戶興趣建模模塊是周期運行模塊,用戶興趣自動更新模塊是一個實時運行模塊,結(jié)果過濾模塊是按指令調(diào)用被動運行的模塊。信息搜集索引模塊周期運行Spiders收集網(wǎng)頁信息,網(wǎng)頁信息經(jīng)過索引處理后放入索引數(shù)據(jù)庫。用戶興趣建模模塊按指定的周期執(zhí)行,周期更新用戶興趣描述文件,實現(xiàn)用戶模型的更新。用戶興趣自動更新模塊實時跟 蹤監(jiān)視用戶的瀏覽行為,并隨時挖掘用戶的動作來更新用戶的興趣描述文件。結(jié)果過濾模塊是只有在查詢請求提交時,才會被調(diào)用并執(zhí)行,是一個不定期被動運行的模塊。
本文主要研究了采用Web深度挖掘技術(shù)針對個性化信息檢索系統(tǒng)進行總體設(shè)計。本系統(tǒng)的設(shè)計目的是在為不同用戶提供不同的搜索結(jié)果的基礎(chǔ)上為用戶提供能夠滿足用戶興趣的搜索結(jié)果,它的前一個功能由個性化模塊實現(xiàn),后面的功能由結(jié)果過濾模塊完成,結(jié)果過濾模塊是對初始搜索的結(jié)果進行個性化過濾,并依據(jù)用戶興趣相關(guān)度進行排序,從而使用戶得到滿意的搜索結(jié)果。
[1]周迎新,方暉,李欣蔚.基于Web的數(shù)據(jù)挖掘技術(shù)研究[J].科技創(chuàng)新導報.2008(3):25.
[2]林培光.面向Web的個性化語義信息檢索技術(shù)[M].北京:中國財政經(jīng)濟出版社,2009.
[3]張強.搜索引擎—網(wǎng)絡信息檢索方法[J].農(nóng)業(yè)網(wǎng)絡信息.2010(02) .