摘 要: 在Lucene的基礎上設計了垂直搜索引擎模型的檢索模塊,以提高檢索的質量,改變文檔的排名,改善用戶體驗。該模型在檢索模塊中綜合了四個方面來計算文檔得分,即主題相關度得分、網頁重要性得分、用戶興趣計算得分、關鍵詞位置權值得分。為了讓檢索結果更能體現(xiàn)用戶的實際需要,特別加重了用戶興趣部分的權重分值,并通過實驗證明了改進的檢索模塊比傳統(tǒng)的檢索更有實際效果,增強了垂直搜索的個性化。
關鍵詞: 用戶興趣; Lucene; 檢索; 個性化
中圖分類號:TP393 文獻標志碼:A 文章編號:1006-8228(2012)12-34-02
Application of user interest model in retrieval module of vertical search engine
Li Xiaohong, Li Maolin
(Center of Computer; Shaoyang Medical College, Shaoyang, Hunan 422200, China)
Abstract: In this paper, retrieval module of vertical search engine model based on Lucene is designed, in order to improve the retrieval quality, change the document rank and improve the user’s experience. Four aspects are combined in this module to calculate the document score, that is, subject correlation score, webpage importance score, user interest score, key words position weight score. In order to make the retrieval results better reflect the actual needs of users, user interest part is especially aggravated. The results prove that the improved retrieval module has more practical effect than the traditional retrieval, and it enhances the vertical search personalization.
Key words: user interest; Lucene; retrieval; individualization
0 引言
搜索引擎作為網絡信息查詢的主要工具已經在人類生活中占據(jù)了主導地位,搜索引擎的搜索質量直接影響到用戶體驗。垂直搜索在專業(yè)性上略勝與傳統(tǒng)的搜索引擎。本文主要改進垂直搜索引擎的檢索模塊,在傳統(tǒng)的Lucene檢索模塊中加入Pagerank得分,關鍵詞得分,并特別加入了用戶興趣得分,建立了一個個性化的垂直搜索檢索模塊模型,從而使垂直搜索在個性化上更貼近用戶的使用習慣和興趣。
1 用戶興趣模型的建立
用戶興趣作為垂直搜索引擎當中的一項個性化服務,直接影響到了用戶使用該垂直搜索的體驗[1]。用戶興趣模型的建立應從兩個方面分析:一是用戶興趣模型能否反映用戶的真實興趣愛好;二是針對用戶查詢興趣的多變性,該模型是否能滿足變化的用戶興趣。
1.1 常用的用戶建模技術
現(xiàn)今的用戶建模技術分為三類:用戶手工定制建模、示例用戶建模和自動用戶建模。
⑴ 用戶手工定制建模
用戶自己動手在網頁上選擇或者手動輸入自己的興趣愛好。該方法實現(xiàn)簡單,得到的用戶興趣結果可靠。但是存在不足:①影響用戶體驗,一般用戶對頻繁的輸入和選擇缺乏興趣;②更新用戶模型困難,一旦用戶的興趣發(fā)生轉移,而又讓用戶重新提交網頁文檔會給用戶造成負擔;③反映用戶興趣不全面,提供給用戶的選擇項本身就帶有主觀性,另外用戶選擇時也存在不能準確表達的情況,這些將直接導致收集的用戶興趣不夠準確[2]。
⑵ 示例用戶建模
示例用戶模型的建模是用戶自己提供相關的興趣愛好示例及其類別屬性。用戶在瀏覽網頁時標注對頁面的感興趣程度即可得到用戶建模的示例。
⑶ 自動用戶建模
通過留意用戶瀏覽網頁的內容和瀏覽網頁時的行為自動為用戶構建一個用戶模型[5],這種建模無需用戶主動參與,通過用戶上網時的行為采用數(shù)據(jù)挖掘技術自動獲取用戶的興趣愛好。雖然這種方法會帶來一定的噪聲,影響用戶瀏覽時的速度,對建立高質量的用戶模型也有一定的影響,但是該方法無需用戶主動提供信息,不干擾用戶的其他操作,從用戶體驗的角度來說是比較好的建模方法。因此,未來建模技術的發(fā)展方向都會采用自動建模技術。
1.2 用戶興趣行為的量化表示
通過對自動用戶建模的相關研究發(fā)現(xiàn),用戶的興趣與用戶的行為是緊密相連的。用戶興趣可以通過用戶瀏覽該頁面的時間和拖動滾動條的時間來有效地反映。而通過用戶閱讀頁面平均速度能幫助建模時確定用戶興趣的等級。另外用戶查詢、標記書簽、瀏覽頁面、點擊鼠標、反饋信息、拖動滾動條、后退、前進等這些行為都可以暗示用戶的愛好。用戶訪問頁面時的停留時間、訪問次數(shù)、保存、編輯、修改等動作都能夠揭示用戶興趣[3]。
通過以上分析,將用戶行為用二維表格來記錄,稱用戶行為數(shù)據(jù)表[3]。數(shù)據(jù)表又分為兩種類型:基于關鍵詞的用戶行為數(shù)據(jù)表和基于文檔的用戶行為數(shù)據(jù)表。前者描述用戶在關鍵詞上的行為,其結構如表1所示;后者描述用戶在一篇文檔上的行為,其結構如表2所示。
表1中的數(shù)據(jù)為:用戶id號(uid)、關鍵詞(kw)、所屬主題(t)、關鍵詞因被選中而高亮顯示的次數(shù)(hlt)、關鍵詞被用戶圈住的次數(shù)(cir)和在該關鍵詞下畫下劃線的次數(shù)(udl)。
表2中的數(shù)據(jù)為:文檔id(did)、文檔所屬主題(t)、關鍵詞的單擊次數(shù)(clk)、瀏覽該文檔時間(time)、在該文檔中添加書簽的數(shù)目(bmk)、批注次數(shù)(ant)。
由于瀏覽時間受一些客觀因素的影響,因此以上時間是修正后的時間。
1.3 用戶興趣度的計算
由于用戶在瀏覽網頁的過程中有自己固定的愛好和使用方法,因此可以針對不同的用戶用不同的權重值來表示用戶的不同行為[4]。
⑴ 基于關鍵詞的用戶興趣計算
用戶行為權重,
,表示用戶對某主題下n個關鍵詞的行為。兩者的乘積定義為:
kw(t)=bkw*bk(t)=(kw1,kw2,…,kwn)T
基于關鍵詞的用戶興趣度為:
基于文本的用戶興趣度計算方法類同。
2 檢索模塊設計與應用
將用戶興趣應用到檢索模塊以改善用戶體驗,同時考慮了其他一些相關因素。
⑴ 主題相關性。
Lucene排序算法:以關鍵詞在文檔中出現(xiàn)的次數(shù)排序。
⑵ 關鍵詞在文檔中的位置。
可以通過關鍵詞在文檔中出現(xiàn)的位置和頻率得出網頁或文檔的權重值。
⑶ 用戶興趣。
⑷ 網頁的重要性。
網頁重要性的分值可以通過PageRank算法得到[4]。
將這四個因素綜合考慮,可設計網頁的排序算法如下:
Score_f=d1*luceneScore+d2*PagerankScore+
d3*keyScore+d4*yhxqScore
Score_f:文檔f總得分;
luceneScore:主題相關度得分;
PagerankScore:網頁重要性得分;
keyScore:關鍵詞位置權值得分;
yhxqScore:用戶興趣計算得分;
d1,d2,d3,d4表示權重系數(shù),d1+d2+d3+d4=1。
3 實驗
將改進的檢索算法與原Lucene檢索算法對比查全率,查準率和系統(tǒng)響應時間。其中改進算法的權值設置為d1=0.35,d2=0.2,d3=0.13,d4=0.32。加大了用戶興趣的得分權值。我們測試的數(shù)據(jù)量為20萬條,得到如下結果:
⑴ 查全率
估值計算,改進算法得到的結果為n1;Lucene算法得到的結果為n2。
Recall=n1(n2)/(n1+n2)
⑵ 查準率
查準率的計算為:
p=k0/k
k0:正確的數(shù)據(jù);k:全部相似數(shù)據(jù)。
⑶ 系統(tǒng)響應時間
Lucene基礎排序算法平均響應時間在35ms左右,而改進的搜索平均響應時間在46ms左右。
兩種檢索在三個方面得到的結果對比如表3所示。
4 結束語
本文主要改進了垂直搜索引擎的檢索模塊,在該模塊中綜合了主題相關度得分、網頁重要性得分、用戶興趣計算得分、關鍵詞位置權值得分四個方面來計算網頁文檔得分。特別將用戶興趣得分部分設置了較重的權重值,使得本文的垂直搜索更具有個性化。通過實驗證明,該模型從用戶的角度提高了搜索質量,改善了用戶體驗。該模型還存在一定的局限性,在權重值的分配上還需要大量的實驗來驗證更合理地分配方案,以達到更合理的搜索效果。
參考文獻:
[1] 黃國華.基于相對高度的曲線特征提取算法[J].邵陽學院學報(自然科
學版),2011.1:29-33
[2] 楊永毅.基于Lucene的二手汽車交易信息垂直搜索引擎的研究與實
現(xiàn)[D].重慶大學,2009:21-24
[3] LEWANDOWSKI D. A three-year study on the freshness of web
search engine databases[J].J.Inf.Sci.,2008.34 (6):817-831
[4] 盛振華,吳羽,江錦華等.InfoSigs:一種面向Web對象的細粒度聚類算
法[J].計算機研究與發(fā)展,2010.5:796-804
[5] 邱哲,符滔滔.開發(fā)自己的搜索引擎一Lueene2.0+Heritrix[M].人民
郵電出版社,2007.