楊凱
摘 要: 網(wǎng)絡信息的高速增長導致了信息定位與獲取的復雜化,通過分析目前網(wǎng)絡的信息超載問題,對現(xiàn)有用戶模型的表示法和更新技術(shù)進行比較,提出了一種以用戶行為和用戶操作的資料作為數(shù)據(jù)源,在用戶興趣漂移問題上采用興趣衰減,即興趣學習與常用的滑動窗口算法相結(jié)合的方法。最后以數(shù)字圖書館個性化搜索引擎中的用戶建模系統(tǒng)的設計與實現(xiàn)為例,先后通過與普通向量空間表示模型的對比實驗以及用戶興趣漂移時的跟蹤學習,證明算法優(yōu)化有利于更好地表達用戶的興趣,對提高個性化信息服務的質(zhì)量有實用價值。
關(guān)鍵詞: 數(shù)字圖書館; 個性化搜索引擎; 用戶建模; 向量空間模型
中圖分類號: TN911?34; TM417 文獻標識碼: A 文章編號: 1004?373X(2016)07?0097?06
Abstract: The rapid increasing of network information leads to the complexity of information positioning and acquisition. The existing expression method of user model and updating technology are compared by the analysis of information overloading problem of the current networks. A method of using user behavior and use operation data as the data source is proposed. The interest declining method is adopted for the user interest drift, which is integrated with interest learning and commen used sliding window algorithm. The design and implementation of user modeling system in personalized search engine of digital library is taken an example. The contrast experiments of the proposed model and the model expressed by common vector space, and tracing learning while user interest drift verifies that the optimized algorithm can better express the user interest, and has practical value to improve the quality of high personalized information service.
Keywords: digital library; personalized search engine; user modeling; vector space model
0 引 言
以用戶為中心這一服務理念越來越深入圖書館行業(yè)的每個角落。早期的個性化信息服務主要集中在實現(xiàn)個性化服務的具體技術(shù)上,如推薦技術(shù),信息檢索技術(shù),用戶聚類技術(shù)。然而隨著個性化信息服務的深入研究,人們逐漸意識到個性化信息服務的質(zhì)量不僅取決于具體的推薦技術(shù)、檢索技術(shù)等,還取決于對用戶興趣特點的可計算描述,而且后者更為重要[1]。所以,對用戶建模技術(shù)的研究開始獨立出來作為信息服務中的基礎技術(shù)。近年來,國內(nèi)對個性化信息檢索用戶模型的研究主要集中在用戶模型的表示方法、用戶建模方法、用戶建模技術(shù)、用戶模型優(yōu)化等問題上。例如,最常用的用戶個性化模型的表示方法有:向量表示法,概念層次表示法等[2]。
因特網(wǎng)為人們提供了日益豐富的資源,但如何從海量的信息資源中獲得所需的信息是一個亟待解決的問題。用戶對搜索結(jié)果的滿意度是衡量搜索引擎服務質(zhì)量的關(guān)鍵之一。用戶希望在數(shù)字圖書館搜索和獲取信息的時候,能夠得到更智能的服務方式,而這個智能服務的一個關(guān)鍵因素就是基于個性化[3]。
通過用戶建模,得到用戶的搜索傾向,當用戶進行檢索時,對搜索關(guān)鍵詞進行分析、擴展并對搜索結(jié)果進行過濾,可以在一定程度上提高搜索引擎的搜索質(zhì)量。同時,可以定時搜索網(wǎng)絡新增信息,主動向用戶提供其感興趣的信息。而各種用戶模型之間可以通過交流變得更合理,更完善[4]。
個性化搜索引擎不僅可以提高搜索引擎的檢索效率,而且使檢索結(jié)果更加人性化。它通過建立用戶的興趣描述和對不同用戶提供不同的信息服務,來滿足人們的需求。用戶模型作為個性化服務的基礎和核心,其質(zhì)量直接關(guān)系到個性化信息服務的質(zhì)量。在個性化搜索引擎中,首先挖掘用戶的興趣信息,建立合理的模型,然后管理用戶的興趣,通過不斷的更新與維護逐漸優(yōu)化模型,提高用戶興趣需求的表達準確度,為后續(xù)的個性化搜索提供基礎。
1 用戶建模的理論與技術(shù)
目前提供個性化信息服務的系統(tǒng)有很多。一些常用的方式有:信息定制服務、最新信息推薦服務、專家咨詢服務、個人的知識管理服務、個性化信息檢索服務等。要實現(xiàn)個性化服務,首先必須了解用戶的個性,對用戶興趣進行挖掘是個性化主動信息服務的基礎性前提。目前收集用戶信息,發(fā)現(xiàn)用戶興趣的方法主要有三類:顯示獲取方法、隱式獲取方法、評價反饋。在用戶信息獲取技術(shù)中,最常用的方法就是前兩種獲取方式的結(jié)合。本系統(tǒng)就是采用了這種方法,并以隱式的行為信息為主,較少需要用戶主動參與。顯式信息主要包括用戶的基本信息和定制信息,隱式信息主要包括用戶的瀏覽行為信息,搜索行為信息。
正確的建模方法能夠?qū)τ脩魝€性和使用習慣進行跟蹤,系統(tǒng)能夠不斷學習,挖掘用戶潛在的興趣。系統(tǒng)采用了一種有針對性的機器學習方法建模。首先明確可以代表用戶興趣的行為有哪些,并確定這些行為所能表達的用戶興趣程度,然后對搜集到的用戶行為信息進行數(shù)據(jù)挖掘、分析和抽取,計算出模型信息。有針對性的機器學習提高了學習的準確度,通過調(diào)節(jié)興趣行為權(quán)重參數(shù)提高模型的表達能力。
針對用戶興趣漂移問題,采用LRU算法和滑動窗口算法結(jié)合的方案。若用戶主動更新,如修改并提交定制信息,則以主動行為為主,同時隨時間系統(tǒng)自動更新,若用戶沒有主動參與,則完全采用系統(tǒng)的自動更新。這種方式既利用了用戶定制興趣的針對性,也取消了用戶參與的必要性,但保證了模型的準確性。
2 用戶建模系統(tǒng)的分析與設計
2.1 向量空間模型的某些局限性
目前,基于向量空間方法用戶建模過程中的一些局限性。大部分用戶建模的信息源是基于用戶瀏覽的頁面和文本內(nèi)容,或基于用戶的查詢字段;向量空間表示法是常用的信息資源的表示方式,但是沒有考慮到特征項的領域含義和詞語表達本身固有的同義性;而單純的滑動窗口方法,如文獻[5]所述,當興趣量大于窗口大小[L]時,按照到來的先后順序, 將最初到達的興趣移出,這種做法有可能將某些先到,但興趣度高的興趣描述移出。
系統(tǒng)將采用興趣衰減、興趣學習與滑動窗口相結(jié)合的方式,提高興趣表達的準確度。
2.2 信息資源模型
對于被用戶使用的對象需要提供基本的情況信息,至少包括代碼、名稱、類別、關(guān)鍵字/介紹。對象的特征由類別和關(guān)鍵字代表,即{類別,關(guān)鍵字列表},在這種表示法中,類別使用的數(shù)據(jù)結(jié)構(gòu)是樹,如圖1所示。
2.3 用戶興趣模型
在個性化服務用戶建模中,最常用的方式是將顯式方式和隱式方式結(jié)合起來,通過顯式方式來獲取靜態(tài)用戶信息,通過隱式方式來獲取動態(tài)用戶信息[6]。建模的用戶信息源包括以下幾個方面:
(1) 用戶瀏覽的頁面;
(2) 用戶在頁面內(nèi)的行為,如添加網(wǎng)頁到書簽,打印頁面,頁面內(nèi)容復制,頁面保存等;
(3) 用戶的定制信息;
(4) 用戶搜索行為查詢的關(guān)鍵字,查詢次數(shù)及其最后查詢時間。
當用戶使用某信息資源時,例如瀏覽某些文獻,將產(chǎn)生對該資源的興趣值,使用式(3)進行計算。對于某用戶的瀏覽行為,假設如圖2所示。
圖2中系列1,系列2,系列3分別表示用戶瀏覽的三類圖書。用戶對系列1的興趣逐漸上升,對系列2的興趣先升后降,對系列3的興趣也逐漸上升但上升幅度較慢。對于用戶的此瀏覽行為,單純的滑動窗口算法得到的用戶興趣序列如圖3所示。
由圖3可知,當興趣穩(wěn)定時,單純的滑動窗口模型表達比較準確,但是當用戶的興趣發(fā)生變化,即由系列1和系列2的興趣變?yōu)橄盗?和系列3的興趣的過程中,興趣對象發(fā)生劇烈變化,穩(wěn)定性很差。若采用興趣衰減,興趣學習與滑動窗口相結(jié)合的方法,得到的用戶興趣表達如圖4所示。
每天的興趣得分由前一天的興趣得分經(jīng)過一天時間的衰減加上本天的瀏覽得分,由此興趣得分圖可得到此模型的滑動窗口中的興趣對象,如圖5所示,對于三方面結(jié)合的方法,由于考慮了用戶興趣權(quán)重的衰減,新的瀏覽行為的影響,當用戶的興趣發(fā)生改變時,雖然有所遲延,但可以迅速調(diào)節(jié)跟蹤興趣變化,表達能力比滑動窗口方法要好,比較符合實際情況。
滑動窗口的大小與用戶平均興趣量、對資源訪問的頻度、資源量的大小相關(guān)。用戶的興趣量越大,資源量越大,所需的滑動窗口的尺寸就越大。
2.4 系統(tǒng)功能設計
本文設計的系統(tǒng)功能模塊包括信息搜集模塊、用戶建模模塊和檢索模塊,信息搜集和檢索功能模塊通過與客戶端的交互得到所需資料,并提供服務,用戶建模功能模塊是系統(tǒng)功能的核心。
搜集本系統(tǒng)所需的相關(guān)信息,包括用戶基本信息,用戶行為信息等,并把從客戶端得到的用戶信息經(jīng)檢驗后整理到數(shù)據(jù)庫中,為其他模塊提供所需的信息,是系統(tǒng)建模的主要數(shù)據(jù)依據(jù)。
用戶建模代理是系統(tǒng)的核心部分。以用戶模型為中心,通過使用可設置的參數(shù),建立用戶模型,并提供模型更新方法。當用戶使用某對象時,顯然用戶對此對象是有一定興趣的。對于對象,可用相應的類別代碼及對象的關(guān)鍵字或簡述表示。然后根據(jù)參數(shù)權(quán)重計算用戶行為代表的對此類別的興趣度及對此類別下某些關(guān)鍵字的興趣度,并把此結(jié)果記錄到用戶模型中。
搜索代理是使用用戶模型提供服務的一個功能模塊,它通過對搜索結(jié)果的過濾及重置,向用戶提供優(yōu)化后的檢索記錄。由用戶模型可以得知用戶對哪些類別比較感興趣,因此不同類別的對象可以按用戶的興趣度排序。相同類別的對象可以按關(guān)鍵字列表得分排序,即對照用戶模型中此類別的關(guān)鍵字列表及分數(shù),分別計算各對象的關(guān)鍵字得分,分值大的興趣度高。
2.5 總體設計方案
個性化信息檢索根據(jù)用戶的興趣和特點進行檢索,返回與用戶需求相關(guān)的檢索結(jié)果。與傳統(tǒng)信息檢索系統(tǒng)相比,個性化信息檢索系統(tǒng)增加了信息處理,用戶建模,更新模型,優(yōu)化查詢等模塊。搜索引擎的個性化技術(shù)主要包含:建立能較好反映用戶興趣偏好的用戶模型,并且用戶模型能隨用戶新的行為做適應性的改變,用戶的搜索結(jié)果可使用用戶模型進行重排。在數(shù)字圖書館環(huán)境下,信息資源為文獻資源。個性化信息服務的總體設計如圖6所示,本文設計的系統(tǒng)主要是服務器端的功能。
相對于一般的基于向量空間的用戶模型系統(tǒng)和針對數(shù)字圖書館的文獻信息資源,本系統(tǒng)做了以下修改和改進:針對文獻資源,使用中圖分類樹及關(guān)鍵字列表表示信息的特征;使用雙重權(quán)重向量空間方法進行用戶建模;考慮了時間的有效性。當進行用戶建模時,若提供的行為信息超過了某時間段, 則視為無效;資源關(guān)聯(lián)性分析,讀者對不同類別資源的喜愛存在一定的關(guān)聯(lián);同時優(yōu)化興趣的衰減過程,使用可調(diào)節(jié)的權(quán)重參數(shù)。系統(tǒng)使用一些可調(diào)節(jié)的參數(shù)滿足不同應用程序的需要,系統(tǒng)部分可調(diào)節(jié)參數(shù)及默認值見表1。
3 系統(tǒng)實現(xiàn)
系統(tǒng)結(jié)構(gòu)采用三層架構(gòu)的模式。因為這種模型下,將復雜的業(yè)務邏輯從數(shù)據(jù)操作中分離,不必直接與數(shù)據(jù)庫交互,而是通過使用DAO層向外提供的接口,更加易于訪問,易于管理。
3.1 信息的表示與存放
對于用戶的瀏覽行為,通常包括把頁面加入書簽,復制頁面部分內(nèi)容,保存頁面到本地磁盤,打印此頁面等,這些代表用戶興趣的行為需要被記錄下來,同時是哪個用戶在哪個頁面進行操作也需要記錄,這是一種隱式的不需要用戶參與的數(shù)據(jù)。用戶定制自己感興趣的類別是一種顯示的直接得到用戶興趣的方式,需要有CustomInfo和CustomeTime信息,包括用戶ID、用戶定制信息、用戶定制日期。
當用戶對某關(guān)鍵字搜索時,系統(tǒng)將進行記錄,很明顯用戶對此關(guān)鍵字有一定的興趣。用戶的搜索行為需要得到的信息有KeyWord,LastSearchTime,Times信息;同時,系統(tǒng)需要了解用戶的基本情況,獲取用戶的基本信息,如Name,Sex,Major等。對于數(shù)字圖書館系統(tǒng),需要有文獻信息的支持,其中類別代碼和關(guān)鍵字列表為重點,類別代碼使用此文獻的中圖分類碼。關(guān)鍵字列表使用文獻的關(guān)鍵字,表示為逗號隔開的關(guān)鍵字,如數(shù)據(jù)挖掘,用戶模型,個性化,本體等。
3.2 用戶興趣模型的實現(xiàn)
通過對各種用戶基本信息及行為信息的分析,得到用戶模型,此模型是整個系統(tǒng)的核心,使用模型對用戶新的搜索行為進行重排或提供信息推薦服務。用戶的興趣用興趣類別,興趣得分,興趣程度及類別中的關(guān)鍵字表示。分類碼BookCode的長度是可重置的,BookCode的長度是指類別樹的深度。一個用戶可有多條記錄,這些記錄共同表示該用戶的興趣。
3.3 用戶建模功能的實現(xiàn)
4 數(shù)據(jù)模擬與實驗
4.1 文獻數(shù)據(jù)搜集
測試所需的對象數(shù)據(jù)關(guān)鍵在于標題,類別代碼,作者,關(guān)鍵字列表,鑒于這些信息在一些文獻網(wǎng)如萬方數(shù)據(jù)庫,能獲得較全內(nèi)容,因此把文獻作為被使用的對象。共搜集圖書數(shù)據(jù)1 158條。同時,提取全部關(guān)鍵字及對應的分類號,作為備選待用的搜索字存入表SearchWords中,共得到3 598條關(guān)鍵字。
4.2 與普通向量空間模型對比測試
在此采用雙重權(quán)重表示法,考慮了一定程度的資源關(guān)聯(lián)性及隨時間的興趣衰減模式等,與普通的用戶模型相比有一定的優(yōu)勢。
模擬設計10人參與,其ID分別為1~10,興趣點分別為:政治法律,經(jīng)濟,文化,天文,生物,醫(yī)藥衛(wèi)生,農(nóng)業(yè)科學,工業(yè)技術(shù),交通,環(huán)境科學。首先隨機選出100篇文章,每類別10篇,按照興趣點隨機產(chǎn)生10人的瀏覽行為數(shù)據(jù)。
系統(tǒng)隨機產(chǎn)生10用戶對相關(guān)類別的定制,每人定制約2類,并產(chǎn)生相關(guān)類別的一些關(guān)鍵字的搜索行為,每人搜索大約2個關(guān)鍵字,產(chǎn)生定制數(shù)據(jù)及搜索行為數(shù)據(jù),使用本系統(tǒng)所提供方法及默認的建模參數(shù),建模結(jié)果如圖7所示。采用普通的用戶模型,建模結(jié)果如圖8所示。
建模之后,針對每個讀者對其余1 058本圖書重排序,假設此1 058本圖書是某次搜索產(chǎn)生的結(jié)果,位置前者為高興趣度的文獻。由于系統(tǒng)只是對假定的檢索結(jié)果重排,所以不宜對查全率檢測,對于查準率,取信息總量為100,因為全部資源的數(shù)目有限,不相關(guān)文獻較多,對各種用戶模型都沒有明顯的區(qū)分效果,所以只查看前100條記錄的準確率會更有利。查準率與普通向量空間用戶模型的對比如圖9所示。圖中,采用雙重權(quán)重表示的用戶模型,結(jié)合用戶行為數(shù)據(jù)和改進的滑動窗口算法比普通的向量空間模型表示法更能準確表達用戶的興趣趨勢,滿足用戶的需求。
4.3 動態(tài)學習效果測試
為了測試學習算法的動態(tài)學習效果,首先用數(shù)理化類作為興趣樣本生成用戶瀏覽,定制,搜索數(shù)據(jù),然后從序列4開始,逐漸改變興趣,追加學習工業(yè)技術(shù)類的文獻,產(chǎn)生行為數(shù)據(jù)。每次興趣學習后,都對測試樣本文獻進行重排,然后計算其查準率,表2為用戶的學習過程。
用戶興趣中數(shù)理化領域所占比例及數(shù)理化的查準率呈上升趨勢,這表明用戶模型文件中該領域的興趣度在不斷上升,學習算法能動態(tài)地捕捉到該過程,能隨著學習的進行實時地更新用戶模型。之后,隨著數(shù)理化類文獻學習量的減少及工業(yè)技術(shù)類文獻的追加學習,前者查準率呈下降趨勢,后者上升。這說明,如果用戶的興趣發(fā)生了轉(zhuǎn)移,系統(tǒng)中體現(xiàn)在追加學習其他類別的文獻、原類別的文獻在結(jié)果中所占的比例會下降。這表明學習算法能夠隨著用戶興趣的轉(zhuǎn)移合理地“遺忘”掉用戶過去的愛好,而積累用戶的新近興趣。
5 結(jié) 論
本系統(tǒng)采用用戶的瀏覽、定制和搜索行為結(jié)合被操作的信息作為建模信息來源,使用一種改進的基于向量空間模型的雙重向量表示法來表達用戶特征,并采用興趣衰減、興趣學習與滑動窗口算法相結(jié)合的方式對用戶模型進行更新。最后,在數(shù)字圖書館個性化搜索引擎系統(tǒng)中實現(xiàn),并通過兩組實驗,即與普通向量空間用戶模型的對比實驗和用戶興趣漂移時的跟蹤學習,實驗證明該方法能夠比較準確地描述讀者興趣,通過用戶模型優(yōu)化搜索結(jié)果,有一定的使用價值。
參考文獻
[1] KANG Haiyan, LI Chen. Research and design on personalized DL based on J2EE [C]// 2008 IEEE Pacific?Asia Workshop on Computational Intelligence and Industrial Application. Wuhan, China: IEEE, 2008: 527?531.
[2] ZHU Zhengyu, XU Jingqiu, REN Xiang, et al. Query expansion based on a personalized Web search model [C]// Procee?dings of 2007 3rd IEEE International Conference on Semantics, Knowledge and Grid. [S.l.]: IEEE, 2007: 128?133.
[3] 胡燕,吳虎子,鐘珞.中文文本分類中基于詞性的特征提取方法研究[J].武漢理工大學學報,2007,29(4):132?135.
[4] 屈軍,林旭.文本分類中特征提取方法的比較與分析[J].現(xiàn)代計算機,2007(4):10?13.
[5] 林霜梅,汪更生,陳弈秋.個性化推薦系統(tǒng)中的用戶建模及特征選擇[J].計算機工程,2007,33(17):196?199.
[6] 張莉.基于Web數(shù)據(jù)挖掘的個性化信息智能Agent挖掘系統(tǒng)模型[J].科技廣場,2006(8):53?55.