孫雷 孫慶蘇
〔摘 要〕用戶模型是數(shù)字圖書館個性化系統(tǒng)中的關鍵技術,傳統(tǒng)的用戶模型沒有考慮詞與詞之間的內在聯(lián)系,本文提出了一種基于本體的用戶模型,該模型基于建立的興趣分類本體,借鑒了檢索領域常使用的激活模型來完成用戶模型的更新,并在用戶模型的基礎上,設計了個性化服務推薦流程。
〔關鍵詞〕個性化;興趣分類本體;用戶模型;本體
〔中圖分類號〕G251.5 〔文獻標識碼〕B 〔文章編號〕1008-0821(2012)09-0080-04
個性化信息服務是數(shù)字圖書館的發(fā)展方向,數(shù)字圖書館個性化服務針對不同的用戶提供不同的信息服務,以滿足他們不同的需要。數(shù)字圖書館個性化服務的實現(xiàn)過程是[1]通過對用戶信息需要、興趣愛好和訪問歷史的收集分析,建立一定的用戶模型,并將此模型應用于網(wǎng)上信息的過濾和排序,因此用戶需求的獲取和用戶建模是實現(xiàn)個性化服務的關鍵因素。由于用戶興趣不斷變化的[2],反映用戶興趣的需求模型也要動態(tài)變化,但目前用戶的興趣多以關鍵詞表達的,個性化服務也是基于關鍵詞匹配的,并沒有理解用戶興趣的語義含義。本體的概念源于西方哲學,從哲學的范疇來說,本體是客觀存在的一個系統(tǒng)的解釋。目前,本體已經(jīng)成為語義Web的核心內容,將本體應用于個性化用戶建模可以較好的解決理解用戶興趣語義這一問題。
1 本體的相關理論
本體的概念被引入到人工智能領域和計算機領域,其目的是克服計算機系統(tǒng)之間存在的“語義鴻溝”。目前,本體已經(jīng)成為語義Web的核心內容,也是語義Web的語義基礎。
一個本體[3]可以由類或概念、關系、函數(shù)、公理、實例等5種元素組成。根據(jù)數(shù)字圖書館個性化的情況,將本體分成3類[4]:
(1)領域本體:描述特定領域中概念與概念之間的關系。
(2)任務本體:描述特定任務或行為中概念與概念之間的關系。
(3)應用本體:描述的依賴于特定領域和任務的概念及概念之間的關系。
2 數(shù)字圖書館個性化服務的內涵
數(shù)字圖書館個性化服務是一種滿足用戶個體信息需求的服務方式,目前數(shù)字圖書館的個性化服務主要是通過個性化檢索和個性化推薦的方式實現(xiàn)的,數(shù)字圖書館個性化推薦系統(tǒng)是從海量數(shù)據(jù)中向用戶自動推薦出符合其興趣愛好或需求的資源,如中國知網(wǎng)(CNKI)知識網(wǎng)絡服務平臺(KNS)將讀者相似文獻的鏈接及推薦文獻閱讀服務,數(shù)字圖書館個性化服務的一般思路是:根據(jù)用戶的個性化需求,建立用戶模型,根據(jù)用戶模型對用戶進行過濾,將用戶可能感興趣的文獻自動推薦給用戶,再根據(jù)用戶對推薦內容的反饋,對用戶模型進行修正,再進行下一輪的推薦。
3 基于本體用戶模型的設計
個性化服務系統(tǒng)首先獲取用戶的興趣偏好信息,建立起用戶的興趣模型,采用本體描述用戶興趣時,把用戶的興趣以層次結構來描述,從而為用戶提供更加全面的推薦。
基于本體的個性化用戶模型主要包括用戶行為的收集、用戶興趣的抽取、用戶興趣的更新、興趣模型的表示以及個性化興趣本題庫這幾個部分,如圖1所示。
圖1 基于本體的個性化用戶興趣模型
基于本體的用戶模型由3個部分組成[5]:用戶個人信息、個性化領域本體、個性化信息需求,用一個三元組表示為:User Model=(Persona,Person0,PersonR),式中Persona表示用戶的個人信息,即用戶的姓名、性別、年齡、學歷、專業(yè)背景等,Person0表示用戶信息的個性化領域本體,PersonR表示用戶的個性化需求。
3.1 用戶興趣本體的表示
在實際中,每個人都有興趣、愛好,體現(xiàn)在瀏覽數(shù)字圖書館信息內容方面,雖然每個用戶都有不同的信息需求,但是一定的知識背景、工作性質決定了用戶會有相當穩(wěn)定的興趣和信息需求,為了區(qū)分用戶的興趣類別,本文參照中圖法建立起數(shù)字圖書的分類本體,是一個只含類及其子類的樹狀結構,上層父類是對下層子類共同屬性的概括,而下層子類是對上層父類的細化,所有子節(jié)點之間形成平等的兄弟關系,分類層次越細,描述用戶的興趣類別就越具體,圖2是生物本體部分結構圖,用戶的興趣本體映射來自此本體,一般是此本體的子集。該本體主要用于分類,其中只含有Subclass Of關系,沒有其他屬性。
用戶的興趣本體是興趣分類本體的部分映射,用戶的興趣本體只映射到興趣類別的那一層,例如一個用戶的感興趣圖書的類別是{運輸經(jīng)濟、中美關系、食品衛(wèi)生},那么該用戶的興趣本體就是如圖3這種形式:3.2 基于本體的用戶興趣度的獲取
要獲取用戶感興趣的圖書,就有必要分析用戶的訪問日志,數(shù)字圖書館網(wǎng)站服務器真實記錄了用戶訪問網(wǎng)站的所有日志,其中不僅記錄用戶的基本信息,而且記錄了用戶訪問的路徑,反應頁面的關系,數(shù)據(jù)挖掘從這些日志中挖掘出用戶行為有用的模式,興趣度是用戶對某一網(wǎng)站感興趣的程度,數(shù)字圖書館可以根據(jù)用戶的興趣度進行個性化服務,從文獻[3]可知,通過訪問網(wǎng)站的時間和頻度來計算用戶的興趣度是一種有效的定量計算的方法,主要表現(xiàn)在用戶如果對某一網(wǎng)頁感興趣,則必然瀏覽該網(wǎng)頁的時間更長和會經(jīng)常重復瀏覽該網(wǎng)頁,使用F=(n/N+t/T)l/L[6]公式來定量計算用戶的興趣度,其中n為訪問該節(jié)點的次數(shù),N為本次的訪問次數(shù),t為訪問本節(jié)點消耗的時間,T為訪問網(wǎng)站的總時間,l為本次訪問的節(jié)點數(shù),L為網(wǎng)站的總節(jié)點數(shù),從Web日志中可以計算出用戶的興趣度,以江蘇廣播電視大學超星數(shù)字圖書館為例來計算用戶的興趣度,數(shù)據(jù)來源于江蘇廣播電視大學超星數(shù)字圖書館 2011年3月22日的一段日志:
2010 12-31 05∶54∶28 220.177.9.112-210.28.216.236 80 GET/09/diskRKF/RKF27/04/000073.pdg SSDOWNLOAD/3.8.0.0002+unRegister日志各段數(shù)據(jù)的含義為:
①訪問時間——2011-03-22 05∶54∶28
②用戶IP地址——220.177.9.112
③服務器地址和端口——210.28.216.236 80
④用戶請求信息的方法——GET
⑤用戶訪問的節(jié)點——/09/diskRKF/RKF27/04/000073.pdg
⑥以未注冊用戶的身份下載——SSDOWNLOAD/3.8.0.0002+unRegister
以IP為116.54.82.62的用戶在2010年12月31日訪問江蘇廣播電視大學超星數(shù)字圖書館的日志為例,進行數(shù)據(jù)格式化處理,如表1。
江蘇廣播電視超星圖書館共有22個總節(jié)點數(shù),由表1可以得出,此用戶的興趣度為:
文學=(3/5+39/61)3/22=0.17
經(jīng)濟=(2/5+22/61)2/22=0.07
3.3 基于本體的用戶模型的更新
本文借鑒文獻[7]中用戶模型更新的思想,采用激活擴散模型對用戶描述的興趣度進行更新,激活擴散模型是搜索關聯(lián)網(wǎng)絡、神經(jīng)網(wǎng)絡、語義網(wǎng)絡的一種方法。
激活擴散算法如下:
輸入:含興趣值的本體化用戶描述
輸出:含更新的激活的本體化用戶描述
其具體表示為:
For each Cj∈CON do
IS(Cj)=IS(Cj)+Cj.Activation;
End
CON={C1,C2,…,Cn}∥用戶給予興趣值的概念,如本文中C1為文學,C2為經(jīng)濟。
IS(Cj)∥表示概念Cj的興趣值,如本文中文學的興趣值為0.17,經(jīng)濟的興趣值為0.07
Cj.Activation∥激活值
Cj.Activation=IS(Cj)*sim(di,Cj)
sim(di,Cj)∥用余弦相似度度量書名向量di與概念Cj的相似值。
4 基于本體用戶模型的實現(xiàn)
本模塊主要用于用戶的興趣表示以及用戶模型的更新功能。
4.1 圖書信息分類本體的建立
為了實現(xiàn)該模型,首先建立圖書信息分類,通過參考中圖法分類,使用protege3.4.8建立一個含有圖書類別的概念,作為實驗的本體,圖4是經(jīng)濟類圖書部分分類的層次結構,分類本體起著重要的作用,表現(xiàn)在:
(1)分類本體映射到用戶的興趣本體。
(2)分類本體輔助完成用戶模型的更新。
4.2 用戶興趣的獲取
當建立分類本體后,可以根據(jù)每個用戶的興趣構建興趣本體,在數(shù)字圖書個性化服務中,采用用戶注冊的方法來獲取用戶初始化興趣。用戶注冊時,除了注冊用戶的一些基本信息外,還要選擇用戶的興趣類型。
4.3 用戶興趣的更新
在數(shù)字圖書個性化服務中,用戶只需要完成一次注冊,當其興趣發(fā)生變化時,不需要用戶手工定制興趣類型,采用激活擴散模型完成用戶興趣的更新。這樣,可以根據(jù)用戶的瀏覽愛好對興趣模型進行更新。
5 基于本體用戶模型的個性化服務推薦流程
個性化服務的目的是從海量數(shù)據(jù)中向用戶自動推薦出符合其興趣愛好的資源,個性化推薦服務的主動方是系統(tǒng)平臺,自動向用戶進行推薦,基于本體用戶模型的個性化推薦服務的流程如圖5,其過程如下[8]:
(1)用戶注冊登錄進入個性化服務系統(tǒng),在注冊過程中,除了注冊基本信息,還要進行個性化定制,形成初始的用戶模型。
(2)用戶在瀏覽數(shù)字圖書館時,形成的瀏覽訪問日志,對日志分析后與初始的用戶模型迭加,形成該用戶的基于本體的用戶模型。
(3)系統(tǒng)推薦的用戶潛在的需求的服務被推送到個性化推薦服務,用戶進行瀏覽。用戶對服務推薦結果的瀏覽行為也被系統(tǒng)用于更新用戶模型。
6 結 語
數(shù)字圖書館資源的迅速發(fā)展,面對海量的資源,為了幫助用戶找到其感興趣的信息,個性化服務成了研究的熱點。用戶模型作為用戶興趣的可計算描述,已經(jīng)成為個性化服務研究的重點。在傳統(tǒng)的基于向量的用戶模型中,各關鍵字互不相關,導致語義信息的缺失。本文使用分類本體得到用戶的興趣本體,可以改善傳統(tǒng)用戶模型語義不足的缺陷。
參考文獻
[1]羅宇紅.數(shù)字圖書館個性化信息服務實踐研究[J].圖書館論壇,2010,(8):75-77.
[2]潘家武.基于領域本體的數(shù)字圖書館動態(tài)用戶興趣模型的構建[J].圖書情報工作,2010,(8):64-67.
[3]鄧志鴻,唐世渭,張銘等.Ontology研究綜述[J].北京大學學報:自然科學版,2002,(5):730-738.
[4]肖敏.領域本體的構建方法的研究[J].情報雜志,2006,(2):70-74.
[5]熊回香,陳姍,許穎穎.基于Web 3.0的個性化信息聚合技術研究[J].情報理論與實踐,2011,(8):95-99.
[6]郭家義.數(shù)字圖書館個性化服務信息行為的收集與分析[J].圖書館雜志,2003,(1):25-27.
[7]Ahu Sieg,Bamshad Mobasher,Robin Burke,Web search personalization with ontological user profiles[C].Proceedings of the sixteenth ACM conference on Conference on information and knowledge management,November 06-10,2007.
[8]曾春,邢春曉,周立柱.個性化服務技術綜述[J].軟件學報,2002,(10):1952-1961.
(本文責任編輯:孫國雷)