(中南大學圖書館 湖南長沙 410083)
在數(shù)字圖書館信息服務中,個性化推薦是根據(jù)讀者特征、偏好以及對資源訪問行為進行分析和挖掘,來識別讀者興趣、資源的關聯(lián)以及具有相似訪問行為的讀者群,來向讀者推薦其感興趣的信息,過濾掉和讀者無關的信息?!?〕
數(shù)字圖書館個性化資源推薦服務系統(tǒng)包括三個重要的模塊:讀者興趣模塊、推薦資源對象模塊和推薦算法模塊,資源推薦系統(tǒng)模型如圖1所示。
圖1 資源推薦系統(tǒng)模型
推薦系統(tǒng)把讀者興趣模型中的需求信息和推薦資源對象中的特征信息相匹配,同時使用相應的推薦算法進行計算和篩選,找到讀者可能感興趣的資源對象,然后推薦給讀者,讀者興趣通過顯示或隱示的方式從讀者對資源的訪問行為中獲取。
要向讀者提供高效、準確和個性化的資源推薦,推薦系統(tǒng)應能獲取體現(xiàn)讀者多方面的、動態(tài)變化的興趣和愛好,并為讀者建立興趣模型,該模型能獲取、表示、存儲和更新讀者的興趣,并對讀者進行分類,理解讀者的需求和任務,從而形成讀者興趣描述文件?!?〕
圖2 讀者興趣建模的過程
讀者興趣建模的過程如圖2所示,包括讀者信息的獲取、讀者興趣模型的表示方法和興趣的更新方法。
讀者信息的獲取是建立興趣模型的數(shù)據(jù)基礎,在數(shù)字圖書館信息服務系統(tǒng)中,能反映讀者興趣偏好的數(shù)據(jù)主要有以下三種:(1)讀者屬性:這是讀者最基本的信息,一般存在圖書自動化管理系統(tǒng)的讀者表中,包括讀者的姓名、性別、年齡、院系、班級、專業(yè)、學歷等。利用這些自然屬性可進行讀者興趣的初始建模;(2)圖書館各業(yè)務管理系統(tǒng)中與讀者相關的信息:如圖書自動化管理系統(tǒng)中讀者的借閱信息,參考咨詢系統(tǒng)中讀者的咨詢信息,數(shù)據(jù)庫系統(tǒng)中讀者的學術成果信息,甚至學校教務系統(tǒng)中學生的課程信息等。這些信息是讀者在工作和學習過程中所產(chǎn)生的,真實體現(xiàn)了讀者的資源需求;(3)讀者對資源的訪問行為信息:讀者對資源的訪問行為體現(xiàn)了讀者的興趣和需求,包括檢索行為、閱讀和下載行為以及讀者對資源的收藏、定制、評價和反饋等,這些信息一般以日志的形式記錄在讀者個人信息空間中,它更能體現(xiàn)讀者興趣的實時變化。
讀者興趣建模中輸入信息的獲取方式有顯式、隱式和啟發(fā)式三種?!?〕(1)顯式獲取方式是讀者主動提供個人感興趣的學科主題、領域關鍵詞和研究方向等;(2)隱式獲取是通過跟蹤讀者對資源的訪問行為和圖書館業(yè)務系統(tǒng)的操作行為,來對讀者的興趣進行推理。(3)啟發(fā)式是在讀者不清楚圖書館的資源或意識不到自己興趣主題時,以問卷調查的模式啟發(fā)讀者提供資源需求和偏好。
讀者對不同類型資源的興趣程度,可能隨著時間而發(fā)生變化,甚至轉移。因此,在興趣模型中應反映出讀者對資源的長期興趣、短期興趣和興趣程度。建模的對象可以是面向單個讀者也可以是面向讀者群,其中,面向讀者群的興趣建模,反映出具有相同興趣偏好的讀者,有利于協(xié)同推薦。
讀者興趣模型的方式方法,決定了推薦系統(tǒng)獲取讀者感興趣信息和追蹤用戶興趣的能力,其方式方法有四種。(1)以讀者感興趣的主題或關鍵詞來表示讀者興趣模型的方法。這種方法列出了用戶可能感興趣的領域,但不能表達詳細的內(nèi)容及對每個領域感興趣的程度。(2)基于向量空間模型方式方法是目前為止在推薦系統(tǒng)和信息檢索領域用戶建模時最流行的用戶模型方式方法?!?〕(3)基于評分矩陣的方式方法?!?〕一般讀者對某個資源評分越高表示讀者對此資源越感興趣,在協(xié)同過濾推薦系統(tǒng)中經(jīng)常使用這種方法。(4)基于本體的用戶模型方式方法?!?〕本體通常自上而下采用概念樹的形式,每個節(jié)點表示用戶的一個興趣類,它能夠最大限度地實現(xiàn)知識的共享和重用。
對資源對象的描述一般有基于內(nèi)容的方法和基于分類的方法。對于網(wǎng)絡資源,由于其非結構化特性,沒有統(tǒng)一的標準進行描述,一般采取以基于內(nèi)容的方法從對象本身抽取信息來進行描述。資源對象的文本信息提取技術相對比較成熟,但資源對象不一定具有文本特征或文本描述不足。對于圖書館文獻資源,其類型包括圖書、期刊、學位論文、會議論文、報紙和專利等。其分類和描述相對網(wǎng)絡資源非常成熟,普遍采用MARC或DC標準進行著錄和描述,其分類一般采用中圖法或科圖法。所以推薦資源對象的建模可采用基于學科分類的方法,每個資源對象都有與之相對應的一個或多個學科分類,與讀者興趣模型中的興趣描述(學科主題)相對應。
資源推薦模式(或稱資源推薦策略)是推薦系統(tǒng)中最為核心和關鍵的部分,它決定了推薦系統(tǒng)的類型、性能和推薦效果。常見的資源推薦策略根據(jù)使用數(shù)據(jù)的不同分為基于內(nèi)容的推薦、協(xié)同過濾推薦、基于關聯(lián)規(guī)則的推薦和混合推薦等?!?〕
4.1.1 資源對象內(nèi)容和讀者興趣相似性的推薦。系統(tǒng)首先提取資源對象的元數(shù)據(jù)信息或文檔內(nèi)容,和讀者興趣模型中的讀者興趣偏好進行計算匹配,匹配度較高的資源可推薦給讀者。例如,在進行圖書資源推薦時,系統(tǒng)從興趣模型中分析讀者對哪些主題的圖書感興趣,然后從圖書資源中選擇和讀者興趣點相似的圖書推薦給讀者。這種推薦策略適合讀者興趣比較明確的讀者。
4.1.2 資源對象內(nèi)容和讀者檢索結果相似性的推薦。在讀者進行文獻檢索時,輸入檢索詞后,會顯示檢索結果的資源列表,在點擊某條文獻的標題時,會顯示此文獻的詳細信息。在檢索結果列表頁面,可將與檢索詞最相關的文獻排在前面,推薦給讀者。例如:超星學術搜索中的相關性排序,在文獻的詳細信息頁面,可將與此文獻相關的其他類型文獻也展現(xiàn)給讀者;中國知網(wǎng)數(shù)據(jù)庫的文獻詳細頁面,也展示了與文檔相關的各種類型的資源。計算資源對象的內(nèi)容特征與讀者興趣特征(或檢索結果文獻)之間的相似性是該推薦策略中關鍵部分,常用的內(nèi)容相似性計算方法有余弦相似度、皮爾森相關系數(shù)和矯正余弦相似度?!?〕
協(xié)同過濾〔9〕是一種在推薦系統(tǒng)中廣泛采用的推薦方法,這種算法基于一個假設,喜歡相同項目的用戶更有可能具有相同的興趣。
4.2.1 基于用戶的協(xié)同推薦。即用戶選擇某個推薦對象是基于朋友(其他用戶)的推薦。在數(shù)字圖書館可理解為基于讀者的協(xié)同推薦,其過程為:要向某個讀者推薦資源,首先找到一組與該讀者具有相似興趣偏好的讀者,將他們最感興趣的資源作為推薦對象推薦給該讀者。一個簡化的圖書資源推薦示例是:假如讀者張三有兩個共同偏好的讀者李四和王五,張三閱讀了圖書A,李四閱讀了圖書A、B、C和D,王五閱讀了圖書A、B、D、E和F。這樣,推薦系統(tǒng)就能夠過濾出相似讀者都閱讀了的圖書B和D,會把它們作為張三最有可能喜歡的圖書推薦給張三。在基于用戶的協(xié)同推薦策略中,推薦資源對象集的產(chǎn)生方式意味著資源只有被讀者借閱后才有機會被推薦給其他讀者。對于數(shù)字圖書館來說,新進的圖書、期刊等資源,因為還沒有被相當數(shù)量的讀者來借閱,便很少有機會被篩選進入推薦集,這個問題,也被稱為協(xié)同過濾的“冷啟動”問題?!?0〕
4.2.2 基于項目的協(xié)同推薦?;陧椖繀f(xié)同推薦是通過計算內(nèi)容項之間的相似性來代替用戶之間的相似性。其面向資源進行協(xié)同推薦的基本原理是:使用所有讀者對文獻資源的訪問信息,發(fā)現(xiàn)資源和資源之間的相似度,然后根據(jù)讀者的歷史偏好信息,將類似的資源推薦給讀者。假設讀者 A喜歡資源 A和資源C,讀者B喜歡資源A、資源B和資源C,讀者C喜歡資源A,從這些讀者的歷史喜好可以分析出資源A和資源C是比較類似的,喜歡資源A的人可能會喜歡資源C,基于此,可以推斷讀者C很有可能也喜歡資源C,所以系統(tǒng)會將資源C推薦給讀者C?;陧椖糠椒ㄋ扑]的資源是某類資源中眾多讀者信任的資源,但此方法忽略了相似讀者之間的群組特征,使得推薦精度不如基于用戶的方法。
4.2.3 基于模型的協(xié)同推薦。以用戶和以項目為基礎的協(xié)同推薦共有的缺點是數(shù)據(jù)稀疏,難以處理大數(shù)據(jù)量,影響即時推薦結果,因此發(fā)展出以模型為基礎的協(xié)同推薦。以模型為基礎的資源協(xié)同推薦是先用讀者對資源的訪問歷史數(shù)據(jù)為樣本,得到一個讀者興趣偏好模型,再用此模型預測讀者資源需求,根據(jù)資源對象內(nèi)容和讀者興趣的相似性進行推薦。這一方法中,建立基于讀者訪問行為的興趣模型是核心,常用的方法有機器學習、統(tǒng)計模型、貝葉斯模型、概率相關模型和線性回歸模型等。〔11〕
數(shù)據(jù)挖掘是指以某種方式對數(shù)據(jù)進行分析,從中發(fā)現(xiàn)一些潛在的有用的信息。關聯(lián)規(guī)則挖掘則是數(shù)據(jù)挖掘技術中的一項重要技術,它是從大量數(shù)據(jù)背后發(fā)現(xiàn)事物之間可能存在的關聯(lián),為管理和服務提供決策支持。
文獻資源的關聯(lián)挖掘是通過對讀者歷史訪問數(shù)據(jù)進行分析,發(fā)現(xiàn)文獻資源的關聯(lián),來進行信息的推薦服務?;谝?guī)則中變量的類型可分為布爾型關聯(lián)規(guī)則和數(shù)值型關聯(lián)規(guī)則,基于規(guī)則中數(shù)據(jù)的抽象層次可分為單層關聯(lián)規(guī)則和多層關聯(lián)規(guī)則,基于規(guī)則中涉及的數(shù)據(jù)的維數(shù)可以分為單維的和多維的?!?2〕
例如規(guī)則:主題=“文獻學”=>主題=“目錄學”,表示訪問主題為“文獻學”的讀者也可能訪問“目錄學”的資源,這兩個主題屬于同一層次,值是離散的,屬于布爾型單層關聯(lián)規(guī)則。
例如規(guī)則:主題=“圖書館管理”=>主題=“圖書館統(tǒng)計”,是一個較高層次和較低層次之間的多層關聯(lián)規(guī)則。
例如規(guī)則:專業(yè)=“圖書館學”,文化程度=“學士”=>主題=“圖書館,分類法,文獻檢索,信息管理”,這條規(guī)則涉及到三個字段的信息,是三維上的一條關聯(lián)規(guī)則,屬于多維關聯(lián)規(guī)則。
基于關聯(lián)規(guī)則的資源推薦,一般轉化率較高,因為當讀者已訪問了頻繁集合中的若干資源后,訪問該頻繁集合中其他資源的可能性更高。
各種推薦策略都有其優(yōu)缺點。因此,在實際推薦中,混合推薦經(jīng)常被采用,通過組合不同的推薦策略,來揚長避短,產(chǎn)生更加符合讀者需求的推薦。目前應用最多的是內(nèi)容推薦和協(xié)同推薦的混合。其思路有兩種:(1)推薦結果的混合。這種混合方式是利用兩種或多種推薦策略產(chǎn)生推薦結果,然后用某種算法把所產(chǎn)生的推薦結果進行混合,得到最終的推薦結果。如何從中選擇讀者感興趣的推薦結果是該算法的重點,這需要和讀者興趣模型相結合。(2)推薦算法的混合。以一種推薦算法為基礎,混合另外一種推薦算法。如協(xié)同推薦的框架內(nèi)混合內(nèi)容推薦,或基于內(nèi)容推薦的框架內(nèi)混合協(xié)同推薦,基于關聯(lián)規(guī)則的推薦中混合內(nèi)容推薦或協(xié)同推薦等。
由于資源個性化推薦是針對讀者來進行,在數(shù)字圖書館服務中,讀者需要有一個統(tǒng)一的身份,方便圖書館對讀者偏好信息的獲取。然而,圖書館存在眾多的信息服務系統(tǒng),如OPAC系統(tǒng)、圖書館門戶、校外訪問系統(tǒng)、參考咨詢系統(tǒng)、資源檢索系統(tǒng)等,這些服務系統(tǒng)的身份認證機制各不相同,導致讀者使用這些系統(tǒng)時都需要輸入不同的賬戶和密碼信息,增大了認證的復雜度,降低了圖書館服務的易用性。實現(xiàn)數(shù)字圖書館統(tǒng)一的身份認證,甚至與學校一卡通身份信息對接,可方便讀者使用圖書館的服務,提高資源的利用率;同時,為數(shù)字圖書館個性化推薦服務提供一致的讀者身份信息。因此,如何實現(xiàn)統(tǒng)一身份認證已成為圖書館亟需解決的重要問題。
對個性化推薦服務系統(tǒng)來說,最重要的是讀者的參與。通過與圖書館各業(yè)務系統(tǒng)的統(tǒng)一身份認證、與各業(yè)務系統(tǒng)應用和數(shù)據(jù)的集成,來獲取讀者的特征信息和行為信息。讀者個人信息的內(nèi)容包括:個人認證信息及基本信息、個人文獻收藏信息、個人成果信息、圖書館業(yè)務功能的集成、讀者資源訪問行為信息、資源和空間定制信息等。讀者個人信息空間中記錄了讀者的這些特征和行為,反映了讀者的興趣和偏好。因此,如何集成讀者的個人信息和對資源的訪問行為,構建一個反映讀者興趣的個人信息空間,成為數(shù)字圖書館個性化推薦系統(tǒng)建設的重點。
基于元數(shù)據(jù)的異構文獻資源集成檢索,可為數(shù)字圖書館個性化推薦服務提供數(shù)據(jù)保障。要獲取每個讀者的資源訪問行為,就需要對分散異構的資源進行整合,為讀者提供統(tǒng)一的檢索服務。集成檢索不但方便了讀者發(fā)現(xiàn)和獲取文獻資源,同時也可獲取到讀者對資源的訪問行為,如檢索、瀏覽、閱讀和下載等,為讀者興趣的分析和資源推薦提供數(shù)據(jù)基礎。近年來,文獻資源的集成檢索,也稱為資源發(fā)現(xiàn)系統(tǒng),成為數(shù)字圖書館討論的熱點。
為讀者提供信息資源的推薦,需要在系統(tǒng)中記錄讀者的興趣偏好等信息,但讀者擔心個人隱私信息得不到保護而不愿提供個人信息,這是推薦系統(tǒng)長期存在的一個問題。因此,既能獲取讀者信息又能有效保護讀者的個人隱私也是資源推薦系統(tǒng)需考慮的一個重點。
1.熊擁軍.數(shù)據(jù)挖掘在數(shù)字圖書館個性化服務中的應用.中南大學碩士論文,2005
2.王巧榮,趙海燕,曹?。畟€性化服務中的用戶建模技術.小型微型計算機系統(tǒng),2011,32(1):39 -46
3.王丹.基于用戶興趣的個性化信息檢索分析與研究.江西理工大學碩士論文,2010
4.吳麗花,劉魯.個性化推薦系統(tǒng)用戶建模技術綜述.情報學報,2006,25(1):55 -62
5.Weng S S,Lin B S,Chen W J.Using contextual information and multidimensional approach for recommendation.Expert System with Applications,2009(36):1268 -1279
6.宋麗哲,詹赤兵,王勝海.基于本體的數(shù)字圖書館個性化用戶模型表示.中文信息學報,2008(1):99-103
7.郭艷紅.推薦系統(tǒng)的協(xié)同過濾算法與應用研究.大連理工大學博士論文,2008
8,9.楊杰.個性化推薦系統(tǒng)應用及研究.中國科學技術大學碩士論文,2009
10.孫小華.協(xié)同過濾系統(tǒng)的稀疏性與冷啟動問題研究.浙江大學博士論文,2005
11.歐潔,林守勛.個性化智能信息提取中的用戶興趣發(fā)現(xiàn).計算機科學,2001,28(3):112 -115
12.王金燕.基于關聯(lián)規(guī)則的告警相關性分析及在數(shù)據(jù)網(wǎng)管系統(tǒng)中的應用.西安電子科技大學碩士論文,2006