唐 靜
(湖南圖書館,湖南 長沙 410011)
隨著信息資源日益開放,推薦系統(tǒng)已經(jīng)成為信息管理需求中的一個(gè)熱門研究領(lǐng)域。目前,推薦系統(tǒng)廣泛適用于電子商務(wù)領(lǐng)域,大多數(shù)相關(guān)研究也都致力于商業(yè)服務(wù)的應(yīng)用。一般情況下,推薦系統(tǒng)通過改進(jìn)算法和揭示用戶隱含信息來提高信息推薦的力度。很多大型的電子商務(wù)網(wǎng)站都在使用電子商務(wù)推薦系統(tǒng),比如互聯(lián)網(wǎng)上最大的在線書店Amazon.com,是在EB領(lǐng)域應(yīng)用推薦系統(tǒng)最典型的案例。
推薦系統(tǒng)也稱為個(gè)性化推薦系統(tǒng),它是根據(jù)用戶的興趣愛好推薦符合用戶興趣的對象。傳統(tǒng)意義上的推薦系統(tǒng)是單向傳遞信息的,用戶只能被動(dòng)地得到推薦的產(chǎn)品或者服務(wù),而現(xiàn)代意義的推薦系統(tǒng)具有雙向選擇的功能[1]。并不是所有的在線消費(fèi)者都對該種商品或服務(wù)感興趣。一般信息過濾系統(tǒng)是為了減少用戶搜尋信息資源時(shí)所產(chǎn)生的附加成本而產(chǎn)生的。Resnick[2]認(rèn)為,一般的信息過濾系統(tǒng),也即推薦系統(tǒng),可以根據(jù)使用者的興趣、需求和偏好,對其推薦其所需要的信息,讓其了解相關(guān)產(chǎn)品和服務(wù)。此外,相關(guān)推薦系統(tǒng)還可以被與電子商務(wù)營運(yùn)架構(gòu)整合在一起,企業(yè)從中能挖掘更多潛在利益。目前,各行各業(yè)都可以看到推薦系統(tǒng)被應(yīng)用,推薦對象也非常廣泛,包括了各個(gè)方面。
所謂圖書借閱行為分析,是指對數(shù)字圖書館中歷史圖書的借閱數(shù)據(jù)預(yù)先進(jìn)行處理,從而讓得到的圖書借閱信息能夠符合一定數(shù)據(jù)格式。在此基礎(chǔ)上,相關(guān)主體可以對數(shù)據(jù)采用數(shù)據(jù)挖掘方法繼續(xù)分析和挖掘。表1和表2分別表示的是讀者對圖書借閱信息的歷史記錄原始數(shù)據(jù)格式,從中可知相關(guān)讀者基本信息以及其所借閱書籍的詳細(xì)信息。表1~2數(shù)據(jù)還記錄了相關(guān)書籍被借閱和歸還的日期,從中可以查看讀者所借書籍是否還在有效借閱期。通過分析讀者對不同類型圖書的借閱行為,可以統(tǒng)計(jì)研究其對哪些書籍更加喜好,哪些圖書比較冷漠、很少去關(guān)注。另外一個(gè)思路,可以通過讀者對圖書的借閱效率來反映讀者對圖書的偏好程度。
表1 借書歷史記錄原始數(shù)據(jù)格式
表2 還書歷史記錄原始數(shù)據(jù)格式
圖1 基于內(nèi)容分析與行為分析的用戶興趣模型的構(gòu)建
用戶瀏覽行為分析是指通過分析讀者在網(wǎng)上查閱數(shù)據(jù)庫或者實(shí)體在圖書館瀏覽軌跡,得到一種用戶興趣矩陣,然后應(yīng)用挖掘算法來實(shí)現(xiàn)用戶行為的分析與挖掘[3]。研究內(nèi)容表明,讀者在圖書館的很多查閱行為能比較準(zhǔn)確地顯示用戶的喜好,比如讀者在查閱某本書時(shí)的停留時(shí)間、翻看書籍的次數(shù)以及向同學(xué)做出的推薦,還有借閱頻繁度等,而且讀者在上網(wǎng)搜尋圖書館館藏圖書時(shí)的瀏覽行為也能反映他們的借閱偏好,比如點(diǎn)擊鼠標(biāo)、標(biāo)記書籍內(nèi)容、拖動(dòng)鼠標(biāo)以及前進(jìn)、后退等。不論是實(shí)際去圖書館查閱行為還是去校園網(wǎng)上對圖書館網(wǎng)頁瀏覽信息都能夠很好地揭示讀者的借閱興趣。
進(jìn)入圖書館以后,用戶多半會前往自己專業(yè)或自己研究方向的借閱區(qū),去選擇符合自己需要的書籍。讀者的借閱圖書類型范圍可以大致被劃定。通過了解讀者在哪些書籍停留了多長時(shí)間以及對哪些書籍進(jìn)行過翻閱,可以進(jìn)一步確定讀者對某本書籍的興趣程度。不僅僅是已經(jīng)被借閱過的書籍,那些經(jīng)過讀者行為處理的書籍,在下次也可能成為被借閱的對象,即所謂的潛在圖書。在向讀者推薦一些已借閱書籍的同時(shí),也可以深入分析挖掘這部分潛在圖書,從而對潛在圖書的借閱概率更為清晰深入了解,為后續(xù)借閱提供更多參考依據(jù)。
目前,關(guān)于用戶興趣模型的研究不是很深入,比如很多情況下研究人員只局限于對單純的圖書借閱信息進(jìn)行分析產(chǎn)生用戶興趣模型,或者只是從讀者的瀏覽行為角度來考慮讀者興趣矩陣的挖掘,這些情況下均不能全面、準(zhǔn)確地反映用戶的借閱興趣取向[4]。
針對這種問題,本文提出了基于圖書借閱信息與讀者瀏覽行為來發(fā)現(xiàn)用戶興趣度,建立用戶興趣模型,從而挖掘出用戶最為感興趣的圖書信息?;趯D書借閱信息的分析和對讀者瀏覽行為的研究,本文提出了二者結(jié)合的用戶興趣模型,如圖1所示。
該用戶興趣模型主要是從兩個(gè)方面入手:一方面是從圖書借閱信息考慮,對各種類型讀者借閱的圖書信息進(jìn)行處理,這些數(shù)據(jù)主要通過圖書類型、借閱時(shí)間、讀者類型、借閱狀態(tài)以及借閱效率等維度來歸納,應(yīng)用上述聚類方法對其歷史借閱內(nèi)容進(jìn)行分析,以文本形式表示的數(shù)據(jù)轉(zhuǎn)變?yōu)榫仃嚨男问?;另一方面是對讀者在圖書館中瀏覽圖書的行為進(jìn)行行為分析,讀者的瀏覽行為中主要是從讀者在圖書館瀏覽書籍頻數(shù)、停留時(shí)間、翻閱書籍的時(shí)間以及在網(wǎng)站上瀏覽圖書館數(shù)據(jù)庫的次數(shù)、各種操作(如單擊、雙擊、評論)等角度來考慮,將聚類的方法應(yīng)用于用戶對瀏覽的圖書進(jìn)行行為分析,形成一種用戶行為興趣度[5]。
將兩種不同角度考慮下的數(shù)據(jù)進(jìn)行整合,形成能夠包括兩個(gè)層次的用戶興趣矩陣。在具體實(shí)現(xiàn)上,圖書借閱行為數(shù)據(jù)預(yù)處理形成改進(jìn)前的用戶興趣矩陣可以用一個(gè)m×n階矩陣R(m,n)表示,m行代表m個(gè)讀者,n列代表n本圖書,第i行第j列的元素Rij代表讀者i對圖書j的借閱效率大小,用戶的瀏覽行為通過用戶對書籍瀏覽的興趣度I與對書籍的瀏覽時(shí)間T和翻頁/拉動(dòng)滾動(dòng)條次數(shù)J之間尋找相互依存關(guān)系,用戶瀏覽行為和圖書頁面興趣度之間的回歸方程可建立為:I(p)=a×T+b×J+c,其中,a,b,c是與T(P)和J(P)無關(guān)的未知參數(shù),它們的估計(jì)可采用最小二乘法。這樣通過該方程就可以計(jì)算用戶對圖書館圖書瀏覽的行為興趣度BI(Behavior Interesting)[6]。
改進(jìn)后的用戶興趣矩陣是在原有的只是局限于圖書借閱行為而衍生出來的數(shù)據(jù)矩陣基礎(chǔ)上,通過引入由用戶瀏覽行為經(jīng)過行為分析(線性回歸分析方法)計(jì)算得到的用戶瀏覽行為興趣度而生成的。改進(jìn)后的用戶興趣矩陣C可表示為:
聚類就是將數(shù)據(jù)對象分組成為多個(gè)類或簇,在同一簇中的對象之間具有較高的相似度,不同類中的對象差別較大。通過應(yīng)用K-means聚類算法將用戶矩陣中各組數(shù)據(jù)進(jìn)行聚類,就得到由用戶興趣分類樹表示的用戶興趣模型[7]。
本文選擇的是使用Clementine挖掘工具來具體實(shí)現(xiàn)用戶興趣度模型的構(gòu)建。在Clementine中應(yīng)用聚類K-means節(jié)點(diǎn)和關(guān)聯(lián)規(guī)則Apriori節(jié)點(diǎn)進(jìn)行圖書信息以及用戶行為預(yù)測的過程如下:(1)選擇數(shù)據(jù)源,在導(dǎo)入文件中選擇要用的數(shù)據(jù)源library。(2)在選項(xiàng)板中選擇字段的選項(xiàng)值,選擇其中的數(shù)據(jù)類型和輸入輸出方式,進(jìn)行編輯,讀取所有值后將讀者類型以及借閱時(shí)間、借閱效率設(shè)置為輸出,如圖2所示。單擊圖2最下方Modeling圖標(biāo),將其拖動(dòng)到處理區(qū)域中,下一過程和聚類實(shí)現(xiàn)操作一樣,也可以雙擊圖標(biāo)就得到了如圖2所顯示的關(guān)聯(lián)規(guī)則挖掘模型。
圖2 Clementine 11.0 挖掘聚類及關(guān)聯(lián)規(guī)則模型過程
數(shù)據(jù)挖掘模塊根據(jù)數(shù)據(jù)處理所得到的數(shù)據(jù)集,通過應(yīng)用挖掘算法,進(jìn)一步挖掘分析相關(guān)信息,然后存儲挖掘結(jié)果。設(shè)計(jì)過程中,可以實(shí)現(xiàn)如下兩方面的挖掘。
根據(jù)讀者對圖書的借閱頻率,對圖書做聚類分析。圖書的借閱頻率的確定,參考圖書借閱次數(shù)以及每次讀者借閱該書的時(shí)間長短兩個(gè)因素。在圖書借閱數(shù)據(jù)庫,可以對相關(guān)圖書的借閱次數(shù)進(jìn)行查詢,圖書被借閱的時(shí)間長度,為還書時(shí)間減去借出時(shí)間(借閱時(shí)間都統(tǒng)一以天數(shù)為基本單位)。如此,可得圖書借閱頻率:圖書的借閱頻率=圖書的總借閱時(shí)間/圖書的總借閱次數(shù)。對圖書借閱頻率進(jìn)行聚類分析,相關(guān)結(jié)果既有利于圖書館管理人員更為高效地放置圖書,也有利于讀者更高效選擇自己需要的書籍。
圖書聚類的實(shí)現(xiàn)過程:設(shè)置聚類數(shù)目以及對圖書的借閱頻率進(jìn)行聚類分析。由于對于借閱次數(shù)很少的圖書進(jìn)行聚類實(shí)際意義不大,因此聚類的記錄個(gè)數(shù)一般是選擇圖書借閱次數(shù)較多的圖書類別。根據(jù)K-means算法,對整理后的數(shù)據(jù)集進(jìn)行聚類,獲得聚類結(jié)果。
對圖書進(jìn)行關(guān)聯(lián)性挖掘,目的是找出讀者借閱圖書的潛在規(guī)律。實(shí)際借閱中,研究者通過關(guān)聯(lián)規(guī)則,能更好地發(fā)現(xiàn)那些輕易被忽略的潛在規(guī)律。圖書之間的關(guān)聯(lián)性讓圖書館管理人員更好地了解讀者的借閱興趣,將其運(yùn)用于讀者個(gè)性化服務(wù)中。
圖書關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的實(shí)現(xiàn)過程:首先,生成事務(wù)集。將包含所有借閱圖書信息的讀者借閱記錄進(jìn)行逐一掃描,從而得到圖書關(guān)聯(lián)規(guī)則過程所需要的數(shù)據(jù)源。由于在實(shí)際情況中有可能存在某個(gè)讀者在一定時(shí)間段內(nèi)重復(fù)借閱了同一本書,這樣就會造成數(shù)據(jù)庫中事務(wù)集的冗余;其次,有些館藏圖書很少有人去借,像這類圖書就需要在事務(wù)集中剔除,從而提高圖書挖掘的效率。具體可以應(yīng)用圖書借閱效率的計(jì)算結(jié)果,根據(jù)關(guān)聯(lián)規(guī)則中的最小支持度和最低置信度來劃分。最小支持度和最低置信度需要根據(jù)實(shí)際問題進(jìn)行設(shè)置,總的原則是設(shè)置值不宜過大也不宜過小,太大挖掘不到結(jié)果,太小得到的數(shù)據(jù)不準(zhǔn)確,誤差不能控制在有效范圍內(nèi)??梢酝ㄟ^Apriori算法來進(jìn)行關(guān)聯(lián)規(guī)則的發(fā)現(xiàn),得出的關(guān)聯(lián)規(guī)則結(jié)果是項(xiàng)集的形式。
綜上所述,隨著數(shù)字化閱讀的推進(jìn),個(gè)性化推薦系統(tǒng)的應(yīng)用越發(fā)廣泛,其已經(jīng)涉足于圖書館的個(gè)性化服務(wù)。本文提出的用戶興趣度模型構(gòu)建的個(gè)性化閱讀推進(jìn)系統(tǒng)能為數(shù)字圖書館的建設(shè)和服務(wù)更新提供助力。在這一系統(tǒng)下,借閱圖書或文獻(xiàn)的讀者都可以互相共享信息,而且每個(gè)讀者都作為過濾代理人的一分子,幫助目標(biāo)用戶獲取館藏書籍信息,為未來讀者提供圖書推薦服務(wù)。