摘? 要:通過構(gòu)建個性化圖書推薦系統(tǒng),圖書館可以為讀者提供更加準確的圖書檢索推薦服務(wù),也可以通過對讀者借閱興趣的分析來提高圖書館的館藏借閱率,降低閑置圖書的管理成本。本文從圖書的特征值分析入手,研究了目前國內(nèi)通用的中圖分類法圖書相似度算法,分析了兩種基于數(shù)據(jù)挖掘技術(shù)的圖書過濾推薦算法的優(yōu)缺點,提出了一種基于協(xié)同和內(nèi)容混合過濾的圖書推薦算法。
關(guān)鍵詞:圖書推薦;過濾推薦算法;混合過濾
中圖分類號:TP311.13;TP391.3 ? ? ? 文獻標識碼:A 文章編號:2096-4706(2019)23-0020-03
Research and Application of Book Recommendation
Algorithm Based on Data Mining
WANG Hong
(Northeast Agriculture University Library,Harbin? 150030,China)
Abstract:By building personalized book recommendation system,library can provide most accurate book searching and recommendation for the users. By studying the book interest to the users,library can advance the rate of book circulation and cost reduction of idle books. In this paper,starting from the analysis of book eigenvalues,we study the book similarity algorithm of Chinese library classification,analyze the advantages and disadvantages of two kinds of book filtering and recommendation algorithms based on data mining technology,and propose a book recommendation algorithm based on collaborative and content mixed filtering.
Keywords:book recommendation;filtering recommendation algorithm;hybrid filtering
0? 引? 言
通過圖書館信息管理系統(tǒng)來提高讀者檢索和借閱圖書的效率是目前各圖書館提高服務(wù)質(zhì)量和客戶滿意度的有效手段。借閱者能夠在使用圖書管理系統(tǒng)時快速檢索到所需的書籍,有助于提高圖書借閱率,也能為圖書管理節(jié)省一些成本。在圖書館系統(tǒng)中對檢索結(jié)果的處理和顯示是提高檢索效率的關(guān)鍵技術(shù),這些檢索推薦算法也都是建立在圖書特征劃分體系基礎(chǔ)上的。目前圖書館圖書管理系統(tǒng)的圖書特征信息劃分采用的是中圖分類法,圖書推薦算法基于聚類分析技術(shù),分別從內(nèi)容和協(xié)同過濾兩個方面進行計算和推薦。
1? 中圖法圖書相似度計算
圖書館現(xiàn)有的圖書信息管理系統(tǒng)會根據(jù)圖書的特征信息對圖書進行劃分,具體包括圖書分類號、題名、學(xué)科、作者、ISBN號、館藏時間等,這些能夠區(qū)分圖書類別的信息稱為圖書特征值。圖書信息管理系統(tǒng)就是根據(jù)特征值數(shù)據(jù)的結(jié)構(gòu)化存儲和管理來實現(xiàn)圖書檢索和借閱服務(wù)的。特征值中被用于圖書檢索和推薦服務(wù)的關(guān)鍵信息就是圖書分類號,目前國內(nèi)最為通用的圖書分類號計算方式就是中國圖書館圖書分類法(下文簡稱中圖法)。中圖法按照樹狀結(jié)構(gòu)劃分圖書類別,從上至下按照由一般到具體的過程分為5大部類,22個基本大類。中圖法計算生成的圖書分類號,不僅可以確保圖書分類的準確性,還能確保推送項目的真實性,對于圖書推薦算法的研究具有非常重要的參考價值。中圖法的分類樹結(jié)構(gòu)如圖1所示。
從分類樹的結(jié)構(gòu)可以看出,分類樹的同級節(jié)點會隨著層級的下降逐漸失去關(guān)聯(lián)性,同一分支的節(jié)點則在延伸過程中逐步提高關(guān)聯(lián)性。由此可以得出結(jié)論,在分類樹中統(tǒng)一分支的節(jié)點,可以視為同學(xué)科類型的特征值。
圖書推薦算法是一種典型的聚類分析技術(shù),是按照數(shù)據(jù)對象集合的相似程度進行分類的非假設(shè)性算法。圖書推薦的核心問題就是如何通過相似度的計算來劃分數(shù)據(jù)集合。作為圖書分類的主要特征值,中圖法分類號的相似度計算對于提高圖書推薦算法的準確性有非常重要的意義。中圖法圖書相似度是依據(jù)分類樹的最近公共父節(jié)點深度進行計算得出的,計算公式如下:
SIM(U,V)=DEPTH(LCA(U),LCA(V))/MAX-DEPTH
式中,U和V分別代表分類樹的任意兩個節(jié)點,SIM(U,V)用于計算分類樹節(jié)點的相似度,LCA(U)用于計算與U節(jié)點最近的父節(jié)點,DEPTH用于計算得出父節(jié)點深度,MAX_DEPTH是該分類樹的深度最大值。DEPTH的計算過程使用了Tarjan算法和倍增法。
2? 基于內(nèi)容的圖書推薦算法
基于特征值計算和用戶檔案信息的圖書推薦算法是目前圖書推薦系統(tǒng)最為常見的內(nèi)容推薦算法?;趦?nèi)容的圖書推薦算法首先對館藏數(shù)據(jù)和借閱數(shù)據(jù)進行分析,得出用戶的檢索關(guān)鍵詞和圖書特征值,分別得出關(guān)鍵詞集合和特征值集合并建立圖書屬性數(shù)據(jù)庫;然后利用圖書屬性數(shù)據(jù)庫進行用戶借閱特征分析,得出用戶特征與圖書特征之間的關(guān)聯(lián)關(guān)系;最后使用余弦相似度算法來得出特征值關(guān)聯(lián)性較高的圖書推薦給讀者。計算過程中要根據(jù)推薦項目的數(shù)量適當調(diào)整計算參數(shù),調(diào)節(jié)推薦書目的特征值范圍和用戶特征范圍。
圖書推薦算法的優(yōu)勢首先是無需考慮用戶的借閱記錄數(shù)據(jù),這對于借閱數(shù)據(jù)積累不足的館藏系統(tǒng)有較大幫助,可以避免因數(shù)據(jù)不足造成的推薦偏離現(xiàn)象;其次,對用戶檢索關(guān)鍵詞的計算可以最大限度獲取用戶閱讀興趣信息,提高推薦算法的準確性,也能保證推薦項目集中在統(tǒng)一分支的區(qū)域內(nèi),保證關(guān)聯(lián)性;第三,圖書特征和用戶特征相關(guān)聯(lián)的推薦算法,可以將新增館藏加入推薦體系,解決了以往推薦算法無法為用戶推薦新增館藏的問題?;趦?nèi)容的圖書推薦算法的局限性在于:用戶特征值的獲取如果不是在一個較長周期內(nèi),會造成推薦圖書與用戶借閱偏好的一定偏離,新用戶的借閱推薦則更加沒有準確性的保證。
3? 基于協(xié)同過濾的圖書推薦算法
協(xié)同過濾是一種互聯(lián)網(wǎng)領(lǐng)域炙手可熱的信息過濾和推薦算法,它利用具有共同經(jīng)驗的群體喜好來給用戶推薦信息。協(xié)同過濾算法是以合作為基礎(chǔ),使用評分機制或群體過濾等方式來給予信息一定的評價,記錄評價信息(最好的與最不好的)并篩選得出推薦結(jié)果。圖書推薦系統(tǒng)應(yīng)用協(xié)同過濾算法也比較適合,針對用戶的不同教育背景、身份以及職業(yè)都可以區(qū)分經(jīng)驗群體,借閱過程給出的反饋信息也可以形成過濾的數(shù)據(jù)支持。協(xié)同過濾算法的推薦過程與用戶的群體和偏好有直接的聯(lián)系,選擇相似偏好的用戶組成用戶群體,根據(jù)用戶對館藏圖書的評價得分來進行具有普遍性的偏好分析,得出該群體的推薦結(jié)果。
基于過濾協(xié)同的圖書推薦算法有兩個思路:一是可以基于用戶的借閱數(shù)據(jù)進行相似度矩陣分析,得出群體興趣特征,劃分組別后進行定向過濾推薦;另一種是基于建立項目相似度矩陣,將用戶感興趣或不感興趣的項目進行組別劃分后進行定向過濾推薦。
3.1? 基于用戶的協(xié)同過濾
基于用戶的協(xié)同過濾算法的核心內(nèi)容就是確定項目偏好度相似的臨近用戶組別,通過其他臨近用戶組別的項目推薦評分得出目標用戶的項目興趣權(quán)重系數(shù),從而推斷出用戶感興趣但未曾評分的項目來進行定向的圖書推薦。除了圖書推薦外,圖書館可以根據(jù)臨近興趣組別來為用戶推薦好友,為目標用戶推薦偏好相似度較高的其他用戶,并對結(jié)為書友的用戶進行加權(quán)興趣組別計算,構(gòu)建更加準確的圖書推薦系統(tǒng)應(yīng)用。
3.2? 基于項目的協(xié)同過濾
基于項目的協(xié)同過濾的核心內(nèi)容是以相似度為加權(quán)系數(shù),對已評價的項目進行加權(quán)計算,得出未評價項目的預(yù)測評分。相比基于用戶的協(xié)同過濾算法,基于項目的協(xié)同過濾的項目關(guān)系相對穩(wěn)定,只要定期對相似度加權(quán)系數(shù)進行更新就可以實現(xiàn)準確的推薦,可以保證推薦系統(tǒng)的系統(tǒng)性能,這也是目前各領(lǐng)域商業(yè)網(wǎng)站采用較多的推薦算法。
對項目相似度的計算,基礎(chǔ)數(shù)據(jù)源是該項目的用戶群體,使用Jaccard相似度算法來進行相似度計算,得出的相似度加權(quán)系數(shù)再作用于已評價項目的評分結(jié)果之上,得出目標用戶群體的未推薦項目加權(quán)評分,將評分較低的項目去除后按照評分高低為用戶進行定向圖書推薦。除了圖書推薦應(yīng)用外,基于項目的協(xié)同過濾算法也可以應(yīng)用于用戶圖書檢索的結(jié)果集生成,將相似度加權(quán)系數(shù)作為檢索條件排序的參考依據(jù)之一,可以有效提高用戶檢索結(jié)果的準確性,提高用戶體驗。
基于協(xié)同過濾的推薦算法的優(yōu)勢在于:首先,算法的數(shù)據(jù)源面向所有用戶群體和館藏項目,根據(jù)預(yù)先設(shè)定的計算程序就可以實現(xiàn)推薦項目的自動更新,保證了推薦算法的準確性;第二,用戶評分可以有效提高資源項目的相似度分析數(shù)據(jù)的采集準確性,可以解決一些采集難度較大的多媒體資源無法進行相似度計算的問題;最后,臨近群體的興趣推薦可以為借閱傾向較為單一的用戶推薦接近的圖書項目,有助于用戶擴寬閱讀范圍?;趨f(xié)同過濾的推薦算法的主要缺點就是對新項目的推薦更新較慢,當數(shù)據(jù)源較為稀疏時會出現(xiàn)冷啟動現(xiàn)象等。
4? 基于混合過濾的推薦系統(tǒng)
通過比較和分析基于協(xié)同過濾、基于內(nèi)容過濾的推薦算法的優(yōu)缺點,為了進一步提升推薦系統(tǒng)的用戶體驗,本文設(shè)計了一種基于混合過濾的推薦系統(tǒng),實現(xiàn)了兩種推薦算法的優(yōu)勢互補?;诨旌线^濾的推薦系統(tǒng)工作示意圖如圖2所示。
(1)從圖2可以看出,基于混合過濾的推薦系統(tǒng)首先采集用戶的借閱記錄信息,對于并未進行過圖書借閱的用戶進行非推薦算法處理,按照用戶注冊信息中的性別、年齡、教育背景、工作單位等信息進行熱門圖書推薦。
(2)對于有借閱記錄的用戶群體,根據(jù)預(yù)先設(shè)定的借閱量閾值進行區(qū)分計算,借閱量低于閾值的用戶采用基于內(nèi)容的推薦算法進行推薦。推薦算法首先采集圖書中圖法分類號信息,構(gòu)建圖書的屬性數(shù)據(jù)表得出中圖法分類號集合;然后利用中圖法圖書相似度計算公式得出用戶閱讀特征值;最后使用余弦相似度算法對圖書特征值進行加權(quán)排序得到推薦結(jié)果序列。
(3)借閱量高于閾值的用戶采用基于協(xié)同過濾的圖書推薦算法。該過程首先以用戶興趣群體和項目信息為源數(shù)據(jù),通過Jaccard算法計算得出項目相似度加權(quán)系數(shù);然后對臨近項目的相似度進行加權(quán)計算,得到推薦集合推薦給用戶群體。
5? 結(jié)? 論
基于混合過濾的圖書推薦算法,整合了基于內(nèi)容和基于協(xié)同過濾兩種推薦算法的優(yōu)點,對圖書推薦的場景進行劃分并有針對性地利用中圖法、用戶閱讀特征值計算、余弦相似度算法、Jaccard算法等先進算法進行處理,有效提高了推薦算法的準確性,提高了用戶借閱率。
參考文獻:
[1] 高晟.基于關(guān)聯(lián)規(guī)則與貝葉斯網(wǎng)絡(luò)的高校圖書館個性化圖書推薦服務(wù) [J].情報探索,2019(8):87-94.
[2] 彭文惠.基于數(shù)據(jù)挖掘的自動化推薦系統(tǒng)改進ART算法探究 [J].現(xiàn)代信息科技,2019,3(8):44-46.
[3] 任杰.關(guān)聯(lián)規(guī)則應(yīng)用下的高校圖書館圖書推薦服務(wù) [J].辦公室業(yè)務(wù),2018(23):148.
作者簡介:王紅(1969-),女,漢族,遼寧沈陽人,副研究館員,碩士,研究方向:文獻信息服務(wù)。