晉月培
摘要:該文介紹了三種高校圖書(shū)館廣泛采用的圖書(shū)推薦技術(shù):基于內(nèi)容的推薦技術(shù)、基于協(xié)同過(guò)濾的推薦技術(shù)和基于關(guān)聯(lián)規(guī)則的推薦技術(shù),詳細(xì)說(shuō)明了此三項(xiàng)技術(shù)的基本原理及步驟,并進(jìn)行了優(yōu)劣勢(shì)分析。
關(guān)鍵詞:圖書(shū)推薦;基于內(nèi)容;協(xié)同過(guò)濾;關(guān)聯(lián)規(guī)則
中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)02-0005-03
近年來(lái),隨著圖書(shū)館信息化、數(shù)字化建設(shè)的不斷發(fā)展,館際資源共享和優(yōu)秀數(shù)據(jù)庫(kù)的引入分流了部分紙質(zhì)圖書(shū)的讀者。與此同時(shí),隨著電子技術(shù)的高速發(fā)展,電子書(shū)閱讀器類(lèi)應(yīng)用軟件普遍地出現(xiàn)在諸如平板電腦、智能手機(jī)等移動(dòng)終端設(shè)備上。憑借操作簡(jiǎn)單、便于攜帶、書(shū)籍種類(lèi)豐富等特點(diǎn),該類(lèi)應(yīng)用軟件已獲得大量用戶群。讀者們的閱讀模式正在發(fā)生改變,電子資源對(duì)紙質(zhì)書(shū)籍產(chǎn)生著強(qiáng)烈的沖擊。
傳統(tǒng)的圖書(shū)查找方式是:讀者以關(guān)鍵詞進(jìn)行檢索,再?gòu)臋z索結(jié)果中篩選感興趣的書(shū)目,或是面對(duì)同一領(lǐng)域的大量紙質(zhì)書(shū)籍,逐一篩選感興趣的書(shū)目,但隨著圖書(shū)館館藏紙質(zhì)書(shū)籍?dāng)?shù)量與日俱增,傳統(tǒng)圖書(shū)查找方式的時(shí)間消耗也在不斷增長(zhǎng),增大了讀者查找圖書(shū)的難度。雖然圖書(shū)館在“新書(shū)推薦”、“月借閱排行榜”等中為讀者提供了圖書(shū)推薦服務(wù),但所采用的圖書(shū)推薦方式大多是將特定書(shū)目籠統(tǒng)地推薦給所有用戶,傳統(tǒng)的圖書(shū)推薦方式對(duì)不同讀者的針對(duì)性較差,個(gè)性化圖書(shū)推薦技術(shù)應(yīng)運(yùn)而生。
個(gè)性化圖書(shū)推薦技術(shù),通過(guò)對(duì)圖書(shū)館存儲(chǔ)的圖書(shū)流通歷史數(shù)據(jù)進(jìn)行挖掘和分析,猜測(cè)讀者喜好和需求、預(yù)測(cè)讀者行為[1],從而有針對(duì)性地將不同圖書(shū)推薦給不同讀者,彌補(bǔ)了傳統(tǒng)圖書(shū)推薦方式的不足。
個(gè)性化圖書(shū)推薦技術(shù)主要包括基于內(nèi)容的推薦技術(shù)、基于協(xié)同過(guò)濾的推薦技術(shù)和基于關(guān)聯(lián)規(guī)則的推薦技術(shù)等[2]。
1基于內(nèi)容的推薦技術(shù)
基于內(nèi)容的推薦技術(shù)(Content-based recommendations,簡(jiǎn)稱(chēng)CB)最早被應(yīng)用于信息檢索和過(guò)濾領(lǐng)域[3],其基本原理是:為讀者推薦與其借閱歷史中書(shū)目相似的書(shū)目,其基本假設(shè)是:“若某讀者借閱過(guò)某圖書(shū),則該讀者對(duì)與該圖書(shū)相似的其他圖書(shū)感興趣?!?/p>
實(shí)現(xiàn)基于內(nèi)容的推薦技術(shù)一般包括以下三個(gè)步驟[4]:
1)特征抽取
為每本圖書(shū)抽取出若干特征,用該特征信息來(lái)描述圖書(shū)。抽取的特征包括結(jié)構(gòu)化特征和非結(jié)構(gòu)化特征。結(jié)構(gòu)化特征如書(shū)名、作者等,意義明確,可直接使用;非結(jié)構(gòu)化特征,如圖書(shū)中的具體內(nèi)容等,意義不明確,不能直接使用,需要進(jìn)行處理加工。文本類(lèi)非機(jī)構(gòu)化特征一般采用特征詞向量的描述方法。特征詞常用TF-IDF[5]統(tǒng)計(jì)方法抽取。詞頻(Term Frequency,簡(jiǎn)稱(chēng)TF)表示詞對(duì)該圖書(shū)的表征特性,如果該詞在當(dāng)前圖書(shū)中的出現(xiàn)次數(shù)多,在整個(gè)圖書(shū)館其他圖書(shū)中出現(xiàn)的次數(shù)少,則認(rèn)為該詞對(duì)于當(dāng)前圖書(shū)的表征較好,適合作為當(dāng)前圖書(shū)的類(lèi)別特征;逆向文件頻率(Inverse Document Frequency,簡(jiǎn)稱(chēng)IDF)即在圖書(shū)館所有圖書(shū)集中出現(xiàn)的逆頻,用來(lái)表征詞語(yǔ)在整個(gè)語(yǔ)料庫(kù)的重要性,該詞在館藏圖書(shū)中出現(xiàn)的次數(shù)越少,則該詞在圖書(shū)中的區(qū)分率越高,其重要性也越高。
描述圖書(shū),可以利用抽取出的特征為每本圖書(shū)構(gòu)建向量空間模型(Vector Space Model,簡(jiǎn)稱(chēng) VSM)。
2)特征學(xué)習(xí)
利用讀者過(guò)去喜歡(或不喜歡)的圖書(shū)的特征數(shù)據(jù)學(xué)習(xí)讀者對(duì)圖書(shū)的喜好特征。
3)推薦生成
比較目標(biāo)讀者喜好特征與候選圖書(shū)特征,為目標(biāo)讀者推薦最相似的圖書(shū)。
利用余弦相似度計(jì)算目標(biāo)讀者喜好特征與候選圖書(shū)的相似性,目標(biāo)讀者[u]喜好構(gòu)成[U]向量,候選圖書(shū)[b]向量為[B],則二者的余弦相似度[sim(u,b)]計(jì)算方法如公式(1)所示,夾角越小,相似度則越高。
[sim(u,b)=cos(U,B)=U×BU*B] (1)
基于內(nèi)容推薦技術(shù)只需考慮目標(biāo)讀者喜好,而不用考慮其他用戶喜好,數(shù)據(jù)源獨(dú)立。針對(duì)新書(shū),也可以很好地進(jìn)行有針對(duì)性的推薦;推薦結(jié)果直觀,易于解釋。不能挖掘讀者潛在的喜好點(diǎn),只是推薦與原有喜好相似的圖書(shū),缺乏創(chuàng)新。對(duì)于新讀者而言,因缺乏其借閱數(shù)據(jù)將無(wú)法向其進(jìn)行圖書(shū)推薦。
2基于協(xié)同過(guò)濾的推薦技術(shù)
1992年Goldberg等人為解決資訊過(guò)載的問(wèn)題,在研究型郵件推薦系統(tǒng)Tapestry中提出了協(xié)同過(guò)濾(Collaborative Filtering,簡(jiǎn)稱(chēng)CF)[6],基本思想是利用“人群的智慧”對(duì)信息進(jìn)行過(guò)濾,其基本假設(shè)是:具有相同或相似興趣喜好的讀者的圖書(shū)需求也是相似的[7]。
實(shí)現(xiàn)協(xié)同過(guò)濾技術(shù)通常需要以下3個(gè)步驟[8]:
1)收集讀者偏好
收集顯性讀者反饋和隱形讀者反饋。所謂顯性讀者反饋,是指能夠明確反饋?zhàn)x者喜好的信息,但需要讀者付出額外的代價(jià),例如讀者對(duì)圖書(shū)的評(píng)分、評(píng)論等。所謂隱性的讀者反饋,是指通過(guò)對(duì)讀者行為進(jìn)行分析和處理獲得讀者喜好,不需要讀者付出額外的代價(jià),是讀者在使用網(wǎng)站時(shí)產(chǎn)生的數(shù)據(jù),例如讀者瀏覽了某本書(shū)、借閱了某本書(shū)等。與顯性讀者反饋相比隱形讀者反饋精確度較低。
將收集的讀者偏好進(jìn)行數(shù)據(jù)處理,轉(zhuǎn)化成讀者偏好的二維矩陣。給定一個(gè)讀者列[U={u1,u2…un|n≥1}]和一個(gè)書(shū)目列表[B={b1,b2…bm|m≥1}],則偏好矩陣中的任意元素[puxby(ux∈U,by∈B)]表示讀者[ux]對(duì)圖書(shū)[by]的偏好程度。
2)找到相似的讀者或圖書(shū)
利用讀者偏好的二維矩陣將所有讀者對(duì)一本圖書(shū)的喜好作為一個(gè)向量,計(jì)算圖書(shū)與圖書(shū)之間的相似度,找到相似的圖書(shū)。將一個(gè)讀者對(duì)所有圖書(shū)的喜好作為一個(gè)向量,計(jì)算讀者與讀者之間的相似度,找到相似的讀者。
歐氏距離(euclidean metric)、皮爾森相關(guān)系數(shù)(Pearson correlation coefficient)等是常用的相似度計(jì)算方法。
3)計(jì)算推薦
目前,推薦算法分為基于項(xiàng)目的協(xié)同過(guò)濾算法和基于用戶的協(xié)同過(guò)濾算法兩種。
基于用戶的協(xié)同過(guò)濾算法,通過(guò)不同讀者對(duì)圖書(shū)的喜好來(lái)評(píng)測(cè)讀者之間的相似性,基于讀者之間的相似性做出推薦。將興趣偏好相同的讀者構(gòu)成鄰居集,將相似鄰居喜歡的圖書(shū)推薦給讀者。根據(jù)讀者A的喜好記錄,計(jì)算A與其他讀者喜好的相似度,找到興趣偏好相同的讀者B,將B的喜好不同于A的喜好推薦給A。
基于項(xiàng)目的協(xié)同過(guò)濾算法通過(guò)讀者對(duì)不同圖書(shū)的喜好來(lái)評(píng)測(cè)圖書(shū)之間的相似性,基于圖書(shū)之間的相似性做出推薦。算法認(rèn)為大部分讀者都會(huì)偏愛(ài)與自己之前喜歡過(guò)的圖書(shū)類(lèi)似的圖書(shū)。
協(xié)同過(guò)濾技術(shù)可以有效地利用其他讀者的數(shù)據(jù),挖掘目標(biāo)讀者的潛在興趣,但卻存在數(shù)據(jù)稀疏問(wèn)題。在實(shí)際系統(tǒng)中,因讀者對(duì)圖書(shū)的評(píng)價(jià)信息較少,讀者偏好的二維矩陣存在著大量的空值,在計(jì)算相似讀者、相似圖書(shū)時(shí)會(huì)產(chǎn)生偏差。針對(duì)新讀者、新圖書(shū),因首次出現(xiàn)時(shí)無(wú)相關(guān)信息,系統(tǒng)將無(wú)法進(jìn)行推薦。
3基于關(guān)聯(lián)規(guī)則的推薦技術(shù)
關(guān)聯(lián)規(guī)則是根據(jù)所有讀者瀏覽或是借閱的記錄來(lái)生成滿足一定條件的規(guī)則,通過(guò)規(guī)則向目標(biāo)讀者推薦圖書(shū)。啤酒與尿不濕[9]看似無(wú)關(guān),卻緊密相連,在圖書(shū)館中,一定也有如同啤酒與尿不濕一樣,令人感興趣的組合存在。
定義:[I={i1,i2…io}]是由[o]個(gè)所有項(xiàng)組成的集合,由[I]中各異的元素構(gòu)成的集合稱(chēng)之為項(xiàng)集,[K]個(gè)項(xiàng)組成的集合稱(chēng)之為[K-]項(xiàng)集。
定義:[D={b1,b2…bn}]是由[n]個(gè)項(xiàng)集組成的集合;其中[bk(bk∈D,1≤k≤n)]由若干個(gè)[ il(il∈I,1≤l≤o)]組成。
[bk]發(fā)生的次數(shù)稱(chēng)之為[bk]支持度計(jì)數(shù),記為[Support_count(bk)];[bk]在[D]中的個(gè)數(shù)與總個(gè)數(shù)[n]的比稱(chēng)之為[bk]支持度,記為[Support(bk)],如公式(2)。
[Support(bk)=Support_count(bk)n] (2)
當(dāng)[Support(dk)≥minSupport]時(shí),稱(chēng)[bk]為頻繁項(xiàng)集,其中[minSupport]表示最小支持度。
關(guān)聯(lián)規(guī)則是形如[X?Y]的表達(dá)式,其中[X]是前件,[Y]是后件,且[X]和[Y]均為頻繁項(xiàng)集。[D]中同時(shí)包含[X]和[Y]的個(gè)數(shù)[Support_count(X?Y)]與總個(gè)數(shù)[n]的比為[X?Y]的支持度,記作[Support(X?Y)],如公式(3)。
[Support(X?Y)=Support_count(X?Y)n] (3)
[Y]在包含[X]的事務(wù)中出現(xiàn)的頻率為[X?Y]的置信度,記作[Confidence(X?Y)],如公式(4)。
[Confidence(X?Y)=P(Y|X)=Support_count(X?Y)Support_count(X)] (4)
關(guān)聯(lián)規(guī)則挖掘的目的是發(fā)現(xiàn)所有滿足最小支持度[(minSupport)]和最小置信度[(minConfidence)]的規(guī)則。
設(shè)定最小支持度為0.4,最小置信度為0.6,則有:
[Support]({《政府論》、《法律英語(yǔ)》}[?]{《法理學(xué)》})=2/5=0.4;
[Confident]({《政府論》、《法律英語(yǔ)》}[?]{《法理學(xué)》})=2/3=0.67。
則有規(guī)則{《政府論》、《法律英語(yǔ)》}[?]{《法理學(xué)》}。
基于關(guān)聯(lián)規(guī)則的推薦技術(shù)對(duì)數(shù)據(jù)源要求比較簡(jiǎn)單,讀者借閱記錄即可,能發(fā)現(xiàn)讀者潛在的喜好,挖掘不同類(lèi)別的圖書(shū)。關(guān)聯(lián)規(guī)則挖掘隨置信度增加,挖掘的規(guī)則數(shù)量減少,挖掘質(zhì)量提高。規(guī)則挖掘存在置信度越低、規(guī)則挖掘時(shí)間越長(zhǎng)、系統(tǒng)消耗越大和挖掘的規(guī)則不能動(dòng)態(tài)更新的問(wèn)題。
4高校圖書(shū)館圖書(shū)推薦現(xiàn)狀
目前,已有推薦技術(shù)為我國(guó)部分高校的圖書(shū)館提供圖書(shū)推薦服務(wù)。清華大學(xué)圖書(shū)館設(shè)置有“相似館藏”欄目為讀者進(jìn)行圖書(shū)推薦;北京大學(xué)圖書(shū)館、中國(guó)人民大學(xué)圖書(shū)館提供了“該作者其他作品”、“本主題的其他作品”、“書(shū)架上臨近的館藏”等圖書(shū)推薦模塊;南開(kāi)大學(xué)圖書(shū)館、中國(guó)政法大學(xué)圖書(shū)館也提供了“您可能感興趣去的圖書(shū)”、“圖書(shū)借閱關(guān)系圖”、“同名作者的其他著作”等類(lèi)似服務(wù)。
雖然已有推薦技術(shù)應(yīng)用于高校圖書(shū)館,但是因高校圖書(shū)館讀者群層次清晰,知識(shí)專(zhuān)業(yè)化明顯,館藏圖書(shū)也可明顯的分為專(zhuān)業(yè)圖書(shū)和非專(zhuān)業(yè)圖書(shū),所以針對(duì)高校圖書(shū)館圖書(shū)推薦的研究仍是當(dāng)下的研究熱點(diǎn)。
陳永光[10]使用混合推薦策略,針對(duì)新讀者調(diào)用基于內(nèi)容的推薦算法,將《中圖法》與讀者專(zhuān)業(yè)信息相結(jié)合,確定讀者喜好,當(dāng)讀者添加了借閱記錄之后,則調(diào)用基于協(xié)同過(guò)濾的推薦算法,解決了新讀者無(wú)借閱數(shù)據(jù)無(wú)法進(jìn)行推薦的問(wèn)題。張紅燕[11]挖掘讀者屬性如:學(xué)院、年級(jí)、專(zhuān)業(yè)等與圖書(shū)類(lèi)別之間的關(guān)聯(lián)規(guī)則,將新書(shū)有薦給可能會(huì)喜好的讀者,解決了之前新書(shū)不能有針對(duì)性進(jìn)行推薦的問(wèn)題。劉顯顯[12]利用《中圖法》索引計(jì)算圖書(shū)之間的相似度,結(jié)合聚類(lèi)算法對(duì)讀者進(jìn)行有效的群分類(lèi),針對(duì)于具有不同興趣偏好、閱讀習(xí)慣的讀者群的關(guān)聯(lián)規(guī)則分析。張瑤[13]提出了利用部分不同學(xué)院的借閱記錄代替全部借閱數(shù)據(jù),為用戶推薦圖書(shū)的思想,在減少實(shí)驗(yàn)數(shù)據(jù)、降低實(shí)驗(yàn)復(fù)雜度的同時(shí)提高實(shí)驗(yàn)效果。
昆明理工大學(xué)[14]增設(shè)閾值,當(dāng)讀者的相似度大于閾值,則認(rèn)為讀者相似,為鄰居用戶,構(gòu)建鄰居集,并通過(guò)修改閾值,控制鄰居集的大小;同時(shí)針對(duì)目標(biāo)讀者的所有推薦圖書(shū)進(jìn)行權(quán)重計(jì)算,按權(quán)重由大到小的排序進(jìn)行推薦。江蘇金智教育信息技術(shù)有限公司[15]在協(xié)同過(guò)濾技術(shù)的基礎(chǔ)上,修改鄰居集的獲取方式:選取與目標(biāo)讀者專(zhuān)業(yè)相同,入學(xué)年份相同或早于一年,且學(xué)習(xí)成績(jī)平均分不超過(guò)閾值的學(xué)生作為第一相鄰學(xué)生集;選取與目標(biāo)讀者當(dāng)前學(xué)期選修相同非專(zhuān)業(yè)選修課程或最近借閱相同圖書(shū)的學(xué)生作為第二相鄰學(xué)生集,合并第一、第二相鄰學(xué)生集,構(gòu)成最終鄰居集。
5結(jié)論
本文介紹了三種高校圖書(shū)館廣泛采用的圖書(shū)推薦技術(shù),分別是:基于內(nèi)容的推薦技術(shù)、基于協(xié)同過(guò)濾的推薦技術(shù)和基于關(guān)聯(lián)規(guī)則的推薦技術(shù),詳細(xì)說(shuō)明了此三項(xiàng)技術(shù)的基本原理,并進(jìn)行了優(yōu)劣勢(shì)分析。雖然推薦技術(shù)不斷優(yōu)化更新,但仍存在不足之處,利用高校圖書(shū)館海量數(shù)據(jù),有針對(duì)性的向讀者推薦可能感興趣的圖書(shū),依舊是圖書(shū)推薦的研究熱點(diǎn)。
參考文獻(xiàn):
[1] 丁雪. 基于數(shù)據(jù)挖掘的圖書(shū)智能推薦系統(tǒng)研究[J]. 情報(bào)理論與實(shí)踐, 2010,5(5):107-110.
[2] 劉書(shū)芬. 近十年高校圖書(shū)館圖書(shū)推薦研究綜述[J]. 韶關(guān)學(xué)院學(xué)報(bào), 2013,(7):201-205.
[3] Mobasher B,Cooley R,Srivastava J.Automatic personalization based on web usage mining[J].Communications of the ACM,2000,43(8):142-151.
[4] http://www.cnblogs.com/breezedeus/archive/2012/04/10/2440488.html
[5] Salton G.Automatic text processing: The transformation, analysis, and retrieval of[J].Reading: Addison-Wesley,1989.
[6] Goldberg D, Nichols D, Oki B M, et al. Using Collaborative Filtering to Weave an Information Tapestry.[C]// Communications of the ACM. 1992:61-70.
[7] 劉青文. 基于協(xié)同過(guò)濾的推薦算法研究[D]. 中國(guó)科學(xué)技術(shù)大學(xué), 2013.
[8] http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy2/index.html
[9] http://www.baike.com/wiki/%E5%85%B3%E8%81%94%E8%A7%84%E5%88%99
[10] 陳永光. 基于OPAC的高校圖書(shū)館個(gè)性化圖書(shū)推薦算法研究[D]. 南京理工大學(xué), 2013.
[11] 張紅燕. 高校圖書(shū)館新書(shū)推薦系統(tǒng)的研究與實(shí)現(xiàn)[D]. 浙江工業(yè)大學(xué), 2012.
[12] 劉顯顯. 基于數(shù)據(jù)挖掘的高校圖書(shū)館個(gè)性化信息推薦方法研究[D]. 遼寧大學(xué), 2013.
[13] 張瑤. 面向高校圖書(shū)館的推薦系統(tǒng)研究與實(shí)現(xiàn)[D]. 華僑大學(xué), 2013.
[14] 昆明理工大學(xué).一種根據(jù)圖書(shū)館用戶習(xí)慣的實(shí)時(shí)圖書(shū)推薦方法:中國(guó), CN201510366734.6 [P]. 2015-10-21.
[15] 江蘇金智教育信息技術(shù)有限公司.一種校園圖書(shū)的個(gè)性化推薦方法:中國(guó), CN201410212505.4[P].2014-05-19