王月娥
(廣東嶺南職業(yè)技術(shù)學(xué)院,廣東廣州 510663)
高校是學(xué)習(xí)知識(shí)的主要場(chǎng)所,學(xué)生需要和書籍打交道,但是目前很多學(xué)生針對(duì)書籍存在“不會(huì)學(xué),也不會(huì)找”的問題。在書籍推薦方面,主要是任課教師推薦一些和課程相關(guān)的書籍,或者是圖書館舉辦的新書推介會(huì),但這很難激發(fā)學(xué)生閱讀書籍的興趣,并且很難找到自己所需的書籍。這表明,學(xué)生和圖書館之間無法順暢聯(lián)系,這時(shí)就需要圖書推薦系統(tǒng)發(fā)揮出其作用,使得圖書館資源得到充分利用。高校圖書館的推薦系統(tǒng)定位是其主要推薦圖書,不限定圖書類型,可以是印刷版,也可是電子版;圖書來源主要是高校圖書館; 推薦系統(tǒng)中的讀者主要是在校學(xué)生以及教職工。推薦系統(tǒng)將圖書管理系統(tǒng)作為依托,許多基礎(chǔ)數(shù)據(jù)源自目前的系統(tǒng),設(shè)計(jì)和實(shí)現(xiàn)時(shí)會(huì)存在一定差異。該系統(tǒng)是新書組織和通報(bào)系統(tǒng),能夠自行推薦圖書,不只是人工發(fā)布圖書信息,人工可進(jìn)行推薦,但主要是系統(tǒng)根據(jù)有關(guān)算法來獲取有關(guān)內(nèi)容[1]。
分析圖書館以及讀者的特點(diǎn)可知,推薦系統(tǒng)的流程從獲取興趣、標(biāo)記開始,當(dāng)達(dá)到觸發(fā)條件時(shí),其將被觸發(fā),在流程中沒有對(duì)反饋問題進(jìn)行考慮,從而很難滿意推薦結(jié)果,需要解決推薦問題,重新設(shè)定和優(yōu)化推薦內(nèi)容。推薦時(shí)主要是推薦圖書,推薦者結(jié)合用戶需求向用戶進(jìn)行系統(tǒng)的推薦,其流程由個(gè)性化推薦、直接推薦、圖書處理等部分組成。
最近幾年個(gè)性化推薦是研究熱點(diǎn),個(gè)性化推薦主要是收集和分析用戶興趣,基于此構(gòu)建興趣模型,將獲得的相關(guān)數(shù)據(jù)存在興趣庫中,在之后使用中不斷修正興趣,使興趣匹配圖書標(biāo)記,最后進(jìn)行推薦。為實(shí)現(xiàn)推薦的個(gè)性化,首先應(yīng)收集用戶興趣,主要有以下幾種途徑:(1)用戶自己確定,用戶在注冊(cè)賬號(hào)時(shí)可直接確定感興趣內(nèi)容,如果興趣發(fā)生變化將難以更改,因此該方式適合應(yīng)用在系統(tǒng)冷啟動(dòng)問題解決中。(2)系統(tǒng)自動(dòng)獲取,其根據(jù)借閱記錄和用戶瀏覽等途徑收集和掌握用戶興趣,在系統(tǒng)應(yīng)用過程中不斷進(jìn)行優(yōu)化,這是當(dāng)前研究較多的內(nèi)容[2]。(3)他人推薦,該途徑主要對(duì)和用戶在一個(gè)社區(qū)、圈子的興趣進(jìn)行采集,通過共性興趣來推薦。此外,可借鑒微博標(biāo)簽這一概念,在讀者閱讀書籍后能夠在系統(tǒng)中形成相應(yīng)的標(biāo)記,即為借閱標(biāo)簽,這有利于推薦書籍工作開展。(4)專業(yè)與學(xué)科特性,這是高校獨(dú)有的,指的是結(jié)合學(xué)生專業(yè)進(jìn)行簡(jiǎn)單、直接的推薦。(5)混合推薦,這是推薦系統(tǒng)中常用方法,指的是通過用戶自己確定或者是學(xué)科確定其興趣,并通過系統(tǒng)獲取和他人推薦等形式對(duì)讀者興趣加以修正,利用權(quán)重系數(shù)方式來解決,如果興趣出現(xiàn)了變化,可對(duì)權(quán)重系數(shù)進(jìn)行改變。
該類型的推薦是當(dāng)前應(yīng)用范圍比較廣的形式,也是圖書館常規(guī)工作,其中包括的內(nèi)容主要有新書通報(bào)、教師推薦、借閱統(tǒng)計(jì)推薦以及專業(yè)書籍、同類書籍的推薦,這類推薦方式和個(gè)性無關(guān)。
在處理圖書的過程中,需要加工目前存在的數(shù)據(jù),這可將圖書中與興趣相關(guān)的內(nèi)容增加,保證更好地開展推薦服務(wù)??赏ㄟ^社區(qū)、圈子、選擇興趣等途徑來落實(shí)這一工作,可在一定程度上解決冷啟動(dòng)問題,然而該過程中也會(huì)伴隨著興趣變更與更新問題,只是參考借閱情況以及歷史來實(shí)現(xiàn)較為粗糙。對(duì)這些內(nèi)容加以分析,科學(xué)、合理的設(shè)置權(quán)重系數(shù),是當(dāng)前比較常用的一種解決方法。標(biāo)簽主要是關(guān)聯(lián)圖書以及興趣標(biāo)識(shí),并明確標(biāo)簽的重要性以及具體位置。處理圖書數(shù)據(jù)時(shí),需要注重?cái)?shù)據(jù)的統(tǒng)計(jì),比如,在瀏覽某本書后,可以顯示出借閱這本書同類型書籍的前10 名,這就是推薦的一種形式。
推薦發(fā)起者即為用戶,同時(shí)其也是推薦受益者,高校圖書館中學(xué)生和教師是圖書推薦者以及受益者。用戶在推薦系統(tǒng)中承擔(dān)著不同的角色,也承擔(dān)不同任務(wù)。用戶興趣可以用大家認(rèn)可方式來表示,在處理用戶興趣和圖書處理工作中應(yīng)較為努力。
2.5.1 分類瀏覽與推薦
這是一種較為常見的推薦方式,受眾認(rèn)可度較高,并且具有實(shí)際意義。但是該方式還存在不足之處,特別是在確定類型方面,通常圖書館工作人員會(huì)結(jié)合圖書分類號(hào)落實(shí)分類推薦工作,讀者根據(jù)分類對(duì)推薦是否合格進(jìn)行判斷,這種推薦方式增加了系統(tǒng)處理難度。而高校圖書館的圖書推薦系統(tǒng)能夠簡(jiǎn)化這些問題??梢詧D書分類法的類為主(視為1)、專業(yè)(視為2)以及學(xué)生喜歡的方式(視為3)為輔,與應(yīng)用場(chǎng)景相結(jié)合,確定類。常規(guī)推薦下類的重要程度是1、2、3,個(gè)性化推薦場(chǎng)合,類的重要程度為3、2、1,專業(yè)推薦即為2、1、3 或2、3、1[3]。
2.5.2 以內(nèi)容為基礎(chǔ)的推薦
目前主要推薦趨勢(shì)為基于內(nèi)容的推薦,但是該方式面臨著如何揭示以及標(biāo)記內(nèi)容的問題,具體來說就是怎樣標(biāo)記圖書內(nèi)容以及用戶需要的內(nèi)容,怎樣進(jìn)行兩者統(tǒng)一以及簡(jiǎn)單匹配。目前內(nèi)容描述常見的形式是關(guān)鍵詞,使用全文檢索、分詞等技術(shù)進(jìn)行用戶興趣分詞,依此提取圖書內(nèi)容信息。盡管技術(shù)還不夠成熟,但依舊可以使用。對(duì)于關(guān)鍵詞是否和標(biāo)簽等同的問題,主要是看設(shè)置標(biāo)簽人員的意愿,設(shè)置較為規(guī)范時(shí),將與關(guān)鍵詞等同,反之就會(huì)較為麻煩,存有匹配問題,主要受標(biāo)簽設(shè)置權(quán)限影響。在系統(tǒng)中,如果圖書館工作人員或者是系統(tǒng)設(shè)置標(biāo)簽,則很難保證其規(guī)范性;如果是用戶自行提出,就會(huì)存在較多問題。這時(shí)可選擇系統(tǒng)設(shè)置標(biāo)簽,用戶在其中選擇。
2.5.3 推薦數(shù)量
推薦暢銷榜上排名前N 的圖書,推薦和用戶興趣相關(guān)的N 本圖書,N 是一個(gè)具體值,并且是由系統(tǒng)性能、推薦方式、推薦位置和網(wǎng)站承載來決定。
通過上述分析可知,該系統(tǒng)可將共同推薦、個(gè)性化推薦等推薦任務(wù)完成。這要求系統(tǒng)具備分析整理數(shù)據(jù)以及可視化展示等功能,保證合理獲取用戶興趣,并做好相關(guān)模型構(gòu)建工作。系統(tǒng)也需要具備非功能性需求,如性能擴(kuò)展性、可用性、可靠性以及可支持性[4]。
這一部分的主要功能模塊有處理數(shù)據(jù)、 用戶管理以及用戶借閱行為管理等。該部分應(yīng)處理數(shù)據(jù)有圖書數(shù)據(jù)和用戶數(shù)據(jù),做好整個(gè)系統(tǒng)數(shù)據(jù)準(zhǔn)備以及預(yù)處理工作。(1)數(shù)據(jù)處理具有導(dǎo)入數(shù)據(jù)、錄入數(shù)據(jù)、維護(hù)數(shù)據(jù)這3 個(gè)環(huán)節(jié)。導(dǎo)入數(shù)據(jù)指的是直接導(dǎo)入數(shù)據(jù),按照?qǐng)D書借閱排名,做好相應(yīng)數(shù)據(jù)統(tǒng)計(jì)工作,此類數(shù)據(jù)可以直接使用; 錄入數(shù)據(jù)指的是直接添加數(shù)據(jù); 而維護(hù)數(shù)據(jù)是對(duì)已有的數(shù)據(jù)進(jìn)行更新和修改。(2)用戶管理是指管理圖書館的全部用戶,例如,圖書館員工、師生讀者等。其是由原始數(shù)據(jù)中加入新數(shù)據(jù)構(gòu)成的,新數(shù)據(jù)指的是用戶依據(jù)個(gè)人興趣或是所在圈子來選擇的。(3)用戶借閱行為管理主要是管理導(dǎo)入、分析、整理等用戶借閱行為的工作,為做好個(gè)性化推薦工作提供數(shù)據(jù)支持。其中相關(guān)功能和導(dǎo)入數(shù)據(jù)功能存在重疊部分,因注重系統(tǒng)特性以及功能完整,將其放在一起。
該部分與推薦管理相關(guān),主要包括以下幾方面內(nèi)容:(1)用戶模型管理,其是指構(gòu)建、修正、完善用戶推薦模型,主要是構(gòu)建公式、選擇和修正參數(shù)、確定和修正閾值,這可采用系統(tǒng)自動(dòng)、人工等方式來確定。(2)個(gè)性化推薦,主要是按照借閱記錄進(jìn)行推薦、個(gè)性化書友推薦、反推薦給書友、綜合推薦方式、推薦擴(kuò)展,使推薦工作全面落實(shí)。(3)專門推薦其主要是指新書通報(bào)、專業(yè)推薦、借閱瀏覽、瀏覽推薦與其他推薦等。專業(yè)推薦主要是指推薦專業(yè)相關(guān)書籍,這也是圖書館一直開展的工作,然而沒有良好的效果。節(jié)約推薦指的是在讀者借閱時(shí)開展推薦工作,應(yīng)具有精準(zhǔn)性,可具體到書;新書通報(bào)在圖書館中是常規(guī)工作;推薦瀏覽指的是用戶在瀏覽時(shí)推薦,幫助用戶找到所需書籍,進(jìn)行大類推薦或粗線條推薦;其他推薦則為擴(kuò)充準(zhǔn)備。(4)興趣管理。收集、整理、加工、分析符合用戶興趣的數(shù)據(jù),可構(gòu)建關(guān)于用戶興趣的公式以及模型。該模型可以進(jìn)行數(shù)據(jù)修正,在數(shù)據(jù)增加的情況下不斷完善。不僅如此,每年還可結(jié)合學(xué)生的專業(yè)以及年級(jí)來劃分其興趣,做好微調(diào)和修正工作。通過處理日志的方式來獲取興趣,以此了解用戶行為,處理日志即為興趣管理主要內(nèi)容。實(shí)際管理中應(yīng)收集用戶興趣,尤其是新用戶注冊(cè)時(shí),為其提供個(gè)人興趣選擇的服務(wù)。(5)圖書特征管理。為收集、整理與規(guī)范圖書特征,應(yīng)使特殊特征描述與用戶興趣相匹配,主要是運(yùn)用一個(gè)詞或是一個(gè)標(biāo)簽來描述?,F(xiàn)有圖書特征主要是外在特征,不符合推薦系統(tǒng)應(yīng)用要求,這就需要添加圖書特征。圖書特征管理有著較大的工作量,并且和推薦質(zhì)量相關(guān),應(yīng)該提升重視程度。
該部分能夠凸顯出管理推薦結(jié)果,主要內(nèi)容是渠道管理以及展示管理。渠道管理指的是發(fā)布推薦結(jié)果的渠道,如微信、短信、網(wǎng)站及平臺(tái)等,通常是管理所提供的渠道、推薦內(nèi)容應(yīng)用渠道等。展示管理主要內(nèi)容有展示內(nèi)容、位置以及數(shù)量,限定推薦結(jié)果內(nèi)容、位置和數(shù)量。(1)數(shù)據(jù)庫管理:這一模塊指的是對(duì)系統(tǒng)中數(shù)據(jù)庫進(jìn)行全面管理,注重?cái)?shù)據(jù)的修改、添加和刪除行為,同時(shí)也需要做好構(gòu)建表格的工作。(2)圈子管理:該部分的建立是為了獲取用戶興趣,屬于常規(guī)性論壇管理。(3)點(diǎn)評(píng)管理:通過點(diǎn)評(píng)管理工作,可開展掌握用戶興趣的工作,使用戶能夠積極參與到點(diǎn)評(píng)中,另外點(diǎn)評(píng)管理還能夠支持獎(jiǎng)勵(lì)機(jī)制的創(chuàng)設(shè)。(4)系統(tǒng)管理:該模塊能夠?qū)⑾到y(tǒng)通用性功能發(fā)揮出來,主要是數(shù)據(jù)初始化、修改用戶密碼、設(shè)置打印機(jī)、拆訊統(tǒng)計(jì)功能等。(5)詞表管理:建立詞表主要是為了關(guān)鍵詞有更加規(guī)范的用詞,這是一種后臺(tái)操作項(xiàng),能夠使標(biāo)簽以及圖書特征標(biāo)記更加規(guī)范。為獲得理想效果需要構(gòu)建3 個(gè)詞表:①構(gòu)建主題詞表,保證興趣和圖書的描述用詞更加規(guī)范; ②構(gòu)建同義詞表,主要內(nèi)容是同義詞和口語化、意思相近的詞;③構(gòu)建標(biāo)簽表,該表逐漸完善,根據(jù)院校和學(xué)生情況,允許自定義標(biāo)簽,系統(tǒng)進(jìn)行簡(jiǎn)單限定,例如,字?jǐn)?shù)在4 個(gè)之內(nèi),利用同義詞表來比較和匹配,構(gòu)建相關(guān)聯(lián)系。該工作是以假定為基礎(chǔ),圖書特征標(biāo)記需由專業(yè)人員完成。
(6)標(biāo)簽管理:其能夠規(guī)范和管理標(biāo)簽出現(xiàn)位置、方式和基本式樣,標(biāo)簽入表操作在詞表管理中進(jìn)行。
豆瓣和百度文庫等會(huì)在頁面上設(shè)置用戶評(píng)分區(qū)域,主要級(jí)別是很差、較差、還行、推薦以及力薦。需要用戶的評(píng)價(jià),推薦系統(tǒng)通過這樣的形式掌握用戶特征,做好相關(guān)推薦工作。通常用戶處于利益驅(qū)動(dòng)者的位置,采取的行動(dòng)一般會(huì)和自身利益掛鉤,例如在百度文庫中,作者通過文章評(píng)分可獲取相關(guān)財(cái)富值,其可利用財(cái)富值在網(wǎng)站中下載資料。但是高校圖書館是非營利機(jī)構(gòu),不具備利益驅(qū)動(dòng)機(jī)制,這樣讀者會(huì)缺少評(píng)價(jià)圖書的動(dòng)力,這會(huì)使評(píng)價(jià)信息較少,圖書館很難收集用戶信息。如果可以提升系統(tǒng)評(píng)價(jià)的自動(dòng)化程度,則可以對(duì)圖書館存在的一般性問題進(jìn)行有效解決。
在電商平臺(tái)中經(jīng)常會(huì)通過評(píng)價(jià)返現(xiàn)、 評(píng)價(jià)獲積分等方法鼓勵(lì)用戶對(duì)購買的產(chǎn)品以及服務(wù)進(jìn)行評(píng)價(jià),電商沒有物質(zhì)獎(jiǎng)勵(lì)時(shí),銷售產(chǎn)品以及服務(wù)所獲評(píng)價(jià)不足整體銷量1%,沒有較高的用戶評(píng)價(jià)主動(dòng)性將會(huì)使數(shù)據(jù)出現(xiàn)稀疏性問題。另外,通常借閱暢銷書用戶較多,借閱非暢銷書用戶少,使得借閱數(shù)據(jù)出現(xiàn)交錯(cuò)情況,這會(huì)使協(xié)同過濾系統(tǒng)很難篩選出相似用戶,無法保證待推薦項(xiàng)目評(píng)分計(jì)算的準(zhǔn)確性。通常系統(tǒng)對(duì)數(shù)據(jù)稀疏性問題進(jìn)行處理時(shí),都會(huì)通過0 或者是用戶平均分填充方法對(duì)缺乏評(píng)分項(xiàng)目進(jìn)行評(píng)價(jià),描述用戶興趣偏好失真[5]。除此之外,如果根據(jù)圖書評(píng)分矩陣尋找相似用戶,運(yùn)算復(fù)雜程度將會(huì)因此加大。
在個(gè)性化推薦系統(tǒng)中人工評(píng)分系統(tǒng)屬于羈絆。人們會(huì)使用省力的方式對(duì)自身行為進(jìn)行指導(dǎo),除非非常熱愛某本書,否則很少去評(píng)價(jià)借閱的圖書。通常電商網(wǎng)站會(huì)以返利形式對(duì)用戶的評(píng)價(jià)行為加以鼓勵(lì),高校圖書館是公益性組織,無法通過付費(fèi)模式實(shí)現(xiàn)評(píng)價(jià),因此應(yīng)結(jié)合圖書館特點(diǎn),設(shè)計(jì)與圖書館相符合的自動(dòng)化評(píng)分系統(tǒng),結(jié)合借還書記錄對(duì)用戶借閱圖書進(jìn)行評(píng)分。通常高校圖書館借閱日志主要有3項(xiàng)操作,分別是借閱、預(yù)約以及續(xù)借。
5.1.1 借閱
用戶受客觀因素影響或是對(duì)某本書感興趣才會(huì)產(chǎn)生借閱圖書的需求,可以劃分成首次借閱以及非首次借閱。首次借閱雖然可表明用戶對(duì)圖書的興趣,但無法掌握用戶有沒有閱讀圖書內(nèi)容,難以明確圖書對(duì)用戶的作用。結(jié)合上述內(nèi)容可以知道,用戶借閱某本書評(píng)分不會(huì)太高,那么首次借閱分?jǐn)?shù)可設(shè)置為1。不是第一次借閱,因?yàn)槎啻谓栝?,?huì)認(rèn)為圖書對(duì)于用戶有較大用途,這時(shí)可將分值設(shè)置為4,可拉大分差,凸顯借閱重要性。
5.1.2 預(yù)約
高校圖書館可設(shè)置圖書借閱預(yù)約服務(wù),讀者申請(qǐng)?jiān)摲?wù),在圖書歸還后享有優(yōu)先借閱權(quán)[6]。如果非用戶閱讀圖書的意愿較為強(qiáng)烈,應(yīng)申請(qǐng)預(yù)約服務(wù),這可確定用戶了解圖書內(nèi)容和對(duì)其發(fā)展產(chǎn)生作用,那么分值要比初次借閱高,但是也應(yīng)考慮用戶沒有深入閱讀圖書的情況,存在閱讀后感覺和之前想法不同等情況,那么分值不應(yīng)高于再次借閱分?jǐn)?shù),則設(shè)置分值為2。
5.1.3 續(xù)借
通常會(huì)認(rèn)定用戶認(rèn)為圖書有用和未閱讀完這兩種情況下將會(huì)出現(xiàn)續(xù)借行為,借閱規(guī)則中包括罰款條款,借閱圖書超期需要繳納罰款,如果未及時(shí)還書,不想被罰款,將會(huì)產(chǎn)生續(xù)借行為,那么可再設(shè)置為2。
針對(duì)借閱行為交錯(cuò)性問題,需要考慮圖書館開架借閱圖書主要的特點(diǎn)是圖書有專業(yè)人士編目、分類準(zhǔn)確等,結(jié)合書目數(shù)據(jù)做出合并處理,基于對(duì)于某類圖書興趣度,尋找相似用戶。根據(jù)借閱記錄來計(jì)算用戶借閱書的分值,并結(jié)合書本信息中書的類目,對(duì)其進(jìn)行分值計(jì)算,由此尋找相似用戶。通過歸類轉(zhuǎn)化模式避免出現(xiàn)嚴(yán)重的數(shù)據(jù)稀疏問題,通過圖書組合形式確定相似用戶問題向以“類”組合確定用戶問題轉(zhuǎn)變。在本質(zhì)上,確定相似用戶即為找出對(duì)同類圖書感興趣的用戶。