林淑貞
(廣州圖書(shū)館,廣東 廣州 510623)
讀者大數(shù)據(jù)與精準(zhǔn)畫(huà)像技術(shù)是當(dāng)前圖書(shū)館學(xué)界研究的重點(diǎn)和熱點(diǎn)。其中,讀者大數(shù)據(jù)的匯聚、提煉與應(yīng)用是構(gòu)建精準(zhǔn)讀者畫(huà)像和實(shí)現(xiàn)圖書(shū)館個(gè)性化服務(wù)的關(guān)鍵所在,也成為圖書(shū)館服務(wù)領(lǐng)域關(guān)注的焦點(diǎn)[1]。隨著閱讀路徑分析、云計(jì)算、深度學(xué)習(xí)等技術(shù)在圖書(shū)館領(lǐng)域的應(yīng)用,已有一批基于讀者大數(shù)據(jù)技術(shù)的圖書(shū)館讀者與服務(wù)匹配模型及算法問(wèn)世,其中較具特色的成果有:Zne-Jung Lee[2]等研究人員設(shè)計(jì)與實(shí)現(xiàn)了一個(gè)基于讀者大數(shù)據(jù)的圖書(shū)館推薦模型,該模型通過(guò)對(duì)讀者信息進(jìn)行持續(xù)跟蹤與融合,刻畫(huà)出讀者的閱讀習(xí)慣,提高了個(gè)性化服務(wù)的讀者滿意度;Daniel Mican[3]等研究人員設(shè)計(jì)了基于讀者社會(huì)媒體大數(shù)據(jù)分析的推薦系統(tǒng),該系統(tǒng)通過(guò)讀者關(guān)系分析,對(duì)讀者需求進(jìn)行了深入發(fā)掘,提高了推薦的準(zhǔn)確度;Dharna Patel[4]等研究人員將云計(jì)算運(yùn)用于讀者大數(shù)據(jù)挖掘工作中,并據(jù)此設(shè)計(jì)了一款圖書(shū)推薦系統(tǒng),取得了較高的讀者需求匹配度;Aravind Sesagiri Raamkumar[5]等研究人員對(duì)讀者大數(shù)據(jù)與海量論文之間的需求與匹配關(guān)系進(jìn)行了分析,并開(kāi)發(fā)了對(duì)應(yīng)的科學(xué)文獻(xiàn)服務(wù)系統(tǒng),具有較高的讀者滿意度;Yifan Hu[6]等研究人員基于大數(shù)據(jù)技術(shù)開(kāi)發(fā)了讀者協(xié)同過(guò)濾推薦系統(tǒng),極大地提高了讀者薦讀服務(wù)的準(zhǔn)確度。Julien Verplanken[7]等研究人員設(shè)計(jì)了基于大數(shù)據(jù)技術(shù)的讀者動(dòng)態(tài)畫(huà)像模型,并以此為依據(jù)開(kāi)發(fā)了精度較高的推薦系統(tǒng);Raymond J.Mooney[8]等研究人員應(yīng)用自學(xué)習(xí)技術(shù),構(gòu)建了讀者閱讀成長(zhǎng)模型,并將其應(yīng)用于讀者服務(wù)系統(tǒng)中,取得了很高的用戶滿意度。盡管上述成果具備一定的理論價(jià)值與實(shí)踐意義,但從實(shí)際應(yīng)用效果來(lái)看,普遍還存在著服務(wù)推薦精度不穩(wěn)定、覆蓋度較低、系統(tǒng)資源開(kāi)銷(xiāo)較大等問(wèn)題。針對(duì)這些問(wèn)題,本研究基于讀者大數(shù)據(jù)融合技術(shù),深入和全面地描繪讀者畫(huà)像,構(gòu)建了較為完善的圖書(shū)館讀者需求與服務(wù)匹配模型LRSM(Library Reader and Service Matching)。該模型的結(jié)構(gòu)、處理流程以及關(guān)鍵算法如下文所述。
圖1 模型結(jié)構(gòu)與應(yīng)用流程
LRSM的總體特點(diǎn)是結(jié)構(gòu)較為簡(jiǎn)單(全模型僅4個(gè)主要子模塊),接口標(biāo)準(zhǔn),可適用于各類(lèi)圖書(shū)館的推薦服務(wù)運(yùn)行;其結(jié)構(gòu)特點(diǎn)是“緊內(nèi)聚,松耦合”,復(fù)雜的數(shù)據(jù)結(jié)構(gòu)被封裝在各個(gè)模塊中,用戶或第三方軟件通過(guò)其接口就可以獲取相關(guān)的推薦服務(wù),使得服務(wù)的獲取變得極為簡(jiǎn)單,而避免了過(guò)多繁復(fù)的配置和二次開(kāi)發(fā)。如圖1所示,LRSM模型主要嵌入在圖書(shū)館信息服務(wù)系統(tǒng)中,為讀者提供高匹配度的個(gè)性化服務(wù)推薦。該模型主要有4個(gè)子模塊。一是讀者畫(huà)像生成子模塊。該模塊主要從圖書(shū)館管理大數(shù)據(jù)系統(tǒng)中抽取讀者相關(guān)信息,通過(guò)融合后,形成包含讀者特征與需求信息的讀者畫(huà)像信息,并將這些信息存儲(chǔ)在讀者畫(huà)像庫(kù)中。LRSM模型通過(guò)該子模塊,對(duì)讀者的持續(xù)跟蹤,不斷豐富和細(xì)化這些畫(huà)像信息,為需求與服務(wù)匹配工作提供讀者的基礎(chǔ)數(shù)據(jù)。二是服務(wù)信息融合子模塊,該模塊主要從圖書(shū)館各職能部門(mén)的服務(wù)器中獲取服務(wù)與業(yè)務(wù)項(xiàng)目的特征信息,以及讀者對(duì)于這些項(xiàng)目的反饋信息,最終形成圖書(shū)館的服務(wù)特征空間,為服務(wù)項(xiàng)目檢索提供基礎(chǔ)數(shù)據(jù)。三是需求與服務(wù)匹配子模塊,該模塊同時(shí)接收讀者信息與服務(wù)信息作為檢索依據(jù),從讀者畫(huà)像庫(kù)與服務(wù)資源庫(kù)中選取匹配度較高的對(duì)應(yīng)項(xiàng)目,推薦給讀者。其中的需求與服務(wù)的融合匹配算法參見(jiàn)下文第3節(jié)。四是推薦接口子模塊,該模塊可以根據(jù)圖書(shū)館方或讀者的具體要求,接收讀者的需求報(bào)告,并向需求與服務(wù)匹配模塊發(fā)出推薦申請(qǐng),最終通過(guò)郵件、短信、微信等綜合方式,向讀者推薦圖書(shū)館的各項(xiàng)服務(wù)。
LRSM模型對(duì)于讀者需求與圖書(shū)館服務(wù)的信息處理與匹配流程如下:
Step1:讀者畫(huà)像生成,即LRSM模型根據(jù)讀者的注冊(cè)信息,生成其靜態(tài)畫(huà)像屬性;根據(jù)讀者的借閱歷史、服務(wù)使用記錄、留言反饋等信息,生成動(dòng)態(tài)的讀者畫(huà)像屬性,并定時(shí)或?qū)崟r(shí)地對(duì)其進(jìn)行動(dòng)態(tài)更新;最終,讀者大數(shù)據(jù)將融合生成讀者畫(huà)像信息,存儲(chǔ)在讀者畫(huà)像庫(kù)中。
Step2:服務(wù)特征挖掘,即LRSM模型根據(jù)圖書(shū)館各服務(wù)職能部門(mén)提供的服務(wù)項(xiàng)目說(shuō)明、讀者意見(jiàn)反饋等信息,融合生成或定時(shí)更新數(shù)據(jù)庫(kù)中的圖書(shū)館服務(wù)特征信息。
Step3:需求與服務(wù)預(yù)匹配,即為了提高二者的匹配速度,LRSM模型在系統(tǒng)空閑時(shí),將對(duì)兩類(lèi)數(shù)據(jù)作預(yù)匹配,一方面自動(dòng)提高近期訪問(wèn)頻率較高的服務(wù)的權(quán)重;另一方面對(duì)近期訪問(wèn)圖書(shū)館的讀者進(jìn)行畫(huà)像信息更新,對(duì)讀者的潛在需求進(jìn)行預(yù)測(cè),并預(yù)先為其生成一部分高匹配度推薦服務(wù)列表。
Step4:需求與服務(wù)匹配,即一方面,當(dāng)有讀者進(jìn)入圖書(shū)館管理信息系統(tǒng)時(shí),LRSM模型將調(diào)用其讀者畫(huà)像作為檢索依據(jù),搜索匹配度較高的服務(wù),形成推薦服務(wù)隊(duì)列;另一方面,當(dāng)有新服務(wù)上線,或舊服務(wù)更新時(shí),LRSM模型將根據(jù)其服務(wù)特征,搜索匹配度較高的讀者,形成推薦目標(biāo)讀者隊(duì)列。
Step5:推薦實(shí)施與讀者反饋,即LRSM模型根據(jù)讀者訂制或默認(rèn)模式,將圖書(shū)館服務(wù)精準(zhǔn)的推薦給目標(biāo)讀者,并收集讀者的反饋,從而進(jìn)一步細(xì)化和豐富讀者畫(huà)像信息以及服務(wù)特征信息。
本模型采用了基于讀者大數(shù)據(jù)的需求與服務(wù)融合匹配算法。該算法的基本思路來(lái)自大數(shù)據(jù)傳導(dǎo)模型,該模型為多層信息傳導(dǎo)結(jié)構(gòu),其本質(zhì)是一種信息能量傳導(dǎo)模型的改進(jìn)??偟膩?lái)說(shuō),需求與服務(wù)融合匹配算法的核心(融合匹配度)可以有如下表示:
(1)
在匹配度表達(dá)式(1)里,vi、hj是系統(tǒng)中匹配元素(讀者需求與圖書(shū)館服務(wù))的狀態(tài),而ai、bj則分別是它們的融合導(dǎo)向值,wji則是兩類(lèi)元素的匹配權(quán)重;該表達(dá)式中的具體求值計(jì)算方法如下:
(2)
其中,hio(n)=〔h1h2...hM〕T,權(quán)值wj(n)=〔w1w2...wM〕T,M是服務(wù)的個(gè)數(shù)。至此,可以通過(guò)下列公式求得融合匹配度:
(3)
(4)
為保證匹配度的收斂和最大化,應(yīng)對(duì)(4)進(jìn)行進(jìn)一步的處理。首先為精確描述讀者的需求,可以建立下列模型:
(5)
(6)
(7)
(8)
(9)
公式(8)中的v(l)(n)可以視為讀者需求的不同表達(dá),在L個(gè)需求時(shí),有:
(10)
求其總和,可以表達(dá)為:
(11)
進(jìn)一步有:
(12)
此時(shí)可得:
(13)
(14)
有:
(15)
(16)
(17)
在(17)中,k3為設(shè)定值。至此,可以求得融合匹配度,當(dāng)(1)中的匹配度較高時(shí),進(jìn)行推薦或個(gè)性化服務(wù)的效果較好。
LRSM模型在某圖書(shū)館信息服務(wù)系統(tǒng)中進(jìn)行了測(cè)試,并與當(dāng)前較為流行的讀者輔助服務(wù)模型RSSM(Reader Supported Service Model)進(jìn)行了獨(dú)立實(shí)驗(yàn)與對(duì)比。為了保證實(shí)驗(yàn)的公平公正,圖書(shū)館技術(shù)人員在兩臺(tái)服務(wù)器中分別部署了LRSM模型與RSSM模型作為后臺(tái),而兩種模型基于各自的獨(dú)立標(biāo)注讀者數(shù)據(jù)集,之后的服務(wù)推薦等信息處理任務(wù)均交由統(tǒng)一的界面完成。最終,兩個(gè)實(shí)驗(yàn)讀者組的數(shù)量分別為1 475人(LRSM)和1 461人(RSSM),人數(shù)差距符合統(tǒng)計(jì)學(xué)的差別分析要求;按照上述規(guī)范與要求,最終對(duì)兩種模型的讀者需求覆蓋度、需求匹配精確度以及系統(tǒng)資源占用率等客觀指標(biāo)進(jìn)行了為期30天的跟蹤對(duì)比實(shí)驗(yàn),并按照信息系統(tǒng)開(kāi)發(fā)規(guī)范的要求,對(duì)兩種模型進(jìn)行了讀者滿意度方面的主觀指標(biāo)調(diào)查。最終的實(shí)驗(yàn)結(jié)果如圖2所示:
圖2 兩種模型的讀者需求覆蓋度對(duì)比
如圖2所示:LRSM模型與RSSM模型在30天的實(shí)驗(yàn)過(guò)程中,均取得了良好的讀者需求覆蓋度。該指標(biāo)指代圖書(shū)館個(gè)性化服務(wù)模型在一定的實(shí)驗(yàn)周期之中,為讀者提供或者推薦的圖書(shū)館服務(wù),在讀者使用到的所有圖書(shū)館服務(wù)中所占的比例。如圖2所示,盡管二者均具備良好的讀者需求覆蓋度,但從總體上看,LRSM模型的讀者需求覆蓋能力大大超過(guò)了RSSM模型。究其原因,主要是由于LRSM模型的讀者需求挖掘效能更高,對(duì)讀者新需求的發(fā)現(xiàn)更為靈敏。此外,從圖2中也可以看出,LRSM模型的讀者需求發(fā)現(xiàn)速度較快(曲線上升速度快),并在達(dá)到覆蓋度穩(wěn)定區(qū)后,長(zhǎng)期保持較高的需求覆蓋度。
圖3 兩種模型的需求匹配精確度對(duì)比
如圖3所示:LRSM模型與RSSM模型在30天的實(shí)驗(yàn)過(guò)程中,均取得了良好的需求匹配精確度。該指標(biāo)指代圖書(shū)館個(gè)性化服務(wù)模型在一定的實(shí)驗(yàn)周期之中,兩種模型提供或推薦給讀者,并實(shí)際被采納的服務(wù),占到各自提供的服務(wù)數(shù)量的總比例。如圖3所示,盡管二者均具備良好的讀者需求匹配精確度,但從總體上看LRSM模型的需求匹配精確度超過(guò)了RSSM模型。究其原因,主要是由于LRSM模型的讀者需求挖掘更為深入,對(duì)讀者需求的刻畫(huà)更為細(xì)致。此外,從圖3中也可以看出,LRSM模型的需求精度上升速度較快,并在達(dá)到穩(wěn)定區(qū)后,較長(zhǎng)時(shí)間保持了匹配的高精確度。
實(shí)驗(yàn)完成后,將告知兩組讀者相關(guān)情況,并請(qǐng)他們?yōu)閮蓚€(gè)模型進(jìn)行評(píng)價(jià)。表1是兩種模型的讀者主觀評(píng)價(jià)情況(組內(nèi)平均得分)對(duì)比。
表1 兩種模型的讀者主觀評(píng)價(jià)對(duì)比
最后,LRSM模型與RSSM模型在30天的實(shí)驗(yàn)過(guò)程中,均取得了良好的性價(jià)比;二者的CPU占用率均未10%。在內(nèi)存占用率方面,RSSM模型的峰值內(nèi)存需求達(dá)到了150M,而LRSM的峰值內(nèi)存需求僅為110M,體現(xiàn)了良好的性價(jià)比,參照目前主流的圖書(shū)館服務(wù)器配置(8G以上),該指標(biāo)表明LRSM模型具有較高的系統(tǒng)可部署性和可擴(kuò)容性。
LRSM模型在圖書(shū)館服務(wù)上的應(yīng)用體現(xiàn)出了其良好的應(yīng)用價(jià)值,具有較高的讀者需求覆蓋度和需求匹配準(zhǔn)確度。該模型的系統(tǒng)資源占用率較低,性價(jià)比突出,能夠?yàn)樽x者提供個(gè)性化程度較高、需求滿意度較高的圖書(shū)館服務(wù)。從目前的應(yīng)用效果來(lái)看,該模型還需在以下幾方面進(jìn)一步擴(kuò)展:首先,進(jìn)一步豐富讀者畫(huà)像的內(nèi)容,從而更全面地采集讀者需求信息,深化和擴(kuò)展圖書(shū)館服務(wù)的內(nèi)容;其次,圖書(shū)館服務(wù)元數(shù)據(jù)挖潛,為需求-服務(wù)匹配提供更為精準(zhǔn)和豐富的資源;最后,進(jìn)一步優(yōu)化需求-服務(wù)匹配算法,研究服務(wù)系統(tǒng)空閑期的游走需求采集模型。