印國(guó)成,殷益蓉
(揚(yáng)州大學(xué)廣陵學(xué)院,江蘇揚(yáng)州225009)
基于聚類的讀者行為分析應(yīng)用研究*
印國(guó)成,殷益蓉
(揚(yáng)州大學(xué)廣陵學(xué)院,江蘇揚(yáng)州225009)
進(jìn)入大數(shù)據(jù)時(shí)代,圖書館將面臨轉(zhuǎn)型,文獻(xiàn)資源和讀者閱讀方式更加數(shù)字化,閱讀途徑也更加多元化。通過對(duì)圖書館的文獻(xiàn)數(shù)據(jù)和圖書館的讀者行為數(shù)據(jù)進(jìn)行聚類處理,對(duì)圖書館數(shù)據(jù)進(jìn)行抽取集成、分析和建模,建立讀者行為分析系統(tǒng),實(shí)現(xiàn)圖書館的知識(shí)發(fā)現(xiàn),從而有效地對(duì)讀者進(jìn)行相關(guān)文獻(xiàn)信息推送,提高圖書館的服務(wù)水平,為圖書館的文獻(xiàn)采訪和圖書館的保障服務(wù)模式提供決策參考。
圖書館;聚類;讀者行為;知識(shí)發(fā)現(xiàn)系統(tǒng)
人類的文明發(fā)展有賴于科技進(jìn)步。技術(shù)的發(fā)展帶來巨大的力量,改變了人們的生產(chǎn)方式和生活方式。如今,大數(shù)據(jù)(big data)作為繼云計(jì)算、物聯(lián)網(wǎng)之后信息技術(shù)行業(yè)的又一大技術(shù)革命正開啟了一場(chǎng)變革[1]?;跀?shù)據(jù)的分析,將會(huì)成為我們認(rèn)識(shí)和改造世界的另外一把利器,能夠使得我們進(jìn)一步提升生產(chǎn)效率,在互聯(lián)網(wǎng)+背景下推動(dòng)信息技術(shù)與其他技術(shù)的融合和創(chuàng)新[2]。圖書館作為記錄、儲(chǔ)存、傳播和應(yīng)用人類文明與數(shù)據(jù)的機(jī)構(gòu),在數(shù)字化浪潮下,其擁有的數(shù)據(jù)也在如其他領(lǐng)域的數(shù)據(jù)一樣呈幾何級(jí)增長(zhǎng)[3]:各種不同載體的文獻(xiàn)和數(shù)字化資源,改變了圖書館館藏格局;圖書館每天產(chǎn)生的其他各種與讀者和文獻(xiàn)資源有關(guān)聯(lián)的數(shù)據(jù),正逐步形成圖書館的數(shù)據(jù)。在圖書館服務(wù)信息化和文獻(xiàn)資源日益豐富的背景下,讀者閱讀方式也向數(shù)字化和多元化發(fā)展。傳統(tǒng)圖書館面臨數(shù)字化轉(zhuǎn)型——從內(nèi)容數(shù)字化到內(nèi)容數(shù)據(jù)化,從數(shù)據(jù)化閱讀到閱讀數(shù)據(jù)化[4]。
傳統(tǒng)圖書館的報(bào)紙、期刊和圖書屬于實(shí)體資源的文獻(xiàn)形式[5],也是圖書館資源建設(shè)的重要組成部分。但隨著網(wǎng)絡(luò)化和數(shù)字化的發(fā)展,時(shí)效性強(qiáng)的傳統(tǒng)媒體的統(tǒng)治地位逐步被新興的網(wǎng)絡(luò)媒體取代,人們獲取文獻(xiàn)資源的方式和閱讀習(xí)慣均發(fā)生了巨大的變化,他們更愿意使用電子設(shè)備終端通過搜索引擎或數(shù)據(jù)庫(kù)來獲取所需要的信息。傳統(tǒng)圖書館文獻(xiàn)資源利用的優(yōu)勢(shì)越來越不明顯,圖書館的利用率也逐年下降。分析近幾年我們圖書館每年組織的讀者調(diào)查活動(dòng),結(jié)果顯示超過80%的受訪者使用搜索引擎搜集信息來替代使用圖書館相關(guān)數(shù)據(jù)庫(kù)查閱紙質(zhì)資料。而2016年公布的《第十三次國(guó)民閱讀調(diào)查報(bào)告》也證實(shí)人們閱讀電子資源的時(shí)間遠(yuǎn)超紙質(zhì)圖書,報(bào)告指出,2015年我國(guó)成年人數(shù)字化閱讀的接觸率為64.0%,較2014年的58.1%上升了5.9個(gè)百分點(diǎn)[6]。數(shù)據(jù)表明,近年來我國(guó)成人利用移動(dòng)終端的閱讀接觸率逐年提高,2013年為41.9%,2014年為51.8%,每年都有大幅的增長(zhǎng)。由此可見,在信息快速發(fā)展、工作節(jié)奏加快的今天,人們更愿意通過電子設(shè)備閱讀獲取信息。
面對(duì)信息技術(shù)浪潮的挑戰(zhàn),圖書館有被邊緣化的威脅,唯有面對(duì)挑戰(zhàn)加強(qiáng)數(shù)字化建設(shè),才能通過技術(shù)手段證明并提升圖書館存在的價(jià)值。圖書館面臨的挑戰(zhàn)有:信息技術(shù)的飛速發(fā)展、用戶的多樣性和個(gè)性化需求、多元化的文獻(xiàn)資源來源、碎片化的閱讀時(shí)間等。而在可以預(yù)見的未來,這些趨勢(shì)并不會(huì)消褪,IT技術(shù)還會(huì)遵循摩爾定律發(fā)展。另外,用戶對(duì)知識(shí)發(fā)現(xiàn)的要求越來越高,新興媒體的出現(xiàn)使信息來源更復(fù)雜。當(dāng)然,新興媒體在高速發(fā)展中也有許多問題,比如文獻(xiàn)資源的原創(chuàng)性和嚴(yán)肅性不足,海量數(shù)據(jù)使得文獻(xiàn)資源信息繁雜等。而傳統(tǒng)的圖書館文獻(xiàn)資源保障能力強(qiáng),服務(wù)體系完備。所以,在數(shù)字媒體的沖擊下,傳統(tǒng)圖書館只有加快數(shù)字化建設(shè)步伐,才能在文獻(xiàn)建設(shè)和服務(wù)保障中立于不敗之地。
圖書館傳統(tǒng)的信息服務(wù)模式是以紙質(zhì)資源為主要館藏內(nèi)容,重視讀者到館,重視提供紙質(zhì)文獻(xiàn)借閱服務(wù)。而在如今大數(shù)據(jù)和互聯(lián)網(wǎng)+環(huán)境下,讀者的閱讀環(huán)境數(shù)字化、智能化、移動(dòng)化、泛在化,文獻(xiàn)資源海量化。如何讓讀者選擇有價(jià)值的信息,如何讓圖書館更好地服務(wù)讀者,傳統(tǒng)的服務(wù)模式已經(jīng)不能滿足讀者對(duì)知識(shí)的要求和個(gè)性化服務(wù)的需要。這就需要圖書館根據(jù)文獻(xiàn)資源和讀者的潛在需求,通過數(shù)據(jù)分析等手段分析讀者行為,建立知識(shí)發(fā)現(xiàn)系統(tǒng),為讀者推送需要的、有價(jià)值的文獻(xiàn)資料。
上海市圖書館館長(zhǎng)吳建中在圖書館界發(fā)展論壇的演講中提到,知識(shí)是流動(dòng)的。如何讓知識(shí)流動(dòng)起來,取決于知識(shí)的開放性、關(guān)聯(lián)度、流暢度和傳播力[7]。要使知識(shí)流動(dòng),對(duì)數(shù)據(jù)的分析顯得尤為重要。通過基于讀者行為的知識(shí)發(fā)現(xiàn)系統(tǒng)建設(shè),讓知識(shí)流動(dòng)起來。如今,面向大數(shù)據(jù)的自然語(yǔ)言處理等方面的基礎(chǔ)性技術(shù)已經(jīng)基本成熟,并得到了大規(guī)模的應(yīng)用,典型的包括Google、Autonomy、Smarts、Systran等。在圖書館領(lǐng)域,國(guó)內(nèi)眾多圖書館在發(fā)現(xiàn)知識(shí)系統(tǒng)方面主要依賴于搜索引擎或圖書館專業(yè)服務(wù)商,比如國(guó)外的Summon2、EDS,國(guó)內(nèi)的超星發(fā)現(xiàn)系統(tǒng)和萬(wàn)方數(shù)據(jù)知識(shí)服務(wù)平臺(tái)等,它們的共同特點(diǎn)是收集市場(chǎng)上數(shù)據(jù)庫(kù)的元數(shù)據(jù),利用元數(shù)據(jù)進(jìn)行檢索[8],但在個(gè)性化服務(wù)方面,仍有待進(jìn)一步提高和挖掘。大多數(shù)圖書館沒有重視本館產(chǎn)生的大量可能被忽視的數(shù)據(jù),以及結(jié)合讀者借閱、查詢、閱讀等行為的數(shù)據(jù)。而這些數(shù)據(jù)對(duì)開展個(gè)性化知識(shí)發(fā)現(xiàn)服務(wù)至關(guān)重要。在圖書館海量數(shù)據(jù)中尋找內(nèi)在的關(guān)系,通過分析讀者的行為,建立圖書館的知識(shí)發(fā)現(xiàn)系統(tǒng),不僅可以為讀者搜索到資源,還可以對(duì)各類文獻(xiàn)資源數(shù)據(jù)進(jìn)行處理和分析,使用分析系統(tǒng)揭示各類文獻(xiàn)之間的復(fù)雜關(guān)系,可以幫助讀者挖掘數(shù)據(jù)背后的信息,發(fā)現(xiàn)讀者潛在的知識(shí)需求[9],為其提供更加精準(zhǔn)的知識(shí)發(fā)現(xiàn)服務(wù),進(jìn)而提高圖書館的服務(wù)水平。
圖書館知識(shí)發(fā)現(xiàn)系統(tǒng)的數(shù)據(jù)除了涵蓋讀者的個(gè)人借閱、查詢數(shù)據(jù)外,還將個(gè)人數(shù)據(jù)關(guān)聯(lián)至各學(xué)科、各類文獻(xiàn)及網(wǎng)絡(luò)學(xué)術(shù)資源數(shù)據(jù)。通過大數(shù)據(jù)技術(shù)進(jìn)行知識(shí)整合、知識(shí)發(fā)現(xiàn)和知識(shí)推送,為用戶和圖書館提供知識(shí)發(fā)現(xiàn)服務(wù),實(shí)現(xiàn)知識(shí)價(jià)值的再造。
在圖書館數(shù)據(jù)中,根據(jù)文獻(xiàn)資源和讀者行為建立數(shù)據(jù)庫(kù),并對(duì)數(shù)據(jù)進(jìn)行抽取和集成。數(shù)據(jù)的抽取就是搜索整個(gè)數(shù)據(jù)庫(kù),其數(shù)據(jù)源分關(guān)系型和非關(guān)系型數(shù)據(jù)庫(kù)[10]。而圖書館的大數(shù)據(jù)要面臨海量結(jié)構(gòu)化和非結(jié)構(gòu)化的業(yè)務(wù)數(shù)據(jù),其處理方法如下:對(duì)于相同數(shù)據(jù)源的數(shù)據(jù),DBMS(數(shù)據(jù)庫(kù)管理系統(tǒng))會(huì)提供數(shù)據(jù)庫(kù)鏈接功能,通過數(shù)據(jù)服務(wù)器建立鏈接直接寫Select語(yǔ)句訪問;對(duì)于不同數(shù)據(jù)源的數(shù)據(jù),也可以通過數(shù)據(jù)庫(kù)鏈接,比如SQL和Oracle,如果不能鏈接,則可以用程序接口來完成或?qū)?shù)據(jù)源導(dǎo)成統(tǒng)一的格式(比如.txt)來完成;對(duì)于非結(jié)構(gòu)化的數(shù)據(jù),比如聲音、圖片等,往往需要作為一個(gè)整體來處理。在采用抽取算法找到數(shù)據(jù)對(duì)象后,需通過元數(shù)據(jù),比如數(shù)據(jù)抽取模型、抽取規(guī)則、映射參數(shù)等,用映射規(guī)則描述數(shù)據(jù)類型與相應(yīng)字段的對(duì)應(yīng)關(guān)系,然后組裝到知識(shí)發(fā)現(xiàn)系統(tǒng)數(shù)據(jù)庫(kù)。由于目前圖書館管理系統(tǒng)均采用基于Web的系統(tǒng),其數(shù)據(jù)抽取可以通過Web來獲取,可以采用基于本體和基于XML的方法來抽取信息,并通過PageRank算法來進(jìn)行廣域Web搜索。抽取的數(shù)據(jù)使用Hadoop技術(shù)進(jìn)行清洗,將不符合要求的數(shù)據(jù)轉(zhuǎn)化成規(guī)范的數(shù)據(jù),通過數(shù)據(jù)集成向用戶提供統(tǒng)一的全局?jǐn)?shù)據(jù)模式。
數(shù)據(jù)模型是對(duì)信息系統(tǒng)中客觀事物的數(shù)據(jù)描述,目前海量數(shù)據(jù)的處理已有大量的技術(shù)支撐,比如大數(shù)據(jù)分析工具SAS(Statistical Analysis System)、Google Dremel等。數(shù)據(jù)模型的數(shù)據(jù)庫(kù)分為關(guān)系型數(shù)據(jù)庫(kù)和非關(guān)系型數(shù)據(jù)庫(kù),讀者行為數(shù)據(jù)分析挖掘的主要類型有對(duì)象數(shù)據(jù)庫(kù)系統(tǒng)、內(nèi)存數(shù)據(jù)庫(kù)、分布式數(shù)據(jù)庫(kù)和并行數(shù)據(jù)庫(kù)。數(shù)據(jù)建模的方法主要有Richard Barker表示法、IDEF1X表示法和UML表示法。數(shù)據(jù)建模技術(shù)可以用Sybase PowerDesigner來實(shí)現(xiàn),可以系統(tǒng)、方便地對(duì)系統(tǒng)進(jìn)行設(shè)計(jì)分析,通過該軟件可以制作數(shù)據(jù)流程圖、概念數(shù)據(jù)模型、物理數(shù)據(jù)模型等。
圖書館的知識(shí)發(fā)現(xiàn)取決于對(duì)圖書館讀者行為的分析,尋找內(nèi)在的關(guān)聯(lián)。圖書館可以根據(jù)讀者行為分析產(chǎn)生個(gè)性化的定制。結(jié)合讀者對(duì)圖書或者文獻(xiàn)信息的查閱瀏覽、讀者獲得資料的痕跡、讀者的借閱記錄、讀者對(duì)圖書文獻(xiàn)的評(píng)價(jià)、讀者對(duì)文獻(xiàn)的喜好等,再通過對(duì)讀者行為的挖掘和分析,可以提高圖書館服務(wù)的精度和讀者的滿意度。
本文主要通過計(jì)算基于讀者行為的集合S對(duì)讀者u的影響概率,即對(duì)單個(gè)讀者u的閱覽行為作出預(yù)測(cè),為知識(shí)發(fā)現(xiàn)的推送提供條件。一般閾值模型中的閾值θu是用戶u受到影響的閾值。當(dāng)Pu(S)≥θu時(shí),可以預(yù)測(cè)用戶u的行為。集合S是根據(jù)讀者所在學(xué)校圖書館借閱系統(tǒng)中的相關(guān)偏好樣本數(shù)據(jù),通過相關(guān)數(shù)據(jù)加工提煉得到。
對(duì)于讀者行為分析,可以通過基于集合S的樣本數(shù)據(jù)原型聚類,簇是對(duì)象的集合。聚類算法對(duì)具有數(shù)值屬性的數(shù)據(jù)很有效,但該算法對(duì)各個(gè)屬性聚類結(jié)果的貢獻(xiàn)均勻,沒有考慮不同屬性特征對(duì)聚類結(jié)果可能造成的影響。聚類算法需要節(jié)點(diǎn)之間的相似度組成的矩陣T,在用T(i,j)表示節(jié)點(diǎn)j作為i的聚類中心的合適程度。節(jié)點(diǎn)j與節(jié)點(diǎn)i的相似度表示為:
節(jié)點(diǎn)k為實(shí)值T(k,k),即相似矩陣T對(duì)角線上第k行的元素。T(k,k)值越大,說明第k點(diǎn)作為聚類中心的可能性越大。
執(zhí)行聚類算法,引入吸引度R和歸屬度A.吸引度是從節(jié)點(diǎn)i傳遞到聚類中心節(jié)點(diǎn)k的信息,其值記為r(i,k)。歸屬度是從候選聚類中心節(jié)點(diǎn)k傳遞到節(jié)點(diǎn)i的信息,節(jié)點(diǎn)i對(duì)節(jié)點(diǎn)k的歸屬度,其值記為a(i,k)。其算法流程如下:初始化,將所有a(i,k)全部賦值為零,輸入相似矩陣s,其中,s(i,k)是節(jié)點(diǎn)i與節(jié)點(diǎn)k之間的相似值。用H來評(píng)價(jià)相異程度,且考慮每個(gè)特征的差別。
通過對(duì)每一項(xiàng)取絕對(duì)值來定義聚類的區(qū)別。
建立Jaccard相似度模型,用來比較讀者u與集合S樣本的相似性。
因此,采用Jaccard系數(shù)可以評(píng)價(jià)可能的知識(shí)推送和讀者行為之間的相似度。Jaccard系數(shù)取決于其離散時(shí)間的模型,其取值范圍為[0,1],在實(shí)際應(yīng)用中,我們也取一定的值作為相似度的閾值。大于閾值的,表示相似度高,可以推送類似讀者的信息給該讀者,比如喜歡的圖書和文獻(xiàn);低于閾值的,再進(jìn)行比對(duì),然后進(jìn)行Jaccard系數(shù)評(píng)價(jià),直到找到高于閾值的模型,并對(duì)該讀者進(jìn)行知識(shí)推送。知識(shí)發(fā)現(xiàn)的本質(zhì)是資源發(fā)現(xiàn),通過Jaccard系數(shù)評(píng)價(jià),能準(zhǔn)確發(fā)現(xiàn)讀者行為和讀者需求的關(guān)系,從而有效提供滿足讀者個(gè)性化需求的服務(wù)。
在互聯(lián)網(wǎng)+和大數(shù)據(jù)時(shí)代,可以通過本文提出的基于大數(shù)據(jù)面向服務(wù)的讀者行為分析,實(shí)現(xiàn)資源的有效運(yùn)用和知識(shí)發(fā)現(xiàn),在館藏資源有限的情況之下,不僅能有效提高圖書館的服務(wù)水平和層次,也能有效提高讀者對(duì)圖書館的滿意度,還有助于圖書館的轉(zhuǎn)型升級(jí)。通過建立知識(shí)發(fā)現(xiàn)系統(tǒng),能有效研判讀者對(duì)文獻(xiàn)或圖書的閱讀趨勢(shì),為圖書館的讀者服務(wù)策略、文獻(xiàn)資源的采訪和圖書館的保障模式提供決策參考。圖書館的知識(shí)發(fā)現(xiàn)系統(tǒng)將極大地提高讀者獲取所需文獻(xiàn)資料的效率。
[1]馬娜梅.大數(shù)據(jù)背景下圖書館知識(shí)咨詢服務(wù)策略[J].圖書館研究,2014(7):90-93.
[2]咸由根,蔡承秉.掘金大數(shù)據(jù)[M].北京:北京時(shí)代華文書局,2013.
[3]曹霞.高校圖書館非結(jié)構(gòu)化大數(shù)據(jù)的D-SFSD管理模式研究[J].圖書館學(xué)研究,2014(1):57-60.
[4]姜山,王剛.大數(shù)據(jù)對(duì)圖書館的啟示[J].圖書館工作與研究,2013(4):52-54.
[5]袁寶龍.從信息、文獻(xiàn)、文明視角看網(wǎng)絡(luò)化時(shí)代傳統(tǒng)圖書館的存在價(jià)值[J].新世紀(jì)圖書館,2014(7):9-12.
[6]中國(guó)新聞出版研究院.第十三次國(guó)民閱讀調(diào)查報(bào)告[ED/OL].[2016-04-19].http://news.xinhuanet.com/ politics/2016-04/19/c_128907616.htm.
[7]吳建中.知識(shí)是流動(dòng)的:出版界與圖書館界的新課題[J].圖書館雜志,2015(3):4-6.
[8]和婷.大數(shù)據(jù)思維對(duì)圖書館信息服務(wù)工作的啟示[J].圖書館建設(shè),2014(1):64-66.
[9]張松巖,崔鵬.圖書館知識(shí)發(fā)現(xiàn)系統(tǒng)建設(shè)與應(yīng)用研究[J].圖書館工作與研究,2014(2):55-56.
[10]王秀芬,周玉松.基于互聯(lián)網(wǎng)+的高校固定資產(chǎn)管理研究[J].科技與創(chuàng)新,2017(04):53-54.
TP391.9;G250
A
10.15913/j.cnki.kjycx.2017.18.128
2095-6835(2017)18-0128-03
印國(guó)成,高級(jí)工程師,碩士。殷益蓉,講師,碩士。
〔編輯:劉曉芳〕
江蘇省高校自然科學(xué)基金項(xiàng)目“基于大數(shù)據(jù)的圖書館知識(shí)發(fā)現(xiàn)應(yīng)用研究”(14KJB520041)研究成果之一