陳 潔
(安徽大學(xué),合肥 230601)
?
數(shù)據(jù)挖掘在高校圖書館服務(wù)中的應(yīng)用探析
陳潔
(安徽大學(xué),合肥 230601)
摘要:高校圖書館服務(wù)的進(jìn)一步發(fā)展需要更多信息的支持。數(shù)據(jù)挖掘技術(shù)作為一種信息分析的輔助技術(shù)可以應(yīng)用到高校圖書館服務(wù)中。數(shù)據(jù)挖掘利用聚類分析、關(guān)聯(lián)性分析等手段,可幫助高校圖書館對客戶進(jìn)行分類,發(fā)現(xiàn)各類客戶的特征,采購客戶需要的資源并開展有針對性的服務(wù)。高校圖書館應(yīng)用數(shù)據(jù)挖掘在經(jīng)濟、技術(shù)和運行方面都是可行的。
關(guān)鍵詞:高校圖書館;數(shù)據(jù)挖掘;聚類分析;關(guān)聯(lián)性分析;個性化服務(wù)
1高校圖書館服務(wù)對數(shù)據(jù)挖掘的需求
隨著高校圖書館越來越多地參與到教學(xué)與科研過程中,其服務(wù)水平也需要有相應(yīng)提高。當(dāng)前高校圖書館追求以客戶需求驅(qū)動圖書館服務(wù),使用戶的滿意度提高,從而以最低成本實現(xiàn)對教學(xué)、科研最有效的支持[1]。
以用戶需求為驅(qū)動的圖書館服務(wù)流程如圖1所示。
圖1用戶需求驅(qū)動的圖書館服務(wù)流程
首先,高校圖書館通過各種途徑收集用戶(包括潛在用戶)的相關(guān)信息,實現(xiàn)用戶的識別。這里的潛在用戶是指沒有圖書館服務(wù)記錄的學(xué)生。其次,圖書館根據(jù)相關(guān)信息對用戶進(jìn)行分類,體現(xiàn)用戶群之間的差異。再次,圖書館對區(qū)分后的不同用戶群進(jìn)行分析,了解其特點和需求。最后,圖書館根據(jù)所了解的需求進(jìn)行紙質(zhì)和電子資源的采購[2],根據(jù)用戶的特征提供有針對性的定制服務(wù)。采購和服務(wù)獲得的信息以及最終績效數(shù)據(jù)被記錄,并在對用戶進(jìn)行識別、區(qū)分和特征分析的過程中使用。
由此可以看出,全流程的各階段都有大量的數(shù)據(jù)需要分析,而很多時候理想的分析結(jié)果隱藏在數(shù)據(jù)中,需要專業(yè)人員和技術(shù)來實現(xiàn)這一過程。但是,基于現(xiàn)在各高校圖書館人員的專業(yè)結(jié)構(gòu)和職位分配,相當(dāng)多的信息分析難以完成。因此,必須尋找一種途徑便捷地實現(xiàn)數(shù)據(jù)的分析。
數(shù)據(jù)挖掘被稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn),它利用神經(jīng)網(wǎng)絡(luò)、模式識別、歸納邏輯的方法,從大量數(shù)據(jù)中挖掘出未知的、有價值的一些模式和規(guī)律,歸納成為知識后供使用。由此可見,數(shù)據(jù)挖掘正是高校圖書館所需要的數(shù)據(jù)分析工具。借助于這種工具,高校圖書館才有可能真正實現(xiàn)需求驅(qū)動服務(wù)[3]。
2數(shù)據(jù)挖掘在高校圖書館服務(wù)中的具體應(yīng)用
數(shù)據(jù)挖掘在高校圖書館服務(wù)中的不同階段有著不同應(yīng)用。
2.1 數(shù)據(jù)收集階段
在這一階段要對所收集的數(shù)據(jù)進(jìn)行處理,提高數(shù)據(jù)的質(zhì)量,有利于后續(xù)的數(shù)據(jù)挖掘。例如,安徽大學(xué)研究生和本科生專業(yè)非常多,因此,用戶數(shù)據(jù)中“專業(yè)”屬性會有很多種取值,從而增加后續(xù)分析的難度。結(jié)合國家專業(yè)學(xué)科分類,“專業(yè)”屬性可以向更高層次泛化,形成替代屬性“學(xué)科門類”,各數(shù)據(jù)在該屬性只會有13種取值,有利于后續(xù)的挖掘。根據(jù)圖書館數(shù)據(jù)采集的情況,本階段還可以進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)消減、數(shù)據(jù)集成與轉(zhuǎn)換。
2.2 用戶分類階段
利用數(shù)據(jù)挖掘中的聚類分析技術(shù),可以十分方便地對高校圖書館用戶進(jìn)行分類[4]。由于這種分類建立在前期大量數(shù)據(jù)的基礎(chǔ)上,所以分類結(jié)果更為科學(xué)和準(zhǔn)確。例如高校圖書館根據(jù)如下算法進(jìn)行分類:(1)建立包括用戶和潛在用戶的用戶集CW,其中每個用戶對象為xi;(2)在CW中任選k個典型對象構(gòu)成聚類中心集合OW,其中每個對象oj對應(yīng)為Cj類的中心;(3)計算CW中每個用戶對象xi到OW中每個對象oj的距離。由于每個用戶對象的各屬性是混合類型,所以不使用歐式距離,而如果利用k-modes算法的相異度計算公式,又無法體現(xiàn)數(shù)值型屬性間的實際差異,所以要對算法進(jìn)行相應(yīng)的修改[5]。最終,將每個xi歸入距其最近的oj所在的類Cj;(4)計算聚類是否收斂,如果收斂則聚類完成。如果未收斂,重新計算各類的中心,并重復(fù)步驟c和d。
2.3 分類識別階段
在該階段主要可以應(yīng)用數(shù)據(jù)挖掘中的分類識別和關(guān)聯(lián)性分析技術(shù)。
數(shù)據(jù)挖掘中的分類識別是對樣本數(shù)據(jù)進(jìn)行分析,找出其中的分類規(guī)則,有利于對所有對象進(jìn)行分類,進(jìn)而針對每類對象采取相應(yīng)措施。高校圖書館可以利用分類中的相關(guān)思想,對聚類的結(jié)果進(jìn)行分析,識別各類的特征,更重要的是可以識別出各類對象中影響結(jié)果的關(guān)鍵因素。
以安徽大學(xué)為例,通過整理數(shù)據(jù)庫得到以下數(shù)據(jù):
表1 安徽大學(xué)2012-2013學(xué)年借閱數(shù)據(jù)
可以通過相應(yīng)算法得到性別對借閱與否的重要性。
設(shè)結(jié)果屬性A可以取m個不同值,對訓(xùn)練樣本S可分為Ci,i∈[1,2,…,m],Si為Ci中樣本個數(shù)。設(shè)定屬性B取v個不同的值,訓(xùn)練樣本分為Sj,j∈[1,2,…,v],設(shè)Sij為Sj中屬于Ci的樣本數(shù),則利用B對A的影響計算為[6]
Gain(B)=I(S1,S2,…,Sm) -E(B)
設(shè)屬性A為是否借閱,C1為借閱,C2為不借閱;設(shè)屬性B為借閱者性別,S1為男性,S2為女性,則根據(jù)上表和計算方法
所以,Gain(B)= I(S1,S2) - E(B)=0.1
所以性別對是否借書的判斷結(jié)果的信息增益為0.1,而利用同樣計算性別對借書多少的信息增益為0.01,所以性別更多影響是否借閱,而不會影響借閱者借閱量的多少。
關(guān)聯(lián)性分析主要用于發(fā)現(xiàn)數(shù)據(jù)之間的聯(lián)系,從而建立相應(yīng)的模式,有利于針對性的決策。數(shù)據(jù)挖掘中的關(guān)聯(lián)性分析主要是一種無指導(dǎo)的學(xué)習(xí),高校圖書館在應(yīng)用中可以將其變換為有指導(dǎo)的學(xué)習(xí),發(fā)現(xiàn)服務(wù)對象的一些行為模式,從而實施有針對性的服務(wù),提高最終的效果。
以安徽大學(xué)為例,以80位學(xué)生的相關(guān)信息為訓(xùn)練樣本,分析與借閱多少相關(guān)的關(guān)聯(lián)規(guī)則。每條信息包括年級、學(xué)科種類、借閱情況。為了簡化計算難度,學(xué)科種類和借閱進(jìn)行了泛化處理,其結(jié)果構(gòu)成以下四個集合:
年級{G1(一年級),G2(二年級) ,G3(三年級) ,G4(四年級)}
學(xué)科種類{D1(理科),D2(文科)}
借閱情況{B1(多),B2(少)}
根據(jù)訓(xùn)練樣本得到表2,如下所示:
表2 單項集支持度
設(shè)置支持度最小為8則表2中沒有任何項集被排除,因此通過組合得到表3,如下所示:
表3 二項集支持度
因為支持度應(yīng)大于8,所以得到篩選后的集合進(jìn)一步篩選和組合得到表4。
{G2,D1},{G2,D2},{G2,B1},{G2,B2},{G3,D2},{G3,B1},{G4,D2},{G4,B2},{D1,B1},{D1,B2},{D2,B1},{D2,B2}
表4 三項集支持度
所以最后得到集合{G3,D2,B1}和{G4,D2,B2}
計算G3&D?B1的置信度
Confidence(G3&D2?B1)=
計算G4&D2?B2的置信度
Confidence(G4&D2?B2)=
因為有較高的置信度,所以根據(jù)訓(xùn)練樣本可以得到關(guān)聯(lián)規(guī)則G3&D2?B1和規(guī)則G4&D2?B2,即三年級文科生會借閱很多書籍,而四年級文科生借書較少。
2.4 數(shù)據(jù)挖掘結(jié)果的應(yīng)用
高校圖書館可以利用數(shù)據(jù)挖掘的結(jié)果,在采購、服務(wù)等方面做出更為有效的決策。根據(jù)上文所得到的分類識別結(jié)果,安徽大學(xué)圖書館可以嘗試實施有針對性的措施。例如,根據(jù)上文的計算結(jié)果,性別對學(xué)生借書的意愿有較大影響,因此可以針對男性和女性制定不同的宣傳策略和激勵措施,以提高學(xué)生借閱量;針對三年級文科生借閱量大的情況,可以更多地了解他們的需求,聽取他們對圖書館的意見,比如說圖書的采購、室內(nèi)的布局、桌椅和書架排列等,從而更好地完善圖書館工作;針對四年級文科生,可以聯(lián)系其學(xué)習(xí)、實習(xí)和書寫論文的實際情況,推薦相應(yīng)的書籍和資料,以便更好地體現(xiàn)圖書館的服務(wù)功能。
3高校圖書館應(yīng)用數(shù)據(jù)挖掘的可行性分析
雖然數(shù)據(jù)挖掘已經(jīng)是一種成熟的技術(shù),但是如果想應(yīng)用到圖書館服務(wù)中,還需要從技術(shù)、經(jīng)濟、實際運行等方面進(jìn)行可行性分析。如果數(shù)據(jù)挖掘技術(shù)難以獲得或者不成熟,數(shù)據(jù)挖掘技術(shù)實施的成本高而收益低,實際運行會產(chǎn)生不好的影響,則高校圖書館沒有實施該技術(shù)的必要。
3.1 技術(shù)可行性
目前,數(shù)據(jù)挖掘技術(shù)已經(jīng)應(yīng)用到通信、零售、金融、制造等多個領(lǐng)域,大量企業(yè)在其經(jīng)營管理過程中使用了該技術(shù)。在這些企業(yè)的使用過程中,基本上沒有出現(xiàn)因為技術(shù)本身缺陷造成損失的情況,因此,數(shù)據(jù)挖掘技術(shù)較為成熟,應(yīng)用該技術(shù)的技術(shù)風(fēng)險較小。另一方面,由于目前社會對大數(shù)據(jù)分析極為重視,所以數(shù)據(jù)挖掘的各種應(yīng)用發(fā)展較快。有相當(dāng)多的軟件或者系統(tǒng)已經(jīng)可以實現(xiàn)對大量數(shù)據(jù)的挖掘[7],也有一些企業(yè)提供數(shù)據(jù)挖掘的相關(guān)服務(wù)。高校圖書館可以根據(jù)自身情況,選擇由自己完成或者外包數(shù)據(jù)挖掘工作。因此,高校圖書館獲得數(shù)據(jù)挖掘技術(shù)并不困難。
3.2 經(jīng)濟可行性
在成本方面,應(yīng)用數(shù)據(jù)挖掘必然會導(dǎo)致高校圖書館成本上升。如果高校圖書館選擇自己實施數(shù)據(jù)挖掘,則需要購買相應(yīng)功能軟件或者升級原有系統(tǒng);如果圖書館選擇購買第三方的數(shù)據(jù)挖掘服務(wù),則需要支付相當(dāng)?shù)馁徺I費用,這些都會帶來額外的成本。另外,數(shù)據(jù)挖掘會增加高校圖書館系統(tǒng)的計算量,圖書館可能需要對原有硬件進(jìn)行升級或者購買新的硬件,這會增加硬件成本。
數(shù)據(jù)挖掘的執(zhí)行和挖掘結(jié)果的應(yīng)用不同于圖書館傳統(tǒng)業(yè)務(wù),所以需要對相關(guān)人員進(jìn)行有關(guān)數(shù)據(jù)挖掘方面業(yè)務(wù)的培訓(xùn),以保證有足夠的人員支持日常的數(shù)據(jù)挖掘業(yè)務(wù)。相關(guān)培訓(xùn)會帶來時間和資金方面的損耗。
數(shù)據(jù)挖掘是基于大量數(shù)據(jù)的,高校圖書館必須向數(shù)據(jù)挖掘服務(wù)提供充足的、符合其要求的數(shù)字化信息[8]。因此,高校圖書館可能需要將獲得的各種數(shù)據(jù)進(jìn)行分析和轉(zhuǎn)換,以滿足數(shù)據(jù)挖掘的要求。但是應(yīng)該看到,由于目前高校圖書館信息化水平較高,各種信息資源的數(shù)字化程度較高,所以在這方面的成本上升可能并不明顯。
在成本上升的同時,應(yīng)用數(shù)據(jù)挖掘能夠從多方面為高校圖書館帶來收益。首先由于數(shù)據(jù)挖掘?qū)D書館用戶進(jìn)行了有效分類,同時還提供了各類用戶最真實的需求,所以圖書館能夠有針對性地采購紙質(zhì)資源和電子資源,避免了采購各種資源后無人使用的現(xiàn)象,從而有效地降低圖書館采購成本,提高采購資源的有效性。
由于數(shù)據(jù)挖掘?qū)γ恳活愑脩暨M(jìn)行定義性描述、分類與預(yù)測、關(guān)聯(lián)性分析,所以高校圖書館能夠針對每一類用戶,甚至每一位用戶提供定制服務(wù)。定制服務(wù)能夠過濾掉用戶不需要的服務(wù)和資源,提供對于用戶來說最適合的服務(wù)形式和服務(wù)內(nèi)容,使用戶使用圖書館服務(wù)更為便捷,使用的效率和效果也有顯著提高。
高校圖書館是學(xué)生必須使用的一種教輔工具,但是因為種種原因,很多學(xué)生對圖書館服務(wù)使用較少,實際上影響了學(xué)習(xí)的效果。數(shù)據(jù)挖掘通過聚類分析、分類與預(yù)測等方法對這些潛在用戶群進(jìn)行分析,能夠提供關(guān)于潛在用戶的相關(guān)知識,有利于圖書館采取相對應(yīng)的措施,吸引潛在用戶,提高他們對圖書館的使用率。
綜上所述,實施數(shù)據(jù)挖掘會在短期內(nèi)提高圖書館的成本,但是能夠長期提高圖書館的服務(wù)質(zhì)量,有利于圖書館服務(wù)于教學(xué)、科研目標(biāo)的實現(xiàn)。所以,如果高校圖書館能夠負(fù)擔(dān)初期的成本,則實施數(shù)據(jù)挖掘在經(jīng)濟上是十分可行的。
3.3 運行可行性
在高校圖書館服務(wù)中應(yīng)用數(shù)據(jù)挖掘,是為了更詳細(xì)地定義用戶的各種特征,以方便圖書館在資源采購和服務(wù)等方面的決策。數(shù)據(jù)挖掘?qū)嶋H上是在原有決策過程中,增加了一些決策的支撐材料,對決策過程本身影響不大,不會產(chǎn)生流程的重構(gòu)。因此,應(yīng)用數(shù)據(jù)挖掘?qū)M織和流程的影響較小,不會有太大的實施阻力。
應(yīng)用數(shù)據(jù)挖掘會對部分圖書館員產(chǎn)生新的知識要求,這些館員需要進(jìn)行相應(yīng)的培訓(xùn)。但是無論是自我開發(fā)數(shù)據(jù)挖掘應(yīng)用、購買數(shù)據(jù)挖掘軟件還是數(shù)據(jù)挖掘服務(wù),對館員的培訓(xùn)都只是操作流程的更新或者操作技能的提高,對理論知識要求極少,培訓(xùn)的難度較低。因此,人員能夠很快地適應(yīng)含有數(shù)據(jù)挖掘的新環(huán)境,應(yīng)用數(shù)據(jù)挖掘人員方面的阻力較小。因此,在圖書館服務(wù)中實施數(shù)據(jù)挖掘的運行可行性較高。
4結(jié)語
基于大數(shù)據(jù)分析的服務(wù),是提高高校圖書館服務(wù)水平的重要途徑。數(shù)據(jù)挖掘一方面能夠使圖書館的服務(wù)更加有針對性,另一方面又不會對現(xiàn)有的流程產(chǎn)生太大的影響。因此在高校圖書館服務(wù)中應(yīng)用數(shù)據(jù)挖掘,是一種收益大、風(fēng)險小的改進(jìn)方法。在實施數(shù)據(jù)挖掘的過程中,高校圖書館應(yīng)該注意在原始數(shù)據(jù)的清洗、挖掘方法的選擇以及挖掘結(jié)果的應(yīng)用等方面加以控制,追求最優(yōu),以保證實施的最終效果。
參考文獻(xiàn):
[1] 陳雙飛.大數(shù)據(jù)時代圖書館基于服務(wù)生命周期的客戶關(guān)系管理研究[J].現(xiàn)代情報, 2014, 34(5):91-93.
[2] 遲春佳,毛志勇.基于數(shù)據(jù)挖掘的高校圖書館圖書采購計劃輔助決策研究[J].現(xiàn)代情報, 2009,(7):108-110.
[3] 顧倩.數(shù)據(jù)挖掘應(yīng)用于高校圖書館個性化服務(wù)的探討[J].圖書館雜志,2013,32(8):63-65.
[4] 王慧敏,賀興時,牛四強.數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用[J].西安工程大學(xué)學(xué)報, 2014, 28(2):241-245.
[5] 張月琴,陳彩棠.基于新相異度量的模糊K—Modes聚類算法[J].電腦開發(fā)與應(yīng)用,2012,25(5):32-34.
[6] 朱明.數(shù)據(jù)挖掘[M].合肥:中國科學(xué)技術(shù)出版社,2002:68-69.
[7] 楊建明,劉芳.基于數(shù)據(jù)挖掘的高校圖書館服務(wù)優(yōu)化研究[J].情報探索,2014,198(4):25-28.
[8] 楊江麗,高凡,董若劍.基于數(shù)據(jù)挖掘的高校圖書館讀者行為研究——以西南交通大學(xué)圖書館為例[J].圖書館研究,2013,43(3):106-110.
(責(zé)任編輯:朱愛瑜)
Analysis of Data Mining in the Service of the University Library
CHEN Jie
(Anhui University, Hefei230601, China)
Abstract:The further development of university library services requires more information to support. Data mining can be applied to the service of the university library as a kind of auxiliary information analysis technology. Data mining can help the university library to separate the customers, find the characteristics of various customers, purchase the right resources and provide targeted services by using clustering analysis and association analysis. The application of data mining in university library is feasible both in economy, technology and operation.
Key words:university library; data mining; cluster analysis; association analysis; personalized
基金項目:安徽省高等學(xué)校圖書情報工作委員會基金項目(TGW13B16);安徽大學(xué)圖書館基金項目(TSG14B07)
中圖分類號:G251
文獻(xiàn)標(biāo)識碼:A
文章編號:1006-1525(2016)02-0053-05
作者簡介:陳潔,女,館員。
收稿日期:2015-10-27