王興宏
(阜陽(yáng)幼兒師范高等??茖W(xué)校,安徽 阜陽(yáng) 236015)
隨著互聯(lián)網(wǎng)技術(shù)和計(jì)算機(jī)技術(shù)的快速發(fā)展,現(xiàn)代圖書(shū)館成為一個(gè)復(fù)合型圖書(shū)館,既有傳統(tǒng)的紙質(zhì)圖書(shū),也有電子圖書(shū),讀者既可以在線訪問(wèn)數(shù)字圖書(shū)館,也可以到圖書(shū)館借閱圖書(shū)。傳統(tǒng)圖書(shū)館計(jì)算機(jī)服務(wù)系統(tǒng)只能為讀者提供較為簡(jiǎn)單的查詢功能,所能提供的信息較為有限,無(wú)法滿足讀者的日益多樣化需求[1-2]。同時(shí),圖書(shū)館系統(tǒng)所存儲(chǔ)的大量借閱信息,無(wú)法得到最大限度利用,造成數(shù)據(jù)信息資源的浪費(fèi),因此如何準(zhǔn)確高效地利用讀者的習(xí)慣、偏好、使用行為和讀者特定需求[3],為讀者提供個(gè)性化服務(wù),開(kāi)發(fā)一款具有數(shù)據(jù)挖掘功能的圖書(shū)信息管理系統(tǒng)具有重要的理論價(jià)值和實(shí)際意義。
所謂數(shù)據(jù)挖掘[4](Data Ming,DM)一般是指從大量的、有噪聲的、不完全的、隨機(jī)的、模糊的海量數(shù)據(jù)集中發(fā)掘潛在有用的、有效的、新穎的信息過(guò)程。通過(guò)數(shù)據(jù)挖掘可以發(fā)現(xiàn)有價(jià)值的信息或規(guī)律,為用戶提供新的知識(shí)和有價(jià)值的信息和規(guī)律。
選擇某高等學(xué)校圖書(shū)管理系統(tǒng)為研究對(duì)象,將數(shù)據(jù)挖掘技術(shù)應(yīng)用于原有的圖書(shū)管理系統(tǒng),通過(guò)數(shù)據(jù)挖掘技術(shù),可以分析讀者或用戶的各種需求,主動(dòng)為讀者或者用戶提供個(gè)性化推薦服務(wù)。通過(guò)研究和分析,基于數(shù)據(jù)挖掘的圖書(shū)信息管理系統(tǒng)的主要需求如下:
由于圖書(shū)借閱過(guò)程中存在許多關(guān)聯(lián)性,因此對(duì)借閱過(guò)程進(jìn)行關(guān)聯(lián)性分析,可以有效掌握讀者或者用戶的借閱規(guī)律,圖書(shū)館可以改變自己的服務(wù)方式,由原來(lái)的被動(dòng)服務(wù)變?yōu)橹鲃?dòng)服務(wù),主動(dòng)為讀者或者用戶推薦相關(guān)聯(lián)的圖書(shū),為讀者或用戶提供更好的服務(wù)。
通過(guò)對(duì)圖書(shū)歷史借閱數(shù)據(jù)進(jìn)行聚類分析,可以了解不同圖書(shū)的受歡迎程度和圖書(shū)的借閱使用情況,在此基礎(chǔ)上,對(duì)館藏圖書(shū)進(jìn)行合理優(yōu)化配置,為圖書(shū)的訂閱和采購(gòu)提供決策依據(jù)。
根據(jù)圖書(shū)的關(guān)聯(lián)性分析[5]和聚類分析[6]結(jié)果,根據(jù)讀者的個(gè)人偏好、習(xí)慣等主動(dòng)為讀者或用戶提供圖書(shū)推薦等個(gè)性化服務(wù)。
在系統(tǒng)需求分析的基礎(chǔ)上,基于數(shù)據(jù)挖掘的圖書(shū)信息管理系統(tǒng)需要實(shí)現(xiàn)如下功能:1)數(shù)據(jù)挖掘功能:根據(jù)歷史借閱數(shù)據(jù),進(jìn)行關(guān)聯(lián)分析和聚類分析,發(fā)掘圖書(shū)借閱的潛在規(guī)律;2)提供服務(wù):根據(jù)數(shù)據(jù)挖掘結(jié)果,根據(jù)讀者的偏好、個(gè)人習(xí)慣等,提供個(gè)性化推薦服務(wù)。系統(tǒng)模塊圖如圖1所示。
圖1 系統(tǒng)模塊圖
由于原始的歷史圖書(shū)借閱數(shù)據(jù)中存在大量噪聲、不完整信息,因此數(shù)據(jù)挖掘處理之前需對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,剔除無(wú)用信息,提高數(shù)據(jù)的質(zhì)量,為后續(xù)數(shù)據(jù)挖掘奠定良好的基礎(chǔ)[7]。首先從數(shù)據(jù)庫(kù)中讀取需要預(yù)處理的歷史借閱數(shù)據(jù);之后,根據(jù)借閱信息(包括借書(shū)日期、還書(shū)日期、續(xù)借次數(shù)、借閱規(guī)則和書(shū)籍分類)進(jìn)行預(yù)處理,涉及刪除無(wú)用屬性、填充空值、規(guī)范字段等。
圖2 數(shù)據(jù)預(yù)處理模塊
數(shù)據(jù)挖掘模塊主要包括關(guān)聯(lián)規(guī)則分析和聚類分析,關(guān)聯(lián)分析主要目的是掌握讀者或者用戶的借閱規(guī)律。圖書(shū)館可以改變自己的服務(wù)方式,由原來(lái)的被動(dòng)服務(wù)變成主動(dòng)服務(wù),主動(dòng)為讀者或者用戶推薦相關(guān)聯(lián)的圖書(shū),為讀者或用戶提供更好的服務(wù),關(guān)聯(lián)規(guī)則模塊如圖3所示。
圖3 關(guān)聯(lián)規(guī)則挖掘模塊
聚類分析的目的是了解不同圖書(shū)的受歡迎程度和圖書(shū)的借閱使用情況,在此基礎(chǔ)上,對(duì)館藏圖書(shū)進(jìn)行合理優(yōu)化配置,為圖書(shū)的訂閱和采購(gòu)提供決策依據(jù),聚類分析模塊如圖4所示。
圖4 聚類分析模塊
圖5 圖書(shū)推薦模塊
根據(jù)圖書(shū)的關(guān)聯(lián)性分析和聚類分析結(jié)果,根據(jù)讀者的個(gè)人偏好、習(xí)慣等主動(dòng)為讀者或用戶提供圖書(shū)推薦等個(gè)性化服務(wù)。推薦信息包括圖書(shū)的條碼、題名、作者、出版社、出版日期、ISBN和索引號(hào)等信息,同時(shí)包括相關(guān)圖書(shū)推薦,服務(wù)推薦模塊如圖5所示。
選擇某高等學(xué)校2008年圖書(shū)館借閱歷史數(shù)據(jù)為研究對(duì)象[8-9],圖書(shū)館圖書(shū)分類統(tǒng)計(jì)結(jié)果如圖6所示。全年共412715條記錄,其中借閱信息包括借書(shū)日期、還書(shū)日期、續(xù)借次數(shù)、借閱規(guī)則和書(shū)籍分類等。
圖6 圖書(shū)分類統(tǒng)計(jì)圖
4.2結(jié)果分析
為了便于數(shù)據(jù)分析,用實(shí)際分類名稱代替中圖分類號(hào),為了獲取更多有用的信息,將藏書(shū)量信息也作為數(shù)據(jù)挖掘因素[10-12]??紤]該校師生比約為1:10,為了得到學(xué)生和老師之間的不同借閱規(guī)律,將學(xué)生和老師的借閱情況進(jìn)行分類顯示,分別如圖7和圖8所示。
圖7 學(xué)生借閱信息挖掘結(jié)果圖
圖8 教師借閱信息挖掘結(jié)果圖
通過(guò)圖書(shū)借閱信息可以發(fā)掘如下規(guī)律:1)教師借閱量與藏書(shū)量基本平衡,而學(xué)生借閱量較為不均衡,主要集中于文學(xué)、史地、哲學(xué)、教育、外文等文科類書(shū)籍。2)文學(xué)、歷史地理、軍事等書(shū)籍借閱量大,流通的速度快,借期時(shí)間最短,說(shuō)明這類書(shū)籍對(duì)讀者的吸引力大,閱讀時(shí)間快,讀完之后還有繼續(xù)閱讀該類書(shū)籍的興趣,該類書(shū)籍是圖書(shū)借閱的主要對(duì)象。3)理工科類書(shū)籍的借閱量普遍不高,借閱時(shí)間很長(zhǎng),可能是該類書(shū)籍的專業(yè)性太強(qiáng),需耗費(fèi)較多時(shí)間研讀。
針對(duì)傳統(tǒng)圖書(shū)館計(jì)算機(jī)服務(wù)系統(tǒng)只能為讀者提供較為簡(jiǎn)單的查詢功能,所能提供的信息較為有限,無(wú)法滿足讀者的日益多樣化需求。根據(jù)歷史借閱數(shù)據(jù)、讀者的習(xí)慣、偏好、使用行為和讀者特定需求,將數(shù)據(jù)挖掘技術(shù)應(yīng)用于傳統(tǒng)圖書(shū)管理系統(tǒng),提出一種基于數(shù)據(jù)挖掘的圖書(shū)信息管理系統(tǒng),通過(guò)關(guān)聯(lián)和聚類分析,實(shí)現(xiàn)圖書(shū)的合理化館藏和個(gè)性化推薦以及圖書(shū)資源的合理化配置。
安陽(yáng)師范學(xué)院學(xué)報(bào)2019年2期