摘 要:本文以陜西某大學圖書館為研究對象,對其歷史流通數(shù)據(jù)進行預處理,通過關聯(lián)規(guī)則及分類等方面對書籍流通借閱數(shù)據(jù)進行挖掘分析,得到書籍大類之間、書籍與書籍之間、借閱書籍與借閱時間之間、讀者與借閱書籍的關聯(lián)模型,實現(xiàn)對讀者行為規(guī)律分析,同時也為陜西某大學圖書館工作在人力資源配置、館藏資源建設及讀者服務等方面提供了決策依據(jù)。
關鍵詞:關聯(lián)規(guī)則 高校圖書館 書籍流通數(shù)據(jù)
網(wǎng)絡環(huán)境下的高校數(shù)字圖書館伴隨著海量信息資源的產生,高校圖書館流通部門作為服務全校師生的資源中心,每天產生大量的流通借閱數(shù)據(jù)。研究如何有效發(fā)現(xiàn)這些數(shù)據(jù)資源背后的規(guī)律,形成相關規(guī)則與知識,對于服務現(xiàn)代化的圖書館建設具有重要意義。
一、關聯(lián)規(guī)則的概念
頻繁模式的發(fā)現(xiàn)是關聯(lián)規(guī)則挖掘的核心。在數(shù)據(jù)集中頻繁出現(xiàn)的模式稱為頻繁模式(frequent pattern)(如項集、子序列或子結構)。頻繁模式可以幫助我們發(fā)現(xiàn)數(shù)據(jù)之間的有趣關系。有些時候頻繁模式的挖掘可以協(xié)助其他數(shù)據(jù)挖掘。例如,在聚類挖掘之前可以用關聯(lián)規(guī)則挖掘來實現(xiàn)數(shù)據(jù)的預處理。這樣可以幫助聚類工作更好的進行。因此,如何更好的發(fā)現(xiàn)頻繁模式就成為了關聯(lián)規(guī)則挖掘的核心任務。
二、實例分析
1.書籍流通數(shù)據(jù)預處理。挖掘數(shù)據(jù)來源為陜西某大學圖書館管理系統(tǒng)2014年流通數(shù)據(jù),此數(shù)據(jù)中含有大量異常及空白數(shù)據(jù),這些數(shù)據(jù)對數(shù)據(jù)挖掘意義不大,從一定程度上來會降低數(shù)據(jù)挖掘的效率,因此需要對原始數(shù)據(jù)進行數(shù)據(jù)預處理,形成挖掘數(shù)據(jù)源。
1.1圖書索書號的轉換。本大學圖書館圖書分類是按《中國圖書分類法》劃分。由圖書管理系統(tǒng)導出的索書號分類過于詳細,且數(shù)值相對分散,為了能夠進行有效的關聯(lián)分析,有必要對流通借閱表中的圖書索取號進行預處理。在所書號記錄里只取前三個字符,分別對應一級類目、二級類目和三級類目。SQL語句如下:
SELECT left(索書號,1) AS 一級類目, left(索書號,2) AS 二級類目, left(索書號,3) AS 三級類目, *
FROM 流通借閱表;
1.2提取讀者類型。本校讀者證號第一位數(shù)代表讀者類型,“3”開頭的是本科生、 “2”開頭的是研究生、“1”開頭的是博士、“0” 開頭的是社會讀者“T”開頭的是教師、“B”開頭的是博士。SQL語句如下:
SELECT left(讀者證號,1) AS 讀者類型,*
FROM 圖書流通數(shù)據(jù);
1.3借閱時間的格式轉換。本校圖書館系統(tǒng)的時間格式為文本類型,具體格式如“2014-12-02 16:37:07”。為了符合挖掘需求,現(xiàn)將借閱時間拆分為年、月、日,代表借閱的時間期。SQL語句如下:
SELECT mid(借出時間,1,4) AS 年份, mid(借出時間,6,2) AS 月份, *
FROM 圖書流通數(shù)據(jù)2;
通過上述方法對流通借閱數(shù)據(jù)進行預處理,為后續(xù)數(shù)據(jù)挖掘與分析提供了良好的數(shù)據(jù)保障。
2.基于Apriori算法的不同借閱圖書之間的關聯(lián)分析。通過對流通借閱表字段索取號分組計數(shù),對書籍借閱量大、利用率高的圖書進行關聯(lián)分析,進而發(fā)現(xiàn)不同書籍借閱之間的關系。在IBM SPSS Modeler中利用Apriori算法挖掘,得到如圖2-1所示模型。
相關規(guī)則說明:
規(guī)則1中,有8.333%的讀者會借閱書籍O151.2/412/2012、書籍O441.4/134,借閱書籍O151.2/412/2012的讀者有100%的可能會借閱書籍O441.4/134;
規(guī)則2中,有8.333%的讀者會借閱書籍TH137/210、書籍TH122/1184、書籍O151.2/412/2012,借閱書籍TH137/210的讀者有100%的可能會借閱書籍TH122/1184、書籍O151.2/412/2012;
本次關聯(lián)的實驗數(shù)據(jù):規(guī)則數(shù),5;有效事務287條;最小支持度8.333%,最大支持度13.889%;最小置信度75.0%,最大置信度100%。構建設置主要包括:最大前項數(shù),5;最低條件支持度,7.0;最小規(guī)則置信度(%),70.0。
結果分析:通過上述規(guī)則可知,不同書籍之間存在某種關聯(lián),存在強關聯(lián)的書籍很大程度上是同一大類下的書籍。從圖書館的角度來看,圖書采購、圖書推薦工作對存在強關聯(lián)的書目管理應是同步的;同時,在書目擺放上也應該是臨近擺放,既方便了讀者借閱 ,又提高了服務效率。
三、針對陜西某大學圖書館工作的相關建議
結合上述挖掘分析結果,可以為高校圖書館的工作安排、館藏管理及讀者管理提供科學的參考依據(jù)。圖書館作為在校學生的第二課堂,應積極地做好信息服務工作,熟悉一定時期讀者的閱讀傾向,進行健康的、科學的閱讀引導。下面結合本次分析結果,根據(jù)陜西某大學圖書館現(xiàn)狀,提出以下幾點建議。
1.圖書館人力資源的科學安排。通過時序關聯(lián)挖掘分析,根據(jù)得出的讀者全年每個時期的閱讀規(guī)律,以提高服務效率為目標,可以合理的在館內進行人員的崗位交流,尤其是在人力資源匱乏的情況下。具體做法表現(xiàn)為:在每個學期開學之初,可以對圖書借閱部門加大人手投入,提高書籍借閱效率,提高服務滿意度。在借閱低谷時期,保證正常流通借閱外,可以安排一些業(yè)務學習、圖書編目等工作,提高圖書館員的素養(yǎng)和館藏質量,為圖書館的流通服務提供良好的軟件基礎,堅決抵制資源的無謂浪費。
2.優(yōu)化館藏資源。從圖書種類之間的關聯(lián)關系來看,B哲學、宗教、C社會科學總論、K歷史、地理、T工業(yè)技術等大類存在著強關聯(lián),讀者通常會同時借閱。因此圖書館可以在書庫藏書的安排上進行合理規(guī)劃,將之間存在強關聯(lián)的圖書種類放在同一館藏地點,方便讀者查找借閱,方便還書上架,同時也降低了員工的工作量,提高工作效率。在采購圖書環(huán)節(jié),傳統(tǒng)的采購主要表現(xiàn)為:學科館員的推薦和經(jīng)驗法兩種形式。這兩種方法都忽略了圖書館的服務主體---用戶。通過館藏文獻挖掘我們得到了圖書利用率排序。在館藏管理中,對利用率高的書籍可通過增加副本和采購是更多讀者能夠使用圖書;對利用率低的圖書,根據(jù)文獻老化的不同程度進行圖書剔除,做好館藏的資源更新。提高館藏的利用率,讓館藏資源適應讀者需求,是高校圖書館能夠提供用戶滿意服務的前提條件。
3.推行讀者個性化服務。對于不同類型的用戶,根據(jù)其借閱的相關規(guī)律,從而進行針對性服務。根據(jù)以上挖掘分析,不同類型讀者的借閱量及借閱書籍分類都有所不同。圖書館可以根據(jù)不同類型、不同專業(yè)、不同年級的借閱特點,針對其不同需求提供差異化的讀者服務。如將具體方式表現(xiàn)為公告欄、突出擺放藏書等具體方法在館內服務大力推廣;同時,在館外服務方面,可借助手機終端的微信平臺進行圖書信息推薦服務,也可在圖書館網(wǎng)頁中,結合用戶借閱模式,進行新書推薦服務。
參考文獻:
[1]張春杰.基于Apriori算法的校園空調的節(jié)能研究[D].杭州電子科技大學, 2014.
[2]曾舸,劉先鋒.關聯(lián)規(guī)則挖掘中 Apriori改進算法的研究[J].計算機與現(xiàn)代化,2007(1):46-48.
[3]韓家煒[加],堪博(Kamber.M),著,范明,孟曉峰,譯.數(shù)據(jù)挖掘:概念與技術[M].北京:機械工業(yè)出版社,2007:3-18.
作者簡介:王建行(1981—)男。民族:漢。陜西富平。碩士。講師。圖書館學及信息管理方向。