楊江麗,高 凡,董若劍
(西南交通大學圖書館,四川 成都 610031)
圖書館是高校師生學習與科研的知識后盾。 即使在信息資源高速發(fā)展的今天,圖書的流通借閱依然是高校圖書館基本的服務內(nèi)容。 因此,圖書館每天會產(chǎn)生大量的圖書借閱流通記錄數(shù)據(jù),目前大多數(shù)圖書館只是將這些數(shù)據(jù)用做一些常規(guī)的工作量統(tǒng)計, 圖書館管理系統(tǒng)無法發(fā)現(xiàn)這些數(shù)據(jù)中存在的關系和規(guī)則,無法預測讀者的信息需求。 利用數(shù)據(jù)挖掘技術,分析這些數(shù)據(jù)之間的關聯(lián),有利于合理配置資源和提高圖書館資源的利用率,同時能提高服務水平,使圖書館的服務能真正滿足師生的需求。
數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過程, 這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。 它可幫助決策者分析歷史數(shù)據(jù)及當前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關系和模式,進而預測未來可能發(fā)生的行為。 數(shù)據(jù)挖掘的主要特點是對數(shù)據(jù)庫中的大量數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析和其他模型化處理,并從中提取輔助決策的關鍵性數(shù)據(jù)。數(shù)據(jù)挖掘是KDD(Knowledge Discovery in Database)中的重要技術,它并不是用規(guī)范的數(shù)據(jù)庫查詢語言(如SQL)進行查詢,而是對查詢的內(nèi)容進行模式的總結和內(nèi)在規(guī)律的搜索。
數(shù)據(jù)挖掘的研究融合了多個不同學科領域的技術與成果, 使得目前的數(shù)據(jù)挖掘方法表現(xiàn)出多種多樣的形式。從統(tǒng)計分析類的角度來說,統(tǒng)計分析技術中使用的數(shù)據(jù)挖掘模型有線形分析和非線形分析、回歸分析、邏輯回歸分析、單變量分析、多變量分析、時間序列分析、最近序列分析、最近鄰算法和聚類分析等方法。 圖書館領域一般使用知識發(fā)現(xiàn)類數(shù)據(jù)挖掘技術,它是一種與統(tǒng)計分析類數(shù)據(jù)挖掘技術完全不同的挖掘技術,包括人工神經(jīng)元網(wǎng)絡、支持向量機、決策樹、遺傳算法、粗糙集、規(guī)則發(fā)現(xiàn)和關聯(lián)順序等。
數(shù)據(jù)挖掘一般分為三個階段:數(shù)據(jù)準備、數(shù)據(jù)挖掘、結果的評價和表達。 詳細流程見圖1。
圖1 數(shù)據(jù)挖掘的過程
我國從20 世紀90 年代中期開始開展數(shù)據(jù)挖掘的研究,但發(fā)展十分迅速。 隨著計算機、人工智能、數(shù)理統(tǒng)計科學的迅速發(fā)展及數(shù)據(jù)庫技術的大規(guī)模應用而越來越顯示出其強大的生命力。
在國內(nèi),數(shù)據(jù)挖掘技術在圖書館領域中的研究才剛剛起步,研究主要集中在高校的科研隊伍中,沒有形成整體的研究團隊。 通過對中國期刊全文數(shù)據(jù)庫網(wǎng)站(CNKI)的檢索分析,共有298 篇該主題研究的相關報道。 從2000 年開始就有相關文獻對數(shù)據(jù)挖掘技術在圖書館中的應用的研究報道,2005 年進入了高速發(fā)展期,2010 年相關文獻有41 篇,截至2011 年9 月已經(jīng)有39 篇相關研究報道。 由此看來,數(shù)據(jù)挖掘技術在我國圖書館領域中的應用研究還趨于上升階段。
本文以高校本科生讀者作為研究對象,研究該類讀者在校期間的借閱行為,讀者從入學到畢業(yè)的時間是一個完整的學習階段,通過對其在校期間借閱數(shù)據(jù)的分析,可以分析出本科生和研究生讀者在校幾年中的表現(xiàn)和特點,還有其借閱行為的不同之處;同時研究不同類別的圖書在該專業(yè)的利用率,其結論可以給圖書館優(yōu)化館藏資源提供有效、科學的依據(jù),更好地滿足讀者的閱讀要求。
圖2 西南交通大學2006 級本科生原始借閱數(shù)據(jù)(部分)
本文選用西南交通大學圖書館BSLC 圖書館管理系統(tǒng)中的借閱記錄、館藏記錄、讀者信息記錄等數(shù)據(jù)庫中的數(shù)據(jù)。 西南交通大學為“211 院?!保x者具有知識、地域多元性,對于數(shù)據(jù)挖掘的樣本提取也具有多樣性和代表性。 圖書館數(shù)據(jù)庫系統(tǒng)中有眾多的數(shù)據(jù)表, 通過SQL 查詢語言從數(shù)據(jù)表中提取所需數(shù)據(jù),導出數(shù)據(jù)的主要字段包括:借閱證號、姓名、讀者類型、題名、索書號、借閱時間,參見圖2。 本文采用西南交通大學2006 級土木學院本科生在圖書館系統(tǒng)中記錄的33 634 條借閱數(shù)據(jù)作為分析的數(shù)據(jù)來源。
按照借閱時間分別整理2006 級土木學院本科生四個學年的借閱數(shù)據(jù), 將整理后的數(shù)據(jù)導入spss 軟件進行數(shù)據(jù)分析,得出這些讀者在各年級的借閱情況,見表1。 可以看出,讀者在大一到大三的借閱量逐年增長,在大三時借閱量達到最高的9 640 冊次,占四個學年比例的28.7%,大四時借閱量最少,低于大一的圖書借閱量。
表1 各年級大學生讀者借閱量統(tǒng)計
用中圖法將原始數(shù)據(jù)中的分類號進行轉(zhuǎn)換, 并且用spss 軟件對該級讀者整個本科階段的借閱量進行分析后,得出讀者借閱各類圖書的情況,見圖3。 土木學院屬于工科學科范疇,所以學生對工業(yè)技術類的書籍需求量最大,在借閱圖書時主要以與專業(yè)相關的參考書和基礎理論書籍為主,該類書籍占到了總借閱量的31.2%;同時文學、語言類的圖書也是該類讀者的熱門借閱類型。 因此,圖書館在采購圖書時應根據(jù)其借閱特點,對讀者需求量大的圖書應適當增加復本,以滿足讀者的借閱需求。
圖3 各類圖書借閱情況柱形圖
為了觀察同級讀者在不同年級借閱情況的變化,將整理后數(shù)據(jù)進行分類,并將最后的數(shù)據(jù)導入spss軟件,針對不同年級學生對不同類型圖書的借閱情況進行分析比較,參見表2。
利用卡方檢驗來考察圖書類型變量和讀者所在年級兩個變量是否有關系, 該檢驗能較精確地給出這種判斷的可靠程度。經(jīng)過對變量的檢驗,從表3 可以明顯看出借閱圖書的類型與讀者所在年級變量存在顯著性關系,相同的讀者,隨著年級的不同,借閱圖書類型也在發(fā)生變化。
表2 不同年級大學生對不同類型圖書借閱統(tǒng)計表(部分)
表3 卡方檢驗
圖4 不同年級的借閱情況條形圖
將表2 中的結果用條形圖表示(見圖4),從中可以很直觀地看出借閱圖書的類型與讀者所在年級存在顯著性關系,這個結論和表3 卡方檢驗的結論相吻合。 對于土木學院本科生讀者來說,大一主要是學習基礎知識,所以對基礎學科的書籍需求量較大,因為還沒有具體的接受專業(yè)課學習,所以對專業(yè)書籍需求較少,隨著對專業(yè)課學習研究的不斷深入,讀者對專業(yè)書籍需求量呈明顯的逐年增長態(tài)勢,大三達到最高峰,占當年總借閱量的32.5%;語言類、文學類的書籍在大一、大二、大三需求相對穩(wěn)定,大四由于要完成畢業(yè)論文、找工作等借閱量呈減少趨勢,但整體來看,以工科為主的該類讀者群體,除了對相關專業(yè)的學習外,對語言文化及文學修養(yǎng)也非常重視,對這些書籍的需求相對較大,僅次于專業(yè)書籍的需求。圖書館利用數(shù)據(jù)挖掘技術,可以準確地把握讀者的需求,提高讀者借閱的滿意度。同時也將圖書館采購圖書中的人為的主觀性降到最低,最大限度地提高決策的科學性、準確性和全面性。
專業(yè)類書籍是土木學院本科生讀者的主要閱讀類型, 讀者借閱專業(yè)類書籍數(shù)據(jù)描述如表4 所示,通過spss 軟件分析隨著學生年級的變化與對專業(yè)類書籍的需求是否存在顯著性變化,對兩個變量的分析見表5,顯著性(0.000)〈0.05 表示兩個變量之間存在顯著性差異,這說明隨著年級的不同,學生對工業(yè)用書的需求量也在發(fā)生著明顯的變化。
表4 專業(yè)類書籍借閱數(shù)據(jù)描述
表5 顯著性分析
在數(shù)字化時代,圖書館需要在龐大信息資源中挖掘信息,為個性化優(yōu)質(zhì)服務提供有效的決策依據(jù)。讀者的借閱數(shù)據(jù)可以帶給圖書館決策者很多不同的有價值的信息,文中的研究分析方法及結果只是其中的一小部分。 根據(jù)數(shù)據(jù)挖掘技術對高校圖書館讀者行為分析的結果,圖書館可以掌握高校圖書館讀者的借閱規(guī)律,把握讀者的借閱傾向,進而優(yōu)化館藏資源,提高高校圖書館館藏資源的利用率,準確提供讀者所需要的書籍。
[1] 王斌.數(shù)據(jù)挖掘在高校圖書館中的應用研究[D].西安:西安理工大學,2010.
[2] 王桂芹,黃道.數(shù)據(jù)挖掘技術綜述[J].電腦應用技術,2007(69):9-14.
[3] 楊光,張學潮.數(shù)據(jù)挖掘在高校圖書館用戶行為分析中的應用——以山西大學圖書館為例[J].晉圖學刊,2011(2):19-28.
[4] 廖秋榮.基于數(shù)據(jù)挖掘的圖書館的讀者借閱行為分析[J].柳州職業(yè)技術學院學報,2011(11):90-93.
[5] 譚云江,凌云,閆海峰,等.基于數(shù)據(jù)挖掘技術的高校圖書館讀者行為研究[J].圖書情報工作,2010(Z2):359-362.