【摘 要】本文探討了如何在現(xiàn)有圖書數(shù)據(jù)庫管理系統(tǒng)基礎(chǔ)上,利用數(shù)據(jù)挖掘技術(shù)和軟件技術(shù)實(shí)現(xiàn)對圖書館各種歷史數(shù)據(jù)的深度分析,以期發(fā)現(xiàn)圖書、讀者及管理者之間的某種聯(lián)系或規(guī)律,為優(yōu)化館藏分布,提高圖書利用率,提升服務(wù)效率等提供參考依據(jù)。
【關(guān)鍵詞】圖書管理 數(shù)據(jù)庫 數(shù)據(jù)挖掘
一、引言
依托數(shù)據(jù)庫技術(shù)的現(xiàn)代圖書管理體系已經(jīng)成為當(dāng)前圖書管理的主流,數(shù)字化的信息采集與存儲極大地提高了圖書管理的效率,如何深度利用這些數(shù)字化信息為圖書管理帶來更高的效率及決策支撐成為近年來圖書管理領(lǐng)域研究的熱門,但是由于目前大部分圖書館已經(jīng)擁有了自己的管理系統(tǒng),而放棄現(xiàn)有系統(tǒng)進(jìn)行改造需要投入大量的人力物力,并不可取。因此,本文旨在探討一種利用現(xiàn)有圖書管理系統(tǒng)的數(shù)據(jù)資源實(shí)現(xiàn)深度挖掘分析的可行方法,從而在較少投入的情況下實(shí)現(xiàn)對系統(tǒng)效率的提升。
二、數(shù)據(jù)挖掘及其在圖書管理中的應(yīng)用
數(shù)據(jù)挖掘(Data Mining,簡稱DM)就是從現(xiàn)有大量的數(shù)據(jù)中提取或者挖掘出人們不易發(fā)現(xiàn)的但卻存在的有用知識和信息。對于圖書管理系統(tǒng)來說,主要是通過大量的圖書借閱數(shù)據(jù),利用數(shù)據(jù)挖掘技術(shù)對這些數(shù)據(jù)進(jìn)行深度分析,從中獲取與圖書利用率、特定類型讀者借閱需求、圖書管理效率等相關(guān)的信息,為優(yōu)化館藏分布、提高圖書利用率、提升服務(wù)效率等提供參考依據(jù)。例如,在高校圖書館,通過借閱數(shù)據(jù)挖掘不同專業(yè)學(xué)生對不同類別圖書的需求關(guān)系,在該需求關(guān)系的指導(dǎo)下為不同專業(yè)的學(xué)生推薦合適的圖書,從而提高借閱效率;通過借閱數(shù)據(jù)挖掘各類圖書在不同館藏?cái)?shù)量下的流通情況,從而確定合理館藏?cái)?shù)量,提高流通效率。通常的數(shù)據(jù)挖掘主要包括特征分析、關(guān)聯(lián)分析、分類預(yù)測分析、聚類分析等技術(shù)途徑。
特征分析是數(shù)據(jù)挖掘最基本的分析,是通過分析獲取數(shù)據(jù)庫中某類數(shù)據(jù)的一般特征或者匯總。一般情況下,各種類別的基本數(shù)據(jù)可以通過數(shù)據(jù)庫的查詢來獲取,然后通過一定的方法,如歸納技術(shù),對這些數(shù)據(jù)進(jìn)行泛化或者特征化,最后通過一定的方式將這些數(shù)據(jù)特征輸出,如餅狀圖、柱狀圖、曲線、數(shù)據(jù)表等,形成直觀的表現(xiàn)。
關(guān)聯(lián)分析就是尋找數(shù)據(jù)庫中各數(shù)據(jù)項(xiàng)之間存在的關(guān)聯(lián)規(guī)則。關(guān)聯(lián)分析通過關(guān)聯(lián)規(guī)則挖掘?qū)崿F(xiàn),關(guān)聯(lián)規(guī)則一般定義為,對于需要分析的各種項(xiàng)集合,實(shí)際數(shù)據(jù)中一定存在某些事務(wù)集合,用事務(wù)集中同時(shí)包含兩項(xiàng)或多項(xiàng)的概率來表示某關(guān)聯(lián)規(guī)則的支持度,用包含某項(xiàng)的事務(wù)集中同時(shí)包含其他項(xiàng)的概率來表示置信度,若設(shè)定一定的支持度閾值和置信度閾值,則可判定兩項(xiàng)或多項(xiàng)的關(guān)聯(lián)規(guī)則。
分類和預(yù)測是兩種數(shù)據(jù)分析形式,可以用于提取描述重要數(shù)據(jù)類的模型或預(yù)測未來的數(shù)據(jù)趨勢。在進(jìn)行數(shù)據(jù)分類之前,首先需要建立一個(gè)模型,來描述一個(gè)數(shù)據(jù)類或者概念集,例如對于圖書管理數(shù)據(jù),可以用時(shí)間周期和借閱量來描述一個(gè)熱門書籍的概念集,然后以借閱數(shù)據(jù)庫作為訓(xùn)練數(shù)據(jù)集,通過查詢分析獲取該概念集的分類規(guī)則、判定樹或者數(shù)學(xué)描述公式等分類判據(jù),通過該分類判據(jù)可以判斷某類書籍是否屬于熱門書籍。預(yù)測則是通過描述歷史數(shù)據(jù)某種屬性的變化曲線或者趨勢,然后評估或者預(yù)測該屬性的可能值或者區(qū)間,例如我們針對某類書籍的借閱歷史數(shù)據(jù),利用回歸分析描述借閱量隨時(shí)間的變化曲線,然后通過對回歸曲線的擬合分析,可以預(yù)測未來某個(gè)時(shí)間段的借閱量。
聚類分析就是將物理或抽象對象的組合分組成為由類似對象組成的多個(gè)類的過程。由聚類生成的類是一組數(shù)據(jù)對象的組合,同一類中的對象盡可能相似,而不同類中的對象盡可能相異。聚類不同于分類之處在于,聚類分析事先并不知道可能存在各類數(shù)據(jù)的特性,而分類分析需要提前確定各數(shù)據(jù)類的特性。例如在實(shí)際圖書管理應(yīng)用中,需要根據(jù)讀者的閱覽量來對讀者分類,但是由于各個(gè)圖書館的總體借閱數(shù)據(jù)大相徑庭,因此無法預(yù)先劃定多少瀏覽量才屬于活躍讀者,何種為不活躍讀者,因此可以對原始數(shù)據(jù)進(jìn)行聚類分析,將讀者聚類成三類,分別代表活躍、一般和不活躍讀者。
三、數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)
為實(shí)現(xiàn)在現(xiàn)有圖書管理系統(tǒng)上的數(shù)據(jù)挖掘分析,需要設(shè)計(jì)相應(yīng)的軟件系統(tǒng)。軟件系統(tǒng)需要解決數(shù)據(jù)采集、挖掘算法設(shè)計(jì)、挖掘結(jié)果分析和界面設(shè)計(jì)等問題,總體框架如圖1所示。
圖1所示系統(tǒng)包含兩個(gè)數(shù)據(jù)庫,其中原始數(shù)據(jù)庫為已有圖書管理系統(tǒng)數(shù)據(jù)庫,該數(shù)據(jù)庫中存放著各種圖書管理及借閱信息,是本系統(tǒng)分析必須使用的原始數(shù)據(jù);分析匯總數(shù)據(jù)庫是本系統(tǒng)所使用的數(shù)據(jù)庫,該數(shù)據(jù)庫存放著與原始數(shù)據(jù)庫操作讀取、挖掘分析計(jì)算、挖掘結(jié)果相關(guān)的各種數(shù)據(jù)。兩個(gè)數(shù)據(jù)庫互相獨(dú)立,本系統(tǒng)所有操作均不改變原始數(shù)據(jù)庫的結(jié)構(gòu)及數(shù)據(jù),需要存儲的數(shù)據(jù)均存放于分析匯總數(shù)據(jù)庫。
考慮到不同的圖書管理系統(tǒng)可能采取不同的數(shù)據(jù)庫引擎,因此本系統(tǒng)專門設(shè)計(jì)了自發(fā)現(xiàn)數(shù)據(jù)讀取、原始數(shù)據(jù)篩選與提取以及原始數(shù)據(jù)庫語義解釋三個(gè)單元模塊來匹配不同的原始數(shù)據(jù)庫引擎及結(jié)構(gòu)。首次使用本系統(tǒng)時(shí),用戶首先需要確定原始數(shù)據(jù)庫引擎及數(shù)據(jù)庫名,然后將該信息輸入數(shù)據(jù)庫操作與顯示單元,經(jīng)原始數(shù)據(jù)篩選與提取設(shè)定條件后,由自發(fā)現(xiàn)數(shù)據(jù)讀取單元讀取原始數(shù)據(jù)庫結(jié)構(gòu),該結(jié)構(gòu)反饋回?cái)?shù)據(jù)庫操作與顯示單元后,由用戶將原始數(shù)據(jù)庫結(jié)構(gòu)進(jìn)行語義解釋,該解釋可能包括原始數(shù)據(jù)庫各表意義,表中個(gè)字段意義等,對應(yīng)的解釋數(shù)據(jù)存儲至分析匯總數(shù)據(jù)庫。在以后各挖掘分析算法需要提取原始數(shù)據(jù)庫中的數(shù)據(jù)時(shí),則通過原始數(shù)據(jù)庫語義解釋單元將上述結(jié)構(gòu)解釋數(shù)據(jù)翻譯成原始數(shù)據(jù)庫對應(yīng)表及字段,從而實(shí)現(xiàn)本系統(tǒng)與原始數(shù)據(jù)庫的數(shù)據(jù)無縫連接。
完成本系統(tǒng)與原始數(shù)據(jù)庫之間的無縫連接后,圖書管理人員可以通過用戶界面實(shí)現(xiàn)對兩個(gè)數(shù)據(jù)庫的操作顯示、挖掘算法的選擇及初始條件設(shè)定、挖掘結(jié)果顯示等功能。
數(shù)據(jù)庫操作與顯示單元對兩個(gè)數(shù)據(jù)庫進(jìn)行各種常規(guī)操作,包括查詢、修改、增添、顯示等功能。
挖掘算法選擇不同的挖掘分析算法,選擇好算法后會根據(jù)算法需求設(shè)定初始條件,如數(shù)據(jù)類別、時(shí)間周期、數(shù)據(jù)個(gè)數(shù)、挖掘條件等,然后根據(jù)這些條件從原始數(shù)據(jù)庫中提取對應(yīng)數(shù)據(jù)作為算法輸入,經(jīng)算法計(jì)算后輸出至結(jié)果分析單元形成可供圖書管理人員直接使用的數(shù)據(jù)、圖表、文字等信息,這些信息一方面可以存儲在分析匯總數(shù)據(jù)庫,一方面可以通過結(jié)果顯示單元顯示到用戶界面上。所有的挖掘算法均由計(jì)算機(jī)軟件實(shí)現(xiàn),如分析前的數(shù)據(jù)預(yù)處理的相關(guān)性分析、數(shù)據(jù)平滑處理等算法,用于特征分析的統(tǒng)計(jì)函數(shù)(均值、方差、標(biāo)準(zhǔn)差等),用于關(guān)聯(lián)分析的Apriori算法,用于分類的判定樹歸納分類、貝葉斯分類等算法,用于預(yù)測的回歸及擬合等算法,用于聚類分析的K-Means等算法。只需為這些算法設(shè)定好輸入條件,即可生成輸入數(shù)據(jù)中隱藏的圖書管理信息,為圖書管理人員提供管理及決策參考。
四、結(jié)束語
目前數(shù)據(jù)挖掘技術(shù)在圖書管理中的應(yīng)用還處于起步階段,本文也只是對數(shù)據(jù)挖掘的應(yīng)用及挖掘系統(tǒng)的設(shè)計(jì)提出了一個(gè)總體思路,隨著數(shù)字圖書館的發(fā)展、數(shù)據(jù)挖掘技術(shù)的不斷完善、讀者對個(gè)性化服務(wù)的需求增加以及圖書管理人員對提高效率的需求,未來的數(shù)據(jù)挖掘技術(shù)必將對圖書管理產(chǎn)生積極的影響。當(dāng)然,要完成本系統(tǒng),除了需要深入掌握各種數(shù)據(jù)挖掘算法及理論外,還需要熟練的數(shù)據(jù)庫使用及軟件開發(fā)經(jīng)驗(yàn),并經(jīng)過大量的編程及調(diào)試才能實(shí)現(xiàn)所有功能,設(shè)計(jì)出更符合圖書管理領(lǐng)域需求的數(shù)據(jù)挖掘系統(tǒng),從而全面提高圖書管理效率。
【參考文獻(xiàn)】
[1]弗羅斯特(美國)等. 數(shù)據(jù)庫設(shè)計(jì)與開發(fā). 清華大學(xué)出版社,2007.
[2]劉茲恒,徐建華. 長久珍等. 現(xiàn)代圖書館管理. 電子工業(yè)出版社,2010.