耿向華 王桂鳳
摘 要:概述了數(shù)據(jù)挖掘的一般知識,探討了數(shù)據(jù)挖掘在高校圖書館信息管理與服務(wù)方面的應(yīng)用, 分析了數(shù)據(jù)挖掘在應(yīng)用中存在的問題。
關(guān)鍵詞:數(shù)據(jù)挖掘;知識發(fā)現(xiàn);高校圖書館
數(shù)據(jù)挖掘是當前數(shù)據(jù)庫研究、開發(fā)和應(yīng)用最活躍的分支之一, 它在科學(xué)發(fā)現(xiàn)、商業(yè)零售以及信用管理、醫(yī)學(xué)等領(lǐng)域已得到廣泛應(yīng)用。隨著高校圖書館自動化程度與數(shù)字圖書館建設(shè)的不斷發(fā)展, 圖書館要處理和提供的信息越來越多, 越來越復(fù)雜。圖書館如何運用這一新技術(shù)挖掘豐富的信息資源, 為服務(wù)讀者和科學(xué)管理提供可靠的依據(jù), 值得圖書館界深入研究。本文試圖重點探討數(shù)據(jù)挖掘在高校圖書館信息管理與服務(wù)方面的應(yīng)用。
1 數(shù)據(jù)挖掘的定義與方法
數(shù)據(jù)挖掘(Data Mining, DM) 也稱知識發(fā)現(xiàn)(KnowledgeDiscovery from Database, KDD) , 是從大量的、不完全的、先前不知道的、模糊的、可能有污染的隨機詳細數(shù)據(jù)中提取隱含的、潛在有用的信息和知識的過程。挖掘的對象是數(shù)據(jù)庫和數(shù)據(jù)倉庫, 旨在通過對數(shù)據(jù)的統(tǒng)計、分析、綜合、歸納和推理, 揭示事件間的相互關(guān)系, 預(yù)測未來的發(fā)展趨勢, 起到輔助實際工作問題求解的作用。整個知識發(fā)現(xiàn)過程由若干挖掘步驟組成:
(1) 數(shù)據(jù)選擇。根據(jù)挖掘要求, 將多個數(shù)據(jù)庫中的數(shù)據(jù)進行合并處理, 提取與KDD 相關(guān)的數(shù)據(jù), KDD 將主要從這些數(shù)據(jù)中進行數(shù)據(jù)提取。
(2) 數(shù)據(jù)預(yù)處理與轉(zhuǎn)換。從與KDD 相關(guān)的數(shù)據(jù)集合中除去明顯錯誤的數(shù)據(jù)和冗余的數(shù)據(jù), 進一步精減所選數(shù)據(jù)中的有用部分, 縮小處理范圍, 提高數(shù)據(jù)分析質(zhì)量。并將數(shù)據(jù)轉(zhuǎn)換成為規(guī)范形式, 以使數(shù)據(jù)挖掘更有效。
(3) 數(shù)據(jù)挖掘。就是選擇合適的挖掘算法, 對數(shù)據(jù)進行分析,以得出真正合理有用的知識。
(4) 知識描述。根據(jù)數(shù)據(jù)挖掘的目的對提取的信息進行分析,把有價值的信息挑選出來, 將發(fā)現(xiàn)的知識以用戶能理解的方式提供給用戶。
(5) 知識評價。用戶根據(jù)已有的知識對挖掘的結(jié)果進行合理性分析, 若有不合理的方面, 再重復(fù)上述步驟, 以保證挖掘結(jié)果的合理性。
2 數(shù)據(jù)挖掘在圖書館的應(yīng)用
2.1 分析讀者需求, 優(yōu)化信息資源建設(shè)
高校圖書館的文獻采購常常面臨兩個問題: ①每年的文獻購置費是有限的, 書庫、閱覽室等各種可使用的空間也是有限的, 如何有效地使用有限的經(jīng)費, 充分利用寶貴的空間, 添置讀者真正需要的文獻, 提高文獻資源的利用效率; ②根據(jù)學(xué)校的專業(yè)設(shè)置及教學(xué)科研情況, 文獻購置費在各門學(xué)科之間如何分配, 各種文獻載體形式之間如何平衡, 才能使文獻購置費發(fā)揮最大效益。傳統(tǒng)圖書館大多由專門采訪人員獨自確定或與少數(shù)專家商計決定,不可避免地帶有一定的主觀性以及個人喜好, 難免造成經(jīng)費浪費及館藏信息資源的缺漏。利用數(shù)據(jù)挖掘技術(shù)可以解決以上問題。圖書館每天產(chǎn)生大量可以對采訪工作產(chǎn)生指導(dǎo)作用的數(shù)據(jù),利用模糊聚類分析技術(shù),通過對圖書館業(yè)務(wù)系統(tǒng)的借閱、流通狀況、檢索請求及館藏書目庫進行分析挖掘,按類統(tǒng)計文獻拒借集和頻繁借閱集,并以此分析出文獻的利用率,及時補充短缺的文獻,剔除過時的文獻或減少部分文獻的采購復(fù)本量。
2.2 加強書庫科學(xué)管理, 提高服務(wù)質(zhì)量
書庫的頻繁倒架以及圖書的殘破率、丟失率是經(jīng)常遇到的問題, 如何防微杜漸也是值得挖掘的一個方面。通過對歷年借閱數(shù)據(jù)的相關(guān)分析, 增長幅度相應(yīng)較大的圖書種類在上架的時候應(yīng)根據(jù)預(yù)測的趨勢預(yù)留架位; 通過對注銷數(shù)據(jù)的分類分析統(tǒng)計及與樣本庫比較以確認若丟失率超過一定比例的原因出在哪些方面, 給出在制度上或人員上加強管理的建議。對于那些借閱頻率較大且連續(xù)續(xù)借的文獻, 應(yīng)以量化的方式反饋給采訪部門以加重采購的力度; 對罰賠款數(shù)據(jù)的挖掘則可提供對諸如特定書刊的借閱期限和人員限制等的建設(shè)性建議, 以提高服務(wù)質(zhì)量。
2.3 優(yōu)化數(shù)字圖書館的信息內(nèi)容
數(shù)字圖書館是一種數(shù)據(jù)信息系統(tǒng), 這一系統(tǒng)不但擁有內(nèi)容豐富、形式多樣的數(shù)字化信息資源, 而且依賴于現(xiàn)代高新技術(shù)的支持, 高效地滿足用戶的需求。目前, 數(shù)字圖書館的信息內(nèi)容包括大量的數(shù)字化館藏、種類繁多的數(shù)據(jù)庫、全文Web 資源鏈接以及互聯(lián)網(wǎng)上的大量信息。這大量的數(shù)據(jù), 只有通過組織、分析和挖掘,找出數(shù)據(jù)背后真正有價值的知識信息, 才是用戶實際需要的。采用數(shù)據(jù)挖掘技術(shù), 將其用于數(shù)字圖書館的信息發(fā)現(xiàn)和信息提供的全過程, 可向用戶提供更優(yōu)化的信息服務(wù), 滿足用戶的個性化需求。
2.4 針對用戶特點提供個性化服務(wù)
有了數(shù)據(jù)挖掘技術(shù), 圖書館完全可以根據(jù)用戶以前借閱的文獻資料, 甚至經(jīng)常訪問的網(wǎng)頁(Web 服務(wù)器訪問日志) 進行分析、挖掘, 進行用戶的背景分析、用戶群體的分類分析、用戶偏好分析、用戶檢索滿意度分析等, 了解他們的興趣愛好、研究方向, 得出特定用戶的特定檢索規(guī)律和知識模型, 無需用戶先提出信息請求, 便可確定個性化服務(wù)內(nèi)容, 主動將相關(guān)文獻送到他們手中。個性化服務(wù)的內(nèi)容包括: ( 1) 當發(fā)現(xiàn)新的相關(guān)信息或書目數(shù)據(jù)時, 及時推送給用戶; ( 2) 當用戶訪問圖書館網(wǎng)站時, 根據(jù)用戶的興趣度, 為用戶提供定制的Web 頁面; ( 3) 跟蹤用戶的興趣變化模式, 發(fā)現(xiàn)用戶的最新需要; ( 4) 根據(jù)用戶的興趣, 提供相應(yīng)的預(yù)測報告、動態(tài)分析等, 提供個性化決策支持服務(wù)。個性化服務(wù)的過程包括: 構(gòu)建個性化用戶動態(tài)需求模型; 搜索、挖掘針對特定需求的相關(guān)信息; 按照特定主題, 將搜索、挖掘到的信息進行過濾、加工和組合, 整合成相對完整的信息集合; 以在線或離線形式, 主動發(fā)送給用戶; 按照特定主題, 對信息集合進行分析開發(fā), 產(chǎn)生新的知識; 以在線或離線形式, 主動發(fā)送到用戶。
3 在應(yīng)用中存在的問題
當前在圖書館應(yīng)用中, 數(shù)據(jù)挖掘技術(shù)還存在一些問題。
( 1) 缺少數(shù)據(jù)挖掘人才。數(shù)據(jù)挖掘技術(shù)是新興的數(shù)據(jù)分析技術(shù), 是多學(xué)科知識的綜合, 涵蓋了數(shù)據(jù)庫技術(shù)、統(tǒng)計學(xué)、可視化技術(shù)、信息科學(xué)、機器學(xué)習(xí)等多方面知識。目前圖書館缺少精通數(shù)據(jù)挖掘技術(shù)的綜合性人才, 而對大型數(shù)據(jù)庫和數(shù)據(jù)倉庫有感性認識的就更少了。
( 2) 缺少國產(chǎn)數(shù)據(jù)挖掘軟件。國外關(guān)于數(shù)據(jù)挖掘軟件相關(guān)技術(shù)的研究和開發(fā)已經(jīng)很先進。國內(nèi)由于數(shù)據(jù)積累不夠充分、全面,業(yè)務(wù)模型構(gòu)建困難及缺少有經(jīng)驗的實施者等諸多原因, 數(shù)據(jù)挖掘未能得到很好的應(yīng)用, 而軟件的發(fā)展也受到限制。國內(nèi)對于數(shù)據(jù)挖掘軟件的研究大部分還處于科研階段。國外數(shù)據(jù)挖掘軟件在國內(nèi)使用面臨漢化、漢字庫支持、用戶習(xí)慣、適應(yīng)國情等問題。而且?guī)缀鯖]有面向圖書館應(yīng)用的專業(yè)數(shù)據(jù)挖掘軟件, 只有一些網(wǎng)絡(luò)專業(yè)信息挖掘工具。
( 3) 已有數(shù)據(jù)挖掘軟件有待改進。目前主流的數(shù)據(jù)挖掘軟件專業(yè)化水平太高, 易用性與通用性不夠, 培訓(xùn)時間較長, 上手慢。同時需提高挖掘結(jié)果的可理解性, 即數(shù)據(jù)挖掘技術(shù)應(yīng)進一步為用戶理解和接受, 也可理解為如何用用戶的語言來表達知識。
( 4) 數(shù)據(jù)挖掘軟件處理數(shù)據(jù)的能力需進一步提高。處理數(shù)據(jù)的能力不僅指能處理海量的數(shù)據(jù), 還包括能處理各種類型數(shù)據(jù)和數(shù)據(jù)源?,F(xiàn)在的原始數(shù)據(jù)的格式越來越多樣化, 盡管在數(shù)據(jù)挖掘進行之前要通過數(shù)據(jù)倉庫對最初的數(shù)據(jù)進行初步篩選, 但基本上不會影響其數(shù)據(jù)形式。所以, 數(shù)據(jù)挖掘軟件必須提高對于各種類型數(shù)據(jù), 包括半結(jié)構(gòu)和無結(jié)構(gòu)數(shù)據(jù)的處理能力, 其算法必須是高效率的、可伸縮的。
參考文獻
1 張存祿,黃培清,王子萍.數(shù)據(jù)挖掘在圖書采購中的應(yīng)用.情報科學(xué),2004( 5)
2 李瑋平. 基于數(shù)據(jù)挖掘的圖書館讀者需求分析. 圖書館論壇,2004( 3)
3 何少卓. 淺談數(shù)據(jù)挖掘及其在圖書館的應(yīng)用. 圖書館界,2004( 3)
4 潘衛(wèi)東.WEB 的數(shù)據(jù)挖掘.圖書館論壇,2004( 1)