耿向華 王桂鳳
摘 要:概述了數(shù)據(jù)挖掘的一般知識(shí),探討了數(shù)據(jù)挖掘在高校圖書(shū)館信息管理與服務(wù)方面的應(yīng)用, 分析了數(shù)據(jù)挖掘在應(yīng)用中存在的問(wèn)題。
關(guān)鍵詞:數(shù)據(jù)挖掘;知識(shí)發(fā)現(xiàn);高校圖書(shū)館
數(shù)據(jù)挖掘是當(dāng)前數(shù)據(jù)庫(kù)研究、開(kāi)發(fā)和應(yīng)用最活躍的分支之一, 它在科學(xué)發(fā)現(xiàn)、商業(yè)零售以及信用管理、醫(yī)學(xué)等領(lǐng)域已得到廣泛應(yīng)用。隨著高校圖書(shū)館自動(dòng)化程度與數(shù)字圖書(shū)館建設(shè)的不斷發(fā)展, 圖書(shū)館要處理和提供的信息越來(lái)越多, 越來(lái)越復(fù)雜。圖書(shū)館如何運(yùn)用這一新技術(shù)挖掘豐富的信息資源, 為服務(wù)讀者和科學(xué)管理提供可靠的依據(jù), 值得圖書(shū)館界深入研究。本文試圖重點(diǎn)探討數(shù)據(jù)挖掘在高校圖書(shū)館信息管理與服務(wù)方面的應(yīng)用。
1 數(shù)據(jù)挖掘的定義與方法
數(shù)據(jù)挖掘(Data Mining, DM) 也稱(chēng)知識(shí)發(fā)現(xiàn)(KnowledgeDiscovery from Database, KDD) , 是從大量的、不完全的、先前不知道的、模糊的、可能有污染的隨機(jī)詳細(xì)數(shù)據(jù)中提取隱含的、潛在有用的信息和知識(shí)的過(guò)程。挖掘的對(duì)象是數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù), 旨在通過(guò)對(duì)數(shù)據(jù)的統(tǒng)計(jì)、分析、綜合、歸納和推理, 揭示事件間的相互關(guān)系, 預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì), 起到輔助實(shí)際工作問(wèn)題求解的作用。整個(gè)知識(shí)發(fā)現(xiàn)過(guò)程由若干挖掘步驟組成:
(1) 數(shù)據(jù)選擇。根據(jù)挖掘要求, 將多個(gè)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行合并處理, 提取與KDD 相關(guān)的數(shù)據(jù), KDD 將主要從這些數(shù)據(jù)中進(jìn)行數(shù)據(jù)提取。
(2) 數(shù)據(jù)預(yù)處理與轉(zhuǎn)換。從與KDD 相關(guān)的數(shù)據(jù)集合中除去明顯錯(cuò)誤的數(shù)據(jù)和冗余的數(shù)據(jù), 進(jìn)一步精減所選數(shù)據(jù)中的有用部分, 縮小處理范圍, 提高數(shù)據(jù)分析質(zhì)量。并將數(shù)據(jù)轉(zhuǎn)換成為規(guī)范形式, 以使數(shù)據(jù)挖掘更有效。
(3) 數(shù)據(jù)挖掘。就是選擇合適的挖掘算法, 對(duì)數(shù)據(jù)進(jìn)行分析,以得出真正合理有用的知識(shí)。
(4) 知識(shí)描述。根據(jù)數(shù)據(jù)挖掘的目的對(duì)提取的信息進(jìn)行分析,把有價(jià)值的信息挑選出來(lái), 將發(fā)現(xiàn)的知識(shí)以用戶(hù)能理解的方式提供給用戶(hù)。
(5) 知識(shí)評(píng)價(jià)。用戶(hù)根據(jù)已有的知識(shí)對(duì)挖掘的結(jié)果進(jìn)行合理性分析, 若有不合理的方面, 再重復(fù)上述步驟, 以保證挖掘結(jié)果的合理性。
2 數(shù)據(jù)挖掘在圖書(shū)館的應(yīng)用
2.1 分析讀者需求, 優(yōu)化信息資源建設(shè)
高校圖書(shū)館的文獻(xiàn)采購(gòu)常常面臨兩個(gè)問(wèn)題: ①每年的文獻(xiàn)購(gòu)置費(fèi)是有限的, 書(shū)庫(kù)、閱覽室等各種可使用的空間也是有限的, 如何有效地使用有限的經(jīng)費(fèi), 充分利用寶貴的空間, 添置讀者真正需要的文獻(xiàn), 提高文獻(xiàn)資源的利用效率; ②根據(jù)學(xué)校的專(zhuān)業(yè)設(shè)置及教學(xué)科研情況, 文獻(xiàn)購(gòu)置費(fèi)在各門(mén)學(xué)科之間如何分配, 各種文獻(xiàn)載體形式之間如何平衡, 才能使文獻(xiàn)購(gòu)置費(fèi)發(fā)揮最大效益。傳統(tǒng)圖書(shū)館大多由專(zhuān)門(mén)采訪(fǎng)人員獨(dú)自確定或與少數(shù)專(zhuān)家商計(jì)決定,不可避免地帶有一定的主觀性以及個(gè)人喜好, 難免造成經(jīng)費(fèi)浪費(fèi)及館藏信息資源的缺漏。利用數(shù)據(jù)挖掘技術(shù)可以解決以上問(wèn)題。圖書(shū)館每天產(chǎn)生大量可以對(duì)采訪(fǎng)工作產(chǎn)生指導(dǎo)作用的數(shù)據(jù),利用模糊聚類(lèi)分析技術(shù),通過(guò)對(duì)圖書(shū)館業(yè)務(wù)系統(tǒng)的借閱、流通狀況、檢索請(qǐng)求及館藏書(shū)目庫(kù)進(jìn)行分析挖掘,按類(lèi)統(tǒng)計(jì)文獻(xiàn)拒借集和頻繁借閱集,并以此分析出文獻(xiàn)的利用率,及時(shí)補(bǔ)充短缺的文獻(xiàn),剔除過(guò)時(shí)的文獻(xiàn)或減少部分文獻(xiàn)的采購(gòu)復(fù)本量。
2.2 加強(qiáng)書(shū)庫(kù)科學(xué)管理, 提高服務(wù)質(zhì)量
書(shū)庫(kù)的頻繁倒架以及圖書(shū)的殘破率、丟失率是經(jīng)常遇到的問(wèn)題, 如何防微杜漸也是值得挖掘的一個(gè)方面。通過(guò)對(duì)歷年借閱數(shù)據(jù)的相關(guān)分析, 增長(zhǎng)幅度相應(yīng)較大的圖書(shū)種類(lèi)在上架的時(shí)候應(yīng)根據(jù)預(yù)測(cè)的趨勢(shì)預(yù)留架位; 通過(guò)對(duì)注銷(xiāo)數(shù)據(jù)的分類(lèi)分析統(tǒng)計(jì)及與樣本庫(kù)比較以確認(rèn)若丟失率超過(guò)一定比例的原因出在哪些方面, 給出在制度上或人員上加強(qiáng)管理的建議。對(duì)于那些借閱頻率較大且連續(xù)續(xù)借的文獻(xiàn), 應(yīng)以量化的方式反饋給采訪(fǎng)部門(mén)以加重采購(gòu)的力度; 對(duì)罰賠款數(shù)據(jù)的挖掘則可提供對(duì)諸如特定書(shū)刊的借閱期限和人員限制等的建設(shè)性建議, 以提高服務(wù)質(zhì)量。
2.3 優(yōu)化數(shù)字圖書(shū)館的信息內(nèi)容
數(shù)字圖書(shū)館是一種數(shù)據(jù)信息系統(tǒng), 這一系統(tǒng)不但擁有內(nèi)容豐富、形式多樣的數(shù)字化信息資源, 而且依賴(lài)于現(xiàn)代高新技術(shù)的支持, 高效地滿(mǎn)足用戶(hù)的需求。目前, 數(shù)字圖書(shū)館的信息內(nèi)容包括大量的數(shù)字化館藏、種類(lèi)繁多的數(shù)據(jù)庫(kù)、全文Web 資源鏈接以及互聯(lián)網(wǎng)上的大量信息。這大量的數(shù)據(jù), 只有通過(guò)組織、分析和挖掘,找出數(shù)據(jù)背后真正有價(jià)值的知識(shí)信息, 才是用戶(hù)實(shí)際需要的。采用數(shù)據(jù)挖掘技術(shù), 將其用于數(shù)字圖書(shū)館的信息發(fā)現(xiàn)和信息提供的全過(guò)程, 可向用戶(hù)提供更優(yōu)化的信息服務(wù), 滿(mǎn)足用戶(hù)的個(gè)性化需求。
2.4 針對(duì)用戶(hù)特點(diǎn)提供個(gè)性化服務(wù)
有了數(shù)據(jù)挖掘技術(shù), 圖書(shū)館完全可以根據(jù)用戶(hù)以前借閱的文獻(xiàn)資料, 甚至經(jīng)常訪(fǎng)問(wèn)的網(wǎng)頁(yè)(Web 服務(wù)器訪(fǎng)問(wèn)日志) 進(jìn)行分析、挖掘, 進(jìn)行用戶(hù)的背景分析、用戶(hù)群體的分類(lèi)分析、用戶(hù)偏好分析、用戶(hù)檢索滿(mǎn)意度分析等, 了解他們的興趣愛(ài)好、研究方向, 得出特定用戶(hù)的特定檢索規(guī)律和知識(shí)模型, 無(wú)需用戶(hù)先提出信息請(qǐng)求, 便可確定個(gè)性化服務(wù)內(nèi)容, 主動(dòng)將相關(guān)文獻(xiàn)送到他們手中。個(gè)性化服務(wù)的內(nèi)容包括: ( 1) 當(dāng)發(fā)現(xiàn)新的相關(guān)信息或書(shū)目數(shù)據(jù)時(shí), 及時(shí)推送給用戶(hù); ( 2) 當(dāng)用戶(hù)訪(fǎng)問(wèn)圖書(shū)館網(wǎng)站時(shí), 根據(jù)用戶(hù)的興趣度, 為用戶(hù)提供定制的Web 頁(yè)面; ( 3) 跟蹤用戶(hù)的興趣變化模式, 發(fā)現(xiàn)用戶(hù)的最新需要; ( 4) 根據(jù)用戶(hù)的興趣, 提供相應(yīng)的預(yù)測(cè)報(bào)告、動(dòng)態(tài)分析等, 提供個(gè)性化決策支持服務(wù)。個(gè)性化服務(wù)的過(guò)程包括: 構(gòu)建個(gè)性化用戶(hù)動(dòng)態(tài)需求模型; 搜索、挖掘針對(duì)特定需求的相關(guān)信息; 按照特定主題, 將搜索、挖掘到的信息進(jìn)行過(guò)濾、加工和組合, 整合成相對(duì)完整的信息集合; 以在線(xiàn)或離線(xiàn)形式, 主動(dòng)發(fā)送給用戶(hù); 按照特定主題, 對(duì)信息集合進(jìn)行分析開(kāi)發(fā), 產(chǎn)生新的知識(shí); 以在線(xiàn)或離線(xiàn)形式, 主動(dòng)發(fā)送到用戶(hù)。
3 在應(yīng)用中存在的問(wèn)題
當(dāng)前在圖書(shū)館應(yīng)用中, 數(shù)據(jù)挖掘技術(shù)還存在一些問(wèn)題。
( 1) 缺少數(shù)據(jù)挖掘人才。數(shù)據(jù)挖掘技術(shù)是新興的數(shù)據(jù)分析技術(shù), 是多學(xué)科知識(shí)的綜合, 涵蓋了數(shù)據(jù)庫(kù)技術(shù)、統(tǒng)計(jì)學(xué)、可視化技術(shù)、信息科學(xué)、機(jī)器學(xué)習(xí)等多方面知識(shí)。目前圖書(shū)館缺少精通數(shù)據(jù)挖掘技術(shù)的綜合性人才, 而對(duì)大型數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)有感性認(rèn)識(shí)的就更少了。
( 2) 缺少?lài)?guó)產(chǎn)數(shù)據(jù)挖掘軟件。國(guó)外關(guān)于數(shù)據(jù)挖掘軟件相關(guān)技術(shù)的研究和開(kāi)發(fā)已經(jīng)很先進(jìn)。國(guó)內(nèi)由于數(shù)據(jù)積累不夠充分、全面,業(yè)務(wù)模型構(gòu)建困難及缺少有經(jīng)驗(yàn)的實(shí)施者等諸多原因, 數(shù)據(jù)挖掘未能得到很好的應(yīng)用, 而軟件的發(fā)展也受到限制。國(guó)內(nèi)對(duì)于數(shù)據(jù)挖掘軟件的研究大部分還處于科研階段。國(guó)外數(shù)據(jù)挖掘軟件在國(guó)內(nèi)使用面臨漢化、漢字庫(kù)支持、用戶(hù)習(xí)慣、適應(yīng)國(guó)情等問(wèn)題。而且?guī)缀鯖](méi)有面向圖書(shū)館應(yīng)用的專(zhuān)業(yè)數(shù)據(jù)挖掘軟件, 只有一些網(wǎng)絡(luò)專(zhuān)業(yè)信息挖掘工具。
( 3) 已有數(shù)據(jù)挖掘軟件有待改進(jìn)。目前主流的數(shù)據(jù)挖掘軟件專(zhuān)業(yè)化水平太高, 易用性與通用性不夠, 培訓(xùn)時(shí)間較長(zhǎng), 上手慢。同時(shí)需提高挖掘結(jié)果的可理解性, 即數(shù)據(jù)挖掘技術(shù)應(yīng)進(jìn)一步為用戶(hù)理解和接受, 也可理解為如何用用戶(hù)的語(yǔ)言來(lái)表達(dá)知識(shí)。
( 4) 數(shù)據(jù)挖掘軟件處理數(shù)據(jù)的能力需進(jìn)一步提高。處理數(shù)據(jù)的能力不僅指能處理海量的數(shù)據(jù), 還包括能處理各種類(lèi)型數(shù)據(jù)和數(shù)據(jù)源。現(xiàn)在的原始數(shù)據(jù)的格式越來(lái)越多樣化, 盡管在數(shù)據(jù)挖掘進(jìn)行之前要通過(guò)數(shù)據(jù)倉(cāng)庫(kù)對(duì)最初的數(shù)據(jù)進(jìn)行初步篩選, 但基本上不會(huì)影響其數(shù)據(jù)形式。所以, 數(shù)據(jù)挖掘軟件必須提高對(duì)于各種類(lèi)型數(shù)據(jù), 包括半結(jié)構(gòu)和無(wú)結(jié)構(gòu)數(shù)據(jù)的處理能力, 其算法必須是高效率的、可伸縮的。
參考文獻(xiàn)
1 張存祿,黃培清,王子萍.數(shù)據(jù)挖掘在圖書(shū)采購(gòu)中的應(yīng)用.情報(bào)科學(xué),2004( 5)
2 李瑋平. 基于數(shù)據(jù)挖掘的圖書(shū)館讀者需求分析. 圖書(shū)館論壇,2004( 3)
3 何少卓. 淺談數(shù)據(jù)挖掘及其在圖書(shū)館的應(yīng)用. 圖書(shū)館界,2004( 3)
4 潘衛(wèi)東.WEB 的數(shù)據(jù)挖掘.圖書(shū)館論壇,2004( 1)