陳紅云
摘 要:數(shù)字圖書館技術的發(fā)展為圖書館服務質(zhì)量以及服務模式的提高提供了契機,傳統(tǒng)的圖書館管理模式已經(jīng)遠遠不能滿足讀者的借閱需求,讀者不僅僅會專注于本專業(yè)所學知識、項目開發(fā)以及科研活動的研究。因此,將數(shù)據(jù)挖掘中的各種技術方法應用于圖書信息的挖掘具有非常重要的現(xiàn)實意義。
關鍵詞:數(shù)字圖書館;數(shù)據(jù)挖掘;數(shù)據(jù)挖掘技術
1 數(shù)字圖書館研究進展
80年代末和90年代初,圖書館自動化向著高度自動化、電子化、網(wǎng)絡化、虛擬化的深度和廣度進軍。進入20世紀90年代,隨著信息技術的長足進步和飛速發(fā)展,隨著Internet的建立和廣泛應用,數(shù)字圖書館成為現(xiàn)代圖書館的發(fā)展趨勢。21世紀初,數(shù)字圖書館及其相關概念,網(wǎng)絡環(huán)境下的館藏發(fā)展、采訪、分類、編目等技術服務、讀者服務以及圖書館員素質(zhì)的提高和角色的轉(zhuǎn)換等均成為主要的研究問題。此外,如何對待、處理和解決數(shù)字圖書館從理論走向現(xiàn)實的技術實現(xiàn)問題也必然成為我們天天要談論的主要話題。如今很多國內(nèi)外研究人員都致力于數(shù)字圖書館發(fā)展的研究過程中,在對其中各種主要技術研究一定水平之后,未來數(shù)字圖書館的發(fā)展模式主要集中在三種類型:特種館藏型模式、服務主導型模式以及商用文獻型模式。數(shù)字圖書館的特點是:收藏數(shù)字化、操作電腦化、傳遞網(wǎng)絡化、信息存貯自由化、資源共享化和結構連接化。
2 數(shù)據(jù)挖掘技術
數(shù)據(jù)挖掘技術功能以及它們可以發(fā)現(xiàn)的模式類型主要包括以下幾個部分:⑴概念/類描述:特征化和區(qū)分。用簡潔的、匯總的和精確的方式描述各個類和概念,這種描述稱為概念/類描述,而要實現(xiàn)這種描述,就需要采用數(shù)據(jù)區(qū)分和數(shù)據(jù)特征化這兩種方法。數(shù)據(jù)特征化(data characterization)是匯總目標類數(shù)據(jù)的一般特性或特征。它的輸出形式包括餅圖、條圖、曲線、多維數(shù)據(jù)立方體和多維表。數(shù)據(jù)區(qū)分是比較目標類數(shù)據(jù)對象和一個或多個對比類對象的一般特性。其輸出提供的形式類似于特征化描述;⑵挖掘頻繁模式、關聯(lián)和相關。頻繁模式是在數(shù)據(jù)中頻繁出現(xiàn)的模式,主要包括項集、子結構和子序列。對頻繁模式的挖掘可以導致發(fā)現(xiàn)數(shù)據(jù)中有趣的關聯(lián)和相關。通常,關聯(lián)規(guī)則必須同時滿足最小支持度閾值和最小置信度閾值,同時也可以發(fā)現(xiàn)相關聯(lián)的屬性-值對之間的有趣的統(tǒng)計相關;⑶分類和預測。分類是找出描述和區(qū)分數(shù)據(jù)類或概念的模型(或函數(shù)),以便能夠使用模型預測類標號未知的對象類。導出的模型可以有多種形式,如分類(IF-THEN)規(guī)則、決策樹、數(shù)學公式或神經(jīng)網(wǎng)絡。預測是建立連續(xù)值函數(shù)模型,而分類預測是用來預測不知道的或空缺的數(shù)值數(shù)據(jù)值。還有其他方法比如回歸分析是一種統(tǒng)計學中最常用的數(shù)值預測方法;⑷聚類分析。與分類和預測不同的是,聚類事先不知道劃分數(shù)據(jù)對象的類標號,在這種情況下對象可以根據(jù)類內(nèi)最大化以及類間最小化的相似性原則進行分組或者聚類;⑸離群點分析。數(shù)據(jù)庫中存在著與一般行為或模型不一致的一些數(shù)據(jù)對象,這些對象叫做離群點。在大多數(shù)情況下人們都會將其視為噪聲或異常而丟棄。然而在一些具體的應用中卻比正常發(fā)生的事件更令人感興趣,比如欺詐檢測,銀行獲取信用卡使用不良記錄者等行為;⑹演變分析。演變分析是描述行為隨時間變化的對象之間的趨勢或規(guī)律,并為其建立模型。這種分析不同于先前所提及的幾種方法,它具體可包括序列或周期模式匹配、時間序列數(shù)據(jù)分析以及基于相似性的數(shù)據(jù)分析等。比如股票交易數(shù)據(jù)挖掘就可以識別整個或者特定公司股票演變規(guī)律,進而為股票投資者提供預測未來股票價格以及市場方向的決策。
3 數(shù)字圖書館中的數(shù)據(jù)挖掘
傳統(tǒng)圖書館是由專門技術人員或者專家通過以往的經(jīng)驗來安排圖書信息的采集,由于存在著各種主觀性,因此在這種情況下信息就有可能不準確。而使用數(shù)據(jù)挖據(jù)技術就會解決上述存在的問題。首先它會充分有效的利用文獻信息,去除過失數(shù)據(jù),使圖書數(shù)據(jù)具有時效性。其次,運用數(shù)據(jù)挖掘技術,可以總結歷史用戶信息來推薦給未來讀者,滿足他們的研究方向和興趣愛好。再者,應用數(shù)據(jù)挖掘檢索技術可以摒棄部分地域、學校以及文獻類別的束縛,為用戶檢索出最全面而又具有很高使用價值的信息。最后借助數(shù)據(jù)挖掘技術可以拓寬圖書信息庫,不僅僅局限于某些大型數(shù)據(jù)庫或者數(shù)據(jù)倉庫,它會使個性化服務推廣到整個網(wǎng)絡,讓讀者獲取最豐富最全面的信息資源。將數(shù)據(jù)挖掘技術應用于數(shù)字圖書館主要從以下幾個方面進行挖掘:(1)對數(shù)字圖書館的內(nèi)容進行挖掘?;跀?shù)字圖書館的內(nèi)容的挖掘是通過對數(shù)字圖書館信息的模式識別和分析理解,從中發(fā)現(xiàn)有意義的知識。根據(jù)某一領域的信息需求,自動捕捉、采集和整理領域所需信息,過濾無用冗余信息,通過信息推送等方式,直接數(shù)據(jù)挖掘所發(fā)現(xiàn)的知識,提供給讀者,主動提供個性化服務。(2)對數(shù)字圖書館的用戶進行挖掘。從數(shù)字圖書館的大量訪問信息中挖掘用戶的訪問模式、訪問興趣,采用關聯(lián)性法則和聚類方法發(fā)現(xiàn)不同的用戶群體,然后對這些不同的群體提供信息定制服務。同時還可以利用web挖掘所得到的信息,動態(tài)地調(diào)整web頁面,更好地滿足讀者的需要。通過對用戶訪問信息、使用信息的挖掘,在數(shù)字對象和用戶、對象分類和主題之間進行模式匹配,采用不同挖掘技術自動提取知識,從而確定個性化服務內(nèi)容,提高為用戶知識服務的自動化水平。(3)此外,收集整理圖書館網(wǎng)上咨詢、薦購書刊等欄目中的數(shù)據(jù),利用數(shù)據(jù)挖掘技術,可以預先發(fā)現(xiàn)讀者群體的興趣,調(diào)整館藏方向,提升館藏資源的針對性。
[參考文獻]
[1]王艷.數(shù)據(jù)挖掘在數(shù)字圖書館中的應用[J].情報科學.2003(02).
[2]馮進.利用數(shù)據(jù)挖掘技術 深入挖掘圖書館工作[J].現(xiàn)代情報.2005(03).
[3]高巨山.數(shù)字圖書館構建中的數(shù)據(jù)挖掘應用研究[J].圖書館工作與研究. 2009(04).
[4]唐吉深.圖書館數(shù)據(jù)挖掘技術研究現(xiàn)狀述評[J].圖書館界.2011(01).