摘要:信息技術(shù)的飛速發(fā)展,改變我們的工作和生活。走進生活,建立相關(guān)的信息系統(tǒng),在信息化的過程中,積累了大量的有用的信息數(shù)據(jù)。在這些浩瀚的數(shù)據(jù)之中存在的大量有價值的信息,提供給我們需要決策支持的企業(yè)和部門。如何充分利用這些數(shù)據(jù),處理和分析信息,是一個有待解決的問題。如今信息化的迅速發(fā)展也給傳統(tǒng)意義上的圖書館帶來了革命性的發(fā)展。各個圖書館管理系統(tǒng)當(dāng)中不斷增加的海量數(shù)據(jù)也越來越被人們所重視,如何較好地利用這些資源,如何能夠挖掘出這大量數(shù)據(jù)下面有用的信息也成為時下最熱門的話題。
關(guān)鍵詞:數(shù)據(jù)挖掘;圖書館;數(shù)字圖書館
中圖分類號:G250 文獻標(biāo)志碼:A 文章編號:1673-291X(2012)27-0241-03
數(shù)據(jù)挖掘技術(shù)是信息世界發(fā)展所得的一種新興事務(wù),應(yīng)用領(lǐng)域越來越廣。從早期的商業(yè)應(yīng)用,發(fā)展到科學(xué)研究、金融行業(yè)、教育教學(xué)等多個領(lǐng)域。并且有了許多成功的應(yīng)用:在科學(xué)實驗中,有專家應(yīng)用決策樹和基于規(guī)則的方法發(fā)現(xiàn)了新的類星體;在零售行業(yè),貨籃分析幫助商店確定貨架布局以促進銷售;在金融領(lǐng)域,孤立點的發(fā)現(xiàn)用以預(yù)測和預(yù)防可疑信用卡交易、惡意透支等;在銷售行業(yè),用來提高銷售的成功率;在制造業(yè),用來控制產(chǎn)品生產(chǎn),降低次品率。
一、數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘技術(shù)是一門交叉學(xué)科,涉及數(shù)據(jù)庫、統(tǒng)計學(xué)、人工智能和機器學(xué)習(xí)等多個領(lǐng)域?!皵?shù)據(jù)挖掘”概念最早是由Usama Fayaad 1995年提出的。因為數(shù)據(jù)挖掘技術(shù)所涉及的領(lǐng)域比較廣,所以現(xiàn)在還不能有一個能包括所有領(lǐng)域的全面的定義。但是比較完整的定義要算是從技術(shù)方面給其定義的。數(shù)據(jù)挖掘的技術(shù)定義是這樣描述的:數(shù)據(jù)挖掘(Data Mining)又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database,KDD),就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程,簡單地說,數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識。
這里要說明的是,數(shù)據(jù)挖掘的目的并不僅僅是在數(shù)據(jù)庫中查找記錄。它跟信息檢索的任務(wù)是有區(qū)別的。數(shù)據(jù)挖掘和信息檢索的相同點是從數(shù)據(jù)抽取數(shù)據(jù)和信息。不同之處在于數(shù)據(jù)挖掘?qū)ふ椰F(xiàn)象之間事先未知的關(guān)系和關(guān)聯(lián)。也就是說在數(shù)據(jù)挖掘任務(wù)進行之前我們是沒法兒預(yù)測結(jié)果的。信息檢索是帶有一定目的、用戶預(yù)先可以感知至少是可以在腦海中想象一個抽象的結(jié)果的而檢索的結(jié)果也不會與用戶事先想象的結(jié)果有很大差別。信息檢索是需要用戶明確地提出查詢要求。通俗地來講是信息檢索的目的是幫助用戶從大量的文件中查找到其想要的文檔而數(shù)據(jù)挖掘是為了揭示文件中所隱藏的知識。這兩個是相輔相成的。我們可以使用數(shù)據(jù)挖掘研究出來的結(jié)果來提高信息檢索的精確度提高檢索結(jié)果的“親近性”,從而使信息檢索系統(tǒng)有更高的境界。
二、數(shù)據(jù)挖掘中的幾種重要算法
(一)關(guān)聯(lián)規(guī)則算法
關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘是幫助發(fā)現(xiàn)大量數(shù)據(jù)庫中項集之間的關(guān)聯(lián)關(guān)系。目前這項技術(shù)已成為數(shù)據(jù)挖掘中最成熟、最重要、最活躍的研究內(nèi)容。這種算法已發(fā)展到如教育、科研、醫(yī)學(xué)等各大領(lǐng)域。
1.關(guān)聯(lián)規(guī)則算法的定義
設(shè)I={i1,i2…,im}為所有項目的集合,設(shè)A是一個由項目構(gòu)成的集合,稱為項集。事務(wù)T是一個項目子集,每一個事務(wù)具有唯一的事務(wù)標(biāo)識Tid。事務(wù)T包含項集A,當(dāng)且僅當(dāng)AT。如果項集A中包含k個項目,則稱其為k項集。D為事務(wù)數(shù)據(jù)庫,項集A在事務(wù)數(shù)據(jù)庫D中出現(xiàn)的次數(shù)占D中總事務(wù)的百分比叫做項集的支持度。如果項集的支持度超過用戶給定的最小支持度閾值,就稱該項集是頻繁項集。
關(guān)聯(lián)規(guī)則就是形如XY的邏輯蘊涵關(guān)系,其中XI,YI且XY=Φ,X稱作規(guī)則的前件,Y是結(jié)果,對于關(guān)聯(lián)規(guī)則XY,存在支持度和信任度。
支持度是指規(guī)則中所出現(xiàn)模式的頻率,如果事務(wù)數(shù)據(jù)庫有s%的事務(wù)包含XY,則稱關(guān)聯(lián)規(guī)則XY在D中的支持度為s%,實際上,可以表示為概率P(XY),即support(XY)=
P(XY)。信任度是指蘊涵的強度,即事務(wù)D中c%的包含X的交易同時包含XY。若X的支持度是support(x),規(guī)則的信任度為即為:support(XY)/support(X),這是一個條件概率
P(Y|X),即confidence(XY)= P(Y|X)。
2.關(guān)聯(lián)規(guī)則分類
關(guān)聯(lián)規(guī)則有很多的分類方法,基于規(guī)則中處理的變量的類別,可以分為布爾型和數(shù)值型關(guān)聯(lián)規(guī)則?;谝?guī)則中抽象層次,可以分為單層和多層關(guān)聯(lián)規(guī)則。基于規(guī)則中涉及的數(shù)據(jù)維數(shù),可以分為單維和多維關(guān)聯(lián)規(guī)則。還有時態(tài)、加權(quán)、多支持度、負關(guān)聯(lián)和混合關(guān)聯(lián)規(guī)則等。
在圖書館數(shù)據(jù)挖掘應(yīng)用中,可以使用關(guān)聯(lián)規(guī)則算法對圖書館中讀者借閱數(shù)據(jù)進行挖掘,挖掘出具有置信度和支持度的關(guān)聯(lián)規(guī)則從而快速挖掘出讀者借閱數(shù)據(jù)中的關(guān)聯(lián)關(guān)系,最終可以達到發(fā)現(xiàn)學(xué)科間的隱性關(guān)聯(lián)這樣一個目的。
(二)遺傳算法
遺傳算法是模擬達爾文的遺傳選擇和自然淘汰的生物進化過程的計算模型。當(dāng)前,遺傳算法已表現(xiàn)出良好的應(yīng)用前景,遺傳算法的兩個主要特點是群體搜索策略和群體中個體之間的信息交換,它實際上是模擬由個體組成群體的整體學(xué)習(xí)過程,其中每個個體都是給定問題搜索空間的一個解點。
1.遺傳算法的定義
遺傳算法是從代表問題可能潛在的解集的一個種群開始的,而一個種群則由經(jīng)過基因編碼的一定數(shù)目的個體組成。每個個體實際上是染色體帶有特征的實體。染色體作為遺傳物質(zhì)的主要載體,即多個基因的集合,其內(nèi)部表現(xiàn)是某種基因組合,它決定了個體的形狀的外部表現(xiàn),如黑頭發(fā)的特征是由染色體中控制這一特征的某種基因組合決定的。因此,在一開始需要實現(xiàn)從表現(xiàn)型到基因型的映射即編碼工作。由于仿照基因編碼的工作很復(fù)雜,我們往往進行簡化,如二進制編碼,初代種群產(chǎn)生之后,按照適者生存和優(yōu)勝劣汰的原理,逐代演化產(chǎn)生出越來越好的近似解,在每一代,根據(jù)問題域中個體的適應(yīng)度大小選擇個體,并借助于自然遺傳學(xué)的遺傳算子進行組合交叉和變異,產(chǎn)生出代表新的解集的種群。這個過程將導(dǎo)致種群像自然進化一樣的后生代種群比前代更加適應(yīng)于環(huán)境,末代種群中的最優(yōu)個體經(jīng)過解碼,可以作為問題近似最優(yōu)解。
2.遺傳算法的特點
遺傳算法是解決搜索問題的一種通用算法,對于各種通用問題都可以使用。搜索算法的共同特征為:(1)首先組成一組候選解;(2)依據(jù)某些適應(yīng)性條件測算這些候選解的適應(yīng)度;(3)根據(jù)適應(yīng)度保留某些候選解,放棄其他候選解;(4)對保留的候選解進行某些操作,生成新的候選解。
在遺傳算法中,上述幾個特征以一種特殊的方式組合在一起:基于染色體群的并行搜索,帶有猜測性質(zhì)的選擇操作、交換操作和突變操作。
3.遺傳算法的應(yīng)用
由于遺傳算法的整體搜索策略和優(yōu)化搜索方法在計算時不依賴于梯度信息或其他輔助知識,而只需要影響搜索方向的目標(biāo)函數(shù)和相應(yīng)的適應(yīng)度函數(shù),所以遺傳算法提供了一種求解復(fù)雜系統(tǒng)問題的通用框架,它不依賴于問題的具體領(lǐng)域,對問題的種類有很強的魯棒性,所以廣泛應(yīng)用于許多科學(xué)。
(三)聚類分析
聚類分析又稱群分析,它是研究分類問題的一種統(tǒng)計分析方法。
1.聚類分析的定義
所謂聚類就是按照事物的某些屬性,把事物聚集成類,使類間的相似性盡可能小,類內(nèi)相似性盡可能大。聚類是一個無監(jiān)督的學(xué)習(xí)過程,它與分類的根本區(qū)別在于,分類是需要事先知道所依據(jù)的數(shù)據(jù)特征,而聚類是要找到這個數(shù)據(jù)特征。因此,在很多應(yīng)用中,聚類分析作為一種數(shù)據(jù)預(yù)處理過程,是進一步分析和處理數(shù)據(jù)的基礎(chǔ)。
2.聚類分析常用的算法
(1)劃分方法;(2)層次方法;(3)基于密度的方法;(4)基于網(wǎng)格的方法;(5)基于模型的方法;(6)高維數(shù)據(jù)的聚類法;(7)模糊聚類法。
對圖書館讀者借閱進行聚類算法挖掘,可以使圖書館對讀者借閱規(guī)律的分析和把握、館藏圖書質(zhì)量的判斷等方面有著極積的意義。
三、圖書館應(yīng)用數(shù)據(jù)挖掘技術(shù)的可行性分析
隨著各高校數(shù)字圖書館的逐漸成熟。圖書館用戶信息需求和形式變的更加的多樣化,用戶除了自身的專業(yè)理論知識的需求以外,還需要提高自己的文化素質(zhì)修養(yǎng)和文化欣賞的品位。這樣他們對文獻需求的類型也越來越廣泛。因此,高校圖書館的個性化服務(wù)已成為一個新的發(fā)展趨勢。個性化的服務(wù)需求、用戶的利益已經(jīng)成為書籍以及其他信息資源與圖書館讀者之間的關(guān)聯(lián)。而這些信息庫通過日常業(yè)務(wù)數(shù)據(jù)分析和數(shù)據(jù)挖掘技術(shù)是可以得到的。如:讀者庫中的數(shù)據(jù)記錄,館藏圖書的借還信息等。此外,對圖書館圖書館藏進行數(shù)據(jù)挖掘還可以為圖書館提供更加合理的館藏,把握用戶直接和間接需求并對其提供個性化的服務(wù)起到?jīng)Q策支持的作用。因此在高校圖書館中應(yīng)用數(shù)據(jù)挖掘是可行的。
四、數(shù)據(jù)挖掘在圖書館中可以有哪些應(yīng)用
1.對圖書館的用戶進行數(shù)據(jù)挖掘
從數(shù)字圖書館的大量訪問信息中挖掘用戶的訪問記錄中挖掘、預(yù)測讀者對圖書館中圖書資源的興趣趨向。采用關(guān)聯(lián)規(guī)則和聚類方法發(fā)現(xiàn)不同的用戶群體,然后對這些不同的群體提供信息定制服務(wù),幫助讀者快速發(fā)現(xiàn)、合理應(yīng)用館藏資源。
2.對圖書館藏書結(jié)構(gòu)和讀者借還信息庫進行數(shù)據(jù)挖掘
在讀者使用圖書館資源的過程中將會留下很多有很大用處的讀者自身的基本信息,如讀者所在學(xué)院、所學(xué)專業(yè)信息,借還書的歷史信息和其他有價值的信息,圖書館的工作者可以通過獲取到的這些讀者信息,利用分類、聚類等方法挖掘有價值的數(shù)據(jù),獲得這些信息可以提供個性化的信息服務(wù),即根據(jù)讀者的借閱興趣或借閱大的方向,積極為讀者提供他們可能感興趣的寶貴的館藏資源。通過數(shù)據(jù)挖掘結(jié)果的分析,尋找各學(xué)科領(lǐng)域的一些相關(guān)知識,從而來優(yōu)化圖書館的館藏布局。
3.對數(shù)字圖書館中的文獻流通情況進行數(shù)據(jù)挖掘
目前各大高校圖書館都開設(shè)了數(shù)字圖書館,這種方法可以給讀者更精確的服務(wù)。紙質(zhì)圖書的借還信息工作人員只能跟蹤到書,可以知道哪一本書被借出,借出的頻率有多高,但是并不能知道這本被借出的書籍是否真正被充分利用了,這本書的哪一部分內(nèi)容對讀者有很大的吸引力。這些問題在數(shù)字圖書館中都可以解決,數(shù)字圖書館把整本的書給拆開來。精確到每一篇內(nèi)容,每一個段落甚至可以追蹤每一句話。這樣在當(dāng)讀者在數(shù)字圖書館中留下的記錄中我們可以很輕松地看到該讀者曾看過哪一篇文章??梢圆樵兊侥骋黄恼碌谋灰螖?shù),這有利于管理人員把握讀者的興趣取向,為開展圖書館個性化服務(wù)提供有力的資料保障。同時管理者也可以根據(jù)館內(nèi)資源的補利用頻次指導(dǎo)從而開發(fā)自建數(shù)據(jù)庫,把挖掘出來的那一部分“對讀者很有用處”的文章信息通過分門別類重新整合成不同的子庫。這樣讀者可以根據(jù)自己所需進入不同的子庫當(dāng)中來挑選資料。比較起來在龐大的一個總庫里,在千萬條信息當(dāng)中去篩選自己所需知識要快的多也更精確的多。
五、數(shù)據(jù)挖掘技術(shù)面臨的挑戰(zhàn)和局限性
雖然數(shù)據(jù)挖掘技術(shù)在圖書館中的應(yīng)用是可行的,從理論上也是行之有效的,但是目前這項新的技術(shù)在圖書館中的應(yīng)用還不完善,受到管理水平、硬件水平、自動化程度等客觀條件的制約,真正開發(fā)出一款適合圖書館應(yīng)用的數(shù)據(jù)挖掘軟件還并不多見。數(shù)據(jù)挖掘技術(shù)在圖書館中仍然有著廣闊的應(yīng)用前景,有待進一步深入研究和探討。