摘 要:通過對數(shù)據(jù)挖掘技術(shù)以及圖書館個性化服務(wù)相關(guān)內(nèi)容的介紹,探討了數(shù)據(jù)挖掘在數(shù)字化圖書館中的應(yīng)用,說明數(shù)據(jù)挖掘技術(shù)在數(shù)字圖書館應(yīng)用的必要性,以及在提升圖書館服務(wù)質(zhì)量和服務(wù)水平方面的發(fā)揮的重要作用。
關(guān)鍵詞:數(shù)據(jù)挖掘;個性化服務(wù);數(shù)字圖書館
數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、新穎的、可被人理解的、但又是潛在有用的模式的過程。其主要特點(diǎn)是對數(shù)據(jù)庫中的大量數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助決策的關(guān)鍵性數(shù)據(jù)。
⑴數(shù)值數(shù)據(jù)挖掘,通常稱為數(shù)據(jù)挖掘,它的任務(wù)一般可以分為描述和預(yù)測兩類,具體地說,挖掘功能包括發(fā)現(xiàn)概念/類描述、關(guān)聯(lián)、分類、預(yù)測、聚類、趨勢分析、偏差分析和類似性分析。常見的數(shù)據(jù)挖掘方法主要有:歸納學(xué)習(xí)方法、仿生物技術(shù)、公式發(fā)現(xiàn)、統(tǒng)計(jì)分析方法、模糊數(shù)學(xué)方法、決策樹、遺傳算法、貝葉斯信念網(wǎng)絡(luò)、粗糙集及可視化技術(shù)等,由于各種方法都有自身的功能特點(diǎn)以及應(yīng)用領(lǐng)域。⑵文本數(shù)據(jù)挖掘是面向文本信息的數(shù)據(jù)挖掘。當(dāng)數(shù)據(jù)挖掘的對象完全由文本類型組成時,結(jié)合使用數(shù)據(jù)挖掘算法與信息檢索算法對巨量文本信息進(jìn)行自動化信息處理與分析的過程叫文本數(shù)據(jù)挖掘。它包括特征提取、文本摘要、文本分類與聚類、概念操作以及探索性數(shù)據(jù)分析等工作。⑶基于Web的數(shù)據(jù)挖掘。Web數(shù)據(jù)挖掘的定義是:針對包括Web頁面內(nèi)容、頁面之間的結(jié)構(gòu)、用戶訪問信息、電子商務(wù)信息等在內(nèi)的各種Web數(shù)據(jù),應(yīng)用數(shù)據(jù)挖掘方法以發(fā)現(xiàn)有用的知識來幫助人們從WWW中提取知識,改進(jìn)站點(diǎn)設(shè)計(jì),更好地開展電子商務(wù)。
1 圖書館的個性化服務(wù)概述
所謂個性化服務(wù),就是服務(wù)要體現(xiàn)個性,同時具有主動性的特點(diǎn),實(shí)現(xiàn)個性化服務(wù)的關(guān)鍵是在“信息找人”過程中什么信息找什么人。其本質(zhì)就是對于不同的人、不同的要求提供不同的服務(wù),以滿足不同用戶的特定需求。常見的服務(wù)方式有個性化推薦、個性化檢索、個性化網(wǎng)站。個性化推薦服務(wù)如信息推送服務(wù),一種按用戶指定時間或發(fā)生的事件把用戶選定的數(shù)據(jù)自動發(fā)送給用戶的技術(shù),其本質(zhì)就是主動性服務(wù),幾乎不需要用戶做什么事,系統(tǒng)自動按照用戶的信息需求提供相應(yīng)的服務(wù)。個性化主動服務(wù)將使用戶通過盡可能小的努力獲得盡可能好的服務(wù)。數(shù)字圖書館的個性化信息服務(wù)首先就是要為用戶創(chuàng)建個性化的信息資源庫,即個人數(shù)據(jù)庫。通過圖書館網(wǎng)絡(luò),用戶向圖書館系統(tǒng)提交所定制的個性化信息,用于構(gòu)建個人信息數(shù)據(jù)庫,建立個性化網(wǎng)站。針對不同的個人信息,即對不同的用戶采用不同的服務(wù)策略,提供不同的服務(wù)內(nèi)容,如提供個人書架和信息檢索服務(wù)等,不同人的個人書架內(nèi)容是不完全相同的;對于相同的檢索提問,系統(tǒng)反饋給專家的以及普通用戶的內(nèi)容應(yīng)該有所區(qū)別的。
2 數(shù)據(jù)挖掘在圖書館個性化服務(wù)中應(yīng)用
2.1 優(yōu)化館藏資源配置,提高資源利用率
傳統(tǒng)圖書館資源的配置、服務(wù)的提供,由于受人工采集信息的影響,因此不可避免的受到采集者的知識層次、知識結(jié)構(gòu)以及個人愛好等因素的影響,而帶有主觀性。采用數(shù)據(jù)挖掘技術(shù)則可以較好的解決這一問題。(1)利用數(shù)據(jù)挖掘技術(shù),對流通記錄、檢索請求等日志數(shù)據(jù)進(jìn)行分析,就可以得到各類文獻(xiàn)流通借閱情況,了解讀者的借閱行為和愛好。根據(jù)這些信息,有針對性的補(bǔ)充和豐富文獻(xiàn)資源,剔除過時文獻(xiàn)資源,或減少文獻(xiàn)信息資源的副本數(shù),甚至可以根據(jù)這些挖掘信息,調(diào)整圖書館的人力、物力資源的分配,從而達(dá)到資源優(yōu)化配置,合理布局目的。(2)對數(shù)字圖書館的結(jié)構(gòu)進(jìn)行挖掘,目的是發(fā)現(xiàn)數(shù)字圖書館頁面的結(jié)構(gòu)和結(jié)構(gòu)模式,在此基礎(chǔ)上對頁面進(jìn)行分類和聚類,或?qū)ο嚓P(guān)網(wǎng)頁進(jìn)行分析,從而可以評價(jià)網(wǎng)頁的質(zhì)量,優(yōu)化檢索方式,指導(dǎo)網(wǎng)站建設(shè),便利用戶對數(shù)字圖書館使用,提高數(shù)字圖書館的利用率。
2.2 完善信息資源建設(shè),提升個性化服務(wù)質(zhì)量
通過對流通記錄、檢索請求等日志信息的挖掘,所得到的信息,可以對圖書館的讀者群有一定的了解,但對于完善信息資源建設(shè),提升個性化服務(wù)質(zhì)量,還是不夠的。完善信息資源建設(shè),需要多方面的收集信息資源,提升個性化服務(wù)質(zhì)量,就需要對讀者有一個比較準(zhǔn)確和全面的了解,在前面提到的數(shù)據(jù)挖掘的基礎(chǔ)上,還要從以下幾個方面進(jìn)行挖掘:
(1)對數(shù)字圖書館的內(nèi)容進(jìn)行挖掘?;跀?shù)字圖書館的內(nèi)容的挖掘是通過對數(shù)字圖書館信息的模式識別和分析理解,從中發(fā)現(xiàn)有意義的知識。根據(jù)某一領(lǐng)域的信息需求,自動捕捉、采集和整理領(lǐng)域所需信息, 過濾無用冗余信息,通過信息推送等方式,直接數(shù)據(jù)挖掘所發(fā)現(xiàn)的知識,提供給讀者,主動提供個性化服務(wù)。
(2)對數(shù)字圖書館的用戶進(jìn)行挖掘。從數(shù)字圖書館的大量訪問信息中挖掘用戶的訪問模式、訪問興趣,采用關(guān)聯(lián)性法則和聚類方法發(fā)現(xiàn)不同的用戶群體,然后對這些不同的群體提供信息定制服務(wù)。同時還可以利用web挖掘所得到的信息,動態(tài)地調(diào)整web頁面,更好地滿足讀者的需要。通過對用戶訪問信息、使用信息的挖掘,在數(shù)字對象和用戶、對象分類和主題之間進(jìn)行模式匹配,采用不同挖掘技術(shù)自動提取知識,從而確定個性化服務(wù)內(nèi)容,提高為用戶知識服務(wù)的自動化水平。
總之,隨著信息技術(shù)的發(fā)展,特別是數(shù)據(jù)挖掘技術(shù)和數(shù)據(jù)庫技術(shù)的在圖書館領(lǐng)域中的應(yīng)用,對圖書館界產(chǎn)生了深遠(yuǎn)的影響,不僅是觀念上的革新,而且潛移默化了傳統(tǒng)圖書館的用戶服務(wù)模式。伴隨智能化技術(shù)的進(jìn)展,個性化服務(wù)有著相當(dāng)廣闊的前景。如何提供優(yōu)質(zhì)的個性化信息服務(wù)應(yīng)當(dāng)是我們始終共同關(guān)注的焦點(diǎn)。
[參考文獻(xiàn)]
[1]牛根義.國內(nèi)圖書館數(shù)據(jù)挖掘研究[J].現(xiàn)代情報(bào).2009(01).
[2]駱穎.基于數(shù)據(jù)挖掘的數(shù)字圖書館個性化服務(wù)[J].硅谷.2009(02).