李惠芳
〔摘 要〕數(shù)據(jù)倉庫作為一個完整的系統(tǒng)能夠有效的把操作型數(shù)據(jù)集成到統(tǒng)一的環(huán)境中以提供決策型數(shù)據(jù)訪問。而這種強大的信息處理和信息分析能力剛好能夠滿足數(shù)字圖書館對數(shù)據(jù)或信息進行深度加工和高度綜合的需求。通過對數(shù)字圖書館數(shù)據(jù)倉庫邏輯模型設(shè)計進行了初步的探索,試圖證明在數(shù)字圖書館建設(shè)中引入數(shù)據(jù)倉庫的可能性和數(shù)據(jù)倉庫在建設(shè)數(shù)字圖書館方面的優(yōu)越性。
〔關(guān)鍵詞〕數(shù)據(jù)倉庫;數(shù)字圖書館;個性化服務(wù)
〔中圖分類號〕G250.76 〔文獻標識碼〕C 〔文章編號〕1008-0821(2009)02-0087-03
Study on Data Warehouse Development of
Personalized Service of Digital LibraryLi Huifang
(Jiaying College,Meizhou 514015,China)
〔Abstract〕As a complete system,data warehouse can effectively integrate the operational data into a unified data-environment in order to provide decision-making data access.This powerful information processing and information analysis capability can meet the digital library of in-depth information or data processing and highly integrated.Through the digital library data warehouse logical model of a preliminary design exploration,this paper has made an attempt to prove that the building of digital libraries in the possibility of the introduction of data warehouse and data storage in the building of the advantages of digital libraries.
〔Key words〕data warehouse;digital library;personalized service
1 數(shù)據(jù)倉庫開發(fā)的方法
數(shù)據(jù)倉庫的開發(fā)是一個大的工程,在數(shù)字圖書館建設(shè)過程中,數(shù)據(jù)倉庫的開發(fā)可以采取面向單個主題的單線程開發(fā)辦法。因為:
(1)數(shù)據(jù)倉庫是以數(shù)據(jù)為基礎(chǔ)的,數(shù)據(jù)倉庫的創(chuàng)建是從數(shù)據(jù)出發(fā)的即“數(shù)據(jù)驅(qū)動”。而數(shù)字圖書館處于建設(shè)初期,沒有大量可供集成的數(shù)據(jù)源。也就無法滿足數(shù)據(jù)倉庫全面開發(fā)需求。
(2)數(shù)據(jù)倉庫的需求不可能在初期明確獲知。這就意味著開發(fā)過程中會隨時做出結(jié)構(gòu)上的修改,全面開發(fā)將會加大做出相應(yīng)調(diào)整的工作量。
(3)數(shù)據(jù)倉庫是面向主題的,不同的主題之間沒有非常密切的聯(lián)系。因此針對不同主題可以逐個開發(fā),最后可以組成完整的數(shù)據(jù)倉庫系統(tǒng)。フ庋做的好處是:能夠節(jié)省開發(fā)成本;比較快的完成針對某一主題的開發(fā),短期內(nèi)獲得數(shù)字圖書館所需要的一些功能;之前開發(fā)所積累的經(jīng)驗,還能為后續(xù)開發(fā)提供支持。
2 數(shù)據(jù)倉庫開發(fā)的主題
數(shù)字圖書館的個性化服務(wù)歸根結(jié)底是面向讀者的。個性化服務(wù)本身也需要根據(jù)讀者特殊的喜好、需求來提供針對性的服務(wù)。也就是說,實現(xiàn)個性化服務(wù)要針對讀者的需求開展的服務(wù),分析讀者的喜好和需求,盡可能主動地為讀者提供所需要的有針對性的信息服務(wù)。
因此,利用數(shù)據(jù)倉庫實現(xiàn)數(shù)字圖書館個性化服務(wù)就需要以讀者為主題來建立數(shù)據(jù)倉庫。而且由于數(shù)字圖書館擁有大量讀者信息和讀者活動信息這一有利條件,以讀者為主題,還能得到數(shù)字圖書館強有力的原始數(shù)據(jù)支持。
3 數(shù)據(jù)倉庫的數(shù)據(jù)源選擇
為了支持面向讀者的個性化服務(wù),建立數(shù)據(jù)倉庫需要抽取的數(shù)據(jù)源需要包含:
3.1 讀者信息數(shù)據(jù)
讀者的自然情況,包括姓名、性別、職業(yè)等。
3.2 讀者的web站點的訪問記錄
可以利用身份驗證功能,使讀者利用賬號登錄數(shù)字圖書館web站點,實現(xiàn)對每個讀者合法身份的認定,以及訪問歷史的監(jiān)控。
3.3 讀者利用數(shù)字資源的檢索歷史
通過合法認證的讀者,對數(shù)字資源訪問時所留下的痕跡都是可利用資源。這包括,讀者的檢索關(guān)鍵詞還有對查詢結(jié)果的取舍和滿意程度等。
3.4 讀者利用參考咨詢服務(wù)的數(shù)據(jù)
現(xiàn)在的虛擬參考咨詢和傳統(tǒng)參考咨詢服務(wù)都可以提供這一數(shù)據(jù)。而且參考咨詢服務(wù)更具有針對性,讀者提出的請求也更加具體,對于服務(wù)的滿意度也更容易衡量。
3.5 讀者的流通記錄
傳統(tǒng)圖書館業(yè)務(wù)的記錄,對于判斷讀者的偏好也具有非常重要的作用。尤其在高校圖書館,讀者既使用傳統(tǒng)圖書館的流通業(yè)務(wù),還利用數(shù)字圖書館的服務(wù),這樣讀者的流通記錄就更準確,更有利用價值。
4 數(shù)據(jù)倉庫的模型設(shè)計
4.1 概念模型設(shè)計
根據(jù)數(shù)字圖書館的需求和數(shù)據(jù)源的選擇,我們可以設(shè)計出數(shù)據(jù)倉庫的概念模型。利用ER模型圖,我們可以建立一個星型圖來描述數(shù)據(jù)倉庫的實現(xiàn)模式。如圖1。
利用星型圖可以體現(xiàn)數(shù)據(jù)關(guān)系,易于被用戶理解多維數(shù)據(jù)的訪問路徑這個星型圖利用1個包含讀者分析數(shù)據(jù)的事實表和6個包含事務(wù)的維度表來支持多種決策查詢。通過事實表將其他維度表連接起來,維度表就可以通過事實表與其他維度表中的對象發(fā)生關(guān)聯(lián),這樣就能建立起各個維度標志間對象的聯(lián)系。而各個維度表則通過主鍵和事實表聯(lián)系起來。通常事實表不允許修改,新的數(shù)據(jù)只作為增量出現(xiàn)在事實表內(nèi)。維度表則存儲事實表中相應(yīng)數(shù)據(jù)的特征數(shù)據(jù)。
這樣就可以分析維度表獲得關(guān)鍵字,然后連接到事實表進行查詢,減少了直接對事實表的掃描,提高了查詢效率。
4.2 邏輯模型設(shè)計
根據(jù)概念模型我們可以利用ER圖,生成邏輯模型如圖2:
在邏輯模型設(shè)計過程中,我們需要關(guān)注的一個問題就是要統(tǒng)一數(shù)據(jù)倉庫實體的定義。在設(shè)計過程中,各個維度的實體之間存在一定的交錯現(xiàn)象。針對這種情況,在開發(fā)過程中就要對實體進行統(tǒng)一的定義。統(tǒng)一的實體定義可以在開發(fā)過程中減少不必要的空間浪費。因為,數(shù)據(jù)倉庫為了提高數(shù)據(jù)分析效率,大大的增加了核心庫的冗余,這種冗余甚至要達到上G的空間來管理lOM的輸入數(shù)據(jù)。所以,設(shè)計過程中就要避免非規(guī)范結(jié)構(gòu)帶來的空間浪費。對于不同指標的交錯實體,我們可以利用不同層次的粒度把它們聯(lián)系起來。
4.3 物理模型設(shè)計
物理模型是數(shù)據(jù)倉庫最底層的數(shù)據(jù)模型,可以直接生成物理數(shù)據(jù)庫。它是邏輯模型在數(shù)據(jù)倉庫中的實現(xiàn),包括數(shù)據(jù)的物理存儲方式、存儲結(jié)構(gòu)、存儲位置和存儲分配等。其中,物理存儲方式包括多維數(shù)據(jù)存儲和關(guān)系數(shù)據(jù)存儲,多維數(shù)據(jù)存儲在邏輯上是按照數(shù)組存儲數(shù)據(jù),是C/S模式;關(guān)系數(shù)據(jù)存儲按照關(guān)系個是存儲數(shù)據(jù)。
在設(shè)計物理模型的時候我們需要考慮到I/0的存取速度、磁盤空間的利用率和數(shù)據(jù)庫的維護代價等。設(shè)計物理模型時涉及到幾個關(guān)鍵的概念:
4.3.1 指標實體
它的特點是為事實性數(shù)據(jù)提供主焦點:包括多種訪問路徑和維度;包括比較標準化的數(shù)據(jù);可以發(fā)展成為數(shù)據(jù)量大和增長速度快的表;由每個維度的最低類別和信息包圖的指標組成。一般指標實體和指向維度表的外鍵構(gòu)成事實表。
4.3.2 維度實體
他的特點是可以訪問指標實體的主焦點:包含相對非標準化的實體:映射到信息包圖,與之相對應(yīng)的是維度以下的欄;如果物理實施的話通常是小表;包含用于整個維度的粒度,以及一些描述域。維度實體是邏輯上的,它不一定可以直接轉(zhuǎn)化成維表。
4.3.3 詳細類別實體
它是供參考數(shù)據(jù)和供支持數(shù)據(jù);包含特定性的數(shù)據(jù):典型的詳細數(shù)據(jù)實體包含適中的數(shù)據(jù)行,比指標實體少但比維度實體多。詳細類別實體通常也轉(zhuǎn)化成一個物理數(shù)據(jù)庫表,這些實體包
含的數(shù)據(jù)用來給用戶提供更多的定性信息以幫助其進行決策。
5 數(shù)據(jù)倉庫的實現(xiàn)
在數(shù)據(jù)倉庫的實現(xiàn)過程中需要完成:建立數(shù)據(jù)倉庫與業(yè)務(wù)處理系統(tǒng)的接口:完成數(shù)據(jù)倉庫體系結(jié)構(gòu)的建立;進行數(shù)據(jù)倉庫的數(shù)據(jù)初次加載等。
5.1 數(shù)據(jù)倉庫與業(yè)務(wù)處理系統(tǒng)的接口的設(shè)計
這里需要考慮接口與其它系統(tǒng)的集成問題。所以接口需要能面向應(yīng)用和操作環(huán)境生成完整的數(shù)據(jù);數(shù)據(jù)基于時間的轉(zhuǎn)換;數(shù)據(jù)的聚集:對現(xiàn)有數(shù)據(jù)系統(tǒng)的有效掃描,以便今后數(shù)據(jù)倉庫的數(shù)據(jù)追加。
5.2 數(shù)據(jù)倉庫體系結(jié)構(gòu)的建立
邏輯模型和物理模型都完成了設(shè)計,完成數(shù)據(jù)倉庫體系結(jié)構(gòu)的建立之需要現(xiàn)有的數(shù)據(jù)倉庫建立工具中選擇與設(shè)計方案一致的工具來實現(xiàn)。
5.3 數(shù)據(jù)倉庫數(shù)據(jù)的初次加載
在建立了數(shù)據(jù)倉庫體系之后,就可以開始數(shù)據(jù)的初次加載工作。在數(shù)據(jù)加載之前,首先需要對準備加載的數(shù)據(jù)進行清理,即對數(shù)據(jù)按照標準進行格式化處理,這些清理工作可以在一個專門的數(shù)據(jù)清理區(qū)或數(shù)據(jù)準備區(qū)內(nèi)進行。數(shù)據(jù)的清理工作必須嚴格依據(jù)元數(shù)據(jù)的定義進行。一旦數(shù)據(jù)清理結(jié)束,就可以將經(jīng)過凈化和轉(zhuǎn)換的數(shù)據(jù)加載到合適的數(shù)據(jù)倉庫事實表中。在庫中的數(shù)據(jù),以反映剛完成的數(shù)據(jù)加載活動,并對受影響的概括數(shù)據(jù)重新進行概括處理。數(shù)據(jù)的加載活動應(yīng)該使用標準方法和公用工具,這樣可以在提供加載數(shù)據(jù)倉庫最有效方式的同時,最小化定制開發(fā)工具的需要。否則,需要根據(jù)數(shù)據(jù)抽取和轉(zhuǎn)換過程的需要,自行設(shè)計一些定制加載過程。數(shù)據(jù)加載之后,還需要更新元數(shù)據(jù)。
至此,數(shù)字圖書館個性化服務(wù)的數(shù)據(jù)倉庫初步設(shè)計完成。在完成數(shù)據(jù)模型設(shè)計之后,該數(shù)據(jù)倉庫只需要能與數(shù)據(jù)模型的設(shè)計相配合的專業(yè)工具和設(shè)備來具體實現(xiàn)。
6 預(yù)期的效果及其影響
通過對讀者數(shù)據(jù)的集成和綜合,我們可以比較全面對讀者行為進行評估和分析,進而改進和提供相對應(yīng)的服務(wù)。
6.1 可預(yù)期的評估內(nèi)容
利用OLAP技術(shù)可以獲得的評估內(nèi)容包括:以時間為線索,評估不同時間段內(nèi)讀者的閱讀內(nèi)容;以專業(yè)為線索,評估不同專業(yè)讀者的閱讀內(nèi)容;以閱讀量為線索,評估讀者的閱讀內(nèi)容;甚至以丟失、損壞的圖書為線索,評估不良的讀者行為等等。這些內(nèi)容可以直觀的通過圖表來展示。
6.2 可預(yù)期的分析結(jié)果
利用評估內(nèi)容,可以進一步利用數(shù)據(jù)挖掘技術(shù)來對不同線索下,讀者的閱讀傾向加以分析。從而獲得不同類型讀者在不同時間、不同背景下的閱讀傾向,甚至預(yù)測未來的讀者行為傾向。
這些分析結(jié)果可以被圖書館管理人員所利用,用來輔助采購決策;針對性的制定參考咨詢?nèi)蝿?wù);發(fā)現(xiàn)不良的行為的隱藏背景、目的,并采取相應(yīng)措施彌補管理漏洞。系統(tǒng)還可以利用這些結(jié)果判斷讀者需求并自動提供相應(yīng)的個性化服務(wù)。
7 結(jié) 論
隨著數(shù)字圖書館的不斷推廣和發(fā)展,讀者的信息需求不再是過去單純的簡單的數(shù)據(jù)或信息,而是需要經(jīng)過深度加工和高度綜合的信息和知識。而傳統(tǒng)的數(shù)據(jù)庫技術(shù)和信息處理技術(shù)已經(jīng)無法滿足數(shù)字圖書館的更高要求。
數(shù)據(jù)倉庫作為一個完整的系統(tǒng)能夠有效的把操作形數(shù)據(jù)集成到統(tǒng)一的環(huán)境中以提供決策型數(shù)據(jù)訪問。而這種強大的信息處理和信息分析能力剛好能夠滿足數(shù)字圖書館的需求。于是在數(shù)字圖書館建設(shè)中引入數(shù)據(jù)倉庫技術(shù)這一信息處理領(lǐng)域的最新技術(shù)變的非常必要。并相信隨著數(shù)據(jù)倉庫技術(shù)的不斷進步與成熟,其信息處理能力會不斷強大,屆時它將會為我們的數(shù)字圖書館事業(yè)帶來更美好的前景。
參考文獻
[1]袁會香.關(guān)于數(shù)字圖書館個性化信息服務(wù)研究[J].大學(xué)圖書情報學(xué)刊,2005,(6):57-59,73.
[2]陸廣能.數(shù)字圖書館個性化信息檢索中信息推送技術(shù)的應(yīng)用研究[J].電腦知識與技術(shù),2005,(20):9-12.
[3]張開森.數(shù)字檔案館的個性化服務(wù)趨勢[J].檔案與建設(shè),2004,(6):42-43,50.
[4]丁永玲.個性化信息服務(wù)案例分析[J].圖書與情報,2005,(6):85-87.
[5]杜文華.個性化信息過濾系統(tǒng)模型研究[J].科技情報開發(fā)與經(jīng)濟,2006,(1):73-75.