摘 要:隨著計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)以及存儲(chǔ)技術(shù)的飛速發(fā)展,數(shù)字圖書(shū)館的電子資源也在日益增加。眾多種類(lèi)的數(shù)據(jù)庫(kù)在存儲(chǔ)、發(fā)布尤其是檢索方式上的多樣性讓用戶在使用過(guò)程中感到越來(lái)越多的不便。構(gòu)建數(shù)字圖書(shū)館統(tǒng)一檢索成為數(shù)字圖書(shū)館目前最主要的發(fā)展方向。
關(guān)鍵詞:數(shù)字圖書(shū)館 元數(shù)據(jù)倉(cāng)儲(chǔ) 統(tǒng)一檢索
中圖分類(lèi)號(hào):G250.73文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2014)05(b)-0194-01
統(tǒng)一檢索作為一種伴隨著數(shù)字圖書(shū)館的發(fā)展而產(chǎn)生的新興技術(shù),已經(jīng)成為了數(shù)字圖書(shū)館主要的研究方向。但從應(yīng)用到實(shí)踐中,分布在異構(gòu)環(huán)境下的數(shù)字信息資源異常復(fù)雜,涵蓋軟硬件系統(tǒng)、操作系統(tǒng)、數(shù)據(jù)庫(kù)系統(tǒng)、通信網(wǎng)絡(luò)模型、數(shù)據(jù)自身結(jié)構(gòu)以及應(yīng)用程序等多方面的異構(gòu),使得建立一個(gè)統(tǒng)一的檢索平臺(tái)變得沒(méi)那么簡(jiǎn)單。目前解決異構(gòu)數(shù)據(jù)源的集成技術(shù)通常有以下三種模型:聯(lián)邦數(shù)據(jù)庫(kù)模型、中間件模型和元數(shù)據(jù)倉(cāng)庫(kù)模型。以上所述的創(chuàng)建集成架構(gòu)技術(shù)各有利弊,而元數(shù)據(jù)倉(cāng)儲(chǔ)技術(shù)是以元數(shù)據(jù)為檢索單位的方式改變了用戶對(duì)整個(gè)平臺(tái)的認(rèn)識(shí),通過(guò)調(diào)用元數(shù)據(jù)預(yù)先查重索引,為讀者提供了新的網(wǎng)絡(luò)搜索引擎方式的檢索體驗(yàn)。
1 關(guān)于數(shù)字圖書(shū)館元數(shù)據(jù)
1.1 元數(shù)據(jù)概述
元數(shù)據(jù)在眾多領(lǐng)域都有其具體的定義和應(yīng)用,其中得到最廣泛認(rèn)可的概述是:關(guān)于數(shù)據(jù)的數(shù)據(jù),即描述任意一資源結(jié)構(gòu)化的數(shù)據(jù)。數(shù)字圖書(shū)館的主要組成部分之一就是數(shù)字信息資源,而這些資源必須是可以被標(biāo)識(shí)并且這種標(biāo)識(shí)類(lèi)型是唯一的。元數(shù)據(jù)通過(guò)對(duì)信息資源屬性的描述來(lái)完成對(duì)信息資源的標(biāo)識(shí),是數(shù)字圖書(shū)館應(yīng)用部分的重要基礎(chǔ)工具。元數(shù)據(jù)標(biāo)準(zhǔn)框架主要由三部分組成:以數(shù)字圖書(shū)館系統(tǒng)為核心的元數(shù)據(jù)標(biāo)準(zhǔn)、元數(shù)據(jù)語(yǔ)義規(guī)則與元數(shù)據(jù)擴(kuò)展機(jī)制。
1.2 定義及整合圖書(shū)館信息資源元數(shù)據(jù)
在圖書(shū)館原有的元數(shù)據(jù)基礎(chǔ)上,采用基于核心元數(shù)據(jù)標(biāo)準(zhǔn),利用擴(kuò)展機(jī)制,對(duì)元數(shù)據(jù)進(jìn)行整合。制定元數(shù)據(jù)相關(guān)應(yīng)用方案:包括名稱(chēng)、標(biāo)識(shí)(元素的唯一標(biāo)識(shí))、定義(對(duì)元素概念的說(shuō)明)、可選性(說(shuō)明元素是必須使用的還是可選擇的)、數(shù)據(jù)類(lèi)型、最大出現(xiàn)次數(shù)、值域(元素的取值范圍)、注釋?zhuān)▽?duì)元素的補(bǔ)充說(shuō)明、錄入格式的建議等)。
2 元數(shù)據(jù)存儲(chǔ)管理系統(tǒng)的實(shí)現(xiàn)原理
2.1 元數(shù)據(jù)應(yīng)用流程(圖1)
2.2 元數(shù)據(jù)建設(shè)對(duì)象是多種多樣的
元數(shù)據(jù)建設(shè)主要包括各類(lèi)自建資源、商業(yè)引進(jìn)資源;建設(shè)語(yǔ)種有中文、外文;資源類(lèi)型涵蓋電子書(shū)、電子期刊、會(huì)議論文、報(bào)紙等;收錄元數(shù)據(jù)描述字段詳見(jiàn)前文關(guān)于“定義及整合圖書(shū)館信息資源元數(shù)據(jù)”中對(duì)于元數(shù)據(jù)標(biāo)準(zhǔn)的描述。
2.3 數(shù)據(jù)收割工具
通過(guò)收割、轉(zhuǎn)換、集成把各文獻(xiàn)數(shù)據(jù)庫(kù)中的數(shù)據(jù)存儲(chǔ)到元數(shù)據(jù)倉(cāng)庫(kù)中。該技術(shù)分成3個(gè)部分:
(1)第一部分是已經(jīng)完成了的電子圖書(shū)元數(shù)據(jù)、電子中文期刊元數(shù)據(jù)和外文期刊元數(shù)據(jù)等元數(shù)據(jù)的收割,這些可以直接進(jìn)入到元數(shù)據(jù)倉(cāng)庫(kù)中;(2)第二部分為還未收集的部分,利用基于OAI-PMH協(xié)議為工具進(jìn)行收割,但是采用這種方法收集元數(shù)據(jù)的案例,基本都是應(yīng)用在開(kāi)放存?。∣A)的資源或以聯(lián)盟模式建設(shè)的資源,一般的商業(yè)性學(xué)術(shù)資源通常都不太支持OAI的數(shù)據(jù)收集。因?yàn)椴捎肙AI技術(shù)收集元數(shù)據(jù)的前提必須是資源提供者愿意開(kāi)放Data-Provider接口;如自主采集或自建的信息數(shù)據(jù)可以通過(guò)此標(biāo)準(zhǔn)接口進(jìn)行元數(shù)據(jù)收集;(3)第三部分,對(duì)于不支持OAI-PMH協(xié)議的文獻(xiàn)數(shù)據(jù)庫(kù)可利用基于網(wǎng)頁(yè)分析的元數(shù)據(jù)抓取工具spider,將不支持OAI-PMH的元數(shù)據(jù)抓取保存到元數(shù)據(jù)庫(kù)中,創(chuàng)建到可參與整合檢索的本地庫(kù)。
3 本地元數(shù)據(jù)處理流程
3.1 數(shù)據(jù)收割
前文已經(jīng)介紹了通過(guò)三種收割技術(shù)來(lái)完成本地資源以及特色數(shù)據(jù)庫(kù)等的元數(shù)據(jù)收割,然后將收割到的元數(shù)據(jù)存儲(chǔ)到元數(shù)據(jù)倉(cāng)庫(kù)中,等待下一步的數(shù)據(jù)整理工作。整個(gè)數(shù)據(jù)收割中將使用到了OAIS(開(kāi)發(fā)的資源倉(cāng)儲(chǔ)系統(tǒng)參考規(guī)范)、OAI-PMH(元數(shù)據(jù)收割協(xié)議)、Z39.50等協(xié)議。
3.2 數(shù)據(jù)整理
數(shù)據(jù)整理的主要工作是對(duì)收割好的元數(shù)據(jù)進(jìn)行查重并形成規(guī)范化,方便元數(shù)據(jù)的索引和檢索。
3.3 數(shù)據(jù)更新
整理后的數(shù)據(jù),按照標(biāo)準(zhǔn)字段,建成索引,更新到各個(gè)服務(wù)器。由于海量的檢索,并且數(shù)據(jù)量異常大,因此每次只需更新當(dāng)前批次處理的非重復(fù)數(shù)據(jù),即補(bǔ)充式更新。
4 元數(shù)據(jù)搜索引擎系統(tǒng)
通過(guò)集成資源調(diào)度系統(tǒng),對(duì)各類(lèi)異構(gòu)的數(shù)字文獻(xiàn)資源進(jìn)行再次整合。例如元數(shù)據(jù)搜索引擎利用分析型檢索實(shí)現(xiàn)了文章名、主題、關(guān)鍵詞、文摘、責(zé)任者等檢索項(xiàng)的檢索,系統(tǒng)為用戶提供統(tǒng)一的檢索界面和檢索語(yǔ)言,使用戶能夠同時(shí)檢索本地及異地的各種信息資源系統(tǒng);檢索內(nèi)容包括原文、文摘、相關(guān)文獻(xiàn);檢索形式包括簡(jiǎn)單檢索、高級(jí)檢索、二次檢索等。
5 資源調(diào)度系統(tǒng)
統(tǒng)一檢索系統(tǒng)的平臺(tái)是一種多級(jí)調(diào)度系統(tǒng)平臺(tái),是基于OpenURL標(biāo)準(zhǔn),能夠自動(dòng)獲取更新資源包并調(diào)度已有的知識(shí)庫(kù)。資源調(diào)度系統(tǒng)制定的以動(dòng)態(tài)腳本技術(shù)為調(diào)度機(jī)制,便于增加新的資源和服務(wù),從而更有效地實(shí)現(xiàn)資源服務(wù)的調(diào)度。
5.1 資源調(diào)度規(guī)則
(1)最快就近原則:對(duì)不同資源設(shè)定規(guī)定的權(quán)重地位,根據(jù)客戶端實(shí)際的來(lái)源情況判斷,優(yōu)先調(diào)度反應(yīng)最快的資源。
(2)通過(guò)查重合并底層的元數(shù)據(jù),使得檢索結(jié)果不顯示檢索出來(lái)的重復(fù)記錄,但如果讀者需要看到該篇文獻(xiàn)所有的全文資源鏈接,點(diǎn)擊進(jìn)入,那么用戶可自行選擇使用其中任意一個(gè)鏈接。
(3)自動(dòng)傳遞優(yōu)先于人工傳遞:對(duì)于使用率較高的資源系統(tǒng)進(jìn)行自動(dòng)傳遞,自動(dòng)傳遞無(wú)法判斷讀者需求的資源則轉(zhuǎn)入人工傳遞隊(duì)列。
5.2 資源調(diào)度配置
在經(jīng)過(guò)統(tǒng)一認(rèn)證后的資源,系統(tǒng)將會(huì)自動(dòng)判斷該用戶的最高資源使用權(quán)限,若用戶需要獲取的資源權(quán)限高于自身權(quán)限的時(shí)候,系統(tǒng)會(huì)提示超出授權(quán)范圍,并自動(dòng)彈出資源調(diào)度申請(qǐng)表,用戶可自行下載。同時(shí),圖書(shū)館工作人員可根據(jù)圖書(shū)館資源實(shí)際情況調(diào)用含有內(nèi)置的中、外文數(shù)據(jù)庫(kù)資源配置規(guī)則的資源調(diào)度系統(tǒng)。資源獲取分發(fā)規(guī)則是對(duì)權(quán)限內(nèi)的用戶直接提供全文訪問(wèn)的鏈接,無(wú)法直接訪問(wèn)的用戶則提供共享和文獻(xiàn)傳遞功能,將用戶的傳遞需求發(fā)送至收錄該資源的成員館進(jìn)行申請(qǐng)傳遞調(diào)度。
基于元數(shù)據(jù)倉(cāng)儲(chǔ)整合技術(shù)構(gòu)建的數(shù)字圖書(shū)館統(tǒng)一檢索平臺(tái)方案是現(xiàn)代檢索系統(tǒng)中的一條新思路。這種把最底層的元數(shù)據(jù)預(yù)先建立索引概念,進(jìn)而將不同的異構(gòu)數(shù)據(jù)庫(kù)導(dǎo)入一個(gè)全新的數(shù)據(jù)庫(kù)的方式,提高了檢索的速度和效率,也不會(huì)因?yàn)楸姸鄶?shù)據(jù)庫(kù)中某一數(shù)據(jù)庫(kù)的訪問(wèn)失敗而影響整體檢索效率。在年代、二次檢索、學(xué)科聚類(lèi)、高級(jí)檢索、多種文獻(xiàn)同時(shí)檢索等眾多的數(shù)據(jù)處理技術(shù)上,同樣具有無(wú)可比擬的優(yōu)勢(shì),必將成為未來(lái)統(tǒng)一檢索平臺(tái)技術(shù)的巨星。
參考文獻(xiàn)
[1]陳雨祺.高校數(shù)字圖書(shū)館跨平臺(tái)信息檢索初探[J].科技信息,2010(9).
[2]李鵬云.基于元數(shù)據(jù)倉(cāng)儲(chǔ)的圖書(shū)館數(shù)據(jù)整合實(shí)踐[J].圖書(shū)館學(xué)刊,2013(8).