馮 爽
(中鐵十六局集團有限公司,北京 100018)
現(xiàn)階段,國內(nèi)大部分元數(shù)據(jù)設(shè)計方案將都柏林核心(Dublin Core,DC)元數(shù)據(jù)作為核心集,定義特定化的拓展機制并適當(dāng)拓展,可以使用多個不同的元數(shù)據(jù)設(shè)計方案混合模式。
沃里克框架(Warwick Framework)在早期的數(shù)字化圖書館設(shè)計以及元數(shù)據(jù)設(shè)計方案中使用較為頻繁,兼容性非常強大,可以包容多種不同的數(shù)據(jù)表現(xiàn)形式,為元數(shù)據(jù)的封裝提供集成化的表現(xiàn)形式。但沃里克框架在當(dāng)時并未發(fā)展成熟,還屬于簡單化的概念模型,可以通過多種方法或工具實現(xiàn),元數(shù)據(jù)操作問題并未得到妥善解決。1999年萬維網(wǎng)聯(lián)盟(Word Wide Wed Consortium,W3C)正式將XML(Extensible Markup Language)/RDF(Resource Description Framework)作為網(wǎng)絡(luò)資源元數(shù)據(jù)的描述標(biāo)準(zhǔn),結(jié)合實際情況,XML雖然在當(dāng)時并未完全覆蓋整個領(lǐng)域,但大部分研究學(xué)者均看好XML的發(fā)展?jié)摿?,RDF是發(fā)展數(shù)字化圖書館兼容的元數(shù)據(jù)表達形式。
元數(shù)據(jù)體系的映射大致可以細分為兩個層面,分別為語義映射與結(jié)構(gòu)映射。其中,語義映射通常針對描述性的元數(shù)據(jù)體系,如機器可讀目錄(Machine Readable Catalog,MARC)、端點準(zhǔn)入防御(Endpoint Admission Defense,EAD)、DX(Direct Extension)等,可以提供一個元素對照依據(jù),從而精準(zhǔn)描述元數(shù)據(jù)資源的跨庫。結(jié)構(gòu)映射主要用來處理不同元數(shù)據(jù)包間的關(guān)聯(lián)性問題,與“格式轉(zhuǎn)換”類似。
元數(shù)據(jù)體系映射細分為動態(tài)化映射與靜態(tài)化映射。其中,動態(tài)化映射借助中間件將對應(yīng)的指令信息轉(zhuǎn)化為資源站兼容的數(shù)據(jù)格式,信號返回時,將信號內(nèi)容轉(zhuǎn)化為本系統(tǒng)可以識別的元數(shù)據(jù)形式,確保本系統(tǒng)高效完成結(jié)果查詢;靜態(tài)化映射與當(dāng)前使用的搜索引擎差距不大,直接將資源站內(nèi)的數(shù)據(jù)對象提取至本地數(shù)據(jù)庫,結(jié)合本地元數(shù)據(jù)的結(jié)構(gòu)搭建索引,為用戶提供相應(yīng)的功能服務(wù)。
數(shù)字圖書館應(yīng)妥善處理數(shù)字資源的檢索與組織問題?,F(xiàn)階段,大部分設(shè)計方案選擇使用構(gòu)建好的模型體系,通過單獨存在的元數(shù)據(jù)功能實現(xiàn)系統(tǒng)對元數(shù)據(jù)資源的需求。元數(shù)據(jù)服務(wù)應(yīng)具備檢索、保存、內(nèi)容描述、交互操作等功能[1]。
元數(shù)據(jù)自帶識別、傳播、資源定位等相關(guān)內(nèi)容,操作人員可以直接利用元數(shù)據(jù)完成對數(shù)字資源的管理。數(shù)字資源屬性出現(xiàn)波動時,操作人員通過維護元數(shù)據(jù)更新部分重要信息,數(shù)字資源在系統(tǒng)內(nèi)的屬性會自動調(diào)整,保證用戶獲取正確的數(shù)據(jù)信息。數(shù)字資源自身需要進行更正時,操作人員可以利用元數(shù)據(jù)對數(shù)字資源的初始化位置進行定位,更正處理數(shù)字化資源。操作人員可以借助元數(shù)據(jù)分類管理數(shù)字資源,構(gòu)建非真實的資源管理組,形成嶄新的內(nèi)容體系,可以有效提高數(shù)字資源服務(wù)的效率。
社會網(wǎng)絡(luò)環(huán)境下用戶參與的圖書館數(shù)字資源組織與整合的模式如圖1所示。
圖1 社會網(wǎng)絡(luò)環(huán)境下用戶參與的圖書館數(shù)字資源組織與整合的模式
元數(shù)據(jù)在數(shù)字資源中具備較為顯著的優(yōu)勢,被廣泛運用在各種類型的系統(tǒng)開發(fā)活動中。隨著元數(shù)據(jù)在數(shù)字資源中的適用范圍不斷拓寬,為數(shù)字資源在系統(tǒng)內(nèi)的交互提供良好的基礎(chǔ)。元數(shù)據(jù)運用在其他系統(tǒng)時,可以直接與系統(tǒng)預(yù)留的接口進行連接,或?qū)⒃獢?shù)據(jù)轉(zhuǎn)換格式直接導(dǎo)入系統(tǒng),直接發(fā)揮元數(shù)據(jù)的功能。相同類型的數(shù)字資源,只進行一次元數(shù)據(jù)制作就能在多種資源系統(tǒng)內(nèi)使用,具備較強的靈活性。
元數(shù)據(jù)含有數(shù)字資源的定位信息與識別信息,可以幫助系統(tǒng)內(nèi)的資源可以借助無線網(wǎng)實現(xiàn)互通,達到數(shù)據(jù)共享的目的。數(shù)字圖書館將數(shù)字資源下的元數(shù)據(jù)全部存儲在倉儲平臺內(nèi),用戶直接通過檢索獲取需要的內(nèi)容,檢索活動不受時間與空間因素的限制。通過資源定位功能精準(zhǔn)識別全國圖書館的資源,在理論層面實現(xiàn)統(tǒng)一,形成結(jié)構(gòu)完整、內(nèi)容豐富的數(shù)字資源集群[2]。
搭建元數(shù)據(jù)倉儲可以整合全國圖書館中的數(shù)字資源,為用戶提供完整的檢索功能。用戶直接通過檢索關(guān)鍵字獲取需要的信息資源,系統(tǒng)會根據(jù)用戶輸入的檢索關(guān)鍵字在全國數(shù)據(jù)庫中檢索,將收集到的信息資源呈現(xiàn)給用戶,由用戶進行選擇,用戶需要注意數(shù)字資源的存儲問題。
結(jié)合國內(nèi)各圖書館對元數(shù)據(jù)的應(yīng)用研究現(xiàn)狀,國家圖書館主要針對法律、娛樂、歷史方面的元數(shù)據(jù)展開研究分析;北大圖書館主要針對拓片元數(shù)據(jù)展開研究;上海圖書館在1997年開展首個數(shù)字化圖書館建設(shè)項目,隨后結(jié)合自身豐富的經(jīng)驗多次開展數(shù)字化圖書館建設(shè)項目。
館藏資源的智慧數(shù)據(jù)上傳如圖2所示。
圖2 館藏資源的智慧數(shù)據(jù)上傳
(1)利用DC編制圖書館信息。
圖書館應(yīng)最大限度發(fā)揮地方局域網(wǎng)的效能,將計算機應(yīng)用技術(shù)與寬帶技術(shù)作為信息傳播的平臺,將部分關(guān)鍵的館藏資源進行數(shù)字化處理,適當(dāng)引進外部特色,滿足圖書館需要的內(nèi)容建立自身的數(shù)據(jù)庫。
(2)開發(fā)搜索引擎,整合互聯(lián)網(wǎng)相關(guān)信息。圖書館無法滿足每一位用戶的差異性需求,使用DC編著圖書館信息時,還應(yīng)對互聯(lián)網(wǎng)中的信息進行整合編目,通過搭建搜索引擎為用戶提供更豐富的海量資源。
(3)圖書館內(nèi)的管理人員可以直接按照編目標(biāo)準(zhǔn)對元數(shù)據(jù)進行審查,刪除不符合標(biāo)準(zhǔn)的元數(shù)據(jù),保證編目的所有元數(shù)據(jù)全部滿足標(biāo)準(zhǔn)要求,能夠為用戶檢索提供精準(zhǔn)、有效的信息,提高網(wǎng)上資源的利用率。
(4)實現(xiàn)DC與MARC的映射。結(jié)合圖書館的編目工作內(nèi)容,MARC格式屬于較復(fù)雜、經(jīng)過結(jié)構(gòu)化處理的設(shè)計方案內(nèi)容,數(shù)據(jù)加工的效率較低,需要對相關(guān)操作人員進行專業(yè)化培訓(xùn)。DC屬于相對簡單且便于控制的編目方案,可以對已有內(nèi)容進行詳細描述。圖書館可以將DC視為“中介”,實現(xiàn)對元數(shù)據(jù)的格式編目工作,可以滿足用戶的個性化需求。
元數(shù)據(jù)在編目工作中的應(yīng)用如圖3所示。
圖3 元數(shù)據(jù)在編目工作中的應(yīng)用
數(shù)字圖書館的網(wǎng)站首頁應(yīng)提供館內(nèi)資源介紹信息,幫助用戶快速了解圖書館的特點與具體的藏書范圍;公示數(shù)據(jù)庫內(nèi)的全部元數(shù)據(jù),高效引導(dǎo)用戶進一步了解圖書館的檢索內(nèi)容。數(shù)字化圖書館應(yīng)收集檢索歷史內(nèi)容以及存在價值的檢索測量,將元數(shù)據(jù)提供給用戶,幫助用戶制定自身的檢索策略,會在很大限度上提升數(shù)字圖書館與用戶間的黏度。
我國已經(jīng)進入知識經(jīng)濟時代,文件、檔案的效能越來越顯著,信息資源成為行政單位、企業(yè)內(nèi)部的無形資產(chǎn),管理這部分無形資產(chǎn)的方法會對企業(yè)及行政單位日常運轉(zhuǎn)的效率造成巨大影響。電商產(chǎn)業(yè)、互聯(lián)網(wǎng)產(chǎn)業(yè)深入發(fā)展,使文件管理的要求不斷提升。目前,已經(jīng)出現(xiàn)文件、檔案專用數(shù)據(jù)格式,如EAD。
(1)網(wǎng)絡(luò)寬帶數(shù)據(jù)管理規(guī)模非常大。元數(shù)據(jù)主要標(biāo)引不同形式的大規(guī)模數(shù)據(jù),獲取具備代表性的數(shù)據(jù),并非信息本身。
(2)實現(xiàn)信息資源的檢索與發(fā)掘。將元數(shù)據(jù)與數(shù)據(jù)結(jié)構(gòu)運用在數(shù)據(jù)深入分析過程中,可以大幅度提高信息檢索的速度。
(3)可以共享或集成不同結(jié)構(gòu)的信息資源。標(biāo)準(zhǔn)的元數(shù)據(jù)描述完全可以在龐大網(wǎng)絡(luò)環(huán)境中進行對比、集成、共享。
(4)控制限定檢索的信息。元數(shù)據(jù)可以提升異化結(jié)構(gòu)信息資源的檢索速度,管理用戶的檢索范圍,為用戶提供增值服務(wù),保證信息資源的安全性與保密性。
元數(shù)據(jù)在數(shù)字圖書館中的運用至關(guān)重要。數(shù)字圖書館是信息時代的產(chǎn)物,處于蓬勃發(fā)展階段,元數(shù)據(jù)是數(shù)字圖書館建設(shè)的關(guān)鍵技術(shù),使數(shù)字圖書館的信息管理更加合理和科學(xué),提高資源利用率。