基于元模型的數(shù)字資源整合方法的研究與實現(xiàn)

2011-11-17 01:25:00單永剛

現(xiàn)代情報 2011年6期

關鍵詞：元數(shù)據(jù)屬性數(shù)字資源

〔摘要〕元模型思想在數(shù)字資源整合方面有著獨到的作用，文章在分析常用資源整合方法的基礎上，提出了基于元模型的數(shù)字資源整合方法。并結合實例，闡述了該方法的設計原理、建模過程和實際應用，最后對它做了評價。

〔關鍵詞〕數(shù)字資源；元模型；元數(shù)據(jù)；屬性；RDB；RDF/XML

收稿日期：2011－04－02

作者簡介：單永剛（1979－），男，工程師，碩士，研究方向：數(shù)字圖書館技術、計算機軟件技術，發(fā)表論文數(shù)篇。

DOI：10．3969／j．issn．1008－0821．2011．06．021

〔中圖分類號〕G250.76 〔文獻標識碼〕A 〔文章編號〕1008－0821（2011）06－0076－04

Research and Realization of a Method of Digital

Resources Integration Based on Metamodel

Shan Yonggang

（Library，Zhejiang Radio & TV University，Hangzhou 310012，China）

〔Abstract〕Meta-moder-thought plays a unique role in digital resource integration,the paper put forward a method of digital resources integration based on the meta-model after analysing general methods.The paper expounds the design principle,the modeling process and the practical application,and evaluations of the method.

〔Key words〕digital resource;meta-model;metadata;property;RDB;RDF/XML

現(xiàn)代數(shù)字圖書館應具備立體式的資源體系，它們包含著各種不同學科、不同對象、不同表現(xiàn)格式以及不同支撐平臺的資源群，這些資源之間固有的異構特性嚴重影響了數(shù)字圖書館資源服務和管理的整體性。而高效地實現(xiàn)統(tǒng)一檢索、統(tǒng)一管理是數(shù)字圖書館建設者們不斷追求的目標，資源整合正是實現(xiàn)該目標的關鍵過程，當前用得最普遍的整合技術有兩種：一種是基于中間件技術的整合，通過技術處理，在表現(xiàn)層實現(xiàn)整合，稱之為虛擬法整合，另一種方式是基于元數(shù)據(jù)技術的整合，通過對各資源元數(shù)據(jù)的二次開發(fā)，把它們整合到一起，在數(shù)據(jù)層實現(xiàn)整合，即為實體法整合。

基于元模型的數(shù)字資源整合方法正是一種實體法整合，該方法引入了元模型設計思想，在系統(tǒng)中建立一套符合資源著錄標準的元數(shù)據(jù)定義格式，并將資源屬性（或原始數(shù)據(jù)字段）與預設元數(shù)據(jù)模型一一映射，從而實現(xiàn)異構資源的整合。這種方法特別重視過程積累，新建的元模型和元數(shù)據(jù)模型作為資源建設的一種過程資產(chǎn)，可被引用于其它資源元數(shù)據(jù)模型的建立，進而提高資源體系元數(shù)據(jù)格式的規(guī)范性。

1 數(shù)字資源元模型的設計原理

元數(shù)據(jù)的應用十分廣泛，本文所提到的元數(shù)據(jù)僅限于數(shù)字資源描述和管理的范疇，元數(shù)據(jù)作為數(shù)字資源的語義基礎，決定著數(shù)字圖書館資源組織和利用方式，規(guī)范的資源元數(shù)據(jù)模型是實現(xiàn)資源互操作性和開放性的必要條件。

適應數(shù)字資源多元化、多層次描述需求，一般將數(shù)字資源描述體系分4個層次［1］：

①對象層(data)：也叫數(shù)據(jù)層，這里的“數(shù)據(jù)”是指數(shù)字資源本身，如：1本數(shù)字圖書、1個視頻課件等；

②元數(shù)據(jù)層(metadata)：描述資源的數(shù)據(jù)叫元數(shù)據(jù)，它處于資源描述的元數(shù)據(jù)層，也稱為元數(shù)據(jù)模型層，模型即準對某個資源特定的元數(shù)據(jù)模式，如電子圖書元數(shù)據(jù)模型包括書名、分類號、主題等元素；

③元模型層(meta-metadata)：描述元數(shù)據(jù)的數(shù)據(jù)即為元元數(shù)據(jù)，它處于資源描述的元模型層，這一層是元數(shù)據(jù)模型的元素來源，它的產(chǎn)生補充了對元數(shù)據(jù)描述和編輯的空缺，增強了元數(shù)據(jù)的靈活性和可操作性；

④元元模型層(meta-meta model)：描述元元數(shù)據(jù)的數(shù)據(jù)即處于資源描述的元元模型層，這一層用來定義元模型層。

圖1 資源描述模型層次圖

這4個層次是相互迭代的關系，如圖1中某資源的元數(shù)據(jù)模型{A1，B1，C1，D1}取自某類資源的元模型{A2，B2，C2，D2}，其中A2為元數(shù)據(jù)名，B2、C2、D2等是對該元數(shù)據(jù)屬性的描述，如：語義解釋、取值范圍、是否可控等等。元數(shù)據(jù)模型的元素一般取自同類資源的元模型，但也可以根據(jù)需要取自異類資源的元模型。在提取元數(shù)據(jù)元素時，應遵循“按需提取”的原則，只提取用得到的那部分元素即可，如：圖1中元數(shù)據(jù)模型{A1，B1，C1，D1}，并沒有提取元模型{A2，B2，C2，D2}中的元素E1，因為該資源不需要E1元素來參與描述。元模型與元元模型之間的描述關系同理。

元模型的元素與語義沒有必然聯(lián)系，只有當特定資源的元數(shù)據(jù)模型確定時，元數(shù)據(jù)模型中的元素才有了確定的語義，例如對元模型中的“title”而言并不能確定它能描述什么，只有將title提取到論文資源元數(shù)據(jù)模型時才能確定它表示“論文標題”。

2 數(shù)字資源描述模型的建立

2.1 資源屬性的分析

確切地說，元數(shù)據(jù)描述的對象應是資源的屬性，所以在確定資源的元數(shù)據(jù)模型之前，必須進行資源屬性分析。資源屬性包括3個方面：①描述性屬性：描述對象固有屬性或知識內容的信息，如marc編目記錄；②管理性屬性：描述資源的外部屬性，包括技術性的描述和保存性的描述，如：掃描信息、存儲格式等；③結構性屬性：描述資源的物理結構，以把資源按特定邏輯單元關聯(lián)起來，如：導航信息索引號。3類屬性性沒有嚴格的界限，甚至存在很大的交集，在分析過程中可相互參考、相互引用。

圖2 電子試題資源E-R分析圖

描述性屬性主要通過對資源相關的活動實體的分析來獲得，主要方法就是E-R(Entity Relationship)分析法，這種分析法以菱形表示活動（關系）、方形表示實體、圓形表示屬性。如對試題資源的分析過程如下：一般來說，與試題相關的活動是考試，而參與考試的實體除了試題外，還應有考生和試卷，據(jù)此分析，可以畫出以考試為關系中心的E-R圖（圖2）。圖中列出了3個實體的主要描述屬性，而試題是關系圖中粒度最小的實體（資源），所以除本身的屬性外，試題還可以繼承試卷和考生的屬性，即圖2中的所有屬性都可以是試題的描述屬性。

管理性屬性，在技術設計階段獲取，除了要參考描述性元數(shù)據(jù)之外，主要考慮資源相關的技術參數(shù)和存儲參數(shù)，試題資源的管理屬性有載體、入庫日期、錄入者、保密級別、占用空間、交互度等。

結構性屬性，在資源設計階段獲取，除了要參考描述性元數(shù)據(jù)之外，還應該考慮到資源在數(shù)字圖書館中的橫向聯(lián)系，試題資源的結構性屬性有結構屬性包括學科導航、時間導航、關鍵詞等。

以上屬性是確定資源元數(shù)據(jù)的原始依據(jù)，它們附上相應的描述就成為資源的元數(shù)據(jù)。

2.2 資源元數(shù)據(jù)建模

元模型是元數(shù)據(jù)規(guī)范的集合或者說是元數(shù)據(jù)的命名域（namespace），它把各種不同的元數(shù)據(jù)按多種方式進行分類，如按媒體格式(視頻、音頻、文檔)、資源類型（試卷類、課件類），它也包括了現(xiàn)成的元數(shù)據(jù)參考模型，如數(shù)字圖書元數(shù)據(jù)模型、課件元數(shù)據(jù)模型。整個元模型的內容是可編輯的，如建立新的元數(shù)據(jù)參考模型、建立新的元數(shù)據(jù)實體等。

元數(shù)據(jù)應用綱要(application profiles)模型的建設思想是：為需要描述資源對象的元素（屬性），在現(xiàn)有的一種或多種元數(shù)據(jù)規(guī)范中選取對應的元數(shù)據(jù)實體，如果找不到相應的元數(shù)據(jù)實體，則需要新增命名域元數(shù)據(jù)或自定義命名域，即為新元素定義新的語義［2］。這一思想闡明了元數(shù)據(jù)模型建立的思考步驟，即首先考慮元模型中是否有現(xiàn)有的元數(shù)據(jù)模型或實體可以套用；其次是考慮是否可以引用元模型中其它元數(shù)據(jù)模型或實體的部分元素；最后考慮是否進行元素的自定義，向元模型增加新的元數(shù)據(jù)實體，自定義元素不能局限于某資源的應用，要立足于整個數(shù)字資源體系建設的高度，充分考慮其語義的兼容性，如DC元數(shù)據(jù)規(guī)范中的“title”元素，就可以用于多種不同的資源描述。

元數(shù)據(jù)模型元素取用范圍因以屬性分析結果為主要參考，如：從試題屬性分析結果（圖2）來看，試題資源元數(shù)據(jù)模型的實體來源至少應包括DC元數(shù)據(jù)模型、試卷元數(shù)據(jù)模型、考生元數(shù)據(jù)模型，當然也可能需要自定義元數(shù)據(jù)實體。元數(shù)據(jù)模型應包括5個主要屬性：①元素名：資源屬性，規(guī)定元數(shù)據(jù)語義；②限定詞：對元素語義的補充說明，起修飾作用；③標簽：用于RDF/XML記錄格式的元數(shù)據(jù)；④英文標識：語義的英文解釋，一般還用作關系數(shù)據(jù)庫的字段名；⑤元素來源：元素的來源。

3 資源元數(shù)據(jù)的存儲與獲取

3.1 存儲方式

資源元數(shù)據(jù)有兩種存儲方式：

一種方式是RDF/XML，是基于XML語法的RDF模型，其中XML用來描述數(shù)據(jù)的結構，RDF用來提供數(shù)據(jù)的語義。RDF作為一個元數(shù)據(jù)的描述方式，依賴XML來編碼和傳送元數(shù)據(jù)［3］。但是XML缺少作為實用的數(shù)據(jù)庫所應具備的特性，如它的存儲效率極低，無法進行高效的數(shù)據(jù)索引，有沒安全機制，無法和具體事務進行數(shù)據(jù)的實時交互。

另一種方式是關系數(shù)據(jù)庫(RDB)，它具有高效的存儲、索引和數(shù)據(jù)修改機制，嚴格的數(shù)據(jù)安全控制，完整的事務和數(shù)據(jù)一致性控制，多用戶訪問機制，完善的并發(fā)控制等優(yōu)點。但是，關系數(shù)據(jù)庫的語義描述能力差，大多通過技術文檔表示，數(shù)據(jù)本身很難實現(xiàn)數(shù)據(jù)語義的持久性與傳遞性。

不難發(fā)現(xiàn)，這兩種存儲方式在功能上是互補的，元數(shù)據(jù)的獲取、轉存、取舍、編輯等操作都需要用到該兩種存儲方式的優(yōu)勢功能，因此它們之間的轉換操作是資源獲取的最基本、最重要的操作：

3.1.1 RDB向RDF/XML轉換

從RDB中導出XML，RDB的每張表對應一個XML元素，元素名為表名，將一條記錄映射為表元素的一個子元素，再將記錄中的各個字段映射為記錄元素的子元素。具體實現(xiàn)方法為：從關系數(shù)據(jù)庫中將資源元數(shù)據(jù)讀出，再以定制的格式將其輸出到（或另存為）文本文件即可，以下是一段動態(tài)網(wǎng)頁腳本代碼，把英語試題(表TestzEnglish)映射為RDF/XML元數(shù)據(jù)格式。

此外，R2RML（RDB to RDF Mapping Language）技術［4］是從RDB向RDF映射的新技術，目前尚處于試驗階段，它被認為將能實現(xiàn)很多不同種類型的映射，如為已經(jīng)建立RDF映射的關系數(shù)據(jù)庫提供虛擬的SPARQL（類似SQL，用來查詢RDF的語句）端點，或生成RDF轉儲數(shù)據(jù)，或完成連接的數(shù)據(jù)接口。

3.1.2 RDF/XML向RDB轉換

跟紙本圖書的CNMARC一樣，RDF/XML文檔是資源描述信息的傳播者和保存者，將數(shù)字資源元數(shù)據(jù)置標格式（RDF/XML）導入到RDB正是體現(xiàn)其互操作性價值的關鍵步驟。

圖3 電子試題XML元數(shù)據(jù)結構圖

圖3是電子試題XML元數(shù)據(jù)的結構樹，Tests的每一個孩子是不同主題的試題數(shù)據(jù)庫，每一棵子樹都有同樣的結構，例如：以TestzEnglish為根的子樹是英語類試題的元數(shù)據(jù)結構。將TestzEnglish的XML元數(shù)據(jù)文檔映射到關系數(shù)據(jù)庫的步驟如下：首先為RDB建立一個TestzEnglish主表，然后對TestzEnglish子數(shù)從樹根向樹葉遍歷，凡是TestzEnglish的樹葉都是試題元數(shù)據(jù)模型的元素即關系數(shù)據(jù)表的字段，凡是非根非葉的成員都需要新建數(shù)據(jù)表，它的樹葉就是新建表的字段，它的關鍵字必須要成為TestzEnglish表的外部關鍵字（如：exam的Examzid、Course的Coursezid）。資源元數(shù)據(jù)在確定與其相對應的字段的同時，寫到該字段下。按這樣的規(guī)則，可以建立一個與TestzEnglish的XML元數(shù)據(jù)文檔相對應的，符合第三范式（3NF）的關系數(shù)據(jù)庫，最后以各外部關鍵字為接點，通過聯(lián)合查詢方式(SQL語句的UNION)，可以生成完整的、與原RDF相對應的數(shù)字資源元數(shù)據(jù)的視圖，進而可以實現(xiàn)對其進行數(shù)據(jù)查詢、數(shù)據(jù)挖掘等操作［5］。

3.2 元數(shù)據(jù)獲取

元數(shù)據(jù)獲取是數(shù)字資源整合最后一項操作，上一節(jié)（3.1）所述的存儲方式轉換是元數(shù)據(jù)獲取的基礎性技術。元數(shù)據(jù)的來源有3類即RDF/XML元數(shù)據(jù)文檔、RDB數(shù)據(jù)庫和手工錄入。因RDB的可操作特性，一般把獲取的第一手元數(shù)據(jù)存儲在RDB表中，再用技術手段為RDB數(shù)據(jù)附上語義，即轉換為RDF/XML的元數(shù)據(jù)格式。在導入之前，對于不符合元數(shù)據(jù)模型的RDF/XML和RDB表等數(shù)據(jù)來源要根據(jù)元數(shù)據(jù)模型做數(shù)據(jù)字段的取舍，兩種格式的取舍方法基本相同，RDF/XML文檔在取舍前需要轉換為RDB表（RDB表不必轉換），然后再用關系數(shù)據(jù)庫管理工具（如SQL語句）對RDB表進行數(shù)據(jù)字段取舍操作。元數(shù)據(jù)獲取過程中特別要注意不能忽略關系數(shù)據(jù)庫的“關系”。

4 小結

基于元模型的數(shù)字資源整合方法能高效、靈活地組織異構數(shù)字資源，在多元化資源體系中，真正實現(xiàn)了“求大同、存小異”的設計思想，以最大限度地加強資源整合的深度。目前部分資源已經(jīng)建成了權威的元數(shù)據(jù)模型，如上海圖書館對名人手稿元數(shù)據(jù)方案做了全面的設計，但是大部分元數(shù)據(jù)模型只處在局部范圍內的應用，尚未形成業(yè)界統(tǒng)一的、權威的模型，因此這種方法在將來一定的時間內或在局部范圍內應有其用武之地。另外，該方法對于部分元數(shù)據(jù)封裝的資源，如中國期刊網(wǎng)資源、超星數(shù)字圖書等，則無法做到基于元數(shù)據(jù)的整合，這種情況只能通過虛擬法來實現(xiàn)“假的”整合。

參考文獻

［1］周芳，文必龍，王守信，等．基于元元模型的多維元數(shù)據(jù)管理研究與實現(xiàn)［J］．計算機工程與設計，2006，27(10)：1797-1799，1804．

［2］Rachel Heery，Manjula Patel．Application profiles：mixing and matching metadata schemas［EB］．http://www.ariadne.ac.uk/issue25/app-profiles，2010-12-02．

［3］陸建江，張亞非，苗壯，等．語義網(wǎng)原理與技術［M］．北京：科學出版社，2007：32．

［4］R2RML:RDB to RDF Mapping Language［EB］．http://www.w3.org/TR/2010/WD-r2rml-20101028，2011-01-03．

［5］吳琴霞，張志鴻．語義Web中RDF元數(shù)據(jù)的存儲與管理［J］．微計算機信息，2007，23(33)：144-145，132．