王志麗 孫 寶
〔摘 要〕針對(duì)數(shù)字圖書館中的圖像、視頻、音頻等無結(jié)構(gòu)化數(shù)據(jù)的集成問題,提出了語義對(duì)象模型的概念,實(shí)現(xiàn)無結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一全局對(duì)象表示。在此基礎(chǔ)上,提出了一種以XML數(shù)據(jù)模型為基礎(chǔ)的無結(jié)構(gòu)化數(shù)據(jù)集成方法。
〔關(guān)鍵詞〕數(shù)據(jù)集成;元數(shù)據(jù);數(shù)字圖書館
〔中圖分類號(hào)〕G250.76 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2009)03-0087-03
隨著Internet的發(fā)展和普及,信息資源已經(jīng)實(shí)現(xiàn)了全球范圍內(nèi)的共享,信息的存儲(chǔ)和檢索方式也發(fā)生了巨大的變化,傳統(tǒng)圖書館的工作方式已經(jīng)不能滿足人們的要求,數(shù)字圖書館作為一種新的信息資源管理模式正在蓬勃發(fā)展。數(shù)字圖書館是一個(gè)通過互聯(lián)網(wǎng)連接在一起的分布式數(shù)據(jù)信息庫,它將全球網(wǎng)絡(luò)上所有信息資源集成起來,形成一個(gè)大型的分布式共享信息庫,利用先進(jìn)的信息技術(shù),將包括印本、電子出版物、多媒體數(shù)據(jù)等各種類型的信息資源集成起來,構(gòu)建一個(gè)在網(wǎng)絡(luò)環(huán)境下支持普遍存取、分布式管理和集成信息服務(wù)的信息環(huán)境,為用戶提供簡(jiǎn)單、快捷的個(gè)性化信息服務(wù)[1]。
數(shù)字圖書館的實(shí)現(xiàn)需要分布式數(shù)據(jù)庫技術(shù)、數(shù)據(jù)挖掘技術(shù)、智能搜索引擎技術(shù)、機(jī)器翻譯技術(shù)等多種技術(shù)的支持,然而,這些關(guān)鍵技術(shù)能夠順利實(shí)現(xiàn)的基礎(chǔ)是解決數(shù)據(jù)的統(tǒng)一表現(xiàn)方式問題。數(shù)字圖書館的數(shù)據(jù)是由散布在因特網(wǎng)上的大量數(shù)據(jù)組成,包括文本等結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化的網(wǎng)頁數(shù)據(jù),及音頻、視頻等非結(jié)構(gòu)化數(shù)據(jù)。只有將這些數(shù)據(jù)集成起來,向用戶提供一個(gè)統(tǒng)一的視圖,數(shù)據(jù)挖掘、搜索引擎等工具才能有效地進(jìn)行工作[2]。目前對(duì)結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)集成的研究采用中間件技術(shù)和基于XML的數(shù)據(jù)模型和模式定義語言、查詢語言實(shí)現(xiàn),已經(jīng)獲得一定的進(jìn)展,而對(duì)于系統(tǒng)中存在大量的圖形、圖像、音頻、視頻等無結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)沒有統(tǒng)一的模式描述,很難進(jìn)行數(shù)據(jù)集成[3]。因此對(duì)無結(jié)構(gòu)化異構(gòu)數(shù)據(jù)源集成技術(shù)的研究具有重大的現(xiàn)實(shí)意義和緊迫性。
1 無結(jié)構(gòu)化數(shù)據(jù)表示
1.1 元數(shù)據(jù)表示
數(shù)字圖書館中數(shù)據(jù)的特征是由元數(shù)據(jù)來表示的,元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù)[4],它說明了其它數(shù)據(jù)的特征和屬性信息,如數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)索引,數(shù)據(jù)的域等。根據(jù)元數(shù)據(jù)對(duì)數(shù)據(jù)的描述層次不同,元數(shù)據(jù)分為模式級(jí)元數(shù)據(jù)(對(duì)數(shù)據(jù)的結(jié)構(gòu)、類型、一致性約束等進(jìn)行定義)與語義級(jí)元數(shù)據(jù)(對(duì)數(shù)據(jù)的語義概念,如書目信息中的作者、出版日期等進(jìn)行描述)兩類。
對(duì)于數(shù)字圖書館中的無結(jié)構(gòu)化數(shù)據(jù),可以使用元數(shù)據(jù)描述基于主題概念的相關(guān)信息,如對(duì)一個(gè)圖片內(nèi)容的介紹,這些元數(shù)據(jù)可認(rèn)為是語義級(jí)元數(shù)據(jù)。元數(shù)據(jù)對(duì)圖片、視頻、音頻等無結(jié)構(gòu)化數(shù)據(jù)資源的查詢與獲取非常重要。在某些情況下,可能需要基于無結(jié)構(gòu)化數(shù)據(jù)的內(nèi)容結(jié)構(gòu)進(jìn)行查詢[5],如根據(jù)圖片的像素點(diǎn)的特征向量進(jìn)行匹配查詢,這些特征向量是模式級(jí)元數(shù)據(jù)。然而一般情況下,用戶需要根據(jù)數(shù)據(jù)的分類等語義級(jí)元數(shù)據(jù)描述信息進(jìn)行查詢,如根據(jù)電影名、電影類型,電影導(dǎo)演、男女主角,電影簡(jiǎn)介等查找電影的視頻數(shù)據(jù),因此,語義級(jí)元數(shù)據(jù)給無結(jié)構(gòu)化數(shù)據(jù)賦予了更多關(guān)于內(nèi)容的描述信息。
通過使用元數(shù)據(jù),可以對(duì)無結(jié)構(gòu)化數(shù)據(jù)進(jìn)行查詢等相關(guān)操作,由于無結(jié)構(gòu)化數(shù)據(jù)內(nèi)容的查詢是近似查詢,語義信息對(duì)提高查詢無結(jié)構(gòu)化數(shù)據(jù)的精確性是非常重要的,并且語義信息對(duì)實(shí)現(xiàn)無結(jié)構(gòu)化數(shù)據(jù)的集成也是必需的,因此需要對(duì)無結(jié)構(gòu)化數(shù)據(jù)的語義信息進(jìn)行精確定義。
1.2 無結(jié)構(gòu)化數(shù)據(jù)的語義對(duì)象表示
結(jié)構(gòu)化數(shù)據(jù)可以存放在關(guān)系型數(shù)據(jù)庫和面向?qū)ο髷?shù)據(jù)庫中,這些數(shù)據(jù)源具有嚴(yán)格的數(shù)據(jù)模型和外在的模式定義,模式是指數(shù)據(jù)源中的數(shù)據(jù)類型和邏輯組織形式等信息,比如在關(guān)系型數(shù)據(jù)庫中一個(gè)表的定義就是一個(gè)模式,它描述了這個(gè)表中的屬性名、屬性的排列順序、屬性的域、主鍵和外鍵等信息,結(jié)構(gòu)化數(shù)據(jù)集成中主要考慮如何根據(jù)數(shù)據(jù)源模式建立一個(gè)全局的模式,這個(gè)全局模式定義了系統(tǒng)中的數(shù)據(jù)內(nèi)容和數(shù)據(jù)的邏輯組織形式,用戶的查詢語句針對(duì)全局模式生成,這種集成方式也稱為模式集成。
無結(jié)構(gòu)化的數(shù)據(jù)源只有一些描述性的語義信息,沒有外在的模式定義,因此很難采用上述方法對(duì)數(shù)據(jù)本身進(jìn)行結(jié)構(gòu)化轉(zhuǎn)換。本文利用面向?qū)ο蟮乃枷耄瑢o結(jié)構(gòu)化數(shù)據(jù)源中的每個(gè)數(shù)據(jù)看作一個(gè)對(duì)象數(shù)據(jù),例如一部電影看作一個(gè)電影對(duì)象數(shù)據(jù),對(duì)象數(shù)據(jù)及其相關(guān)語義元數(shù)據(jù)看作一個(gè)整體,即一個(gè)語義對(duì)象。這樣無結(jié)構(gòu)化數(shù)據(jù)源抽象為語義對(duì)象的集合。
定義1:語義對(duì)象SO(Semantic Object)是一個(gè)三元組:
SO∷=<ID,S,O>
其中,ID是對(duì)象的標(biāo)識(shí);S是SO的語義信息的集合,即語義級(jí)元數(shù)據(jù);O是SO的對(duì)象數(shù)據(jù)的集合,比如一部電影可能有多個(gè)MPEG文件,共同組成了O。S中有O的URI(Uniform Resources Identifier),指明了O的存儲(chǔ)位置。這樣,不同類型的無結(jié)構(gòu)化數(shù)據(jù)都可用統(tǒng)一的語義對(duì)象來表示,有助于數(shù)據(jù)集成的進(jìn)行。
1.3 基于XML的全局語義對(duì)象表示
數(shù)據(jù)源中數(shù)據(jù)的語義對(duì)象稱為局部語義對(duì)象,比如一部電影的MPEG文件、它的Marc信息分別看作是語義對(duì)象的O與S。由于數(shù)據(jù)源的元數(shù)據(jù)的數(shù)據(jù)模型多種多樣,內(nèi)容大小也相差很大,因此在數(shù)據(jù)源之上,需要建立中間層,中間層提供給用戶的是一種統(tǒng)一的語義對(duì)象形式,稱為全局語義對(duì)象,用戶的查詢針對(duì)全局語義對(duì)象進(jìn)行操作。由于對(duì)象的語義信息變化較大,并考慮到數(shù)據(jù)的交換標(biāo)準(zhǔn)一致性,文章采用XML作為語義信息的存儲(chǔ)模型,XML層次結(jié)構(gòu)既能滿足表達(dá)語義信息的復(fù)雜性,又符合國際通用的交換標(biāo)準(zhǔn),能夠很好地實(shí)現(xiàn)數(shù)字圖書館的互操作。
對(duì)于數(shù)據(jù)源中不同的元數(shù)據(jù)形式,系統(tǒng)應(yīng)實(shí)現(xiàn)不同的轉(zhuǎn)換程序,從數(shù)據(jù)源的元數(shù)據(jù)信息抽取有用的數(shù)據(jù)項(xiàng)轉(zhuǎn)換為全局語義對(duì)象中的語義信息S,存放在語義信息庫中。
全局語義信息的部分DTD為:
<!ELEMENT DCMeta(Identifier,Title+,Publisher+,Contributor+,…)>
<!ELEMENT Identifier(#PCDATA)>
<!ATTLIST Identifier Qualifier CDATA #REQUIRED>
<!ELEMENT Title(#PCDATA)>
<!ATTLIST Title Qualifier CDATA #REQUIRED>
<!ELEMENT Publisher(#PCDATA)>
<!ATTLIST Publisher Qualifier CDATA #REQUIRED>
<!ELEMENT Contributor(#PCDATA)>
<!ATTLIST Contributor Qualifier CDATA #required>…
2 一種數(shù)據(jù)集成方案
通過將無結(jié)構(gòu)化數(shù)據(jù)表示為語義對(duì)象,根據(jù)統(tǒng)一的標(biāo)準(zhǔn)將不同數(shù)據(jù)源中的語義對(duì)象轉(zhuǎn)換為全局?jǐn)?shù)據(jù)對(duì)象,系統(tǒng)可以對(duì)無結(jié)構(gòu)化數(shù)據(jù)進(jìn)行統(tǒng)一的存儲(chǔ)和查詢操作,實(shí)現(xiàn)了無結(jié)構(gòu)化數(shù)據(jù)的集成。本文提出了一種無結(jié)構(gòu)化數(shù)據(jù)的集成方法,系統(tǒng)的體系結(jié)構(gòu)圖如圖1。
主要模塊介紹如下:
2.1 用戶界面
系統(tǒng)提供給用戶統(tǒng)一的查詢界面,可以通過語義進(jìn)行模糊查詢,例如,用戶希望查詢題名包含“菜譜”的所有資源,系統(tǒng)將把所有數(shù)據(jù)源中題名包含“菜譜”的對(duì)象以列表項(xiàng)的形式返回給用戶,每一項(xiàng)中有該對(duì)象的元數(shù)據(jù)信息、對(duì)象數(shù)據(jù)的超鏈接。用戶點(diǎn)擊超鏈接后,將顯示對(duì)象數(shù)據(jù),比如點(diǎn)擊MPEG文件的超鏈接后,將播放這個(gè)MPEG文件。
2.2 請(qǐng)求處理
請(qǐng)求處理模塊根據(jù)請(qǐng)求查詢?cè)獢?shù)據(jù)庫,主要對(duì)庫中基于XML的語義信息進(jìn)行匹配查詢,根據(jù)符合匹配請(qǐng)求的XML項(xiàng)得到相應(yīng)的對(duì)象數(shù)據(jù)的URI,根據(jù)URI分別對(duì)內(nèi)容管理器、電子圖書庫、電子報(bào)刊庫等數(shù)據(jù)源執(zhí)行查詢,把查詢結(jié)果返回給用戶界面。
2.3 元數(shù)據(jù)庫
在元數(shù)據(jù)庫中存儲(chǔ)全局語義對(duì)象的URI和基于文本的XML語義信息,以及XML的索引表。
2.4 元數(shù)據(jù)轉(zhuǎn)換
該模塊將局部對(duì)象的URI和語義信息分別轉(zhuǎn)換為全局的URI和基于XML的語義信息,并存儲(chǔ)在元數(shù)據(jù)庫中。
2.5 內(nèi)容管理器
內(nèi)容管理器是無結(jié)構(gòu)化數(shù)據(jù)資源存儲(chǔ)管理系統(tǒng),能夠?qū)o結(jié)構(gòu)化數(shù)據(jù)進(jìn)行有效的存儲(chǔ)和管理。它以統(tǒng)一的格式存儲(chǔ)各種形式的無結(jié)構(gòu)化數(shù)據(jù),如圖片、流媒體等。內(nèi)容管理器中擁有數(shù)據(jù)對(duì)象的目錄信息。通過這些目錄信息,內(nèi)容管理器可以根據(jù)用戶的請(qǐng)求,使用一系列搜索技術(shù)來定位存儲(chǔ)對(duì)象。
2.6 導(dǎo)入系統(tǒng)
導(dǎo)入系統(tǒng)將電影、音樂、博士論文等數(shù)據(jù)導(dǎo)入到內(nèi)容管理器中,在導(dǎo)入的同時(shí),把內(nèi)容管理器分配給數(shù)據(jù)的惟一標(biāo)識(shí)作為全局對(duì)象的URI的一部分傳送給元數(shù)據(jù)轉(zhuǎn)換模塊。
系統(tǒng)根據(jù)語義對(duì)象的概念對(duì)無結(jié)構(gòu)化數(shù)據(jù)實(shí)現(xiàn)了語義級(jí)集成,局部語義對(duì)象的元數(shù)據(jù)被轉(zhuǎn)為全局對(duì)象的元數(shù)據(jù)存儲(chǔ)在元數(shù)據(jù)庫,查詢就不必再分解成針對(duì)局部對(duì)象的元數(shù)據(jù)的子查詢,提高了系統(tǒng)的查詢效率。
3 結(jié) 論
本文討論了實(shí)現(xiàn)數(shù)字圖書館需要首先解決的數(shù)據(jù)集成技術(shù),分析了無結(jié)構(gòu)化數(shù)據(jù)集成系統(tǒng)面臨的問題,提出了語義對(duì)象的概念,描述了基于語義對(duì)象進(jìn)行無結(jié)構(gòu)化數(shù)據(jù)集成的思想。由于無結(jié)構(gòu)化數(shù)據(jù)沒有外在的模式定義,不能或很難從對(duì)象數(shù)據(jù)中提取出模式,傳統(tǒng)的模式集成方式不適用于無結(jié)構(gòu)化數(shù)據(jù)的集成?;谡Z義對(duì)象的集成較好地解決了這個(gè)問題。最后提出了一種無結(jié)構(gòu)化數(shù)據(jù)的集成方案,實(shí)現(xiàn)了基于全局語義對(duì)象的無結(jié)構(gòu)化數(shù)據(jù)的集成。
參考文獻(xiàn)
[1]Y.Papakonstantinou,Pavel Velikhov.Enhancing Semistructured Data Mediators with Document Type Definitions.ICDE,Sydney,Australia,1999.
[2]王志麗,樊玉敬.XML在數(shù)字圖書館中的應(yīng)用研究[J].情報(bào)科學(xué),2002,20(12):1305-1307.
[3]孟小峰.Web數(shù)據(jù)管理研究綜述[J].計(jì)算機(jī)研究與發(fā)展,2001,38(4):385-395.
[4]V.Kashyap,A.Sheth.Semantic Heterogeneity in Global Information Systems:the Role of Metadata,Context and Ontologies.Cooperative Information Systems:Current Trends and Directions.M.Papazoglou,G.Schlageter (editors).Academic-Press,Springer-Verlag,1997:139-178.
[5]Kjersti Aas,Line Eikvil.A survey on:Content-based Access to Image and Video Databases.Report 915,Norwegian Computing Center,March 1997,Available at http:∥www.nr.no/home/kjersti/video.html