王杜娟,陳雪龍
(1.大連東軟信息學(xué)院 計算機科學(xué)與技術(shù)系,遼寧 大連 116023;2.大連理工大學(xué) 信息與決策技術(shù),遼寧 大連 116023)
數(shù)據(jù)是GIS系統(tǒng)建設(shè)的基礎(chǔ),各地方、各部門的現(xiàn)有數(shù)據(jù)是系統(tǒng)的信息源。我國數(shù)據(jù)庫建設(shè)雖有20多年的歷史,但成功的例子不多,利用率一直很低,主要是數(shù)據(jù)庫質(zhì)量不高,數(shù)據(jù)分散、不規(guī)范。個人的隨意性影響了數(shù)據(jù)規(guī)范。不同部門之間、不同年份之間,甚至同類業(yè)務(wù)不同處理環(huán)節(jié)之間,數(shù)據(jù)口徑不一致,可比性差,造成數(shù)據(jù)上的“歷史問題”。
“十五”前,我國GIS系統(tǒng)建設(shè)規(guī)模多數(shù)屬于較低的層次,面向的應(yīng)用群體很小,同級之間的數(shù)據(jù)標準、系統(tǒng)結(jié)構(gòu)、應(yīng)用軟件等都不具備共享能力,形成了眾多的信息孤島?!笆濉蹦┢?,各種孤島式GIS系統(tǒng)開始進入高層次集成階段,數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換與數(shù)據(jù)共享的模型、方法與技術(shù)也就成為了研究的熱點。文中筆者將元數(shù)據(jù)理論融入數(shù)據(jù)集成技術(shù)中,實現(xiàn)了基于元數(shù)據(jù)的GIS中數(shù)據(jù)集成。
元數(shù)據(jù)作為一個專門的科學(xué)術(shù)語 ,已廣泛地應(yīng)用于各學(xué)科,尤其是在數(shù)據(jù)庫領(lǐng)域,有關(guān)元數(shù)據(jù)的概念和使用存在諸多的認識:Bretherton[1]和Lillywhite[2]認為元數(shù)據(jù)是對數(shù)據(jù)的描述,以及對數(shù)據(jù)集中數(shù)據(jù)項的解釋,它能提高數(shù)據(jù)的利用價值;國際地球科學(xué)信息網(wǎng)絡(luò)協(xié)會(CIESIN)認為元數(shù)據(jù)包括數(shù)據(jù)用戶指南、數(shù)據(jù)字典、數(shù)據(jù)分類目錄等數(shù)據(jù)描述信息,以及任何定義它們之間關(guān)系所需要的附加性信息;Ashrafi[3]認為元數(shù)據(jù)是數(shù)據(jù)庫管理領(lǐng)域的概念,是關(guān)于數(shù)據(jù)組織的數(shù)據(jù);Epaminondas等人則認為元數(shù)據(jù)是數(shù)據(jù)與信息之間的某種東西,它可以溝通數(shù)據(jù)和信息[4];美國聯(lián)邦地球空間數(shù)據(jù)委員會 (FGDC)[5]指出元數(shù)據(jù)是關(guān)于數(shù)據(jù)從形成到使用過程中數(shù)據(jù)空間屬性和時間特征變化的描述和記錄;國際標準化組織[6]認為元數(shù)據(jù)是關(guān)于數(shù)據(jù)內(nèi)容、質(zhì)量、條件狀態(tài)和其他特征的描述。
但廣義的理解,元數(shù)據(jù)不僅實現(xiàn)對數(shù)據(jù)的描述,而且描述并實現(xiàn)數(shù)據(jù)轉(zhuǎn)換、操作、管理。簡而言之,元數(shù)據(jù)是關(guān)于數(shù)據(jù)、操縱數(shù)據(jù)的過程和應(yīng)用程序的結(jié)構(gòu)和意義的描述信息,其主要目標是提供數(shù)據(jù)資源的全面指南。
元數(shù)據(jù)主要有下列幾個方面的作用:
1)描述數(shù)據(jù)的存在性及存在位置;
2)確定數(shù)據(jù)的適宜性及可用性;
3)描述獲取數(shù)據(jù)的手段;
4)描述數(shù)據(jù)的轉(zhuǎn)換方法及途徑;
5)描述數(shù)據(jù)的存儲與表達方式;
6)描述數(shù)據(jù)的使用方法;
7)描述數(shù)據(jù)的來源、完整性及安全性等信息。
由于GIS的圖形數(shù)據(jù)格式各異,給信息共享帶來了極大的不便,解決多格式數(shù)據(jù)源集成一直是近年來GIS應(yīng)用系統(tǒng)開發(fā)中需要解決的重要問題。目前,實現(xiàn)多源數(shù)據(jù)集成的方式大致有3種,即:數(shù)據(jù)格式轉(zhuǎn)換模式、數(shù)據(jù)互操作模式、直接數(shù)據(jù)訪問模式。
格式轉(zhuǎn)換模式是傳統(tǒng)GIS數(shù)據(jù)集成方法。在這種模式下,其他數(shù)據(jù)格式經(jīng)專門的數(shù)據(jù)轉(zhuǎn)換程序進行格式轉(zhuǎn)換后,復(fù)制到當前系統(tǒng)中的數(shù)據(jù)庫或文件中。這是目前GIS系統(tǒng)數(shù)據(jù)集成的主要辦法。
數(shù)據(jù)轉(zhuǎn)換模式主要存在的問題是:
首先,由于缺乏對空間對象統(tǒng)一的描述方法,從而使得不同數(shù)據(jù)格式描述空間對象時采用的數(shù)據(jù)模型不同,因而轉(zhuǎn)換后不能完全準確表達源數(shù)據(jù)的信息。
其次,這種模式需要將數(shù)據(jù)統(tǒng)一起來,違背了數(shù)據(jù)分布和獨立性的原則;如果數(shù)據(jù)來源是多個代理或企業(yè)單位,這種方法需要所有權(quán)的轉(zhuǎn)讓等問題。
數(shù)據(jù)互操作模式是OpenGIS consortium (OGC)制定的規(guī)范。GIS互操作是指在異構(gòu)數(shù)據(jù)庫和分布計算的情況下,GIS用戶在相互理解的基礎(chǔ)上,能透明地獲取所需的信息。OGC為數(shù)據(jù)互操作制定了統(tǒng)一的規(guī)范,從而使得一個系統(tǒng)同時支持不同的空間數(shù)據(jù)格式成為可能。根據(jù)OGC頒布的規(guī)范,可以把提供數(shù)據(jù)源的軟件稱為數(shù)據(jù)服務(wù)器(Data Servers),把使用數(shù)據(jù)的軟件稱為數(shù)據(jù)客戶(Data Clients),數(shù)據(jù)客戶使用某種數(shù)據(jù)的過程就是發(fā)出數(shù)據(jù)請求,由數(shù)據(jù)服務(wù)器提供服務(wù)的過程,其最終目的是使數(shù)據(jù)客戶能讀取任意數(shù)據(jù)服務(wù)器提供的空間數(shù)據(jù)。
數(shù)據(jù)互操作為多源數(shù)據(jù)集成提供了嶄新的思路和規(guī)范。它將GIS帶入了開放式的時代,從而為空間數(shù)據(jù)集中式管理和分布存儲與共享提供了操作的依據(jù)。OGC標準將計算機軟件領(lǐng)域的非空間數(shù)據(jù)處理標準成功地應(yīng)用到空間數(shù)據(jù)上。但是OGC標準更多考慮到采用了OpenGIS協(xié)議的空間數(shù)據(jù)服務(wù)軟件和空間數(shù)據(jù)客戶軟件,對于那些歷史存在的大量非OpenGIS標準的空間數(shù)據(jù)格式的處理辦法還缺乏標準的規(guī)范。而從目前來看,非OpenGIS標準的空間數(shù)據(jù)格式仍然占據(jù)已有數(shù)據(jù)的主體。
數(shù)據(jù)互操作規(guī)范為多源數(shù)據(jù)集成帶來了新的模式,但這一模式在應(yīng)用中存在一定局限性:首先,為真正實現(xiàn)各種格式數(shù)據(jù)之間的互操作,需要每個每種格式的宿主軟件都按照著統(tǒng)一的規(guī)范實現(xiàn)數(shù)據(jù)訪問接口,在一定時期內(nèi)還不現(xiàn)實;其次,一個軟件訪問其他軟件的數(shù)據(jù)格式時是通過數(shù)據(jù)服務(wù)器實現(xiàn)的,這個數(shù)據(jù)服務(wù)器實際上就是被訪問數(shù)據(jù)格式的宿主軟件,也就是說,用戶必須同時擁有這兩個GIS軟件,并且同時運行,才能完成數(shù)據(jù)互操作過程。
顧名思義,直接數(shù)據(jù)訪問指在一個GIS軟件中實現(xiàn)對其他軟件數(shù)據(jù)格式的直接訪問,用戶可以使用單個GIS軟件存取多種數(shù)據(jù)格式。直接數(shù)據(jù)訪問不僅避免了繁瑣的數(shù)據(jù)轉(zhuǎn)換,而且在一個GIS軟件中訪問某種軟件的數(shù)據(jù)格式不要求用戶擁有該數(shù)據(jù)格式的宿主軟件,更不需要該軟件運行。直接數(shù)據(jù)訪問提供了一種更為經(jīng)濟實用的多源數(shù)據(jù)集成模式。
文中主要針對“數(shù)據(jù)格式轉(zhuǎn)換模式”與“直接數(shù)據(jù)訪問模式”兩種模式探討了GIS中數(shù)據(jù)集成的方法與技術(shù)。
本系統(tǒng)的空間數(shù)據(jù)采用如圖1所示的拓撲關(guān)系:
圖1 空間數(shù)據(jù)的拓撲關(guān)系Fig.1 Topological relations of spatial data
這種空間數(shù)據(jù)的組織形式比較合理,數(shù)據(jù)修改靈活,數(shù)據(jù)冗余少。具體的數(shù)據(jù)結(jié)構(gòu)簡單示例如下:
其他地理信息系統(tǒng)中的空間數(shù)據(jù)可以通過“圖形交換文件”(如.dxf文件等)轉(zhuǎn)化為本系統(tǒng)中應(yīng)用的數(shù)據(jù)結(jié)構(gòu)。轉(zhuǎn)化流程如圖2所示。
圖2 多源或異構(gòu)數(shù)據(jù)集成流程圖Fig.2 Flow chart of multi-source or heterogeneous data Integrated
當前市場上流行的地理信息系統(tǒng)軟件平臺一般都支持二次開發(fā),也就是可以將本身的數(shù)據(jù)格式自動轉(zhuǎn)化成通用的圖形交換文件格式 (如 dxf文件、sdtf文件), 圖2中的ArcInfo、MapInfo以及MapGIS等軟件平臺就具有這種功能。有了圖形交換文件,我們就可以利用“基于元數(shù)據(jù)的數(shù)據(jù)轉(zhuǎn)化接口”通過建立圖形交換文件的格式與本系統(tǒng)數(shù)據(jù)結(jié)構(gòu)的格式的映射關(guān)系,將圖形交換文件格式的空間數(shù)據(jù)轉(zhuǎn)化為本系統(tǒng)所需要的數(shù)據(jù)格式。這里的元數(shù)據(jù)也就是圖形交換文件的描述以及本系統(tǒng)空間數(shù)據(jù)的數(shù)據(jù)格式描述。系統(tǒng)所實現(xiàn)的轉(zhuǎn)換接口兼容dxf與sdtf兩種圖形交換文件格式?,F(xiàn)將這兩種文件格式簡單列舉如下:
1)dxf文件描述
一個完整的.DXF文件是由4個段和1個文件尾組成。其順序如下:
①標題(HEADER)段;
②表(TABLES)段;
③塊(BLOCKS)段;
④元素(ENTITIES)段;
⑤文件結(jié)束(EOF);
在所開發(fā)的轉(zhuǎn)換接口中只用到了元素段描述,下面簡要說明元素段的描述。
其他元素,如面體元素、點元素等于線體元素描數(shù)類同,這里不在累述。
2)sdtf文件描述
幾何圖形數(shù)據(jù)緊接著地物類型參數(shù)定義,分別用“PointBegin”、 “PointEnd”、 “LineBegin”、 “LineEnd”、“PolygonBegin”、 “PolygonEnd”、 “AnnotationBegin”、“AnnotationEnd”字符分開。一般情況下,點、線、面、注記相對集中地放在一起。點、線、面、注記的具體幾何數(shù)據(jù)不再附加標志說明。它的說明在公布的空間數(shù)據(jù)交換文件格式的說明書中說明。
具體的元素描述以現(xiàn)狀示體為例,其他類型元素類同,不再累述。
如果文件頭中申明Topo=2,則有以上4項,否則沒有。
具體的實現(xiàn)途徑有以下幾種:
1)編制數(shù)據(jù)轉(zhuǎn)化的中間件,專門實現(xiàn)導(dǎo)庫工作,在導(dǎo)庫的過程中加入一些模型和算法,實現(xiàn)數(shù)據(jù)的標準化,按照本系統(tǒng)的要求自組織數(shù)據(jù),使數(shù)據(jù)可以被本系統(tǒng)直接利用。這個中間件作為本系統(tǒng)的輔助工具,為數(shù)據(jù)準備服務(wù)。實現(xiàn)流程如圖3所示:
首先,獲取程序讀取源系統(tǒng)數(shù)據(jù)表的結(jié)構(gòu),建立元數(shù)據(jù)描述信息,然后根據(jù)目標系統(tǒng)中元數(shù)據(jù)信息,建立源系統(tǒng)到目標系統(tǒng)之間的映射關(guān)系,以映射表或關(guān)系矩陣的方式存儲,成為以后數(shù)據(jù)抽取的依據(jù)。
2)在系統(tǒng)中加入數(shù)據(jù)加載接口,使用戶可以通過接口控制轉(zhuǎn)化的數(shù)據(jù)類型,按照用戶的要求組織數(shù)據(jù)。通過這種方式,用戶可以實現(xiàn)數(shù)據(jù)的自定義。
圖3 元數(shù)據(jù)自動抽取過程Fig.3 Automatic extraction process of metadata
圖4 源系統(tǒng)元數(shù)據(jù)自動獲取界面Fig.4 Automatic acquisition interface of source system metadata
圖5 數(shù)據(jù)加載可視化窗口Fig.5 Visualization window of data Loading
通過編制人機交互環(huán)境,由用戶根據(jù)實際需要,選擇相關(guān)的選項,搜集相應(yīng)的信息,通過語義和語法分析,抽取元數(shù)據(jù)的描述信息,實現(xiàn)數(shù)據(jù)的自動加載。
3)在系統(tǒng)中直接連接外部數(shù)據(jù)。比如一些專題數(shù)據(jù),如果數(shù)據(jù)格式比較規(guī)范,可以不通過數(shù)據(jù)加載接口將數(shù)據(jù)載入本系統(tǒng),而直接在外部使用。ODBC技術(shù)是開放式的數(shù)據(jù)連接接口,可以實現(xiàn)此要求。
筆者從系統(tǒng)開發(fā)實踐的角度,討論了基于元數(shù)據(jù)的多源與異構(gòu)數(shù)據(jù)的集成方法與技術(shù)。所研究的數(shù)據(jù)集成技術(shù)僅僅是針對“數(shù)據(jù)格式轉(zhuǎn)換模式”與“直接數(shù)據(jù)訪問模式”兩種模式,由于分布式地理信息系統(tǒng)是地理信息系統(tǒng)未來的發(fā)展方向,所以我們將在后面的工作里繼續(xù)研究 “數(shù)據(jù)互操作模式”,為分布式地理信息系統(tǒng)與網(wǎng)絡(luò)地理信息系統(tǒng)的數(shù)據(jù)集成打下堅實的基礎(chǔ)。
[1]Bretherton F P.Reference model for metadata,A strawman[C]//IEEE Computer Society Technology Commission on MSS Metadata Workshop, Texas:University ofTexas Austin,1994.
[2]Lillywhite J.Identify available spatial metadata:the problem[C]//Medyckyj-scott D, Newman I, Ruggles C, et al, eds.Metadata in the geo-sciences, Loughborough UK:Group D Publications LTD,1995.3-12.
[3]Ashrafi N.The information repository:a tool for metadata management[J].Journal of Database Management, 1995,6(2):3-11.
[4]KapetaniosE, KramerR.A knowledge-based system approach for scientific data analysis and the Notion of metadata[C]//Proceeding of the Fourteenth IEEE Symposium on Mass Storage Systems,1995.
[5]Federal Geographic Data Committee (FGDC).The FGDC content standards for Digital Geospatial Metadata(CSDGM)[S].1994.
[6]ISO/TC211.Geographic information-metadata,ISO standard 15046-15 metadata[S].Version 2.0,1997.
[7]陳雪龍,王延章.WebGIS中的元數(shù)據(jù)研究[J].小型微型計算機系統(tǒng), 2004,25(6):1028-1031.
CHEN Xue-long,WANG Yan-zhang.Research of metadata for webGIS[J].Mini-Micro Systems,2004,25(6):1028-1031.