潘俊輝 相生昌
(1.東北石油大學,大慶 163318;2.同方知網(wǎng)技術有限公司,北京100084)
GIS空間數(shù)據(jù)與屬性數(shù)據(jù)的文件組織結(jié)構(gòu)研究
潘俊輝1相生昌2
(1.東北石油大學,大慶 163318;2.同方知網(wǎng)技術有限公司,北京100084)
針對傳統(tǒng)GIS數(shù)據(jù)管理方法都是將空間數(shù)據(jù)與屬性數(shù)據(jù)分隔開來分別進行管理的缺點,提出一種用于將空間數(shù)據(jù)和屬性數(shù)據(jù)進行統(tǒng)一管理的文件組織方法。文中分別給出空間數(shù)據(jù)和屬性數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu),然后采用層次性結(jié)構(gòu)化文件系統(tǒng)結(jié)合文件索引和數(shù)據(jù)字典技術來對空間數(shù)據(jù)和屬性數(shù)據(jù)進行統(tǒng)一管理。該方法能夠?qū)Ω鲗嶓w信息表示盡量結(jié)構(gòu)化,從而加快大數(shù)據(jù)量應用的存取速度。
GIS;空間數(shù)據(jù);屬性數(shù)據(jù);數(shù)據(jù)字典;文件索引
地理信息系統(tǒng)(GIS)是集地理學、地圖學、計算機科學、遙感等多種學科涉及空間數(shù)據(jù)采集、處理和分析等多種技術共同發(fā)展的結(jié)果,這些技術與學科有機地融合在一起,以地理空間數(shù)據(jù)庫為基礎,與不同數(shù)據(jù)源的空間與非空間數(shù)據(jù)相結(jié)合,通過操作和模型分析,提供對規(guī)劃、管理和決策服務的計算機系統(tǒng)。數(shù)據(jù)存儲是GIS系統(tǒng)中的關鍵步驟,它涉及到空間數(shù)據(jù)與屬性數(shù)據(jù)的存儲,空間數(shù)據(jù)結(jié)構(gòu)的選擇在一定程度上決定了系統(tǒng)所能執(zhí)行的數(shù)據(jù)與分析功能。
傳統(tǒng)GIS數(shù)據(jù)管理方法都是將空間數(shù)據(jù)與屬性數(shù)據(jù)分隔開來分別進行管理,對于空間數(shù)據(jù)采用結(jié)構(gòu)化的文件系統(tǒng)來管理,而對于屬性數(shù)據(jù)則是借助于數(shù)據(jù)庫管理系統(tǒng)來管理。近年來又大多采用空間數(shù)據(jù)庫對空間數(shù)據(jù)進行管理[1];但對于空間數(shù)據(jù)與屬性數(shù)據(jù)不能當作一個整體來管理,從而在執(zhí)行基于空間數(shù)據(jù)和屬性數(shù)據(jù)的綜合空間查詢和空間分析時有一定的局限性。同時由于GIS中各實體數(shù)據(jù)的非結(jié)構(gòu)化問題使得很難選擇統(tǒng)一的方法來處理不同的GIS實體,因而采用了一種層次性結(jié)構(gòu)化文件系統(tǒng)結(jié)合文件索引和數(shù)據(jù)字典技術來對空間數(shù)據(jù)和屬性數(shù)據(jù)進行統(tǒng)一管理,對于各實體信息盡量結(jié)構(gòu)化表示,從而加快大數(shù)據(jù)量應用的存取速度。
數(shù)據(jù)存儲是GIS系統(tǒng)中的關鍵步驟,它涉及到空間數(shù)據(jù)與屬性數(shù)據(jù)的存儲。而在GIS數(shù)據(jù)組織與管理中,最為關鍵的是如何將空間數(shù)據(jù)與屬性數(shù)據(jù)融合為一體。目前大多數(shù)系統(tǒng)都是將二者分開存儲,通過公共數(shù)據(jù)項來連接。這種組織方式的缺點是數(shù)據(jù)定義與數(shù)據(jù)操作相分離,無法有效地記錄地理實體在時間域上的變化屬性[2]。通過一個GIS實體類對空間數(shù)據(jù)和屬性數(shù)據(jù)進行管理。
GIS系統(tǒng)中的地理實體的幾何形體各式各樣,但是映射到計算機內(nèi)部表示矢量數(shù)據(jù)的簡單數(shù)據(jù)結(jié)構(gòu)可抽象為點、線、面三種最基本的圖元形式來描述,而對于復雜的地理實體可通過這三種基本圖元的組合來描述[3]。另外為了方便繪制一些特殊圖元的需要,也將矩形和圓形圖元定義為基本圖元。由于點、線、面三種基本圖元之間又有共同的屬性,因而可抽象一個基元類來描述它們?nèi)叩墓残裕N基本圖元都從它派生。基元類包括顏色、線型、線寬、圖元類型等數(shù)據(jù)項。各種圖元的結(jié)構(gòu)定義如下:
屬性數(shù)據(jù)是空間實體的特征信息,各種不同的GIS實體的屬性各異,難以用同一結(jié)構(gòu)來表示,因而對同一類地理實體要素的非結(jié)構(gòu)化的屬性盡量抽象成結(jié)構(gòu)化的數(shù)據(jù)表示。采用類模板和數(shù)據(jù)庫中數(shù)據(jù)字典的思想對屬性數(shù)據(jù)進行抽象和管理。
首先定義描述地理實體屬性數(shù)據(jù)數(shù)據(jù)項的結(jié)構(gòu)體,再定義地理實體屬性數(shù)據(jù)的模板,此模板由各數(shù)據(jù)項結(jié)構(gòu)體組成,有多少個屬性數(shù)據(jù)便有多少個數(shù)據(jù)項結(jié)點。由于屬性數(shù)據(jù)的類型是不確定的,所以對于每一種數(shù)據(jù)類型定義一個存儲位置是對空間的嚴重浪費,因而定義了一個聯(lián)合來共享內(nèi)存的方式存儲屬性數(shù)據(jù)的值。屬性數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)如下:
屬性數(shù)據(jù)數(shù)據(jù)項結(jié)構(gòu)體:ID 屬性名 屬性類型 pNext實體模板:ID 模板名稱圖元的類型屬性數(shù)據(jù)項的頭指針屬性數(shù)據(jù)項個數(shù) 下一指針
在GIS系統(tǒng)中空間數(shù)據(jù)與屬性數(shù)據(jù)是一個有機的整體,只有空間數(shù)據(jù)與屬性數(shù)據(jù)結(jié)合在一起才有實際的意義。通過定義一個GIS實體類對空間數(shù)據(jù)和屬性數(shù)據(jù)進行管理,每個地理實體由實體ID(實體的唯一標識)、實體名、空間數(shù)據(jù)ID、屬性數(shù)據(jù)鏈表四個數(shù)據(jù)項表示。通過空間數(shù)據(jù)圖元ID可得到地理實體的空間幾何信息,即空間數(shù)據(jù);而通過對屬性數(shù)據(jù)鏈表的遍歷可得到GIS實體對象的各屬性信息。
ID 實體名 數(shù)據(jù)圖元ID(可多個)屬性數(shù)據(jù)鏈表 下一實體(pNext)
由于GIS中各實體數(shù)據(jù)的非結(jié)構(gòu)化問題使得很難選擇統(tǒng)一的方法來處理不同的GIS實體。因而采用層次性結(jié)構(gòu)化文件系統(tǒng)結(jié)合文件索引和數(shù)據(jù)字典技術來對空間數(shù)據(jù)和屬性數(shù)據(jù)進行統(tǒng)一管理。對于各實體信息盡量結(jié)構(gòu)化表示,從而加快大數(shù)據(jù)量應用的存取速度。文件分層次存儲,最頂層是文件頭,緊接著存儲的是應用中所有的地理實體的模板信息,與其并列存放在同一層次上的還有各圖層信息,在各圖層信息層之下又分層次存放各地理實體及其空間數(shù)據(jù)和屬性數(shù)據(jù)。
整個文件分五部分,分層分段存儲。第一部分是文件頭,主要存儲和整個地圖有關的信息,如版本號、縮放中心點、地圖邊界的最大和最小坐標值等信息,它的存儲大小固定。第二部分是應用中所定義的所有實體模板信息,模板信息包括模板ID、類型、名稱及屬性個數(shù),在這一層之下又存放著各模板的屬性信息,這一類實體所包含的所有屬性名稱及ID。第三部分是圖層索引信息,這一部分存儲了各層的ID、名稱及各圖層存儲的位置(開始位置)。第四部分是各圖層的具體信息,包括圖層個數(shù)、圖層ID及圖層名稱。其下又分層存儲了各層的GIS實體、以及此圖層上的所有空間圖元。GIS實體層下又存儲著各GIS實體的實體模板、屬性數(shù)據(jù)及空間數(shù)據(jù)的ID。第五部分是文件的結(jié)尾部分,是文件結(jié)束的標志。整個數(shù)據(jù)的存儲結(jié)構(gòu)如圖1所示。
在組織文件時對于同一圖層上的同一類實體都是存放在連續(xù)的地址空間上,因為它們都是屬于同一類型的實體模板,因而可以按定長記錄式文件進行讀取,通過實體模板信息可以很明確地得到各類實體有多少屬性及各屬性的類型,進而可知道各屬性所占的字節(jié)數(shù),這樣就可以知道每個實體的屬性數(shù)據(jù)有多少項,對于各數(shù)據(jù)項可看作是數(shù)據(jù)庫中的一個字段來看待,因而起到了一個數(shù)據(jù)字典的作用。同一圖層上各實體的空間數(shù)據(jù)即各圖元也是按其類型存放在連續(xù)的地址空間上,而各類圖元數(shù)據(jù)其數(shù)據(jù)項是已知的,因而可直接按定長度記錄文件來進行讀取。通過各圖層的索引可以很快地定位到各圖層上,而通過各類實體的索引及圖元索引可以很快地定位到屬性數(shù)據(jù)和空間數(shù)據(jù)上。這樣對于大數(shù)據(jù)量的GIS應用只需讀入文件頭信息、實體模板信息、圖層索引、各類實體索引及空間數(shù)據(jù)索引即可,無需讀入整個的地圖文件,通過圖層索引就可以找到圖層數(shù)據(jù)的開始段,通過實體索引和空間數(shù)據(jù)索引可以訪問空間數(shù)據(jù)和屬性數(shù)據(jù)。
圖1 文件層次結(jié)構(gòu)
在GIS數(shù)據(jù)組織與管理中,最為關鍵的是如何將空間數(shù)據(jù)與屬性數(shù)據(jù)融合為一體。最理想的存儲管理方法是利用OODBS(面向?qū)ο蟮臄?shù)據(jù)系統(tǒng))的數(shù)據(jù)管理方法,這種存儲管理方法能夠?qū)Ω鱃IS實體當作一個整體來存儲和管理,具有更高的存取效率,但目前為止還沒有一種成形的OODBS系統(tǒng)可供利用。針對此問題,給出了一種層次性結(jié)構(gòu)化文件系統(tǒng),結(jié)合文件索引和數(shù)據(jù)字典技術來對空間數(shù)據(jù)和屬性數(shù)據(jù)進行統(tǒng)一管理的組織方法,可對各實體信息盡量結(jié)構(gòu)化表示,以加快大數(shù)據(jù)量應用的存取速度。
[1]龔健雅.空間數(shù)據(jù)庫管理系統(tǒng)的概念與發(fā)展趨勢[J].測繪科學,2001(3):346-349.
[2]肖樂斌,鐘耳順,宋關福,等.GIS空間概念模型的研究[G].中國地理信息系統(tǒng)協(xié)會,2001.
[3]鄔倫,劉瑜,張晶,等.地理信息系統(tǒng)原理方法和應用[M].北京:科學出版社,2001.
[4]胡雪蓮,孫永軍,程承旗.基于地理空間概念的地理元數(shù)據(jù)組織管理研究[J].地理與地理信息科學,2003,19(2):1-4.
Research on File Organization Structure of GIS Spatial Data and Attribute Data
PAN Junhui1XIANG Shengchang2
(1.Northeast Petroleum University,Daqing 163318;2.TTKN,Beijing 100084)
Aimed to the shortcoming that the spatial data and attribute data are managed separately by the data management method of traditional GIS,a kind of file organization method to manage the spatial data and attribute data integrately is put forward in this paper.The data structure of the spatial data and attribute data are given respectively,then the spatial data and attribute data are managed centralizedly by adopting the hierarchy structured file system which is combined with file index and data dictionary techniques,this method can express the various entity information to be structured,thus to accelerate the access speed of large amount of data applications.
GIS;spatial data;attribute data;data dictionary;file index
TP393
A
1673-1980(2012)01-0128-03
2011-09-26
國家自然科學基金項目(61170132)
潘俊輝(1979-),女,碩士,東北石油大學講師,研究方向為WebGIS、數(shù)據(jù)挖掘。