詹長根,涂李蕾,嚴 盼,吳 藝
(1.武漢大學 資源與環(huán)境科學學院,湖北 武漢430079)
地籍數據庫優(yōu)化集成研究
詹長根1,涂李蕾1,嚴 盼1,吳 藝1
(1.武漢大學 資源與環(huán)境科學學院,湖北 武漢430079)
針對我國現行地籍數據庫中存在的數據雜糅、組織異構、冗余量大等不足,將ISO/TC211土地管理域模型(LADM)拓展為適合我國國情的人-地關系模型。利用該模型對地籍數據組織結構進行優(yōu)化集成,消除數據庫中存在的數據冗余與異構,以構建通用一體化地籍數據庫。
地籍數據庫;集成優(yōu)化設計;人-地關系模型;數據組織結構
2007年,我國正式發(fā)布了2個地籍數據庫標準,即《土地利用數據庫標準》(TD/T 1016-2007)[1]和《城鎮(zhèn)地籍數據庫標準》(TD/T 1015-2007)[2],分別用于2008年開始的農村土地調查和城鎮(zhèn)土地調查數據庫建設。2011年至今,我國開展了農村集體土地所有權、宅基地使用權和集體建設用地使用權調查登記工作,其相應的數據庫建設原則上仍按照上述2個標準進行。至今,縣級國土資源部門共建設了4種數據庫,包括農村土地利用數據庫、城鎮(zhèn)地籍數據庫、集體土地所有權數據庫以及宅基地使用權和集體建設用地使用權數據庫?;诋敃r的技術水平,《土地利用數據庫標準》和《城鎮(zhèn)地籍數據庫標準》的數據組織結構并不是一體化設計的。因此,基于上述標準建立的4種數據庫之間在數據交換、相互利用等方面存在很大的障礙[3]。將現有的地籍數據庫進行統(tǒng)一集成,克服數據庫之間的異構,實現地籍信息共享,是亟需解決的問題。
1.1 相似度計算模型
相似度是對數據冗余進行定量分析的重要指標,也是分析數據組織異構,實現數據組織集成、合并的理論基礎[4]。基于特征匹配計算相似度的模型是通過匹配2個對象的特征來計算其相似度,最早應用于心理學研究。其基本思想為:對象a和b之間的相似度與它們之間的共性和差別相關,擁有的共性越多,相似性越大[5]。最有代表性的算法是Tversky模型:
式中,A、B分別是對象a和b的屬性集合;A∩B表示A和B共有的特征;A-B表示A具有而B不具備的特征;B-A表示B具有而A不具備的特征;α、β表示比較對象和參照對象的重要性權重。
Tversky模型將特性的差異性引入相似性度量中,設a為比較對象,b為參照對象。地籍數據中,不同種類的調查數據可認為具有同等的重要性,故取α=β=1。Tversky模型是基于二值特征的,可通過1或0表示特征的有或無。據此,將式(1)簡化為:
式中,f11表示A和B共有特征的個數;f10表示A具有而B不具備的特征個數;f01表示B具有而A不具備的特征個數。
1.2 基于LADM的人-地關系模型
1.2.1 LADM概述
ISO/TC211國際標準土地管理域模型 LADM是以國際測量師聯合會(FIG)發(fā)布的“地籍系統(tǒng)2014”為基礎的[6]。LADM從人地關系出發(fā),以地籍主體、地籍客體和土地權利為核心,建立起地籍主體和地籍客體之間的聯系,是應用非常廣泛的空間表達模型[7,8]。
1.2.2 人-地關系模型
本文立足于我國地籍管理的現狀,以LADM核心框架為參考,將其改進為適合我國國情的人–地關系模型。我國地籍管理對象為:主體——人,客體——地塊、主體和客體之間的紐帶——土地制度,對象及其關聯通過地籍業(yè)務顯化出來,見圖1。采用數據結構的表達方式,人–地關系模型可以表示為:
式中,D由2個元素組成,D={人,地塊};R是D上關系的集合,R={土地制度}。
圖1 基于LADM的人-地關系模型
2.1 數據庫內組織混亂
現行各地籍數據庫中數據組織的設計思路是參照地籍管理業(yè)務中的相關數據表格,根據其結構與內容,基于實際業(yè)務管理的特點進行設計的。在這種面向業(yè)務的數據組織方式中,唯一的實體是宗地。現行數據組織結構雖然能夠滿足單純的業(yè)務數據存儲、查詢和管理需求,但各數據表都僅針對具體業(yè)務,而忽略了數據庫內各部分間的關系。地籍數據庫主要存在以下幾個問題:
1)屬性字段內聚度低?,F行數據庫屬性表中,部分字段與表中其他字段關聯程度較低,屬性表繁雜且不符合范式要求。例如,城鎮(zhèn)地籍數據庫的宗地屬性表中,建筑容積率、建筑密度、土地級別、申報地價、取得價格這5個字段并不屬于宗地的基本信息,而是在土地利用過程中產生的易變動數據。當上述信息變化時,宗地的基本信息就會被重復存儲。
2)屬性字段集成度低,即同一數據庫中部分語義、結構相似的字段多次出現。例如,城鎮(zhèn)地籍數據庫的權利人屬性表中,權利人名稱、權利人證件類型、權利人證件號、法人代表姓名、法人代表證件類型、法人代表證件號、代理人姓名、代理人證件類型、代理人證件號這9個字段高度相似。
3)屬性字段重復冗余。在現行的地籍數據庫中,部分完全相同的屬性字段在多個屬性表中重復出現。例如,在土地利用數據庫中,有關控制點的名稱、點號、類型、等級等相關字段,在測量控制點屬性表與數字正射影像圖糾正控制點屬性表中重復出現,造成數據冗余。
2.2 數據庫間結構差異明顯
由于現有4種地籍數據庫在建庫過程中缺少統(tǒng)一標準,造成各數據庫的數據組織結構存在差異,數據庫之間明顯異構。主要體現在以下方面:
1)空間要素分層異構。主要指部分空間要素層缺失的情況。例如,由于土地利用數據庫對土地利用信息重點關注,土地利用數據庫中所包含的基本農田要素層和其他要素層在其他數據庫中缺失。
2)屬性結構描述表異構。主要包括:①部分屬性表缺失。例如,城鎮(zhèn)地籍數據庫中包括“房屋屬性表”、“房屋權利人擴展屬性表”,而其他3種數據庫則不存在。②結構沖突。例如,在城鎮(zhèn)地籍數據庫中,權屬來源證明擴展表為標識碼、地籍號、土地證號、權屬證明文件類型、權屬證明文件編號、權屬證明文件日期、權屬來源證明;土地利用數據庫中,權屬來源證明擴展表為標識碼、地籍號、權屬來源證明文件類型、權屬來源證明文件編號、權屬來源證明、權屬單位代碼。同為權屬來源證明擴展表,前表比后表多出“土地證號”和“權屬證明文件日期”2個字段,缺少“權屬單位代碼”字段。
3)字段沖突。①命名沖突。同名異義,例如,城鎮(zhèn)地籍數據庫與土地利用數據庫的地類圖斑屬性表中均包含“圖斑面積”字段,但因空間對象的多尺度性,導致二者雖名稱相同,但含義卻不相同[9,10];異名同義,例如,在城鎮(zhèn)地籍數據庫與土地利用數據庫的權屬調查擴展表中,分別存在“界址標志”和“界址標識”字段,但均表示界址點標記。②類型沖突。指采用不同的數據類型表達相同的字段。例如,權利人屬性表中的“代理人身份證明書”字段,城鎮(zhèn)地籍數據庫把它定義為varbin類型,而土地利用數據庫將其定義為char類型。③長度沖突。例如,宗地屬性表中“實測面積”字段,城鎮(zhèn)地籍數據庫與土地利用數據庫分別將此字段長度定義為16位和15位。④約束條件沖突。例如,行政區(qū)屬性表中的“控制面積”,在城鎮(zhèn)地籍數據庫中屬于條件必填字段,而在土地利用數據庫中為必填字段。⑤值域沖突。以衛(wèi)星定位等級點的值域為例,其在城鎮(zhèn)地籍數據庫中為A、B、C、D、E、二等、三等、四等、一級、二級;而土地利用數據庫中僅為A、B、C、D、E 5個等級。
2.3 數據庫間數據冗余大
運用相似度模型對現有地籍數據庫中的數據冗余進行定量計算與分析。以城鎮(zhèn)地籍數據庫和土地利用數據庫的宗地屬性表為例說明相似度計算過程:分析宗地屬性表中的字段名,確定等價概念對,用1或0表示概念的有或無,對宗地屬性表進行簡化,見表1。
由表1統(tǒng)計得到,宗地屬性表中f11=9,f10=7,f01=2。代入式(2),得到城鎮(zhèn)地籍數據庫與土地利用數據庫宗地屬性表之間的相似度為50%。同理,可計算出各數據庫之間所含屬性表的相似度。通過對城鎮(zhèn)地籍數據庫、土地利用數據庫、集體土地所有權數據庫及宅基地和集體建設用地使用權數據庫中所有同名屬性表的相似度分析發(fā)現,現有地籍數據庫中所涉及到的32個屬性表,其中4庫完全相同的屬性表有11個,占34.4%;3庫完全相同的屬性表有8個,占25%;2庫完全相同的屬性表有4個,占12.5%??梢?,現有地籍數據庫間相似度較高,數據冗余量大。
表1 宗地屬性結構字段對比表
針對現行地籍數據庫中數據組織結構雜糅、數據冗余度高以及數據庫間異構、共享困難等問題,本文基于由LADM拓展的人-地關系模型,并結合我國地籍管理現狀,對現行地籍數據庫中的屬性字段、組織結構等進行規(guī)范,構建適合我國國情的一體化集成地籍數據庫。
3.1 地籍主體實體構建
人-地關系模型中的主體實體“人”,是指地籍管理和業(yè)務中涉及到的所有角色,包括權利人、代理人、義務人、審查人、審批人等自然人和法人。通過對現有地籍數據庫進行分析發(fā)現,權利人實體(權屬單位)的名稱、證件號等關于人的屬性信息,多次出現在房屋權利人擴展表、權利人屬性表、他項權利登記擴展表、地類圖斑屬性表和線狀地物屬性表中,造成數據冗余大、數據庫維護與更新困難。從相關屬性表中提取出人的本質屬性,構建人屬性的實體模型,見圖2。人屬性結構描述見表2。
圖2 人屬性的實體模型
表2 人屬性結構描述表
3.2 地籍客體實體構建
人-地關系模型中的客體實體為地塊,即可辨別出同類屬性的最小土地單元[11]。依據本體論的思想,宗地、地類圖斑、線狀地物、零星地物都可以統(tǒng)一聚集到地塊實體中。設計的地塊屬性結構描述表中僅包含地塊位置、地塊類型等地塊的本質屬性,通過“標識碼”、“地塊代碼”字段與其他相關聯的權屬信息和利用信息進行掛接;通過“隸屬調查區(qū)代碼”與上級調查單元進行掛接[11];通過“隸屬地塊代碼”、“隸屬界址線代碼”與下級空間實體界址線、界址點掛接。地塊及其關聯屬性的實體模型見圖3,地塊屬性結構描述表見表3。
表3 地塊屬性結構描述表
圖3 地塊及其關聯屬性的實體模型
圖4 地籍業(yè)務屬性的實體模型
3.3 地籍業(yè)務實體構建
人-地關系模型中的連接樞紐是指土地權利制度和土地利用制度,外化為地籍調查、土地登記申請、土地登記審批、土地注冊登記等多種地籍管理業(yè)務。地籍業(yè)務的發(fā)生將地籍主體實體與地籍客體實體相互關聯。本文構建地籍業(yè)務屬性的實體模型如圖4所示。
需要補充的是,地籍數據庫中除人-地關系模型的核心實體外,還包含許多基礎性地理數據和輔助性數據,如行政區(qū)、調查區(qū)、控制點、高程點及地類界線、各類注記等。這些數據通過相應字段與核心實體相互掛接,從而使各數據層之間彼此聯系,構成一個完整的地籍數據庫整體。
本文在分析現行地籍數據庫缺陷的基礎上,通過理順地籍管理中所涉及的實體及其關系,克服數據庫之間的異構與冗余等問題,并基于人-地關系模型從人、地塊、業(yè)務等方面設計了通用的一體化地籍數據庫的實體模型與屬性表。相比現行地籍數據庫中的32個屬性表、360個字段,通用一體化地籍數據庫僅包含26個屬性表、244個字段,將大量冗余數據擠出。一體化集成數據組織結構既減少了數據存儲量,又滿足了數據庫范式要求,是地籍數據庫建設發(fā)展的必然趨勢。
[1] TD/T 1016-2007土地利用數據庫標準[S].
[2] TD/T 1015-2007城鎮(zhèn)地籍數據庫標準[S].
[3] 陳紅艷, 于曉峰, 李曉燕, 等. 城鎮(zhèn)地籍數據庫建設及發(fā)展趨向[J].測繪通報,2010(7):65-67
[4] 曹澤文, 錢杰, 張維明, 等. 一種綜合的概念相似度計算方法[J].計算機科學,2007,34(3): 174-175
[5] 宋玲, 郭家義, 張冬梅, 等. 概念與文檔的語義相似度計算[J].計算機工程與應用, 2009, 44(35): 163-167
[6] Kaufmann J, Steudler D. Cadastre 2014: A Vision for a Future Cadastral System[M]. Kaufmann J, Steudler D, 1998
[7] Elia E A, Zevenbergen J A, Lemmen C H J, et al. The Land Administration Domain Model (LADM) as the Reference Model for the Cyprus Land Information System (CLIS)[J].Survey Review, 2013,45(329):100-110
[8] Lemmen C H J, Oosterom P J M, Uitermark H T, et al.Transforming the Land Administration Domain Model (LADM) into an ISO Standard (ISO19152)[J]. 2009
[9] 許歡. 面向服務的土地資源空間信息多級語義網格研究[D].杭州:浙江大學, 2009
[10] 黃亮,姜棟.城鄉(xiāng)一體化土地調查理論與方法初探[J].國土資源科技管理,2009,26(6): 79-83
[11] 詹長根,唐祥云,劉麗.地籍測量學[M]. 武漢:武漢大學出版社, 2008
P273
B
1672-4623(2016)02-0006-04
10.3969/j.issn.1672-4623.2016.02.002
詹長根,博士,副教授,主要研究方向為現代地籍理論與方法、土地信息技術。
2015-03-30。
項目來源:全國宗地統(tǒng)一編碼示范推廣與集成應用資助項目(DCPJ13-10.1)。