聞 達(dá),吳夏倩,潘慧婕,周 煜,沈鉅龍,盧春陽
(1.浙江省測(cè)繪科學(xué)技術(shù)研究院,浙江 杭州 311100)
浙江省“基層治理四平臺(tái)”數(shù)字化建設(shè),提出了建立完善日常工作中涉及的基礎(chǔ)信息維護(hù)與更新、網(wǎng)格繪制等標(biāo)準(zhǔn)制度,明確將地址數(shù)據(jù)采集更新納入網(wǎng)格員工作內(nèi)容,并要求各類重點(diǎn)場(chǎng)所信息與建筑物地址編碼進(jìn)行關(guān)聯(lián)。地址是最常用的社會(huì)公共信息,不僅與人們的日常生活息息相關(guān),而且是政府行政、經(jīng)濟(jì)建設(shè)、社會(huì)治理重要的基礎(chǔ)信息資源[1]。在信息化體系中,地址是不可或缺的重要節(jié)點(diǎn)和橋梁,但因其普遍性和復(fù)雜性,導(dǎo)致標(biāo)準(zhǔn)地址的建設(shè)與應(yīng)用面臨諸多難題[2]。目前,浙江省地址數(shù)據(jù)存在來源部門多、標(biāo)準(zhǔn)不一、覆蓋區(qū)域不全等問題,從而導(dǎo)致社會(huì)治理信息落圖和分析研判困難。本文基于標(biāo)準(zhǔn)地址庫質(zhì)量評(píng)定方法,將質(zhì)檢工作量大、缺少自動(dòng)化檢查工具等難題作為切入點(diǎn),利用FME 技術(shù)和Python 的空間地理信息接口設(shè)計(jì)了相關(guān)的質(zhì)檢模塊,可根據(jù)地址庫數(shù)據(jù)質(zhì)檢要求,自動(dòng)檢查地址數(shù)據(jù)的規(guī)范性、完整性、唯一性、準(zhǔn)確性等,進(jìn)而提升數(shù)據(jù)質(zhì)量、提高質(zhì)檢效率。
標(biāo)準(zhǔn)地址庫質(zhì)檢包括概要檢查和抽樣詳查,概要檢查是對(duì)全域數(shù)據(jù)進(jìn)行統(tǒng)籌檢查,包括坐標(biāo)系、字段、格式等數(shù)據(jù)的邏輯一致性、規(guī)范性;抽樣檢查是對(duì)指定范圍內(nèi)的數(shù)據(jù)進(jìn)行詳細(xì)檢查,包括數(shù)據(jù)采集全面性、數(shù)據(jù)唯一性、定位準(zhǔn)確性、類型正確性、屬性完整性等。
地址是現(xiàn)代社會(huì)經(jīng)濟(jì)發(fā)展過程中所必需的戰(zhàn)略性基礎(chǔ)信息資源,對(duì)于國家和地區(qū)發(fā)展具有重要意義[3]。地址數(shù)據(jù)是基礎(chǔ)地理數(shù)據(jù)重要的組成部分,是人們最常用的地理信息數(shù)據(jù)之一[4],可為社會(huì)公眾的工作和生活提供詳實(shí)的檢索、定位信息,為公眾的出行、旅游、購物等活動(dòng)提供方便[5]。標(biāo)準(zhǔn)地址是指具有統(tǒng)一規(guī)范表達(dá)形式和統(tǒng)一編碼的位置信息描述,用于標(biāo)識(shí)和定位人們生產(chǎn)、生活所處的位置。根據(jù)粒度標(biāo)準(zhǔn)地址可分為門址、樓址和戶室地址,門址是指具有獨(dú)立門牌號(hào)碼的小區(qū)、院落和沿街商鋪等地址;樓址是指獨(dú)立的建筑物地址,一個(gè)樓址對(duì)應(yīng)一個(gè)相對(duì)獨(dú)立的建筑物;戶室地址是建筑物內(nèi)帶獨(dú)立編號(hào)的一套或一間戶室的地址。標(biāo)準(zhǔn)地址由行政區(qū)劃、基本區(qū)域限定物、院門、院內(nèi)區(qū)域限定物、建筑物、單元戶室6 部分組成。標(biāo)準(zhǔn)地址庫是組織、管理、融合和分析地表海量地址時(shí)空信息的數(shù)據(jù)庫基礎(chǔ),也是描述、構(gòu)建和認(rèn)知地址空間,進(jìn)而解決標(biāo)準(zhǔn)地址編碼問題的時(shí)空平臺(tái)[6],承擔(dān)著整合信息資源、支撐技術(shù)應(yīng)用的職能,可為政府各職能部門和社會(huì)公眾提供可靠、高效、準(zhǔn)確的地理位置定位服務(wù)[7]。
根據(jù)標(biāo)準(zhǔn)地址庫質(zhì)量評(píng)定方法,結(jié)合實(shí)際地址庫質(zhì)檢工作要求,質(zhì)檢規(guī)則規(guī)定了地址數(shù)據(jù)的邏輯一致性、采集全面性、數(shù)據(jù)唯一性、定位準(zhǔn)確性、屬性正確性、屬性完整性、屬性規(guī)范性和數(shù)據(jù)提交的規(guī)范性等。詳細(xì)質(zhì)檢規(guī)則設(shè)計(jì)見表1。
表1 質(zhì)檢規(guī)則設(shè)計(jì)
標(biāo)準(zhǔn)地址庫質(zhì)檢的技術(shù)路線:①基于FME工具搭建質(zhì)檢轉(zhuǎn)換器模型,分別采用直連和本地讀取的方式讀取在線云數(shù)據(jù)庫和離線數(shù)據(jù)庫,并利用空間分析工具判斷門樓址、戶室地址與建筑物的定位、距離、壓蓋等關(guān)系;②利用屬性判斷工具檢查數(shù)據(jù)是否完整、準(zhǔn)確、遺漏;③輸出檢查成果報(bào)告和成果定位數(shù)據(jù),作業(yè)人員及時(shí)進(jìn)行修改,修改完成后再次提交質(zhì)檢,直至質(zhì)檢通過,得到最終的地址庫成果。
本文根據(jù)技術(shù)路線,從數(shù)據(jù)源的讀取設(shè)計(jì)入手,針對(duì)空間和屬性的質(zhì)檢要求設(shè)計(jì)每個(gè)功能模塊,完成地址庫數(shù)據(jù)質(zhì)檢研究設(shè)計(jì)。
地址庫的數(shù)據(jù)主要包括政法委提交的離線數(shù)據(jù)和在線云數(shù)據(jù)庫,離線數(shù)據(jù)為GDB格式庫體數(shù)據(jù),在線云數(shù)據(jù)庫為MySQL 地址庫,二者類型、格式、字段、數(shù)據(jù)訪問限制各不相同。對(duì)于相同的質(zhì)檢規(guī)則,需滿足不同用戶對(duì)數(shù)據(jù)訪問和抽取的要求。離線GDB地址庫是標(biāo)準(zhǔn)格式版地址庫數(shù)據(jù),屬于線下提交成果,用于在線數(shù)據(jù)庫的增量更新和質(zhì)檢中的數(shù)據(jù)詳查(表2)。
表2 標(biāo)準(zhǔn)格式GDB數(shù)據(jù)庫表結(jié)構(gòu)(以戶室地址為例)
在線MySQL云數(shù)據(jù)庫是存儲(chǔ)在浙江省政務(wù)云上的數(shù)據(jù)庫,其表結(jié)構(gòu)更加復(fù)雜,部分?jǐn)?shù)據(jù)庫表結(jié)構(gòu)見表3。在數(shù)據(jù)源讀取上,通過配置數(shù)據(jù)庫IP地址、端口以及數(shù)據(jù)庫的用戶名和密碼,實(shí)現(xiàn)對(duì)數(shù)據(jù)庫鏈接和要素圖層的獲取(圖1),主要用于質(zhì)檢中的數(shù)據(jù)整體抽樣概查。
圖1 MySQL數(shù)據(jù)庫鏈接界面
表3 MySQL數(shù)據(jù)庫表結(jié)構(gòu)(部分)
地址庫的空間關(guān)系質(zhì)檢主要是檢查地址數(shù)據(jù)的定位準(zhǔn)確性,包括地址點(diǎn)與建筑物面的空間關(guān)系、與統(tǒng)一網(wǎng)格面的空間關(guān)系以及地址點(diǎn)相互之間的重疊關(guān)系。
地址點(diǎn)與建筑物面的空間關(guān)系,一方面檢查落在建筑物面的門、樓址點(diǎn),規(guī)定門址不能落在建筑物面內(nèi),樓址必須落在建筑物面內(nèi),通過PointOnAr?eaOverlayer 工具可判斷點(diǎn)與面的壓蓋關(guān)系,屬于地下停車場(chǎng)的樓址點(diǎn)可不在面內(nèi),因此進(jìn)一步過濾名稱,將不在面內(nèi)且名稱中不包含“地下”的樓址點(diǎn)輸出;另一方面,檢查落在建筑物面的樓址點(diǎn)位置與建筑物面中心點(diǎn)的距離是否符合要求,設(shè)置閾值進(jìn)行檢查,仍采用點(diǎn)面壓蓋工具篩選落在面內(nèi)的點(diǎn),并通過Matcher 匹配工具過濾“一面多點(diǎn)”的情況,利用CenterPointReplacer 提取面的中心點(diǎn),利用構(gòu)線工具LineBuilder 連接地址點(diǎn)和面的中心點(diǎn),計(jì)算投影長(zhǎng)度,設(shè)置長(zhǎng)度閾值,將與面中心點(diǎn)距離大于閾值的點(diǎn)輸出。
地址與統(tǒng)一網(wǎng)格面的空間關(guān)系,包括地址點(diǎn)是否落在對(duì)應(yīng)的網(wǎng)格面內(nèi)、 地址中的網(wǎng)格代碼(GRID_CODE)與網(wǎng)格數(shù)據(jù)的代碼(ADCODE)是否一致以及行政區(qū)劃字段是否一致。通過點(diǎn)面壓蓋工具判斷地址點(diǎn)與網(wǎng)格面的關(guān)系,并設(shè)置屬性聚合,將網(wǎng)格面的代碼賦值到地址點(diǎn)的列表中(圖2),最后判斷其代碼的一致性。行政區(qū)劃字段一致性判斷同理。
地址點(diǎn)相互之間的重疊關(guān)系包括門樓址的自重疊、樓址與戶室地址的重疊以及門址與樓址的重疊,其中門樓址的自重疊通過PointOnPointOverlayer工具判斷點(diǎn)與點(diǎn)之間是否壓蓋,判斷Overlaps 壓蓋值是否為1,輸出壓蓋點(diǎn);樓址與戶室地址、門址的重疊檢查均通過地理緩沖工具GeographicBufferer對(duì)樓址點(diǎn)作一個(gè)細(xì)微的緩沖面,將戶室地址和門址點(diǎn)分別與樓址緩沖面進(jìn)行壓蓋分析,相交的地址點(diǎn)則與樓址點(diǎn)重疊。
地址庫的屬性關(guān)系質(zhì)檢主要是針對(duì)數(shù)據(jù)的唯一性以及屬性的完整性、正確性和規(guī)范性,包括地址的名稱和唯一碼是否唯一、戶室匹配樓址字段是否相同、是否存在異常字符、關(guān)鍵字段是否為空等。地址名稱和唯一碼的唯一性檢查,利用匹配工具,對(duì)名稱字段和唯一碼字段進(jìn)行匹配,輸出相同名稱或唯一碼的地址(圖3)。戶室匹配樓址字段檢查,利用屬性融合工具FeatureMerger 將樓址的UUID 與戶室地址的LID 進(jìn)行關(guān)聯(lián),以戶室地址為節(jié)點(diǎn)進(jìn)行輸出;對(duì)于掛接到戶室地址上的樓址字段,比對(duì)其本身的地址字段,檢查戶室地址的地址字段是否完全包含樓址的地址字段。
圖2 網(wǎng)格屬性聚合賦值
圖3 名稱唯一性檢查
標(biāo)準(zhǔn)地址庫在線數(shù)據(jù)自動(dòng)化質(zhì)檢改變了數(shù)據(jù)的檢查方式,節(jié)約了人力和時(shí)間成本,同時(shí)支持?jǐn)?shù)據(jù)在線、離線兩種質(zhì)檢模式,解決了多源數(shù)據(jù)中數(shù)據(jù)不統(tǒng)一、標(biāo)準(zhǔn)不統(tǒng)一的問題,提高了數(shù)據(jù)質(zhì)量,解決了數(shù)據(jù)遺漏、分類錯(cuò)誤、空間匹配錯(cuò)誤、地址錯(cuò)位、分節(jié)錯(cuò)誤等問題。隨著標(biāo)準(zhǔn)地址庫質(zhì)量的提升,將進(jìn)一步促進(jìn)基層社會(huì)治理科學(xué)化、精細(xì)化、智能化水平。