劉云波,熊文平,魯志強
(浙江省測繪科學技術研究院,浙江 杭州 311100)
地名地址由自然地理實體名稱、行政區(qū)劃名稱、居民地名稱、企事業(yè)單位名稱以及具有地名意義的臺、站、港、場、名勝古跡等名稱組成,其數(shù)據(jù)包含屬性和圖形。地名地址數(shù)據(jù)庫是地理信息公共服務平臺的重要組成部分,是“數(shù)字城市”的基礎設施之一。
隨著“數(shù)字城市”建設的推進,各地通過大范圍普查,建設了基于“天地圖”的地名地址公共服務平臺,為民生服務、政務管理提供權威準確的地名地址數(shù)據(jù)。為開發(fā)者提供應用程序開發(fā)接口和在線服務資源,滿足各類基于“天地圖”API及服務接口調用獲得開發(fā)授權的應用開發(fā)需求。隨著城市持續(xù)發(fā)展,地名地址、樓門牌等不斷產生,舊的地名地址不斷變更消亡。傳統(tǒng)打印工作底圖、外業(yè)調查標注、內業(yè)轉繪整理的更新方法,工作流程多,項目周期長[2]。移動采集系統(tǒng)雖效率高,但對作業(yè)人員的技術能力要求較高,且成本投入大,適用于大范圍“掃街”采集數(shù)據(jù)[1]。結合人工智能、大數(shù)據(jù)、移動GIS、GNSS、互聯(lián)網(wǎng)+等技術,建立高效的地名地址數(shù)據(jù)庫動態(tài)更新機制[3],既是公共服務的迫切需要,也是關系“數(shù)字城市”長遠發(fā)展的基礎工程,對服務社會治理,方便群眾生活,推進“智慧城市”具有重要意義。
收集民政局的門牌及地名數(shù)據(jù)、工商局的企事業(yè)單位登記信息、公安局的地址信息以及其他來源的地名地址信息。以上一期“天地圖”地名地址數(shù)據(jù)庫為本底數(shù)據(jù)并繼承其數(shù)據(jù)結構、要素分類與編碼。提取基礎地理信息數(shù)據(jù)庫的注記、居民地、道路等圖層。按照一定的清洗規(guī)則和相關流程把相似重復、不一致、屬性缺失的信息進行數(shù)據(jù)清洗,得到準確、完整、統(tǒng)一規(guī)范的本底地名地址數(shù)據(jù)。疊加遙感影像后形成電子工作底圖,供外業(yè)核實。
將工作底圖導入POIGIS地名地址信息采集系統(tǒng)中進行地名地址數(shù)據(jù)、建筑物、道路等要素的采集與更新。實地采集時參考工作底圖上標注的地名地址信息。對新增地名地址實時采集并填寫名稱、屬性等,并對每個地名地址信息進行拍照等多媒體記錄。原有錯誤位置信息現(xiàn)場進行移動、修改等編輯操作。興趣點有新增但基礎地理信息數(shù)據(jù)沒有更新時,通過藍牙獲取GNSS定位信息,精確繪制建筑物的空間分布情況,并進行拍照,標記各要素的準確時空信息、屬性信息。
對地址點、興趣點的分類代碼批量進行規(guī)范化、標準化處理。對外業(yè)調查完成的數(shù)據(jù)進行采集精度、要素完整性等質量檢查并提取增減量數(shù)據(jù)包,經過數(shù)據(jù)入庫檢查后推送至“天地圖”公共服務平臺,實現(xiàn)地名地址數(shù)據(jù)庫在線動態(tài)更新。
“天地圖”地名地址數(shù)據(jù)庫動態(tài)更新流程見圖1。
圖1 地名地址數(shù)據(jù)庫動態(tài)更新流程圖
由不同職能部門、不同行業(yè)、不同來源的專題地名地址數(shù)據(jù)組成的存量地名地址數(shù)據(jù)倉,其現(xiàn)勢性、數(shù)據(jù)結構、屬性信息等存在異構性,必須進行數(shù)據(jù)清洗。第一步將數(shù)據(jù)導入python等相關科學計算庫中,查看元數(shù)據(jù),包括字段解釋、數(shù)據(jù)采集、代碼表等描述數(shù)據(jù)的信息。抽取部分數(shù)據(jù)進行人工查看,獲取數(shù)據(jù)的基本屬性與特征分布情況。對照標準地名地址數(shù)據(jù)庫,確定缺失值的范圍,對某些缺省值進行填充。標記非常重要又缺失率高的數(shù)據(jù),供外業(yè)核實。第二步進行格式內容清洗,去除不必要的字段,統(tǒng)一多源數(shù)據(jù)的顯示格式,如日期、時間、數(shù)值等。采用半自動方式詳細識別字段描述與數(shù)據(jù)內容,如電話號碼填寫成文字等。第三步通過邏輯推理對數(shù)據(jù)進行去重,去除不合理值,修正矛盾值內容。第四步非需求數(shù)據(jù)清洗,即以“天地圖”地名地址數(shù)據(jù)庫結構為準,刪除多余字段。第五步關聯(lián)驗證多個來源的同一地理空間的地名地址信息,進行調整或去除數(shù)據(jù)處理。將經過多步清洗后的存量地名地址數(shù)據(jù)作為現(xiàn)場核實補充的本底數(shù)據(jù)。
以Windows平板電腦作為硬件平臺,通過藍牙與GNSS-RTK結合組成厘米級定位精度的硬件系統(tǒng)?;贛icrosoft.com技術構建的Arcobject GIS組件庫,開發(fā)組件式GIS采集處理系統(tǒng)。以分層疊加數(shù)據(jù)清洗后的本底地名地址、基礎地理信息、影像等數(shù)據(jù)作為工作底圖,以標準地名地址庫為數(shù)據(jù)庫模板。通過藍牙獲取GNSS定位信息,精繪制建筑物的空間分布情況,拍照獲取地名地址和POI的影像,標記各要素的準確時空信息、屬性信息。地址點和興趣點采集界面見圖2、圖3。
圖2 地址點采集界面
圖3 興趣點采集界面
使用人工智能NLPL(自然語言處理)等技術,對注記文本進行特征抽取,訓練數(shù)據(jù)自平衡,建立預測模型,對新采集的要素自動填寫地名地址、興趣點行業(yè)類別代碼,批量賦值屬性信息。一鍵式導出地名地址增減量數(shù)據(jù)包,改變了傳統(tǒng)外業(yè)紙質調繪作業(yè)方式,準確得到采集的時空信息,數(shù)據(jù)更新快速及時,既保證了數(shù)據(jù)質量又避免了大量的后錄入、后處理工作。
分析外業(yè)調查數(shù)據(jù)庫中要素數(shù)據(jù)時空信息、屬性信息并進行語義匹配。以基態(tài)“天地圖”地名地址數(shù)據(jù)庫為基礎,遍歷調查數(shù)據(jù)庫中每個要素并區(qū)分不同的變動類別,即判讀要素是否增加、刪除、修改和未變動等,抽取變動要素打包成增減量數(shù)據(jù)包。通過數(shù)據(jù)庫質量檢查軟件進行質檢后,推送至“天地圖”地名地址公共服務平臺進行動態(tài)更新。增減量數(shù)據(jù)包動態(tài)更新的方式,減少了數(shù)據(jù)處理、質量檢查、信息入庫等流程的工作量,避免了采用全量包更新時,數(shù)據(jù)體積大,需暫停服務的缺點,減少了數(shù)據(jù)的冗余,極大地提高了地名地址數(shù)據(jù)庫的更新效率。
“天地圖·臺州”地名地址數(shù)據(jù)庫更新項目,涉及椒江區(qū)、路橋區(qū),覆蓋面積795 km2(見圖4),由更新區(qū)(168 km2)和新增區(qū)(627 km2)兩部分組成,更新區(qū)原有122 357個地址點、54 192個興趣點。前期收集了民政、工商、公安等6部門共40萬多條數(shù)據(jù),經整理分析、數(shù)據(jù)清洗后地名地址數(shù)據(jù)倉存有26萬條數(shù)據(jù)。采用自主開發(fā)的“POIGIS地名地址采集系統(tǒng)”進行地名地址點的外業(yè)更新與采集。由10名作業(yè)人員歷時2.5個月完成全部工作,更新地址點113 485個、興趣點49 756個,新增地址點140 393個、興趣點33 786個,提取增減量數(shù)據(jù)包236 Mb。在不暫停公眾版“天地圖”服務的前提下,實現(xiàn)了在線動態(tài)更新。本項目經浙江省測繪質量監(jiān)督檢驗站檢驗后樣本平均分為90.1分,成果質量為優(yōu)良。
圖4 作業(yè)范圍
地名、地址數(shù)據(jù)見圖5。
圖5 “天地圖”公共服務平臺中的地名地址數(shù)據(jù)
地名地址數(shù)據(jù)庫動態(tài)更新應采用多種數(shù)據(jù)處理方法,最大限度利用已有多源數(shù)據(jù),以減少數(shù)據(jù)采集與處理的工作量,提高工作效率為原則,滿足天地圖動態(tài)管理為前提,并持續(xù)創(chuàng)新更新方法。在“天地圖·臺州”地名地址數(shù)據(jù)庫更新項目的作業(yè)中實現(xiàn)了資料收集、整理分析、數(shù)據(jù)更新與采集、增減量數(shù)據(jù)包提取、檢查入庫的全生命周期地名地址數(shù)據(jù)更新流程。隨著“天地圖”應用的日益廣泛和深入,考慮到地名地址數(shù)據(jù)建設的持續(xù)性、權威性,可聯(lián)合公安、民政、工商等部門,共建共享地名地址數(shù)據(jù)庫,減少地名地址數(shù)據(jù)的冗余、重復建設,便于地名地址數(shù)據(jù)庫動態(tài)維護和管理,為后續(xù)地名地址數(shù)據(jù)持續(xù)應用提供保障。