王 琪
(1. 太原理工大學(xué),山西 太原 030024; 2. 太原市基礎(chǔ)地理數(shù)據(jù)中心,山西 太原 030009)
?
基于城市資源信息共享交換的地理編碼庫建設(shè)
——以太原市為例
王琪1,2
(1. 太原理工大學(xué),山西 太原 030024; 2. 太原市基礎(chǔ)地理數(shù)據(jù)中心,山西 太原 030009)
摘要:以太原市地理編碼基礎(chǔ)庫建設(shè)為例,深入分析和探討了地理編碼庫建設(shè)中涉及的資料搜集、外業(yè)采集、內(nèi)業(yè)整理及標(biāo)準(zhǔn)化編碼入庫工作,并以此為基礎(chǔ)庫將城市各類專題信息進(jìn)行地理編碼匹配和定位生成各類專題地理數(shù)據(jù)集,經(jīng)過整合建庫生成地理編碼擴(kuò)展庫,二者統(tǒng)稱地理編碼庫。地理編碼庫為城市資源信息“落地”和各類專題信息共享交換提供了空間定位的依據(jù)。
關(guān)鍵詞:地理編碼庫;共享交換;地名地址;地理編碼對象;地理編碼匹配
地名地址是百姓使用最頻繁的地理空間信息,具有信息量大、類型結(jié)構(gòu)復(fù)雜、空間性強(qiáng)、動態(tài)變化大等特點(diǎn)。隨著各種類型空間數(shù)據(jù)的日益豐富,如何對這些異構(gòu)數(shù)據(jù)進(jìn)行有效融合和集成,成為地理信息科學(xué)目前迫切需要解決的問題之一[1]。2014年,太原市啟動了地理編碼庫建設(shè),將區(qū)劃、地名、樓門牌業(yè)務(wù)進(jìn)行管理,將地理編碼數(shù)據(jù)更新與管理、公共服務(wù)一起納入太原市數(shù)字地名體系的建設(shè)當(dāng)中。通過業(yè)務(wù)流程的升級改造,將地理編碼基礎(chǔ)庫查詢與管理系統(tǒng)和業(yè)務(wù)管理系統(tǒng)串聯(lián)起來,建立起數(shù)據(jù)的常態(tài)化更新機(jī)制和基于業(yè)務(wù)驅(qū)動的數(shù)據(jù)動態(tài)更新機(jī)制,最終為政務(wù)和公眾應(yīng)用提供了一個完整、準(zhǔn)確、能及時(shí)更新的城市地理編碼基礎(chǔ)庫。
一、地理編碼概念及地理編碼基礎(chǔ)庫用途
地理編碼是指將坐標(biāo)對、地址或地名等位置描述轉(zhuǎn)換為地球表面上某位置的過程。進(jìn)行地理編碼時(shí),只需要輸入一個位置描述,也可以表的形式一次提供多個描述。得到的位置以帶屬性的地理要素形式輸出,可用于制圖或空間分析操作[2]。通過地理編碼可快速查找到各類位置??伤阉鞯奈恢妙愋桶ǎ焊信d趣點(diǎn)或地名詞典中的地名,如山脈、橋梁和店鋪;基于經(jīng)緯度或其他參考系統(tǒng)的坐標(biāo);可通過各種樣式和格式表示的地址,包括街道交叉口、含有街道名稱的門牌號及郵政編碼等[1]。
地理編碼庫從本質(zhì)上說是一個地理空間數(shù)據(jù)庫,是一個專題地理信息系統(tǒng)數(shù)據(jù)庫。地名地址經(jīng)過地址編碼整理入庫后,各類地理相關(guān)信息生成地理編碼基礎(chǔ)庫,應(yīng)用范圍非常廣泛。從簡單的數(shù)據(jù)分析,到業(yè)務(wù)和客戶管理,再到信息發(fā)布,可在空間中顯示各地址的位置,還可識別信息中所包含的模式。要實(shí)現(xiàn)此目的,只需查看信息或使用GIS軟件提供的某些分析工具即可。此外,也可基于特定參數(shù)顯示地址信息。
二、地理編碼對象及分類
地理編碼對象分為地名、地址和興趣點(diǎn)3部分。地名包括自然地名和人文地名[3]。自然地名包括水系、山峰、海島等地名;人文地名包括行政區(qū)域、交通、水利附屬設(shè)施、單位名稱等地名。
地址是由民政部門確定的使用規(guī)范的語言文字描述的地理實(shí)體的位置,主要為規(guī)范化的門(樓)址信息。地址信息為門樓址信息,主要來源于地名辦所制定的地址標(biāo)牌,還包括小區(qū)的樓棟信息。遇到使用街巷名和小區(qū)名描述均可的情況,街巷名優(yōu)先于小區(qū)名;遇到使用門(樓)址和標(biāo)志物名描述均可的情況,門(樓)址優(yōu)先于標(biāo)志物名。在對地址數(shù)據(jù)進(jìn)行描述時(shí),“政區(qū)”的作用是用來避免第二級地址元素的同名數(shù)據(jù),如對“街巷”而言,“政區(qū)”的描述程度應(yīng)保證“街巷”在該“政區(qū)”下只有唯一的一個對象[4-5]。
興趣點(diǎn)則主要為各類公眾感興趣的信息,實(shí)地通過門牌、招牌、廣告牌、宣傳牌、引導(dǎo)牌等能判定工商戶、單位、設(shè)施等興趣點(diǎn)內(nèi)容需采集。
三、地理編碼庫建設(shè)流程
城市地理編碼庫的建設(shè)是一個動態(tài)的過程,從業(yè)務(wù)邏輯上分為基礎(chǔ)庫和擴(kuò)展庫兩部分。初始建設(shè)階段,基礎(chǔ)庫的數(shù)據(jù)主要來源于從各類基礎(chǔ)測繪成果中提取地名、通過民政部門區(qū)劃地名處提供門牌地址、人工外業(yè)采集等。擴(kuò)展庫的數(shù)據(jù)(又名參考數(shù)據(jù))主要來源于需要匹配的各類包含地址屬性的地理要素類。擴(kuò)展庫中的數(shù)據(jù)經(jīng)過數(shù)據(jù)清洗、編碼、匹配、查重及數(shù)據(jù)融合處理后追加至基礎(chǔ)庫中,形成更新的基礎(chǔ)地理編碼庫版本。通過不斷的數(shù)據(jù)充實(shí)更新,地理編碼基礎(chǔ)庫數(shù)據(jù)密度增加,提高了參考數(shù)據(jù)的匹配精確度和準(zhǔn)確度。具體建設(shè)流程如圖1所示。
1. 外業(yè)采集
采集內(nèi)容見表1。
表1 外業(yè)采集內(nèi)容
2. 內(nèi)業(yè)錄入
外業(yè)完成地名地址的采集調(diào)查表后,需要通過內(nèi)業(yè)人員在計(jì)算機(jī)上錄入這些調(diào)查表內(nèi)容和地圖上的地名地址位置信息,進(jìn)行查漏補(bǔ)缺,最終形成電子化的地理編碼數(shù)據(jù)成果,為建立地理編碼數(shù)據(jù)庫準(zhǔn)備。
圖1 地理編碼庫建設(shè)流程
內(nèi)業(yè)處理工作分為以下4種工作方式:①錄入地理編碼采集表,形成電子化成果;在電子地圖上錄入對應(yīng)地名地址標(biāo)號,根據(jù)標(biāo)號ID關(guān)聯(lián)圖-數(shù)。②僅錄入地理編碼采集表,形成電子化成果;軟件系統(tǒng)自動根據(jù)已經(jīng)上圖的標(biāo)號,關(guān)聯(lián)圖-數(shù)。③僅在電子地圖上錄入對應(yīng)地名地址標(biāo)號;軟件系統(tǒng)自動根據(jù)已有墊在表格中各地址編號,關(guān)聯(lián)圖-數(shù)。④依據(jù)錄入表格信息,憑借對地域范圍的熟悉了解,利用系統(tǒng)在地圖上對地名地址文字信息確定空間位置點(diǎn)。此內(nèi)業(yè)采集方式適合少量數(shù)據(jù)更新維護(hù)和對地域了解熟悉情況下進(jìn)行。
3. 數(shù)據(jù)規(guī)整
為了達(dá)到數(shù)據(jù)使用要求,參考《國家地理信息公共服務(wù)平臺公共地理框架數(shù)據(jù)地名地址數(shù)據(jù)規(guī)范》,地名地址數(shù)據(jù)內(nèi)業(yè)規(guī)整的具體內(nèi)容如下:地名地址點(diǎn)位細(xì)分、道路名稱層次遞進(jìn)標(biāo)明、屬性修改、增加標(biāo)準(zhǔn)地址名稱、增加地理編碼、增加地名地址所在鄉(xiāng)鎮(zhèn)(街辦)、村(社區(qū))、增加坐標(biāo)信息、增加宗地號掛接編碼、增加地理實(shí)體掛接編碼、增加地址命名時(shí)間、增加地址停止使用時(shí)間。
4. 地理編碼匹配
結(jié)合太原市民政部門和公安部門所采取的地理編碼方法,最常用的有3種:定位到道路、定位到區(qū)域和兩種相結(jié)合。其中,定位到道路主要以道路名和門牌號作為標(biāo)準(zhǔn)來進(jìn)行匹配;定位到區(qū)域則主要以某個城市區(qū)域?yàn)闃?biāo)準(zhǔn)進(jìn)行匹配;而二者結(jié)合的方式則是在以道路名和門牌號作為標(biāo)準(zhǔn)來進(jìn)行匹配的基礎(chǔ)上,引入?yún)^(qū)域匹配,從而使定位更加準(zhǔn)確。在具體匹配時(shí),需要首先對地理編碼基礎(chǔ)庫對應(yīng)字段進(jìn)行解析,道路名稱決定其所處的位置類型,結(jié)合編號和類別可以判斷其位置在哪個路段和區(qū)域,建筑物數(shù)量可以判斷其是否處于建筑物中。建筑名稱則是利用與建筑物相關(guān)的信息,給對應(yīng)的地名和地址進(jìn)行定位。在匹配中,通過軟件工具對參考數(shù)據(jù)進(jìn)行分詞解析再與地理編碼基礎(chǔ)庫進(jìn)行空間匹配,如果參考數(shù)據(jù)位于建筑物中,則直接將建筑物地理編碼賦予參考數(shù)據(jù),否則以直接定位到區(qū)域的方法對參考數(shù)據(jù)直接定位。最后,對匹配好的參考數(shù)據(jù)賦坐標(biāo)值。
通過地理編碼匹配將參考數(shù)據(jù)與地理編碼基礎(chǔ)庫進(jìn)行名稱匹配,生成新的地理編碼數(shù)據(jù)集,經(jīng)過整理入庫更新擴(kuò)展庫,通過擴(kuò)展庫與基礎(chǔ)庫的融合處理進(jìn)而更新地理編碼基礎(chǔ)庫內(nèi)容。根據(jù)太原市地理編碼基礎(chǔ)庫的結(jié)構(gòu)特點(diǎn),此項(xiàng)工作采用了分詞匹配和地名、地址的長字符串匹配兩種算法,且對兩種算法的匹配結(jié)果進(jìn)行了權(quán)衡性的融合,給出了綜合兩種情況的匹配度值,最終為客戶端返回了結(jié)構(gòu)的排序關(guān)鍵字,并根據(jù)排序先后加以人工干預(yù),實(shí)現(xiàn)了地理編碼擴(kuò)展庫的更新[6]。
隨著數(shù)字太原地理信息公共平臺的推廣應(yīng)用,目前太原市民政、公安、政法委、房產(chǎn)局、文廣局、移動通信等40個部門建立了基于公共平臺的專業(yè)系統(tǒng),各個系統(tǒng)中也逐步積累了大量的地理信息相關(guān)數(shù)據(jù)。收集其中含有地名地址信息的要素進(jìn)行提取,并通過標(biāo)準(zhǔn)化、結(jié)構(gòu)化處理形成符合太原市地理編碼規(guī)范的地名地址記錄,通過地理編碼匹配入庫至地理編碼擴(kuò)展庫中,最終通過數(shù)據(jù)融合處理更新至地理編碼基礎(chǔ)庫中。通過數(shù)據(jù)交換、地理編碼匹配,實(shí)現(xiàn)太原市衛(wèi)生局、藥監(jiān)局、教育局、工商局、旅游局等不同行業(yè)類別政務(wù)資源數(shù)據(jù)的空間化,內(nèi)容涵蓋醫(yī)院、藥店、學(xué)校、農(nóng)貿(mào)市場、注冊企業(yè)、旅游專題、賓館酒店、旅行社等。
5. 數(shù)據(jù)入庫
數(shù)據(jù)管理系統(tǒng)的數(shù)據(jù)入庫分為兩大部分:方案化數(shù)據(jù)入庫更新及平臺數(shù)據(jù)流程管理。方案化數(shù)據(jù)入庫更新實(shí)現(xiàn)將本地?cái)?shù)據(jù)導(dǎo)入數(shù)據(jù)庫,流程有建立監(jiān)理規(guī)則管、數(shù)據(jù)質(zhì)檢、方案化數(shù)據(jù)入庫;平臺數(shù)據(jù)流程管理實(shí)現(xiàn)用戶通過平臺上傳數(shù)據(jù)入庫的流程管理。
地名地址標(biāo)準(zhǔn)庫共定義了5類34種數(shù)據(jù):①門樓址信息:所屬區(qū)縣名稱、所屬區(qū)縣代碼、鄉(xiāng)鎮(zhèn)(街道辦)名稱、鄉(xiāng)鎮(zhèn)(街道辦)代碼、居(村)委會名稱、居(村)委會代碼、街路巷名稱、街路巷地址代碼、門樓院牌號名稱、門樓院牌號編碼、門樓院附加名稱、門樓院附加編碼、樓(排)號名稱、樓(排)號編號、單元名稱、單元號、房間名稱、房間號。②地名信息:地名類別、標(biāo)準(zhǔn)地名、別名、簡稱、行業(yè)類別。③標(biāo)識信息:標(biāo)準(zhǔn)地址的完整文字信息、用來唯一性標(biāo)識一條地址記錄的代碼、地址位置標(biāo)識點(diǎn)的橫縱坐標(biāo)、地理實(shí)體的唯一性標(biāo)識碼。④時(shí)態(tài)信息:外業(yè)調(diào)查收集該地址的日期、主管部門正式建立標(biāo)準(zhǔn)地址標(biāo)牌的日期、主管部門正式折除對應(yīng)地址標(biāo)牌或廢止該標(biāo)準(zhǔn)地址的日期。⑤其他信息:所屬郵局、郵政編碼、該地址是否已在公安部門登記。
四、結(jié)束語
城市地理編碼庫作為數(shù)字城市和智慧城市建設(shè)的基礎(chǔ)設(shè)施,對城市信息化建設(shè)、信息共享、信息公開起著關(guān)鍵的作用,它既是一個技術(shù)問題,又是一個標(biāo)準(zhǔn)化問題[7]。本文針對太原市地理編碼庫建設(shè)總結(jié)了主要技術(shù)流程和建設(shè)經(jīng)驗(yàn)。但地名地址建設(shè)內(nèi)容十分廣泛,不同地區(qū)、不同行業(yè)對城市地理編碼庫的理解、管理及應(yīng)用也有較大差差別,其任務(wù)依然艱巨。
參考文獻(xiàn):
[1]趙東保,盛業(yè)華.全局尋優(yōu)的矢量道路網(wǎng)自動匹配方法研究[J].測繪學(xué)報(bào),2010,39(4): 416-421.
[2]曾瀾.我國地理空間信息共享的分類方法和地理編碼規(guī)則研究[J].地理信息世界,2006,12(6): 21-25.
[3]國家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局. 地名分類與類別代碼編制規(guī)則:GB/T18521—2001(2-15)[S].北京:中國標(biāo)準(zhǔn)出版社,2002.
[4]劉洪江,曹玉香.基于ArcGIS的地名數(shù)據(jù)庫建設(shè)若干問題初探[C]∥ArcGIS暨ERDAS中國用戶大會.北京:[s.n.],2004.
[5]章意鋒,吳健平.程怡ArcGIS中地理編碼方法的改進(jìn)[J].測繪與空間地理信息,2007,6(30):116-119.
[6]馬照亭,李志剛,孫偉,等.一種基于地址分詞的自動地理編碼算法[J].測繪通報(bào),2011(2):59-62.
[7]張鶴,陳倬,聶丹,等.北京市城市地理編碼及可行性應(yīng)用分析[J].測繪通報(bào),2011(4):65-67.
A Study of Geocoding Base Construction Based on Urban Resources Information Sharing and Exchange——Taking Taiyuan City as an Example
WANG Qi
收稿日期:2015-06-10; 修回日期: 2015-11-02
作者簡介:王琪(1980—),女,博士生,高級工程師,研究方向?yàn)闇y繪地理信息系統(tǒng)。E-mail:12982061@qq.com
中圖分類號:P208
文獻(xiàn)標(biāo)識碼:B
文章編號:0494-0911(2016)06-0098-03
引文格式: 王琪. 基于城市資源信息共享交換的地理編碼庫建設(shè)——以太原市為例[J].測繪通報(bào),2016(6):98-100.DOI:10.13474/j.cnki.11-2246.2016.0200.