魏金明,張學明,周寧
(濟南市勘察測繪研究院,山東 濟南 250101)
地名是基礎(chǔ)地理信息,地名普查是一項公益性、基礎(chǔ)性的國情調(diào)查[1]。隨著經(jīng)濟社會的發(fā)展和區(qū)劃地名的變化,20世紀80年代初進行的第一次全國地名普查成果資料已陳舊過時,不能反映全國地名的現(xiàn)狀。為了滿足經(jīng)濟社會快速發(fā)展對地名服務(wù)日益增長的需求,全面掌握地名基本信息,提高我國地名管理和服務(wù)水平,經(jīng)國務(wù)院批準,于2014年7月~2018年6月開展第二次全國地名普查[2]。普查內(nèi)容為查清行政區(qū)域范圍內(nèi)地名基本情況及相關(guān)屬性信息,對有地無名的有地名作用的地理實體進行命名,對不規(guī)范地名進行標準化處理,設(shè)置標準規(guī)范的地名標志,建立、完善各級國家地名和區(qū)劃數(shù)據(jù)庫,加強地名信息化服務(wù)建設(shè),建立地名普查檔案。
進行地名普查首先要編制相對完善的標準地名調(diào)查目錄和工作底圖。國內(nèi)多個專家對該項工作做了研究,如費聯(lián)君等研究了基礎(chǔ)地理信息數(shù)據(jù)在地名普查中的應用[2];邵光州等以大數(shù)據(jù)的視角提出從海量數(shù)據(jù)中挖掘地名的方法[3];林選妙等提出從GoogleEarth免費資源中獲取地名[4]。濟南市借鑒上述方法,對 1∶50 000數(shù)字線劃圖、第一次地理國情普查成果[5]、第一次全國地名普查成果、各委辦局和下級行政組織提交的地名信息、地名錄志等資料內(nèi)的地名信息按區(qū)縣分街道進行整理匯總,形成濟南市各區(qū)縣標準地名調(diào)查目錄。
由于濟南市地名調(diào)查目錄中多數(shù)標準地名未定位且下發(fā)的 1∶50 000數(shù)字線劃圖信息老舊,難以反映現(xiàn)狀,需要對標準地名進行定位處理,獲取標準地名的空間位置。本文以地理空間框架數(shù)據(jù)為基礎(chǔ)數(shù)據(jù),采用自動半自動的數(shù)據(jù)提取方法,分類別提取標準地名對應的地理實體,為編制外業(yè)普查工作底圖、獲取地名經(jīng)緯度四至打下基礎(chǔ)。通過數(shù)據(jù)準備、地名匹配、數(shù)據(jù)提取、位置調(diào)整等工作步驟的詳細描述,說明地理空間框架數(shù)據(jù)在濟南市第二次地名普查中的應用。
`對標準地名進行定位,需要有基礎(chǔ)數(shù)據(jù)。為便于數(shù)據(jù)分類并保障數(shù)據(jù)的現(xiàn)勢性,選取濟南市地理空間框架數(shù)據(jù)為基礎(chǔ)數(shù)據(jù),并對其進行類別規(guī)范、面點轉(zhuǎn)換等處理。
濟南市地理空間框架數(shù)據(jù)包括地理實體數(shù)據(jù)、地名地址數(shù)據(jù)、影像數(shù)據(jù)、電子地圖數(shù)據(jù)和專題數(shù)據(jù),具有全要素、現(xiàn)勢性強的特點。
地理實體數(shù)據(jù)包括居民點、水系、交通等9類28層數(shù)據(jù),每條數(shù)據(jù)依照《濟南市基礎(chǔ)地理信息要素分類與編碼》標準賦以分類代碼[6];地名地址數(shù)據(jù)按照《濟南市POI分類編碼》標準分為18大類、122小類、369子類,并對其類別代碼進行賦值;保證數(shù)據(jù)的全要素性。數(shù)據(jù)全要素特點可保障基礎(chǔ)數(shù)據(jù)與地名普查數(shù)據(jù)類別的對應,便于數(shù)據(jù)類別規(guī)范化處理。
數(shù)字濟南地理空間框架建成后,參照多源數(shù)據(jù)更新技術(shù)[7],建立數(shù)據(jù)更新機制,每年對基礎(chǔ)地理信息數(shù)據(jù)進行全面更新,對重要框架數(shù)據(jù)進行實時更新,保障了數(shù)據(jù)的現(xiàn)勢性。數(shù)據(jù)現(xiàn)勢性強的特點保障匹配后的地名空間位置反映現(xiàn)狀。
對濟南市地理空間框架數(shù)據(jù)進行地名匹配前,需進行類別規(guī)范、面點轉(zhuǎn)換等優(yōu)化處理。具體處理流程如圖1所示:
圖1地理空間框架數(shù)據(jù)優(yōu)化技術(shù)流程圖
類別規(guī)范:根據(jù)地名分類標準,將地理要素類別、POI類別與地名類別進行分析對比,建立地理空間框架數(shù)據(jù)與地名數(shù)據(jù)之間的類別對應關(guān)系。在框架數(shù)據(jù)內(nèi)添加地名類別屬性項,依照類別對應關(guān)系研發(fā)地名類別賦值工具,給地名類別屬性項賦值,使每條地理空間框架數(shù)據(jù)包含規(guī)范化的地名類別屬性。
面點轉(zhuǎn)換:根據(jù)地名數(shù)據(jù)定位規(guī)則,行政區(qū)域、湖泊、公園風景區(qū)等面狀地理實體需要以點狀形式表示,但應獲取其經(jīng)緯度四至。根據(jù)行政區(qū)域定位在駐地位置、湖泊定位在幾何中心等面點轉(zhuǎn)換規(guī)則,將面狀地理實體轉(zhuǎn)換為點狀地理實體,并建立面數(shù)據(jù)與點數(shù)據(jù)間的對應關(guān)系,便于獲取其經(jīng)緯度四至信息。
整合優(yōu)化:分形狀將點數(shù)據(jù)和線數(shù)據(jù)合并,對數(shù)據(jù)內(nèi)容進行除重、名稱規(guī)范等操作,使空間數(shù)據(jù)優(yōu)化為包括名稱、地名類別、面點關(guān)聯(lián)碼等屬性信息的一層點數(shù)據(jù)和一層線數(shù)據(jù)。
利用基于置信度的地址匹配方法[8],分類別匹配標準地名。
要進行地名匹配,首先用分詞算法提取關(guān)鍵字,本文利用地址元素詞庫和改正詞庫為基礎(chǔ)詞庫,用地址分詞和普通分詞相結(jié)合的分詞算法,對標準地名、地址、地理實體概況三項屬性信息進行分詞。具體分詞過程中,首先對標準地名進行分詞并匹配,若置信度高停止匹配,若置信度不高則對地址進行分詞并匹配,若置信度仍不高再對地理實體概況分詞并匹配。
置信度代表待匹配兩類數(shù)據(jù)的相似程度。將地名信息分詞結(jié)果作為關(guān)鍵字與待匹配數(shù)據(jù)分詞結(jié)果對比計算其置信度。置信度的計算公式為:
其中,D為置信度,k為權(quán)重系數(shù),n為分詞段數(shù),ρ為位置系數(shù),S為相似度。
濟南市地名調(diào)查目錄中地名信息分區(qū)縣按類別存放,地名匹配工作中,需分類別進行匹配。雖然國家第二次地名普查分類標準中將地名分為100多項小類,但具體到濟南市各區(qū)縣,僅包含30項左右。地名匹配前,需在地名信息內(nèi)添加置信度、關(guān)聯(lián)空間碼兩項屬性項。匹配過程中,首先根據(jù)地名類別確定空間數(shù)據(jù)形狀(點數(shù)據(jù)、線數(shù)據(jù));之后匹配空間數(shù)據(jù)得出置信度;最后根據(jù)匹配賦值規(guī)則填寫置信度、關(guān)聯(lián)空間碼屬性項。匹配賦值規(guī)則為:
①根據(jù)空間數(shù)據(jù)中地名類別屬性信息匹配同類別數(shù)據(jù),得出置信度(D)和匹配關(guān)聯(lián)的空間標識碼(FID)。
②D≥0.95時,將D寫入置信度屬性項,F(xiàn)ID寫入關(guān)聯(lián)空間碼屬性項,完成匹配。
③0.95>D≥0.75時,若置信度屬性項無信息,寫入D;已有信息,不做操作,轉(zhuǎn)入④。
④關(guān)聯(lián)空間碼屬性項無信息時,寫入FID并轉(zhuǎn)入①繼續(xù)匹配。有信息時,查看關(guān)聯(lián)空間碼個數(shù),個數(shù)為1時,寫入FID并轉(zhuǎn)入①繼續(xù)匹配;個數(shù)為2時,寫入FID完成匹配。當關(guān)聯(lián)空間碼屬性信息包含多個FID時,用頓號(、)將其隔開。
⑤D<0.75時,匹配不同類數(shù)據(jù),得出置信度(D2=D-0.25)和匹配關(guān)聯(lián)的空間標識碼(FID)。若置信度屬性項無信息,寫入D2;已有信息,不做操作,轉(zhuǎn)入⑥。
⑥關(guān)聯(lián)空間碼屬性項無信息時,寫入FID并轉(zhuǎn)入⑤繼續(xù)匹配。有信息時,查看關(guān)聯(lián)空間碼個數(shù),個數(shù)為1時,寫入FID并轉(zhuǎn)入⑤繼續(xù)匹配;個數(shù)為2時,寫入FID完成匹配。
地名匹配完成后,需根據(jù)匹配置信度,采取自動半自動的數(shù)據(jù)提取方法,利用“地名代碼”作為關(guān)聯(lián)碼,將空間數(shù)據(jù)提取到地名矢量數(shù)據(jù)內(nèi)。
地名代碼是地名的唯一識別碼,按照一定規(guī)則用數(shù)字對對地名進行編碼以代替地名,根據(jù)《國家地名數(shù)據(jù)庫代碼編制規(guī)則》編制。地名代碼編碼規(guī)則如圖2所示。
圖2 地名代碼編制規(guī)則
地名代碼由四段共20位數(shù)字標識。第一段為6位數(shù)字,表示縣級以上行政區(qū)劃代碼,使用2014年12月31日前最后更新的行政區(qū)劃代碼。第二段為3位數(shù)字,表示鄉(xiāng)級行政區(qū)劃代碼,統(tǒng)一使用同期更新的民政統(tǒng)計代碼相應通用部分。第三段為5位數(shù)字,表示地名屬性類別,按照《地名分類與類別代碼編制規(guī)則》(GB/T 18521-2001)填寫。第四段為6位數(shù)字,表示附加碼,用以區(qū)分同一類別并且是同一行政區(qū)的地名和排序。
地名矢量數(shù)據(jù)分點數(shù)據(jù)、線數(shù)據(jù)兩類,具有相同的屬性結(jié)構(gòu)。其屬性結(jié)構(gòu)如表1所示。
地名矢量數(shù)據(jù)屬性結(jié)構(gòu) 表1
地名代碼(Code)是地名數(shù)據(jù)的唯一標識碼,通過地名代碼屬性,可以將地名空間數(shù)據(jù)與地名屬性信息聯(lián)接,實現(xiàn)圖屬關(guān)聯(lián)。
自動提?。簩τ谥眯哦却笥诘扔?.95(D≥0.95)的地名數(shù)據(jù),在地名空間數(shù)據(jù)內(nèi)新增一條記錄,根據(jù)關(guān)聯(lián)空間碼從空間數(shù)據(jù)內(nèi)提取空間圖形并賦予該記錄,從地名信息內(nèi)提取地名代碼、名稱、地名類別和使用時間屬性賦予該記錄。
半自動提?。簩τ谥眯哦刃∮?.95(D<0.95)的地名數(shù)據(jù),根據(jù)關(guān)聯(lián)空間碼和地名地址、概況等信息從匹配的3項空間圖形內(nèi)判斷是否有正確的空間圖形,如果有,則在地名空間數(shù)據(jù)內(nèi)新增一條記錄,將空間圖形、地名代碼、名稱、地名類別和使用時間賦予該記錄;如果沒有,則將其標注為未定位地名。
濟南市地名調(diào)查目錄按類別存放,提取后形成各類別地名空間數(shù)據(jù)。將各類別地名空間數(shù)據(jù)按形狀合并,形成點狀地名空間數(shù)據(jù)(DMPT)和線狀地名空間數(shù)據(jù)(DMLN)。
地名地理實體定位、圖形類型及地理坐標測量要求中,線狀地名在一個區(qū)縣內(nèi)用一條聯(lián)通的線段表示,點狀地名除行政區(qū)域、群眾自治組織定位在駐地位置外,其他類別定位在幾何中心,且測量誤差小于 20 m。工作中疊加影像底圖,逐項檢查、調(diào)整地名空間數(shù)據(jù),保證滿足測量要求。
濟南市地理空間框架數(shù)據(jù)中,影像底圖可分兩類。一類是數(shù)字正射影像圖(DOM),一類是瓦片影像地圖(緊湊型)[9]。DOM數(shù)據(jù)按圖幅存放,信息容量大,做底圖時需分圖幅逐項加載;瓦片影像地圖按顯示級別存放,可統(tǒng)一加載一個區(qū)縣或一個市的數(shù)據(jù),且瀏覽速度快。位置調(diào)整工作中影像底圖僅用于瀏覽,不做分析和信息提取處理,故采用瓦片影像地圖。瓦片影像地圖數(shù)據(jù)存放結(jié)構(gòu)如圖3所示。
圖3瓦片影像底圖數(shù)據(jù)存放結(jié)構(gòu)
位置調(diào)整的工作步驟為:①在ArcGIS軟件內(nèi)加載瓦片影像底圖數(shù)據(jù)和地名空間數(shù)據(jù),將其保存為WorkMap.mxd工作地圖,后期工作可直接打開該地圖。②將地名空間數(shù)據(jù)設(shè)置為編輯狀態(tài),逐項查看地名位置的準確性,若位置不準確則改正到準確位置。③對線狀空間數(shù)據(jù)的地名代碼屬性進行查重處理,對關(guān)聯(lián)圖形進行除重、連接等操作,確保一個地名對應一條聯(lián)通的線段。④保存編輯后的空間數(shù)據(jù),生成地名空間成果數(shù)據(jù)。
針對地名調(diào)查目錄中標準地名定位問題,以地理空間框架數(shù)據(jù)為基礎(chǔ)數(shù)據(jù),使用基于置信度的地址匹配方法,采用自動半自動的定位方法,通過數(shù)據(jù)準備、地名匹配、數(shù)據(jù)提取、位置調(diào)整等工作步驟,生成地名空間成果數(shù)據(jù)。在濟南市歷下區(qū)地名普查工作中,對 5 200條地名數(shù)據(jù)進行定位,自動定位 3 192條,占61.4%,半自動定位后定位總數(shù) 4 672條,占89.8%。推廣到濟南市其他區(qū)縣使用,定位率最低的也達到了60%,可有效提高工作效率,提升定位精度,為濟南市順利完成地名普查工作奠定了基礎(chǔ)。
生成的地名空間成果數(shù)據(jù)可用于編制外業(yè)普查工作底圖、獲取地名經(jīng)緯度四至等地名普查后期工作中。若外業(yè)普查采用紙質(zhì)工作底圖,可將成果數(shù)據(jù)快速布展到紙質(zhì)圖上;若采用移動平板進行外業(yè)普查,可將成果數(shù)據(jù)加載到移動平臺內(nèi)。對于點狀、線狀地名的經(jīng)緯度四至,通過空間圖形自動獲??;對于面狀地名的經(jīng)緯度四至,通過點、面關(guān)聯(lián)碼提取其面狀圖形后獲取。地名調(diào)查目錄內(nèi)未定位的標準地名,通過外業(yè)普查實地測量其地理實體。后期,將借鑒相關(guān)應用實例,研究基于移動平臺的地名外業(yè)普查解決方案。
[1] 向煜. 面向第二次全國地名普查的數(shù)字化調(diào)查系統(tǒng)建設(shè)研究[J]. 北京測繪,2016(4):62~65.
[2] 費聯(lián)君,歐陽劍波. 基礎(chǔ)地理信息數(shù)據(jù)在地名普查中的應用[J]. 地理空間信息,2016(9):17~18.
[3] 邵光州,胡小民,唐長增等. 大數(shù)據(jù)環(huán)境下開展地名普查的實踐研究[J]. 中國地名,2015(9):17~20.
[4] 林選妙,黃麗蓉,張興等. Google Earth在全國地名普查項目中的應用[J]. 大眾科技,2013(1):32~34.
[5] 楊伯鋼,張保鋼. 地理國情普查與地名普查的相關(guān)性分析[J]. 測繪科學,2015(10):37~42.
[6] 趙向陽. 濟南市全要素級基礎(chǔ)地理信息共享框架研究[J]. 城市勘測,2010(2):30~32.
[7] 張小波,李新雙,張俊等. 多源數(shù)據(jù)更新空間框架地理信息技術(shù)[J]. 城市勘測,2016(6):57~59.
[8] 魏金明,仲偉政. 基于置信度的地址匹配方法初探[J]. 測繪科學,2015(1):122~124.
[9] 劉建川,甘泉,張堯等. 瓦片影像地圖快速配準與融合方法實現(xiàn)[J]. 測繪科學,2015(11):85~88.