劉芙蓉
(福州市規(guī)劃設(shè)計(jì)研究院,福建 福州 350100)
天地圖是由國家、省、市三級(jí)節(jié)點(diǎn)構(gòu)成的國家地理信息公共服務(wù)平臺(tái)。為滿足跨省(市)域、跨層級(jí)(國家、省、市)的地理實(shí)體與地名興趣點(diǎn)查詢、專題信息、掛接、綜合統(tǒng)計(jì)分析等應(yīng)用需求,國家測(cè)繪地理信息局于2013年啟動(dòng)國家、省、市節(jié)點(diǎn)同構(gòu)試點(diǎn),旨在通過節(jié)點(diǎn)間的基礎(chǔ)設(shè)施與服務(wù)平臺(tái)軟件同構(gòu)與數(shù)據(jù)融合,實(shí)現(xiàn)更深層次的分布式信息資源集成與協(xié)同服務(wù),并為未來基于云架構(gòu)的分布式服務(wù)資源動(dòng)態(tài)調(diào)度奠定基礎(chǔ)[1]。數(shù)據(jù)融合包括矢量數(shù)據(jù)融合、影像數(shù)據(jù)融合兩個(gè)方面,其中,地名興趣點(diǎn)數(shù)據(jù)融合是矢量數(shù)據(jù)融合中的一項(xiàng)重要內(nèi)容。
地名興趣點(diǎn)數(shù)據(jù)融合主要工作是對(duì)比國家、省、市三級(jí)節(jié)點(diǎn)數(shù)據(jù),分析其現(xiàn)勢(shì)性、位置精度等指標(biāo),按照國家測(cè)繪地理信息局下發(fā)的最新規(guī)范和要求進(jìn)行數(shù)據(jù)融合,并進(jìn)行數(shù)據(jù)判重、分類代碼統(tǒng)一、品牌詞、簡稱及重要度等五個(gè)方面的完善優(yōu)化工作[2,3]。天地圖·福州作為市級(jí)節(jié)點(diǎn),需要跟省級(jí)節(jié)點(diǎn)天地圖·福建地名興趣點(diǎn)數(shù)據(jù)進(jìn)行融合,但其地名興趣點(diǎn)數(shù)據(jù)的組織編碼方式與省級(jí)節(jié)點(diǎn)、國家級(jí)節(jié)點(diǎn)存在巨大差異,要實(shí)現(xiàn)國家、省、市三級(jí)節(jié)點(diǎn)數(shù)據(jù)融合還存在較大問題,包括如何進(jìn)行快速代碼轉(zhuǎn)換、數(shù)據(jù)判重、品牌詞自動(dòng)賦值等問題。
FME(Feature Manipulation Engine空間數(shù)據(jù)操作引擎)是對(duì)語義數(shù)據(jù)轉(zhuǎn)換方法的具體實(shí)現(xiàn)。它是加拿大Safe Software公司推出的空間數(shù)據(jù)轉(zhuǎn)換處理系統(tǒng)FMESuite,支持?jǐn)?shù)百種不同格式數(shù)據(jù)之間的相互轉(zhuǎn)換[4],而且能夠?qū)⒇S富的GIS數(shù)據(jù)處理功能結(jié)合在一起[5],F(xiàn)ME在GIS數(shù)據(jù)跨平臺(tái)轉(zhuǎn)換方面具有良好的通用性和可操作性,功能強(qiáng)大[6]。FME語義映射文件應(yīng)用的是一種宏語言,有自成體系的變量和函數(shù),能夠同時(shí)識(shí)別和處理多種文件格式數(shù)據(jù)、并且處理速度比ArcMap處理速度快。本文將制定出地名興趣點(diǎn)融合的技術(shù)路線,并基于FME軟件,針對(duì)這些地名興趣點(diǎn)數(shù)據(jù)融合技術(shù)路線中存在的問題進(jìn)行相關(guān)技術(shù)研究,從而極大限度地提高地名興趣點(diǎn)數(shù)據(jù)融合效率。
按照天地圖數(shù)據(jù)融合要求,分析現(xiàn)有天地圖·福州現(xiàn)有地名興趣點(diǎn)數(shù)據(jù)情況,其問題主要有三個(gè)大方面:①編碼標(biāo)準(zhǔn)采用《國民經(jīng)濟(jì)行業(yè)分類與代碼》,與天地圖地名和興趣點(diǎn)數(shù)據(jù)融合標(biāo)準(zhǔn)采用的國家基礎(chǔ)地理信息中心制定的《天地圖母庫POI分類分級(jí)與代碼表》規(guī)定的編碼方式差異較大;②與省級(jí)節(jié)點(diǎn)地名興趣點(diǎn)數(shù)據(jù)存在較大的重復(fù)點(diǎn);③缺少品牌詞、重要度、簡稱等字段。
針對(duì)以上問題,我們知道,在進(jìn)行數(shù)據(jù)融合之前,首先需對(duì)現(xiàn)有數(shù)據(jù)屬性字段按照融合技術(shù)要求進(jìn)行改造,使其每個(gè)屬性項(xiàng)的名稱、類型和長度都與省級(jí)節(jié)點(diǎn)地名興趣點(diǎn)數(shù)據(jù)屬性完全相同;屬性改造完成之后,從省級(jí)節(jié)點(diǎn)中提取相應(yīng)范圍內(nèi)的地名興趣點(diǎn)數(shù)據(jù),將其與市級(jí)節(jié)點(diǎn)地名興趣點(diǎn)數(shù)據(jù)進(jìn)行對(duì)比,查找出重復(fù)點(diǎn),結(jié)合現(xiàn)勢(shì)性、位置精度等優(yōu)劣對(duì)比進(jìn)行重復(fù)點(diǎn)剔除,并將市級(jí)節(jié)點(diǎn)數(shù)據(jù)與省級(jí)節(jié)點(diǎn)數(shù)據(jù)合并在一起;數(shù)據(jù)合并完成后,最后對(duì)必填屬性字段中不一致或者空的字段進(jìn)行處理,包括代碼轉(zhuǎn)換、品牌詞、重要度和簡稱的補(bǔ)充。具體的技術(shù)路線如圖1所示:
圖1 地名興趣點(diǎn)數(shù)據(jù)融合技術(shù)路線
地名興趣點(diǎn)數(shù)據(jù)量大,給地名興趣點(diǎn)數(shù)據(jù)融合帶來巨大挑戰(zhàn)。對(duì)于重要度、簡稱字段,按要求對(duì)一定范圍內(nèi)的數(shù)據(jù)點(diǎn)進(jìn)行賦值。融合進(jìn)來的省級(jí)節(jié)點(diǎn)地名興趣點(diǎn)數(shù)據(jù)自身帶有部分重要度和簡稱,因此這部分工作量較小,而且自動(dòng)化難度大,基本由人工挑選并賦值。而對(duì)于重復(fù)點(diǎn)查詢、代碼轉(zhuǎn)換,需要對(duì)所有數(shù)據(jù)進(jìn)行查詢和處理,工作量大,人工處理花費(fèi)時(shí)間和精力較大,不能保證融合工作按照時(shí)間節(jié)點(diǎn)完成,因此,需要針對(duì)這些問題進(jìn)行技術(shù)研究,從而提高融合的效率。
省、市節(jié)點(diǎn)不同來源的地名興趣點(diǎn)數(shù)據(jù)存在很多重復(fù)點(diǎn),融合關(guān)鍵步驟是需要進(jìn)行判重處理,選取現(xiàn)勢(shì)性好,位置精度高的點(diǎn)作為融合結(jié)果??紤]到市級(jí)節(jié)點(diǎn)地名興趣點(diǎn)數(shù)據(jù)為近年來數(shù)字福州外業(yè)采集來的數(shù)據(jù),數(shù)據(jù)精度較高,現(xiàn)勢(shì)性較好,因此,本次融合以市級(jí)節(jié)點(diǎn)地名興趣點(diǎn)數(shù)據(jù)作為基礎(chǔ)數(shù)據(jù),省節(jié)點(diǎn)地名興趣點(diǎn)數(shù)據(jù)當(dāng)作更新資料數(shù)據(jù)。分析數(shù)據(jù)情況,重復(fù)點(diǎn)的出現(xiàn)情況主要有幾種,包括:①位置名稱完全一致的;②名稱相同位置有偏差的;③位置和名稱都存在差異等三種情況。
對(duì)于第一種情況,將不同數(shù)據(jù)源都通過名稱和坐標(biāo)信息生成一個(gè)組合信息字段TEMP,并通過TEMP字段進(jìn)行表鏈接即可查出不同數(shù)據(jù)源之間的重復(fù)點(diǎn),選擇其中一個(gè)數(shù)據(jù)即可。
后面兩種情況需要利用FME軟件構(gòu)建名稱模糊匹配模塊進(jìn)行查重,其主要思想如下:
(1)首先將任一要素與其一定距離范圍內(nèi)的相同類別的點(diǎn)要素進(jìn)行名稱匹配,取匹配度最高的點(diǎn)要素,并將其匹配度值和匹配上點(diǎn)要素的名稱寫在其屬性里面[7]。
(2)分析匹配結(jié)果,匹配度由高到低進(jìn)行重復(fù)點(diǎn)剔除。匹配度為100%,則兩個(gè)點(diǎn)要素名稱完成相同;匹配度小于100%,兩個(gè)點(diǎn)要素之間名稱可能存在一個(gè)或者多個(gè)不同字符。匹配度值越小,兩個(gè)點(diǎn)要素名稱差異越大,互為重復(fù)點(diǎn)的可能性越小,權(quán)衡位置精度、現(xiàn)勢(shì)性等多重因素,選擇最優(yōu)的點(diǎn)作為結(jié)果。
重復(fù)點(diǎn)查詢程序如圖2所示,在程序運(yùn)行過程中,針對(duì)不同類別的興趣點(diǎn),設(shè)定不同的重復(fù)點(diǎn)查詢的距離,避免漏查。
圖2地名興趣點(diǎn)判重程序
經(jīng)過分析實(shí)踐,本文得出利用數(shù)據(jù)名稱與代碼表中關(guān)鍵字進(jìn)行匹配的思想,將數(shù)據(jù)屬性表與代碼表進(jìn)行屬性鏈接,從而將關(guān)鍵字對(duì)應(yīng)的代碼鏈接到對(duì)應(yīng)的數(shù)據(jù)屬性項(xiàng)中。為了保證匹配的正確率,本文采用尾詞匹配原理進(jìn)行匹配,即通過FME中的StringSearcher函數(shù)和Joiner函數(shù)快速地進(jìn)行代碼轉(zhuǎn)。
StringSearcher函數(shù)對(duì)指定的表達(dá)式執(zhí)行表達(dá)式匹配。如果表達(dá)式與模式匹配,則通過匹配端口輸出該功能,并且與正則表達(dá)式匹配的原始搜索字符串的部分存儲(chǔ)在“匹配結(jié)果屬性”中指定的屬性中,否則,它將通過NotMatched端口輸出;而Joiner函數(shù)主要功能是查詢數(shù)據(jù)庫,并獲得與要素相關(guān)聯(lián)的屬性。
具體處理過程如下:
(1)根據(jù)《天地圖母庫POI分類分級(jí)與代碼表》中分類關(guān)鍵字制作一個(gè)尾詞關(guān)鍵字庫,并保存為.txt格式,如圖3所示。
圖3關(guān)鍵字庫
(2)利用StringSearcher函數(shù),將要素中NAME字段與關(guān)鍵字詞庫進(jìn)行尾詞匹配,如圖4所示,將NAME字符串與關(guān)鍵字庫從右到左進(jìn)行匹配,完全匹配,則利用Joiner函數(shù)將該《天地圖母庫POI分類分級(jí)與代碼表》中關(guān)鍵字所對(duì)應(yīng)的TYPE碼賦給該要素的TYPE屬性字段;未匹配的要素則直接輸出。最后的匹配流程圖如圖5所示。
另外,品牌詞字段同樣具有一個(gè)品牌詞賦值表,利用代碼轉(zhuǎn)換的原理,對(duì)詞庫進(jìn)行更換,也能快速地對(duì)品牌詞字段進(jìn)行賦值。
圖4 StringSearcher函數(shù)界面
圖5 代碼轉(zhuǎn)換
天地圖數(shù)據(jù)融合是現(xiàn)階段各省每年工作任務(wù)中的一項(xiàng)重要內(nèi)容,如何快速地進(jìn)行數(shù)據(jù)分析、提取、融合是提高天地圖數(shù)據(jù)融合效率面臨的重大問題。解決這個(gè)問題的關(guān)鍵在于不斷地總結(jié)歸納,發(fā)現(xiàn)問題的共同點(diǎn),使問題被自動(dòng)化或者半自動(dòng)化處理[8],特別是地名興趣點(diǎn)數(shù)據(jù)融合,查重判重、屬性補(bǔ)充完善工作量巨大,利用FME等相關(guān)軟件開發(fā)處理工具,很好地提高了融合的效率和正確性。由于分類代碼不夠完善,在代碼轉(zhuǎn)換過程中還會(huì)存在部分點(diǎn)要素?zé)o法進(jìn)行自動(dòng)化正確分類,需要人工進(jìn)行補(bǔ)充,后期將不斷補(bǔ)充完善分類代碼表以及相關(guān)的文件標(biāo)準(zhǔn)材料,完善程序工具,進(jìn)一步提高地名興趣點(diǎn)數(shù)據(jù)融合效率。