劉善磊,潘九寶,李夢夢,張大騫
(1.江蘇省基礎地理信息中心,江蘇 南京 210013)
自然資源是指天然存在、有使用價值、可提高人類當前和未來福利的自然環(huán)境因素的總和[1]。美國、俄羅斯、加拿大等多數(shù)資源大國對自然資源實行統(tǒng)籌管理[2],而由于我國幅員遼闊,自然資源不得不實行分頭管理,因此各類自然資源分類體系和數(shù)據(jù)標準不統(tǒng)一,調(diào)查監(jiān)測的對象、范圍、內(nèi)容等存在重復和交叉,甚至相互矛盾,進而導致數(shù)據(jù)成果難以綜合分析利用[3]。為徹底解決自然資源調(diào)查“數(shù)出多門”的問題,2020年1月17日自然資源部發(fā)布了《自然資源調(diào)查監(jiān)測體系構建總體方案》(以下簡稱《總體方案》),為加快建立自然資源統(tǒng)一調(diào)查、評價、監(jiān)測制度,健全自然資源監(jiān)管體制,切實履行自然資源統(tǒng)一調(diào)查監(jiān)測職責提供了重要遵循和行動指南?!犊傮w方案》在數(shù)據(jù)庫建設中特別指出;采用“專業(yè)化處理、專題化匯集、集成式共享”的模式,按照數(shù)據(jù)整合標準和規(guī)范要求,對歷史數(shù)據(jù)進行標準化整合,集成建庫,形成統(tǒng)一空間基礎和數(shù)據(jù)格式的各類自然資源調(diào)查監(jiān)測歷史數(shù)據(jù)庫。
可見,自然資源信息化需要把握的重點之一就是突出數(shù)據(jù)的整合與融合[4]。隨著自然資源統(tǒng)籌管理的逐步落實[5-6],各種來源的地理信息數(shù)據(jù)開始匯集,問題也隨之而來——數(shù)據(jù)在尺度、版本、幾何位置和形狀等方面存在不一致,給自然資源調(diào)查監(jiān)測歷史數(shù)據(jù)建庫帶來了諸多不便。針對該問題,大批學者進行了積極探索,其中高效、準確的自動化匹配地理實體是一種解決方案。近年來,學者針對點、線、面實體匹配理論和方法進行了大量研究,也取得了不錯的成績,但鮮有學者從實際應用角度全面系統(tǒng)地評估各算法的匹配質(zhì)量。本文對目前常用的多源地理信息數(shù)據(jù)整合與融合匹配算法進行了總結和研究,并以國情監(jiān)測數(shù)據(jù)與1∶10 000 DLG的匹配為例,對點、線、面3種不同類型的空間數(shù)據(jù)進行了匹配質(zhì)量分析評價。
通常根據(jù)匹配精度和匹配效率衡量多源地理信息匹配算法質(zhì)量的優(yōu)劣[7]。
1)匹配精度評價。目前,應用最廣泛的匹配精度評價準則為查全率(Recall)和查準率(Precision),Recall是指正確匹配的實體數(shù)量與數(shù)據(jù)集全部實體總數(shù)的百分比;Precision是指正確匹配的實體數(shù)量與實際檢索到的匹配實體數(shù)量的百分比。Recall和Precision相互制約,Recall的提高將導致Precision的降低,同樣Precision的提高也將導致Recall的降低,因此需要綜合考慮。最常見的方法為通過綜合評價指標(F-Measure)進行平均調(diào)和。
設存在兩個數(shù)據(jù)集A和B,E為至少出現(xiàn)在一個數(shù)據(jù)集中的實體數(shù)量,R為匹配結果中所有實體數(shù)量,C為正確匹配對數(shù)量,則有;
2)匹配效率評價。匹配效率通過評價得到匹配結果所耗費的時間反映。
3)軟硬件配置。本文所有的匹配質(zhì)量評價算法均基于FME2019.1模板實現(xiàn),其中處理器為Inter(R)Core(TM) i7-8850H CPU @2.60GHz,內(nèi)存為16.00 GB,硬盤為2 T,顯卡為Intel(R) UHD Graphics 630,操作系統(tǒng)為 Microsoft Windows 10。
目前常用的點實體匹配方法主要包括基于距離相似度的匹配[8-9]、基于屬性相似度的匹配[10-12]和基于多特征組合的匹配[13-16]3類。本文選取國情監(jiān)測數(shù)據(jù)BOUP7圖層中的所有數(shù)據(jù)與1∶10 000DLG中AGNP圖層的行政村數(shù)據(jù)進行點實體匹配質(zhì)量評價。
基于距離相似度的匹配以歐式距離為點實體之間的距離相似度。
式中,m1、m2分別為待匹配數(shù)據(jù)的點位精度;m為距離精度,實際匹配中取3倍m作為點實體的距離閾值。
基于屬性相似度的匹配以文本字符串之間的匹配度為點實體之間的屬性相似度,本文以行政村名稱(NAME)為例??紤]到屬性值漏輸或錯輸?shù)那闆r,本文建立基于權重的文本綜合相似度指標,設iCount(iCount≤n)為兩個字符串中相同字符的計數(shù),n為兩個字符串中數(shù)目最小的一組字符串的數(shù)量,iCommon為兩個字符串最長公共子串的字符計數(shù),則文本字符串的綜合相似度計算公式為;
式中,α、β為可調(diào)參數(shù),本文分別取值0.6、0.4。
基于多特征組合的匹配主要是綜合考慮距離和屬性相似度,本文采用參考文獻[16]的方法,將距離、屬性與環(huán)境等多個相似特征組合進行匹配。點實體匹配質(zhì)量評價結果如表1所示。
分析表1并結合國情監(jiān)測數(shù)據(jù)與1∶10 000DLG幾何位置的采集標準(國情監(jiān)測數(shù)據(jù)采集點一般在門口,1∶10 000DLG采集點一般在房子上)可知,針對幾何位置采集標準不一致的點實體匹配應以屬性匹配為主,并適當擴大幾何匹配的距離閾值(可通過選擇樣本數(shù)據(jù)進行統(tǒng)計確定匹配的距離閾值),同時輔以環(huán)境相似度等其他條件,進而提高匹配精度。
表1 點實體匹配質(zhì)量評價表
目前常用的線實體匹配方法主要包括基于語義相似度的匹配、基于幾何特征的匹配[17-20]和基于拓撲特征的匹配[21-22]3類。隨著對深度學習的研究,近年來人工神經(jīng)網(wǎng)絡已被應用到線實體匹配中[23]。上述3類方法中,基于幾何特征的匹配是一種較重要的方法。線實體常用的幾何匹配相似度指標包括距離、長度、方向、組成面積等,其中距離相似度是線實體匹配最常用的指標。本文以國情監(jiān)測數(shù)據(jù)和1∶10 000DLG中的國、省、縣、鄉(xiāng)道為基礎數(shù)據(jù),通過基于Hausdorff距離、基于Fréchet距離、基于語義和Fréchet距離的匹配進行線實體匹配質(zhì)量評價。
基于Hausdorff距離的匹配采用參考文獻[18]的方法;基于Fréchet距離的匹配采用參考文獻[20]的方法;基于語義和Fréchet距離的匹配,其語義相似度的匹配算法采用點實體匹配質(zhì)量評價中基于屬性相似度的匹配方法,匹配字段選擇道路名稱(NAME)。線實體匹配質(zhì)量評價結果如表2所示,可以看出,基于Fréchet距離的匹配在線實體匹配中具有絕對的優(yōu)勢,其Precision比基于Hausdorff距離的匹配高了近20%,匹配效率也快了近一倍。雖然基于語義和Fréchet距離的匹配在Precision方面高達86%,但由于兩套數(shù)據(jù)在道路名稱(NAME)填寫上高度不吻合(國道和省道方面,國情監(jiān)測數(shù)據(jù)填全稱,1∶10 000DLG全稱和簡稱混填;縣道和鄉(xiāng)道方面,國情監(jiān)測數(shù)據(jù)以江蘇省交通運輸廳數(shù)據(jù)為主,1∶10 000DLG以外業(yè)調(diào)繪為主),導致綜合評價指標較低。因此,針對屬性高度不吻合的線實體,以其中一方數(shù)據(jù)的屬性為準,通過幾何匹配方法可實現(xiàn)數(shù)據(jù)的準確、快速整合。
表2 線實體匹配質(zhì)量評價表
面實體匹配是近年來同名實體匹配研究的熱點和難點,引起了國內(nèi)外學者的廣泛關注。面實體匹配的方法很多,一般可歸納為基于空間相似性的匹配方法[24-27]和綜合多因素的面實體匹配方法[28-30]兩類。本文選取國情監(jiān)測數(shù)據(jù)和1∶10 000DLG HYDA圖層中的水庫數(shù)據(jù),通過基于空間相似性的匹配、基于拓撲和空間相似性的匹配、基于Voronoi圖和空間相似性的匹配進行面實體匹配質(zhì)量評價。
基于空間相似性的匹配采用參考文獻[24]的計算方法,總相似度的計算公式為;
式中,simd(A,B)為距離相似度;simsh(A,B)為形狀相似度;simsi(A,B)為面積相似度;α、β、γ分別為距離相似度、形狀相似度和面積相似度的權重(α+β+γ=1)。
基于拓撲和空間相似性的匹配采用參考文獻[29]的方法,先根據(jù)建立的拓撲關系(計算拓撲疊置度)進行初步匹配和篩選,再進行空間相似性匹配。基于Voronoi圖和空間相似性的匹配采用參考文獻[30]的方法,在基于廣義Voronoi圖獲取候選集的基礎上,根據(jù)要素間的相交面積先初始匹配后組合匹配。面實體匹配質(zhì)量評價結果如表3所示,可以看出,面實體在進行空間相似性匹配之前進行初步匹配和篩選可在一定程度上提高匹配精度。與基于拓撲和空間相似性的匹配方法相比,基于Voronoi圖和空間相似性的匹配方法綜合評價指標較高,但耗時是其10倍(耗時主要在基于廣義Voronoi圖候選集獲取上)。對比基于空間相似性的匹配方法與基于拓撲和空間相似性的匹配方法的綜合評價指標可知,提高面實體匹配質(zhì)量的關鍵在于候選數(shù)據(jù)集獲取算法的設計。
為了更好地服務于自然資源數(shù)據(jù)的整合與融合,本文對目前常用的多源地理信息數(shù)據(jù)整合與融合匹配算法進行了總結和研究;并以國情監(jiān)測數(shù)據(jù)與1∶10 000 DLG的匹配為例,根據(jù)空間數(shù)據(jù)的類型,分別對點實體、線實體和面實體的匹配質(zhì)量進行了分析評價。研究表明,針對幾何位置采集標準不一致的點實體匹配,以屬性相似度為主,同時輔以距離相似度和環(huán)境相似度等條件可提高匹配精度;針對屬性高度不吻合的線實體,以其中一方數(shù)據(jù)的屬性為準,通過Fréchet距離等幾何匹配方法可實現(xiàn)數(shù)據(jù)的準確、快速整合;利用空間相似性匹配基于拓撲或Voronoi圖等方法獲取的候選數(shù)據(jù)集可提高面實體的匹配精度。本文算法中用到的權重和閾值多數(shù)依賴于人工選取,因此權重和閾值對匹配質(zhì)量的影響是后續(xù)研究的重點。