吳張峰,夏蘭芳
(上海市測繪院,上海 200063)
伴隨著信息時代的到來,位置服務(wù)需求的深度和廣度在不斷增加,位置服務(wù)的產(chǎn)生離不開基礎(chǔ)數(shù)據(jù)的支持。POI數(shù)據(jù)作為位置服務(wù)的重要載體,直接掌控著位置服務(wù)的質(zhì)量。與此同時,以POI為代表的位置服務(wù)數(shù)據(jù)的獲取和更新模式正在發(fā)生深刻變化。另一方面,隨著位置服務(wù)的普及,POI數(shù)據(jù)的鮮活性成為提升位置服務(wù)質(zhì)量的核心因素。如何進行高質(zhì)量的數(shù)據(jù)采集和多源POI數(shù)據(jù)的融合成為提升位置服務(wù)能力的關(guān)鍵。本文在廣泛試驗的基礎(chǔ)上,探索出一套基于FME Server的多源異構(gòu)POI融合方法,為POI數(shù)據(jù)的動態(tài)維護更新提供了一種新的思路。
本文的研究框架如圖1所示。
本文研究的核心內(nèi)容為:首先將來源可靠且經(jīng)過質(zhì)檢的POI數(shù)據(jù)形成一個母庫;然后將來源不同的POI數(shù)據(jù)進行數(shù)據(jù)清洗,進行基于FME Server空間位置信息和門址等屬性信息的融合,形成內(nèi)容詳盡、結(jié)構(gòu)規(guī)整的POI融合庫;最后,對于形成的POI融合庫再進行基于空間約束關(guān)系的門址掛接,建立POI數(shù)據(jù)與門址信息的對應(yīng)關(guān)系,滿足各類基于LBS和Location Point的業(yè)務(wù)應(yīng)用。
對獲取的大量的POI數(shù)據(jù)進行處理,處理的方法是利用FME軟件流程化的模塊設(shè)計對數(shù)據(jù)進行清洗,從而保證用于融合的數(shù)據(jù)的基本質(zhì)量。處理流程如圖2所示,主要包括以下內(nèi)容。
(1) 針對數(shù)據(jù)中存在特殊分隔符的問題,分析數(shù)據(jù)產(chǎn)生的原因,對特殊字符進行刪除處理。
(2) POI數(shù)據(jù)格式的統(tǒng)一,非漢字字符統(tǒng)一使用英文字符。
圖1 研究框架
圖2 數(shù)據(jù)清洗流程
(3) 設(shè)計標準POI庫的屬性結(jié)構(gòu),規(guī)范POI屬性名稱,如原始的POI數(shù)據(jù)結(jié)構(gòu)中屬性字段各不相同,需建立原始字段與標準字段的對應(yīng)關(guān)系,統(tǒng)一到標準的POI屬性字段名稱。
(4) 刪除奇異點,刪除空間字段為NULL的POI數(shù)據(jù),優(yōu)化POI數(shù)據(jù)質(zhì)量。
(5) 刪除重復(fù)項,進行POI數(shù)據(jù)中同名地物的判斷及刪除。
(6) 坐標統(tǒng)一,坐標變換,使獲取的POI數(shù)據(jù)具有相同的坐標系。
數(shù)據(jù)源采用實測并經(jīng)過質(zhì)檢的數(shù)據(jù),母庫的屬性結(jié)構(gòu)定義如圖3所示,建成的母庫如圖4所示。
字段名稱含義描述數(shù)據(jù)類型空值性唯一性KEY_ID唯一標識NUMBER(38)NOTTYPE類型VARCHAR2(38)NULLNAME名稱VARCHAR2(100)NOTA_NAME所屬區(qū)縣VARCHAR2(50)NULLCOUNTY所屬街道VARCHAR2(50)NULLDOORPLATE_ID掛接門址IDVARCHAR2(100)NULLNAME_PHONETICIZE拼音VARCHAR2(200)NULLNAME_ENG英文名稱VARCHAR2(50)NULLNAME_ABBR簡稱VARCHAR2(50)NULLNAME_ALIAS別名VARCHAR2(50)NULLNAME_REGIS工商登記名稱VARCHAR2(50)NULLTEL電話號碼VARCHAR2(50)NULLPOSTAL_CODE郵政編碼VARCHAR2(50)NULLURL網(wǎng)址VARCHAR2(100)NULLEMAIL電子郵箱VARCHAR2(50)NULLDATA_SOURCE數(shù)據(jù)來源VARCHAR2(50)NULLDES描述信息VARCHAR2(50)NULLCOLLECTION_TIME采集時間DATENULLUPDATE_TIME更新時間DATENULLSTOP_TIME停用時間DATENULLDOOR_ACCU門址掛接準確度NUMBERNULLIMPORT_TIME入庫時間DATENULLPOI_TYPEPOI類型VARCHAR2(50)NULLDOOR_TYPE門址掛接類型NUMBERNULLPATCH批次VARCHAR2(50)NULLORIGINAL_ADDRESS原始地址VARCHAR2(100)NULLLINKED_ADDRESS掛接地址VARCHAR2(100)NULLGEOMETRY空間字段MDSYS.SDO_GEOMETRYNOT
圖3POI庫的屬性結(jié)構(gòu)
圖4 建成的母庫
在進行POI融合過程中,首先要進行同名地物的判別,即同名POI點的識別。本文采用文本名稱相似度、距離相似度、門址相似度3個指標進行同名POI點的判別,在判別過程中,分別賦予0.6、0.2、0.2的權(quán)重。對于兩個POI對象,如果總體相似度大于閾值(本文設(shè)定為0.9),則認為是同名POI點,否則認定為新的POI點,進行POI數(shù)據(jù)的增量融合更新。具體流程圖5所示。
圖5 多屬性相似度的POI融合流程
POI作為點狀地物,與其他地物存在空間約束關(guān)系。在進行門址掛接的時候,要充分考慮其與參考地物(包括街道數(shù)據(jù)、小區(qū)數(shù)據(jù)和建筑面數(shù)據(jù))的邏輯關(guān)系。如圖6所示,首先進行POI數(shù)據(jù)、門址點POI與參考地物之間的空間關(guān)系計算,判斷出與參考地物邏輯關(guān)系一致的POI點和門址點,再按照相對最近原則進行掛接。
門址掛接的結(jié)果如圖7所示。如果發(fā)現(xiàn)POI數(shù)據(jù)所掛接的門址數(shù)據(jù)與原始地址有較大出入,可以進行異常拋出,進一步進行數(shù)據(jù)質(zhì)量的檢查。
圖6 基于空間約束關(guān)系的門址掛接
圖7 門址掛接結(jié)果
(1) 首先制作FME數(shù)據(jù)處理模板,主要將POI處理流程中的各階段數(shù)據(jù)處理分步制作成FME模板。具體包括以下模板:數(shù)據(jù)清洗模塊、POI母庫建立模塊、POI融合模塊、POI與門址掛接模塊、POI維護更新模塊。
(2) 將制作好的模板通過FME Workbech發(fā)布到FMEServer上,形成數(shù)據(jù)處理服務(wù),如圖8所示。
(3) 模板的更新維護。通過FME Workbench從FME Server中下載工作空間進行維護,進行需要的升級,并重新發(fā)布到FME Server。
本文提出了一種多源POI數(shù)據(jù)歸并融合方法。該方法通過對POI信息的門址信息、位置信息和屬性信息進行比對,確定不同POI數(shù)據(jù)之間是否需要融合,最終形成一個結(jié)構(gòu)統(tǒng)一、信息豐富的新POI庫,用于基于LBS和Location Point的業(yè)務(wù)應(yīng)用??傮w來說,該方法是一種比較實用而且簡單的方法,為多源POI資源的有效利用提供了一種新的思路。
圖8 發(fā)布服務(wù)
參考文獻:
[1] 邵蕾.網(wǎng)絡(luò)POI數(shù)據(jù)增量更新技術(shù)研究[D].蘭州:蘭州交通大學,2016.
[2] 高新院.基于空間位置信息的多源POI數(shù)據(jù)融合問題的研究[D].青島:中國海洋大學,2013.
[3] 張巍,高新院,李瑞姍.空間位置信息的多源POI數(shù)據(jù)融合[J].中國海洋大學學報(自然科學版),2014,44(7):111-116.
[4] 陳瑞.基于多源POI數(shù)據(jù)的匹配融合方法研究[D].蘭州:蘭州交通大學,2014.
[5] 李瑞姍.基于自然語言處理的多源POI數(shù)據(jù)融合的研究[D].青島:中國海洋大學,2013.
[6] 王婷婷.基于位置與屬性的多源POI數(shù)據(jù)融合的研究[D].青島:中國海洋大學,2014.
[7] 曾李陽,齊華,譚明建,等.基于天地圖的POI數(shù)據(jù)采集系統(tǒng)設(shè)計與實現(xiàn)[J].測繪與空間地理信息,2016,39(3):55-58.
[8] 周春輝,朱欣焰,蘇科華,等.基于LBS的興趣點查詢與更新機制研究[J].微計算機信息,2009,25(19):143-145.
[9] 林娜,王斌.空間數(shù)據(jù)庫增量式更新機制的研究[J],測繪科學,2008,33(3):198-200.
[10]宋曉紅,張立朝,祿豐年,等.地理國情普查中多源異構(gòu)數(shù)據(jù)整合研究[J].測繪通報,2014(9):104-107.
[11]曹勁舟,武紅宇.基于微博位置簽到數(shù)據(jù)的POI更新方法[J].地理空間信息,2013,11(2):15-18.
[12]朱慶,陳松林,黃鐸.關(guān)于空間數(shù)據(jù)質(zhì)量標準的若干問題[J].武漢大學學報(信息科學版),2004,29(10):863-866.
[13]LONEY K.Oracle Database 10g完全參考手冊[M].北京:清華大學出版社,2008.
[14]KOTHURI R,GODFRIND A,BEINAT E.Oracle Spatial空間信息管理[M].北京:清華大學出版社,2009.
[15]朱宏斌,陸海英,盛琦,等.城市基礎(chǔ)地理信息數(shù)據(jù)庫更新方案研究[J].測繪通報,2011(1):29-31.