張勝?gòu)?qiáng)
摘? 要:語義是信息能夠被人們理解的自然語言表達(dá),隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展與普及,互聯(lián)網(wǎng)成為人們獲取空間數(shù)據(jù)的重要手段。該文討論了網(wǎng)絡(luò)空間數(shù)據(jù)的特點(diǎn)、空間數(shù)據(jù)的自然語言表達(dá)利用RDF、自然語言處理對(duì)空間數(shù)據(jù)進(jìn)行融合匹配,提高了空間數(shù)據(jù)服務(wù)的質(zhì)量。
關(guān)鍵詞:語義? 自然語言? 網(wǎng)絡(luò)空間數(shù)據(jù)? RDF? 融合匹配
中圖分類號(hào):G71 ? ?文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2019)09(b)-0022-02
隨著信息技術(shù)發(fā)展產(chǎn)生了大量的數(shù)據(jù),空間數(shù)據(jù)也不斷的產(chǎn)生、更新,涌現(xiàn)了大量空間數(shù)據(jù)。通過多種渠道,多種方式來獲取的空間數(shù)據(jù)具有以下特征:現(xiàn)勢(shì)性好、信息豐富、質(zhì)量各異、語義差異、屬性字段差異、數(shù)據(jù)異構(gòu)、數(shù)據(jù)冗余又不完整數(shù)據(jù)。由于原始數(shù)據(jù)的這些特征導(dǎo)致空間實(shí)體數(shù)據(jù)不完整、表達(dá)不一致、重復(fù),質(zhì)量無法達(dá)到要求,這些是影響空間數(shù)據(jù)服務(wù)質(zhì)量的重要因素。消除空間數(shù)據(jù)間的差異實(shí)現(xiàn)多種來源、多種結(jié)構(gòu)的空間數(shù)據(jù)融合是提供高質(zhì)量的空間數(shù)據(jù)服務(wù)重要策略方法??臻g數(shù)據(jù)融合主要有柵格數(shù)據(jù)融合、矢量數(shù)據(jù)融合、矢量與柵格數(shù)據(jù)之間的融合等[1]??臻g數(shù)據(jù)融合的方法有地圖合并、實(shí)體匹配、數(shù)據(jù)更新以及擴(kuò)展方法基于統(tǒng)計(jì)學(xué)方法的擴(kuò)展、基于信息論方法的擴(kuò)展等[2]。該文討論了語義關(guān)聯(lián)在空間數(shù)據(jù)融合中的應(yīng)用,空間語義是空間數(shù)據(jù)的能夠被人們理解自然語言表達(dá)但是空間數(shù)據(jù)的自然語言表達(dá)不能被計(jì)算機(jī)所理解,實(shí)現(xiàn)空間數(shù)據(jù)的自然語言表達(dá)到空間數(shù)據(jù)的機(jī)器語言表達(dá)的對(duì)應(yīng)關(guān)系,使我們?cè)诳臻g數(shù)據(jù)檢索的過程中能夠返回正確的地理信息。
1? 語義關(guān)聯(lián)框架
語義位置關(guān)聯(lián)的基本思想來源與語義網(wǎng),其核心是地理位置之間的關(guān)聯(lián)關(guān)系,通過描述地理位置的語義信息、屬性語義信息間的相似度來實(shí)現(xiàn)的,即是利用web技術(shù)在不同數(shù)據(jù)源之間構(gòu)建語義位置關(guān)聯(lián)關(guān)系給分布式空間數(shù)據(jù)加入可以被計(jì)算機(jī)理解的語義信息從而促進(jìn)地理信息的共建、共享。語義位置關(guān)聯(lián)依賴于XML、RDF和Ontology三大關(guān)鍵技術(shù)結(jié)合地理編碼規(guī)則,可實(shí)現(xiàn)異構(gòu)數(shù)據(jù)源的共享檢索。這些技術(shù)在自然語言表達(dá)層次上對(duì)空間數(shù)據(jù)分類、標(biāo)識(shí)索引實(shí)現(xiàn)空間數(shù)據(jù)的結(jié)構(gòu)性表達(dá)。語義位置關(guān)聯(lián)是在語義位置模型的基礎(chǔ)上,動(dòng)態(tài)匯集位置本身及與位置相關(guān)的信息,并與人、物、事件等泛在信息建立關(guān)聯(lián)關(guān)系,進(jìn)一步實(shí)現(xiàn)位置語義及位置關(guān)聯(lián)網(wǎng)分析,和一組通用的位置關(guān)系和時(shí)空模式計(jì)算方法,數(shù)據(jù)融合、導(dǎo)航等應(yīng)用奠定基礎(chǔ),為地理空間數(shù)據(jù)服務(wù)提供信息分類檢索、信息索引以及信息整合。語義位置關(guān)聯(lián)采從空間位置(地名地址及其編碼)、空間形態(tài)、空間關(guān)系、空間關(guān)聯(lián)、空間對(duì)比、空間趨勢(shì)、空間運(yùn)動(dòng)、時(shí)序序列、時(shí)間周期等方面進(jìn)行時(shí)空關(guān)聯(lián)分析,探索獲取泛在信息的時(shí)空分布、聚類模式、時(shí)空異常、趨勢(shì)預(yù)測(cè)、同位模式、序列模式、周期等方面的深層關(guān)聯(lián)知識(shí),基于位置或目標(biāo)實(shí)體提供全方位綜合泛在信息[3]。語義位置關(guān)聯(lián)重在解決網(wǎng)絡(luò)空間數(shù)據(jù)資源的規(guī)范重構(gòu)、位置語義互聯(lián)和位置智能聚類。
1.1 語義位置關(guān)聯(lián)的步驟
(1)建立地名地址語義庫,結(jié)合地理編碼規(guī)則形成地名地址語義結(jié)構(gòu)標(biāo)準(zhǔn)。
(2)語義解析,結(jié)合基于字符串相似、基于內(nèi)容特相似模型、基于語義距離相似等算法實(shí)現(xiàn)地名地址間語義關(guān)聯(lián)。
(3)與地名地址服務(wù)平臺(tái)集成。由基礎(chǔ)數(shù)據(jù)庫抽取元數(shù)據(jù),對(duì)基礎(chǔ)資源數(shù)據(jù)進(jìn)行描述標(biāo)記,以便于語義表達(dá)、語義匹配、建立領(lǐng)域知識(shí)以便于與其他數(shù)據(jù)的關(guān)系形成地名地址數(shù)據(jù)知識(shí)庫。
(4)建立字典表,實(shí)現(xiàn)數(shù)據(jù)庫模式與地理本體表達(dá)的映射,進(jìn)而實(shí)現(xiàn)異構(gòu)數(shù)據(jù)庫之間的互操作。
(5)通過webservice的方式,向上為訪問集成數(shù)據(jù)的應(yīng)用提供統(tǒng)一數(shù)據(jù)模式和數(shù)據(jù)訪問的通用接口。
1.2 空間數(shù)據(jù)語義關(guān)聯(lián)集成的原則
原則如下:
(1)數(shù)據(jù)處理主要是清洗重復(fù)數(shù)據(jù),異常數(shù)據(jù)、糾正收集到的數(shù)據(jù)中的錯(cuò)誤數(shù)據(jù)。將坐標(biāo)系不同的數(shù)據(jù)集轉(zhuǎn)化為統(tǒng)一的坐標(biāo)參考。
(2)對(duì)格式不同的數(shù)據(jù)進(jìn)行格式轉(zhuǎn)化格,轉(zhuǎn)化為兼容的數(shù)據(jù)格式例如可將數(shù)據(jù)統(tǒng)一為shp格式數(shù)據(jù)存入空間數(shù)據(jù)庫中或發(fā)布為符合OGC規(guī)范的地圖服務(wù)。
(3)根據(jù)具體的地理實(shí)體的現(xiàn)實(shí)情況將地理實(shí)體劃分為不同的粒度例如行政單位實(shí)體對(duì)象可劃分為省、市、縣、鄉(xiāng)鎮(zhèn)/街道,居民地可劃分為小區(qū)/村、具體的樓號(hào)/組,戶。
(4)地理實(shí)體是地理空間數(shù)據(jù)中具有完整意義的組織單元,運(yùn)用面向?qū)ο笏枷雽⒌乩韺?shí)體抽象為空間對(duì)象采用標(biāo)識(shí)碼來唯一標(biāo)識(shí)每個(gè)對(duì)象并擴(kuò)展地理對(duì)象的屬性。
(5)地理實(shí)體中包含點(diǎn)要素、線要素、面要素、體要素、屬性信息在數(shù)據(jù)重構(gòu)的過程中建立實(shí)體間的級(jí)關(guān)系例如點(diǎn)、線、面、體的層級(jí)關(guān)系、面狀實(shí)體的隸屬關(guān)系。
(6)地理實(shí)體通過屬性表達(dá)語義,其時(shí)空語義概念由屬性集描述,而地理實(shí)體間通過泛化-特例描述地理實(shí)體間的語義關(guān)系。根據(jù)屬性集的多少建立地理實(shí)體語義樹。
2? 基于語義的空間數(shù)據(jù)匹配
在空間數(shù)據(jù)存儲(chǔ)管理過程中,對(duì)空間數(shù)據(jù)庫的訪問會(huì)存在空間語義描述的差異性為題,如何保證數(shù)據(jù)庫服務(wù)器能夠快速的返回正確的地理信息就需要構(gòu)建空間數(shù)據(jù)間的語義關(guān)系。語義位置關(guān)聯(lián)的實(shí)現(xiàn)的基本技術(shù)方法是語義網(wǎng)與全文索引技術(shù),其核心是建立地理位置坐標(biāo)與地理位置自然語言表達(dá)之間的關(guān)聯(lián)關(guān)系,通過描述地理位置的語義信息、屬性語義信息間與數(shù)據(jù)庫中的空間數(shù)據(jù)語義表達(dá)的相似度來實(shí)現(xiàn)的空間數(shù)據(jù)的匹配,建立自然語義與計(jì)算機(jī)語義直接的對(duì)應(yīng)關(guān)系。實(shí)現(xiàn)空間數(shù)據(jù)的語義關(guān)聯(lián)主要使用了自然語言處理的分詞技術(shù)、空間數(shù)據(jù)語義表達(dá)相似度計(jì)算方法、語義空間數(shù)據(jù)匹配等技術(shù)方法?;谡Z義的空間數(shù)據(jù)匹配實(shí)現(xiàn)的主要過程的步驟是:
(1)由基礎(chǔ)數(shù)據(jù)庫抽取元數(shù)據(jù),對(duì)基礎(chǔ)資源數(shù)據(jù)進(jìn)行描述標(biāo)記,以便于語義表達(dá)、語義匹配、建立領(lǐng)域知識(shí)以便于與其他數(shù)據(jù)的關(guān)系形成地名地址數(shù)據(jù)知識(shí)庫。
(2)建立字典表,實(shí)現(xiàn)數(shù)據(jù)庫模式與地理本體表達(dá)的映射,進(jìn)而實(shí)現(xiàn)異構(gòu)數(shù)據(jù)庫之間空間實(shí)體數(shù)據(jù)的映射關(guān)系。
(3)建立空間數(shù)據(jù)語義表達(dá)的相似度的計(jì)算規(guī)則。
(4)通過webservice的方式,向上為訪問集成數(shù)據(jù)的應(yīng)用提供統(tǒng)一數(shù)據(jù)的數(shù)據(jù)訪問接口。
(5)實(shí)現(xiàn)數(shù)據(jù)服務(wù)、以及語義匹配服務(wù)的發(fā)布。
3? 結(jié)語
網(wǎng)絡(luò)地理信息在生產(chǎn)、生活中起著越來越大的作用,網(wǎng)絡(luò)地理信息系統(tǒng)在發(fā)展過程中產(chǎn)生了的地理空間數(shù)據(jù)越來越復(fù)雜多樣。對(duì)于不同結(jié)構(gòu)、不同表達(dá)方式的空間數(shù)據(jù)的集成融合在當(dāng)代這個(gè)大數(shù)據(jù)時(shí)代占據(jù)著越來越重要的地位。對(duì)于自然語言的研究使得采用語義位置關(guān)聯(lián)、語義位置匹配成為空間數(shù)據(jù)融合集成的一個(gè)重要的方法。本文討論了基于語義關(guān)聯(lián)的空間數(shù)據(jù)融合框架,在當(dāng)今互聯(lián)網(wǎng)大數(shù)據(jù)高速發(fā)展的過程中具有一定的優(yōu)勢(shì)。
參考文獻(xiàn)
[1] 陳寶帥,穆剛.淺談GIS空間數(shù)據(jù)融合的方法[J].城市建設(shè)理論研究:電子版,2013(10):59.
[2] 張景雄,劉鳳珠,梅瑩瑩,等.空間數(shù)據(jù)融合的研究進(jìn)展:從經(jīng)典方法到擴(kuò)展方法[J].武漢大學(xué)學(xué)報(bào):信息科學(xué)版,2017(42):1628.
[3] 周成虎,朱欣焰,王蒙,等.全息位置地圖研究[J].地理科學(xué)進(jìn)展,2011,30(11):1331-1335.