劉萬增,陳 軍,翟 曦,李 然,王新鵬,趙 勇,朱秀麗,徐 柱,趙婷婷,彭云璐,慎 利
1. 國家基礎(chǔ)地理信息中心,北京 100830; 2. 西南交通大學(xué)高鐵運(yùn)營安全空間信息技術(shù)國家地方聯(lián)合實(shí)驗(yàn)室,四川 成都 611756
時(shí)空數(shù)據(jù)是當(dāng)代社會的重要戰(zhàn)略性信息資源和生產(chǎn)要素,在國家信息化建設(shè)和社會化應(yīng)用中發(fā)揮著重要作用[1-3]。隨著大數(shù)據(jù)時(shí)代的到來,時(shí)空數(shù)據(jù)服務(wù)面臨“數(shù)據(jù)海量,信息爆炸,知識缺乏”的突出矛盾[4],催生著傳統(tǒng)信息服務(wù)向知識服務(wù)的轉(zhuǎn)變。從測繪自身的發(fā)展看,2018年機(jī)構(gòu)改革后,測繪工作逐步成為自然資源管理鏈條中基礎(chǔ)性、支撐性的工作。其根本定位由單一的服務(wù)于經(jīng)濟(jì)社會發(fā)展轉(zhuǎn)變“兩服務(wù),兩支撐”[5-6],服務(wù)內(nèi)容除了傳統(tǒng)的數(shù)據(jù)和信息,還需提供面向自然資源精準(zhǔn)決策和智慧管控的知識服務(wù)。傳統(tǒng)的信息中心管理和服務(wù)模式難以實(shí)施時(shí)空大數(shù)據(jù)高效治理,無法滿足管理決策對時(shí)空知識服務(wù)的需求,因此,實(shí)現(xiàn)從時(shí)空數(shù)據(jù)服務(wù)到時(shí)空知識服務(wù)的轉(zhuǎn)型升級成為新時(shí)期測繪工作面臨的新挑戰(zhàn)[7]。應(yīng)對這一挑戰(zhàn),必然帶來時(shí)空數(shù)據(jù)管理、挖掘和服務(wù)方式的變革,從數(shù)據(jù)庫上升到知識庫,從傳統(tǒng)的地理信息(數(shù)據(jù))中心升級到時(shí)空知識中心將成為智能化測繪的必然選擇。
如何建設(shè)時(shí)空知識中心,面臨著從數(shù)據(jù)生產(chǎn)到知識創(chuàng)造等一系列的問題。從數(shù)據(jù)支撐的角度看,高質(zhì)量時(shí)空數(shù)據(jù)是一切智能、智慧、規(guī)劃、決策和管理的基礎(chǔ)[8-9]。由于歷史的原因,這些時(shí)空數(shù)據(jù)分屬于不同部門生產(chǎn)和管理,造成數(shù)據(jù)空間基準(zhǔn)不一致、分類編碼不統(tǒng)一、數(shù)據(jù)格式不兼容、統(tǒng)計(jì)口徑不統(tǒng)一、尺度和精度不協(xié)調(diào)等問題,導(dǎo)致成果一體化融合難、集成應(yīng)用效率低,難以滿足時(shí)空知識中心建設(shè)需求[5]。從知識生產(chǎn)的角度來看,由于缺乏時(shí)空知識建模、抽取、融合、存儲、推理的一系列模型、算法和工程化的軟件系統(tǒng),尚未建立數(shù)量、質(zhì)量、生態(tài)“三位一體”的山水林田湖草集成化數(shù)據(jù)治理模式,尚未形成“資源-資產(chǎn)-資本”為內(nèi)涵的自然資源認(rèn)知技術(shù)體系,導(dǎo)致自然資源領(lǐng)域普遍存在著數(shù)據(jù)海量,知識難求的現(xiàn)象[7,10],制約著時(shí)空知識中心的建設(shè)和發(fā)展。
為此,本文瞄準(zhǔn)自然資源管理對時(shí)空知識服務(wù)的新需求,借鑒國內(nèi)外知識中心建設(shè)的實(shí)踐,融入智能化測繪的有關(guān)理念,提出時(shí)空知識中心概念、內(nèi)涵、技術(shù)框架、主體實(shí)現(xiàn)方法及研究進(jìn)展,最后從發(fā)展趨勢、關(guān)鍵技術(shù)及工程應(yīng)用3方面介紹時(shí)空知識中心未來的發(fā)展方向。
時(shí)空知識是指對實(shí)體空間位置、空間分布、空間形態(tài)、空間關(guān)系、空間統(tǒng)計(jì)、空間關(guān)聯(lián)、空間對比、空間趨勢、空間運(yùn)動、時(shí)空變化、趨勢分析等信息進(jìn)行概括和凝練,形成的具有時(shí)間和空間特性的知識[11]。時(shí)空知識庫是結(jié)構(gòu)化的時(shí)空語義知識庫[8],通過統(tǒng)一的空間參考框架對時(shí)空知識進(jìn)行組織關(guān)聯(lián),將其轉(zhuǎn)變成為一種時(shí)空知識資源來協(xié)同提供服務(wù)[12-13]。時(shí)空知識中心是在時(shí)空知識庫概念的基礎(chǔ)上,借助專業(yè)領(lǐng)域能力以及空間分析、空間挖掘等專業(yè)技能,構(gòu)建一個(gè)時(shí)空知識獲取、積累、創(chuàng)造、演化和利用的服務(wù)平臺或環(huán)境,提供智能知識進(jìn)化和深度知識服務(wù)等[12]。
因此,時(shí)空知識中心在發(fā)展定位上以時(shí)空知識服務(wù)為目標(biāo),實(shí)現(xiàn)從數(shù)據(jù)-信息-知識-價(jià)值的深度增值服務(wù);在技術(shù)實(shí)現(xiàn)上以GIS、大數(shù)據(jù)、人工智能、云計(jì)算技術(shù)為基礎(chǔ),提供時(shí)空數(shù)據(jù)獲取與處理、時(shí)空知識挖掘與分析、知識圖譜構(gòu)建與表達(dá)、時(shí)空知識推理與模擬等功能。在組織管理上以跨領(lǐng)域合作為基礎(chǔ),通過聚合不同行業(yè)的知識資源,建立知識共享、服務(wù)和交換機(jī)制,提供數(shù)據(jù)、信息和知識共享與服務(wù)。
隨著大數(shù)據(jù)、人工智能等信息技術(shù)的發(fā)展,時(shí)空信息服務(wù)也逐漸從以時(shí)空數(shù)據(jù)服務(wù)為主轉(zhuǎn)向數(shù)據(jù)、信息與知識服務(wù)并重的階段。一些以空間型知識服務(wù)系統(tǒng)為支撐的知識中心相繼成立,如USGS從最初單純提供各類基礎(chǔ)地圖,逐步拓展為以測繪、調(diào)查、科學(xué)分析為核心,綜合利用多學(xué)科知識,圍繞自然資源各類問題的認(rèn)知、發(fā)現(xiàn)、研究、評估,形成解決方案,為管理部門精準(zhǔn)施策提供基礎(chǔ)信息和診斷型、方案型知識服務(wù)。美國國家航空航天局(NASA)從提供全球氣候、海洋、陸地等大數(shù)據(jù)服務(wù),轉(zhuǎn)變?yōu)橥瑫r(shí)提供針對颶風(fēng)、洪水、干旱等災(zāi)害分析預(yù)警服務(wù)及基于空間、時(shí)間的知識發(fā)現(xiàn)服務(wù);美國大自然保護(hù)協(xié)會凝練了全球發(fā)展對大自然影響的若干知識點(diǎn),并與遙感影像、地表覆蓋等數(shù)據(jù)有機(jī)鏈接,形成了具有初步知識導(dǎo)航功能的“人類世”知識地圖服務(wù)[2]。
不難看出,從數(shù)據(jù)中心到知識中心,以知識服務(wù)拓展數(shù)據(jù)服務(wù),正成為當(dāng)今各國政府管理支撐部門的新的業(yè)務(wù)發(fā)展方向。但總體而言,時(shí)空知識中心的建設(shè)還處在起步探索階段,尚未形成成熟的體系框架、關(guān)鍵技術(shù)、標(biāo)準(zhǔn)規(guī)范和服務(wù)模式,無法為我國測繪行業(yè)智能化轉(zhuǎn)型升級提供成熟的解決方案。
綜上,將傳統(tǒng)的地理信息服務(wù)拓展到時(shí)空知識服務(wù),完成從數(shù)據(jù)量測到信息提取再到知識挖掘的三級跨越,需要建立以時(shí)空數(shù)據(jù)庫為基礎(chǔ),以序列化知識工程為支撐,以時(shí)空知識庫為樞紐,以知識導(dǎo)航為門戶的時(shí)空知識中心[2,14]。時(shí)空知識中心基本組成包括時(shí)空數(shù)據(jù)庫、知識生產(chǎn)、時(shí)空知識庫、知識服務(wù)等。圖1給出了構(gòu)造時(shí)空知識中心的技術(shù)框架。
圖1 時(shí)空知識中心技術(shù)框架Fig.1 Technical framework of spatiotemporal knowledge center
1.2.1 時(shí)空數(shù)據(jù)庫
泛在測繪是智能化測繪階段時(shí)空數(shù)據(jù)的主要來源[3]。其產(chǎn)品除了測繪行業(yè)生產(chǎn)的基礎(chǔ)測繪、國情監(jiān)測、全球測圖等時(shí)空數(shù)據(jù),還包括系統(tǒng)內(nèi)采用測繪技術(shù)生產(chǎn)的國土調(diào)查、林草、濕地、地表基質(zhì)、水資源等調(diào)查監(jiān)測數(shù)據(jù),從泛在網(wǎng)絡(luò)獲取的動態(tài)的時(shí)空大數(shù)據(jù),以及從其他部門共享的人口、經(jīng)濟(jì)等行業(yè)時(shí)空數(shù)據(jù)等。數(shù)據(jù)生產(chǎn)的主體包括測繪、地質(zhì)、國土、林草、海洋、統(tǒng)計(jì)等行業(yè)數(shù)據(jù)生產(chǎn)部門;數(shù)據(jù)消費(fèi)者主要包括政府部門、企事業(yè)單位和研究機(jī)構(gòu)等;數(shù)據(jù)的管理者為數(shù)據(jù)生產(chǎn)的行業(yè)管理部門,負(fù)責(zé)制定數(shù)據(jù)分發(fā)、安全、共享等政策。這里由數(shù)據(jù)生產(chǎn)者、數(shù)據(jù)使用者、數(shù)據(jù)管理者及外部相關(guān)安全環(huán)境、技術(shù)環(huán)境、經(jīng)濟(jì)環(huán)境、發(fā)展環(huán)境等,共同構(gòu)成互為補(bǔ)充、互相關(guān)聯(lián)、互相制約、分建共享、持續(xù)更新的自然資源時(shí)空數(shù)據(jù)生態(tài)(圖2)[15-16]。時(shí)空數(shù)據(jù)是管理者、生產(chǎn)者、消費(fèi)者之間流動的“能量”,是整個(gè)數(shù)據(jù)生態(tài)系統(tǒng)價(jià)值實(shí)現(xiàn)的核心支撐,其“產(chǎn)生—利用—更新—再生”的整個(gè)生命周期就構(gòu)成了“時(shí)空數(shù)據(jù)鏈”。由不同時(shí)態(tài)的“時(shí)空數(shù)據(jù)鏈”中的數(shù)據(jù)匯集和管理,并提供統(tǒng)一的數(shù)據(jù)存儲和訪問服務(wù),稱為“時(shí)空數(shù)據(jù)庫”[15-17],它是支撐數(shù)據(jù)生態(tài)健康運(yùn)轉(zhuǎn)的核心,也是時(shí)空知識中心的知識創(chuàng)造的基礎(chǔ)。
圖2 時(shí)空數(shù)據(jù)生態(tài)Fig.2 Spatiotemporal data ecology
1.2.2 時(shí)空知識庫
時(shí)空知識庫是在時(shí)空數(shù)據(jù)庫之上通過知識抽取、空間或非空間關(guān)聯(lián),形成領(lǐng)域知識網(wǎng)絡(luò),基于語義推理和空間計(jì)算,實(shí)現(xiàn)知識重組,為用戶提供時(shí)空知識服務(wù)[18]。時(shí)空知識庫針對抽取或收集的每一類時(shí)空知識,厘清其內(nèi)涵、來源和用途,進(jìn)行詳細(xì)的粒度劃分,有效地揭示和形式化描述領(lǐng)域的概念、實(shí)體、屬性及其相互關(guān)系,構(gòu)成時(shí)空知識圖譜[8,19]。知識庫在邏輯上分為概念層與實(shí)例層兩個(gè)層次[20]。概念層為實(shí)體類型賦予層級結(jié)構(gòu),一般使用本體庫的公理、規(guī)則和約束條件規(guī)范實(shí)體類別及類別間關(guān)系,如國家、城市、河流等都是地理概念。實(shí)例層即實(shí)體形成的語義網(wǎng)絡(luò),以事實(shí)(facts)為單位進(jìn)行存儲。事實(shí)可以RDF三元組〈主體(subject),謂詞(predicate),客體(object)〉的形式表示。關(guān)系可定義在實(shí)體與實(shí)體間、概念與概念間以及實(shí)體與概念間,包括語義關(guān)系、空間關(guān)系和時(shí)間關(guān)系??臻g關(guān)系可分為拓?fù)潢P(guān)系、方向關(guān)系及距離關(guān)系。時(shí)間關(guān)系用于描述時(shí)變特征較為明顯的各類地理現(xiàn)象,如地理事件中實(shí)體間關(guān)系隨時(shí)間動態(tài)變化[21]。
1.2.3 時(shí)空知識生產(chǎn)
不同于普通意義上的知識生產(chǎn),時(shí)空知識生產(chǎn)是時(shí)空知識獲取、處理和表達(dá)的過程[22-23],一般依托于知識工程來完成,其核心部分包括知識的獲取、知識的表達(dá)和知識的運(yùn)用[24]。本文將知識生產(chǎn)劃分為領(lǐng)域知識建模、知識抽取、知識融合和知識表達(dá)4個(gè)部分,實(shí)現(xiàn)從知識加工、知識圖譜構(gòu)建到知識表達(dá)的深度序化。
領(lǐng)域知識建模是在專家指導(dǎo)下,基于多源知識進(jìn)行結(jié)構(gòu)化建模和關(guān)聯(lián)化處理,構(gòu)建領(lǐng)域本體模型,目的是實(shí)現(xiàn)實(shí)體、屬性、關(guān)系的有序聚合,指導(dǎo)領(lǐng)域時(shí)空知識的抽取。時(shí)空知識建模除了用到語義關(guān)系,也要充分考慮時(shí)間和空間關(guān)系。實(shí)際上,基于多層級的行政區(qū)劃進(jìn)行時(shí)空知識建模,逐步成為空間型知識圖譜構(gòu)建的通用做法。
知識抽取是指將蘊(yùn)含于信息源中的知識經(jīng)過分析、識別、理解、篩選、關(guān)聯(lián)、歸納等過程抽取出來,形成知識點(diǎn)存入到知識庫[25]。與傳統(tǒng)的文本知識不同,時(shí)空知識抽取除了從結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中抽取地理實(shí)體及其概念、語義、關(guān)系和屬性,還需利用空間分析、知識挖掘、深度學(xué)習(xí)等技術(shù),從二維或三維空間數(shù)據(jù)中發(fā)現(xiàn)隱含的地理實(shí)體分布格局、空間關(guān)聯(lián)、空間關(guān)系、時(shí)空演化等過程性知識[25-29]。
知識融合旨在消除實(shí)體、關(guān)系、屬性等指稱項(xiàng)與事實(shí)對象之間的歧義,形成高質(zhì)量的知識庫[30]。從多源異構(gòu)文本中獲取的知識,存在大量的數(shù)據(jù)冗余和空間或邏輯不一致性問題,需要借助實(shí)體鏈接、本體對齊、實(shí)體匹配、屬性空間化等技術(shù)進(jìn)行知識融合[31]。在知識融合前,應(yīng)當(dāng)進(jìn)行知識歸一化處理,清洗、規(guī)范知識表達(dá)。然后,通過語義相似度計(jì)算和實(shí)體相似度計(jì)算記錄實(shí)體鏈接。經(jīng)過知識驗(yàn)證,進(jìn)行概念、屬性、實(shí)例層次的語義對齊,達(dá)到知識融合的目的。
在計(jì)算機(jī)領(lǐng)域,知識表達(dá)是知識組織的基礎(chǔ),用于知識客體中的知識因子與知識關(guān)聯(lián)[32]。不同于計(jì)算機(jī)領(lǐng)域?qū)χR表達(dá)的定義,時(shí)空知識表達(dá)應(yīng)當(dāng)從時(shí)空的視角,將隱性知識同地圖表達(dá)相結(jié)合,形成靜態(tài)表達(dá)、動態(tài)表達(dá)以及交互式表達(dá)等模式,直觀地反映格局差異、趨勢特征、成因機(jī)理等系統(tǒng)性知識,便于人們識別和理解知識。
1.2.4 時(shí)空知識服務(wù)
時(shí)空知識產(chǎn)品包括行業(yè)概念知識(例如測繪學(xué)敘詞表、測繪學(xué)名詞等)、文獻(xiàn)知識等存量知識,以及診斷型知識、方案型知識、預(yù)測型知識等通過動態(tài)知識計(jì)算挖掘形成的增量知識[33],另外還包括提供機(jī)器學(xué)習(xí)的數(shù)據(jù)標(biāo)注知識等。時(shí)空知識服務(wù)是在時(shí)空知識分類基礎(chǔ)上,根據(jù)地理知識字典、專業(yè)詞條以及地理標(biāo)簽,構(gòu)建專題導(dǎo)航、數(shù)據(jù)導(dǎo)航和知識導(dǎo)航,實(shí)現(xiàn)對時(shí)空數(shù)據(jù)庫及其資源和服務(wù)分布的導(dǎo)引和深度搜索。同時(shí),面向時(shí)空知識的應(yīng)用需求,構(gòu)建描述型、診斷型、預(yù)測型、方案型等知識應(yīng)用服務(wù)。在此基礎(chǔ)上,建立時(shí)空知識服務(wù)門戶網(wǎng)站,為用戶提供應(yīng)需提供知識瀏覽、搜索、問答、推薦及特色知識應(yīng)用等時(shí)空知識服務(wù)。
時(shí)間、空間是地理實(shí)體(自然資源)存在的兩種基本形式,是時(shí)空數(shù)據(jù)的基本屬性[22]。與一般的信息中心和知識中心不同,時(shí)空知識中心側(cè)重于時(shí)間、空間、語義概念建模,實(shí)現(xiàn)對時(shí)空知識的有效組織和管理。從空間角度來看,時(shí)空知識中心通過對地理實(shí)體進(jìn)行空間維度的計(jì)算、分析和推理,挖掘地理實(shí)體本質(zhì)特征、內(nèi)在規(guī)律、分布格局、空間變化等知識。從時(shí)間角度分析,時(shí)空知識中心通過時(shí)間感知數(shù)據(jù),展現(xiàn)地理實(shí)體的變化軌跡,揭示其內(nèi)在變化規(guī)律,實(shí)現(xiàn)對地理現(xiàn)象成因、現(xiàn)狀、趨勢等因果關(guān)聯(lián)的一體化描述。概括起來,時(shí)空知識中心一般具有以下技術(shù)特征:
(1) 在產(chǎn)品內(nèi)容上,除了傳統(tǒng)的基礎(chǔ)地理信息數(shù)據(jù)和信息,還包括自然資源精準(zhǔn)決策和智慧管控所需要的時(shí)空知識以及為特定決策類型提供的時(shí)空知識應(yīng)用等。
(2) 在生產(chǎn)方式上,拓展了“信息中心”的生產(chǎn)鏈條,需要面向工程應(yīng)用建立全時(shí)空數(shù)據(jù)生態(tài),突破時(shí)空知識抽取與凝練、建模與關(guān)聯(lián)、知識圖譜構(gòu)建與表達(dá)、知識推理與服務(wù)等關(guān)鍵技術(shù),形成必備的標(biāo)準(zhǔn)、軟件、平臺和裝備,支撐時(shí)空知識中心數(shù)據(jù)清洗、知識抽取、關(guān)聯(lián)挖掘等知識創(chuàng)造活動,實(shí)現(xiàn)從空間數(shù)據(jù)庫到時(shí)空知識庫升級。
(3) 在服務(wù)模式上,從柜臺式數(shù)據(jù)服務(wù)走向網(wǎng)絡(luò)化知識服務(wù);從被動式“申請-審核-提供”轉(zhuǎn)向主動式應(yīng)需精準(zhǔn)推送;從作為原材料的數(shù)據(jù)支撐轉(zhuǎn)向經(jīng)過提取與精化的時(shí)空知識高效賦能。
本文提出了適于時(shí)空知識中心構(gòu)建的技術(shù)和方法,結(jié)合地理信息專業(yè)知識服務(wù)系統(tǒng)建設(shè)實(shí)踐進(jìn)行驗(yàn)證,形成了以知識工程序列化操作為核心,涵蓋時(shí)空數(shù)據(jù)庫構(gòu)建、時(shí)空知識庫構(gòu)建、知識服務(wù)平臺構(gòu)建等全流程的時(shí)空知識中心主體實(shí)現(xiàn)方法,如圖3所示。
圖3 時(shí)空知識中心構(gòu)建的主體實(shí)現(xiàn)方法Fig.3 The main body realization method of spatiotemporal knowledge center construction
支撐時(shí)空知識中心的時(shí)空數(shù)據(jù)庫,不僅包括多時(shí)態(tài)、多粒度、多尺度、多維度的時(shí)空數(shù)據(jù),也包括多種類型的文本數(shù)據(jù)(測繪專業(yè)敘詞表、專題數(shù)據(jù)、文獻(xiàn)專利等)。這就需要針對空間數(shù)據(jù)和非空間數(shù)據(jù)提供一體化的存儲策略和多源異構(gòu)數(shù)據(jù)的統(tǒng)一管理方法,解決數(shù)據(jù)冗余與不一致的問題[34]。針對非空間數(shù)據(jù),通過空間化融合,添加地理標(biāo)簽,建立空間索引,將自然語言描述轉(zhuǎn)換為空間查詢謂詞,與空間數(shù)據(jù)關(guān)聯(lián),實(shí)現(xiàn)支持人機(jī)交互的非空間數(shù)據(jù)與空間信息的關(guān)聯(lián)索引和查詢。例如科技文獻(xiàn)中出現(xiàn)的地名、研究區(qū)等信息,建立索引后與該區(qū)域相關(guān)的地形、影像數(shù)據(jù)關(guān)聯(lián),構(gòu)造基于空間知識圖譜的數(shù)據(jù)推薦功能。時(shí)空數(shù)據(jù)庫兼具存量數(shù)據(jù)和增量數(shù)據(jù),保證了時(shí)空知識的鮮活性,同時(shí)也對海量數(shù)據(jù)的動態(tài)處理提出了挑戰(zhàn),采用高性能基礎(chǔ)設(shè)施(spark、hadoop等)支持的分布式批處理和流計(jì)算能力,建立半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù)的清洗、分詞、空間化、標(biāo)準(zhǔn)化、一致性等一系列數(shù)據(jù)處理模型和算法,為實(shí)體抽取和關(guān)系建立提供基礎(chǔ)數(shù)據(jù)。
時(shí)空知識庫構(gòu)建的基本流程可分為領(lǐng)域知識建模、知識抽取、知識融合3部分,如圖4所示。首先,在專家指導(dǎo)下基于多源知識建立領(lǐng)域本體模型,確定實(shí)體及其屬性、關(guān)系等,形成拓展時(shí)間和空間維度的地理空間知識圖譜的框架;然后,對非空間數(shù)據(jù)和知識進(jìn)行空間化處理,與相應(yīng)的空間數(shù)據(jù)進(jìn)行關(guān)聯(lián)掛接;最后,面向應(yīng)用需求,基于空間化的數(shù)據(jù)和知識,進(jìn)行時(shí)空知識抽取與融合,形成時(shí)空知識圖譜[25,31]。
圖4 時(shí)空知識庫構(gòu)建流程Fig.4 Construction progress of spatiotemporal base
利用本體對時(shí)空知識相關(guān)概念、實(shí)體、關(guān)系進(jìn)行語義表達(dá)是領(lǐng)域知識建模的核心。時(shí)空知識中心知識庫的構(gòu)建應(yīng)在地理本體的基礎(chǔ)上,為時(shí)空知識庫添加位置本體和時(shí)間本體,以更好地反映地理實(shí)體所涉及的時(shí)間屬性和空間屬性。按照應(yīng)用需求從時(shí)空數(shù)據(jù)中提取、挖掘可獲取有特定意義的信息,而后通過結(jié)構(gòu)化、關(guān)聯(lián)化處理形成領(lǐng)域知識體系[2]。
知識抽取除了要從結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化文本數(shù)據(jù)中進(jìn)行實(shí)體抽取、屬性抽取和關(guān)系抽取,還需要從空間數(shù)據(jù)中挖掘地理實(shí)體及其語義關(guān)系、地理屬性、空間關(guān)系和時(shí)間關(guān)系等。針對多源異構(gòu)數(shù)據(jù)存在大量的數(shù)據(jù)冗余和不一致性問題,采用語義支持的文本知識抽取方法和基于深度學(xué)習(xí)的空間數(shù)據(jù)挖掘技術(shù),進(jìn)行數(shù)據(jù)清洗以及知識提取。本文設(shè)計(jì)并實(shí)現(xiàn)了海量文獻(xiàn)元數(shù)據(jù)清洗、基于語義對齊的地理實(shí)體抽取、基于敘詞與詞向量的測繪概念模型構(gòu)建、基于深度學(xué)習(xí)的地圖高精度提取、基于時(shí)序影像的地表分類信息提取等關(guān)鍵技術(shù)方法,開發(fā)了機(jī)構(gòu)空間化眾包采集工具,從而實(shí)現(xiàn)知識的標(biāo)準(zhǔn)化清洗、結(jié)構(gòu)化提取與關(guān)聯(lián)化處理。
對于提取出的知識,采用本體對齊、實(shí)體匹配、實(shí)體自動鏈接等跨領(lǐng)域知識融合技術(shù),實(shí)現(xiàn)時(shí)空知識融合。針對傳統(tǒng)實(shí)體消歧法存在的有效信息利用不足、精度低等問題,本文提出一種基于凝聚子群原理的實(shí)體消歧方法,通過K-核塌縮序列分析將實(shí)體消歧算法計(jì)算范圍從社區(qū)尺度縮小到兩個(gè)待消歧實(shí)體節(jié)點(diǎn)間的K-最短路徑子網(wǎng),極大地提高了計(jì)算效率,并通過在子網(wǎng)中提取凝聚子群來實(shí)現(xiàn)同名實(shí)體的快速消歧,提高實(shí)體消歧的準(zhǔn)確性(圖5)。將融合后得到的時(shí)空知識,構(gòu)建知識圖譜,納入可執(zhí)行的計(jì)算模型中,便于時(shí)空知識的快速獲取、推理與利用。本文針對時(shí)空知識中心的應(yīng)用需求,構(gòu)建了測繪專業(yè)知識庫、山水林田湖草知識庫、行政區(qū)劃知識庫以及專家關(guān)系知識庫等。
圖5 基于凝聚子群原理的實(shí)體消歧方法Fig.5 Entity disambiguation method based on agglomerative subgroup principle
時(shí)空知識平臺兼具宏觀和微觀特點(diǎn),需快速回答何時(shí)、何地、何事、何因等問題。但目前的知識服務(wù)體系存在效率不高、深度不夠等問題,難以充分滿足工作需要。需要基于領(lǐng)域本體、科學(xué)文獻(xiàn)、研究報(bào)告、業(yè)務(wù)邏輯和標(biāo)準(zhǔn)規(guī)范等,構(gòu)建多學(xué)科領(lǐng)域知識模型;設(shè)計(jì)兼顧非空間和空間型一體化知識圖譜,實(shí)現(xiàn)對時(shí)空知識的一體化、系統(tǒng)化、關(guān)聯(lián)化、結(jié)構(gòu)化存儲和表達(dá);設(shè)計(jì)時(shí)空知識關(guān)聯(lián)、知識推理、知識表達(dá)等算法,建立基于云原生的“縱向貫通、橫向聯(lián)動、整體協(xié)同”的時(shí)空知識服務(wù)平臺。開展面向管理與決策的時(shí)空知識深度挖掘與格局認(rèn)知、變化模擬、診斷分析等知識應(yīng)用開發(fā),提供科學(xué)合理的現(xiàn)狀型、目標(biāo)型、方案型與診斷型在線知識服務(wù)。
自2015年起,國家基礎(chǔ)地理信息中心承擔(dān)了中國工程院地理信息專業(yè)知識分中心的建設(shè)工作。經(jīng)過多年的努力,突破了多項(xiàng)時(shí)空知識智能化抽取、空間型知識圖譜動態(tài)構(gòu)建等關(guān)鍵技術(shù),建成并上線運(yùn)行了地理信息專業(yè)知識服務(wù)系統(tǒng),逐步形成了以時(shí)空知識關(guān)聯(lián)、推理、應(yīng)用等為代表的新的服務(wù)模式,初步建立了以時(shí)空知識為主要服務(wù)內(nèi)容的地理信息專業(yè)知識中心,面向領(lǐng)域應(yīng)用需求,提供描述型、診斷型、預(yù)測型、方案型等4種類型的知識服務(wù)(圖6)。自2017年上線以來,地理信息專業(yè)知識服務(wù)系統(tǒng)年度訪問量達(dá)到百萬次,用戶達(dá)80余萬人。
圖6 地理信息專業(yè)知識服務(wù)系統(tǒng)主要功能結(jié)構(gòu)Fig.6 Main function diagram of geographic information professional knowledge service system
根據(jù)平臺建設(shè)需求,收集處理了全球1∶100萬矢量數(shù)據(jù)、全國1∶25萬公開版矢量數(shù)據(jù)、3期全球30 m地表覆蓋數(shù)據(jù)等地理信息數(shù)據(jù),集成天地圖、百度地圖等互聯(lián)網(wǎng)地圖服務(wù);對6000萬條文獻(xiàn)元數(shù)據(jù)進(jìn)行清洗、處理,將機(jī)構(gòu)字段進(jìn)行翻譯、分詞、判斷、標(biāo)準(zhǔn)化,消除冗余信息,對數(shù)據(jù)進(jìn)行符號分析、語義分析及規(guī)則分析,得到機(jī)構(gòu)抽取規(guī)則,形成標(biāo)準(zhǔn)化機(jī)構(gòu)字段,提取出150萬條機(jī)構(gòu)信息,基于研制的機(jī)構(gòu)眾包空間化平臺,將提取的機(jī)構(gòu)信息與地理信息數(shù)據(jù)的地名地址信息進(jìn)行語義匹配,完成150萬條機(jī)構(gòu)信息的空間化處理,進(jìn)而實(shí)現(xiàn)6000萬條文獻(xiàn)及其作者的空間化,建立了融地理信息數(shù)據(jù)和文獻(xiàn)數(shù)據(jù)于一體的專題空間數(shù)據(jù)庫。
面向知識應(yīng)用需求,研制了專家關(guān)系抽取、機(jī)構(gòu)關(guān)系動態(tài)計(jì)算、研究區(qū)時(shí)空數(shù)據(jù)關(guān)聯(lián)等知識抽取算法。如針對專家關(guān)系提取,設(shè)計(jì)并實(shí)現(xiàn)了作者、機(jī)構(gòu)映射關(guān)系計(jì)算方法,提取初步的作者-機(jī)構(gòu)關(guān)系,通過實(shí)體消歧合并機(jī)構(gòu)同類項(xiàng),采用余弦相似度算法進(jìn)行關(guān)系去重,進(jìn)而構(gòu)建交叉組合關(guān)系,對多作者多機(jī)構(gòu)進(jìn)行迭代提取。最后,對數(shù)據(jù)進(jìn)行校驗(yàn)處理,得到精確的作者-機(jī)構(gòu)關(guān)系,據(jù)此挖掘?qū)<议g的學(xué)術(shù)合作關(guān)系,實(shí)現(xiàn)面向研究主題的專家關(guān)系自動聚合和表達(dá),在空間維度展示專家間的關(guān)聯(lián)關(guān)系等。
研制了空間型知識圖譜構(gòu)建方法,實(shí)現(xiàn)空間數(shù)據(jù)和時(shí)空知識的一體化存儲和表達(dá)。如基于空間化的全國省、市、縣、鄉(xiāng)四級行政區(qū)劃知識,關(guān)聯(lián)地理底圖以及地表覆蓋數(shù)據(jù),構(gòu)建地理實(shí)體與屬性知識的混合關(guān)聯(lián)模型,形成了具有系統(tǒng)性、關(guān)聯(lián)性的行政區(qū)劃知識圖譜。從空間維度展示省、市、縣、鄉(xiāng)之間的關(guān)聯(lián)關(guān)系和空間分布,在地圖上直觀展示各個(gè)行政區(qū)域?qū)嶓w相關(guān)的知識,包括地表覆蓋、歷史沿革、著名人物、交通運(yùn)輸、人口民族、名優(yōu)特產(chǎn)、風(fēng)景名勝、自然資源、社會事業(yè)等專題知識,為用戶提供直觀、全面的行政區(qū)劃知識服務(wù)。
基于專題時(shí)空知識庫,先后開發(fā)了數(shù)據(jù)推薦、專家關(guān)系網(wǎng)、機(jī)構(gòu)關(guān)系網(wǎng)等14個(gè)知識應(yīng)用。在基于專家知識和深度學(xué)習(xí)的混合智能計(jì)算方面做了初步嘗試,研制了“問題地圖”智能辨識等診斷型知識服務(wù)(圖7)。針對“問題地圖”檢測速度慢、勞動強(qiáng)度大的問題,利用審圖專家凝煉出來的版圖知識和“問題地圖”的有關(guān)判定規(guī)則,提出并實(shí)現(xiàn)了多網(wǎng)絡(luò)融合的多尺度“錯(cuò)誤地圖”的智能檢測方法,實(shí)現(xiàn)了海量圖片中地圖圖片自動篩選、地圖錯(cuò)誤智能檢測與標(biāo)識,識別正確率達(dá)到80%以上[35]。
圖7 基于深度學(xué)習(xí)的“問題地圖”診斷流程Fig.7 Flow chart of “problem map” diagnosis based on deep learning
面向“兩服務(wù),兩支撐”的基本定位,測繪地理信息部門應(yīng)抓住這一跨界融合和轉(zhuǎn)型升級的機(jī)遇,適時(shí)建立以時(shí)空數(shù)據(jù)為支撐、以時(shí)空知識為核心的數(shù)據(jù)治理模式,逐步從數(shù)據(jù)信息中心走向信息知識中心,將數(shù)據(jù)信息服務(wù)提升為信息知識服務(wù),以適應(yīng)經(jīng)濟(jì)社會發(fā)展和自然資源“兩統(tǒng)一”管理對時(shí)空知識服務(wù)的迫切需求。
就目前狀況而言,構(gòu)建時(shí)空知識中心,實(shí)現(xiàn)從數(shù)據(jù)生產(chǎn)到知識創(chuàng)造的跨越,對測繪地理信息部門仍是一項(xiàng)巨大的挑戰(zhàn),還需要大量引進(jìn)計(jì)算機(jī)、人工智能和知識工程領(lǐng)域的人才,進(jìn)行跨界融合,解決人才培養(yǎng)、知識儲備、核心技術(shù)等短板問題。在此基礎(chǔ)上,建立自然資源全時(shí)空數(shù)據(jù)生態(tài),突破時(shí)空知識抽取與凝練、建模與關(guān)聯(lián)、知識圖譜構(gòu)建與表達(dá)、知識推理與服務(wù)等在關(guān)鍵技術(shù),形成必備的標(biāo)準(zhǔn)、軟件、平臺、裝備和完善的運(yùn)行機(jī)制,支撐時(shí)空知識中心的建設(shè)和高效運(yùn)轉(zhuǎn),為自然資源及相關(guān)領(lǐng)域精準(zhǔn)決策和智慧管控提供高質(zhì)量的知識賦能服務(wù)。
未來,隨著人工智能、大數(shù)據(jù)、物聯(lián)網(wǎng)等信息技術(shù)的發(fā)展,時(shí)空知識中心的內(nèi)涵、外延及服務(wù)的對象和范圍也會進(jìn)一步充實(shí)和拓展,不僅可為人類決策提供高效、精準(zhǔn)的時(shí)空知識服務(wù),還可為智能機(jī)器人提供按需“充電”,成為智能設(shè)備的時(shí)空知識“充電站”,從而實(shí)現(xiàn)知識賦能,更好地為人類提供各種服務(wù)。時(shí)空知識中心必將在智能化測繪、智慧城市及智能駕駛等領(lǐng)域發(fā)揮越來越重要的支撐作用。