霍 崢,武彥斌,田俊平,周亞鵬
(1. 河北經(jīng)貿(mào)大學 信息技術(shù)學院,河北 石家莊 050061;2. 河北經(jīng)貿(mào)大學 管理科學與工程學院,河北 石家莊050061;3. 河北經(jīng)貿(mào)大學 經(jīng)濟地理信息大數(shù)據(jù)平臺,河北 石家莊 050061;4.河北農(nóng)業(yè)大學 國土資源學院,河北 保定 071001;)
土壤環(huán)境質(zhì)量數(shù)據(jù)是描述土壤特性、質(zhì)量與影響土壤環(huán)境因素相關(guān)的大量數(shù)據(jù)的集合。土壤環(huán)境質(zhì)量數(shù)據(jù)來源多樣且結(jié)構(gòu)各異,涵蓋了環(huán)保、國土資源、農(nóng)業(yè)、林業(yè)、工業(yè)、統(tǒng)計等部門的數(shù)據(jù)[1]。割裂存儲的土壤環(huán)境數(shù)據(jù)不能很好地描述土壤環(huán)境的全面特征,無法對融合空間關(guān)系的土壤環(huán)境數(shù)據(jù)做快速地智能檢索,無法對土壤污染成因進行溯源,更不能跨行業(yè)的全面協(xié)同的治理土壤環(huán)境污染。土壤污染數(shù)據(jù)變動較慢,波動很小,直接的感官判斷幾乎難以實現(xiàn),也難以進行自動在線監(jiān)測[2]。此外,土壤污染數(shù)據(jù)人工采樣檢測的成本也很高,融合大量土壤污染檢測數(shù)據(jù)能夠節(jié)約土壤污染管控的成本。針對上述問題,本文利用知識圖譜技術(shù)將土壤污染數(shù)據(jù)進行數(shù)據(jù)融合,提出多源異構(gòu)土壤環(huán)境數(shù)據(jù)融合與知識圖譜構(gòu)建,即,將割裂的土壤污染相關(guān)數(shù)據(jù)合并在一起,消除數(shù)據(jù)間沖突,形成某個區(qū)域土壤污染的優(yōu)質(zhì)全面數(shù)據(jù)。
早在上世紀80年代,研究者就開始了對土壤數(shù)據(jù)的研究,嘗試構(gòu)建中國土壤數(shù)據(jù)庫[4]。90年代初期,中國科學院沈陽應用生態(tài)研究所建立了區(qū)域土壤信息系統(tǒng)[3]。本世紀初,中國科學院南京土壤研究所提出了“數(shù)字土壤”的概念[4],標志著我國土壤數(shù)據(jù)研究的新階段。近幾年,有研究者構(gòu)建了大規(guī)模土壤環(huán)境質(zhì)量數(shù)據(jù)庫[5], 研究了土壤環(huán)境質(zhì)量數(shù)據(jù)庫的編碼設(shè)計和數(shù)據(jù)形式,存儲了各個采樣點的監(jiān)測數(shù)據(jù)。然而,在土壤環(huán)境質(zhì)量數(shù)據(jù)中,采樣點/檢測區(qū)的數(shù)據(jù)種類繁多,涉及到重金屬污染、有機物污染、農(nóng)藥化肥施用量等,查詢時需要依據(jù)采樣點編碼進行連接操作,效率低下。此外,土壤環(huán)境質(zhì)量數(shù)據(jù)中的采樣點分布不均勻,并不能統(tǒng)一描述某個城市或地區(qū)的土壤環(huán)境特征。而用知識圖譜技術(shù)進行數(shù)據(jù)融合可將各種實體及其屬性值關(guān)聯(lián)起來,并且可以描述各類實體的不同層深,優(yōu)化查詢。與土壤環(huán)境質(zhì)量相關(guān)的知識圖譜的研究已經(jīng)受到許多研究者的關(guān)注[6-9]。所謂土壤污染數(shù)據(jù)知識圖譜,是結(jié)構(gòu)化的土壤污染知識庫,通過形式化的描述土壤污染數(shù)據(jù)中的基本概念、實體、屬性及其相互關(guān)系,構(gòu)成網(wǎng)狀知識結(jié)構(gòu)。這種結(jié)構(gòu)可以存儲實體之間的復雜關(guān)系,能夠?qū)⒎稚⒏盍汛鎯Φ耐寥拉h(huán)境數(shù)據(jù)融合,從而支持對土壤環(huán)境數(shù)據(jù)的智能搜索,全面掌握土壤狀態(tài)的全貌。故,這也是本文聚焦之所在。
土壤污染知識圖譜的構(gòu)建包括概念層的構(gòu)建和數(shù)據(jù)層的構(gòu)建。本試驗采用“自頂向下”的方法構(gòu)建土壤污染知識圖譜[10-11]。首先,利用專家協(xié)作定義知識圖譜的概念層;將采集到的土壤污染數(shù)據(jù)進行數(shù)據(jù)清洗和數(shù)據(jù)預處理,從半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中進行知識抽取,形成三元組數(shù)據(jù);最終形成土壤數(shù)據(jù)的知識圖譜(圖1)。
圖1 土壤污染數(shù)據(jù)知識圖譜構(gòu)建過程Fig.1 Soil pollution knowledge graph construction
土壤污染數(shù)據(jù)知識圖譜數(shù)據(jù)來源多,且數(shù)據(jù)格式多樣。主要包括:基礎(chǔ)地理數(shù)據(jù)、城市統(tǒng)計年鑒、環(huán)境公報、土壤檢測報告及元數(shù)據(jù)[12-14]。土壤環(huán)境數(shù)據(jù)的固有特點,其數(shù)據(jù)沖突主要體現(xiàn)如下:(1) 污染物的名稱記法不統(tǒng)一。以土壤重金屬污染為例,有些數(shù)據(jù)庫中存儲“全銅”含量,有些數(shù)據(jù)庫存儲“Cu”。(2) 污染物的測量單位不統(tǒng)一。一些污染數(shù)據(jù)中,重金屬的污染單位是“g/kg”,而有些污染物存儲單位是“mg/kg”。(3) 不同來源數(shù)據(jù)近鄰區(qū)域同一污染物的數(shù)值不同。以重金屬污染為例,某 個 來 源 的 數(shù) 據(jù) 是E114°41′34.0″至 41′36.3″,N 37°53′19.6″至 53′20.7″,S 0.11 g/kg,同一 或 相 鄰采樣點的數(shù)據(jù)記錄為S 0.22 g/kg。(4) 部分監(jiān)測點某一項土壤環(huán)境數(shù)值為空值的問題。針對問題(1)和(2),統(tǒng)一將污染物用化學符號表示污染物;設(shè)計了土壤污染物的單位轉(zhuǎn)換規(guī)則。在此基礎(chǔ)上,設(shè)計了針對問題(3),(4)的數(shù)據(jù)融合方法。
1.1.1 基于證據(jù)理論的沖突值合并 假設(shè)不同來源同一采樣點的某一污染物x的指標有n個,可表示為P={(p1,t1), (p2,t2),…(pn,tn)},其中,pi表示某污染物的監(jiān)測值,ti表示采樣時間。設(shè)定2個閾值σp和σt分別表示時間差和污染物檢測值之差。假設(shè)ti和tj是2個不同的采樣時間,且tj>ti,則不同來源的2個污染物監(jiān)測值之間可能有下述關(guān)系,如公式(1)所示:
根據(jù)污染物的擴散特征,公式(1)中,(a), (c), (d)是符合數(shù)據(jù)一致性要求的,這種情況下,僅需要用tj時刻的監(jiān)測值替換ti時刻的監(jiān)測值即可。而(b)是違背數(shù)據(jù)一致性的,可見不同的數(shù)據(jù)源的監(jiān)測數(shù)據(jù)產(chǎn)生了沖突,本文采用D-S證據(jù)理論[15-16]將沖突的數(shù)據(jù)融合。
假設(shè)公式(b)中相互沖突的污染物數(shù)據(jù)共有Y個值,則該問題的基本概率分配函數(shù)MASS函數(shù)m可表示如公式(2)所示。
其中,A是1個包含所有污染物取值沖突的集合。根據(jù)MASS函數(shù)m分別計算每個取值的信任函數(shù)和似然函數(shù),其中,B為某個真包含于A的污染物測量值。信任函數(shù)bel( )和似然函數(shù)pl( )由下述公式(3)計算得出。而由信任函數(shù)和似然函數(shù)構(gòu)成的閉區(qū)間[bel(A), pl(A)]就是A取值的置信區(qū)間。
如果需要將多個主體的輸出數(shù)據(jù)相結(jié)合,則需要使用Dempster合成規(guī)則,假設(shè)目前有2個MASS函數(shù),分別表示為m1和m2,則:
其中, 1-K是歸一化系數(shù),K的含義是證據(jù)之間的沖突。
1.1.2 基于克里格插值的空缺值獲取 人工采樣監(jiān)測點成本高昂,土壤采樣監(jiān)測點數(shù)據(jù)分布較稀疏,監(jiān)測點某種污染物的監(jiān)測值缺失。為了獲取無監(jiān)測點區(qū)域的土壤環(huán)境數(shù)據(jù),本文采用插值法對沒有采樣點的區(qū)域進行污染物取值的預測。所謂插值,是指將離散數(shù)據(jù)補插為連續(xù)函數(shù),使得該連續(xù)函數(shù)曲線通過全部數(shù)據(jù)點。插值的原理是根據(jù)有限的離散點取值估算空缺值。克里格插值法是地統(tǒng)計學常用的方法之一,是對空間分布的數(shù)據(jù)求線性最優(yōu)、無偏內(nèi)插估計的1種方法。克里格插值法特別適用在區(qū)域化變量存在空間相關(guān)性的情況下。本試驗在構(gòu)建土壤污染知識圖譜時,采用克里格插值法填充缺失的土壤污染物檢測值。
土壤污染數(shù)據(jù)的融合即包含概念層的融合,也包括實體層的融合。概念層的融合主要是基于土壤環(huán)境數(shù)據(jù)本體知識的擴展,實體層的融合需要用到實體識別、實體關(guān)系抽取等技術(shù)。
1.2.1 領(lǐng)域本體構(gòu)建 本試驗采用介于人工構(gòu)建和自動化構(gòu)建之間的半自動化方法,由領(lǐng)域?qū)<覅f(xié)作和指導,使用Protege本體庫構(gòu)建工具[17]構(gòu)建本體庫,土壤環(huán)境數(shù)據(jù)本體構(gòu)建的類層次如圖2所示。
圖2 本體類層次Fig.2 Ontology class level
本試驗構(gòu)建的最高層次類為概念(Concepts),統(tǒng)稱為土壤污染數(shù)據(jù)本體庫的類。其下層類括位置類(Location)、污染物類(Pollutant)和檢測類(Detection)3個類。其中,位置類又包括地級市/區(qū)(City),區(qū)/縣(District)2個子類;污染物類包括:重金屬污染物(Heavy_Metal)[18]及有機污染物(Organic)[19]2個子類;檢測庫類(Detection)包括采樣點(Detection_Points)和檢測區(qū)(Detection_Area)2個子類。土壤污染知識圖譜構(gòu)建過程中,需要大量的土壤污染檢測報告數(shù)據(jù)。土壤污染檢測報告的格式基本固定,部分檢測報告對某個待檢測區(qū)進行整體評價,依據(jù)不同的布點方式(如,對角線、梅花、棋盤,蛇形)部署多個采樣點,檢測結(jié)果對多個采樣點數(shù)據(jù)進行綜合分析,分析結(jié)果包括某項污染物的最大值/最小值/平均值,及單項污染指數(shù)和綜合污染指數(shù)等。另一類檢測報告對指定的具體采樣點進行檢測,檢測結(jié)果通常是對該采樣點各類污染物的具體結(jié)果進行展示(文字或表格),還包括受測地址、采樣經(jīng)緯度、檢測值等描述性信息。
每個本體類都有與之相關(guān)的影響土壤污染狀況的屬性。如,農(nóng)藥、化肥施用強度,單位GDP氮氧化物排放量,污水排放量等影響土壤污染的因素。上述信息可從各地區(qū)的統(tǒng)計年鑒、環(huán)境公報中抽取得到。最關(guān)鍵的數(shù)據(jù)是土壤污染狀況,在本文的數(shù)據(jù)融合中,考慮2種土壤污染:重金屬污染和有機物污染。其中,重金屬污染主要考慮土壤污染檢測必測的幾種重金屬污染物:鎘(Cd),汞(Hg),鉛(Pb),銅(Cu),鎳(Ni),砷(As),鉻(Cr);有機物污染主要考慮農(nóng)藥殘留污染,如:DDT,六六六(Benzex)、艾氏劑(Aldrin)、狄氏劑(Dieldrin)。污染物的屬性值為檢測值或通過檢測值分析后得到的統(tǒng)計值。圖3展示了土壤污染數(shù)據(jù)知識圖譜的概念層結(jié)構(gòu)。
圖3 土壤污染數(shù)據(jù)概念層Fig.3 Concept layer of soil environmental quality data
1.2.2 實體識別 土壤污染數(shù)據(jù)的融合即包含概念層的融合,也包括實體層的融合。概念層的融合主要是基于土壤環(huán)境數(shù)據(jù)本體知識的擴展,實體層的融合需要用到實體識別、實體關(guān)系抽取等技術(shù)。
在土壤污染數(shù)據(jù)中,依據(jù)數(shù)據(jù)類型的不同采取不同的實體識別方式:城市和區(qū)/縣的實體識別主要從結(jié)構(gòu)化數(shù)據(jù)中抽取得到,如地名庫等,建立數(shù)據(jù)庫中概念與知識圖譜中的實體之間的映射關(guān)系,自動地從結(jié)構(gòu)化數(shù)據(jù)中抽取出諸如城市、區(qū)/縣等實體。并和非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)中的同名實體進行鏈接。對于土壤污染中的非結(jié)構(gòu)化數(shù)據(jù),如土壤污染檢測報告,人工構(gòu)建相應的模版實現(xiàn)知識的抽取,自動地從文本數(shù)據(jù)中抽取匹配的實體名。采樣點/檢測區(qū)進行自動編碼,采用9位編碼方式,其中,第1~6位為我國縣及縣以上行政區(qū)劃代碼,第7~9位為采樣點/檢測區(qū)代碼,從001開始依次編碼。檢測報告格式較固定,從報告的“檢測地址”中可抽取出區(qū)/縣實體,從檢測報告中可抽取出土壤污染物實體。
信息抽取主要包括實體關(guān)系抽取及實體屬性抽取兩部分。土壤污染數(shù)據(jù)中的實體主要包括地級市/區(qū)、區(qū)/縣、采樣點/檢測區(qū)、重金屬污染物、有機污染物幾類。其中,市/區(qū)與區(qū)/縣之間的關(guān)系可從結(jié)構(gòu)化的地名數(shù)據(jù)庫中提取,實現(xiàn)簡單。難點是如何抽取區(qū)/縣與采樣點/檢測區(qū)的關(guān)系,以及采樣點/檢測區(qū)與有機污染物、重金屬污染物的關(guān)系。圖4為知識圖譜部分內(nèi)容示例。
圖4 部分知識圖譜示例圖Fig.4 Part of the knowledge graph
基于土壤污染數(shù)據(jù)的結(jié)構(gòu)與特點,本課題組提出了1種土壤污染數(shù)據(jù)知識圖譜構(gòu)建的方法,從數(shù)據(jù)采集與預處理、本體庫構(gòu)建、實體抽取等內(nèi)容出發(fā),研究了土壤污染數(shù)據(jù)知識圖譜構(gòu)建的關(guān)鍵技術(shù),首次實現(xiàn)了土壤污染數(shù)據(jù)領(lǐng)域的知識圖譜構(gòu)建,為土壤智能管理與土壤污染溯源提供了技術(shù)基礎(chǔ)。本文的研究結(jié)論如下:
(1) 土壤污染數(shù)據(jù)的知識圖譜構(gòu)建需先對多源異構(gòu)的數(shù)據(jù)做預處理。本課題組研究了土壤污染數(shù)據(jù)中的不一致的種類,依據(jù)D-S證據(jù)理論和克里格插值法設(shè)計了消除數(shù)據(jù)不一致的規(guī)則,自動地對土壤污染數(shù)據(jù)進行一致性處理;
(2) 針對土壤污染數(shù)據(jù)中的非結(jié)構(gòu)化數(shù)據(jù)實體抽取,本課題組通過人工構(gòu)建相應的模版,自動地從文本數(shù)據(jù)中抽取匹配的實體名。
(3) 在實體關(guān)系抽取和實體屬性抽取中,本課題組針對檢測報告的固定格式和模版,制定自動抽取實體關(guān)系的規(guī)則,最終構(gòu)成土壤污染領(lǐng)域知識圖譜。
土壤污染數(shù)據(jù)知識圖譜具有很強的可擴展性,可將土壤環(huán)境質(zhì)量數(shù)據(jù)融合到該知識圖譜中,更好地提供智能化服務與土壤污染修復服務。