張秋壘,黃國鑫,王夏暉,畢二平,季國華,陳茜,盧然
1.生態(tài)環(huán)境部環(huán)境規(guī)劃院 2.中國地質(zhì)大學(xué)(北京)水資源與環(huán)境學(xué)院
目前,我國場地土壤和地下水污染風(fēng)險管理正處在初始階段,面臨著場地污染風(fēng)險管控和修復(fù)效果的不確定性較大,精準化、智能化、高效化技術(shù)與管理水平欠缺,治理修復(fù)投入成本高,風(fēng)險管控措施效率低,修復(fù)效果不理想,修復(fù)方案選擇不合理等突出問題[1-2]。
隨著大數(shù)據(jù)技術(shù)在環(huán)境領(lǐng)域應(yīng)用的日益廣泛和環(huán)境海量數(shù)據(jù)的日益增長[3-4],大數(shù)據(jù)技術(shù)與場地環(huán)境管理深度融合提高場地污染風(fēng)險管控與修復(fù)的精準化、智能化、高效化、低成本化成為亟待解決的技術(shù)問題。近年來,案例推理(case-based reasoning,CBR)在機器學(xué)習(xí)和環(huán)境應(yīng)急決策領(lǐng)域得到廣泛研究,如環(huán)境突發(fā)應(yīng)急決策[5-7]、突發(fā)化學(xué)品污染應(yīng)急處置[8]、地震類突發(fā)事件[9]和建筑成本預(yù)測[10]等,其中CBR增強了突發(fā)性環(huán)境污染事件中的快速反應(yīng)能力[11]。CBR是利用過去事件案例中求解問題的經(jīng)驗和方法,結(jié)合新問題的特征進行調(diào)整,從而獲得當前問題求解的一種推理模式,即在求解問題時,從案例庫的源案例中找出相似度高且成功的案例,直接復(fù)用或經(jīng)過調(diào)整、修改后復(fù)用,從而獲得目標案例的解決方法[6,9-13]。但目前,案例推理乃至耦合大數(shù)據(jù)深度挖掘技術(shù)(如機器學(xué)習(xí))在場地土壤和地下水污染風(fēng)險管控與修復(fù)方案推薦方面的研究鮮有報道,可以借鑒的經(jīng)驗有限。
鑒于此,筆者借助大數(shù)據(jù)平臺,通過基于案例推理的結(jié)構(gòu)化層次存儲和搜索技術(shù),基于CBR、K最近鄰算法(K-nearest neighbor,KNN)和層次分析法(analytic hierarchy process,AHP),構(gòu)建風(fēng)險管控與修復(fù)方案推薦系統(tǒng)案例庫,開展場地污染風(fēng)險管控與修復(fù)方案推薦系統(tǒng)的結(jié)構(gòu)設(shè)計和系統(tǒng)開發(fā),實現(xiàn)目標場地案例的風(fēng)險管控與修復(fù)方案推薦,以期為場地污染風(fēng)險管理實踐提供理論依據(jù)和技術(shù)支持。
場地污染風(fēng)險管控與修復(fù)方案推薦系統(tǒng)的目的是將已有的歷史風(fēng)險管控和修復(fù)場地案例(源案例)組成案例庫,總結(jié)與分析案例庫中各源案例的各指標因子,使檢索時能夠快速判定相似度最高的前3個案例,為新污染場地(目標案例)制定風(fēng)險管控與修復(fù)方案提供決策參考。
利用238個污染場地的風(fēng)險管控和修復(fù)案例,考慮區(qū)域自然、經(jīng)濟、社會環(huán)境概況,場地基本情況,特征污染物,污染遷移途徑,敏感目標,風(fēng)險管控和修復(fù)技術(shù)的環(huán)境、經(jīng)濟、社會指標,篩選確定24項場地特征指標,并構(gòu)建三級指標體系(圖1)。其中,特征污染物主要關(guān)注GB 36600—2018《土壤環(huán)境質(zhì)量 建設(shè)用地土壤污染風(fēng)險管控標準(試行)》中的85項污染物。
圖1 場地污染風(fēng)險管控與修復(fù)方案推薦系統(tǒng)的指標體系Fig.1 Index system of site pollution risk control and remediation scheme recommendation system
場地污染風(fēng)險管控與修復(fù)方案推薦流程:首先,對于目標場地經(jīng)過綜合分析生成待解決的問題,進而生成案例特征屬性;其次,遍歷案例庫,計算目標案例與源案例之間的相似度;再次,推薦相似度最高的前3個案例給決策者;最后,將匹配度、相似度最高的源案例的風(fēng)險管控與修復(fù)方案寫入目標案例中,存放于案例庫中間表中,待日后目標案例的其他相關(guān)信息補充完全后,進一步考慮是否將其加入案例庫中。
場地污染風(fēng)險管控與修復(fù)方案推薦系統(tǒng)需包含以下內(nèi)容:1)案例簡介。出現(xiàn)在案例系統(tǒng)展示頁面首頁,介紹案例有關(guān)場地名稱、所在地區(qū)和行業(yè)分類,并提供每個案例的單獨鏈接,顯示案例詳情,如案例風(fēng)險管控與修復(fù)方案信息。2)數(shù)據(jù)管理。進行新案例的輸入、已有案例的編輯和各頁面信息的維護?;A(chǔ)功能包含案例信息的增加、刪除、修改、保存以及數(shù)據(jù)的導(dǎo)入和導(dǎo)出。3)檢索查詢。根據(jù)不同檢索需求,提供模糊查詢、條件查詢??芍苯訌陌咐龓熘蝎@取案例數(shù)據(jù),供查詢的因素有場地名稱、所在地區(qū)、行業(yè)分類等;亦可在目標案例信息輸入頁面選擇輸入24項場地特征指標信息,實現(xiàn)案例之間的相似度查詢。4)結(jié)果展示頁面。在方案推薦頁面,可瀏覽相似度最高的前3個案例,主要顯示源案例的基本情況、污染遷移途徑、敏感受體、風(fēng)險管控與修復(fù)方案以及案例匹配相似度等信息。5)系統(tǒng)設(shè)置。用于系統(tǒng)用戶登錄與權(quán)限的管理、個人信息維護等。
圖2 場地污染風(fēng)險管控與修復(fù)方案 推薦系統(tǒng)的層次結(jié)構(gòu)示意Fig.2 Hierarchical structure of site pollution risk control and remediation scheme recommendation system
根據(jù)數(shù)據(jù)需求分析,場地污染風(fēng)險管控與修復(fù)方案推薦系統(tǒng)應(yīng)包括基礎(chǔ)信息數(shù)據(jù)庫、PostgreSQL數(shù)據(jù)庫、HBase數(shù)據(jù)庫和Impala數(shù)據(jù)倉庫。其中,基礎(chǔ)信息數(shù)據(jù)庫是由從案例的地塊調(diào)查、風(fēng)險評估、風(fēng)險管控或修復(fù)以及效果評估報告中獲取的場地概況、污染源、污染物遷移途徑、敏感受體、風(fēng)險管控與修復(fù)技術(shù)、風(fēng)險管控與修復(fù)方案、實施效果等方面的225個信息項匯總而成;HBase數(shù)據(jù)庫用于存儲基礎(chǔ)信息數(shù)據(jù)庫中案例的全部基礎(chǔ)信息,包括結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù);PostgreSQL作為地理數(shù)據(jù)庫存儲案例名稱和經(jīng)緯度坐標相關(guān)信息,用作統(tǒng)計分析與展示;Impala數(shù)據(jù)倉庫提供數(shù)據(jù)分析與挖掘功能,為場地污染風(fēng)險管控與修復(fù)方案推薦系統(tǒng)提供數(shù)據(jù)分析和邏輯計算支持。
基礎(chǔ)信息數(shù)據(jù)庫主要用于對案例的搜索、查詢、增加、刪減和修改,是整個系統(tǒng)平臺的基礎(chǔ)數(shù)據(jù)庫。通過對案例信息的分析,可以獲得統(tǒng)計性的結(jié)論和規(guī)律。為此,案例中信息的儲存方式顯得極其重要。本研究中案例記錄的信息主要通過數(shù)據(jù)和描述性語言2個方面來儲存。案例庫信息如表1所示。
表1 案例庫信息
案例表現(xiàn)部分包括源案例的大數(shù)據(jù)信息查詢和案例信息的描述。該模塊中每個案例包括場地概況、污染源、污染物遷移途徑、敏感受體、風(fēng)險管控與修復(fù)技術(shù)、風(fēng)險管控與修復(fù)方案、實施效果等方面的225個信息項,同時該模塊也有新案例信息導(dǎo)入功能。案例展示和單個案例詳情展示頁面分別見圖3和圖4。
圖3 場地污染風(fēng)險管控與修復(fù)方案案例展示頁面Fig.3 Case display page of site pollution risk control and remediation scheme
圖4 場地污染風(fēng)險管控與修復(fù)方案單個案例詳情展示頁面Fig.4 Detailed case display page of site pollution risk control and remediation scheme
在案例的信息描述中對案例進行編碼,確保檢索系統(tǒng)能夠高效、精準、快速地進行檢索。該模塊還具有新案例的輸入,已有案例的編輯、添加、刪除及導(dǎo)入與導(dǎo)出功能。
2.2.1案例檢索系統(tǒng)
案例推理的核心是案例的檢索系統(tǒng)。將案例檢索功能分為2種:1)通過對案例的主要信息(如企業(yè)名稱、所在地區(qū)和行業(yè)分類)進行單項或多項混合查詢,輸出匹配的查詢結(jié)果;2)采用24個場地特征指標進行相似度計算,得出與目標案例相似度高的前3個案例。
圖5 場地污染風(fēng)險管控與修復(fù)方案推薦系統(tǒng)目標案例信息輸入頁面Fig.5 Target case information input page of site pollution risk control and remediation scheme recommendation system
為實現(xiàn)案例檢索,檢索系統(tǒng)需能輸入目標案例24項場地特征指標信息(圖5),且檢索結(jié)果在案例推薦頁面中呈現(xiàn)(圖6)。在圖5所在地區(qū)項中,根據(jù)《國務(wù)院關(guān)于調(diào)整城市規(guī)模劃分標準的通知》[14]確定所選城市對應(yīng)的城市等級;在所屬行業(yè)項中,分為化學(xué)原料和化學(xué)制品制造業(yè)、黑色金屬冶煉和壓延加工業(yè)、金屬制品業(yè)、醫(yī)藥制造業(yè)、有色金屬冶煉和壓延加工業(yè)和石油、煤炭及其他燃料加工業(yè)等子項;在土地利用規(guī)劃項中,根據(jù)GB 36600—2018中的建設(shè)用地分類標準,分為城鎮(zhèn)住宅用地、住宅用地、綠地與廣場用地、公園與綠地、居住用地、教育用地、商業(yè)用地、醫(yī)療衛(wèi)生用地、社會福利設(shè)施用地、工業(yè)用地、物流倉儲用地、商服用地、道路與交通設(shè)施用地、公用設(shè)施用地、公共管理與公共服務(wù)用地、除社區(qū)公園或兒童公園用地外的綠地與廣場用地子項;在干濕指數(shù)項中,分為極端干旱、干旱、半干旱、半濕潤、濕潤、潮濕、過潮濕子項;在特征污染物項中,根據(jù)GB 36600—2018的要求,涉及85項污染物;在包氣帶滲透系數(shù)最大巖性和含水層最主要巖性中,分為礫石、砂及砂卵礫石、粗砂、中砂、回填土、素填土、碎石土、細砂、石灰?guī)r、砂巖、砂質(zhì)粉土、雜填土、粉砂質(zhì)黏土、砂質(zhì)黏性土、粉土、粉質(zhì)黏土、黏土子項。
圖6 場地污染風(fēng)險管控與修復(fù)方案推薦系統(tǒng)結(jié)果展示頁面Fig.6 Result display page of site pollution risk control and remediation scheme recommendation system
2.2.2案例檢索方法
相似度檢索時,采用KNN計算源案例與目標案例之間的相似度,實現(xiàn)從案例庫中檢索出與目標案例相似度最高的前3個源案例。源案例與目標案例相似度的計算采用歐式距離sim(s,t)公式,具體如下:
(1)
式中:i為檢索屬性編號;m為檢索屬性的總個數(shù);wi為編號i檢索屬性的權(quán)重;Di(s,t)為源案例與目標案例在編號i檢索屬性上歸一化處理后的距離。檢索屬性的數(shù)據(jù)類型有邏輯型和數(shù)值型2種,其Di(s,t)計算公式如下:
(2)
(3)
di(s,t)=|Psi-Pti|
(4)
式中:Psi為源案例編號i的屬性值,Pti為目標案例編號i的屬性值s;di(s,t)為源案例和目標案例在編號i檢索屬性上的距離;maxi為編號i的屬性值在案例庫中的最大值;mini為編號i的屬性值在案例庫中的最小值。
對于邏輯型指標,按照既定規(guī)則的文本型進行匹配,當2個案例的特征屬性完全匹配時,得0分;不匹配時,得1分,樣表見表2所示。其中,對于特征污染物指標,按照污染物類型進行分類(圖1),以“、”進行分割,每個類型中各污染物均作為獨立標識,判斷源案例與目標案例的同類型污染物是否存在交集。當有交集時,賦值為0,否則為1,從而計算出待求解的目標案例與案例庫中源案例之間的相似度。
表2 邏輯型指標比選規(guī)則樣表
2.2.3 一致性檢驗與權(quán)重賦值
采用層次分析法(AHP)確定各場地特征指標的權(quán)重。先根據(jù)各場地特征指標對方案推薦的影響程度確定其重要性,分為4個等級:最重要、中等重要、重要和次重要(表3),進而建立層次模型,構(gòu)建判斷矩陣(式5)。
表3 各特征因素的重要程度層次分值
(5)
判斷矩陣運算過程中涉及2個重要參數(shù):
IC=(λmax-n)(n-1)
(6)
RC=ICIR
(7)
式中:λmax為判斷矩陣的最大特征根;n為構(gòu)建判斷矩陣的特征因素個數(shù);RC為一致性比率;IC為一致性指標;IR為隨機一致性指標。
運算式(5),生成判斷矩陣的λmax(26.236 73)和其對應(yīng)的特征向量;再根據(jù)式(6)、式(7)進行判斷矩陣的一致性檢驗,確定IC為0.097 25,當n=24時,IR為1.651 1,RC為0.058 9(<0.1),表明一致性可接受[15-17];最后,通過歸一化處理得到各場地特征指標的權(quán)重(表4)[7,18-19]。
表4 各場地特征指標的權(quán)重
搜索結(jié)果呈現(xiàn)相似度最高的前3個案例(圖6),每個案例包括基本信息、污染情況、污染遷移途徑、敏感受體和其他指標,其中基本情況又包括修復(fù)方案、相似度、所屬行業(yè)、場地現(xiàn)狀等。此外,由圖6中左側(cè)不同顏色的旗幟,可查看圖4展示的相應(yīng)案例的詳細信息。
針對我國場地污染風(fēng)險管控與修復(fù)方法體系的弊端和不足,借助大數(shù)據(jù)平臺,通過基于結(jié)構(gòu)化層次存儲和搜索技術(shù),運用案例推理和機器學(xué)習(xí),構(gòu)建了場地污染風(fēng)險管控與修復(fù)方案推薦系統(tǒng)。通過研究案例庫實現(xiàn)途徑和內(nèi)容,進行了方案推薦系統(tǒng)的結(jié)構(gòu)設(shè)計和系統(tǒng)開發(fā),建立了基于Web技術(shù)的案例檢索查詢頁面。采用KNN和AHP,計算目標案例與源案例之間的相似度,進而實現(xiàn)推薦相似度最高的前3個案例給決策者的功能。通過快速搜索與查找匹配源案例,提供了相對優(yōu)化的方案選取參考工具。研究成果有利于提高我國場地污染風(fēng)險管理的精準化、智能化、高效化和低成本化。在現(xiàn)有研究成果基礎(chǔ)上,建議后續(xù)加強風(fēng)險管控與修復(fù)方案再用的分類研究。