李 屹,廖方圓,張宇光
(1.生態(tài)環(huán)境部環(huán)境發(fā)展中心,北京 100029;2.中國電子科技集團有限公司,北京100846 ;3.中國電子科技集團公司第三十研究所,四川 成都 610041)
《“十三五”生態(tài)環(huán)境保護規(guī)劃》專項針對生態(tài)環(huán)境監(jiān)管明確提出,要加強生態(tài)環(huán)保信息系統(tǒng)建設(shè),提高智慧環(huán)境管理技術(shù)水平。近年來,我國在水污染防治領(lǐng)域注重提升水污染治理工藝自動化、智能化技術(shù)水平,建立了水污染數(shù)據(jù)共享機制與產(chǎn)品服務(wù)業(yè)務(wù)體系,防污治污工作取得了一定進展。但是水資源管理和水環(huán)境保護的形勢仍然很嚴(yán)峻,水污染粗放式治理成本高、效率低等問題依然突出?,F(xiàn)實環(huán)境保護工作中越來越多的信息業(yè)務(wù)系統(tǒng)依賴于水污染監(jiān)測數(shù)據(jù)和水環(huán)境數(shù)據(jù),對于數(shù)據(jù)的采集種類、采集頻率、處理效率等要求越來越高,然而數(shù)據(jù)處理工作的規(guī)范化和標(biāo)準(zhǔn)化相對滯后,開放式數(shù)據(jù)采集與精細(xì)化業(yè)務(wù)管理需求不匹配,業(yè)務(wù)系統(tǒng)封閉重復(fù)建設(shè)、數(shù)據(jù)處理自動化程度低使運維成本過高等一系列問題導(dǎo)致我國在水污染防治過程中的數(shù)據(jù)采集利用、信息化建設(shè)等方面與發(fā)達(dá)國家存在一定差距。因此亟需以城市水污染治理為重點,結(jié)合智慧城市建設(shè)進程,整合城市信息基礎(chǔ)設(shè)施資源,以物聯(lián)網(wǎng)應(yīng)用為基礎(chǔ)建設(shè)大數(shù)據(jù)分析與云計算平臺,對水污染防治手段進行體系升級。
劉凱[1]等人結(jié)合成都市水環(huán)境業(yè)務(wù)需求和信息化基礎(chǔ),提出了面向成都市的水環(huán)境信息化頂層和重點業(yè)務(wù)系統(tǒng)設(shè)計方案。張達(dá)敏[2]通過建立大數(shù)據(jù)采集、大數(shù)據(jù)匯聚和大數(shù)據(jù)應(yīng)用三大模塊,構(gòu)建了漳州生態(tài)環(huán)境網(wǎng)格化監(jiān)測、監(jiān)管、智慧與應(yīng)用。李晨子[3]等人對京津冀地區(qū)水資源分布及水污染防治現(xiàn)狀進行了研究,提出京津冀水污染防治大數(shù)據(jù)技術(shù)應(yīng)用的若干建議。史丹[4]等人基于大數(shù)據(jù)技術(shù)分析公眾關(guān)注度與政府治理污染投入的關(guān)系,提出建立健全我國生態(tài)環(huán)境監(jiān)督和預(yù)警體系的建議。溫玉波[5]通過引入智能數(shù)字遙感多層分析技術(shù),對海洋水質(zhì)進行多維度監(jiān)測分析。薛思怡[6]提出通過創(chuàng)建全區(qū)域監(jiān)測體系、共享品牌、數(shù)據(jù)處理平臺、聯(lián)合使用新媒體和互聯(lián)網(wǎng)技術(shù)、構(gòu)建空氣預(yù)報系統(tǒng)、動態(tài)分析污染演變等手段,促進環(huán)境污染防治管理。許小燕[7]提出了一種將環(huán)境保護與環(huán)境檢測進行融合的環(huán)境保護方案。朱逸凡[8]等人提出了基于船舶自動識別系統(tǒng)數(shù)據(jù)的船舶交通排放估算模型,并建立了2017年長江江蘇段船舶排放清單。黃堅[9]等人提出了基于大數(shù)據(jù)的環(huán)境污染源防治管理模型,并對數(shù)據(jù)監(jiān)測、數(shù)據(jù)匯集、數(shù)據(jù)傳輸、數(shù)據(jù)處理、標(biāo)準(zhǔn)執(zhí)行和決策應(yīng)用等關(guān)鍵技術(shù)進行了研究。曹曼[10]提出了引入大數(shù)據(jù)思維來分析環(huán)境工程的發(fā)展趨勢。石峰[11]等人采用基于互聯(lián)網(wǎng)開放信息的大數(shù)據(jù)技術(shù),對污染水體進行數(shù)據(jù)搜索和統(tǒng)計分析,得到全國重污染水體和黑臭水體的總體分布情況。林龐錕[12]提出了基于環(huán)境保護大數(shù)據(jù)的檢測和診斷方法。胡平昌[13]等人基于自然資源督察與環(huán)境污染治理工作相關(guān)時空信息數(shù)據(jù),建立了環(huán)境污染督察時空信息數(shù)據(jù)庫,并以此研發(fā)環(huán)境污染督察平臺。譚宇翔[14]等人提出了一種基于業(yè)務(wù)中臺的河道綜合信息監(jiān)管系統(tǒng)框架。蔡國禎[15]提出了基于云計算和大數(shù)據(jù)的生態(tài)環(huán)境信息化體系架構(gòu)。劉寶玲[16]根據(jù)水污染事故風(fēng)險需求,提出了根據(jù)風(fēng)險的動態(tài)精細(xì)化管理模式的風(fēng)險評價體系。陳少波[17]分析了大數(shù)據(jù)技術(shù)在水污染治理中應(yīng)用的必要性,并對水污染治理運營中大數(shù)據(jù)技術(shù)的實際應(yīng)用進行了研究。上述論述表明,國內(nèi)學(xué)者在水污染防治領(lǐng)域已經(jīng)開始關(guān)注和利用大數(shù)據(jù)技術(shù),在關(guān)鍵處理環(huán)節(jié)采用大數(shù)據(jù)技術(shù)對水污染防治進行信息挖掘和輔助決策,但當(dāng)前的研究主要著眼于利用大數(shù)據(jù)技術(shù)進行水污染防治單一環(huán)節(jié)的處理,缺少水污染防治全鏈條的大數(shù)據(jù)技術(shù)應(yīng)用研究。
本文首先介紹大數(shù)據(jù)技術(shù)的相關(guān)概念和主要特點,結(jié)合水污染治理的基本需求,提出基于大數(shù)據(jù)的水污染治理體系,從基礎(chǔ)設(shè)施、數(shù)據(jù)采集、數(shù)據(jù)管理、數(shù)據(jù)挖掘和數(shù)據(jù)應(yīng)用五大維度,對應(yīng)用于水污染防治的大數(shù)據(jù)技術(shù)要點進行梳理和分析,最后對基于大數(shù)據(jù)的水污染治理體系的主要特點進行總結(jié)。
大數(shù)據(jù)是指數(shù)量龐大、結(jié)構(gòu)復(fù)雜、在一定條件下無法采用常規(guī)工具軟件進行捕捉、管理和處理的數(shù)據(jù)集合。而大數(shù)據(jù)技術(shù)是大數(shù)據(jù)的應(yīng)用技術(shù),涵蓋針對數(shù)據(jù)的采集、預(yù)處理、儲存、管理、分析、挖掘以及呈現(xiàn)等一系列相關(guān)技術(shù)和基礎(chǔ)支撐技術(shù)。
大數(shù)據(jù)技術(shù)具有如下四個主要特點:一是數(shù)據(jù)體量大。通常大數(shù)據(jù)的體量可以達(dá)到PB級,傳統(tǒng)技術(shù)手段和處理能力難以應(yīng)付。二是數(shù)據(jù)產(chǎn)生速度快。主要體現(xiàn)在數(shù)據(jù)采集點多、產(chǎn)生密度大,對系統(tǒng)的數(shù)據(jù)采集與處理性能要求高。三是數(shù)據(jù)多樣化。大數(shù)據(jù)時代數(shù)據(jù)的來源、格式不再單一,具有多源異構(gòu)的特點。四是數(shù)據(jù)價值高。通過分析挖掘大數(shù)據(jù)背后隱藏的信息,可以發(fā)現(xiàn)事物的潛在特征和發(fā)展規(guī)律,為商業(yè)決策、政府治理等應(yīng)用提供支撐,產(chǎn)生直接或間接的經(jīng)濟、社會價值。
本文根據(jù)水污染防治的實際特點與需求,利用大數(shù)據(jù)技術(shù)的優(yōu)勢,提出基于大數(shù)據(jù)技術(shù)的水污染治理體系,如圖1所示。該體系主要圍繞數(shù)據(jù)的產(chǎn)生、存儲、處理、呈現(xiàn)等過程,分別從基礎(chǔ)設(shè)施、數(shù)據(jù)采集、數(shù)據(jù)管理、數(shù)據(jù)挖掘、數(shù)據(jù)應(yīng)用這五大方向進行大數(shù)據(jù)技術(shù)體系布局,通過對水資源進行多維度數(shù)據(jù)監(jiān)測采集,匯聚挖掘數(shù)據(jù)背后隱藏的污染種類、趨勢等有價值的信息,實現(xiàn)污染事件的快速識別、跟蹤、處置,構(gòu)建從傳感器到數(shù)據(jù)應(yīng)用的水資源全面數(shù)字感知網(wǎng)絡(luò),打造從數(shù)據(jù)采集到精準(zhǔn)治污的有效處理平臺,為水資源全面數(shù)字化管控提供技術(shù)支撐。
圖1 面向水污染防治的大數(shù)據(jù)技術(shù)框架
基礎(chǔ)設(shè)施是指為水污染數(shù)字化治理提供服務(wù)的物質(zhì)工程設(shè)施,包括傳感器、智能芯片、云平臺、采集設(shè)備、通信光纜、邊緣計算平臺、5G通信等,是基于大數(shù)據(jù)技術(shù)的水污染防治技術(shù)體系的基礎(chǔ)。上述基礎(chǔ)設(shè)施主要是為數(shù)據(jù)采集、傳輸、存儲提供硬件設(shè)施支撐。水污染數(shù)字化治理作為城市信息化建設(shè)的一部分,其基礎(chǔ)設(shè)施是城市信息基礎(chǔ)設(shè)施的重要內(nèi)容,與其他城市信息化應(yīng)用項目的基礎(chǔ)設(shè)施共建共享,在數(shù)據(jù)傳輸、存儲等方面可以使用公共信息基礎(chǔ)設(shè)施,無須重復(fù)建設(shè)。
數(shù)據(jù)采集主要是聯(lián)合城市氣象、水文等單位,通過傳感器自動采集、人工定點定時采集、資料聯(lián)查、網(wǎng)絡(luò)通信等方式,面向地表水、生活污水、地下水、城市供水、工業(yè)污水、降雨等水體,采集水質(zhì)、流量、污染成分等重要指標(biāo),形成水污染防治的大數(shù)據(jù),采集的數(shù)據(jù)類型包括表格、文本、圖片和視頻等,如表1所示。
表1 采集數(shù)據(jù)項及類型
數(shù)據(jù)管理是通過建立分級數(shù)據(jù)庫,存儲、管理和共享采集到的各類水體數(shù)據(jù)。數(shù)據(jù)管理要處理的信息包括水體復(fù)雜的空間數(shù)據(jù)信息和非空間數(shù)據(jù)信息、確定信息和不確定信息等。重點內(nèi)容包含數(shù)據(jù)清洗、數(shù)據(jù)存儲、數(shù)據(jù)抽取、數(shù)據(jù)索引、標(biāo)準(zhǔn)管理、共享交換等。其中數(shù)據(jù)清洗是針對在數(shù)據(jù)采集過程中由于錄入錯誤、傳感器失效等原因所導(dǎo)致的數(shù)據(jù)錯亂問題,采用數(shù)據(jù)校驗、沖突檢查等手段,剔除采集數(shù)據(jù)中的無效項、殘缺項、錯誤項、重復(fù)沖突項,確保數(shù)據(jù)的準(zhǔn)確性、完整性、一致性和唯一性。數(shù)據(jù)存儲主要針對水體監(jiān)測數(shù)據(jù)數(shù)據(jù)量龐大、異構(gòu)復(fù)雜等問題,采取分級建庫、數(shù)據(jù)融合等技術(shù)手段,對異構(gòu)數(shù)據(jù)進行多級、匯聚和融合存儲。數(shù)據(jù)抽取與數(shù)據(jù)索引主要解決數(shù)據(jù)訪問性能低的問題,針對業(yè)務(wù)系統(tǒng)實際請求需要,在空間數(shù)據(jù)信息和非空間數(shù)據(jù)信息等多種類型的數(shù)據(jù)上進行處理。從存量數(shù)據(jù)庫中抽取特定格式的數(shù)據(jù)表,預(yù)先建立數(shù)據(jù)索引,滿足大量業(yè)務(wù)數(shù)據(jù)請求的訪問需求。共享交換主要解決數(shù)據(jù)多域共享交換的問題,通過建立數(shù)據(jù)權(quán)限管理、數(shù)據(jù)交換標(biāo)準(zhǔn)、數(shù)據(jù)審計等功能,實現(xiàn)數(shù)據(jù)跨域按需交換共享。標(biāo)準(zhǔn)管理是面向數(shù)據(jù)處理過程建立數(shù)據(jù)清洗、存儲、抽取等一系列標(biāo)準(zhǔn)化操作流程,實現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)化存儲與訪問。
水污染治理領(lǐng)域的數(shù)據(jù)管理工作較為復(fù)雜,處理的數(shù)據(jù)信息多種多樣,需要一些關(guān)鍵技術(shù)的支持。例如,污染源、水域和監(jiān)測點的空間信息關(guān)系的組織和處理即是一個底層基礎(chǔ)問題。污染源、水域和監(jiān)測點數(shù)量眾多,針對其空間數(shù)據(jù)信息的復(fù)雜性,我們引入高效的空間索引結(jié)構(gòu)R樹(如圖2所示)來對相關(guān)的空間數(shù)據(jù)信息進行組織和處理。R樹是一種多級平衡樹,它是B樹在多維空間上的擴展。在R樹中存放的數(shù)據(jù)并不是原始數(shù)據(jù),而是這些數(shù)據(jù)的最小邊界矩形,空間對象的最小外包矩形被包含于R樹的葉節(jié)點中。在二維空間數(shù)據(jù)集中,R樹中的各層節(jié)點以遞歸的方式對數(shù)據(jù)集空間進行劃分。R樹中每一個非葉節(jié)點本身代表數(shù)據(jù)集空間中的一個矩形,該矩形為其子節(jié)點所代表矩形的最小外包矩形。
圖2 空間對象和R樹結(jié)構(gòu)示例
近鄰關(guān)系的查詢分析方法[18-20]在數(shù)據(jù)信息處理領(lǐng)域較為重要。圖3展示了利用近鄰查詢方法查詢的有關(guān)污染源和水域的近鄰關(guān)系。圖3中,受污染源q1影響最大的兩個水域分別為p1水域和p2水域,而受污染源q2影響最大的水域則為p3水域。
數(shù)據(jù)挖掘是從海量、結(jié)構(gòu)復(fù)雜的實際水體采集數(shù)據(jù)中,利用機器學(xué)習(xí)、數(shù)據(jù)統(tǒng)計等大數(shù)據(jù)分析技術(shù),提取水體數(shù)據(jù)中隱含的水體污染類型、污染趨勢、水體流量變化等信息,為基于大數(shù)據(jù)的水污染監(jiān)測識別提供決策支撐。此外,除了對復(fù)雜的水體數(shù)據(jù)信息本身進行細(xì)致分析外,我們利用數(shù)據(jù)挖掘技術(shù)還可智能處理和分析不同污染源對水體的影響情況和影響趨勢,從整體角度分析污染源和水體的空間位置信息及演變規(guī)律,從而做出智能決策。具體的數(shù)據(jù)挖掘?qū)ο蟀廴驹春透魉虻目臻g關(guān)系分析、污染影響范圍分析、趨勢預(yù)測、污染識別、污染溯源、水質(zhì)建模、動力分析、污染數(shù)據(jù)可視化等。其中趨勢預(yù)測是根據(jù)當(dāng)前水體污染各項監(jiān)測數(shù)據(jù)生成污染綜合態(tài)勢,建立水體污染變化模型,預(yù)測將來一段時間內(nèi)水污染的變化情況。污染識別是根據(jù)歷史水質(zhì)監(jiān)測的各項關(guān)鍵指標(biāo)、水體監(jiān)測視頻等數(shù)據(jù),建立水體污染專家系統(tǒng),開展深度學(xué)習(xí)模型訓(xùn)練,對當(dāng)前水質(zhì)監(jiān)測關(guān)鍵指標(biāo)與監(jiān)測視頻數(shù)據(jù)進行污染研判,確定水體污染類型與危害程度。污染溯源是根據(jù)當(dāng)前水體污染信息、當(dāng)?shù)厮男畔?、企業(yè)工業(yè)排污數(shù)據(jù),生活污水處理數(shù)據(jù)等相關(guān)數(shù)據(jù),對當(dāng)前跟蹤的污染事件進行追蹤溯源,判定污染來源及污染源地理位置。水質(zhì)建模是通過各類水體監(jiān)測的物理、化學(xué)、生物菌落等指標(biāo),利用統(tǒng)計分析技術(shù),建立水體質(zhì)量綜合分析模型,對水體污染范圍與程度進行綜合研判。動力分析主要是從水體動力學(xué)角度,綜合考慮城市排污、降雨、表面蒸發(fā)、截面監(jiān)測數(shù)據(jù)等信息,建立水體截面動力模型,對水體污染流速、有害物質(zhì)擴散等進行科學(xué)評估。
圖3 污染源對水域影響情況查詢示例
如聚類分析[21-23]等數(shù)據(jù)挖掘技術(shù)在水污染各類數(shù)據(jù)信息的智能分析和決策中具有較為重要的作用。針對眾多的數(shù)據(jù)處理和分析問題,我們在技術(shù)層面運用了聚類分析、關(guān)聯(lián)規(guī)則分析和分類分析等關(guān)鍵技術(shù)。其中,經(jīng)典的K-means算法是我們經(jīng)常運用的一個重要方法。
圖4展示了運用聚類方法分析污染源對水源的影響情況的示例,示例中水域分別被不同數(shù)量和不同位置分布的污染源所影響。圖4(a)中展現(xiàn)被8個污染源所影響的水域的聚類分析結(jié)果,圖4(b)中展現(xiàn)被6個污染源所影響的水域的聚類分析結(jié)果,圖4(c)中展現(xiàn)被3個污染源所影響的水域的聚類分析結(jié)果。先進的聚類分析方法還可用于對水體本身海量指標(biāo)屬性數(shù)據(jù)信息的分析之中。
數(shù)據(jù)應(yīng)用主要是面向城市水污染監(jiān)測與治理的實際業(yè)務(wù)需求,基于統(tǒng)一的水污染數(shù)據(jù)采集、管理與挖掘,訂制水污染防治信息化處理系統(tǒng)。從應(yīng)用功能上可以分為污水處理、河湖治理、飲水安全、精準(zhǔn)供水等。通過與大數(shù)據(jù)技術(shù)的深度融合,可以優(yōu)化業(yè)務(wù)系統(tǒng)的處理流程,提升當(dāng)前業(yè)務(wù)系統(tǒng)的精確度和使用價值,改善水污染治理業(yè)務(wù)系統(tǒng)的使用體驗和效果。
圖4 污染源對水域影響情況聚類分析示例
本文提出的基于大數(shù)據(jù)技術(shù)的水污染防治體系主要有兩大特點。一是建立從傳感器到業(yè)務(wù)應(yīng)用的全面數(shù)字感知?;诖髷?shù)據(jù)技術(shù)的水污染防治體系,圍繞數(shù)據(jù)的產(chǎn)生、存儲、處理和利用過程,針對水體污染分層分級挖掘數(shù)據(jù)背后隱藏信息,對數(shù)據(jù)處理過程進行全面信息感知,最大限度地體現(xiàn)了大數(shù)據(jù)處理技術(shù)的信息提煉效果與價值發(fā)現(xiàn)能力。二是從水體監(jiān)測到業(yè)務(wù)應(yīng)用實現(xiàn)精準(zhǔn)有效處理。本文提出的基于大數(shù)據(jù)技術(shù)的水污染防治體系,從水污染防治實際應(yīng)用角度梳理凝練數(shù)據(jù)采集、存儲和處理需求,按照需求設(shè)計數(shù)據(jù)處理的各項環(huán)節(jié),實現(xiàn)功能與需求的精準(zhǔn)匹配,從而達(dá)到水體監(jiān)測數(shù)據(jù)高效利用與水污染精準(zhǔn)治理。
本文通過對大數(shù)據(jù)技術(shù)的應(yīng)用特點進行分析,結(jié)合水污染防治的數(shù)據(jù)處理需求,提出一種基于大數(shù)據(jù)技術(shù)的水污染防治體系。該體系分別從基礎(chǔ)設(shè)施、數(shù)據(jù)采集、數(shù)據(jù)管理、數(shù)據(jù)挖掘和數(shù)據(jù)應(yīng)用五大方向進行大數(shù)據(jù)技術(shù)布局,通過對水資源進行多維度數(shù)據(jù)監(jiān)測采集,匯聚挖掘數(shù)據(jù)背后隱藏的污染種類、趨勢等有價值的信息,實現(xiàn)污染事件快速識別、跟蹤與處置,構(gòu)建了從傳感器到數(shù)據(jù)應(yīng)用的水資源全面數(shù)字感知網(wǎng)絡(luò),打造從數(shù)據(jù)采集到精準(zhǔn)治污的有效處理平臺,為水資源全面數(shù)字化管控提供技術(shù)支撐。
該技術(shù)體系有望應(yīng)用于城市水體數(shù)據(jù)監(jiān)測與處理應(yīng)用系統(tǒng)開發(fā)中,能進一步提高水污染防治的數(shù)據(jù)采集與利用效率,提升水污染防治的效能,為保護綠水青山、建設(shè)美麗中國做出貢獻(xiàn)。如何將該技術(shù)與現(xiàn)有業(yè)務(wù)深入融合,實現(xiàn)技術(shù)落地應(yīng)用將是下一步的研究方向。