李瑞強,敖 丹,李明娜,李 妍,石艷菊,王曉東
(1.內(nèi)蒙古自治區(qū)環(huán)境在線監(jiān)控中心,內(nèi)蒙古 呼和浩特 010011;2.內(nèi)蒙古自治區(qū)生態(tài)環(huán)境綜合執(zhí)法中部直屬隊,內(nèi)蒙古 呼和浩特 010011;3.內(nèi)蒙古自治區(qū)生態(tài)環(huán)境綜合行政執(zhí)法總隊,內(nèi)蒙古 呼和浩特 010011;4.內(nèi)蒙古 自治區(qū)環(huán)境監(jiān)測總站,內(nèi)蒙古 呼和浩特 010011)
為貫徹落實習近平總書記重要指示批示精神,促進內(nèi)蒙古自治區(qū)礦產(chǎn)資源領域突出問題專項整治工作順利推進,相關部門加快了推進礦產(chǎn)資源領域監(jiān)管領域大數(shù)據(jù)決策分析能力建設。本文通過對生態(tài)環(huán)境領域涉礦信息采集整合,清洗治理后,將符合要求的涉礦信息共享給牽頭部門,為內(nèi)蒙古自治區(qū)礦產(chǎn)資源領域突出問題專項整治工作提供數(shù)據(jù)支撐。同時實現(xiàn)生態(tài)環(huán)境領域紙質文件電子化及三類礦產(chǎn)資源領域生態(tài)環(huán)境相關數(shù)據(jù)系統(tǒng)化、可視化,以提升數(shù)據(jù)在環(huán)境污染防治中的價值[1]。
自治區(qū)生態(tài)環(huán)境領域積累了大量數(shù)據(jù),包括環(huán)評審批、環(huán)境執(zhí)法、日常監(jiān)管、污染源普查、企業(yè)基本信息、信訪舉報等數(shù)據(jù)[2],但數(shù)據(jù)分散在各個業(yè)務系統(tǒng)里或以紙質文件進行存檔,系統(tǒng)各自獨立,存儲分散,可用性差,未形成礦產(chǎn)資源類的業(yè)務數(shù)據(jù)庫,部分數(shù)據(jù)仍然存在部門利益、安全陷阱、問責壓力[3],數(shù)據(jù)調用與共享存在困難,不具備跨部門共享有關礦產(chǎn)資源類業(yè)務數(shù)據(jù)庫的能力。
目前,生態(tài)環(huán)境領域涉及礦產(chǎn)資源數(shù)據(jù)種類繁多且分散,數(shù)據(jù)結構復雜,時間、空間跨度大[4],主要表現(xiàn)在以下方面:①來源分散,數(shù)據(jù)主要來源國發(fā)系統(tǒng)、硬盤、紙質報表,無法通過接口實現(xiàn)對接,難以保證數(shù)據(jù)更新的及時性;②數(shù)據(jù)標準不統(tǒng)一[5],同樣類型的數(shù)據(jù),由于產(chǎn)生時間不一致,主鍵、數(shù)據(jù)類型不同,導致數(shù)據(jù)處理的準確性和關聯(lián)性較差;③數(shù)據(jù)分散在各業(yè)務單位,溝通協(xié)調難,甚至有些業(yè)務單位還存在“不敢共享、不愿共享、不能共享”的思想[6],導致協(xié)調業(yè)務單位實時共享、導出、收集紙質材料難度大,經(jīng)常無功而返。
按照自治區(qū)礦產(chǎn)資源領域的相關要求,急需篩選出煤、鐵、有色金屬三類礦產(chǎn)(簡稱“三礦”)資源領域企業(yè)清單,作為重點監(jiān)管對象,并進一步關聯(lián)生態(tài)環(huán)境領域數(shù)據(jù)。但業(yè)務數(shù)據(jù)通常是按照業(yè)務管理屬性或國民經(jīng)濟行業(yè)進行分類和編碼,如何從海量數(shù)據(jù)中準確篩選出煤、鐵、有色金屬三類礦產(chǎn)資源企業(yè)也是本項目的主要難點。
目前掌握的涉礦數(shù)據(jù)類別多、時間長、來源廣,差異大。從數(shù)據(jù)數(shù)量看,量大類多,來源復雜。從數(shù)據(jù)質量上看,同類數(shù)據(jù)存在不同的結構和形式,多為冗余狀。從數(shù)據(jù)存儲方式看,不同歷史時期格式各異,數(shù)據(jù)說明或者數(shù)據(jù)字典殘缺,數(shù)據(jù)部分丟失,存在數(shù)據(jù)管理不到位問題。如在這些龐大的數(shù)據(jù)中,有很多重復、不規(guī)范的污染源信息, 污染源名稱不統(tǒng)一,將無法圍繞污染源信息實現(xiàn)數(shù)據(jù)共享,如何在復雜數(shù)據(jù)中進行清洗治理,提高數(shù)據(jù)質量和關聯(lián)性亦是難點[7]。
經(jīng)過前期調研和梳理,生態(tài)環(huán)境領域涉及礦產(chǎn)資源數(shù)據(jù)主要包括行政處罰、信訪數(shù)據(jù)、雙隨機、環(huán)評審批、企業(yè)基本信息、第二次污染源普查數(shù)據(jù)等。針對不同特點的業(yè)務數(shù)據(jù)進行主動采集和被動采集。主動采集,是指定時或者實時從其他業(yè)務系統(tǒng)中獲取相關數(shù)據(jù);而被動采集,是工作人員手工導入或通過填報系統(tǒng)向數(shù)據(jù)庫上報數(shù)據(jù)。根據(jù)數(shù)據(jù)的實際情況采用必要的數(shù)據(jù)采集方式。經(jīng)過多方協(xié)調,獲得數(shù)據(jù)情況如表1。
表1 數(shù)據(jù)采集情況
早期,由于行政處罰和信訪數(shù)據(jù)涉及的企業(yè)基礎信息是人工錄入,存在企業(yè)名稱不全、無所屬行業(yè)信息、無企業(yè)統(tǒng)一信用代碼等情況,故本次篩選是通過企業(yè)基本信息、第二次污染源普查和環(huán)評審批數(shù)據(jù)進行。
第一步:按照行業(yè)篩選后取多源數(shù)據(jù)的交集?;诘诙挝廴驹雌詹閿?shù)據(jù)中的行業(yè),按行業(yè)分類中關鍵字“煤”“鐵”“有色”進行篩選,篩選出煤、鐵、有色金屬相關行業(yè)的企業(yè);同時基于企業(yè)基本信息中行業(yè)大類,按照國民經(jīng)濟標準分類B類采礦業(yè)[8]、企業(yè)名稱包含關鍵字“煤”“鐵”“有色”“礦”以及經(jīng)營類別詳細描述中包含關鍵字“煤”“鐵”“有色”“礦”,篩選出煤,鐵,有色金屬和礦產(chǎn)相關行業(yè)的企業(yè),提取其中經(jīng)營狀態(tài)為存續(xù)(在營、開業(yè)、在冊)的數(shù)據(jù),根據(jù)統(tǒng)一社會信用代碼和企業(yè)名稱或曾用名稱作為合并的關聯(lián)關系,將2次篩選數(shù)據(jù)交集作為最初始的三礦企業(yè)名錄,做一類標識。
第二步:用第二次污染源普查數(shù)據(jù)進行二次篩選、補充。由于第二次污染源普查數(shù)據(jù)的區(qū)域廣、行業(yè)多、精準度較高[9],行業(yè)類別精確到二級甚至是三級,例如:褐煤開采洗選、煉鐵、煤炭開采和洗選專業(yè)及輔助性活動、其他常用有色金屬礦采選、其他常用有色金屬冶煉、其他煤炭采選。故將其作為可用數(shù)據(jù)進行二次篩選,去除行業(yè)名稱里含以上三類礦產(chǎn)關鍵字但不屬于三礦開采類的行業(yè),如“煤制合成氣生產(chǎn)(行業(yè)代碼2522)”“煤制液體燃料生成(行業(yè)代碼2523)”“煤制品制造(行業(yè)代碼2524)”“鐵路機車車輛配件制造(行業(yè)代碼3715)”“鐵路專用設備及器材、配件制造(行業(yè)代碼3716)”“鐵路運輸設備修理(行業(yè)代碼4341)”“鐵合金冶煉(行業(yè)代碼3140)”“其他常用有色金屬冶煉”“煉鐵”,保留行業(yè)為“采礦業(yè)”“其他煤炭加工”“煤氣生產(chǎn)和供應業(yè)”的企業(yè),形成二次篩選數(shù)據(jù),補充進入三礦企業(yè)名錄,并做二類標識。
第三步:用其他數(shù)據(jù)進行三次篩選、補充。將企業(yè)基本信息(剔除1次篩選后已納入的企業(yè)),環(huán)評審批數(shù)據(jù)作為參考進行三次篩選及補充,經(jīng)篩查,企業(yè)基本信息已經(jīng)全部涵蓋了環(huán)評數(shù)據(jù),共篩選出經(jīng)營范圍包括“開采”關鍵字的企業(yè)。通過人工甄別,剔除掉諸如“許可經(jīng)營項目:螢石開采、加工、銷售(憑采礦許可證并在有效期內(nèi)經(jīng)營)等冗余數(shù)據(jù),篩選出非金屬類礦產(chǎn)礦石開采的企業(yè),補充進入三礦企業(yè)名錄,并做三類標識;僅標明礦產(chǎn)品開采的且無法通過企業(yè)名稱判斷是否屬于三類礦產(chǎn)企業(yè)的,補充進入三礦企業(yè)名錄,并做四類標識。最終得到相對精準的三礦企業(yè)名錄。
基于三礦企業(yè)清單建立標準企業(yè)庫,通過對數(shù)據(jù)清洗匹配、編碼統(tǒng)一,實現(xiàn)行政處罰、信訪數(shù)據(jù)、雙隨機、環(huán)評審批、企業(yè)基本信息、第二次污染源普查等數(shù)據(jù)的關聯(lián),并實現(xiàn)數(shù)據(jù)標準化存儲[10]。
由于涉礦企業(yè)的環(huán)評審批、雙隨機、環(huán)境執(zhí)法、行政處罰、信訪舉報系統(tǒng)都是獨立存在的。在這些龐大的數(shù)據(jù)中,有很多重復、不規(guī)范的污染源企業(yè)信息, 比如污染源名稱不統(tǒng)一,無法圍繞污染源名稱實現(xiàn)數(shù)據(jù)關聯(lián)匹配,致使無法對各業(yè)務系統(tǒng)數(shù)據(jù)的進行整合交換。首要問題是必須將各業(yè)務系統(tǒng)的企業(yè)標識進行統(tǒng)一,利用統(tǒng)一社會信用代碼將各業(yè)務系統(tǒng)內(nèi)獨立存在的企業(yè)進行關聯(lián)匹配,在不改變企業(yè)在原系統(tǒng)的名稱及屬性的基礎上對企業(yè)名稱進行標準化,從而實現(xiàn)各業(yè)務系統(tǒng)圍繞企業(yè)標識(統(tǒng)一信用代碼)進行業(yè)務數(shù)據(jù)的集成整合[11]。
由于建設時期不同,業(yè)務系統(tǒng)涉及到的環(huán)境公共代碼及標準存在不一致現(xiàn)象,例如:污染物代碼、行業(yè)代碼、行政區(qū)劃代碼、排放口代碼等信息,在不同的系統(tǒng)中標準不同,標識千差萬別。為保證數(shù)據(jù)統(tǒng)計分析結果的一致性,在統(tǒng)一污染源的同時,必須建立統(tǒng)一的環(huán)境公共代碼,按照統(tǒng)一的公共代碼,對相關環(huán)境代碼進行標準化統(tǒng)一處理。
按照相關部門要求,在完成數(shù)據(jù)采集、整合、清洗治理和建立全區(qū)礦產(chǎn)資源生態(tài)環(huán)境監(jiān)管業(yè)務數(shù)據(jù)庫后,搭建礦產(chǎn)資源信息管理與共享系統(tǒng),同時有意識地加強數(shù)據(jù)安全保護,分權限限制訪問,避免數(shù)據(jù)泄露[12]。
系統(tǒng)地針對分散的、不同特點的業(yè)務數(shù)據(jù)采用主動采集和被動采集的數(shù)據(jù)采集方式,主動采集由全區(qū)礦產(chǎn)資源生態(tài)環(huán)境監(jiān)管業(yè)務數(shù)據(jù)庫定時或者實時從其他異構業(yè)務系統(tǒng)中獲取相關數(shù)據(jù),被動采集由工作人員手工導入或通過填報系統(tǒng)上報數(shù)據(jù),并建立了數(shù)據(jù)采集機制,保證數(shù)據(jù)的及時性、完整性、準確性[13],確保了系統(tǒng)可持續(xù)、穩(wěn)定的提供服務。同時在數(shù)據(jù)采集過程中,實現(xiàn)了環(huán)評審批數(shù)據(jù)電子化,在滿足全區(qū)礦產(chǎn)資源生態(tài)環(huán)境監(jiān)管業(yè)務和數(shù)據(jù)共享的基礎上,既保證了環(huán)評審批數(shù)據(jù)存儲的安全性,又為后期對新增環(huán)評審批數(shù)據(jù)登記、統(tǒng)計分析提供了工具,具有很高的實用性。
系統(tǒng)利用數(shù)據(jù)治理的方法從海量數(shù)據(jù)中篩選出三礦企業(yè)清單,并利用企業(yè)基本信息中企業(yè)標準名稱對各生態(tài)環(huán)境業(yè)務系統(tǒng)數(shù)據(jù)進行清洗統(tǒng)一,結合人工識別,最終取得三礦企業(yè)標準企業(yè)名稱。以三礦企業(yè)清單為標準,通過標準企業(yè)名稱、統(tǒng)一社會信用代碼關聯(lián)其他業(yè)務數(shù)據(jù),實現(xiàn)了多類生態(tài)環(huán)境業(yè)務數(shù)據(jù)按企業(yè)標識進行集成,為后續(xù)其他業(yè)務系統(tǒng)數(shù)據(jù)集成提供了借鑒,同時也滿足了生態(tài)環(huán)境部門按企業(yè)進行多業(yè)務數(shù)據(jù)的統(tǒng)一查詢、分析、共享的實際需求。
系統(tǒng)借助GIS技術,將三類礦產(chǎn)資源企業(yè)相關生態(tài)環(huán)境信息結合地圖上進行匯總[14],建立三類礦產(chǎn)企業(yè)生態(tài)環(huán)境信用檔案,實現(xiàn)涉礦企業(yè)檔案的展示、查詢、分析,對三類礦產(chǎn)企業(yè)環(huán)評審批及日常監(jiān)管中存在的違規(guī)、違法行為自動冒泡,及時發(fā)現(xiàn)礦產(chǎn)資源領域的違規(guī)違法行為,實現(xiàn)精準執(zhí)法,為礦產(chǎn)資源領域突出問題專項整治工作提供決策支持。
本文通過對生態(tài)環(huán)境領域涉礦業(yè)務數(shù)據(jù)的采集整合、精準篩選、清洗治理進行了深入研究,建立了生態(tài)環(huán)境領域涉礦數(shù)據(jù)共享系統(tǒng),實現(xiàn)了涉礦數(shù)據(jù)跨部門、跨區(qū)域共享,實現(xiàn)路徑具有一定的創(chuàng)新性和示范性。生態(tài)環(huán)境涉礦數(shù)據(jù)共享系統(tǒng)以固定污染源統(tǒng)領業(yè)務數(shù)據(jù)的方式,既實現(xiàn)了生態(tài)環(huán)境部門對三類礦產(chǎn)企業(yè)的日常監(jiān)管需要,又為自治區(qū)礦產(chǎn)資源大數(shù)據(jù)監(jiān)管奠定基礎。未來,橫向可以通過礦產(chǎn)資源領域向全行業(yè)擴展,如整合治理電力、食品制造、化工、水泥、造紙等行業(yè)數(shù)據(jù),以固定污染源為核心開展全行業(yè)信息整合治理,大數(shù)據(jù)分析。縱向可以擴展固定污染源全生命周期的數(shù)據(jù),包括項目籌建期的建設項目環(huán)評審批數(shù)據(jù),施工建設期的竣工驗收報告、排污許可證審批數(shù)據(jù)、企業(yè)基本信息等,生產(chǎn)運營期的監(jiān)測數(shù)據(jù)、監(jiān)察執(zhí)法記錄、行政處罰記錄、信訪舉報記錄、督查問題記錄、輿情情況等,停產(chǎn)關閉期的排污許可證吊銷、生態(tài)恢復情況等數(shù)據(jù),將企業(yè)從籌建到消亡的全生命周期的數(shù)據(jù)進行匯總,形成企業(yè)全生命周期檔案[15]。