段碧清
(中化環(huán)境控股有限公司,北京 100071)
如今,全球掀起了以數(shù)字化轉(zhuǎn)型升級(jí)為首要任務(wù)的新一輪工業(yè)變革,工業(yè)大數(shù)據(jù)作為引領(lǐng)這場(chǎng)變革的主要驅(qū)動(dòng)力,已經(jīng)成為當(dāng)今工業(yè)領(lǐng)域的熱點(diǎn)之一。新一代信息技術(shù)與工業(yè)的深度融合將促進(jìn)工業(yè)領(lǐng)域的服務(wù)轉(zhuǎn)型和產(chǎn)品升級(jí),重塑全球制造業(yè)的產(chǎn)業(yè)格局。為緊緊抓住這一重大歷史機(jī)遇,搶占新一輪競(jìng)爭制高點(diǎn),國家高度重視并作出長期性、戰(zhàn)略性部署,要求“加快發(fā)展先進(jìn)制造業(yè),推動(dòng)互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能和實(shí)體經(jīng)濟(jì)深度融合”。工業(yè)大數(shù)據(jù)是工業(yè)領(lǐng)域的核心要素,以大數(shù)據(jù)工業(yè)互聯(lián)網(wǎng)為基礎(chǔ),用云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)、人工智能等技術(shù)引領(lǐng)工業(yè)生產(chǎn)方式的變革,拉動(dòng)工業(yè)經(jīng)濟(jì)的創(chuàng)新發(fā)展。工業(yè)大數(shù)據(jù)分析技術(shù)作為工業(yè)大數(shù)據(jù)的核心技術(shù)之一,可使工業(yè)大數(shù)據(jù)產(chǎn)品具備海量數(shù)據(jù)的挖掘能力、多源數(shù)據(jù)的集成能力、多類型知識(shí)的建模能力、多業(yè)務(wù)場(chǎng)景的分析能力、多領(lǐng)域知識(shí)的發(fā)掘能力等,對(duì)驅(qū)動(dòng)企業(yè)業(yè)務(wù)創(chuàng)新和轉(zhuǎn)型升級(jí)具有重大作用。
結(jié)合水務(wù)行業(yè)自身的需求和特點(diǎn),發(fā)現(xiàn)水務(wù)企業(yè)存在的主要問題和面臨的挑戰(zhàn)如下:①信息系統(tǒng)多且太分散,維護(hù)成本高;②數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一,無法實(shí)現(xiàn)統(tǒng)一共享,對(duì)數(shù)據(jù)的整合集成及互聯(lián)互通造成了阻礙,增加了信息整合的復(fù)雜度;③數(shù)據(jù)質(zhì)量存在不可靠問題;④數(shù)據(jù)來源復(fù)雜,終端多而分散,導(dǎo)致數(shù)據(jù)采集及存儲(chǔ)安全存在問題;⑤數(shù)據(jù)眾多,數(shù)據(jù)分析處理能力有限,無法有效進(jìn)行更深層次的數(shù)據(jù)挖掘、利用和輔助決策支持。
水務(wù)大數(shù)據(jù)平臺(tái)建設(shè)時(shí)通過應(yīng)用新ⅠT 技術(shù),融合水行業(yè)需求,把“數(shù)字化” 應(yīng)用于公司治理與環(huán)境治理服務(wù)中,創(chuàng)造新型的管理與服務(wù)模式。在數(shù)據(jù)的價(jià)值創(chuàng)造與價(jià)值傳遞過程中,將價(jià)值鏈的更多環(huán)節(jié)轉(zhuǎn)化為戰(zhàn)略優(yōu)勢(shì),實(shí)現(xiàn)技術(shù)、物質(zhì)、資金、人才、服務(wù)等資源的優(yōu)化配置,進(jìn)一步提升管理精細(xì)化、為民服務(wù)精準(zhǔn)化和水務(wù)企業(yè)管理現(xiàn)代化水平,數(shù)據(jù)驅(qū)動(dòng)創(chuàng)新,將大數(shù)據(jù)技術(shù)能力轉(zhuǎn)化為企業(yè)發(fā)展的新動(dòng)力[1]。
數(shù)據(jù)是新時(shí)代重要的生產(chǎn)要素,是國家基礎(chǔ)性戰(zhàn)略資源。大數(shù)據(jù)是數(shù)據(jù)的集合,以容量大、類型多、速度快、精度準(zhǔn)、價(jià)值高為主要特征,是推動(dòng)經(jīng)濟(jì)轉(zhuǎn)型發(fā)展的新動(dòng)力,是提升政府治理能力的新途徑,是重塑國家競(jìng)爭優(yōu)勢(shì)的新機(jī)遇?!笆奈濉?時(shí)期是中國工業(yè)經(jīng)濟(jì)向數(shù)字經(jīng)濟(jì)邁進(jìn)的關(guān)鍵時(shí)期,對(duì)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展提出了新的要求,產(chǎn)業(yè)將步入集成創(chuàng)新、快速發(fā)展、深度應(yīng)用、結(jié)構(gòu)優(yōu)化的新階段。隨著互聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等信息通信技術(shù)的發(fā)展,描述和記錄人類社會(huì)空間、信息空間和網(wǎng)絡(luò)空間的數(shù)據(jù)快速增長,數(shù)據(jù)規(guī)模也越來越龐大。大數(shù)據(jù)的數(shù)據(jù)源包括網(wǎng)絡(luò)&社交媒體、智能設(shè)備生成的數(shù)據(jù)(由硬軟件自動(dòng)生成的數(shù)據(jù),無人干擾,如電腦、醫(yī)療設(shè)備等)、感知數(shù)據(jù)(幾種傳感裝置用于測(cè)量物理量并將它轉(zhuǎn)換成信號(hào))、事務(wù)數(shù)據(jù)(涉及描述數(shù)據(jù)的時(shí)間維度的事件,如財(cái)務(wù)和工作數(shù)據(jù))和物聯(lián)網(wǎng)數(shù)據(jù)(大量通過網(wǎng)絡(luò)連接的設(shè)備提供多種類型服務(wù)的同時(shí),會(huì)產(chǎn)生大量的數(shù)據(jù)和信息)[2]。數(shù)據(jù)的形式包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。而在大數(shù)據(jù)領(lǐng)域,目前采集到的數(shù)據(jù)85%以上為非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),只有少量的結(jié)構(gòu)化數(shù)據(jù)[3]。
大數(shù)據(jù)分析是運(yùn)用云計(jì)算、機(jī)器學(xué)習(xí)算法等方法對(duì)大數(shù)據(jù)進(jìn)行分析,從中找出可以幫助決策的隱藏模式和未知的相互關(guān)系及其他有用的信息過程[4]。此外,傳統(tǒng)的數(shù)據(jù)顯示方法也已不足以滿足當(dāng)前大數(shù)據(jù)分析結(jié)果輸出的需求,因此為提升數(shù)據(jù)解釋、展示能力,數(shù)據(jù)可視化也逐漸被引入了大數(shù)據(jù)領(lǐng)域。
綜上所述,大數(shù)據(jù)具有數(shù)據(jù)量大、處理速度快及數(shù)據(jù)種類多樣等特點(diǎn),但尚無統(tǒng)一的定義。大數(shù)據(jù)理論強(qiáng)調(diào)以問題為導(dǎo)向,尋找事物之間的相關(guān)性。大數(shù)據(jù)的處理思路包括數(shù)據(jù)采集、數(shù)據(jù)處理與關(guān)聯(lián)、數(shù)據(jù)分析、數(shù)據(jù)應(yīng)用:通過相應(yīng)采集技術(shù)對(duì)數(shù)據(jù)進(jìn)行收集;運(yùn)用人工智能方法對(duì)采集到的數(shù)據(jù)進(jìn)行 “去噪” 及清洗處理,得到可靠的數(shù)據(jù);運(yùn)用云計(jì)算技術(shù)和機(jī)器學(xué)習(xí)等方法對(duì)數(shù)據(jù)進(jìn)行分析,得到數(shù)據(jù)模型;將得到的數(shù)據(jù)模型發(fā)布后傳遞給用戶,以幫助用戶制定決策。
化工污水處理企業(yè)承擔(dān)著中國化工園區(qū)上游企業(yè)化工污水處理任務(wù),是化工污水排入生態(tài)環(huán)境的最后一道屏障,承擔(dān)著保護(hù)生態(tài)環(huán)境的重要責(zé)任。利用大數(shù)據(jù)技術(shù)對(duì)化工污水處理企業(yè)日運(yùn)行數(shù)據(jù)及歷史數(shù)據(jù)進(jìn)行分析建模,形成藥劑、出水COD(化學(xué)需氧量)預(yù)測(cè)模型,從而預(yù)測(cè)和判斷目前進(jìn)出水流量、主要污染物指標(biāo)與藥劑添加量或電量能耗的關(guān)系,利用數(shù)據(jù)模型可以對(duì)水廠運(yùn)營及藥劑投加提供指導(dǎo)建議,達(dá)到卓越運(yùn)營降本增效的目標(biāo)。
機(jī)器學(xué)習(xí)是從數(shù)據(jù)中學(xué)習(xí)規(guī)律的過程,是從一系列原始數(shù)據(jù)中提取人們可以識(shí)別的特征,然后學(xué)習(xí)這些特征,通過不斷迭代、優(yōu)化,最終產(chǎn)生一個(gè)模型,使用這個(gè)模型可以實(shí)現(xiàn)機(jī)器代替人進(jìn)行復(fù)雜問題的分析及決策。機(jī)器學(xué)習(xí)建模的方法,大致可以分為分析目標(biāo)確立、數(shù)據(jù)處理與特征工程、模型建立及迭代、模型評(píng)估、模型應(yīng)用。
首先通過物聯(lián)網(wǎng)傳感器導(dǎo)出企業(yè)日運(yùn)行數(shù)據(jù),對(duì)數(shù)據(jù)格式、字段類型、數(shù)據(jù)完整性進(jìn)行初步校驗(yàn),然后以每月為單元對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)合并,形成以天為維度的統(tǒng)計(jì)分析數(shù)據(jù)。目前運(yùn)營數(shù)據(jù)字段主要包括進(jìn)水量、處理量、進(jìn)水COD、進(jìn)水SS(懸浮物)、進(jìn)水氨氮、出水COD 等運(yùn)營數(shù)據(jù)字段,詳見表1。
表1 主要污染物指標(biāo)表
目前運(yùn)營數(shù)據(jù)字段26 個(gè),本次實(shí)驗(yàn)以這部分?jǐn)?shù)據(jù)作為基礎(chǔ)數(shù)據(jù)進(jìn)行測(cè)試。通過對(duì)原始數(shù)據(jù)的分析,并參考污水處理運(yùn)行的一般規(guī)律對(duì)各個(gè)字段關(guān)聯(lián)性、相關(guān)性進(jìn)行分析字段的選擇。進(jìn)水?dāng)?shù)據(jù)與出水?dāng)?shù)據(jù)及加藥量、活性炭、電耗等消耗數(shù)據(jù)必然存在一定關(guān)聯(lián),具備數(shù)據(jù)分析的基本邏輯,可以進(jìn)行數(shù)據(jù)分析算法模擬,這些數(shù)據(jù)可以作為數(shù)據(jù)分析選定字段屬性參與到數(shù)據(jù)建模中。本次實(shí)驗(yàn)將運(yùn)用系統(tǒng)每日運(yùn)營上報(bào)數(shù)據(jù)特征進(jìn)行人工數(shù)據(jù)模擬,然后根據(jù)模擬數(shù)據(jù)進(jìn)行模型訓(xùn)練、測(cè)試及驗(yàn)證,通過結(jié)合實(shí)際的數(shù)據(jù)分析對(duì)場(chǎng)景的理解,設(shè)想日常進(jìn)水?dāng)?shù)據(jù)指標(biāo)與出水?dāng)?shù)據(jù)指標(biāo)存在數(shù)據(jù)關(guān)聯(lián),并對(duì)目前沒有收集到的屬性根據(jù)經(jīng)驗(yàn)進(jìn)行模擬評(píng)價(jià),制作樣本數(shù)據(jù),利用已知的結(jié)果進(jìn)行模型訓(xùn)練。評(píng)價(jià)方法是將歷史項(xiàng)目數(shù)據(jù)與實(shí)際運(yùn)營經(jīng)驗(yàn)相互結(jié)合制訂,隨著數(shù)據(jù)的不斷積累,屬性字段需要不斷進(jìn)行優(yōu)化調(diào)整。
3.2.1 構(gòu)建預(yù)測(cè)模型
通過大數(shù)據(jù)平臺(tái),進(jìn)行數(shù)據(jù)加載、預(yù)處理、模型算子、模型應(yīng)用、性能評(píng)估,主要流程如下:原始數(shù)據(jù)導(dǎo)入→ⅠnceptorSQL 特征工程→Sophon 可視化建模→Sophon 輸出學(xué)習(xí)模型→測(cè)試數(shù)據(jù)輸入之前模型→最終結(jié)果。
3.2.2 數(shù)據(jù)建模
3.2.2.1 創(chuàng)建實(shí)驗(yàn)
數(shù)據(jù)準(zhǔn)備與導(dǎo)入通過數(shù)據(jù)集對(duì)污水運(yùn)營數(shù)據(jù)進(jìn)行導(dǎo)入。新建一個(gè)實(shí)驗(yàn)項(xiàng)目,在實(shí)驗(yàn)中加載進(jìn)化工污水企業(yè)運(yùn)營數(shù)據(jù)作為本次實(shí)驗(yàn)的數(shù)據(jù)源,進(jìn)行模型訓(xùn)練?;の鬯髽I(yè)運(yùn)營數(shù)據(jù)是根據(jù)現(xiàn)有運(yùn)營時(shí)間不斷增加,目前有3 組數(shù)據(jù),分別是1—4 月、1—5 月、1—6 月3 組不同數(shù)據(jù),根據(jù)不同數(shù)據(jù)進(jìn)行模型訓(xùn)練,不斷增加數(shù)據(jù)量,提升模型準(zhǔn)確性。
3.2.2.2 數(shù)據(jù)處理
對(duì)數(shù)據(jù)添加字符串索引、數(shù)據(jù)類型轉(zhuǎn)換算子,為數(shù)據(jù)添加設(shè)置角色算子,然后對(duì)樣本數(shù)據(jù)進(jìn)行7∶3 切分,分為訓(xùn)練樣本和測(cè)試樣本,具體流程如圖1所示。
圖1 數(shù)據(jù)處理流程圖
3.2.2.3 算法選擇
利用人工智能算法預(yù)測(cè)藥劑添加量與進(jìn)水COD、出水量COD、處理量、其他污染物指標(biāo)、能耗等多個(gè)特征之間的關(guān)聯(lián)關(guān)系,通過對(duì)歷史數(shù)據(jù)的學(xué)習(xí),預(yù)測(cè)出特定條件下藥劑的添加量。對(duì)于機(jī)器學(xué)習(xí)而言,可以分為分類、聚類、回歸等分析方法,對(duì)本次實(shí)驗(yàn)預(yù)測(cè)類型進(jìn)行評(píng)估,分別選擇邏輯回歸、XGBoost 回歸、梯度提升回歸、隨機(jī)森林回歸算法進(jìn)行嘗試,對(duì)計(jì)算結(jié)果與實(shí)際運(yùn)營數(shù)據(jù)進(jìn)行對(duì)比,然后進(jìn)行模型預(yù)測(cè)準(zhǔn)確度性能評(píng)估。首先選擇隨機(jī)森林回歸算法進(jìn)行計(jì)算,隨機(jī)森林是以決策樹為基礎(chǔ)的一種更高級(jí)的算法,是目前機(jī)器學(xué)習(xí)分類問題中應(yīng)用最廣泛的算法之一。隨機(jī)森林是用隨機(jī)方式構(gòu)建的一個(gè)森林,而這個(gè)森林是由很多的相互不關(guān)聯(lián)的決策樹組成。本質(zhì)上屬于機(jī)器學(xué)習(xí)的一個(gè)分支稱為集成學(xué)習(xí),集成學(xué)習(xí)通過建立幾個(gè)模型組合來解決單一預(yù)測(cè)問題,它的工作原理是生成多個(gè)分類器/模型,各自獨(dú)立地學(xué)習(xí)和作出預(yù)測(cè),這些預(yù)測(cè)最后結(jié)合成單預(yù)測(cè),因此優(yōu)于任何一個(gè)單分類作出預(yù)測(cè),隨機(jī)森林可以用于分類、回歸,每個(gè)決策樹都有一個(gè)自己的結(jié)果,選擇投票數(shù)最多的結(jié)果作為其最終結(jié)果。比如要判斷一個(gè)項(xiàng)目能否成功,會(huì)根據(jù)項(xiàng)目數(shù)據(jù)的特征生成很多個(gè)決策樹,每個(gè)決策樹都是獨(dú)立的,然后讓每個(gè)決策樹對(duì)一個(gè)項(xiàng)目能否成功進(jìn)行決策,最后把所有決策樹的投票結(jié)果進(jìn)行統(tǒng)計(jì),得票最多的就作為該項(xiàng)目的最終計(jì)算結(jié)果,這個(gè)就是隨機(jī)森林的基本算法原理。實(shí)驗(yàn)是想通過水質(zhì)輸入數(shù)據(jù)、處理完成輸出數(shù)據(jù),分析預(yù)測(cè)出添加PAC 藥劑的量,所以將進(jìn)水、出水的特征數(shù)據(jù)作為輸入因子,添加藥劑量作為輸出因子,可以利用回歸算法擬合一個(gè)函數(shù),預(yù)測(cè)加藥量與輸入量(進(jìn)水、出水等輸入數(shù)據(jù))之間的關(guān)系。通過XGBoost 回歸算法、隨機(jī)森林回歸對(duì)化工污水?dāng)?shù)據(jù)進(jìn)行分析,分析預(yù)測(cè)結(jié)果如表2、表3 所示。
表2 XGBoost 回歸算法模型結(jié)果
表3 隨機(jī)森林回歸模型結(jié)果
3.2.2.4 性能評(píng)估
通過模型算法嘗試,然后利用性能回歸對(duì)模型進(jìn)行性能評(píng)估,XGBoost 回歸算法及隨機(jī)森林回歸算法模型誤差對(duì)比如表4 所示。
表4 誤差對(duì)比表
3.2.3 模型輸出
訓(xùn)練好的模型,通過打包進(jìn)行模型輸出,用于發(fā)布APⅠ(應(yīng)用程序編程接口),通過其他程序進(jìn)行調(diào)用。
3.2.4 模型應(yīng)用
使用測(cè)試數(shù)據(jù)、利用PAC 加藥預(yù)測(cè)模型,將模擬的數(shù)據(jù)作為輸入數(shù)據(jù),將1—8 月的數(shù)據(jù)作為模型訓(xùn)練數(shù)據(jù),通過學(xué)習(xí)與訓(xùn)練1—8 月數(shù)據(jù),可以預(yù)測(cè)將來需要添加的藥劑量,模型預(yù)測(cè)結(jié)果如圖2 所示。將模擬數(shù)據(jù)作為輸入數(shù)據(jù),可以預(yù)測(cè)出某種特定條件下PAC藥劑的投加量,基本達(dá)到了實(shí)驗(yàn)預(yù)期效果。
圖2 模擬預(yù)測(cè)PAC 投加量計(jì)算結(jié)果
通過從化工污水處理企業(yè)日常運(yùn)營過程中獲取原始數(shù)據(jù),然后對(duì)原始數(shù)據(jù)進(jìn)行加工處理,并結(jié)合實(shí)際業(yè)務(wù)應(yīng)用場(chǎng)景的可能性進(jìn)行數(shù)據(jù)特征選擇,設(shè)計(jì)數(shù)據(jù)分析場(chǎng)景。由于目前數(shù)據(jù)還不夠完整,數(shù)據(jù)量還不夠豐富,在日常污水處理的可檢測(cè)性、實(shí)時(shí)性等方面還存在很多不足及欠缺,所以本次實(shí)驗(yàn)人為模擬了部分?jǐn)?shù)據(jù)。利用大數(shù)據(jù)機(jī)器學(xué)習(xí)平臺(tái),對(duì)數(shù)據(jù)進(jìn)行分析處理、訓(xùn)練模型、模型測(cè)試,最后得到能夠預(yù)測(cè)加藥量的最終模型,使用最終訓(xùn)練后模型能夠預(yù)測(cè)在特定工廠運(yùn)行的前提下需要增加的藥劑量。通過本次研究,驗(yàn)證了化工污水運(yùn)營數(shù)據(jù)利用現(xiàn)有的大數(shù)據(jù)、人工智能、機(jī)器學(xué)習(xí)等工具進(jìn)行處理和分析的可行性,但是目前運(yùn)營數(shù)據(jù)積累還比較少,數(shù)據(jù)獲取途徑還比較單一,數(shù)據(jù)結(jié)構(gòu)比較簡單,數(shù)據(jù)量還不夠大,可供測(cè)試的樣本用例有限,未來伴隨著企業(yè)數(shù)據(jù)收集手段、方法的不斷更新,運(yùn)營類型數(shù)據(jù)不斷豐富,可分析場(chǎng)景會(huì)不斷增加,耗電、耗水及出水指標(biāo)、環(huán)保指標(biāo)等都可以作為分析預(yù)測(cè)的對(duì)象。通過本次實(shí)驗(yàn),對(duì)環(huán)保大數(shù)據(jù)分析方法、場(chǎng)景進(jìn)行了有益的嘗試,獲得了較好的預(yù)測(cè)效果,但與實(shí)際業(yè)務(wù)運(yùn)營的要求還是存在一定的距離,還需要在實(shí)際運(yùn)營中不斷優(yōu)化完善。