朱延平,吳霖璟,于佳麗,顧趙福,舒詩湖
(1.東華大學(xué)環(huán)境科學(xué)與工程學(xué)院, 上海 201620;2.上海市供水管理事務(wù)中心, 上海 200092;3.上海污染控制與生態(tài)安全研究院, 上海 200092)
在城市化進(jìn)程中,我國部分城市通過構(gòu)建水質(zhì)在線監(jiān)測系統(tǒng)以應(yīng)對日益凸顯的二次供水環(huán)節(jié)的問題。目前,上海市已在部分住宅小區(qū)安裝超過200個(gè)二次供水水質(zhì)在線監(jiān)測儀表,遠(yuǎn)期將實(shí)現(xiàn)每小區(qū)至少安裝1套水質(zhì)在線儀表的目標(biāo)。在線水質(zhì)監(jiān)測儀可實(shí)現(xiàn)對二次供水水質(zhì)連續(xù)采樣、實(shí)時(shí)檢測、數(shù)據(jù)反饋和信息處理等任務(wù)[1]。然而由于設(shè)備異常、外界干擾等原因,采集的數(shù)據(jù)有時(shí)不能滿足分析的需求,因此,需要梳理二次供水在線監(jiān)測數(shù)據(jù)中常見的錯(cuò)誤,并進(jìn)行數(shù)據(jù)質(zhì)量評估,從而支撐二次供水的智慧化管理。
經(jīng)過多年水質(zhì)提升工程的實(shí)施,二次供水的水質(zhì)可滿足微生物指標(biāo)、毒理指標(biāo)、放射性指標(biāo)等國家標(biāo)準(zhǔn)[2]。二次供水水質(zhì)在線監(jiān)測系統(tǒng)需要滿足監(jiān)測數(shù)據(jù)容量大、實(shí)時(shí)性強(qiáng)等特點(diǎn),同時(shí)具有監(jiān)測對象有限、信息密度低、穩(wěn)定性不足等問題。常見的飲用水水質(zhì)分析方法有神經(jīng)網(wǎng)絡(luò)法[3]、投影尋蹤方法[4]、灰色指數(shù)法[5]、物元分析法[6-7]等,不適用于分析二次供水在線監(jiān)測水質(zhì)。因此,二次供水水質(zhì)在線監(jiān)測大數(shù)據(jù)應(yīng)選擇快速、有效的處理方法,以便后續(xù)分析和水質(zhì)預(yù)警工作的展開。K-means聚類分析被廣泛應(yīng)用于水質(zhì)分析[8],其顯著優(yōu)點(diǎn)是可以定量和客觀地應(yīng)用聚類有效性指標(biāo)評估聚類結(jié)果[9]。熵值法在確定權(quán)重上可以從某種程度上避免傳統(tǒng)方法在權(quán)重確定中主觀因素的影響[10-11]。本文研究基于K-means聚類法和熵值法的二次供水水質(zhì)在線監(jiān)測評價(jià)方法及其應(yīng)用。
二次供水監(jiān)測點(diǎn)通常設(shè)置在泵房泵后、屋頂水箱、一體化箱式泵站泵后的出水口,方便在配電箱或電梯機(jī)房就近取電。因此,致錯(cuò)因素大概可歸納為3類:1)環(huán)境因素,主要影響因子為通訊信號(hào)和工作環(huán)境溫度;2)設(shè)備因素,主要影響因子為設(shè)備時(shí)鐘故障、遠(yuǎn)程傳輸單元、電池狀態(tài)和設(shè)備穩(wěn)定性能;3)其他因素,主要?dú)w納為自互聯(lián)網(wǎng)攻擊風(fēng)險(xiǎn)和設(shè)備運(yùn)行管理兩方面的影響[12]。
常見的二次供水水質(zhì)在線監(jiān)測數(shù)據(jù)根據(jù)以上3類致錯(cuò)因素又可分為4種數(shù)據(jù)錯(cuò)誤類型,分別為時(shí)間間斷型、時(shí)間錯(cuò)位型、記錄缺失型、短暫數(shù)值尖峰型(又稱“毛刺”)。4類數(shù)據(jù)錯(cuò)誤主要可歸納為2大數(shù)據(jù)特征:數(shù)據(jù)特征對數(shù)據(jù)質(zhì)量的影響較大,但易于識(shí)別和發(fā)現(xiàn);數(shù)據(jù)特征對數(shù)據(jù)質(zhì)量的影響較小,但排查困難、致錯(cuò)環(huán)節(jié)復(fù)雜。具體的數(shù)據(jù)錯(cuò)誤類型、致錯(cuò)因素和數(shù)據(jù)錯(cuò)誤特征三者的關(guān)系如圖1所示。
圖1 致錯(cuò)因素、數(shù)據(jù)錯(cuò)誤類型、數(shù)據(jù)錯(cuò)誤特征關(guān)系圖Fig.1 Factors of errors, types of wrong data and data error characteristics diagrams
運(yùn)行正常的智能設(shè)備根據(jù)設(shè)定時(shí)間記錄數(shù)據(jù),當(dāng)上傳數(shù)據(jù)的時(shí)間間隔超過用戶設(shè)定時(shí),可視為時(shí)間間斷型數(shù)據(jù)錯(cuò)誤,根據(jù)間斷時(shí)間的長短可以分為數(shù)分鐘、數(shù)小時(shí)和數(shù)天。
時(shí)間間斷型數(shù)據(jù)錯(cuò)誤主要由2種因素引起數(shù)據(jù)故障:1)較弱的通訊信號(hào)可能造成監(jiān)測設(shè)備未能在傳輸時(shí)間內(nèi)上傳全部數(shù)據(jù)[13];2)盡管在線監(jiān)測設(shè)備的就近取電方式可以保障穩(wěn)定的運(yùn)行,但電池狀態(tài)可能會(huì)導(dǎo)致數(shù)據(jù)中斷,一般水質(zhì)在線監(jiān)測設(shè)備的電池壽命為5年左右。
相鄰數(shù)據(jù)時(shí)間間隔正確,但數(shù)據(jù)記錄的時(shí)刻發(fā)生了改變,這種數(shù)據(jù)錯(cuò)誤被認(rèn)為是時(shí)間錯(cuò)位型錯(cuò)誤,主要?dú)w因于設(shè)備的遠(yuǎn)程傳輸單元的時(shí)鐘故障。
當(dāng)對應(yīng)記錄時(shí)間的記錄值為空白或“0”認(rèn)定為缺失型數(shù)據(jù)錯(cuò)誤,此類錯(cuò)誤通常是由于設(shè)備故障或環(huán)境惡劣引起的數(shù)據(jù)“丟包”導(dǎo)致。該類數(shù)據(jù)錯(cuò)誤一般包含2種情況:1)水質(zhì)在線監(jiān)測儀器對溫度敏感,通常工作環(huán)境溫度為5~40 ℃,當(dāng)工作環(huán)境溫度超出適用范圍則可能導(dǎo)致設(shè)備靈敏度下降,甚至失靈(這類問題可以通過設(shè)備的維護(hù)管理工作得到改善);2)由于設(shè)備自身的遠(yuǎn)程傳輸單元故障,導(dǎo)致設(shè)備上傳錯(cuò)誤的檢測值至工作站。
短暫數(shù)值尖峰類型的錯(cuò)誤表現(xiàn)為部分記錄數(shù)值在時(shí)間序列上呈“毛刺”狀,這通常與設(shè)備穩(wěn)定性和適應(yīng)監(jiān)測環(huán)境能力有關(guān):1)剛運(yùn)行的智能監(jiān)測設(shè)備,監(jiān)測探頭或分析單元的穩(wěn)定性不足導(dǎo)致出現(xiàn)許多極端數(shù)據(jù);2)剛運(yùn)行遠(yuǎn)傳水表的監(jiān)測靈敏性較強(qiáng),對監(jiān)測環(huán)境敏感。
長期無波動(dòng)型數(shù)據(jù)錯(cuò)誤表現(xiàn)為同一監(jiān)測點(diǎn)的時(shí)間相鄰檢測差值超過1 h的情況下始終為0,這與工作環(huán)境(環(huán)境溫度)和運(yùn)維管理有關(guān):1)監(jiān)測設(shè)備未及時(shí)進(jìn)行設(shè)備管理導(dǎo)致靈敏度下降;2)工作環(huán)境的惡劣造成智能設(shè)備故障(如檢測探頭失靈)導(dǎo)致分析結(jié)果始終不變。
本研究對L市的36個(gè)監(jiān)測點(diǎn)(檢測時(shí)間為2020年1—10月)的數(shù)據(jù)監(jiān)測結(jié)果進(jìn)行質(zhì)量評估分析,具體數(shù)據(jù)質(zhì)量說明和數(shù)據(jù)錯(cuò)誤的判定標(biāo)準(zhǔn)如表1所示。
表1 數(shù)據(jù)質(zhì)量分析總體結(jié)果匯總Table 1 Summary of overall results of data quality analysis
由表1的數(shù)據(jù)質(zhì)量分析結(jié)果可知:1)間斷數(shù)分鐘的時(shí)間間斷型錯(cuò)誤是普遍存在的數(shù)據(jù)錯(cuò)誤類型;2)記錄缺失型數(shù)據(jù)是數(shù)據(jù)錯(cuò)誤的首要類型,使用GPRS會(huì)發(fā)生包丟失現(xiàn)象;3)不同在線監(jiān)測設(shè)備所導(dǎo)致的數(shù)據(jù)錯(cuò)誤程度也不同,但此類錯(cuò)誤一般可以通過加強(qiáng)設(shè)備運(yùn)行維護(hù)管理和網(wǎng)絡(luò)安全管理的方式優(yōu)化。
L市由4個(gè)不同的水源地供水,按二次供水方式分為水箱水池聯(lián)合供水、水池加變頻泵供水、無負(fù)壓供水等方式。供水企業(yè)全面接管2000年以前建設(shè)并在近年完成改造的二次供水設(shè)施,同步建設(shè)了共36個(gè)二次供水水質(zhì)在線監(jiān)測系統(tǒng)。政府出于對二次供水監(jiān)管的目的,自主安裝了若干水質(zhì)在線監(jiān)管點(diǎn),并接入供水企業(yè)的在線監(jiān)測點(diǎn)數(shù)據(jù)。本研究采用基于K-means聚類法和熵值法的二次供水水質(zhì)在線監(jiān)測數(shù)據(jù)評價(jià)方法,技術(shù)路線如圖2所示。
圖2 二次供水水質(zhì)評價(jià)方法及相關(guān)分析技術(shù)路線圖Fig.2 Water quality assessment methods and related analysis technology roadmap of secondary water supply
大數(shù)據(jù)分析的理論核心是數(shù)據(jù)挖掘算法,包括聚類分析、回歸分析、因子分析等。聚類算法是常用的大數(shù)據(jù)分析方法,最大應(yīng)用優(yōu)勢在于能夠簡單快速地處理大數(shù)據(jù),并可自主設(shè)定初始聚類中心K,通常選用常規(guī)的歐幾里得距離作為相似度指標(biāo)[14],如式(1)所示。
(1)
式中:xi、yi分別為不同樣本x、y的N維數(shù)值;N為二次供水監(jiān)測指標(biāo)數(shù),此處為2維。
現(xiàn)以L市二次供水在線監(jiān)測結(jié)果為數(shù)據(jù)樣本(監(jiān)測指標(biāo)為余氯和濁度),對比設(shè)定聚類中心分別為2、3時(shí)的兩種聚類結(jié)果(k=2,k=3):
1)當(dāng)設(shè)定k=2類時(shí),余氯對水質(zhì)分類的影響較大,分界線約為0.35 mg/L,工程經(jīng)驗(yàn)表明,針對小區(qū)內(nèi)而言,余氯值為0.05~0.30 mg/L,較為理想。
2)當(dāng)設(shè)定k=3類時(shí),濁度與余氯共同作用水質(zhì)分類,二次供水水質(zhì)聚類分析結(jié)果如圖3所示。由圖3可知,目前存在的3類二次供水水質(zhì)特點(diǎn):Ⅰ類水的余氯值適中且濁度控制最好,Ⅰ類水樣本占比為79.1%;Ⅱ類水的余氯值相對較低(處于合適的范圍),同時(shí)濁度適中,Ⅱ類水樣本占比為14.5%;Ⅲ類水的余氯值相對較高(處于合適的范圍),同時(shí)濁度普遍較高,且水質(zhì)季節(jié)性變化最明顯,Ⅲ類水樣本占比為6.5%。濁度和余氯會(huì)共同影響水質(zhì)分類,Ⅰ類、Ⅱ類和Ⅱ類、Ⅲ類水濁度的界限分別為0.2 NTU左右、0.4 NTU左右,Ⅰ類、Ⅱ類和Ⅱ類、Ⅲ類水余氯的界限分別為0.3 mg/L和0.8 mg/L。
圖3 二次供水水質(zhì)聚類分析結(jié)果(k=3)Fig.3 Cluster analysis results of water supply of secondary water supply (k=3)
根據(jù)上述的兩種聚類中心(k=2,3)的分析結(jié)果,并結(jié)合實(shí)際經(jīng)驗(yàn),人為確定了水質(zhì)評價(jià)的劃分標(biāo)準(zhǔn),具體如表2所示。并依據(jù)水質(zhì)評價(jià)的劃分標(biāo)準(zhǔn)和所有監(jiān)測點(diǎn)的檢測平均值進(jìn)行評分,初步得出計(jì)算結(jié)果。
表2 水質(zhì)評價(jià)劃分標(biāo)準(zhǔn)Table 2 Criteria for water quality assessment
熵值法通過各項(xiàng)評價(jià)指標(biāo)觀測值所提供信息量的大小來確定評價(jià)指標(biāo)權(quán)重系數(shù),也可用作指標(biāo)離散程度的評判方式,離散值越大代表該指標(biāo)對綜合評價(jià)的影響越大[15]。
通過熵值法細(xì)化上述劃分的4類水質(zhì)可較好地對數(shù)量較多的監(jiān)測點(diǎn)進(jìn)行后續(xù)分析,規(guī)定熵值法得分(S波動(dòng))不超過1從而保證表2中劃分的水質(zhì)區(qū)別,將表2計(jì)算所得的初步得分結(jié)合熵值法,可得出各點(diǎn)的水質(zhì)波動(dòng)得分S余氯和S濁度,代入式(2)和式(3)得出最終水質(zhì)得分結(jié)果S得分。
S波動(dòng)=S余氯+S濁度
(2)
S得分=S標(biāo)準(zhǔn)-S波動(dòng)
(3)
分別采用單因素方差分析(one-way analysis of variance, ANOVA)和交叉列聯(lián)表法,利用LSD(least significant difference)、皮爾遜數(shù)等顯著性計(jì)算方法,對水源地、水處理工藝、供水方式和管網(wǎng)年限等4個(gè)因素與二次供水水質(zhì)得分單獨(dú)和綜合的相關(guān)性分析,當(dāng)p<0.05時(shí),單因素與水質(zhì)得分存在相關(guān)性,具體結(jié)果如表3所示。表4為主體間效應(yīng)檢驗(yàn)。
表3 單因素與水質(zhì)得分的相關(guān)性分析
表4 主體間效應(yīng)檢驗(yàn)Table 4 Intersubjective effect test
由表3和表4可知:
1)供水方式將直接影響監(jiān)測點(diǎn)的濁度和余氯指標(biāo)(p<0.05),水源地也存在直接影響監(jiān)測點(diǎn)二次供水水質(zhì)的可能(p=0.07)。盡管水處理工藝和管網(wǎng)使用年限并未直接影響二次供水水質(zhì),但二次供水方式和管網(wǎng)使用年限與水質(zhì)存在協(xié)同效應(yīng),共同影響二次供水水質(zhì)。
2)結(jié)合4種因素的綜合影響上看,按照影響比重從大到小排序分別為供水方式、管網(wǎng)使用年限和水源地共同影響二次供水水質(zhì)情況,水處理工藝并不能對二次供水的濁度和余氯造成直接或間接影響。
將2020年1月、2月二次供水水質(zhì)得分協(xié)方差分析法與2019年1月、2月二次供水水質(zhì)得分進(jìn)行對比(即分析相隔一年的同月份二次供水水質(zhì)得分,當(dāng)p<0.05時(shí),存在相關(guān)性)。分析結(jié)果表明4種因素導(dǎo)致水質(zhì)在2年內(nèi)水質(zhì)變化的影響十分有限,因此,水質(zhì)的長期監(jiān)測顯得更有意義。
結(jié)合第2.4小節(jié)相關(guān)性分析和協(xié)方差的結(jié)果可知,2年內(nèi)水質(zhì)的變化與以上4類因素不具備相關(guān)性,其中管網(wǎng)使用年限的顯著性最小(p=0.19,但是遠(yuǎn)大于0.05)。從協(xié)同影響角度上看,管網(wǎng)使用年限和水源地的共同作用最有可能對逐年二次供水水質(zhì)產(chǎn)生影響(p=0.12,大于0.05),但并不能認(rèn)為兩者間存在相關(guān)性;其次為供水方式和水源地的協(xié)同影響(p=0.17,大于0.05),因此,水源地對二次供水水質(zhì)的間接影響也不可忽視。
箱形圖是一種顯示數(shù)據(jù)分散情況資料的統(tǒng)計(jì)圖,主要用于反映原始數(shù)據(jù)分布的特征,并進(jìn)行多組數(shù)據(jù)分布特征的比較,其數(shù)據(jù)上邊緣和下邊緣分別代表上、下兩個(gè)四分位數(shù),箱體中間為中位數(shù)。將余氯、濁度兩個(gè)指標(biāo)以月份為組別進(jìn)行對比,以觀察供水環(huán)節(jié)對水質(zhì)分散度的影響。L市12個(gè)月份總體余氯水平如圖4所示,L市12個(gè)月份總體濁度水平如圖5所示。
圖5 L市12個(gè)月總體濁度水平Fig.5 Overall turbidity level of L city in 12 months
由圖4的余氯散度水平可知:L市12個(gè)月余氯波動(dòng)為0.25~0.75 mg/L,異常值較少,總體余氯水平良好;其中6月、7月的余氯合格率最低,但也達(dá)到95%以上;普遍溫度高的月份余氯水平低于其他月份,但從散度分布上看差別不大,這表明二次供水環(huán)節(jié)中對余氯的管控較為到位,基本可以滿足余氯標(biāo)準(zhǔn)。
由圖5的濁度散度水平可知:L市12個(gè)月總體濁度水平良好,各月份濁度普遍低于0.2 NTU,合格率幾乎達(dá)到96%以上,各月濁度水平和濁度散度水平相差不大,但異常值較多,這表明部分點(diǎn)的供水設(shè)施需要管理,某些檢測點(diǎn)需要重點(diǎn)關(guān)注。
1)不同水質(zhì)在線監(jiān)測儀器對應(yīng)的數(shù)據(jù)質(zhì)量有所不同,本研究發(fā)現(xiàn)濁度儀的數(shù)據(jù)質(zhì)量明顯高于余氯儀。以間斷數(shù)分鐘型為主的時(shí)間間斷型數(shù)據(jù)錯(cuò)誤是普遍存在的(占比約1.5%),區(qū)別于余氯儀和濁度儀的主要數(shù)據(jù)錯(cuò)誤類型為記錄缺失型。
2)供水方式和水源地改造工程應(yīng)當(dāng)作為二次供水水質(zhì)提升工作的方向,其中供水方式的改造工程更為重要。目前并未發(fā)現(xiàn)城市采用的水處理工藝(主要為“常規(guī)處理+深度處理或深度處理)與二次供水水質(zhì)存在明顯的直接或間接聯(lián)系,說明二次供水水質(zhì)目前不受水處理工藝影響。
3)供水方式、水源地、水處理工藝和管網(wǎng)使用年限均單獨(dú)對逐年二次供水水質(zhì)變化的影響有限,但水源地的影響不可忽略,因此未來可以從供水方式、水處理工藝和管網(wǎng)使用年限3個(gè)方面保證二次供水水質(zhì)穩(wěn)定性,其中管網(wǎng)運(yùn)維管理是保障逐年水質(zhì)穩(wěn)定性的關(guān)鍵。從水質(zhì)散度分析上看,目前供水企業(yè)對余氯指標(biāo)的管控較為到位,而濁度指標(biāo)應(yīng)是未來重點(diǎn)優(yōu)化的對象,尤其應(yīng)關(guān)注少數(shù)濁度異常的檢測點(diǎn)。
此外,建議除了余氯和濁度,可適當(dāng)增加高錳酸鹽指數(shù)(CODMn)、pH等少數(shù)檢測簡單、代表性強(qiáng)的水質(zhì)指標(biāo)作為二次供水在線監(jiān)測對象。