薛方家,喻 潔,尹 航,夏戚宇,施杰根,侯迪波,黃平捷,張光新
浙江大學(xué)控制科學(xué)與工程學(xué)院,工業(yè)控制技術(shù)國家重點(diǎn)實(shí)驗(yàn)室,浙江 杭州 310058
供水安全是國家安全中極為重要的一環(huán),它是社會(huì)正常運(yùn)作的重要保障之一[1]。近幾十年來,雖然隨著公民素質(zhì)的提高,生活廢水對(duì)水體的污染事件明顯減少,但是偷排工業(yè)廢水仍數(shù)見不鮮,突發(fā)性污染事故更是頻頻發(fā)生。根據(jù)對(duì)國內(nèi)水污染事件的統(tǒng)計(jì),污染環(huán)節(jié)主要發(fā)生在水源污染、管網(wǎng)污染以及二次供水污染,且污染原因以化學(xué)性污染為主,其中有機(jī)物污染尤為嚴(yán)重[2]。因此為了減少突發(fā)性污染產(chǎn)生的損失,迫切需要一種更加快捷實(shí)時(shí)的水質(zhì)檢測方法。
飲用水污染檢測的常用方法有化學(xué)分析法[3]、氣相色譜法[4]、質(zhì)譜法[4]、光譜法[5]等方法。相較于其他方法,光譜法無需復(fù)雜且耗時(shí)的樣品富集、化學(xué)試劑添加和其他預(yù)處理操作,具有儀器成本更低、檢測操作更簡單、檢測結(jié)果獲取更快速、無二次污染等優(yōu)點(diǎn)。此外,三維熒光靈敏度高、信息豐富,能夠更有效地檢測低濃度有機(jī)物污染,并對(duì)污染物進(jìn)行識(shí)別[6-8]。
近年來,三維熒光光譜越來越多地被應(yīng)用于飲用水污染檢測、城市供水突發(fā)污染檢測與預(yù)警中。Peiris[9]等利用主成分分析法(PCA)對(duì)三維熒光原始數(shù)據(jù)進(jìn)行特征提取,根據(jù)提取的特征值對(duì)超濾和納濾飲用水的系統(tǒng)性能進(jìn)行檢測,實(shí)現(xiàn)了對(duì)飲用水處理過程中膜污染事件的預(yù)警;Heibati[10]等采用平行因子法(PARAFAC)對(duì)飲用水的三維熒光數(shù)據(jù)進(jìn)行特征提取,發(fā)現(xiàn)溶解有機(jī)物(DOM)的熒光組分能夠反映飲用水是否受到污染。PCA和PARAFAC能夠有效提取三維熒光光譜圖中的信息,使得三維熒光檢測方法能夠檢測水體中的污染物,但也存在一定的局限性:由于在特征提取過程中,對(duì)三維熒光光譜數(shù)據(jù)進(jìn)行線性化處理,會(huì)損失部分特征信息因此在檢測低濃度污染物時(shí),難以有效區(qū)分低強(qiáng)度熒光峰與外界干擾[11]。而飲用水中出現(xiàn)有機(jī)污染物質(zhì)的濃度大多較低(μg·L-1級(jí)別),因此常規(guī)的基于PCA和PARAFAC的水質(zhì)異常檢測方法較難實(shí)現(xiàn)飲用水突發(fā)性污染的有效檢測。
為了解決PCA和PARAFAC對(duì)低濃度污染物檢出率低的問題,許多學(xué)者提出了其他熒光分析方法來彌補(bǔ)這一缺陷。Huang[12]等使用2-D Gabor小波從三維熒光光譜中提取特征,并將其與SVM結(jié)合以識(shí)別水中存在的污染物;Yu[13]等采用了對(duì)PARAFAC方法進(jìn)行改進(jìn)的三線性分解(ATLD)方法來分析正常飲用水樣品的特征,通過殘差矩陣、閾值方法使研究人員能夠確定飲用水是否受到污染;陳方[14]等通過設(shè)計(jì)了不同環(huán)境下的實(shí)驗(yàn),對(duì)不同水質(zhì)環(huán)境得到的水樣本進(jìn)行分析,對(duì)比了基于殘差平方,奇異值分解和三線性分解模型三種特征提取方法,通過對(duì)比不同方法在不同水環(huán)境中的效果,提高了三維熒光水質(zhì)檢測在不同污染環(huán)境下的準(zhǔn)確率。這些方法雖然有效提高了飲用水中低濃度污染物的檢出率,但是對(duì)飲用水背景波動(dòng)缺乏適應(yīng)性。飲用水三維熒光光譜(背景光譜)會(huì)隨著時(shí)間、外界環(huán)境變化等各種干擾,不斷發(fā)生變化。在檢測低濃度污染時(shí),傳統(tǒng)特征提取結(jié)合分類器的方法由于未考慮三維熒光光譜在時(shí)間維度上的相關(guān)性,易受到背景波動(dòng)和外界干擾,進(jìn)而造成誤報(bào)和漏報(bào)。
飲用水背景變化造成的外界干擾,可以分為周期性干擾與隨機(jī)性干擾。在時(shí)間序列上,干擾與真正污染發(fā)生時(shí)的三維熒光特征值變化情況存在明顯區(qū)別:周期性干擾發(fā)生時(shí),特征值周期性超出閾值范圍;隨機(jī)性干擾發(fā)生時(shí),特征值表現(xiàn)出突然上升突然下降的特點(diǎn),同時(shí)突發(fā)性污染事件特征值常存在持續(xù)上升,趨于平穩(wěn),持續(xù)下降的過程?;谕饨绺蓴_與實(shí)際污染在時(shí)間維度上不同的表現(xiàn),可以對(duì)時(shí)間序列三維熒光數(shù)據(jù)進(jìn)行時(shí)間序列分析,實(shí)現(xiàn)污染事件的檢測。此前,于紹慧[15]等利用時(shí)間維和光譜維的內(nèi)在特性,采用時(shí)間維補(bǔ)償矩陣和相鄰時(shí)段三維熒光矩陣的累計(jì)相似度,對(duì)按時(shí)間順序排列的三維熒光光譜數(shù)據(jù)中的異常值進(jìn)行了檢測。采用時(shí)間序列累積的方法,雖然能放大異常值的三維熒光信息,但同樣會(huì)放大外界干擾,難以有效區(qū)分外界干擾與實(shí)際污染事件。
針對(duì)上述問題,本文提出了一種將三維熒光與時(shí)間序列異常檢測相結(jié)合的方法,該方法不僅能檢測飲用水體中的低濃度有機(jī)物污染,更加能夠解決低濃度污染事件檢測過程中飲用水背景波動(dòng)的問題。本方法先采用主成分分析法提取三維熒光光譜的前兩個(gè)主元特征值,訓(xùn)練線性自回歸(AR)模型并對(duì)未來時(shí)段主元特征值進(jìn)行預(yù)測,與實(shí)測主元特征值作差得到特征值差值,用于排除周期性干擾的影響;并對(duì)實(shí)測特征值變化率進(jìn)行計(jì)算,用于排除隨機(jī)性干擾的影響。最終設(shè)置特征值差值-特征值變化率雙閾值確定污染的起始點(diǎn)與結(jié)束點(diǎn),從而確定整個(gè)污染事件。并且設(shè)計(jì)實(shí)驗(yàn),選取苯酚作為模擬污染物,分別模擬了高濃度有機(jī)物突發(fā)性污染、低濃度有機(jī)物突發(fā)性污染以及飲用水背景大幅度波動(dòng)下的低濃度有機(jī)物突發(fā)性污染,并將時(shí)間序列雙閾值方法與傳統(tǒng)的三維熒光檢測方法在檢測準(zhǔn)確率上進(jìn)行了對(duì)比,證明了方法的有效性。
為了證實(shí)本文提出的時(shí)間序列雙閾值法對(duì)飲用水特征污染物進(jìn)行定性判別檢測的有效性,本文搭建了飲用水污染模擬事件檢測系統(tǒng),如圖1所示,其包含了污染模擬系統(tǒng)和光譜檢測系統(tǒng)。污染模擬系統(tǒng)中,飲用水和污染物分別由A、B泵抽取混合,模擬突發(fā)性污染事件,并可以通過改變雙泵流量,實(shí)時(shí)控制污染物濃度;光譜檢測系統(tǒng)中,熒光測量儀器采用Horiba公司的Aqualog為檢測設(shè)備,激發(fā)波長設(shè)置范圍為240~800 nm,發(fā)射波長設(shè)置范圍為243.544~823.84 nm,積分時(shí)間0.1 s,每90 s就可以實(shí)現(xiàn)一次三維熒光光譜采樣,可以得到時(shí)間序列三維熒光光譜數(shù)據(jù)。
圖1 實(shí)驗(yàn)裝置示意圖Fig.1 Schematic diagram of experimental device
在污染物選取方面,苯酚作為飲用水中常見的污染物,已經(jīng)被我國《生活飲用水衛(wèi)生標(biāo)準(zhǔn)》(GB5749—2022)列為生活飲用水水質(zhì)的擴(kuò)展指標(biāo)[16],因此實(shí)驗(yàn)選取苯酚作為模擬污染物,依據(jù)《生活飲用水衛(wèi)生標(biāo)準(zhǔn)》(GB5749—2022)中苯酚限值,設(shè)計(jì)了三組不同環(huán)境下模擬突發(fā)性污染實(shí)驗(yàn)進(jìn)行驗(yàn)證。
第一組實(shí)驗(yàn)用于模擬突發(fā)性污染發(fā)生在檢測點(diǎn)附近的高濃度污染事件,實(shí)驗(yàn)中苯酚濃度梯度設(shè)置為40~200 μg·L-1,共5個(gè)污染事件,實(shí)驗(yàn)共進(jìn)行120 min,獲得三維熒光光譜數(shù)據(jù)35個(gè)。
第二組實(shí)驗(yàn)用于模擬突發(fā)性污染發(fā)生點(diǎn)距離檢測點(diǎn)較遠(yuǎn),由擴(kuò)散導(dǎo)致的低濃度污染事件,實(shí)驗(yàn)中苯酚濃度梯度設(shè)置為5~20 μg·L-1,共3個(gè)污染事件,獲得三維熒光光譜數(shù)據(jù)85個(gè)。
第三組實(shí)驗(yàn)選用sipper實(shí)驗(yàn)裝置直接從管道取水,由于sipper裝置內(nèi)水流量不斷發(fā)生變化,外界干擾也明顯大于之前兩組實(shí)驗(yàn),與真實(shí)管道相類似,用于模擬水質(zhì)背景波動(dòng)下的低濃度污染事件,實(shí)驗(yàn)中苯酚濃度設(shè)置為2 μg·L-1,共1個(gè)污染事件,獲得三維熒光光譜數(shù)據(jù)137個(gè),其中前40個(gè)數(shù)據(jù)點(diǎn)用于訓(xùn)練AR模型,后97個(gè)數(shù)據(jù)點(diǎn)用于測試算法有效性。
算法的流程如圖2所示,預(yù)處理實(shí)驗(yàn)數(shù)據(jù)得到的三維熒光在線數(shù)據(jù),使用主成分分析法(PCA)進(jìn)行降維得到主元特征值數(shù)據(jù),之后通過線性自回歸(AR)方法進(jìn)行特征值預(yù)測,得到特征值差值與特征值變化率,根據(jù)設(shè)定的閾值確定污染事件起始和結(jié)束點(diǎn),從而確定整個(gè)污染事件,并將檢測的準(zhǔn)確率與支持向量機(jī)檢測結(jié)果,以及基于支持向量機(jī)(SVM)的時(shí)間序列修正結(jié)果進(jìn)行對(duì)比,對(duì)算法進(jìn)行評(píng)估。
圖2 方法流程圖Fig.2 Algorithm framework diagram
1.2.1 數(shù)據(jù)預(yù)處理
從三維熒光儀器中得到的數(shù)據(jù),需要經(jīng)過去散射和歸一化預(yù)處理:
(1)去散射:在三維熒光光譜的測量中,由于復(fù)雜的能級(jí)躍遷,瑞利散射和拉曼散射同時(shí)發(fā)生,散射光的干擾嚴(yán)重影響了光譜的靈敏度及光譜數(shù)據(jù)分析[17],會(huì)對(duì)污染物檢測造成影響,而通過去散射可以使污染物的特征峰更加明顯,增強(qiáng)污染檢測的精度。本文采用插值法對(duì)原始光譜數(shù)據(jù)進(jìn)行預(yù)處理來減少瑞利散射對(duì)檢測的影響,并采用扣除空白溶劑背景的方法消除拉曼散射的影響。
(2)歸一化:三維熒光儀測得的三維熒光光譜數(shù)據(jù)會(huì)出現(xiàn)小于0的情況,三維熒光強(qiáng)度并不會(huì)小于0,因此屬于誤報(bào),需要將三維熒光數(shù)據(jù)小于0的值改成0。而對(duì)于不同時(shí)間獲得的水樣,容易受到溫度,濕度以及其他外界環(huán)境干擾造成數(shù)據(jù)不統(tǒng)一,因此在完成每組實(shí)驗(yàn)之前先檢測純水水拉曼值,每組數(shù)據(jù)除以當(dāng)日的水拉曼值后進(jìn)行歸一化處理。在水拉曼處理后,再進(jìn)行標(biāo)準(zhǔn)化處理此處采用min-max標(biāo)準(zhǔn)化,其數(shù)學(xué)表達(dá)式如式(1)所示
(1)
式(1)中,X′為歸一化處理后的數(shù)據(jù),X為原數(shù)據(jù),data_max為三維熒光數(shù)據(jù)中的最大值,data_min為三維熒光數(shù)據(jù)中的最小值。
1.2.2 主成分分析法
主成分分析法(PCA)[18]是一種數(shù)據(jù)降維算法,通過正交變換將一組存在相關(guān)性的變量轉(zhuǎn)換為一組線性不相關(guān)的變量,轉(zhuǎn)換后的這組變量稱為主成分,主成分按其方差大小排序,第一成分含有原始數(shù)據(jù)最多的信息,第二成分含原始數(shù)據(jù)次多信息,依次類推,保留低階主成分就等同于保留了原始數(shù)據(jù)主要特征信息。假設(shè)有m個(gè)n維向量xi,它們之間存在一定相關(guān)性,要提取它們主要特征信息,PCA算法實(shí)現(xiàn)如下:
1.2.3 特征值差值-特征值變化率雙閾值方法
特征值差值-特征值變化率雙閾值算法基于干擾與真實(shí)污染事件不同的特點(diǎn)進(jìn)行設(shè)計(jì),在時(shí)間全維度上,外界干擾發(fā)生時(shí)特征值表現(xiàn)出突然上升突然下降的特點(diǎn),而突發(fā)性污染事件發(fā)生時(shí)特征值常有持續(xù)上升,趨于平穩(wěn),持續(xù)下降的過程。其具體判斷流程如下:
(2)
Qt=(Yt-Yt-1)/Δt
Qt+1=(Yt+1-Yt)/Δt
(3)
式(3)中,Δt為三維熒光光譜采樣間隔時(shí)間。
(4)
式(4)中,P,Q1,Q2分別為特征值差值以及特征值變化率的閾值,本文中,P=0.5,Q1=0.5 min-1,Q2=-0.5 min-1。
依照以上算法,可以對(duì)污染發(fā)生和結(jié)束點(diǎn)進(jìn)行準(zhǔn)確判斷,從而確定整個(gè)污染事件,算法對(duì)污染起始點(diǎn)的判斷邏輯框架圖如圖3所示。
圖3 算法邏輯框架圖Fig.3 Algorithm logic framework diagram
高濃度污染檢測結(jié)果如圖4所示,可以看出,由于污染物濃度較高,各方法都能很好地檢測出突發(fā)性污染事件。該實(shí)驗(yàn)用于模擬突發(fā)性污染發(fā)生在污染監(jiān)測點(diǎn)附近的情況,苯酚濃度梯度設(shè)置為40~200 μg·L-1,共設(shè)置5個(gè)污染事件,各個(gè)事件苯酚濃度分別為200、160、120、80和40 μg·L-1。
圖4 高濃度污染檢測結(jié)果Fig.4 High-level pollution test results
低濃度污染檢測結(jié)果如圖5所示,可以看出,傳統(tǒng)SVM分類由于低濃度苯酚的三維熒光光譜特征峰較低,容易與自來水中受外界干擾出現(xiàn)的干擾峰相混淆,因此出現(xiàn)大量低濃度苯酚污染被誤報(bào)的情況。該實(shí)驗(yàn)用于模擬突發(fā)性污染發(fā)生點(diǎn)距離檢測點(diǎn)較遠(yuǎn),由擴(kuò)散導(dǎo)致的低濃度污染事件,實(shí)驗(yàn)中苯酚濃度梯度設(shè)置為5~20 μg·L-1,共3個(gè)污染事件。
圖5 低濃度污染檢測結(jié)果Fig.5 Low-level pollution test results
對(duì)于低濃度的突發(fā)性污染中傳統(tǒng)SVM分類結(jié)果進(jìn)行分析后可以發(fā)現(xiàn),很多誤報(bào)漏報(bào)點(diǎn)都以孤立的形式出現(xiàn),如圖6,在低濃度污染檢測結(jié)果中,A、B、C點(diǎn)就是明顯的誤報(bào)漏報(bào)點(diǎn)。可以根據(jù)時(shí)間序列上SVM對(duì)前后幾個(gè)時(shí)間點(diǎn)是否發(fā)生污染的分類結(jié)果,對(duì)該點(diǎn)是否存在污染進(jìn)行重新判斷,如式(5)所示
圖6 低濃度污染檢測誤報(bào)點(diǎn)Fig.6 False alarm point of low-level pollution test
rt=0.4ct+0.2ct-1+0.2ct-2+0.2ct+1
(5)
式(5)中,ct為原分類結(jié)果,rt為修正值,1代表存在污染,0代表無污染。
時(shí)間序列修正的過程如圖7所示,經(jīng)過簡單的時(shí)間序列修正,如表1所示,低濃度污染檢測結(jié)果準(zhǔn)確率明顯上升。
表1 修正準(zhǔn)確率對(duì)比Table 1 Correction accuracy comparison
圖7 時(shí)間序列修正過程圖Fig.7 Time-series correction process
水質(zhì)背景波動(dòng)選取模擬真實(shí)管道作為實(shí)驗(yàn)對(duì)象,在水流量不斷變化、高外界干擾的情況下,實(shí)驗(yàn)中飲用水背景三維熒光光譜圖在外界干擾下不斷發(fā)生變化,如圖8所示,四張圖均為無污染發(fā)生時(shí)的正常飲用水背景三維熒光光譜圖,但是其特征峰明顯存在不同,因此PCA提取得到的主元特征值也隨著時(shí)間不斷變化,如圖10(a)所示,無法采用SVM對(duì)污染事件和背景波動(dòng)正常值進(jìn)行有效區(qū)分。
圖8 水質(zhì)背景三維熒光光譜波動(dòng)圖(a)—(d)為不同時(shí)間段的飲用水光譜圖Fig.8 Three dimensional fluorescence spectrum fluctuation of water quality background(a)—(d) are the EEM of drinking water in different time periods
在這種環(huán)境中,各算法檢測結(jié)果如圖9所示,可以看出,在高干擾和污染物濃度很低的情況下,傳統(tǒng)SVM方法出現(xiàn)大量誤報(bào)和漏報(bào),難以有效檢測污染事件。
圖9 水質(zhì)背景波動(dòng)下的低濃度污染檢測結(jié)果Fig.9 Low concentration pollution detection results under fluctuating water quality background
因此需要對(duì)高干擾環(huán)境使用時(shí)間序列雙閾值方法進(jìn)一步改善準(zhǔn)確性。以主元貢獻(xiàn)率最高的兩個(gè)特征值為對(duì)象,建立線性自回歸模型,綜合考慮主元特征值閾值與變化率進(jìn)行異常檢測。此處將前40個(gè)未發(fā)生污染的數(shù)據(jù)選作訓(xùn)練集,選取其PCA貢獻(xiàn)度最高的兩個(gè)主元作為輸入,經(jīng)過最小二乘法,確定AR模型如式(6)所示,其中貢獻(xiàn)度最高的主元特征值預(yù)測結(jié)果與實(shí)測值對(duì)比圖如圖10(b)所示,主元特征值變化率如圖10(c)所示
圖10 主元特征值圖像(a):主元特征值變化曲線;(b):正常水背景主元特征值預(yù)測結(jié)果;(c):主元特征值變化率Fig.10 The image of principal component(a):The change curve of principal component;(b):The prediction result of principal component in the normal water background;(c):The change rate of principal component
(6)
從預(yù)測與實(shí)測值曲線可以看出,在未發(fā)生污染事件時(shí),預(yù)測結(jié)果與實(shí)測值擬合效果較好,污染發(fā)生后,兩者出現(xiàn)了明顯的偏差,先采用閾值法對(duì)苯酚污染進(jìn)行檢測,綜合考慮第一主元與第二主元,預(yù)測值與實(shí)測值差值計(jì)算公式如式(7)所示
(7)
表2 雙閾值檢測準(zhǔn)確率對(duì)比Table 2 Comparison of double threshold detection accuracy
如表3所示,高干擾環(huán)境采用時(shí)間序列雙閾值檢測方法后,檢測準(zhǔn)確率相較簡單的時(shí)間序列修正上升了11.4%,尤其是對(duì)非邊緣的誤報(bào)區(qū)有了很大程度的改善,能夠有效地將污染事件與水樣本身波動(dòng)區(qū)分開來,檢測背景波動(dòng)較大環(huán)境下的低濃度污染事件。
表3 不同算法在不同環(huán)境下準(zhǔn)確率對(duì)比表Table 3 Comparison table of accuracy of different algorithms in different environments
針對(duì)三維熒光方法檢測低濃度污染物質(zhì)時(shí),傳統(tǒng)判別方法容易受到水樣本身波動(dòng)以及檢測設(shè)備噪聲等影響,進(jìn)而產(chǎn)生污染事件誤報(bào)和漏報(bào)等不足,提出了一種基于時(shí)間序列雙閾值法的三維熒光水質(zhì)異常事件檢測模型,通過挖掘三維熒光數(shù)據(jù)時(shí)間維度信息,設(shè)置特征值差值、特征值變化率閾值,有效解決了三維熒光在污染檢測過程中受水質(zhì)背景波動(dòng)影響等問題。實(shí)驗(yàn)結(jié)果表明,該方法不僅在高濃度污染事件中檢測準(zhǔn)確,在低濃度污染、水質(zhì)背景波動(dòng)下的低濃度污染檢測中,準(zhǔn)確率分別達(dá)到了98.8%和99.0%,相較于傳統(tǒng)的判別方法,檢測準(zhǔn)確率明顯上升,說明本方法可以有效檢測水質(zhì)背景波動(dòng)下的低濃度污染事件,為三維熒光在線監(jiān)測飲用水的有機(jī)物突發(fā)性污染提供了幫助。