戴 源,謝繼征,袁 靜,沈 薇,郭宏達(dá),孫小平,王志剛
1. 江蘇省揚(yáng)州環(huán)境監(jiān)測中心, 江蘇 揚(yáng)州 225100 2. 揚(yáng)州大學(xué)環(huán)境科學(xué)與工程學(xué)院, 江蘇 揚(yáng)州 225009
隨著城市化進(jìn)程的日益加快, 城市及周邊地表水的污染源不斷增加, 水質(zhì)不斷惡化, 對生態(tài)系統(tǒng)和人類健康構(gòu)成威脅[1]。 城市及周邊地表水中的有機(jī)污染物主要來自陸地生活源、 地表徑流、 工業(yè)、 服務(wù)業(yè)、 養(yǎng)殖業(yè)和水生生物源污染, 以蛋白質(zhì)、 氨基酸、 腐殖酸、 脂肪等有機(jī)污染物為主。 環(huán)境監(jiān)測技術(shù)通過化學(xué)需氧量(CODCr)、 高錳酸鹽指數(shù)(CODMn)、 氨氮(NH3-N)、 總磷(TP)、 總氮(TN)和五日生化需氧量(BOD5)等指標(biāo)表征水體有機(jī)污染, 其中CODCr, CODMn和BOD5通常用于表示水體中有機(jī)污染物總量; NH3-N, TN和TP的含量升高會導(dǎo)致水體富營養(yǎng)化, 破壞生物多樣性并產(chǎn)生臭味。
城市及周邊地表水一直以來都是環(huán)境監(jiān)測工作的重點(diǎn), 但傳統(tǒng)監(jiān)測手段存在監(jiān)測周期長、 采樣缺乏代表性、 水樣前處理復(fù)雜、 分析難度高等困難, 往往造成監(jiān)測數(shù)據(jù)時空分布不足, 監(jiān)測數(shù)據(jù)滯后等問題, 因此開發(fā)連續(xù)、 高效、 低耗的水質(zhì)原位監(jiān)測技術(shù)具有重要意義[2]。 近年來, 水體熒光光譜技術(shù)常被用來快速反演水體中TP, TN, NH3-N, BOD5和COD等指標(biāo)[3-5], 避免了化學(xué)試劑的使用和復(fù)雜的水樣前處理過程。 三維熒光光譜技術(shù)可以在較寬的激發(fā)和發(fā)射波長范圍內(nèi)獲取水體有機(jī)物豐富的光譜信息, 具有快速、 可靠、 實(shí)用的優(yōu)點(diǎn), 近年來被廣泛應(yīng)用于化學(xué)分析和環(huán)境監(jiān)測領(lǐng)域。 Yang等[6]使用激發(fā)發(fā)射矩陣三維熒光平行因子法(EEM-PARAFAC)對污水處理廠水樣進(jìn)行分析, 得到類蛋白等有機(jī)污染物的熒光特征峰位置, 利用多元線性回歸算法(multiple linear regression, MLR)針對COD等有機(jī)污染指標(biāo)建立預(yù)測模型, 實(shí)現(xiàn)對水處理效果的快速評價。 陳方等[7]使用平行因子算法(PARAFAC)分析苯酚等有機(jī)污染因子的三維熒光光譜, 提出針對清潔水和污水的二分類支持向量機(jī)(SVM)模型。 但是, 現(xiàn)有研究大多針對模擬配制水樣或單一類型的少量水質(zhì)樣本, 依賴已有的光譜特征經(jīng)驗(yàn)選擇算法, 從三維熒光光譜中提取若干點(diǎn)狀光譜信息用于水質(zhì)評價。 由于地表水中有機(jī)污染物種類繁多, 各種物質(zhì)的熒光峰位置和波段范圍不同, 且存在熒光峰重疊現(xiàn)象, 因此這種僅選擇少數(shù)光譜點(diǎn)的計算方法局限性強(qiáng)、 泛化性能較差。
支持向量回歸算法(support vector regress,SVR)是一種被廣泛應(yīng)用于機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域的算法模型。 常規(guī)的SVR算法通過不同的核函數(shù)來構(gòu)造非線性模型用以解決復(fù)雜的分類和回歸問題, 但是當(dāng)樣本量較大或特征維度較高時, SVM算法存在消耗資源多、 訓(xùn)練時間長等問題。 LIBLINEAR是一個針對線性分類場景而設(shè)計的工具包, 支持線性SVM和線性邏輯回歸等模型, 可以對高維度大樣本數(shù)據(jù)進(jìn)行快速建模。 該工具包采用熱啟動(warm-start)技術(shù)實(shí)現(xiàn)高效的參數(shù)尋優(yōu)過程, 并結(jié)合交叉驗(yàn)證方法得到最優(yōu)懲罰參數(shù)C和不敏感度ε, 具有建模速度快、 計算精度高等特點(diǎn)。
本文對揚(yáng)州市域內(nèi)多種類型地表水進(jìn)行了長期的三維熒光光譜采集和水質(zhì)分析, 形成了具有多樣性和代表性的水質(zhì)樣本集合, 首次將LIBLINEAR技術(shù)應(yīng)用于三維熒光光譜水質(zhì)監(jiān)測, 充分利用豐富的三維熒光光譜信息, 將水體三維熒光光譜的全波段數(shù)據(jù)作為算法的輸入, 快速建立了CODCr, CODMn, NH3-N, TN, BOD5和TP等6項(xiàng)水質(zhì)指標(biāo)的預(yù)測模型, 并且通過水質(zhì)指標(biāo)的預(yù)測結(jié)果進(jìn)一步判斷水體有機(jī)污染指標(biāo)相關(guān)的水質(zhì)等級, 實(shí)現(xiàn)對城市及周邊地表水水質(zhì)指標(biāo)和水質(zhì)等級的快速原位監(jiān)測。
從2016年1月至2019年8月, 每月對揚(yáng)州市域內(nèi)122個地表水監(jiān)測斷面進(jìn)行水樣采集, 使用直立采樣器采集水面下50 cm深處的水體5 L, 靜置30 min后取上層清液, 按照水質(zhì)采樣規(guī)范平行分裝在棕色玻璃瓶中, 并于4 ℃保存。 采樣現(xiàn)場同時測量水體的溫度(T)、 溶解氧(DO)含量和pH值。
水質(zhì)監(jiān)測斷面共122個, 涉及長江和淮河兩大流域, 覆蓋了揚(yáng)州市域內(nèi)大部分的主要河流和湖泊, 分布如圖1所示。 城市建成區(qū)內(nèi)設(shè)有87個監(jiān)測斷面, 囊括了55條城市河流和4個小型湖泊, 其余35個監(jiān)測斷面分布在市域城郊及農(nóng)村區(qū)域。 根據(jù)2016年—2019年揚(yáng)州市水環(huán)境監(jiān)測數(shù)據(jù), 監(jiān)測斷面水質(zhì)等級包含Ⅱ類~劣Ⅴ類, 此外還存在少量輕度和重度黑臭斷面。 樣本的采集時間涵蓋了多個季節(jié)和枯豐水期, 涉及水溫、 水位、 水流和周邊生態(tài)系統(tǒng)等多種環(huán)境因素變化對水質(zhì)的影響, 由此形成一個覆蓋區(qū)域廣、 時間跨度長、 水質(zhì)變化多的樣本集合。
圖1 水質(zhì)監(jiān)測斷面分布Fig.1 Distribution of water quality monitoring sections
為保證化學(xué)分析與光譜分析的樣品一致, 將樣品搖勻并靜置30 min后取上層清液進(jìn)行檢測, 檢測方法參照相關(guān)國標(biāo)和行業(yè)標(biāo)準(zhǔn), 使用儀器和具體分析方法見表1。 其中pH值、 DO和T在采樣時現(xiàn)場測定, 所有樣品在采樣1周內(nèi)完成分析測試, 測試結(jié)果見表2。 每項(xiàng)指標(biāo)的測試結(jié)果中, 最大值與最小值差異大, 樣本包括不同污染程度的多種水體。 此外, 本實(shí)驗(yàn)涉及的樣本數(shù)量大、 水質(zhì)指標(biāo)多, 為建立水質(zhì)指標(biāo)預(yù)測模型提供有利條件。
表1 儀器及分析方法Table 1 Instruments and analysis methods
表2 化學(xué)分析結(jié)果Table 2 Results of chemical analysis
采用中國科學(xué)院安徽光學(xué)精密機(jī)械研究所改造的日立 F4600型熒光分光光度計測量水樣三維熒光光譜, 該儀器在保留原有光路設(shè)計的基礎(chǔ)上添加自動進(jìn)樣和清洗裝置, 在底部加裝避震裝置, 可實(shí)現(xiàn)在水質(zhì)自動站或監(jiān)測車中的連續(xù)快速原位監(jiān)測。
每次對空白樣品(Milli-Q超純水)進(jìn)行掃描后再進(jìn)行水樣測量。 三維熒光光譜測量前, 先將水樣搖勻后靜置至室溫。 若水樣的熒光強(qiáng)度超出儀器測量范圍, 須用超純水稀釋。 樣品光譜平行測試的相對精度偏差應(yīng)小于2%[4], 同批水樣的光譜分析與化學(xué)分析時間間隔不超過24 h。 光譜測量參數(shù)設(shè)置如下: 激發(fā)波長Ex為220~400 nm, 采樣間隔5 nm; 發(fā)射波長Em為260~520 nm, 采樣間隔1 nm; 狹縫寬度為10 nm, 掃描速度為12 000 nm·min-1。
本文采用MATLAB2019(Mathworks,Natick,MA,USA)軟件構(gòu)建水質(zhì)指標(biāo)預(yù)測模型。 訓(xùn)練集與測試集樣本的劃分采用隨機(jī)抽樣法, 抽取20%的樣本作為測試集, 用于評價模型的泛化能力和預(yù)測效果, 剩余樣本作為訓(xùn)練集用于建立預(yù)測模型。
1.4.1 數(shù)據(jù)預(yù)處理
使用Delaunay三角形內(nèi)插值法對原始光譜中包含的瑞利散射和拉曼散射進(jìn)行修正。 為消除實(shí)驗(yàn)環(huán)境變化和光譜儀光源波動的影響, 從樣品光譜中扣除空白樣品光譜, 并用空白樣品在Ex=348 nm和Em=397 nm處的拉曼峰強(qiáng)度值對去散射處理后的樣品光譜強(qiáng)度值進(jìn)行拉曼歸一化處理[8]。
1.4.2 線性支持向量回歸模型(LIBLINEAR)
本文將每個激發(fā)-發(fā)射波長對應(yīng)的熒光強(qiáng)度作為水質(zhì)指標(biāo)的潛在預(yù)測因子, 為降低數(shù)據(jù)冗余度、 提高模型收斂度, 將預(yù)處理后的三維熒光光譜去除激發(fā)波長大于發(fā)射波長的光譜區(qū)域, 結(jié)合T, DO和pH值形成7601維向量。 將該向量作為算法的輸入, 以各水質(zhì)指標(biāo)的化學(xué)分析結(jié)果作為算法目標(biāo)值, 使用LIBLINEAR工具包建立L2正則L2誤差支持向量回歸模型(L2-regularized L2-loss support vector regression), 通過調(diào)整權(quán)重向量ω, 使L2正則項(xiàng)與L2誤差項(xiàng)之和最小。
1.4.3 模型評價標(biāo)準(zhǔn)
1.4.4 水質(zhì)分類標(biāo)準(zhǔn)及方法
表3是根據(jù)GB3838—2002《地表水環(huán)境質(zhì)量標(biāo)準(zhǔn)》和《城市黑臭水體整治工作指南》中的標(biāo)準(zhǔn)限值制定的水質(zhì)分類標(biāo)準(zhǔn), 基于該標(biāo)準(zhǔn)使用模型預(yù)測結(jié)果對有機(jī)污染指標(biāo)相關(guān)的水質(zhì)等級進(jìn)行判斷。 針對不同的水質(zhì)判斷需求, 本文設(shè)計了如表4所示的4種水質(zhì)分級方法。 方法的分級數(shù)量越多, 對水質(zhì)狀況的區(qū)分越細(xì)致。 其中“劣Ⅴ類”在本文中定義為超過Ⅴ類標(biāo)準(zhǔn)限值但尚未達(dá)到輕度黑臭的水體。
表3 水質(zhì)分類標(biāo)準(zhǔn)限值Table 3 Water quality classification standard limits (mg·L-1)
表4 四種水質(zhì)分級方法Table 4 Four water quality classification methods
圖2為水質(zhì)預(yù)測模型中三維熒光光譜權(quán)重的分布圖, 如圖2所示, 各模型權(quán)重較大的三維熒光光譜位置主要分布在7個熒光區(qū)域, 熒光區(qū)域的范圍和對應(yīng)組分信息如表5所示, 可知A—F均為水體中常見溶解性有機(jī)污染物的特征熒光區(qū)域, 其中A與水體中的分子量較大的類腐殖酸相關(guān); B區(qū)域內(nèi)的熒光峰常出現(xiàn)在城市廢水光譜中, 被認(rèn)為是與微生物相關(guān)的類腐殖質(zhì)物質(zhì)(可溶性微生物副產(chǎn)物)[8]; C對應(yīng)類富里酸的熒光特征峰, 其來源為陸源前驅(qū)染物[9]; D為游離態(tài)類色氨酸的熒光峰, 其光譜值與水體中微生物細(xì)胞數(shù)量緊密相關(guān), 可以表征水生態(tài)系統(tǒng)的微生物活性[9]; E和F為酪氨酸等芳香族蛋白質(zhì)的特征光譜范圍, 主要來自生活源有機(jī)污染[10]; G被定義為類色氨酸的特征光譜區(qū)域, 其光譜強(qiáng)度同采樣斷面與污染源排口之間的距離和水體中污染物的新鮮程度有關(guān)[9]。
表5 熒光區(qū)域范圍及組分Table 5 Fluorescence regions and components
由圖2可知, 6項(xiàng)水質(zhì)指標(biāo)預(yù)測模型中正權(quán)重均主要分布于6個熒光區(qū)域內(nèi)(A—F), 而負(fù)權(quán)重主要集中在G區(qū)域中, 說明6項(xiàng)水質(zhì)指標(biāo)預(yù)測值均與色氨酸、 酪氨酸、 類腐殖酸、 類富里酸和類蛋白等有機(jī)污染物的熒光強(qiáng)度成正比, 與G區(qū)域的熒光值成反比。 此外, 各預(yù)測模型的權(quán)重分布略有不同, 其中CODCr模型正權(quán)重的覆蓋范圍大于CODMn, 說明有更多的有機(jī)物熒光信號會對CODCr的預(yù)測結(jié)果產(chǎn)生正影響; D, E和F所代表的蛋白質(zhì)和氨基酸熒光區(qū)域在NH3-N和TN模型中具有較大的正權(quán)重, 并且TN模型具有更大的正權(quán)重范圍; TP的正權(quán)重分布較為集中在類腐殖酸特征范圍內(nèi); BOD5的正權(quán)重集中在D區(qū)域內(nèi), 說明BOD5的預(yù)測值與色氨酸光譜強(qiáng)度具有較高相關(guān)性, 這與Henderson等的研究結(jié)論一致[11]。 由此可知, 基于全波段的預(yù)測模型與以往的固定點(diǎn)式光譜模型相比, 該模型能夠針對不同的水質(zhì)指標(biāo)對每一個光譜位置設(shè)置相應(yīng)的權(quán)重, 并且模型權(quán)重分布符合水質(zhì)指標(biāo)與有機(jī)污染物的邏輯關(guān)系, 可以更加充分地利用水體三維熒光光譜信息建立光譜與有機(jī)污染物之間的定量關(guān)系。
表6 模型預(yù)測結(jié)果Table 6 Prediction results of models
圖3為使用Matlab2019軟件進(jìn)行的模型預(yù)測值與化學(xué)分析值的相關(guān)性分析。 從圖3可知, CODCr, CODMn, NH3-N, TN, BOD5和TP六項(xiàng)水質(zhì)指標(biāo)的預(yù)測值和實(shí)際測量值之間的相關(guān)系數(shù)R分別為0.95, 0.92, 0.92, 0.91, 0.94和0.90, 并且通過了p=0.05的顯著性水平檢驗(yàn), 說明LIBZINEARSVM模型預(yù)測的各水質(zhì)指標(biāo)結(jié)果與國標(biāo)及行業(yè)標(biāo)準(zhǔn)分析結(jié)果具有較高的擬合度, 證明了三維熒光光譜技術(shù)用于監(jiān)測水質(zhì)污染狀況的可行性, 本方法可為城市及周邊地表水的快速、 原位、 高效監(jiān)測提供解決方案。
圖3 模型預(yù)測值與化學(xué)分析值的相關(guān)性Fig.3 Correlation between predicted value and chemical analysis results
為了驗(yàn)證水質(zhì)分類的預(yù)測效果, 使用LIBLINEAR模型對100個未知水樣進(jìn)行水質(zhì)指標(biāo)預(yù)測, 并用預(yù)測結(jié)果按照表3中的標(biāo)準(zhǔn)判斷其水質(zhì)類別。 分類預(yù)測效果通過準(zhǔn)確率A和F1分?jǐn)?shù)兩個指標(biāo)評價。 其中A代表正確判斷的樣本數(shù)和總樣本數(shù)的比值;F1分?jǐn)?shù)是查準(zhǔn)率P和查全率Re的調(diào)和平均數(shù), 可以綜合評價分類效果。 計算公式如式(4)
其中,TP為真正例樣本數(shù),TN為真反例樣本數(shù),F(xiàn)P為假正例樣本數(shù),F(xiàn)N為假反例樣本數(shù)。
圖4為表4中4種分級方法的水質(zhì)分類結(jié)果。 如圖4所示, 方法1, 2, 3和4的水質(zhì)分類準(zhǔn)確率分別為86%, 74%, 67%和60%, F1分?jǐn)?shù)分別0.93, 0.88, 0.84和0.77, 隨著分級的細(xì)化, 水質(zhì)分類準(zhǔn)確率和F1分?jǐn)?shù)有所下降, 說明水質(zhì)指標(biāo)預(yù)測結(jié)果對清潔水體的細(xì)化分類稍有不足, 但對較重污染水體的水質(zhì)分級具有較高的正確率和識別精度。 總之, 本方法可以快速判斷水質(zhì)等級, 并同步顯示超標(biāo)污染物及其濃度值, 實(shí)現(xiàn)對地表水水質(zhì)的高效監(jiān)測和精準(zhǔn)評價。
圖4 水質(zhì)分類結(jié)果Fig.4 Water quality classification results
對揚(yáng)州市域內(nèi)122個地表水監(jiān)測斷面的三維熒光光譜信息和水質(zhì)狀況進(jìn)行了長期積累形成了覆蓋范圍廣、 時間跨度長、 水質(zhì)變化多的樣本集合, 基于全波段光譜數(shù)據(jù)使用LIBLINEAR算法建立了針對CODCr, CODMn, NH3-N, TN, BOD5和TP 六項(xiàng)水質(zhì)指標(biāo)的預(yù)測模型, 模型的權(quán)重分布與多種溶解性有機(jī)物的熒光特征區(qū)域重合, 說明該模型可以綜合地反應(yīng)地表水中的有機(jī)污染程度。 模型預(yù)測結(jié)果具有較高的決定系數(shù)和較低的均方根誤差, 測試集的預(yù)測結(jié)果與實(shí)際測量值之間的相關(guān)系數(shù)達(dá)到0.90以上。 此外, 使用水質(zhì)指標(biāo)的預(yù)測結(jié)果對水體的水質(zhì)等級進(jìn)行判斷, 其中對黑臭水體判斷正確率達(dá)86%, 對Ⅲ類~重度黑臭水體的分類準(zhǔn)確率達(dá)60%, 表明該技術(shù)的水質(zhì)指標(biāo)預(yù)測結(jié)果與現(xiàn)行的國標(biāo)及行業(yè)標(biāo)準(zhǔn)方法分析結(jié)果一致性較高, 可以用于在廣域時空尺度中對流域水體的整體水質(zhì)狀況進(jìn)行全面判識, 是一種快速、 原位、 高效的城市及周邊地表水水質(zhì)監(jiān)測技術(shù)。