黃平捷, 李宇涵, 俞巧君, 王 柯, 尹 航, 侯迪波, 張光新
浙江大學控制科學與工程學院, 工業(yè)控制技術(shù)國家重點實驗室, 浙江 杭州 310027
近年來, 飲用水污染事件頻發(fā), 給居民正常生活帶來很大影響[1]。 為了及時應(yīng)對此類污染事件, 需要在線監(jiān)測水質(zhì)并識別污染物, 以防止此類事件造成進一步的影響。 相較于傳統(tǒng)檢測手段, 基于光譜法的水質(zhì)檢測方法因其具有快速、 無需試劑、 樣本無需預(yù)處理、 設(shè)備簡單、 檢測原理成熟等優(yōu)點, 從而吸引了眾多學者針對基于光譜法的水體污染物識別技術(shù)展開研究[2-3]。 在眾多光譜波段中, 紫外-可見光光譜波段因其檢測速度快、 檢測原理成熟, 并且可以間接的反映水中有機物、 懸浮物等理化參數(shù), 從而受到廣泛的關(guān)注[4-5]。
現(xiàn)有的基于紫外-可見光光譜的水體污染物檢測識別方法大多是基于PCA進行特征提取。 例如, 趙明富[6]等利用水體紫外-可見光譜波段, 使用主成分分析并結(jié)合Fisher判別法對水質(zhì)進行了較好的分類; Hou[7]等提出了一種融合主成分分析法和卡方分布的水質(zhì)異常檢測算法, 通過紫外光學傳感器實現(xiàn)對水質(zhì)異常狀況的判別; 郭冰冰[8]等提出一種基于基線校正和主元分析的水質(zhì)異常檢測方法, 利用主成分分析方法提取正常水質(zhì)的紫外-可見光光譜的特征并利用統(tǒng)計量識別異常光譜。 PCA對紫外-可見光光譜數(shù)據(jù)進行了降維并提取了數(shù)據(jù)的特征, 有效的提高了污染物識別的效果, 但仍然存在一些問題, PCA僅從數(shù)據(jù)的方差最大的方向?qū)?shù)據(jù)進行壓縮, 沒有考慮到紫外-可見光光譜的實際的物理特征, 因此, 尋找一種更合適的污染物光譜數(shù)據(jù)特征提取方法來解決飲用水中譜峰重疊的有機污染物分類問題顯得十分迫切和必要。
針對現(xiàn)有紫外-可見光光譜法對于有機污染物特征提取效果不佳的問題, 本文確定了有機污染物之間吸收峰的重疊范圍以及光譜的相似度, 選用物理意義更強的SPA對有機污染物的紫外-可見光光譜進行特征波段提取, 并根據(jù)特征提取后光譜數(shù)據(jù)構(gòu)建分類模型, 實現(xiàn)對不同濃度的有機污染物分類, 從而確定異常事件的污染物的類別。
使用紫外光譜儀得到有機污染物的紫外光譜原始數(shù)據(jù)后, 為了確定污染物類別, 還需要以下三個步驟:
(1)光譜數(shù)據(jù)預(yù)處理, 通過預(yù)處理方法消除紫外-可見光光譜數(shù)據(jù)中的噪聲和基線漂移干擾。
(2)特征提取, 由于部分有機物的紫外-可見光光譜的相似度較高, 吸收峰所在波長范圍部分重疊, 因此需要對紫外-可見光光譜數(shù)據(jù)進行特征提取, 增大不同污染物之間的差別。
(3)建模與預(yù)測, 根據(jù)特征光譜數(shù)據(jù)構(gòu)建分類模型, 基于分類模型對未知樣本進行分類。
基于紫外-可見光光譜的有機污染物分類方法的流程如圖1所示。
圖1 基于紫外-可見光光譜的有機污染物分類的一般流程
SPA是一種使矢量空間共線性最小化的前向變量選擇算法, 在有效信息獲取和降低共線信息的研究中取得了較好的效果[9-10]。 最初的應(yīng)用場景是近紅外光譜的定量模型中光譜變量的選取, 通過投影方式選取線性關(guān)系最小的波長組合, 從光譜信息中尋找含有最低冗余信息的變量組, 使得變量之間的共線性達到最小, 同時保留原始數(shù)據(jù)的絕大部分特征, 被選取的特征波長物理意義明確, 具有很強的解釋能力, 因此, 可以有效的提高建模的速度以及模型的穩(wěn)定性, 該算法簡要介紹如下:
設(shè)xk(0)為選取的原始光譜矩陣的某個波長的吸光度向量,N為需要選取的特征波長的個數(shù), 初始的光譜矩陣為m列, 每次迭代開始前選取的光譜數(shù)據(jù)第一列不同, 算法需要對以下的步驟循環(huán)m次:
(1) 迭代開始前, 任選光譜矩陣的1列, 用i表示, 即把原始光譜矩陣的第i列xi賦值給xk(0);
(2) 把原始光譜矩陣中未選入的列向量位置的集合記為s, 記為s={j, 1≤j≤m;j?{k(0),…,k(n-1)}};
(4) 提取投影最大值的波長變量序號,k(n)=arg[max(‖Pxi‖)];
(5) 令xi=Pxi,i∈s;
(6)n=n+1, 如果n 最后, 提取的特征波長變量為{xk(n),n=0,…,N-1}。 對應(yīng)于每一個k(0)和N, 每循環(huán)一次算法, 對提取的特征波長處的光譜吸光度進行多元線性回歸分析, 計算驗證集的預(yù)測標準偏差, 其中最小預(yù)測標準偏差對應(yīng)的k(0)和N就是最優(yōu)的特征波長組合。 大多數(shù)有機物的紫外-可見光光譜具有專屬特點, 稱為指紋特性[11], 可以根據(jù)有機物的紫外-可見光光譜的指紋特性確定類別。 本文選擇多分類SVM對不同濃度有機污染物的紫外-可見光光譜數(shù)據(jù)進行分類。 SVM是基于統(tǒng)計學習理論的一種模式識別方法[12]。 SVM算法最初是針對二分類問題設(shè)計的, 由于飲用水有機污染物分類是一個多分類問題, 因此, 需要對SVM進行適當變化, 從而構(gòu)造多分類器[13]。 本文選用一對一方法構(gòu)造多分類SVM模型, 該方法與樣本分布無關(guān), 分類器組合比較方便[14]。 主要算法流程如下: (1) 對于不同的污染物樣本, 需要在任意兩類樣本之間構(gòu)造一個SVM,k類樣本就需要設(shè)計k(k-1)/2個分類器; (2) 對一個新樣本進行分類時, 通過多個分類器投票決定分類結(jié)果。 為了驗證基于紫外-可見光光譜的有機污染物分類的可行性, 選取了四種典型的有機污染物, 分別是苯酚、 對苯二酚、 間苯二酚和間苯二胺。 這些物質(zhì)在工業(yè)生產(chǎn)中使用較為廣泛, 被列入2017年公布的《世界衛(wèi)生組織國際癌癥研究機構(gòu)致癌物清單》中, 尤其值得關(guān)注。 配置多濃度梯度的四種污染物水溶液, 濃度依次為30, 40, 50, 100和200 μg·L-1。 訓(xùn)練集中每個濃度的紫外-可見光光譜數(shù)據(jù)為10個。 測試集中苯酚71個, 對苯二酚58個, 間苯二酚72個, 間苯二胺79個。 考慮到水質(zhì)波動的影響, 訓(xùn)練集與測試數(shù)據(jù)的采集時間間隔一周。 根據(jù)朗伯-比爾定律, 紫外-可見光光譜的吸光度會隨著特征污染物濃度的增大而增大, 如果該點的吸光度與特征污染物的濃度陣之間的關(guān)系為正相關(guān), 說明特征污染物在該波長點會對光子產(chǎn)生吸收。 將特征污染物的紫外-可見光光譜的每個波長對應(yīng)的吸光度向量x與濃度向量y進行相關(guān)性分析, 計算公式如下所示 四種特征污染物的濃度與各個波長的吸光度之間的關(guān)系如圖2所示, 其中正相關(guān)關(guān)系所在的波長范圍與吸收峰所在位置基本一致。 苯酚與間苯二酚、 對苯二酚與間苯二胺的相關(guān)關(guān)系對比圖如圖3所示。 圖2 四種有機污染物濃度與各波長吸光度相關(guān)關(guān)系圖 Fig.2 Correlation between the concentration of four organic contaminants and the absorbance at each wavelength 圖3 四種有機污染物的相關(guān)關(guān)系對比圖 從圖2和圖3可以看出, 四種特征污染物之間存在部分譜峰重疊, 其中苯酚和間苯二酚的譜峰重疊比較嚴重, 原因是兩者的分子結(jié)構(gòu)相似, 其生色團基本一致, 只是助色團的數(shù)量和位置不一樣, 分類時容易相互干擾。 對苯二酚和間苯二胺的助色團差別較大, 存在部分譜峰重疊, 分類決策容易受到濃度的干擾[15]。 此外, 四種特征污染物的紫外-可見光光譜存在部分譜峰重疊, 相互之間存在一定的干擾, 需要選擇合適的方法提取光譜數(shù)據(jù)的特征, 增大光譜數(shù)據(jù)之間的差別。 使用PCA對四種有機污染物分別提取前三主成分, 四種有機污染物的前三主成分如圖4所示。 從圖中可以看出, 有機污染物的主成分分布比較相似。 采用SPA方法對訓(xùn)練集數(shù)據(jù)進行特征波長選取時, 由于200和100 μg·L-1的數(shù)據(jù)濃度較高, 光譜數(shù)據(jù)的吸光度與污染物濃度存在一定的非線性, 30 μg·L-1數(shù)據(jù)中的干擾較大, 因此在選取特征波長時, 采用的濃度為50和100 μg·L-1。 對不同特征波長個數(shù)下的四種污染物紫外-可見光光譜吸光度進行多元線性回歸分析, 計算得到的RMSE分布曲線如圖5所示, 圖中紅色方框表示SPA算法選擇的污染物紫外-可見光光譜特征波段的數(shù)量。 圖4 四種有機污染物的前三主成分的散點圖 圖5 SPA不同特征波長個數(shù)時RMSE分布曲線 最后選取的特征波長數(shù)為9個, 根據(jù)重要性排序, 波長依次為277.5, 382.5, 295, 322.5, 252.5, 260, 337.5, 310和315 nm, 這些波長基本都是四種有機污染物的吸收峰所在。 四種有機污染物各個波長段的吸光度分布如圖6所示。 從圖中可以看出, 所選取的波長處的相似有機污染物的吸收光譜的重疊度較低。 根據(jù)特征光譜波段數(shù)據(jù)構(gòu)建KNN模型和多分類SVM模型, 其中PCA方法選取前三主成分, SPA選取9個特征波長, 根據(jù)特征提取方法對訓(xùn)練集和測試集的數(shù)據(jù)進行特征提取, 構(gòu)建對應(yīng)的訓(xùn)練集和測試集。 為了對比研究, 也使用基于原始光譜的65維的數(shù)據(jù)建立了相應(yīng)的分類模型。 表1顯示三者對訓(xùn)練集數(shù)據(jù)以及測試集數(shù)據(jù)的分類準確度。 通過對比表1中不同特征提取方法的分類效果, 可以得出以下結(jié)論: 基于全光譜的分類模型對訓(xùn)練集的分類精度較高, 但是對于測試集的分類精度相對較低, 說明模型的預(yù)測能力較差, 原因是全光譜中存在較多的干擾信息和冗余信息; 基于PCA的特征光譜數(shù)據(jù)模型對訓(xùn)練集和測試集的分類精度相對較低, 原因為在PCA提取特征的過程中, 根據(jù)協(xié)方差對數(shù)據(jù)進行降維, 引入了干擾信息, 相似污染物之間的干擾比較嚴重, 因此分類的準確度不高; 基于SPA篩選的特征波長模型對訓(xùn)練集和測試集的分類精度都較高, 說明模型的穩(wěn)定性和預(yù)測能力都較好。 SPA僅選取了全光譜的13.8%的變量, 變量之間的共線性更小, 有助于構(gòu)建一個相對簡單、 穩(wěn)定的分類模型, 并且SPA在兩種分類方法下的分類準確率都很高, 表明該方法的適用性較強。 圖6 SPA選取的特征波長處的有機污染物的吸光度分布 表1 有機污染物在不同特征提取方法下的分類效果 整體分類準確率雖然可以反映多分類SVM模型整體的分類效果, 但是無法反映有機污染物之間的相互干擾, 因此, 需要通過混淆矩陣分析多分類SVM模型對有機污染物的分類結(jié)果。 基于全光譜的四種有機污染物分類效果如圖7所示; 基于PCA特征提取的分類效果如圖8所示; 基于SPA特征提取的分類結(jié)果如圖9所示。 混淆矩陣圖中, 顏色越深代表對應(yīng)的兩種污染物相似度越高, 所有的正確分類都集中在矩陣的對角線上。 如果一張混淆矩陣的圖呈現(xiàn)出對角線相似度很高的特征, 則認為該模型分類效果較好[16]。 圖7 基于全光譜的有機污染物分類效果 圖8 基于PCA特征提取的有機污染物分類效果 圖9 基于SPA特征提取的有機污染物分類效果 通過對比可以看出, 基于SPA的四種污染物分類混淆矩陣對角線相似度最高, 說明該模型下四種污染物之間的相互干擾最小, 分類性能比較穩(wěn)定; 而基于全光譜和基于PCA的分類模型中, 混淆矩陣相似度分布相對更加平均, 表明污染物之間相互干擾嚴重, 性能不夠穩(wěn)定。 為了分析濃度的干擾, 需要分析不同濃度下有機污染物的分類準確率, 從而評估其分類性能。 基于全光譜的不同濃度有機污染物分類準確率如表2所示; 基于PCA特征提取的不同濃度有機污染物分類準確率如表3所示; 基于SPA特征提取的不同濃度有機污染物分類準確率如表4所示。 表2 基于全光譜的不同濃度有機污染物分類準確率(%) 表3 基于PCA特征提取的不同濃度有機污染物分類準確率(%) 表4 基于SPA特征提取的不同濃度有機污染物分類準確率(%) 上述不同濃度分類準確率的結(jié)果表明, 全光譜+多分類SVM模型對低濃度和高濃度的對苯二酚分類效果較差, 對其他三種有機污染物的分類效果較好; PCA+多分類SVM模型對各濃度梯度的有機污染物分類精度較差; SPA+多分類SVM對各濃度梯度的有機污染物分類效果較好, 對四種有機污染物的分類精度可以達到90%以上, 穩(wěn)定性較好。 針對有機污染物紫外-可見光光譜存在譜峰重疊導(dǎo)致分類效果不佳的問題, 開展了有機污染物特征提取和判別方法的研究。 通過實驗獲取苯酚、 對苯二酚、 間苯二酚、 間苯二胺這四種譜峰相似有機污染物在不同濃度下的紫外-可見光光譜數(shù)據(jù), 并比較了不同特征提取和分類方法對不同濃度有機污染物的分類效果。 實驗結(jié)果表明, 與全光譜和PCA特征提取方法相比, SPA能有效地提取有機污染物紫外吸收光譜的特征波長組合并表征各類有機污染物的特征, 不僅能夠消除光譜數(shù)據(jù)的多重共線性干擾以及相似污染物之間的干擾, 同時增強了有機污染物之間的差別, 具有很好的物理意義和解釋性, 結(jié)合多分類SVM可實現(xiàn)對不同濃度有機污染物的有效分類, 為實現(xiàn)飲用水中譜峰重疊污染物類型的判別提供有效方法。1.3 基于SVM的有機污染物分類算法
2 實驗驗證與結(jié)果分析
2.1 設(shè)計與數(shù)據(jù)
2.2 光譜數(shù)據(jù)特征提取
2.3 種類判別與結(jié)果分析
3 結(jié) 論