李 煜, 畢衛(wèi)紅, 2*, 孫建成, 賈亞杰, 付廣偉, 王思遠, 王 兵
1. 燕山大學(xué)信息科學(xué)與工程學(xué)院, 河北省特種光纖與光纖傳感重點實驗室, 河北 秦皇島 066004
2. 長春理工大學(xué)中山研究院, 廣東 中山 528437
3. 秦皇島紅燕光電科技有限公司, 河北 秦皇島 066004
水是萬物之源, 近年來隨著我國人口不斷增加, 工業(yè)化和農(nóng)業(yè)現(xiàn)代化的逐步推進, 經(jīng)濟水平不斷提高, 大量廢水污水排入河流或海洋中, 水體污染越來越嚴(yán)重, 水環(huán)境持續(xù)惡化, 嚴(yán)重危害了人民的生命健康。 我國主要水質(zhì)污染類型是有機物污染[1], 用于表征水體中有機物含量的指標(biāo)主要包括: 總有機碳(total organic carbon, TOC)、 化學(xué)需氧量(chemical oxygen demand, COD)等。 水體中TOC指水體中與有機物質(zhì)相關(guān)的碳元素總稱, 主要包括溶解或懸浮在水中的有機物, 以單位體積水體中含有機碳的質(zhì)量來表示水中有機物的濃度, 通常以mg·L-1來表示, 是反映水中有機物總量的綜合指標(biāo), 可以評價水體受有機物污染的程度。 目前, 國內(nèi)外測量水質(zhì)TOC有多種方法, 我國針對TOC標(biāo)準(zhǔn)測量方法采用燃燒/濕法氧化法[2-3], 這兩種方法雖測量精確, 但都存在操作較為復(fù)雜、 測試時間長、 使用化學(xué)試劑易產(chǎn)生二次污染等缺陷。 水質(zhì)TOC的快速檢測在水環(huán)境監(jiān)管治理中具有重要價值, 并且對海洋碳循環(huán)的研究也具有重要的意義。 近年來國內(nèi)外學(xué)者對TOC快速監(jiān)測進行了大量研究, 電導(dǎo)法[4]、 化學(xué)發(fā)光法[5]、 離子色譜法[6]、 光譜法等是近年來發(fā)現(xiàn)的新型TOC檢測方法, 其中光譜法因其具有檢測快速、 無需添加化學(xué)試劑、 測量設(shè)備結(jié)構(gòu)簡單且維護成本較低等優(yōu)勢, 是目前優(yōu)勢比較明顯的測定方法。
本工作采用ACO-PLS算法篩選真實水樣紫外-可見吸收光譜不同數(shù)量的特征波長, 并建立水樣的特征波長與國標(biāo)法測量的TOC濃度間的定量檢測模型, 從而實現(xiàn)了水質(zhì)TOC的快速、 準(zhǔn)確測量。
總有機碳的國家標(biāo)準(zhǔn)物質(zhì)為鄰苯二甲酸氫鉀(potassium hydrogen phthalate, KHP), 實驗用標(biāo)準(zhǔn)物質(zhì)購置于國防科技工業(yè)應(yīng)用化學(xué)一級計量站。 首先配置1 000 mg·L-1的TOC標(biāo)準(zhǔn)液母液, 后經(jīng)過無碳水按比例稀釋至1~50 mg·L-1范圍的實驗樣本, 1~10 mg·L-1按1 mg·L-1梯度稀釋, 10~50 mg·L-1以5 mg·L-1梯度稀釋, 共計18份。
真實實驗水樣分批次采集于2019年至2022年間, 采集地點包括河北省秦皇島市、 河北省黃驊市、 山東省威海市、 天津市等地的海域、 河流入海口、 湖泊、 生活污水等, 水體樣本共計362份。 樣本TOC濃度范圍為1.470~18.37 mg·L-1。
水質(zhì)總有機碳濃度分析嚴(yán)格遵循GB 17378.4—2007及HJ 501—2009標(biāo)準(zhǔn)規(guī)范, 采用日本島津TOC-L總有機碳分析儀測定。
水樣紫外-可見吸收光譜采集采用荷蘭Avantes公司的AvaSpec-2048型紫外-可見光纖光譜儀, 光源選用AvaLight-DH-S-BAL型氘/鹵素組合光纖光源, 采用10 mm×10 mm的石英比色皿作為樣品池。 光譜采集系統(tǒng)參數(shù)設(shè)置為積分時間2 ms, 采樣平均次數(shù)200次, 波長范圍200~600 nm, 每個水樣采集三次光譜取平均值。 受采集環(huán)境及儀器設(shè)備的影響, 雖每個水樣光譜經(jīng)過取平均值處理, 光譜曲線仍存在一定冗余信息及噪聲, 為減少噪聲及冗余信息的影響, 需對采集到的光譜數(shù)據(jù)進行光譜預(yù)處理。
光譜分析中常用預(yù)處理方法一般為S-G多項式平滑、 一階導(dǎo)數(shù)校正(1stDer)、 二階導(dǎo)數(shù)校正(2stDer)、 標(biāo)準(zhǔn)正態(tài)變換(standard normal variate, SNV)、 最小最大歸一化(min-max normalization)、 消除常數(shù)偏移量等。 S-G平滑可以較好消除儀器噪聲造成的影響, 導(dǎo)數(shù)校正方法對消除基線漂移和增強小特征具有較好效果[13], SNV方法可以降低光的散射和基線漂移對測量光譜的影響[14]。
意大利學(xué)者Dorigo受螞蟻覓食行為的啟發(fā), 對覓食行為進行模擬得到蟻群優(yōu)化算法(ant colony optimization, ACO)。 ACO算法模仿了螞蟻群搜尋覓食路徑的關(guān)鍵——信息素機制, 對比信息素濃度數(shù)值, 選取信息素濃度高路徑行走, 不斷迭代正反饋尋得最優(yōu)結(jié)果[15-16]。 本工作通過ACO-PLS算法選擇特征波長, 具體實現(xiàn)過程如下: (1) 初始化蟻群參數(shù)及信息素濃度, 生成若干螞蟻, 依據(jù)輪盤賭算法生成各螞蟻個體所選擇的對應(yīng)特征波長; (2) 根據(jù)上一步中選擇的特征波長利用經(jīng)典PLS算法建模并計算目標(biāo)函數(shù)值; (3) 根據(jù)所計算目標(biāo)函數(shù)值F, 依據(jù)信息素理論加強和減弱對應(yīng)特征波長信息素濃度; (4) 依據(jù)統(tǒng)計思想和信息素濃度再次為各螞蟻個體選取特征波長, 信息素含量高使得該波長被選擇概率更高; (5) 重復(fù)上述步驟(2)—(5)直至達到迭代次數(shù)且算法收斂即可選出最佳特征波長組合。
算法流程如圖1所示。 過程中蟻群參數(shù)初始化后, 根據(jù)每個特征波長的信息素濃度及式(1)計算被選中概率Pi, 式中τ為信息素濃度矩陣, 根據(jù)輪盤賭算法選擇下個特征波長; 完成一輪迭代后, 各特征波長對應(yīng)的信息素根據(jù)式(2)計算, 其中ρ為信息素?fù)]發(fā)系數(shù), 其中F為目標(biāo)函數(shù), 根據(jù)式(3)計算。
圖1 ACO-PLS算法流程圖
(1)
(2)
F=Q/(1+RMSECV)Q為常數(shù)
(3)
1995年Eberhart和Kennedy兩位學(xué)者根據(jù)鳥類族群覓食行為提出的粒子群優(yōu)化算法(particle swarm optimization, PSO)。 LSSVM算法中懲罰因子c和徑向基核函數(shù)中σ2兩個參數(shù)直接影響著模型建立的優(yōu)劣[17-18]。 本工作將c和σ2兩個參數(shù)組合視為群體中粒子的位置坐標(biāo)信息, 將其中第i個粒子的位置和速率分別表示為xi=(xi1,xi2),vi=(vi1,vi2), 每個粒子個體經(jīng)過的最優(yōu)位置記為pi=(pi1,pi2), 粒子群中全部粒子經(jīng)過的全局最優(yōu)位置記為pg=(pg1,pg2), 速率信息根據(jù)式(4)進行計算, 式中ω為慣性因子,c1,c2為個體加速系數(shù),δ1,δ2為[0, 1]區(qū)間的隨機數(shù), 位置信息根據(jù)式(5)進行計算, 算法流程如圖2所示。
圖2 PSO-LSSVM算法流程
(4)
(5)
實驗測得所配置TOC標(biāo)準(zhǔn)溶液的紫外吸收光譜如圖3所示。 圖3可以看出獲得的光譜數(shù)據(jù)圖像平滑, 環(huán)境噪聲干擾極小, 光譜曲線隨濃度增大依次增高, TOC標(biāo)準(zhǔn)液樣本對波長范圍在200~310 nm波長處的光有明顯的吸收作用, 最高吸收峰位于245 nm附近。
圖3 TOC標(biāo)準(zhǔn)溶液的紫外吸收光譜
水質(zhì)總有機碳的標(biāo)準(zhǔn)物質(zhì)為鄰苯二甲酸氫鉀, 分子式為HOOCC6H4COOK, 結(jié)構(gòu)式如圖4所示。 芳香族和雜芳香族化合物光譜在230~270 nm有吸收帶, 由π到π*反鍵軌道躍遷和苯環(huán)振動相疊加產(chǎn)生, 稱為B帶; 在含有π鍵的生色團羧基(—COOH)作用下與苯環(huán)相連, π—π共軛產(chǎn)生更大的共軛體系, 在200~250 nm范圍內(nèi)產(chǎn)生E2帶, 同時B帶也會產(chǎn)生較大紅移, 二者相互疊加; 同時吸收帶會受溶劑影響, 水為極性溶劑會導(dǎo)致譜帶峰型平滑, 精細結(jié)構(gòu)消失, 故該標(biāo)準(zhǔn)液在200~310 nm區(qū)間內(nèi), 產(chǎn)生如圖3所示的吸收譜線。
圖4 鄰苯二甲酸氫鉀結(jié)構(gòu)式
分別采用250、 255、 260、 …、 290 nm等9個波長作為特征波長完成單波長檢測模型建立, 所建立的標(biāo)準(zhǔn)液濃度與吸光度的一元回歸檢測模型如圖5(a)—(i)所示。
圖5 紫外吸收光譜單波長建模結(jié)果
如圖5可以看出, TOC標(biāo)準(zhǔn)溶液濃度與各單一波長吸光度間具有良好的正相關(guān)性, 選用280 nm的單波長檢測模型最佳, 相關(guān)系數(shù)達到0.999 70, 對于標(biāo)準(zhǔn)溶液, 各紫外單波長模型均可較好反演標(biāo)準(zhǔn)液濃度與吸光度間關(guān)系, 只有290 nm處模型結(jié)果略差, 原因在于在290 nm處濃度變化導(dǎo)致的吸光度變化較小, 光譜儀檢測的誤差變大, 故此波長吸光度與TOC濃度間線性相關(guān)性變差。
實驗測得2019年—2022年不同地區(qū)不同TOC濃度共計362個樣本的紫外-可見吸收光譜, 其中部分樣本光譜如圖6所示。 由圖6可以看出, 水體中物質(zhì)對光線吸收主要集中于200~450 nm, 其中220 nm附近存在明顯的強吸收, 可能來自水體中硝酸根等無機物吸收或來源于水體中普遍存在的腐殖質(zhì)等有機物質(zhì), 但由于水體種類各異, 所含物質(zhì)繁多, 無法區(qū)分吸收峰所對應(yīng)的物質(zhì)及含量, 故采用數(shù)據(jù)驅(qū)動方式, 利用ACO-PLS算法進行特征波長篩選; 450~600 nm波段光譜吸光度基本不變, 該處對光的吸收基本由于產(chǎn)生濁度的物質(zhì)對光的無差異散射導(dǎo)致, 所含信息較少且含有噪聲信息, 將其舍去, 故特征波長選擇及模型建立選用200~450 nm波段范圍。
圖6 部分水樣紫外-可見吸收光譜
為消除光譜數(shù)據(jù)本身的噪聲采用不同預(yù)處理方法對光譜數(shù)據(jù)進行處理, 將預(yù)處理后光譜分別利用ACO-PLS算法、 SPA算法提取特征波長, 其中SPA算法特征波長個數(shù)選擇系統(tǒng)最優(yōu)個數(shù), ACO-PLS算法分別設(shè)置提取10、 30、 50、 70個特征波長。
將上述算法獲得的特征波長吸光度作為PSO-LSSVM算法的輸入數(shù)據(jù); 依照8∶2比例, 隨機分層選取290個樣本作為訓(xùn)練集, 剩余72個樣本作為驗證集, 訓(xùn)練集樣本TOC濃度范圍為1.470~18.37 mg·L-1, 驗證集TOC濃度范圍為1.770~8.699 mg·L-1。
不同光譜預(yù)處理方法結(jié)合不同特征波長提取算法建立的TOC定量檢測模型采用相關(guān)系數(shù)(correlation coefficient,R)和均方根誤差(root mean square error, RMSE)進行評價, 結(jié)果如表1—表7所示。 其中RMSEC和Rc分別為訓(xùn)練集均方根誤差和相關(guān)系數(shù), RMSEP和Rp分別為驗證集均方根誤差和相關(guān)系數(shù)。
表1 無預(yù)處理PSO-LSSVM定量檢測模型結(jié)果
表2 一階導(dǎo)數(shù)預(yù)處理PSO-LSSVM定量檢測模型結(jié)果
表3 二階導(dǎo)數(shù)預(yù)處理PSO-LSSVM定量檢測模型結(jié)果
表4 SG平滑預(yù)處理PSO-LSSVM定量檢測模型結(jié)果
表5 SNV預(yù)處理PSO-LSSVM定量檢測模型結(jié)果
表6 消除常數(shù)偏移量預(yù)處理PSO-LSSVM定量檢測模型結(jié)果
表7 最小最大歸一化預(yù)處理PSO-LSSVM定量檢測模型結(jié)果
由表1—表7可以看出, 對比不同光譜預(yù)處理方法, 相同數(shù)量的特征波長經(jīng)過SNV方法得到的建模結(jié)果普遍優(yōu)于其他預(yù)處理方法的建模結(jié)果, 這是由于SNV方法一般用于降低光散射及基線漂移等因素對光譜的影響; 在本研究中對光譜測量的主要影響因素為水體濁度造成的光散射引起吸光度增加, 故SNV方法對利用紫外-可見吸收光譜檢測真實水體總有機碳適用性較好; 對比特征波長提取算法, 在不同預(yù)處理方法下, 若ACO-PLS算法提取的特征波長數(shù)量與SPA算法提取的特征波長數(shù)相近, 可達到相近的建模效果, 能夠較好地實現(xiàn)對真實水體紫外-可見吸收光譜特征波長的提取; 不同預(yù)處理方法, 最佳建模效果均采用ACO-PLS算法提取特征波長。 除不經(jīng)過預(yù)處理的光譜最佳模型所提取特征數(shù)量為30個波長, 其余預(yù)處理方法下最佳建模方法提取特征波長個數(shù)均為50個, 這是由于真實水體中所含物質(zhì)種類極多, 成分復(fù)雜, 較多的特征波長可提供更多的水中含碳量信息, 但過多特征仍存在冗余會使模型效果降低, 故最佳特征波長個數(shù)為50個左右。
從表1—表7看出, 經(jīng)SNV預(yù)處理算法后的紫外-可見吸收光譜利用ACO-PLS算法提取的50個特征波長, 作為PSO-LSSVM算法的輸入數(shù)據(jù), 所建立的水體總有機碳定量分析模型效果最佳。 最佳檢測模型水體樣本訓(xùn)練集和驗證集中預(yù)測值和真實值對比如圖7所示, 圖中橫坐標(biāo)為樣本序號, 縱坐標(biāo)為總有機碳濃度值。 最佳檢測模型水體樣本訓(xùn)練集和驗證集中預(yù)測值和真實值線性擬合圖如圖8所示。 最佳檢測模型選取的50個特征波長如表8所示。
表8 ACO-PLS算法篩選的50個SNV預(yù)處理后光譜的特征波長
圖7 訓(xùn)練集(a)和驗證集(b)的預(yù)測值和真實值
圖8 訓(xùn)練集(a)和驗證集(b)中真實值與預(yù)測值線性擬合結(jié)果
如圖7中可知, 訓(xùn)練集和驗證集中預(yù)測值與真實值誤差較小, 個別樣本因水體環(huán)境情況復(fù)雜如含有微小生物含碳量分布不均勻?qū)е抡`差較大, 對總體模型效果評價影響較小。 由圖8可知, 訓(xùn)練集和驗證集中TOC預(yù)測值和真實值相關(guān)系數(shù)R分別為0.984 3和0.974 5, 模型檢測效果良好。
如表8所示, 所篩選出的50個波長覆蓋200~450 nm, 在220 nm附近雖然存在硝酸根離子等無機物吸收與共軛體系的有機物質(zhì)在220 nm處吸收產(chǎn)生混淆干擾, 但采用數(shù)據(jù)驅(qū)動方式, 利用ACO-PLS算法篩選波長, 可以比人工更為科學(xué)地選擇特征波長, 得到更好的檢測模型。
為了驗證TOC快速檢測模型的穩(wěn)定性和再現(xiàn)性, 進行了重復(fù)性試驗, 再次采集河北省秦皇島市海水、 河流入??凇?生活污水等共計12個樣本, 測量其紫外-可見吸收光譜, 依照國家標(biāo)準(zhǔn)采用TOC-L總有機碳分析儀測定其真實TOC濃度, 將光譜數(shù)據(jù)分別帶入最優(yōu)的六個TOC檢測模型中, 模型預(yù)測結(jié)果如圖9所示。
圖9 不同預(yù)處理方法檢測模型的預(yù)測值與真實值與預(yù)測值線性擬合結(jié)果
圖9(a)—(f)展示了基于不同預(yù)處理方法最優(yōu)的六個TOC檢測模型的預(yù)測結(jié)果和國標(biāo)法結(jié)果的關(guān)系, 圖9(d)為經(jīng)SNV預(yù)處理后的TOC檢測模型效果, 效果優(yōu)于無預(yù)處理和其他預(yù)處理方式模型的預(yù)測結(jié)果, 相關(guān)系數(shù)R=0.968 7, RMSE=0.487 4。 盡管真實水體如生活污水等會受季節(jié)及人類活動影響, 所含有機物質(zhì)類別及比例有所變化, 但測量結(jié)果仍較為準(zhǔn)確, 能實現(xiàn)對水體TOC的快速檢測, 在后續(xù)工作中繼續(xù)補充不同時間、 地點的真實水樣樣本可以提高模型的魯棒性, 可以實現(xiàn)更為準(zhǔn)確的測量。
三年間采集多個省份地區(qū)的海域、 河流入???、 湖泊等真實水樣, 并測量其紫外-可見吸收光譜, 采用國標(biāo)法測量其TOC濃度, 對光譜數(shù)據(jù)采用不同方法進行預(yù)處理; 利用ACO-PLS和SPA算法提取特征波長, 隨機選取全部數(shù)據(jù)的80%作為訓(xùn)練集, 剩余20%的樣本作為驗證集, 建立PSO-LSSVM的TOC光譜法定量檢測模型。 實驗結(jié)果表明, SNV預(yù)處理算法在不同數(shù)量特征波長下具有更優(yōu)的預(yù)處理效果, 更適用于真實水體中TOC紫外-可見吸收光譜的預(yù)處理; 在不同預(yù)處理算法下ACO-PLS算法普遍選取50個特征波長時建模效果最優(yōu); 最佳建模參數(shù)為選用SNV預(yù)處理方法, 經(jīng)ACO-PLS算法篩選50個特征波長組合, 模型驗證集相關(guān)系數(shù)Rp為0.9745, 驗證集均方根誤差RMSEP為0.481 1。 研究表明, SNV算法對水質(zhì)TOC的紫外-可見吸收光譜有較好的預(yù)處理效果, 可一定程度降低真實水體紫外-可見吸收光譜因濁度因素造成的散射等因素造成影響, ACO-PLS可以較好提取紫外-可見光譜的特征波長, 50個左右特征波長數(shù)量可以代替全波段特征, 減少了冗余數(shù)據(jù), 建模效果最佳, PSO-LSSVM算法所建立模型準(zhǔn)確可靠, 利用紫外-可見吸收光譜法可以實現(xiàn)水質(zhì)總有機碳的快速準(zhǔn)確測量, 為目前環(huán)保領(lǐng)域的難點提供了解決方案, 給相應(yīng)傳感器的研發(fā)提供了科學(xué)支持。