李帥帥,羅慧,盧偉
(1.南京農(nóng)業(yè)大學(xué)工學(xué)院,江蘇 南京 210031;2.南京農(nóng)業(yè)大學(xué)人工智能學(xué)院,江蘇 南京 210031)
由于工業(yè)與農(nóng)業(yè)的快速發(fā)展,人類向水環(huán)境中排放的污染物日益增多,其中重金屬離子是主要的污染物之一[1]。目前,重金屬離子檢測方法有激光誘導(dǎo)擊穿光譜技術(shù)(LIBS)、X射線熒光光譜分析法(XRF)、原子熒光光譜法、電感耦合等離子體原子發(fā)射光譜法(ICP-AES)、電感耦合等離子體質(zhì)譜法(ICP-MS)等[2-7]。宋超等[2]利用LIBS對混合溶液中的Cu、Mg、Zn、Cd重金屬進(jìn)行測定,結(jié)果表明LIBS技術(shù)可應(yīng)用于溶液中多種重金屬的快速檢測。賈堯等[3]基于LIBS,采用石墨基底蒸干的富集方式,對含有Cd、Cr、Cu、Ni、Pb、Zn重金屬元素的不同濃度重金屬溶液進(jìn)行檢測,分別建立了這6種重金屬元素的定標(biāo)曲線,并得到了相應(yīng)的檢出限,分別為0.030、0.012、0.005、0.033、0.071、0.038 mg·L-1。焦距等[4]利用手持式XRF,結(jié)合無外接電源的富集裝置,現(xiàn)場分析水體中Mn、Fe、Ni、Cu、Zn、Pb重金屬元素,方法檢出限為5.8~18.6 μg·L-1。蘇秋克等[5]使用原子熒光光譜儀分別對武漢市的東湖、墨水湖、金銀湖、梁子湖、湯遜湖和魯湖中湖水進(jìn)行汞含量分析,發(fā)現(xiàn)金銀湖水汞含量超過國家Ⅲ類水質(zhì)汞含量標(biāo)準(zhǔn)。劉冰冰等[6]基于ICP-AES,采用離子交換樹脂與固相萃取富集結(jié)合的方法對水中的重金屬元素Zn、Mn、 Cu、Co、Ni、Cd、 Pb進(jìn)行測定,結(jié)果表明,該方法準(zhǔn)確性與精密度高。母清林等[7]基于ICP-MS建立了一種針對海水中11 種重金屬檢測的在線分析方法,該方法精密度高,可實現(xiàn)對樣品的自動稀釋,滿足海水重金屬分析檢測要求。Kaur等[8]利用熒光化學(xué)傳感器,成功實現(xiàn)自來水、河水及含鍶牙膏中Sr2+含量的檢測。Lin等[9]開發(fā)了只包含鉑電極的簡單傳感器,用于檢測飲用水中的重金屬污染,該傳感器可以嵌入供水管道中長期使用,直至檢測到鉛或其他重金屬為止。Verma等[10]設(shè)計了基于光纖表面等離子體共振的飲用水中重金屬離子檢測傳感器,該傳感器能夠檢測受污染水體中的Cd2+、Pb2+、Hg2+重金屬離子,其靈敏度隨重金屬離子濃度的增加而降低。
太赫茲時域光譜技術(shù)(THz-TDS)是近年來國際上發(fā)展起來的遠(yuǎn)紅外光譜檢測技術(shù)[11]。其太赫茲波是指頻率在0.1~10 THz,即波長在3 mm至30 μm內(nèi)的電磁波,處于微波和紅外之間,又稱T波、T射線等[12]。太赫茲波具有低能性、強穿透性和強水敏感性[13]。THz-TDS技術(shù)可以利用THz脈沖在樣品上的反射或透射,與參考信號一起提取被測樣品的折射率、吸收系數(shù)和消光系數(shù)等光學(xué)參數(shù)[14]。目前THz-TDS被廣泛用于樣品水分和大分子物質(zhì)方面的檢測[15]。本文基于THz-TDS,分別對溶液中Hg、Cd、Cu重金屬進(jìn)行定性及定量分析。
質(zhì)量濃度均為1 000 μg·mL-1的汞、鎘離子標(biāo)準(zhǔn)溶液,購自南京晶格化學(xué)科技有限公司;CuSO4·5H2O購自南京晚晴玻璃儀器有限公司。
使用超純水分別稀釋汞、鎘離子標(biāo)準(zhǔn)溶液,得到質(zhì)量濃度分別為0.5、1.0、1.5、2.0、2.5、3.0、3.5、4.0 μg·mL-1的汞和鎘離子溶液。
定量稱取CuSO4·5H2O溶于超純水,得到質(zhì)量濃度為500 μg·mL-1的銅離子溶液,再用超純水稀釋,得到質(zhì)量濃度分別為0、25、50、75、100、125、150、175、200 μg·mL-1的銅離子溶液。
本試驗中使用的THz時域光譜儀是德國BATOP公司自行研制的LF7808系列中的LF7808A。其輸出80 MHz的高質(zhì)量飛秒激光脈沖,可切換輸出780 nm和1 560 nm波段,脈寬小于100 fs,有效測試范圍是0~3.5 THz。經(jīng)有效數(shù)據(jù)分析,本試驗測試太赫茲譜的分析范圍為0~2 THz。太赫茲衰減全反射模塊是由一塊高阻硅(HRSi)棱鏡制成,棱鏡的折射率為3.416,THz波束照射到棱鏡上,由于HRSi具有很高的折射率,能將THz波束全反射到樣品中,THz波束會穿透樣品一定深度,再由樣品反射出來,經(jīng)過高阻硅棱鏡,最后以相反的路徑離開HRSi棱鏡并攜帶出樣品的信息。本試驗采用的THz波為s偏振,其電場方向與入射面垂直。太赫茲衰減全反射檢測光路圖如圖1-A所示,樣品采集時的實物圖如圖1-B所示。
圖1 太赫茲光譜儀衰減全反射模塊Fig.1 Terahertz spectrometer attenuates total reflection module
利用太赫茲衰減全反射模塊分別對8種不同濃度的Hg、Cd、Cu離子溶液采集光譜,采樣間隔為0.05 ps,采樣時間為410~445 ps,積分時間為0.1 ps,時域光譜共有699個數(shù)據(jù)點,試驗溫度保持在25 ℃左右,相對濕度保持在40%左右。太赫茲光譜采集時,每采集10組溶液數(shù)據(jù)前,先采集10組衰減全反射模塊的空樣本數(shù)據(jù),每次將樣本溶液取出衰減全反射模塊時,都要用清水和乙醇清洗衰減全反射模塊,并用無塵紙擦拭,以消除樣本相互之間的影響。每種重金屬的每種濃度采集50組太赫茲光譜數(shù)據(jù),每種重金屬溶液共計400個樣本,并采集50組超純水作為空白對照。
1.5.1 去噪本文分別使用二階導(dǎo)數(shù)(second derivative,SD)、離散余弦變換(discrete cosine transform,DCT)、標(biāo)準(zhǔn)正態(tài)變換(standard normal transformation,SNV)對太赫茲光譜數(shù)據(jù)進(jìn)行去噪,以消除環(huán)境、儀器與人工操作等因素造成的干擾信息。SD去噪的主要原理是通過對樣本數(shù)據(jù)求二階導(dǎo)數(shù),放大數(shù)據(jù)的細(xì)節(jié),可有效消除基線和其他背景的干擾,提高分辨率和靈敏度。DCT等價于1個長度是離散傅里葉變換2倍的實偶函數(shù)。一般情況下,在對信號進(jìn)行離散余弦變換后,信號具有較強的能量集中性,且噪聲集中在高頻部分,從而對信號進(jìn)行有損去噪。SNV是一種利用全光譜范圍內(nèi)樣品吸光度值的標(biāo)準(zhǔn)偏差,將每一條光譜正態(tài)處理的基于光譜陣的數(shù)據(jù)校正方法。使用SNV時,主要是用來消除由于樣品自身分布不均勻引起的散射影響和改變光程時對光譜產(chǎn)生的影響,從而達(dá)到對目標(biāo)光譜去噪的目的。
1.5.2 降維使用多維度縮放(multiple dimension scaling,MDS)、主成分分析(principal component analysis,PCA)與線性判別分析(linear discriminant analysis,LDA)對光譜數(shù)據(jù)進(jìn)行降維處理,去除高維數(shù)據(jù)中的不相關(guān)屬性,降低數(shù)據(jù)維數(shù),以便縮短識別與預(yù)測模型的運行時間。MDS是一種非線性降維算法。它的核心思想是保持距離不變,即任意2個樣本在低維空間中的歐氏距離與原始空間中的距離相等。PCA是目前最常用的線性降維方法,該方法主要思想是低維映射,將高維數(shù)據(jù)線性映射到低維空間中,使映射后數(shù)據(jù)的方差盡可能大,在保留更多有效信息的前提下盡可能減少數(shù)據(jù)維數(shù),降低模型的復(fù)雜度。LDA也是一種線性降維算法,但與PCA不同的是LDA是有監(jiān)督的,它通過在k維空間選擇一個投影超平面,使得同類別在該超平面上的投影之間的距離盡可能近,非同類盡可能遠(yuǎn),即類內(nèi)方差盡可能小,類間方差盡可能大。本試驗在運用MDS、PCA和LDA對數(shù)據(jù)降維時,通過累計貢獻(xiàn)率的大小來控制主成分的個數(shù),保留累計貢獻(xiàn)率大于99%的主成分。
1.5.3 重金屬檢測模型采用隨機森林(random forest,RF)、概率神經(jīng)網(wǎng)絡(luò)(probabilistic neural network,PNN)、k鄰近算法(k-nearest neighbor,KNN)分別建立Hg、Cd、Cu重金屬水體以及將這3種重金屬配制成8種不同濃度水體的檢測模型。RF的本質(zhì)是一個具有多個決策樹的分類器,每棵樹的建立取決于1個獨立樣本提取,新的訓(xùn)練樣本集從總的樣本集中產(chǎn)生,然后根據(jù)樣本集生成k個分類樹組成隨機森林。1個測試數(shù)據(jù)通過隨機生成大量的決策樹后,對分類結(jié)果進(jìn)行統(tǒng)計后選擇最可能的分類。PNN是由徑向基函數(shù)網(wǎng)絡(luò)改進(jìn)得到的一個三層結(jié)構(gòu)的網(wǎng)絡(luò),它的傳遞函數(shù)是該網(wǎng)絡(luò)的基函數(shù),輸出層采用競爭輸出。KNN方法是通過測量不同特征值之間的距離,找到與測試數(shù)據(jù)距離最小的k個點,統(tǒng)計k個點中出現(xiàn)次數(shù)最多的類別標(biāo)簽,該測試數(shù)據(jù)就屬于此類,并具有這個類別上樣本的特性。
1.5.4 重金屬濃度預(yù)測模型采用反向傳播神經(jīng)網(wǎng)絡(luò)(back propagation neural network,BPNN)和最小二乘支持向量機(least squares support vector machines,LSSVM)分別建立Hg、Cd、Cu重金屬中8種濃度水體的預(yù)測模型。BPNN主要由信號的正向傳播與反向傳播2部分組成。正向傳播階段主要是輸入信號從輸入層經(jīng)過激活函數(shù)到隱藏層,再到達(dá)輸出層,得到最后的結(jié)果。反向傳播階段主要是輸出信號與實際對比得出誤差,誤差從輸出層到輸入層不斷訓(xùn)練,調(diào)整網(wǎng)絡(luò)系數(shù),使誤差達(dá)到最小。LSSVM是由 Suykens等[16]在支持向量機的基礎(chǔ)上提出的一種用于解決函數(shù)估計和模式分類等問題的一種新型的支持向量機。LSSVM 將支持向量機的非等式約束替換為等式約束。
1.5.5 模型評估使用準(zhǔn)確率對分類模型進(jìn)行評估,準(zhǔn)確率越接近1,說明所構(gòu)建的分類模型分類能力越好。使用均方誤差、決定系數(shù)(R2)來評定回歸模型優(yōu)劣。均方誤差越小,R2越接近1,說明回歸模型的預(yù)測能力越好。
1.5.6 光學(xué)參數(shù)計算模型在太赫茲衰減全反射式中,發(fā)生全反射時,THz波輸出信號Eout(ω)與輸入信號Ein(ω)的關(guān)系由全反射系數(shù)r決定[17],即Eout(ω)=Ein(ω)r,對于s偏振太赫茲波,全反射系數(shù)r為:
(1)
樣品的介電常數(shù)ε為:
(2)
選取lm(ε)>0的數(shù)據(jù),進(jìn)一步可以獲得樣品的吸收系數(shù)α,其表達(dá)式為:
(3)
式中:lmε為介電常數(shù)ε的虛部;Reε為介電常數(shù)ε的實部;ω為輸入信號的頻率點;c為空氣的介電常數(shù)。
圖2 樣品的太赫茲時域光譜Fig.2 Terahertz time domain spectra of the sample
圖2是樣品的太赫茲時域光譜,其譜線分別是空氣、汞、鎘、銅和超純水的50組太赫茲光譜數(shù)據(jù)的平均值。由圖2可知:重金屬汞、鎘、銅以及超純水與對照樣本空氣的時域譜的幅值以及延時均不相同,但很難直觀地根據(jù)太赫茲時域譜的幅值和延時來判斷重金屬的類別。
根據(jù)公式(1)和公式(3)對去噪處理后的不同濃度Cd、Hg、Cu溶液的平均時域光譜進(jìn)行吸收系數(shù)的計算。發(fā)現(xiàn)經(jīng)過SD與DCT結(jié)合去噪后的不同濃度Hg溶液時域數(shù)據(jù)所求得的吸收系數(shù)譜規(guī)律性較強(圖3)。在1.3、1.7 THz頻率點處,以濃度0~1.5 μg·mL-1和2.0~4.0 μg·mL-1建立的線性模型分別為:
y1=1.040×10-7x-1.679×10-7
(4)
y2=-2.545×10-7x+4.862×10-7
(5)
圖3 Hg溶液的吸收系數(shù)譜Fig.3 Absorption coefficient spectrum of Hg solution
2個頻率點處線性模型決定系數(shù)分別為0.924和0.971,綜合對比1.3、1.7 THz處建模結(jié)果,發(fā)現(xiàn)在1.7 THz處擬合更好。當(dāng)濃度區(qū)間為0~1.5 μg·mL-1時,吸收系數(shù)譜所表現(xiàn)的吸收峰較為混亂,可能是由于太赫茲光譜儀采集精度導(dǎo)致的光譜有效頻率范圍內(nèi)點數(shù)較少,進(jìn)而影響了吸收系數(shù)譜的建模準(zhǔn)確性。但由線性建模結(jié)果來看,低濃度的Hg溶液在1.7 THz處具有較好的線性關(guān)系。
圖4 Cd溶液的吸收系數(shù)譜Fig.4 Absorption coefficient spectrum of Cd solution
不同濃度Cd溶液的時域數(shù)據(jù)經(jīng)過SD、SNV去噪后,求取的吸收系數(shù)譜也有較強的規(guī)律性(圖4)。在吸收系數(shù)3個特征頻率點0.8、1.2、1.6 THz處建立的線性模型分別為:
y3=1.887×10-8x+1.884×10-8
(6)
y4=3.882×10-8x+0.289×10-8
(7)
y5=9.475×10-8x-5.965×10-8
(8)
3個頻率點處線性模型的決定系數(shù)分別為0.912、0.957、0.858,對比發(fā)現(xiàn)在1.2 THz頻率點處其決定系數(shù)較大,擬合效果較好。
由于Cu溶液的吸收系數(shù)譜圖形較為混亂,在測試的太赫茲光譜范圍內(nèi)未能根據(jù)吸收系數(shù)譜發(fā)現(xiàn)其隨濃度改變而引起的規(guī)律性變化。
首先,基于太赫茲時域光譜對3種重金屬水體進(jìn)行檢測。對3種重金屬溶液時域數(shù)據(jù)依次進(jìn)行DCT、SNV、二階導(dǎo)數(shù)去噪處理后,按照7∶3的比例隨機劃分訓(xùn)練集與測試集,用準(zhǔn)確率來評判模型的優(yōu)劣,模型準(zhǔn)確率為運行30次后的測試集平均準(zhǔn)確率。由表1可知:RF、PNN、KNN模型對3種重金屬溶液的太赫茲時域數(shù)據(jù)均有較好的分類結(jié)果,檢測準(zhǔn)確率基本達(dá)到100%,說明太赫茲光譜可實現(xiàn)3種重金屬溶液的精確分類。
其次,對3種重金屬8種濃度的溶液進(jìn)行太赫茲光譜檢測。將采集得到的太赫茲時域光譜進(jìn)行傅里葉變換得到頻域光譜。對時域與頻域光譜數(shù)據(jù)分別依次進(jìn)行DCT、SNV、SD去噪處理,再分別運用PCA、MDS進(jìn)行降維處理,隨機對樣本按照7∶3的比例劃分為訓(xùn)練集和測試集,然后利用RF、PNN、KNN進(jìn)行濃度識別建模,每種模型均重復(fù)運行30次,取其平均值為最終準(zhǔn)確率。
3種重金屬不同濃度識別結(jié)果如表2所示,對比各個組合模型的準(zhǔn)確率,可以發(fā)現(xiàn)PCA降維可以使模型得到較佳的濃度識別結(jié)果,且時域數(shù)據(jù)比頻域數(shù)據(jù)更適合進(jìn)行濃度識別建模。其中,Hg溶液經(jīng)去噪處理后的時域數(shù)據(jù)再經(jīng)過PCA降維所建立的PNN模型效果最好,準(zhǔn)確率達(dá)到99.45%,經(jīng)過PCA降維后所建立的RF模型也具有較好的濃度識別效果,其準(zhǔn)確率為98.89%;以頻域數(shù)據(jù)構(gòu)建的PNN模型基本不具備濃度識別能力。Cd溶液經(jīng)去噪處理后的時域數(shù)據(jù)經(jīng)過PCA處理后構(gòu)建的RF模型與PNN模型準(zhǔn)確率分別為98.15%與95.93%。當(dāng)Cu溶液經(jīng)去噪處理后的時域數(shù)據(jù)用于濃度識別時,經(jīng)PCA與MDS降維后構(gòu)建的PNN模型,準(zhǔn)確率分別為99.25%與98.89%,構(gòu)建的KNN模型,準(zhǔn)確率分別為99.44%與98.52%。綜合對比可以發(fā)現(xiàn),基于DCT、SNV、SD依次進(jìn)行去噪處理后的時域數(shù)據(jù)構(gòu)建的PCA-PNN模型3種重金屬濃度識別均有較高的準(zhǔn)確率。
表1 3種重金屬溶液的不同檢測模型準(zhǔn)確率比較Table 1 Comparison of the accuracy of three different detection models for heavy metal solutions
表2 3種重金屬8種濃度的不同檢測模型準(zhǔn)確率比較Table 2 Accuracy comparison of different detection models of 8 concentrations of three heavy metals
分別利用DCT、DCT-PCA、DCT-LDA技術(shù)對3種重金屬溶液8種濃度的太赫茲時域光譜數(shù)據(jù)進(jìn)行預(yù)處理,然后利用BPNN和LSSVM構(gòu)建預(yù)測模型。每種重金屬溶液加上超純水對照組共計450個樣本,以 7∶3 的比例隨機劃分訓(xùn)練集與測試集。對每個模型分別運行30次,取其平均值為最終結(jié)果。
由表3可知:Hg溶液預(yù)測結(jié)果較好的模型為采用DCT去噪結(jié)合LDA降維后構(gòu)建的BPNN和LSSVM濃度預(yù)測模型,其均方誤差分別為0.008與0.011,R2分別為0.996與0.995。采用DCT去噪后構(gòu)建的BPNN和LSSVM濃度預(yù)測模型也有較好的濃度預(yù)測能力,其均方誤差分別為0.024與0.008,R2分別為0.988與0.996。Cd溶液預(yù)測結(jié)果最好的模型為經(jīng)過DCT預(yù)處理后構(gòu)建的LSSVM回歸模型,均方誤差低至0.005,R2高達(dá)0.997。采用DCT去噪結(jié)合LDA降維后構(gòu)建的BPNN回歸模型也表現(xiàn)出較好的預(yù)測能力,均方誤差為0.026,R2為0.986。在Cu溶液預(yù)測模型中,有2個模型預(yù)測效果較佳,分別為采用DCT去噪結(jié)合LDA降維處理后構(gòu)建的BPNN回歸模型與采用DCT去噪處理后構(gòu)建的LSSVM回歸模型,其均方誤差分別為2.164和12.730,R2分別為0.999和0.997。
綜合對比可知,BPNN與LSSVM模型對溶液中的3種重金屬含量都有很好的預(yù)測結(jié)果。未經(jīng)去噪處理的太赫茲時域光譜數(shù)據(jù)不適合用于回歸分析,而經(jīng)過DCT去噪后,模型的預(yù)測精度得到大幅度提升。LDA降維與PCA降維相比,LDA降維更適合與DCT結(jié)合用于太赫茲光譜時域數(shù)據(jù)的預(yù)處理。DCT-LDA-BPNN模型對溶液中的3種重金屬含量均有較好的預(yù)測結(jié)果。
表3 Hg、Cd、Cu溶液的濃度預(yù)測模型結(jié)果比較Table 3 Comparison of Hg,Cd and Cu concentration prediction model results
1)基于吸收系數(shù)進(jìn)行特征頻率點建模分析中,1.7 THz處不同濃度Hg溶液的吸收系數(shù)在濃度0~1.5 μg·mL-1與2.0~4.0 μg·mL-1內(nèi)分別有較好的線性關(guān)系,決定系數(shù)分別為0.971和0.929。不同濃度的Cd溶液的吸收系數(shù)在1.2 THz處有較好的線性關(guān)系,其線性建模的決定系數(shù)達(dá)到0.957。未發(fā)現(xiàn)不同濃度的Cu溶液的吸收系數(shù)在被測太赫茲譜范圍內(nèi)的變化規(guī)律。
2)基于太赫茲光譜時域數(shù)據(jù)進(jìn)行重金屬及其濃度檢測分析中,采用DCT、SNV、SD 3種去噪方法以及RF、PNN、KNN 3種檢測模型均能對重金屬種類進(jìn)行準(zhǔn)確檢測,同種重金屬不同濃度進(jìn)行濃度檢測時,構(gòu)建的PCA-PNN濃度識別模型對3種重金屬進(jìn)行濃度識別的效果最佳,其識別準(zhǔn)確率分別為99.45%、95.93%和99.25%。
3)基于太赫茲光譜時域數(shù)據(jù)進(jìn)行重金屬濃度預(yù)測分析中,發(fā)現(xiàn)DCT去噪可大幅度提高模型預(yù)測的精度。構(gòu)建的DCT-LDA-BPNN模型可用于溶液中Hg、Cd和Cu這3種重金屬含量預(yù)測,決定系數(shù)分別為0.996、0.986和0.999,均方誤差分別為0.008、0.026和2.164。