曹秋紅,林紅梅,周 薇,李照鑫,張同軍,黃海青,李學(xué)敏,李德華
山東科技大學(xué)電子信息工程學(xué)院,青島市太赫茲重點(diǎn)實(shí)驗(yàn)室,山東 青島 266590
隨著人口的增長(zhǎng)和社會(huì)的迅速發(fā)展,水資源短缺和水污染問題日益嚴(yán)重。水質(zhì)分類作為水質(zhì)污染評(píng)估工作中的一項(xiàng)重要環(huán)節(jié),其意義和作用也更加突出。隨著太赫茲技術(shù)日趨成熟,太赫茲光譜技術(shù)在安全監(jiān)控[1]、食品添加劑檢測(cè)[2]等領(lǐng)域都表現(xiàn)出巨大應(yīng)用價(jià)值。由于水對(duì)太赫茲波有很強(qiáng)的吸收,利用太赫茲透射譜測(cè)量水樣時(shí)需將樣品厚度控制在100 μm以內(nèi)[3],對(duì)樣品池精度要求較高,而太赫茲衰減全反射技術(shù)操作簡(jiǎn)單,無需對(duì)樣品進(jìn)行預(yù)處理,因此利用太赫茲衰減全反射(Terahertz attenuated total reflection,THz-ATR)技術(shù)對(duì)水溶液和液體樣品進(jìn)行檢測(cè)、分析近年來逐漸成為了研究熱點(diǎn)。2004年Hirori等[4]利用THz-ATR技術(shù)測(cè)定了蒸餾水的衰減全反射光譜,并推導(dǎo)了它的介電常數(shù),結(jié)果表明ATR測(cè)得水的復(fù)介電常數(shù)與通過THz時(shí)域反射光譜法獲得的結(jié)果有很好的一致性。2006年Nagai等[5]利用THz-ATR技術(shù)準(zhǔn)確測(cè)定蒸餾水和蔗糖溶液的介電常數(shù)。2008年Newnham等[6]使用太赫茲脈沖光譜儀和硅ATR模塊,測(cè)量了固體材料和液體的ATR光譜(0.3~3.6 THz),所測(cè)得太赫茲衰減全反射譜與測(cè)得的透射譜特征一致。2013年Shiraga等[7]提出了一種用太赫茲時(shí)域衰減全反射結(jié)合雙界面模型來確定單層細(xì)胞復(fù)介電常數(shù)的方法,這一方法使我們能夠在皮秒尺度上估計(jì)細(xì)胞內(nèi)的水分子動(dòng)力學(xué),表明細(xì)胞單層內(nèi)存在弱水合水分子。以上研究表明THz-ATR技術(shù)不需要對(duì)液體樣品進(jìn)行處理,可直接用于水溶液的測(cè)定,具有檢測(cè)方便、靈敏度高、精確度高和無損檢測(cè)等特點(diǎn)。
利用THz-ATR技術(shù)對(duì)不同水質(zhì)的研究分析,至今未見到相關(guān)報(bào)道。本文利用THz-ATR技術(shù)對(duì)海水等水樣品進(jìn)行了測(cè)量,并提取0.2~1.0 THz頻段的折射率、吸收系數(shù)、介電常數(shù)等光學(xué)參數(shù),結(jié)合主成分分析和支持向量機(jī)等模式識(shí)別方法對(duì)所提取的光學(xué)參數(shù)建立分類模型,實(shí)現(xiàn)對(duì)不同水樣的分類識(shí)別,為水質(zhì)評(píng)估提供一種新的模式。
實(shí)驗(yàn)中使用的測(cè)量?jī)x器是德國BATOP公司生產(chǎn)的TDS1008太赫茲時(shí)域光譜系統(tǒng)。實(shí)驗(yàn)中無需對(duì)樣品進(jìn)行預(yù)處理[7],用滴管直接吸取2 mL的水樣,滴至ATR模塊硅棱鏡表面。如圖1為ATR測(cè)量結(jié)構(gòu)示意圖,太赫茲波以θ角入射到ATR棱鏡中,太赫茲波在棱鏡-樣品界面發(fā)生全反射,倏逝波滲透到樣品中,其滲透深度取決于樣品和ATR晶體的折射率、太赫茲波的入射角、偏振態(tài)和頻率[5]。本文采用S偏振THz波,選取純凈水、自來水、河水、海水A和海水B(海水A和海水B取自黃海海域不同水域)五種水樣品,測(cè)得0.2~1.0 THz頻率范圍內(nèi)樣品的ATR光譜,每種樣品測(cè)量十次,共獲得50組數(shù)據(jù)。
圖1 ATR的結(jié)構(gòu)示意圖,入射角θ為51.6°,硅棱鏡的折射率為3.42Fig.1 A schematic diagram of the structure of the ATR,the incident angle θ is 51.6°,The refractive index of the silicon prism is 3.42
對(duì)所測(cè)得的時(shí)域信號(hào)進(jìn)行快速傅里葉變換[5-8],得到傳輸函數(shù)H(ω),傳輸函數(shù)幅值ρ(ω)和相位φ(ω)如式(1)—(3)所示
(1)
(2)
(3)
其中,Ein(ω)為入射太赫茲波的電場(chǎng)強(qiáng)度,Esam(ω)和Eref(ω)分別為樣品信號(hào)和參考信號(hào)的電場(chǎng)強(qiáng)度,r和r′分別為棱鏡-樣品界面和棱鏡-空氣界面的全反射系數(shù)。
輸入信號(hào)Ein(ω)和輸出信號(hào)Eout(ω)由全反射系數(shù)r決定,即Eout(ω)=Ein(ω)r。對(duì)于S偏振和P偏振的太赫茲波
(4)
(5)
r=ρ(ω)e-j[φ(ω)+1.73]
(6)
樣品介電常數(shù)為
(7)
獲得樣品的折射率n和吸收系數(shù)α如式(8)和式(9)
(8)
(9)
利用THz-ATR測(cè)量了純凈水、自來水、河水、海水A和海水B五種水樣品的時(shí)域光譜,通過光學(xué)參數(shù)提取模型得到樣品在0.2~1.0 THz范圍內(nèi)的吸收系數(shù)、折射率和介電常數(shù)。圖2為海水A樣品在0.2~1.0 THz頻率范圍內(nèi)折射率、吸收系數(shù)、介電常數(shù)實(shí)部和虛部隨頻率變化的對(duì)比圖,從圖中可以看出海水A樣品的十次測(cè)量結(jié)果略有差異,其光學(xué)參數(shù)隨頻率變化趨勢(shì)大致相同。圖3為不同水樣的折射率、吸收系數(shù)、介電常數(shù)實(shí)部和虛部對(duì)比圖,從圖3可以看出,純凈水與其他四種水吸收系數(shù)、介電常數(shù)都有較明顯不同,其他四種水樣的折射率、吸收系數(shù)和介電常數(shù)差異較小,僅靠光學(xué)參數(shù)譜線無法區(qū)分不同的水樣。
圖2 海水A樣品在0.2~1.0 THz范圍內(nèi)的光學(xué)參數(shù)(a):折射率;(b):吸收系數(shù);(c):介電常數(shù)實(shí)部;(d):介電常數(shù)虛部Fig.2 Comparison of optical parameters of sea water A sample in the range of 0.2~1.0 THz(a):Refractive index;(b):Absorption coefficient;(c):Real part of dielectric constant;(d):Imaginary part of dielectric constant
圖3 純凈水、自來水、河水、海水A和海水B五種樣品在0.2~1.0 THz范圍內(nèi)的光學(xué)參數(shù)對(duì)比(a):折射率;(b):吸收系數(shù);(c):介電常數(shù)實(shí)部;(d):介電常數(shù)虛部Fig.3 Optical parameter comparison of five samples in the range of 0.2~1.0 THz for purified water,tap water,river water,seawater A and seawater B(a):Refractive index;(b):Absorption coefficient;(c):Real part of dielectric constant;(d):Imaginary part of dielectric constant
主成分分析(principal component analysis,PCA)是一種數(shù)學(xué)統(tǒng)計(jì)方法[9]。由于變量之間具有一定的相關(guān)性,因此變量之間可能存在一些重疊信息[10]。PCA用于將一組可能相關(guān)的變量轉(zhuǎn)換成一組線性不相關(guān)的變量,這組線性不相關(guān)的變量稱為主成分(Principal components,PCs)。PCs是原始變量的線性組合,其個(gè)數(shù)小于原始數(shù)據(jù)的個(gè)數(shù)。為了減少光譜的數(shù)據(jù)冗余,提高模型效率,對(duì)樣品折射率、吸收系數(shù)、介電常數(shù)實(shí)部和虛部在0.2~1.0THz波段的原始數(shù)據(jù)進(jìn)行主成分分析,降維后前3項(xiàng)主成分的累計(jì)方差貢獻(xiàn)率分別為98.992%,99.722%,99.242%和99.762%,可以近似解釋所有原始數(shù)據(jù)。圖4和圖5分別是基于不同光學(xué)參數(shù)的PCA二維和三維得分圖,從圖中可以看出,吸收系數(shù)、介電常數(shù)實(shí)部和虛部的二維和三維PCA得分圖無法區(qū)分自來水、河水和海水,而折射率的二維和三維PCA得分圖可以明顯的區(qū)分不同水樣,并且基于折射率的三維PCA得分圖聚類效果最好,可以通過聚類情況區(qū)分不同的水樣。由于PCA結(jié)果取決于原始數(shù)據(jù),上述聚類結(jié)果說明了實(shí)驗(yàn)樣本中純凈水、自來水、河水和海水這四種水樣的折射率光譜特性具有一定的差異,而海水A和海水B的折射率特性相近;自來水、河水和海水的吸收系數(shù)、介電常數(shù)實(shí)部和虛部的光譜特性相近,這一結(jié)果與光譜測(cè)量結(jié)果相符。
圖4 純凈水、自來水、河水、海水A和海水B在0.2~1.0 THz范圍內(nèi)的光學(xué)參數(shù)在第一、二主成分上的得分(a):折射率得分;(b):吸收系數(shù)得分;(c):介電常數(shù)實(shí)部得分;(d):介電常數(shù)虛部得分Fig.4 The scores of the optical parameters of purified water,tap water,river water,sea water A and sea water B in the range of 0.2~1.0 THz on the first and second principal components(a):Score of refractive index;(b):Score of absorption coefficient;(c):Score of dielectric constant real part;(d):Score of dielectric constant imaginary part
圖5 純凈水、自來水、河水、海水A和海水B在0.2~1.0 THz范圍內(nèi)的光學(xué)參數(shù)在前三個(gè)主成分上的得分(a):折射率得分;(b):吸收系數(shù)得分;(c):介電常數(shù)實(shí)部得分;(d):介電常數(shù)虛部得分Fig.5 The scores of the optical parameters of purified water,tap water,river water,sea water A and sea water B in the range of 0.2~1.0 THz on the first three principal components(a):Score of refractive index;(b):Score of absorption coefficient;(c):Score of dielectric constant real part;(d):Score of dielectric constant imaginary part
支持向量機(jī)(support vector machines,SVM)是一種機(jī)器學(xué)習(xí)算法,它在解決小樣本、非線性和高維模式識(shí)別問題時(shí)具有獨(dú)特的優(yōu)勢(shì)[11]。由于折射率的三維主成分得分圖分類效果最好,因此選取樣品折射率的前三個(gè)主成分作為輸入數(shù)據(jù)輸入到SVM中建立分類模型。在SVM中,數(shù)據(jù)集分為兩類,一類是訓(xùn)練集,一類是測(cè)試集。實(shí)驗(yàn)共測(cè)得5種水樣,每種水樣各測(cè)10組,共50組數(shù)據(jù)。每種水樣中隨機(jī)抽取6組數(shù)據(jù)(共30組)作為訓(xùn)練集,剩余的20組數(shù)據(jù)作為測(cè)試集。
為了提高分類模型的預(yù)測(cè)精度,需要使用優(yōu)化算法來優(yōu)化懲罰參數(shù)c和徑向基函數(shù)核參數(shù)g[12]。引入遺傳算法(genetic algorithm,GA)、網(wǎng)格搜索(grid search,GridSearch)和粒子群(particle swarm optimization,PSO)三種優(yōu)化算法來搜索參數(shù)c和g的最佳組合[13],從而選出準(zhǔn)確率最高的優(yōu)化算法建立PCA-SVM分類模型。表1為PCA-SVM結(jié)合三種優(yōu)化方法的結(jié)果對(duì)比,其中GA、GridSearch和PSO三種優(yōu)化算法的訓(xùn)練集準(zhǔn)確率都達(dá)到了100%,測(cè)試集準(zhǔn)確率分別為99.5%,99.0%和100%。圖6為PSO優(yōu)化算法的適應(yīng)度曲線,可以看出當(dāng)懲罰參數(shù)c為3.154 9,核函數(shù)參數(shù)g為12.589時(shí),訓(xùn)練集和測(cè)試集的準(zhǔn)確率均達(dá)到100%。結(jié)果表明,PSO構(gòu)建的PCA-SVM分類模型效果最優(yōu),可以對(duì)不同水樣品進(jìn)行很好的分類鑒別。
表1 PCA-SVM結(jié)合遺傳、網(wǎng)格搜索和粒子群三種優(yōu)化方法對(duì)比Table 1 Comparison of three optimization methods of PCA-SVM combined with GA,Gridsearch and PSO
圖6 PSO優(yōu)化算法的適應(yīng)度曲線(最優(yōu)參數(shù)c=3.154 9,g=12.589)Fig.6 Fitness curve of PSO(optimal parameter c=3.154 9,g=12.589)
利用THz-ATR技術(shù),測(cè)得純凈水、自來水、河水、海水A和海水B五種水樣品在0.2~1.0 THz頻段下折射率、吸收系數(shù)和介電常數(shù)。采用PCA對(duì)折射率原始數(shù)據(jù)進(jìn)行降維和特征提取,將提取后的前三個(gè)主成分輸入到SVM中建立分類模型。引入GA、GridSearch和PSO算法對(duì)SVM參數(shù)進(jìn)行優(yōu)化。三種算法的優(yōu)化識(shí)別率分別為99.5%,99.0%和100%。結(jié)果表明,利用PSO優(yōu)化算法基于折射率構(gòu)建的PCA-SVM分類模型識(shí)別不同的水樣準(zhǔn)確率達(dá)到了100%。因此,利用THz-ATR技術(shù)結(jié)合PCA-SVM分類模型有望用于水資源質(zhì)量的快速檢測(cè)。