王書濤,劉 娜,程 琪,車先閣,李明珊,崔 凱,王玉田
燕山大學(xué)河北省測試計(jì)量技術(shù)與儀器重點(diǎn)實(shí)驗(yàn)室,河北 秦皇島 066004
隨著現(xiàn)在生活水平質(zhì)量的提高,人們現(xiàn)在更加關(guān)注自身身體的健康和生存環(huán)境的好壞,因?yàn)檫@與人類的未來息息相關(guān)。 多環(huán)芳烴(polycyclic aromatic hydrocarbon, PAHs)作為一類長時(shí)間難以降解的污染物,大致上都具有一個(gè)以上的苯環(huán)[1],廣泛存在于大氣、水中,長期積累會(huì)對(duì)人的呼吸系統(tǒng)或肝臟系統(tǒng)造成一定的損傷,更嚴(yán)重的可能會(huì)致癌。 研究表明,有機(jī)物的不完全燃燒是導(dǎo)致PAHs的根本原因,一般可以分為兩類[2]: 一類為天然源,主要為一些像森林失火、火山爆發(fā)等自然災(zāi)害。 而另一類為人們?cè)谏a(chǎn)生活中制造的一些煙氣廢料,產(chǎn)生的原因比較廣泛,可以在石油燃燒和交通運(yùn)輸過程中大量產(chǎn)生,并通過干濕沉降、污泥農(nóng)用和污水灌溉等方式在土壤或是水中不斷積累,影響人們的生產(chǎn)和生活環(huán)境[3]。 由于多環(huán)芳烴在環(huán)境中難以被分解,且持久性強(qiáng)[4],因此國內(nèi)外的學(xué)者對(duì)如何檢測多環(huán)芳烴做了很多努力,以便找到能扼制多環(huán)芳烴對(duì)環(huán)境污染的方法。 目前我國主要河流中都不同程度的受到PAHs的污染,劉小雪[5]通過對(duì)松花江干流沉積物中重金屬和多環(huán)芳烴污染特征的檢測,從空間和時(shí)間尺度上考察松花江沉積物中多環(huán)芳烴含量及其分布特征分析,了解到多環(huán)芳烴的組成多以NAP,F(xiàn)LU和ANA等比較常見的低環(huán)芳烴為主,而這三種物質(zhì)熒光光譜會(huì)產(chǎn)生重疊[6],容易融合,所以采用一種針對(duì)這三種物質(zhì)混合物的快速鑒別的方法具有現(xiàn)實(shí)意義。
目前用于PAHs種類檢測的方法主要有氣相色譜法、高效液相色譜法、氣相色譜-串聯(lián)質(zhì)譜法[1, 7]等,但這些方法存在前期處理比較繁瑣、價(jià)格昂貴、不能實(shí)時(shí)檢測等缺陷。 而FS920熒光光譜儀具有單次檢測的成本低,操作簡單,可以實(shí)時(shí)檢測物質(zhì)變化,具有豐富的信息含量等優(yōu)點(diǎn)[8],因此適用于各種可以發(fā)出熒光物質(zhì)的液體檢測。 Yang[9]等實(shí)現(xiàn)了用熒光光譜法中熒光激發(fā)發(fā)射矩陣檢測水體質(zhì)量的好壞,劉婷婷[10]等實(shí)現(xiàn)了用三維熒光光譜結(jié)合小波壓縮與APTLD對(duì)水中多環(huán)芳烴的測定,吳興[11]等實(shí)現(xiàn)了用平行因子結(jié)合支持向量機(jī)實(shí)現(xiàn)了對(duì)水中多環(huán)芳烴單質(zhì)物質(zhì)的檢測,多環(huán)芳烴在自然界中多以混合物的形式存在,支持向量機(jī)作為一種比較好的分類模型,本文采用熒光光譜結(jié)合優(yōu)化的支持向量機(jī)實(shí)現(xiàn)對(duì)多環(huán)芳烴混合物的分類與鑒別。
支持向量機(jī)(support vector machine, SVM)由Vapnik首先提出,最早可以用于模式分類,后來Vapnik將支持向量機(jī)加以改進(jìn)并且適用于非線性回歸上。 在模式分類問題中,為避免因數(shù)據(jù)訓(xùn)練過程過于完美而造成的過擬合,支持向量機(jī)能提供較好的泛化性能。 將遺傳算法優(yōu)化的支持向量機(jī)和三維熒光光譜技術(shù)相結(jié)合,可以快速準(zhǔn)確的辨別混合多環(huán)芳烴物質(zhì)中的種類。
支持向量機(jī)(SVM)作為單層感知機(jī)的一種延續(xù)和發(fā)展,區(qū)別在于感知機(jī)學(xué)習(xí)算法時(shí)會(huì)因采用的初值不同而得到不同的超平面,而SVM試圖尋找一個(gè)最佳的超平面來劃分?jǐn)?shù)據(jù)。 SVM的主要思想是建立一個(gè)分類超平面作為決策面,使得需要被分離的物體之間的隔離邊緣被極限的拉開; 支持向量機(jī)的種類比較多: C-SVC,H-SVMs,DAG-SVMs(有向無環(huán)圖支持向量機(jī))等,其中C-SVC是比較常見的二分類支持向量機(jī)模型,其具體形式如下:
1)設(shè)已知訓(xùn)練集
T={(x1,y1), …, (xl,yl)}∈(X×Y)l
(1)
其中,xi∈X=Rn,yi∈Y{1, -1}(i=1, 2, …,l);xi為特征向量。
2)選取適當(dāng)?shù)暮撕瘮?shù)K(x,x′)和適當(dāng)?shù)膽土P參數(shù)C,構(gòu)造并求解最優(yōu)化問題
(2)
(3)
(4)
(5)
4)構(gòu)造決策函數(shù)
(6)
由于懲罰參數(shù)C與g的選擇決定著SVM分類的準(zhǔn)確率與精度,傳統(tǒng)支持向量機(jī)需要靠經(jīng)驗(yàn)尋找最佳參數(shù),因此,使用GA參數(shù)優(yōu)化方法來優(yōu)化參數(shù)對(duì)比傳統(tǒng)支持向機(jī)。
遺傳算法(genetic algorithm,GA)作為一種優(yōu)化算法,是對(duì)達(dá)爾文生物進(jìn)化論的自然選擇和遺傳學(xué)機(jī)理生物進(jìn)化過程進(jìn)行的模擬,在模擬自然進(jìn)化過程搜索從而尋找最優(yōu)解的方法,它最初由美國Michign大學(xué)J.Holland教授于1975年提出,根據(jù)自然界中優(yōu)勝劣汰的選擇規(guī)律,可以應(yīng)用于很多領(lǐng)域,本文依據(jù)遺傳算法來尋找最佳的支持向量機(jī)的參數(shù),使訓(xùn)練和測試的結(jié)果達(dá)到最優(yōu)。
遺傳算法主要特點(diǎn)是直接對(duì)結(jié)構(gòu)對(duì)象進(jìn)行操作,操作簡單,搜索范圍大,應(yīng)用范圍廣泛。 運(yùn)用GA來尋找最佳的參數(shù)C和g,可以不必像網(wǎng)格劃分那樣遍歷網(wǎng)格內(nèi)的所有參數(shù)點(diǎn),也能找到最優(yōu)的答案[12]。 遺傳算法作為一種適用性很強(qiáng)的優(yōu)化技術(shù),近幾年的發(fā)展極為迅速,掀起了一股遺傳算法研究的熱潮。 利用GA算法對(duì)SVM參數(shù)選擇優(yōu)化的建模流程如圖1所示。
圖1 利用GA優(yōu)化SVM參數(shù)的算法流程圖
多環(huán)芳烴的種類多種多樣,例如苊烯(ANY)、芘(ANT)、熒蒽(FLT)等27種。 本實(shí)驗(yàn)根據(jù)常見的多環(huán)芳烴類型,選取3種多環(huán)芳烴作為實(shí)驗(yàn)樣本: 萘(NAP)、芴(FLU)、苊(ANA)固體粉末狀物質(zhì),購買自上海阿拉丁生化科技。 稱量儀器為天津天馬橫基儀器有限公司生產(chǎn)的FA1004型,取NAP,F(xiàn)LU和ANA粉末各1 g溶于少量的甲醇(光譜級(jí))溶液,然后轉(zhuǎn)移到100 mL的去離子水溶液中,配置PAHs標(biāo)準(zhǔn)溶液。 實(shí)驗(yàn)過程中保證使用甲醇的濃度為99%,體積分?jǐn)?shù)低于1%,避免在實(shí)驗(yàn)中對(duì)多環(huán)芳烴的測量造成影響。
在測量過程中,采用的檢測儀器為英國Edinburgh Instruments公司生產(chǎn)的FS920熒光光譜儀,掃描范圍為200~900 nm,比色皿為石英材質(zhì),光程10 nm; 實(shí)驗(yàn)中設(shè)置激發(fā)波長200~370 nm,步長為10 nm,發(fā)射波長為240~390 nm,步長為2 nm,狹縫寬度為2.8 nm; 為避免熒光光譜儀本身產(chǎn)生的瑞利散射影響,設(shè)置起始的發(fā)射波長滯后激發(fā)波長10 nm。
為得到多環(huán)芳烴的原始光譜,將配置的PAHs標(biāo)準(zhǔn)溶液放入比色皿中進(jìn)行測試,圖2為實(shí)驗(yàn)中10 g·L-1多環(huán)芳烴單質(zhì)水溶液的原始熒光光譜圖。
圖2 芴(FLU)、苊(ANA)、萘(NAP)的水溶液熒光光譜圖
由圖2中三種多環(huán)芳烴的熒光光譜圖可知,F(xiàn)LU的熒光峰值位置在激發(fā)波長300 nm,發(fā)射波長322 nm,ANA較強(qiáng)的熒光光譜范圍是激發(fā)波長為285~310 nm,發(fā)射波長為320~340 nm,NAP的熒光范圍在激發(fā)波長260~290 nm,發(fā)射波長在310~330 nm之間,而NAP的光譜范圍較為廣泛,涵蓋了ANA的熒光光譜和NAP的熒光光譜,考慮到在自然界中,多環(huán)芳烴多為痕量物質(zhì)不易被檢測,而且以混合物的形式存在,以標(biāo)準(zhǔn)溶液為基準(zhǔn),配置了濃度為0.1 mg·mL-1的單質(zhì)水溶液。 實(shí)驗(yàn)將ANA與NAP,F(xiàn)LU分別取不同的體積相互混合形成兩種混合溶液,各自形成16種不同濃度比例的混合溶液,然后再取不同體積的三種溶液相互混合,搖勻震蕩,共形成48種不同比例的混合溶液。 圖3為不同體積分?jǐn)?shù)混合溶液的部分熒光光譜圖。
通過分析混合溶液的熒光光譜圖可知,ANA、NAP的混合溶液和ANA、FLU的混合溶液最佳發(fā)射波長的位置相同,熒光峰對(duì)應(yīng)的激發(fā)波長也有大部分重疊,ANA,F(xiàn)LU和NAP混合溶液的熒光峰也包括320 nm,激發(fā)波長范圍也和前兩類混合物相近。 熒光光譜范圍集中在激發(fā)波長260~300 nm,發(fā)射波長320~360 nm之間,僅從光譜圖特性上并不能及時(shí)準(zhǔn)確的辨別是哪種物質(zhì)的混合物,因此,采用GA優(yōu)化的SVM算法來進(jìn)行辨別,為提升水流域中多環(huán)芳烴類混合物種類的測量效果提供一種簡單有效的方法。
圖3 ANA∶NAP體積比為1∶9、ANA∶FLU為1∶9、ANA∶FLU∶NAP為2∶1∶3的混合溶液
GA-SVM模型處理過程就是對(duì)數(shù)據(jù)進(jìn)行的選擇和重構(gòu)矩陣,為了增加實(shí)驗(yàn)的準(zhǔn)確性,避免人為因素造成的不確定因素,因此增大了熒光光譜的取值范圍,取熒光光譜范圍差別較大的波段: 激發(fā)波長為260~320 nm,發(fā)射波長為300~380 nm,3種苊萘、苊芴和苊芴萘的混合溶液分別標(biāo)定1,2和3。 每組16個(gè)樣本,共48組,在GA-SVM模型中,將數(shù)據(jù)隨機(jī)打亂,然后被分為訓(xùn)練組和預(yù)測組,訓(xùn)練組設(shè)為36組,預(yù)測組設(shè)為12組。 其中,遺傳算法需要提前設(shè)定的參數(shù)群體大小為20、交叉概率為0.9、變異概率為0.01、遺傳算法的終止進(jìn)化代數(shù)為200。
將重構(gòu)好的數(shù)據(jù)輸入GA-SVM模型進(jìn)行訓(xùn)練,模型經(jīng)過200次迭代后,較好的實(shí)現(xiàn)了多環(huán)芳烴光譜的模式識(shí)別,訓(xùn)練好的模型測試結(jié)果如表1所示,共測試10次,取平均值。
表1 多環(huán)芳烴的分類測試結(jié)果
從表1可知,GA-SVM對(duì)三種多環(huán)芳烴混合物的識(shí)別率為95.42%。 這表明,GA-SVM模型能準(zhǔn)確識(shí)別不同種類的多環(huán)芳烴混合物三維熒光光譜。
實(shí)驗(yàn)中設(shè)計(jì)得GA-SVM模型輸入的訓(xùn)練集與測試集分別為隨機(jī)取的36個(gè)和12個(gè),所以,BP神經(jīng)網(wǎng)絡(luò)的輸入層神經(jīng)元個(gè)數(shù)為259(數(shù)據(jù)構(gòu)成的為259×24矩陣),隱層神經(jīng)元個(gè)數(shù)為5,輸出節(jié)點(diǎn)個(gè)數(shù)為3。 激活函數(shù)為sigmoid函數(shù),學(xué)習(xí)率取0.1,為保證實(shí)驗(yàn)的可靠性,采用36個(gè)作為訓(xùn)練集,12個(gè)作為測試集,訓(xùn)練次數(shù)為100。 訓(xùn)練好的模型平均測試結(jié)果如表2所示。
表2 PAHs光譜的分類測試結(jié)果
由表2可知,在對(duì)多環(huán)芳烴熒光光譜的分類中,GA-SVM模型的光譜分類精度更高。
實(shí)驗(yàn)中設(shè)計(jì)得GA-SVM模型輸入的訓(xùn)練集與測試集分別為隨機(jī)取的36個(gè)和12個(gè),所以傳統(tǒng)支持向量機(jī)的輸入也為36個(gè),將訓(xùn)練集和測試集的數(shù)據(jù)進(jìn)行歸一化處理后輸入模型中,經(jīng)過幾次試驗(yàn)后,發(fā)現(xiàn)在懲罰參數(shù)C為2,g為2時(shí),準(zhǔn)確率最高,得出結(jié)果如圖4所示。
圖4 SVM測試集的實(shí)際分類和預(yù)測分類圖
將傳統(tǒng)SVM的測試結(jié)果與GA-SVM對(duì)比如圖5所示。
由圖4可知,SVM的分類結(jié)果中,測試的12個(gè)分類樣本中有2分類錯(cuò)誤。 而從圖5中可以看到,GA-SVM沒有分類錯(cuò)誤。 說明GA的優(yōu)化作用在尋找懲罰參數(shù)C和g中比人為尋找的更為準(zhǔn)確、可靠。
GA-SVM的適應(yīng)度曲線如圖6所示,從圖中可以看到,當(dāng)進(jìn)化代數(shù)大于8時(shí),最佳適應(yīng)度值達(dá)到最大并在一定范圍內(nèi)震蕩,保持穩(wěn)定的波動(dòng)并且與自家適應(yīng)度之間的距離較小,總體收斂速度較快,適應(yīng)度較好,能夠快速檢測多環(huán)芳烴種類。
圖5 GA-SVM測試集的實(shí)際分類和預(yù)測分類圖
圖6 GA-SVM參數(shù)的適應(yīng)度曲線
運(yùn)行得到最優(yōu)的懲罰因子C=8.46,g=39.80。 將得到的優(yōu)化后的參數(shù)輸入GA-SVM訓(xùn)練,運(yùn)行模型訓(xùn)練,得到ANA,F(xiàn)LU和NAP的混合物的分類模型。
利用三維熒光光譜技術(shù)快速獲取了3種多環(huán)芳烴混合物的熒光光譜,從光譜圖特性中發(fā)現(xiàn)不同體積比例混合的多環(huán)芳烴單質(zhì)物質(zhì),在激發(fā)波長在260~320 nm、發(fā)射波長300~380 nm范圍內(nèi)發(fā)射波長位置相近,熒光峰對(duì)應(yīng)的激發(fā)波長范圍有大部分重疊,然后利用GA-SVM對(duì)不同種類的多環(huán)芳烴進(jìn)行分類,實(shí)驗(yàn)中,3種混合物的平均分類正確率為95.42%。 實(shí)驗(yàn)結(jié)果表明,三維熒光光譜結(jié)合GA-SVM技術(shù)能準(zhǔn)確識(shí)別不同種類的多環(huán)芳烴混合物,雖然這種方法在更多種類多環(huán)芳烴混合的情況下的運(yùn)用有待進(jìn)一步研究,但是為水流域中多環(huán)芳烴混合物的種類鑒別提供了一種新思路與新方法。