路永華
(蘭州財經(jīng)大學(xué)信息工程學(xué)院,甘肅 蘭州 730020)
塑料大量使用,極大地便利了人們的生活,現(xiàn)實面臨的問題是塑料在自然界中不易降解,隨意丟棄對環(huán)境造成很大的污染,廢舊塑料在回收過程中,摻雜各種不同類型,這給廢舊塑料回收帶來極大的困難[1]。因此要實現(xiàn)廢舊塑料的回收,最關(guān)鍵是尋找最便捷的方法實現(xiàn)對塑料精確分類,這樣可以減少環(huán)境污染的同時,又能使資源得到重復(fù)利用,提高經(jīng)濟效益[2]。
塑料制品常見的分類方法有人工分類法、拉曼光譜法(RS)[3]、激光誘導(dǎo)熒光技術(shù)(LIF)[4]。這三種方法對塑料制品的分類都有一定的優(yōu)點,但是也存在缺點。例如,人工分類法在現(xiàn)實操作中存在效率低容易分類錯誤,有的塑料制品揮發(fā)有毒氣體,長期在這樣環(huán)境中會對工作人員造成極大的傷害;RS法通過測量塑料樣品表面產(chǎn)生的散色光,從而確定塑料樣品的分子結(jié)構(gòu),然后根據(jù)分子結(jié)構(gòu)實現(xiàn)對樣品的分類,但是采集到的光譜因峰值相互重疊,測定出來的分子結(jié)構(gòu)出現(xiàn)誤差,造成識別精度降低;LIF法利用激光光源照射塑料樣品,使其產(chǎn)生熒光并對采集到的熒光譜進行分析,但是產(chǎn)生的熒光譜容易受到大氣中的臭氧和水蒸氣的影響,造成光譜峰值出現(xiàn)偏差,降低識別的精度。
激光誘導(dǎo)擊穿光譜(Laser-induced breakdown spectroscopy,LIBS)[5]技術(shù)是利用激光光源照射塑料樣品表面產(chǎn)生等離子體,利用光譜儀收集產(chǎn)生的光譜數(shù)據(jù)。這種技術(shù)不需要對塑料樣品進行預(yù)處理、檢測時間短、可以迅速獲取大量的光譜數(shù)據(jù)以供后續(xù)研究,因此被廣泛運用到各種塑料識別的研究中。方正等[6]利用GA-BP神經(jīng)網(wǎng)絡(luò)結(jié)合X射線吸收光譜,通過主成分分析法實現(xiàn)對常見的15種塑料分類,實驗結(jié)果表明GA-BP神經(jīng)網(wǎng)絡(luò)的識別精度為98.23 %,達到實際要求。項麗蓉等[7]利用LIBS技術(shù)結(jié)合四種不同的化學(xué)計量學(xué)方法,對土壤中Pb和Cd元素的含量進行定量分析,研究表明,LIBS技術(shù)結(jié)合多元化學(xué)計量方法可以實現(xiàn)對土壤中重金屬含量的準(zhǔn)確檢測。朱毅寧等[8]為提高LIBS技術(shù)在鮮肉品種的識別率,采用主成分分析法結(jié)合支持向量機,通過49條特征譜線,實現(xiàn)對三種鮮肉組織進行識別分析,識別精度為89.11 %。于洋等[9]利用LIBS技術(shù)結(jié)合支持向量機實現(xiàn)對11種塑料樣品的分類識別,識別精度為98.73 %。
本文利用激光誘導(dǎo)擊穿光譜結(jié)合不同模式識別方法(BP神經(jīng)網(wǎng)絡(luò),GA-BP神經(jīng)網(wǎng)絡(luò),SVM模型,GA-SVM模型)對不同塑料樣品進行分類研究。采集10種不同塑料樣品的光譜,選取光譜中譜線強度大的作為特征譜線,將提取出的特征譜線作為四種模型的輸入值,進行識別分析,其中GA-BP神經(jīng)網(wǎng)絡(luò)和GA-SVM模型的識別精度明顯優(yōu)于BP神經(jīng)網(wǎng)絡(luò)和SVM模型。
實驗室收集10種常見的塑料樣品:聚乙烯(PE)、聚丙烯(PP)、聚甲醛(POM)、聚氨酯(PU)、聚碳酸酯(PC)、聚苯乙烯(PS)、聚四氟乙烯(PTFE)、尼龍-6(PA-6)、工程塑料(ABS)、有機玻璃(PMMA)。10種塑料樣品的分子式和顏色如表1所示,將收集到的塑料樣品切割成1 cm×1 cm的正方形,厚度為2 mm。用蒸餾水清洗干凈塑料樣品表面,烘干備用。
表1 塑料樣品的分子式和顏色
本實驗儀器如圖1所示。其中,采用調(diào)Q型開關(guān)Nd∶YAG型脈沖激光器,激光器的最大波長為1040 nm,激光束的直徑為10 mm,激光器重復(fù)頻率為10 Hz,波長經(jīng)過倍頻器后,波長變?yōu)?40 nm。激光器產(chǎn)生的激光束通過鏡面反射,垂直透過100 mm的凸透鏡,將激光束聚焦到塑料樣品表面,從而產(chǎn)生等離子體。利用光收集器對光譜進行匯集,將光信號通過光纖傳輸至光譜儀中(Andor ME5000,波長范圍為200~950 nm)進行分光處理,利用增強型電荷耦合器(ICCD)(型號為Andor DH334T)完成光信號轉(zhuǎn)換為電信號。將得到的電信號傳輸?shù)接嬎銠C中,實現(xiàn)數(shù)據(jù)的采集與分析。本研究中,通過設(shè)置數(shù)字脈沖發(fā)生器(DG535)實現(xiàn)激光器與ICCD同步。使用X-Y-Z三維精密移動平臺實現(xiàn)在塑料樣品表面獲得不同的光譜采集點。
圖1 實驗裝置原理圖
實驗在常溫常壓下進行,室溫為25 ℃,濕度為30 %。首先,利用汞光源對光譜儀校準(zhǔn)操作,保證校準(zhǔn)后波長小于0.2 mm。其次,設(shè)置激光器射出的單脈沖能量為50 mJ,經(jīng)過透鏡聚焦后到達塑料樣品表面時,激光束的能量約為45 mJ。最后ICCD的門寬和積分時間分別設(shè)置為1 μs和2 μs。通過對儀器參數(shù)進行調(diào)整,使采集到的光譜數(shù)據(jù)獲取最佳的信背比和光譜強度,降低因?qū)嶒炘O(shè)備帶來的數(shù)據(jù)誤差。
在LIBS光譜采集實驗中,三維移動平臺步長設(shè)置為0.5 mm,每次移動時,為了降低實驗中因為環(huán)境影響造成采集的譜線強度與實際存在偏差,對每個采集點重復(fù)采集30次,然后將累積的30次譜線強度求取平均值,作為采集點的譜線強度。特征譜線在選擇時,遵循的條件:①譜線間峰值重疊范圍??;②譜線相對強度大,易于提??;③同一組譜線強度存在差異。本實驗中選取特征譜線包括:金屬譜線和非金屬譜線,選用美國NIST原子光譜數(shù)據(jù)作為參考標(biāo)準(zhǔn),對10種塑料樣品的譜線強度進行分析,提取出譜線強度最大的14種譜線作為特征譜線。選取特征譜線對應(yīng)的元素和標(biāo)準(zhǔn)波長如表2所示。
表2 特征譜線與對應(yīng)波長
實驗中每種塑料樣品都采集100組光譜數(shù)據(jù),10種塑料樣品共有1000組光譜數(shù)據(jù),每組數(shù)據(jù)提取14個特征光譜,組成1000×14維數(shù)據(jù)矩陣。因為不同的塑料制品,其各種組成元素含量各不相同,對應(yīng)的特征光譜強度也各不相同,因此可以利用特征光譜強度的差異性,結(jié)合相應(yīng)的模式識別算法可以現(xiàn)實對塑料樣品的精確分類。因為實驗中,儀器誤差、人員操作等都會對采集到的原始數(shù)據(jù)造成干擾,降低分類的精度,同時不同的特征譜線強度相差過大,需要對數(shù)據(jù)進行均值濾波和歸一化處理,減小數(shù)據(jù)間差值過大帶來的誤差[10]。因為10種塑料樣品的元素種類基本一致,因此特征譜線的的峰位基本相同。圖2所示為10種塑料樣品的光譜圖。其中對比ABS和PA-6的光譜圖,可以看出兩種塑料的特征譜線對應(yīng)波長基本一致,但是特征譜線的強度差異較大。
圖2 10種塑料樣品的原始光譜圖數(shù)據(jù)
誤差反向傳播(Back-Propagation,BP)神經(jīng)網(wǎng)絡(luò)是一種誤差逆向傳播的多層前饋網(wǎng)絡(luò)[11]。利用數(shù)據(jù)集不斷對BP神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,使得網(wǎng)絡(luò)中的權(quán)值和閾值達到最佳,網(wǎng)絡(luò)誤差達到最小。但是網(wǎng)絡(luò)隨著輸入數(shù)據(jù)集維數(shù)的增加,網(wǎng)絡(luò)性能越好,但是建模耗費的時間越長。
遺傳算法(Genetic Algorithm)具有很好的全局特性,通過尋找BP神經(jīng)網(wǎng)絡(luò)最佳權(quán)值和閾值,可以避免網(wǎng)絡(luò)過早收斂,保證此時尋找的最佳權(quán)值和閾值使得網(wǎng)絡(luò)誤差達到最小,提高分類的精度,但是無形中增加建模時間[12]。
支持向量機(Support vector machine,SVM)是一種非線性機器學(xué)習(xí)模型。在低維不可分的數(shù)據(jù)集通過算法升維,在高維空間中利用超平面實現(xiàn)數(shù)據(jù)集線性可分[13]。核函數(shù)是尋找高維超平面的關(guān)鍵,超平面的優(yōu)越性決定著數(shù)據(jù)集分類的精確度。其中,懲罰參數(shù)c和可變參數(shù)g對核函數(shù)的性能起著決定性的作用。
在支持向量機的算法框架上,利用遺傳算法對懲罰參數(shù)c和可變參數(shù)g進行全局搜索,然后最優(yōu)選取c和g的組合值[14],此時建立的模型分類結(jié)果最佳。
將220~1100 nm區(qū)段對應(yīng)的特征光譜經(jīng)過均值濾波和歸一化后作為模型的輸入向量。本文中,共提取14種元素的譜線作為特征譜線,對應(yīng)的輸出為10種塑料樣品,數(shù)據(jù)集為1000×14維矩陣。利用BP神經(jīng)網(wǎng)絡(luò)、GA-BP神經(jīng)網(wǎng)絡(luò)、SVM、GA-SVM四種模型對塑料樣品做分類研究。本文在MATLAB2016b環(huán)境中構(gòu)建算法模型。四種算法的訓(xùn)練集為600組,預(yù)測集為400組。其中,定義每組光譜數(shù)據(jù)的預(yù)測輸出結(jié)果為“◇”,定義每組光譜數(shù)據(jù)的期望輸出為“*”,當(dāng)模型的預(yù)測輸出(◇)和期望輸出(*)重合時,可以認(rèn)為分類結(jié)果正確。
圖3(a)中是BP神經(jīng)網(wǎng)絡(luò)分類結(jié)果。經(jīng)過試驗驗證采用隱含層為12層,因為輸入為14種特征光譜,因此輸入層為14層,被分類的塑料種類為10種,所以輸出層為10層,最終網(wǎng)絡(luò)結(jié)構(gòu)為14-12-10。輸入層和隱含層采用非線性函數(shù)Tan-singmid,Log-singmid,訓(xùn)練時設(shè)置的最大網(wǎng)絡(luò)步數(shù)和學(xué)習(xí)率為100步和0.1,網(wǎng)絡(luò)誤差設(shè)置為0.001。通過訓(xùn)練集不斷對網(wǎng)絡(luò)進行訓(xùn)練,直到神經(jīng)網(wǎng)絡(luò)收斂。然后利用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型對預(yù)測集進行分類。分類結(jié)果如圖3(a)所示,可以看出有6個PTFE被錯誤分類成PS,網(wǎng)絡(luò)的識別精度為98.5 %。圖4(a)中,網(wǎng)絡(luò)訓(xùn)練到9步后MSE趨于穩(wěn)定,但是網(wǎng)絡(luò)此時的精度為0.01797,與實際設(shè)置的網(wǎng)絡(luò)誤差值相差很大,網(wǎng)絡(luò)全局搜索能力差,陷入局部最小值。
圖3 神經(jīng)網(wǎng)絡(luò)對10種塑料樣品分類結(jié)果
圖3(b)中是GA-BP神經(jīng)網(wǎng)絡(luò)分類結(jié)果。在BP神經(jīng)網(wǎng)絡(luò)算法基礎(chǔ)上,利用遺傳算法對網(wǎng)絡(luò)的權(quán)值和閾值進行全局搜索。遺傳算法中種群個體編碼長度為288,算法迭代次數(shù)為50次,種群規(guī)模為30個,交叉概率Pc=0.5,變異概率Pm=0.2。將訓(xùn)練集放入遺傳算法中不斷的進行迭代,直到滿足誤差要求。然后將權(quán)值和閾值解碼出來,放到BP神經(jīng)網(wǎng)絡(luò)框架中,對測試集進行分類。結(jié)果如圖3(b)所示,可以看出有3個PTFE被錯誤分類成PS,網(wǎng)絡(luò)的識別精度為99.25 %。圖4(b)中,網(wǎng)絡(luò)訓(xùn)練到56步后MSE趨于穩(wěn)定,但是網(wǎng)絡(luò)此時的精度為0.0029929,與實際設(shè)置的網(wǎng)絡(luò)誤差接近,網(wǎng)絡(luò)全局搜索能力變強,不容易陷入局部最小值。
圖4 神經(jīng)網(wǎng)絡(luò)訓(xùn)練步數(shù)
圖5(a)中是SVM的分類結(jié)果。利用徑向核函數(shù)(Radical basis function,RBF)作為SVM的核函數(shù),并且使用MATLAB2016b軟件中自帶SVM工具箱對懲罰函數(shù)c和徑向可變參數(shù)g進行優(yōu)化,模型參數(shù)優(yōu)化后得到測試集分類結(jié)果如圖5(a)所示:有3個PA-6塑料樣本被判為PC塑料樣本;有9個PMMA塑料樣本被錯判為PU;SVM模型對PA-6塑料樣本識別精度92.5 %;SVM模型對PMMA塑料樣本識別精度77.5 %;SVM模型對10種塑料樣本的正確識別率為97 %。圖6(a)中,可以看出SVM模型,最佳參數(shù)c=1.7411和g=1,c和g的值在三維空間中呈現(xiàn)“帽子型”結(jié)構(gòu),模型在低維空間中耗費大量時間尋找最佳參數(shù),造成模型在高維空間中超平面的劃分,會出現(xiàn)c和g的值偏差過大,模型分類精度下降。
圖5 支持向量機對10種塑料樣本分類結(jié)果
圖5(b)中是GA-SVM的分類結(jié)果。在SVM基礎(chǔ)算法的框架上,用遺傳算法代替MATLAB2016b工具箱對參數(shù)c和g做最優(yōu)搜索。其中,遺傳算法的種群個數(shù)為20個,種群迭代次數(shù)為40次,交叉驗證參數(shù)為15,參數(shù)c的變化范圍默認(rèn)為(0,100],參數(shù)g的變化范圍默認(rèn)為(0,100]。模型參數(shù)優(yōu)化后測試集的分類結(jié)果如圖5(b)所示:有8個PMMA塑料樣本被錯判為PU;SVM模型PMMA塑料樣品識別精度為80 %;SVM模型對10種塑料樣本的正確識別率為98 %。圖6(b)中,可以看出GA-SVM模型,最佳參數(shù)c=0.5和g=1.3195,c和g的值在三維空間中呈現(xiàn)“階梯狀”結(jié)構(gòu),模型在低維空間中耗費少量時間尋找最佳參數(shù),在高維空間中獲取模型中最佳的參數(shù)c和g組合值,提高分類精度,同時降低模型在低維空間中重復(fù)尋找c和g組合值,減小建模時間。
圖6 兩種SVM最佳參數(shù)尋優(yōu)過程
表3為4種預(yù)測模型對預(yù)處理數(shù)據(jù)分析結(jié)果。
表3 四種預(yù)測模型分析結(jié)果
(1)BP神經(jīng)網(wǎng)絡(luò)直接對測試集進行分類,錯誤識別個數(shù)為6個,但是由圖4(a)可以得出模型訓(xùn)練步數(shù)少,此時網(wǎng)絡(luò)進入局部最小值。這是由于訓(xùn)練樣本集過少,網(wǎng)絡(luò)訓(xùn)練不充分,造成模型識別精度不高。GA-BP神經(jīng)網(wǎng)絡(luò)錯誤識別個數(shù)為3個,建模時間為3.4 s,錯誤識別率下降。利用遺傳算法全局搜索的特性,避免模型進入局部最小值,提高模型的識別精度,同時又可以克服因數(shù)據(jù)集不足,造成訓(xùn)練不充分的缺點。
(2)SVM模型和GA-SVM模型的首次建模時間分別為171.5 s和120.5 s,因為模型將整個c和g的定義域都遍尋一次,最后得出最佳的c和g,將得到的最佳c和g保存到模型中,此時模型的識別時間僅為1.5 s。但是SVM和GA-SVM的錯誤識別率普遍比BP和GA-BP的高,因為SVM為升維算法,樣本集到達一定數(shù)量、維數(shù)較高時,需要的分類超平面精度更高,模型建模時間更長,因此識別精度與GA-BP神經(jīng)網(wǎng)絡(luò)存在一定的差距。
利用LIBS技術(shù)采集10種塑料樣品數(shù)據(jù),在空氣中獲取1000組光譜,提取14種特征譜線,結(jié)合BP神經(jīng)網(wǎng)絡(luò)、GA-BP神經(jīng)網(wǎng)絡(luò)、SVM和GA-SVM實現(xiàn)對10種塑料樣品分類研究。結(jié)果表明,遺傳算法可以極大避免BP神經(jīng)網(wǎng)絡(luò)進入局部最小值,提高模型的識別精度。遺傳算法可以避免SVM在同一緯度重復(fù)搜索c和g值,因為原始數(shù)據(jù)維數(shù)高,SVM和GA-SVM都是升維過程,建模時間過長,識別精度與GA-BP神經(jīng)網(wǎng)絡(luò)存在一定的差距,因此SVM和GA-SVM不太適合處理維數(shù)過高的樣本集。研究結(jié)果為今后基于LIBS技術(shù)的塑料樣本分類識別等決策問題提供依據(jù)和參考。