孔德明,董 瑞,崔耀耀,王書濤,史慧超
1. 燕山大學電氣工程學院,河北 秦皇島 066004 2. 燕山大學信息科學與工程學院,河北 秦皇島 066004 3.北京化工大學信息科學與技術學院,北京 100029
石油是人們生產生活中的重要能源之一,其具有不可替代的重要作用。但從開采到應用的每一個環(huán)節(jié)中都有大量的石油及其產品(汽油、 煤油、 柴油等)以各種方式泄露到自然環(huán)境中。這不僅嚴重污染了自然環(huán)境,還致使大量生物死亡,甚至威脅到人類的生命健康[1]。因此,只有及時對油類造成的污染進行處理,才能有效保護生態(tài)環(huán)境和人類身體健康。而對造成污染的油類進行準確地定性是處理油類污染的前提基礎,具有十分重要的意義。
石油的檢測方法主要有紅外光譜法[2]、 氣相色譜法[3]和熒光光譜法[4]等。其中,三維熒光光譜法具有分析速度快、 靈敏度高、 可操作性強等優(yōu)點,因此被廣泛應用到油類識別領域[4]。鑒別石油的方法通常分為兩種: 一是采用多維分解算法(PARAFAC[5]、 AWRCQLD[6]等)對油類的三維熒光光譜進行解析,以得到具有定性信息的相對發(fā)射光譜矩陣和相對激發(fā)光譜矩陣,并基于此對油類樣本進行識別; 二是先對樣本的光譜數(shù)據(jù)進行降維,將其平均值、 標準差、 重心等[7]作為三維熒光光譜數(shù)據(jù)的特征,依此實現(xiàn)石油種類的識別。兩種方法都是先提取能夠定性光譜數(shù)據(jù)的信息,但前者易受算法迭代次數(shù)的影響且計算量大,部分二階分析方法還有對組分數(shù)不敏感,易受環(huán)境影響等缺點; 而后者所采用的方法不能夠完全體現(xiàn)樣本數(shù)據(jù)的特征。所以尋找能夠直接、 快速地提取不同油類光譜特征的方法對石油的準確分類具有重要意義。
本文將三維熒光光譜技術與2D-LDA算法相結合,并利用K最近鄰算法對目標油類進行分類。結果表明利用2D-LDA算法提取的二維特征能夠比較全面的表征原始數(shù)據(jù),將其用于石油分類能夠獲得更優(yōu)的識別效果。
實驗采集樣本三維熒光光譜數(shù)據(jù)的儀器為FS920熒光光譜儀。設置其發(fā)射波長范圍為280~520 nm,步長為5 nm,激發(fā)波長范圍為260~500 nm,步長為10 nm。實驗分別配制了航空煤油(J)、 潤滑油(L)、 柴油(D)、 汽油(G)四種不同類型的油類溶液。
實驗配制油類溶液的步驟如下: (1)分別取用適量純凈水及十二烷基硫酸鈉(SDS)配制成溶解石油所用的樣本溶劑; (2)用精密電子秤分別稱取相同質量的航空煤油、 潤滑油、 柴油、 汽油于四個燒杯中,加入適量的樣本溶劑,并用玻璃棒進行攪拌使其充分溶解,分別將溶液轉移至四個100 mL的容量瓶中并定容,此為四種石油溶液的一級儲備液; (3)利用移液槍分別移取20個不同體積的航空煤油的一級儲備液于10 mL的容量瓶中并定容,此為航空煤油的二級儲備液; (4)取適量航空煤油的二級儲備液于比色皿中,并將比色皿放入FS920光譜儀中采集光譜數(shù)據(jù); (5)按照步驟(3)—(4)的方法分別對潤滑油、 柴油、 汽油進行配制,得到濃度范圍為0.1~2.0 mg·mL-1且梯度為0.1 mg·mL-1的四種油類樣本。
實驗結束后每種石油得到20個樣本,四種石油共計采集得到80個樣本。利用Kennard-Stone算法將樣本分成兩組,其中一組作為訓練集,另一組作為測試集,訓練集中含有60個樣本,測試集含有20個樣本。
利用光譜儀采集得到每個樣本的光譜數(shù)據(jù)維度大小為49×25,其中49為發(fā)射波長數(shù),25為激發(fā)波長數(shù)。一般地,由于光的散射效應,使得所采集溶液的三維熒光光譜中存在瑞利散射和拉曼散射,如圖1(a)所示。圖1(a)中凸起的峰為
圖1 潤滑油三維熒光光譜圖(a): 去散射前; (b): 去散射后Fig.1 Three-dimensional fluorescence spectrum of lubricating oil(a): Before removing scattering; (b): After removing scattering
瑞利散射,瑞利散射的強度嚴重掩蓋了潤滑油本身的光譜,為了避免散射對實驗產生的干擾,必須對光譜進行去散射處理。圖1(b)為利用Delaunay三角形內插值法去除散射后潤滑油的三維熒光光譜圖和等高線圖,能夠清晰的發(fā)現(xiàn)散射光譜被去除,潤滑油的光譜得到凸顯。
2D-LDA利用類內散度和類間散度優(yōu)化投影矢量,通過原始矩陣在投影矩陣上投影,得到相應的特征矢量。因此,2D-LDA能夠直接通過矩陣提取特征,而不需要先將二維矩陣展開為一維向量再提取特征。所以,2D-LDA能夠在保留原始結構信息基礎上有效提取用于分類的特征信息。
(1)
(2)
K最近鄰分類器是通過比較特定的測試元組和一組與它類似的訓練元組來進行學習,最后基于最近鄰居的類別進行分類的分類方法。KNN通常應用歐幾里德距離或者訓練組與測試組之間的余弦相似度[11-12]。一般地,兩個元組例如E=(e1,e2, …,en)和F=(f1,f2, …,fn)之間的歐幾里德距離為
圖2(a)和(b)分別為單個潤滑油樣本原始的發(fā)射光譜和激發(fā)光譜。圖2(c)和(d)分別為提取的所有訓練樣本水平方向上第一、 第二投影向量的特征信息,也即發(fā)射光譜的特征信息; 圖2(e)和(f)分別為提取的所有訓練樣本垂直方向上第一、 第二投影向量的特征信息,即激發(fā)光譜的特征信息; 其中D,J,G和L分別為柴油、 航空煤油、 汽油、 潤滑油。由圖2可知,2D-LDA算法提取的油類樣本的特征光譜信息降低了原來樣本數(shù)據(jù)的維度,通過前兩個主要投影向量對樣本的三維熒光光譜投影得到的光譜信息具有明顯區(qū)分不同類型石油樣本的作用。圖2(c)和(d)所示的發(fā)射光譜特征中,不同類型石油的差別集中在280~450 nm; 圖2(e)和(f)所示的激發(fā)光譜特征中,不同類型石油的區(qū)別集中在260~350 nm。產生這種現(xiàn)象原因是發(fā)射光譜中450 nm之后的石油的熒光強度極低且接近于0,同樣在激發(fā)光譜中350 nm之后的石油的熒光強度極低且接近于0。因此,在發(fā)射波長為280~520 nm,激發(fā)波長為260~500 nm的范圍內,柴油、 航空煤油、 汽油、 潤滑油這四種油的有效發(fā)射光譜波長和激發(fā)光譜波長范圍分別為280~450和260~350 nm。
圖2 潤滑油原始發(fā)射、 激發(fā)光譜圖及通過投影向量獲取的訓練集樣本光譜特征(a): 發(fā)射光譜圖; (b): 激發(fā)光譜圖; (c): 第一投影向量的發(fā)射特征; (d): 第二投影向量的發(fā)射特征;(e): 第一投影向量的激發(fā)特征; (f): 第二投影向量的激發(fā)特征Fig.2 Original emission and excitation spectrum of lubricating oil andcharacteristics of training sample obtained by projection vector(a): Emission spectrum; (b): Excitation spectrum; (c): First emission characteristic; (d): Second emission characteristic; (e): First excitation characteristic; (f): Second excitation characteristic
利用PCA提取原始光譜數(shù)據(jù)的特征信息,得到相應的主成分的特征值及對應的貢獻率。根據(jù)每個主成分對應的貢獻率和累積貢獻率,選取合適的主成分數(shù)建立分類模型。前十個主成分所對應的貢獻率如表1所示。由表1可知,前四個主成分的貢獻率分別為66.52%,19.63%,4.61%和3.12%,累積貢獻率為93.88%。在主成分分析中選取的主成分數(shù)需要包含原始數(shù)據(jù)的大部分信息,因此選取前四個主成分作為后續(xù)分析的主成分數(shù)。
表1 主成分的貢獻率Table 1 Contribution rate of principal component
繪制訓練集前三個主成分的得分散點圖,如圖3所示。由圖3可知,圖中同種類型的樣本聚集在一起,而不同類型的樣本彼此分離,具有明顯的區(qū)別。并且圖中不同類型的樣本沒有重疊的情況發(fā)生,表明PCA能夠較好的提取光譜的特征信息,但存在少數(shù)樣本會偏離同類型大部分樣本的聚集位置。將測試集的樣本在由訓練集建立的模型上投影,得到測試集中各樣本的得分,并以此作為分類的信息。
2.3.1 2D-LDA提取特征后分類
分別將2D-LDA提取后的發(fā)射和激發(fā)光譜特征作為KNN分類模型的輸入,并通過計算樣本之間的距離對所有樣本分類,分類結果如表2所示。由表2可知,發(fā)射光譜特征作為輸入時,測試集中的柴油、 航空煤油和潤滑油分類的準確率為100%,存在一個汽油樣本被錯誤分類為航空煤油,故汽油分類的準確率為80%,但在整個測試集中,存在20個樣本,只有一個樣本被錯誤分類,因此測試集中樣本分類的準確率為95%; 激發(fā)光譜特征作為輸入時,存在一個柴油樣本被錯誤分類為潤滑油,但其整個測試集分類的準確率也為95%。三維熒光光譜包含發(fā)射光譜和激發(fā)光譜,且兩類光譜表征三維熒光光譜的不同方向,在一定程度上兩類光譜相對三維熒光光譜具有互補性,所以利用兩類光譜特征對樣本分類結果具有差異。而將兩類特征的KNN分類距離疊加并重新作為訓練集和測試集樣本分類的標準,得到識別的準確率為100%,表明融合發(fā)射和激發(fā)光譜特征能夠對油類樣本實現(xiàn)更好地識別。
圖3 前三主成分得分圖Fig.3 First three principal component score
表2 利用2D-LDA特征提取后的分類結果Table 2 Classification results after 2D-LDAcharacteristics extraction
2.3.2 PCA提取特征后分類
將PCA提取后樣本的前四個主成分的得分作為KNN分類模型的輸入,計算樣本之間的距離并分類,結果如表3所示。由表3可知,只有航空煤油分類準確率為100%,而柴油、 汽油和潤滑油中都存在一個樣本被錯誤分類。因此,在整個測試集中,存在3個樣本被錯誤分類,故分類的準確率為85%。由圖3可知,利用PCA特征提取的結果中不存在不同類型石油重疊的情況,但存在少數(shù)的樣本偏離大部分同類樣本。因此偏離的樣本可能會存在與其他類型樣本的距離小于同類樣本距離的情況,從而導致錯誤分類。
對比兩種特征提取方法的分類結果,表明2D-LDA提取的光譜數(shù)據(jù)特征具有提高分類準確率的作用,經2D-LDA提取特征后的分類的準確率更高。盡管2D-LDA算法提取的不同類型樣本的光譜特征曲線存在部分重疊,但其類內差別遠小于類間差別,并且識別率高,表明該算法的魯棒性好。而PCA提取的前四個主成分的貢獻率雖然已經達到93.88%,但仍可能會丟失一些重要的辨別樣本種類的特征信息,導致分類結果出現(xiàn)錯誤。因此,2D-LDA提取石油光譜特征的性能優(yōu)于PCA。
表3 主成分特征提取后的分類結果Table 3 Classification result after principalcomponent characteristic extraction
采集了航空煤油、 潤滑油、 柴油和汽油的三維熒光光譜,通過2D-LDA對其進行二維特征提取,并利用KNN算法對樣本分類,得到樣本的分類結果。實驗結果表明,利用2D-LDA提取特征后的分類準確率較高,達到95%,且結合兩類光譜特征分類得到的準確率為100%,而PCA特征提取后的分類準確率為85%。因此,利用二維線性判別分析直接提取三維熒光光譜的二維光譜特征并將其用于定性分析,能夠獲得更優(yōu)的油類識別效果。