孔德明,崔耀耀,仲美玉,馬勤勇,孔令富
1.燕山大學(xué)電氣工程學(xué)院,河北 秦皇島 066004 2.燕山大學(xué)信息科學(xué)與工程學(xué)院,河北 秦皇島 066004 3.石家莊學(xué)院機(jī)電學(xué)院,河北 石家莊 050035
近年來(lái),隨著陸上石油儲(chǔ)量的不斷減少,海洋石油勘探與開發(fā)的步伐明顯加快[1-2]。與此同時(shí),海上石油生產(chǎn)及其運(yùn)輸也隨之增長(zhǎng),導(dǎo)致各類溢油事故頻繁發(fā)生[3]。當(dāng)事故發(fā)生后,溢油不僅會(huì)在海面上漂浮,還可能會(huì)在海中或海底等更深的水域中發(fā)生懸浮或者沉底。其中,懸浮狀態(tài)的溢油稱之為半潛油,而沉底狀態(tài)的溢油則稱之為沉底油。對(duì)于這些懸浮或沉底狀態(tài)的溢油,到目前為止還沒(méi)有形成有效地監(jiān)測(cè)手段和處理方式,致使其污染的突發(fā)性和危害性更甚于海面溢油[4]。相對(duì)于沉底油,半潛油是一種更加廣泛存在的狀態(tài),且更容易隨洋流在海中飄蕩,其對(duì)海洋生態(tài)環(huán)境造成的危害通常十分顯著。因此,開展有效地半潛油探測(cè)與鑒別方法研究對(duì)于海事部門進(jìn)行應(yīng)急處理以及保護(hù)海洋生態(tài)環(huán)境具有重要的實(shí)用價(jià)值。
目前,熒光光譜技術(shù)是檢測(cè)與鑒別復(fù)雜環(huán)境背景中石油類污染物最有效地手段之一,國(guó)內(nèi)外研究人員主要通過(guò)激發(fā)-發(fā)射矩陣熒光光譜(excitation-emission matrix spectroscopy, EEMS)、總同步熒光光譜(total synchronous fluorescence spectroscopy, TSFS)以及時(shí)間分辨熒光光譜(time-resolved fluorescence spectroscopy, TRFS)等三維光譜技術(shù)對(duì)石油類污染物進(jìn)行信息采集與表征[5-6]。通常,利用化學(xué)計(jì)量學(xué)中的多維校正方法可實(shí)現(xiàn)對(duì)三維熒光光譜數(shù)據(jù)特別是其中的EEMS數(shù)據(jù)矩陣的精確解析,這種創(chuàng)新型的分析策略已經(jīng)在溢油污染物組分定性及定量研究中得到了廣泛的應(yīng)用[7-8]。但是由于TSFS數(shù)據(jù)不具備三線性結(jié)構(gòu),使得多維校正分析的策略在其應(yīng)用上受到了一定的限制。
然而,TSFS能夠以更少的數(shù)據(jù)量獲取與EEMS相同的熒光信息,還能避免瑞利散射的影響。相較于EEMS,在復(fù)雜多熒光團(tuán)混合物表征中能夠充分減少光譜重疊現(xiàn)象,從而有效提高對(duì)復(fù)雜混合物的分析能力,使其在溢油污染物的分析與鑒別中具備一定的優(yōu)勢(shì)[9]。用于TSFS張量數(shù)據(jù)鑒別的常用方法是基于數(shù)據(jù)分解或展開的方法提取其光譜特征,并結(jié)合模式識(shí)別中的分類方法以獲得最終鑒別結(jié)果。Kumar利用TSFS結(jié)合多元曲線分辨率交替最小二乘法(multivariate curve resolution-alternating least squares, MCR-ALS)對(duì)具有石油產(chǎn)品復(fù)雜熒光背景中的三種多環(huán)芳烴進(jìn)行了分析,獲得了與實(shí)際情況較為一致的分析結(jié)果[10]。Steiner-Browne等使用TSFS結(jié)合平行因子分析(parallel factor, PARAFAC)成功監(jiān)測(cè)到了蛋白質(zhì)結(jié)構(gòu)變化過(guò)程中更多的組分[11]。然而,數(shù)據(jù)分解或展開的方法往往會(huì)破壞張量數(shù)據(jù)的原始空間結(jié)構(gòu)及其相關(guān)性,同時(shí)還會(huì)增加計(jì)算的復(fù)雜度[12]。最近,圖像識(shí)別領(lǐng)域已經(jīng)提出了用于高階張量特征提取的方法[13-14]。此類方法能夠在保留張量數(shù)據(jù)原始空間結(jié)構(gòu)的前提下,直接在矩陣的空間、統(tǒng)計(jì)學(xué)以及圖形學(xué)上提取相關(guān)特征向量,進(jìn)而有效降低其計(jì)算復(fù)雜度并顯著提升特征向量的鑒別性能。基于此,本文采集了六種油類使用有機(jī)分散劑配制的90個(gè)半潛油樣本的TSFS數(shù)據(jù),并基于高階張量特征提取方法中的二維線性判別分析(2-dimensional linear discriminant analysis, 2D-LDA)以及二維主成分分析(2-dimensional principal component analysis, 2D-PCA)分別建立了樣本的鑒別模型,從而為半潛油種類鑒別提供了一種新的思路。
半潛油主要以分散油、溶解油以及被顆粒物吸附后形成的油-懸浮物凝聚體等形態(tài)存在[4]。化學(xué)分散劑能夠加速海面溢油的降解進(jìn)程,是使海面溢油發(fā)生半潛的重要因素。其中,十二烷基硫酸鈉(sodium dodecyl sulfate, SDS)是一種具有良好的乳化及分散功能的有機(jī)分散劑,其能夠有效降低溢油的粘度及其表面張力,使溢油快速轉(zhuǎn)化為不同粒徑的油滴。
實(shí)驗(yàn)選用SDS分散劑配制半潛油樣本,海水取自渤海秦皇島海域,選擇92#汽油、95#汽油、0#柴油、潤(rùn)滑油、航空煤油以及工業(yè)級(jí)白油六種油品作為實(shí)驗(yàn)樣品。半潛油樣本的具體配制流程如下:首先,利用精密電子天平(FA1004,精度:0.000 1 g,天津天馬衡基儀器有限公司)稱取適量的SDS并將其溶解在海水中,配制濃度為0.1 mol·L-1的SDS溶劑;然后,稱取適量的六種油品,其實(shí)際重量如表1所示,分別將其溶解在SDS溶劑中并使用100 mL容量瓶定容,再置于往復(fù)式振蕩器上震蕩以模擬海洋環(huán)境中的風(fēng)浪條件,振蕩頻率選擇120 r·min-1,振蕩時(shí)間為2 h,以使油品能夠充分地分散和溶解在海水中;最后,通過(guò)SDS溶劑進(jìn)一步稀釋已經(jīng)充分溶解的油樣,分別配制濃度范圍在0.2~3.0 mg·mL-1的15樣本,最終得到90個(gè)(6×15)半潛油實(shí)驗(yàn)樣本。
表1 六種油品的實(shí)際重量(單位/g)
使用FS920穩(wěn)態(tài)熒光光譜儀(英國(guó)Edinburgh Instruments公司)采集實(shí)驗(yàn)樣本的TSFS數(shù)據(jù)矩陣。激發(fā)波長(zhǎng)掃描范圍設(shè)置為260~400 nm,步長(zhǎng)為2 nm;偏移波長(zhǎng)Δλ設(shè)置為10~110 nm,激發(fā)和發(fā)射端的狹縫寬度設(shè)置為1.15 mm,掃描的積分時(shí)間為0.1 s。
圖1 實(shí)驗(yàn)樣本的原始熒光光譜圖
在熒光光譜圖中的相對(duì)熒光強(qiáng)度主要與樣本濃度相關(guān),即在一定濃度范圍內(nèi),樣本的濃度與其相對(duì)熒光強(qiáng)度呈線性關(guān)系,而油類樣本的類別主要與TSFS的光譜形狀、峰位等特征相關(guān)。因此,需要對(duì)TSFS數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理以消除高濃度樣本所帶來(lái)的杠桿效應(yīng),即數(shù)據(jù)標(biāo)準(zhǔn)化的作用是指消除相對(duì)熒光強(qiáng)度(即樣本濃度因素)帶來(lái)的影響,使不同樣本之間具有可比性,這對(duì)模型的構(gòu)建至關(guān)重要。另外,為了合理評(píng)估所建模型的鑒別能力,本文使用Kennard-Stone采樣選擇算法[15]將所有樣本劃分為訓(xùn)練集(共60個(gè))與測(cè)試集(共30個(gè))。其中,訓(xùn)練集樣本用于構(gòu)建訓(xùn)練模型,而測(cè)試集樣本則用于測(cè)試和驗(yàn)證所建模型的性能。
1.3.1 二維線性判別分析
對(duì)于m×n的TSFS數(shù)據(jù)矩陣X,行數(shù)(m)和列數(shù)(n)分別對(duì)應(yīng)于激發(fā)和偏移波長(zhǎng)的數(shù)量。2D-LDA通過(guò)將X乘以投影矢量a(n×1)來(lái)獲得特征向量y(m×1)
y=Xa
(1)
式(1)中,特征向量y的第i分量yi由TSFS數(shù)據(jù)矩陣X的第i行mi與投影矢量a之間的標(biāo)量積給出,如圖2所示。
圖2 從TSFS數(shù)據(jù)中計(jì)算2D-LDA特征向量的每個(gè)元素
其中,最佳投影矢量aopt可通過(guò)式(2)獲得
(2)
式(2)中,SB和SW分別是類間與類內(nèi)散度矩陣,計(jì)算如式(3)和式(4)
(3)
(4)
(5)
(6)
如果SW是非奇異矩陣,則aopt需滿足式(7)條件
(7)
通常,通過(guò)選擇一組正交約束的投影向量{a1,a2, …,ar}作為投影矩陣A,并以此計(jì)算TSFS數(shù)據(jù)矩陣X的特征矩陣Y(m×r)
Y=XA
(8)
1.3.2 二維主成分分析
與2D-LDA類似,2D-PCA也是直接對(duì)TSFS數(shù)據(jù)矩陣
X進(jìn)行特征提取,同樣通過(guò)將X乘以投影矢量b(n×1)來(lái)獲得特征向量y(m×1)
y=Xb
(9)
其中,最佳投影矢量由式(10)標(biāo)準(zhǔn)確定
J(b)=tr(Sb)
(10)
式(10)中,Sb是訓(xùn)練樣本投影矢量的協(xié)方差矩陣,tr(Sb)表示Sb的跡,Sb計(jì)算如下
Sb=E(y-Ey)(y-Ey)T=E(Xb-EXb)(Xb-EXb)T
=E[(X-EX)b][(X-EX)b]T
(11)
那么,tr(Sb)可表示為
tr(Sb)=bT[E(X-EX)T(X-EX)]b
(12)
圖像的協(xié)方差矩陣(即散度矩陣)Gt定義如式(13)
Gt=E[(X-EX)T(X-EX)]
(13)
那么,式(10)可以轉(zhuǎn)化為
J(b)=bTGtb
(14)
式(14)中,b是一個(gè)酉向量,這個(gè)標(biāo)準(zhǔn)又稱為廣義最大散度準(zhǔn)則,使該準(zhǔn)則最大化的酉向量b稱為最優(yōu)投影軸。通常,需要選擇一組正交約束且最大化準(zhǔn)則J(b)的投影軸,即
{a1, …,ad}=arg maxJ(a);
(15)
將該組投影軸排列為投影矩陣B,然后通過(guò)投影矩陣B來(lái)計(jì)算TSFS數(shù)據(jù)矩陣X的特征矩陣Y(m×d)
Y=XB
(16)
1.3.3 鑒別方法
基于2D-LDA和2D-PCA可以獲得USFS數(shù)據(jù)的特征矩陣Y,根據(jù)測(cè)試集樣本和訓(xùn)練集樣本之間的相似性對(duì)其進(jìn)行鑒別。本文對(duì)文獻(xiàn)[16]中的七種相似性度量測(cè)試后,選用歐氏距離d(Ytest,Ytrain)評(píng)估樣本之間的相似性
(17)
最后,將測(cè)試樣本分配給對(duì)應(yīng)于最小距離的訓(xùn)練樣本所屬的類Cp,即
(18)
利用2D-LDA提取的不同類別的訓(xùn)練集樣本平均特征如圖3所示。其中,圖3(a—f)分別是0#柴油、工業(yè)級(jí)白油、92#汽油、95#汽油、航空煤油以及潤(rùn)滑油的平均特征圖。圖中橫坐標(biāo)代表在相應(yīng)激發(fā)波長(zhǎng)處的特征值,縱坐標(biāo)代表所提取的特征向量數(shù)量,強(qiáng)度值則代表了特征值的大小。由圖可以看出,不同類別樣本的光譜特征主要集中在前5個(gè)特征向量中。并且與其原始圖像中的情況相同,即本身光譜相似的圖像其特征圖中的主要特征依然相似,但在特征圖的細(xì)節(jié)特征以及強(qiáng)度值上則存在明顯差異。
圖3 訓(xùn)練樣本提取的2D-LDA特征
利用2D-PCA提取不同類別訓(xùn)練集樣本的前5個(gè)特征值如圖4所示。其中,圖4(a—f)分別是0#柴油、航空煤油、92#汽油、95#汽油、潤(rùn)滑油以及工業(yè)級(jí)白油的前5個(gè)特征值。圖中橫坐標(biāo)代表所有的訓(xùn)練集樣本,縱坐標(biāo)代表所提取的特征值大小。由圖可以看出,相同類別的訓(xùn)練集樣本其5個(gè)特征值均穩(wěn)定存在,不同類別的訓(xùn)練集樣本其5個(gè)特征值則差異較大,這為樣本分類鑒別提供了良好的特征基礎(chǔ)。
圖4 訓(xùn)練樣本提取的2D-PCA特征
利用2D-LDA和2D-PCA分別提取測(cè)試集樣本的相應(yīng)特征。然后,根據(jù)測(cè)試集與訓(xùn)練集樣本之間的相似性即歐氏距離來(lái)確定測(cè)試樣本所屬的類別,基于2D-LDA特征的測(cè)試集中第21個(gè)樣本的鑒定結(jié)果如圖5所示。其中,圖5(a)是測(cè)試中第21個(gè)樣本與所有訓(xùn)練集樣本之間的歐式距離,可以看出該測(cè)試樣本與訓(xùn)練集中前11個(gè)樣本之間的距離均較小,而在這些訓(xùn)練集樣本中,與第10個(gè)樣本(ID=10)具有最小的歐式距離,即Min Distance=0.098 189,在圖5(a)中用紅色實(shí)心圓點(diǎn)標(biāo)記。其表示測(cè)試集中的第21個(gè)樣本與訓(xùn)練集中的第10個(gè)樣本之間的相似度最高,屬于同一類油品。訓(xùn)練集中的第10個(gè)樣本屬于柴油如圖5(c)所示,所以測(cè)試集中的第21個(gè)樣本被鑒定為柴油如圖5(b)所示。另外,在圖5(a)中1—11為測(cè)試集中的0#柴油;12—23為測(cè)試集中的航空煤油;24—33為測(cè)試集中的92#汽油;34—43為測(cè)試集中的95#汽油;44—49為測(cè)試集中的潤(rùn)滑油以及50—60為測(cè)試集中的工業(yè)級(jí)白油??梢钥闯?,基于2D-LDA特征的測(cè)試集樣本與同類訓(xùn)練集樣本之間距離均較近,即樣本之間具有極高的相似度。而與其他異類樣本之間的距離均較遠(yuǎn),且與每一類樣本之間的距離值較為穩(wěn)定,具有明顯分界,實(shí)驗(yàn)結(jié)果表明2D-LDA特征對(duì)TSFS光譜具有優(yōu)異的表征能力。
圖5 測(cè)試集中第21個(gè)樣本的鑒定結(jié)果
表2列出了基于2D-LDA與2D-PCA特征的測(cè)試集樣本具體鑒定結(jié)果,以混淆矩陣的形式表示。被鑒定正確的測(cè)試集樣本在表中綠色底紋標(biāo)注,從表中可以看出,無(wú)論是基于2D-LDA特征還是基于2D-PCA特征均獲得了理想的結(jié)果,所有測(cè)試集樣本都被鑒定為正確的類別所屬。實(shí)驗(yàn)結(jié)果表明基于高階張量特征提取的方法不僅能夠有效表征具有明顯差異特征的樣本,而且在圖像形狀極為相似的樣本中同樣具有優(yōu)異的性能。
表2 測(cè)試集樣本獲得的混淆矩陣
為了進(jìn)一步比較高階張量特征提取方法的性能,本文分別使用了基于數(shù)據(jù)分解的方法——MCR-ALS-LDA以及基于數(shù)據(jù)展開的方法——多維偏最小二乘判別分析(multi-way partial least square discriminant analysis, NPLS-DA)對(duì)TSFS數(shù)據(jù)中的訓(xùn)練集和測(cè)試集樣本進(jìn)行了分析。其中,使用奇異值分解確定MCR-ALS[10]的組分?jǐn)?shù)為3,并使用進(jìn)化因子分析獲得其初始估計(jì)值,利用MCR-ALS解析結(jié)果中的得分矩陣作為L(zhǎng)DA的鑒別依據(jù),最終獲得的鑒別模型評(píng)價(jià)結(jié)果如表3所示。通過(guò)交叉驗(yàn)證的方式確定NPLS-DA[17]的潛在變量數(shù)為9,然后利用訓(xùn)練集樣本計(jì)算NPLS-DA模型,最后使用測(cè)試集樣本評(píng)價(jià)模型的性能,其評(píng)價(jià)結(jié)果列于表3。
由表3可以看出,本文所述的2D-LDA和2D-PCA模型均以100%的正確率獲得了完美的性能表現(xiàn),MCR-ALS-LDA模型以93.3%的正確率獲得了良好的性能表現(xiàn),而NPLS-DA模型的正確率為66.7%,其性能表現(xiàn)較差。另外,由精確率、靈敏度和特異性三個(gè)評(píng)價(jià)指標(biāo)可以看出,MCR-ALS-LDA模型在92#汽油、95#汽油以及航空煤油三種油類鑒別中出現(xiàn)錯(cuò)誤預(yù)測(cè),而NPLS-DA模型則在所有油類鑒別中均出現(xiàn)錯(cuò)誤預(yù)測(cè)。在MCR-ALS-LDA模型僅利用了MCR-ALS中的得分矩陣對(duì)油類進(jìn)行鑒別,而具有定性意義的載荷矩陣并沒(méi)有被利用,這可能是造成其性能不如2D-LDA和2D-PCA模型的原因。而NPLS-DA模型同樣僅利用了NPLS的主成分?jǐn)?shù)進(jìn)行分類,且其解析結(jié)果并沒(méi)有實(shí)際的化學(xué)意義,這可能是造成其分類性能最差的原因。這些評(píng)價(jià)結(jié)果表明了相較于2D-LDA和2D-PCA的特征提取方法以及基于MCR-ALS-LDA的分解方法,基于NPLS-DA的展開類方法使用全部數(shù)據(jù)進(jìn)行油種鑒別時(shí)的計(jì)算復(fù)雜度高且預(yù)測(cè)精度低?;谔卣魈崛』驍?shù)據(jù)分解結(jié)果的油種鑒別獲得更為精確的預(yù)測(cè)結(jié)果,一方面表明了這些方法性能的優(yōu)異,另一方面也表明TSFS在半潛油檢測(cè)中本身就具備一定的優(yōu)勢(shì)。
表3 不同鑒別模型的評(píng)價(jià)結(jié)果
有效鑒別半潛油污染物對(duì)保護(hù)海洋生態(tài)環(huán)境具有重要意義。本文采用了2D-LDA、2D-PCA、MCR-ALS-LDA及NPLS-DA四種方法分別建立了半潛油樣本TSFS數(shù)據(jù)的鑒別模型。實(shí)驗(yàn)結(jié)果表明,2D-LDA 和 2D-PCA 可以有效提取TSFS數(shù)據(jù)的高階張量特征,所建立的鑒別模型能夠?qū)αN不同的油類進(jìn)行準(zhǔn)確鑒別,其準(zhǔn)確率均為100%。本文為半潛油污染鑒別提供了一種新的思路。