王玉田, 趙 煦, 潘 釗, 苑媛媛
(燕山大學 河北省測試計量技術及儀器重點實驗室, 河北 秦皇島 066004)
?
基于熒光光譜的五維數(shù)據(jù)處理方法
王玉田, 趙 煦, 潘 釗*, 苑媛媛
(燕山大學 河北省測試計量技術及儀器重點實驗室, 河北 秦皇島 066004)
石油是一種成分復雜的混合物,通過常規(guī)的檢測方法很難對其進行定性識別。本文用汽、煤、柴油的混合物來模擬環(huán)境中的油類污染物。汽、煤、柴油在特定波長范圍的激發(fā)下可以發(fā)出含有物質(zhì)自身信息的熒光,根據(jù)朗伯-比爾定律可知熒光強度與物質(zhì)濃度成正比,利用該性質(zhì)對特定物質(zhì)進行識別。通過FS920穩(wěn)態(tài)熒光光譜儀對樣本進行測量,將實驗所得的三維數(shù)據(jù)拓展為五維數(shù)據(jù),提出了一種將展開偏最小二乘耦合到殘差四線性的五維數(shù)據(jù)處理方法,同時采用五維平行因子法和該算法分解數(shù)據(jù),實現(xiàn)了對汽、煤油的定量分析,并恢復出了其激發(fā)和發(fā)射光譜。結果表明,展開偏最小二乘法的分析效果更好。
定性識別; 五維數(shù)據(jù); 展開偏最小二乘法; 平行因子法
隨著先進儀器的發(fā)展,我們可以獲取多樣的含有分析物信息的數(shù)據(jù)。如何對數(shù)據(jù)進行有效的提取是科研人員一直努力研究的方向[1-6]。近年來,在該方向的研究已取得不少成就。其中多維校正分析是被研究最多的一種方法。目前出現(xiàn)的多維校正分析包括二階校正法和三階校正法。二階校正在文章中被描述的比較多,主要有平行因子法、多維偏最小二乘法等。三階校正是二階校正的拓展,主要針對三階數(shù)據(jù)。
三階數(shù)據(jù)可以通過許多不同的方法來獲取。一種常見的方法是記錄單樣本三維熒光光譜動力學演化。三階校正包括一個相似的二階優(yōu)勢,也就是說,在未校干擾物存在時,該組分可以被量化。根據(jù)相關文章[7]我們了解到,它還有許多其他的優(yōu)點,如單個樣本的三階數(shù)組分解、改進了針對共線數(shù)據(jù)算法的精度、提高了靈敏度和分離度等。然而在提高靈敏度和分離度方面并沒有達成普遍的共識。
三階數(shù)據(jù)通常通過平行因子法進行處理。三線性偏最小二乘與殘差三線性相結合作為一種新的算法被提出來處理四維數(shù)據(jù)[8],在復雜樣本中證明了其有效性[9-10]。其他基于使用潛在變量的方法也被提出來處理三階數(shù)據(jù),如多維偏最小二乘和展開偏最小二乘方法,它們都缺乏二階優(yōu)勢。然而當展開偏最小二乘和多維偏最小二乘耦合到單獨的過程殘差三線性時,它們也可以達到二階優(yōu)勢?;诰仃嚨姆椒ㄒ部梢詰糜谌A數(shù)據(jù),首先把它們展開成矩陣,再將多元曲線分辨耦合到交替最小二乘實現(xiàn)。只有在少數(shù)情況下,三階數(shù)據(jù)被記錄并用于構造定量校正模型同時開發(fā)分析方法。
四階數(shù)據(jù)相對于二階和三階數(shù)據(jù)擁有更加全面的樣本信息。針對干擾和基體效應,該方法更穩(wěn)定。在外界環(huán)境干擾下,四階數(shù)據(jù)不容易發(fā)生微小的變化,預測精度得到改進。雖然如今已經(jīng)有四階數(shù)據(jù)出現(xiàn),但關于四階數(shù)據(jù)分析應用的報道還較少。
本文描述了兩種四階多元校正模型。一種為將展開偏最小二乘耦合到殘差四線性的方法,另一種為五維平行因子法。將新提出的方法與拓展的平行因子法相比較,根據(jù)分析結果判定其優(yōu)勢。這種新的多維校正方法理論為解決應用中的復雜分析問題提供了一種新的思路。
2.1 平行因子法
本文將平行因子法[11-12]模型拓展至五維,可以得出更多優(yōu)勢,如精確度高、低背景干擾等。首先使每個Ical組成的矩陣Xi,cal與未知樣本的矩陣Xu結合成一個五維數(shù)組X(大小(Ical+1)×J×K×L×M)。此時的X遵循一個四線性平行因子模型,它可以用5個相應的向量形式來描述,分別為an、bn、cn、dn和fn,收集相對應的濃度(Ical+1)×1分別來確定組分數(shù)n和各向量(J×1,K×1,L×1,M×1)。給定元素X的特定表達式為:
(1)
其中N是組分總數(shù),ain是組分為n時第i個樣本的相關濃度,bjn、ckn、dln和fmn分別是j、k、l和m方向上的相關強度,eijklm的值是矩陣E中的元素,E是與X維度相同的剩余誤差項。列向量an被收集到相關的得分矩陣A,向量bn、cn、dn和fn被收集到載荷矩陣B、C、D和F。無論其化學含量是已知還是未知,都可以通過最小二乘法對X進行分解,求出(Ical+1)混合物中每個組分的相對濃度A。這構成了二階優(yōu)勢的基礎。
關于平行因子模型在五維數(shù)據(jù)校正中的應用有幾個相干問題:(1)初始化算法;(2)應用受限制的最小二乘擬合;(3)建立相應組件數(shù)量;(4)從模型和所提供的信息中識別特定的組件;(5)校準模型以獲取未知樣本中特定成分的絕對濃度。
采用初始化平行因子法來研究五維數(shù)組,在平行因子中可以通過使用以下幾種方式來實現(xiàn):(1)奇異值分解(SVD)向量;(2)隨機正交值;(3)幾次迭代后選出最佳擬合模型。本文采用第一種方法。
平行因子法擬合中的限制條件被用來在所有的維度中獲取物理識別的對應向量。然而,在目前情況下這種限制是沒有必要的。
組分數(shù)N可以通過幾種方法估算出來,比較常用的一種是核一致診斷法??紤]到平行因子內(nèi)部參數(shù)的診斷手段被稱為核一致性。另一種方法考慮的是平行因子法的誤差平方和(SSE),也就是矩陣E中元素的平方和:
(2)
該參數(shù)隨著N的增加而減小,直到穩(wěn)定在一個值,此時N對應于最佳組分數(shù)。
通過對各個方向矩陣的評估實現(xiàn)化學成分的識別,得到主要的激發(fā)和發(fā)射光譜,讓它們與標準的分析物濃度相比較。根據(jù)它們對整個光譜方差的貢獻,將分解X獲得的組件分類。當未知樣本改變時,這個分類順序也會改變。
五維數(shù)組分解值提供的是相對的值A,校準后得到的是分析物的絕對濃度。通過已知濃度的分析物的集合(包含在一個大小為(Ical+1)的向量y中)可以對分析物的濃度集完成校準。Ical中第一個元素列向量an(對應于校正樣本)回歸與y相對:
(3)
其中,‘+’表示廣義逆。通過an(相對應測試樣本)的最后一個元素除以校準曲線的斜率k進行未知樣本中絕對濃度的相對轉(zhuǎn)換:
(4)
重復上述過程對每個測試樣本進行分析。
一個分析物可能發(fā)生幾種情況,向量y中的值是總的分析物的濃度。相比之下,得分向量an是特定的對于一個給定的分析物種類。因此,針對分析物的濃度,回歸每種分析物種類的得分向量,在原則上可以構造出幾個偽單變量圖??蒲腥藛T選擇精度最高的圖表來預測分析物的濃度。
2.2 展開偏最小二乘
展開偏最小二乘[13]算法的本質(zhì)為先把校準數(shù)據(jù)展開成一維數(shù)組再利用常規(guī)偏最小二乘法對該數(shù)組建模。將該模型拓展至對五維數(shù)據(jù)的處理,使光譜數(shù)據(jù)信息得到最大限度的利用。首先把四維校正數(shù)組矩陣(大小J×K×L×M)展開成一維數(shù)組(大小JKLM×1),結合偏最小二乘用該數(shù)組和濃度向量y(大小I×1)建模。此時,得到一組載荷矩陣P和W(大小JKLM×A)和一個回歸系數(shù)v(大小A×1)。A表示組分數(shù),可以用核一致法診斷出。當待測樣本中的組分與校正樣本一致時,通過式(5)可以得出待測樣品個組分含量:
(5)
(6)
先將未知樣本Xu矢量化,再將其轉(zhuǎn)換到A個組分的空間,式中vet(g)表示矢量化。
若待測樣本Xu中含有其他未知組分時,上述過程不能用于測量分析。并且,該算法預測結果的殘差值sp(見式(7))超出了正常范圍。
(7)
‖·‖為范數(shù)符號。
當含有未知組分時,可以將典型的殘差雙線性化方法延伸到第四維,用于不包括樣本維時的四維數(shù)據(jù)信號的處理。此時得到的殘差四線性化將整個信號按照式(8)中的形式分解,主要為建模信號和干擾物信號,另外eu表示其余未能建模的誤差向量。
vec(Xu)=
Modeled signal+Interferent signal+eu.
(8)
殘差四線性化中將模型拓展來描述四維測試樣本數(shù)據(jù)。該方法能夠利用潛在結構對測試樣本中的未知組分建模。其中模型分解得到的載荷矩陣是未知組分的真實光譜。該方法使式(8)中表達式在成立的條件下,殘差值達到最小。
vec(Xu)=Ptu+vec[Tucker3(Ep)]+eu,
(9)
Ep=reshape(ep),
(10)
reshape(·)為矢量化操作vet(g)的逆向過程,即矢量轉(zhuǎn)化數(shù)組的操作符。ep對應的是vec(Xu)-Ptu。殘差四線性化方法對于不同樣本能夠預測出其中各個成分的含量。
su的表達式為:
(11)
式中的eu來源于式(8)。
通過以上過程,我們可以判斷出該算法的本質(zhì)是求出tu使殘差su取得最小值。tu的表達式為:
tu=min‖vec(Xu)-Ptu-vec[Tucker(Ep)]‖.
(12)
按照上述過程處理完測試樣本數(shù)據(jù)之后,su達到最小值。該模型中的載荷向量包括潛在未知組分,因此,最終的得分向量tu不受未知組分物質(zhì)的干擾。將tu代入式(5)對待測樣本進行預測。
在當前的預測分析過程中,應當注意到兩條特性:(1)不管有無干擾成分,預測式(1)是唯一的;(2)該算法中存在的潛變量結構使其對于非四線性數(shù)據(jù)同樣適用。這兩條特性使其與之前描述的平行因子相比更具優(yōu)勢。
3.1 實驗樣本
將從加油站購買的汽油和煤油混合作為校準
樣本,用CCL4作為溶劑,分別配制5組樣本濃度為(1.0,2.5,3.0,4.0,5.0)×10-3g/mL的溶液置于容量瓶中。用振蕩器將樣本振蕩2 min,待混合物溶解均勻再進行測量。按照表1的濃度配制測試樣本,并分別編號1~9,將柴油作為干擾物混入樣本中。
表1 用平行因子法預測樣本得出的結果
3.2 實驗儀器
所有的熒光測量都是通過快速掃描儀來獲得,掃描速度為1 200 nm/min。在室溫為20 ℃的環(huán)境中,設置激發(fā)-發(fā)射熒光矩陣按照下面的范圍掃描:激發(fā)波長:230~480 nm,間距為5 nm;發(fā)射波長:250~500 nm,間距為2 nm。完整的數(shù)據(jù)收集到三維數(shù)組中:大小為9(樣本個數(shù))×51×126。
3.3 數(shù)據(jù)處理
用Savitzky-Golay多項式將實驗得到的三維數(shù)組按照x和y的方向分別求導[14],此時三維數(shù)組疊加為五維數(shù)組,屬于四階數(shù)據(jù)。由于處理過程重復且太過繁瑣,本文以9個樣本中的第1、5、9號測試樣本為例,分別利用上述平行因子法和展開偏最小二乘法進行處理。
4.1 平行因子法處理結果
當處理由一組樣本信號組成的五維數(shù)據(jù)時,要求數(shù)據(jù)遵從四線性條件才能用平行因子法對該數(shù)據(jù)成功分解。這就意味著所有模式中分解出的光譜圖都是相互獨立的,常見于所有的樣本給定一個組分數(shù)。由于發(fā)射波長與激發(fā)波長有關,而激發(fā)波長為設定的數(shù)值,所以恢復出的各數(shù)據(jù)點之間互不干擾。在原則上,激發(fā)和發(fā)射光譜符合這個條件。
第一次嘗試五維數(shù)組處理只包含校準樣本,使用雙組分平行因子模型是為了測試實驗的四線性損失的嚴重性。初始化是使用包含在平行因子分解中的SVD向量,沒有具體限制在最小二乘階段,結果成功地分析出了混合物的激發(fā)和發(fā)射光譜,如圖1所示。應該注意到,式(2)中的SSE參數(shù)對于五維平行因子(原始數(shù)據(jù))是約3×106單位。類似于儀器噪聲水平,獲得更好的建模精度的原因是通過降低維數(shù)獲得了一個多線性數(shù)據(jù)。
最好的平行因子模型對應于四維數(shù)組,用于在測試樣本中預測分析物。因此,每個測試樣本五維數(shù)據(jù)與校準樣本相結合,該五維數(shù)組被提交給平行因子用于分解,并像前面交代的那樣分析預測。在這種情況下,模型由3部分組成:單組分和所需的兩個校準樣本(表1)。多余組分作為相應的干擾物質(zhì),其光譜圖通過平行因子法被成功地恢復出來。圖1、2顯示了從樣本1、5、9中恢復出來的激發(fā)和發(fā)射光譜。其中干擾物質(zhì)被成功地定義為柴油。剩余測試樣本的預測效果也能滿足要求。
圖1 利用平行因子法恢復出的1、5、9號測試樣本的熒光激發(fā)光譜。
Fig.1 Fluorescence excitation spectra of the test sample No.1, 5, 9 recovered by the parallel factor method.
圖2 利用平行因子法恢復出的1、5、9號測試樣本的熒光發(fā)射光譜。
Fig.2 Fluorescence emission spectra of the test sample No.1, 5, 9 recovered by the parallel factor method.
如上所述,在分析系統(tǒng)中兩個獨立的偽變量平行因子校準曲線可能量化分析物。即一種是汽油得分向量,另一種是煤油得分向量。前者顯示了一個更強的熒光發(fā)射,與干擾物重疊部分較少,因此汽油得分向量被選中作為校準,因為它們提供了更好的靈敏度。在測試樣本中恢復的分析物的濃度和統(tǒng)計指標被收集到表1中。
4.2 展開偏最小二乘法處理結果
建立展開偏最小二乘模型時,首先要確定出展開偏最小二乘法中分析物個數(shù)。當個數(shù)不少于2時,利用該方法能夠?qū)Ψ治鑫锝⒛P汀1疚男U龢颖局械姆治鑫餅槠河汀?/p>
首先依次處理測試樣品集,通過逐步加大式(9)中的維數(shù)評估殘差四線性的組分數(shù)直到式(11)中殘差su的值趨于穩(wěn)定。根據(jù)獲取的向量信息得到了一個結果,即在殘差四線性過程中Tucker3模型中的載荷向量,結果如圖3所示。該結果對應于樣本1、5、9,其中柴油視作干擾信號,對其建模。在任何情況下,殘差四線性得到的向量幾乎與平行因子法得到的相同(圖2),都是通過從全部數(shù)據(jù)中分離干擾物的方式實現(xiàn)對分析物的預測。Tucker3模型用比較擬合殘差sp和su值的方式來評估。一般情況下,擬合殘差值sp(式(7))比最后穩(wěn)定的su值大。通過殘差四線性化過程得出的光譜圖具有物理意義。圖3和圖4中的干擾物光譜就是4號樣本中的柴油光譜,如果組分數(shù)不是1,此時的定性結果會失去效果。
圖3 利用展開偏最小二乘法恢復出的1、5、9號測試樣本的熒光激發(fā)光譜。
Fig.3 Fluorescence excitation spectra of the test sample No.1, 5, 9 recovered by the unfolded partial least squares method.
該算法成功實現(xiàn)預測的基礎是校正樣本中的幾種物質(zhì)之間不存在化學反應。9組測試樣本的預測結果被收集到表2當中。
表1和表2包括了展開偏最小二乘法和五維
圖4 利用展開偏最小二乘法恢復出的1、5、9號測試樣本的熒光發(fā)射光譜。
Fig.4 Fluorescence emission spectra of the test sample No.1, 5, 9 recovered by the unfolded partial least squares method.
平行因子法的數(shù)據(jù)處理結果。結果表明,兩種五維數(shù)據(jù)處理方法都能得到相應的預測結果,但展開偏最小二乘法的REP(預測相對誤差)較小,說明該方法的預測結果精度較高。其原因有以下兩點:(1) 展開偏最小二乘法在進行數(shù)據(jù)處理時,具有潛在結構化方法的適應性;(2)平行因子法要求數(shù)據(jù)之間沒有線性關系,若兩個維度的數(shù)據(jù)相互影響時必須通過降維來實現(xiàn)。
表2 用展開偏最小二乘法預測樣本得出的結果
本文用汽、煤、柴油的混合物來模擬環(huán)境中的油類污染物,汽煤油作為校準物質(zhì),柴油作為干擾物質(zhì)配制校準和測試樣本。通過熒光光譜儀快速掃描出該樣本的三維熒光光譜數(shù)據(jù)。以Savitzky-Golay多項式將三維熒光光譜疊加為五維導數(shù)光譜為前提,分別描述了平行因子法與展開偏最小二乘法在處理五維數(shù)據(jù)時的具體步驟,并進行比較。結果表明,兩種算法都能夠?qū)崿F(xiàn)對干擾物溶液的定性定量分析,但展開偏最小二乘法由于其算法的優(yōu)越性,分析結果更準確。
[1] CHAO K, WU H L, YU Y J,etal.. An alternative quadrilinear decomposition algorithm for four-way calibration with application to analysis of four-way fluorescence excitation-emission-pH data array [J].Anal.Chim.Acta, 2013, 758(1):45-57.
[2] GOICOECHEA H C, CALIMAG-WILLIAMS K, CAMPIGLIA A D. Multi-way partial least-squares and residual bi-linearization for the direct determination of monohydroxy-polycyclic aromatic hydrocarbons on octadecyl membranesviaroom-temperature fluorescence excitation emission matrices [J].Anal.Chim.Acta, 2012, 717(5):100-109.
[3] CALIMAG-WILLIAMS K, KNOBEL G, GOICOECHEA H C,etal.. Achieving second order advantage with multi-way partial least squares and residual bi-linearization with total synchronous fluorescence data of monohydroxy-polycyclic aromatic hydrocarbons in urine samples [J].Anal.Chim.Acta, 2014, 811:60-69.
[4] YANG R, LIU R, XU K. Detection of adulterated milk using two-dimensional correlation spectroscopy combined with multi-way partial least squares [J].FoodBiosci., 2013, 2:61-67.
[5] SHAHLAEI M, FASSIHI A, SAGHAIE L,etal.. Prediction of partition coefficient of some 3-hydroxy pyridine-4-one derivatives using combined partial least square regression and genetic algorithm [J].Res.Pharmaceut.Sci., 2014, 9(2):143-153.
[6] HANAFI M, OUERTANI S S, BOCCARD J,etal.. Multi-way PLS regression: monotony convergence of tri-linear PLS2 and optimality of parameters [J].Computat.Stat.DataAnal., 2015, 83:129-139.
[7] OLIVIERI A C. Analytical advantages of multivariate data processing. One, two, three, infinity? [J].Adv.Nurs.Sci., 2008, 80(15):5713-5720.
[8] BRO R, ANDERSEN C M. Theory of net analyte signal vectors in inverse regression [J].J.Chemomet., 2003, 17(12):646-652.
[9] OLIVIERI A C, ARANCIBIA J A, PEA A M D L,etal.. Second-order advantage achieved with four-way fluorescence excitation-emission-kinetic data processed by parallel factor analysis and trilinear least-squares. Determination of methotrexate and leucovorin in human urine [J].Anal.Chem., 2004, 76(19):5657-5666.
[10] ARANCIBIA J A, OLIVIERI A C, GIL D B,etal.. Trilinear least-squares and unfolded-PLS coupled to residual trilinearization: new chemometric tools for the analysis of four-way instrumental data [J].Chemomet.Intel.Lab.Syst., 2006, 80(1):77-86.
[11] LEURGANS S, ROSS R T. Multilinear models: applications in spectroscopy [J].Stat.Sci., 1992, 7(3):289-310.
[12] BRO R. PARAFAC. Tutorial and applications [J].Chemomet.Intel.Lab.Syst., 1997, 38(2):149-171.
[14] 杜樹新,杜陽鋒,武曉莉. 基于三維熒光導數(shù)光譜的水體有機污染物濃度檢測 [J]. 光譜學與光譜分析, 2010, 30(12):3268-3271. DU S X, DU Y F, WU X L. Detection of dissolved organic matter based on three-dimensional first-order derivative fluorescence spectrometry [J].Spect.Spect.Anal., 2010, 30(12):3268-3271.(in Chinese)
王玉田(1952-),男,河北秦皇島人,教授,博士生導師,1995年于哈爾濱工業(yè)大學獲得博士學位,主要從事光電檢測技術、光纖傳感技術等方面的研究。
E-mail: y.t.wang@163.com潘釗(1982-),男,河北石家莊人,博士,講師,2012年于燕山大學獲得博士學位,主要從事光譜分析方面的研究。
E-mail: panzh_zach@hotmail.com
Processing Method of Five-dimensional Data Based on Fluorescence Spectra
WANG Yu-tian, ZHAO Xu, PAN Zhao*, YUAN Yuan-yuan
(KeyLabofMeasurementTechnologyandInstrumentationofHebeiProvince,YanshanUniversity,Qinhuangdao066004,China)
As a complex mixture of components, petroleum is difficult to be qualitatively identified by conventional detection methods. In this paper, the mixture of gasoline, kerosene and diesel was used to simulate the oil pollutants in the environment. The gasoline, kerosene and diesel could emit fluorescence with the material self information under the excitation of the specific wavelength range, and the fluorescence intensity was directly proportional to the concentration of the substance from the Lambert-Beer law, which was used to identify the kind of the oil. These samples were measured by FS920 steady state fluorescence spectrometer. The data were added to five-dimensional array data by Savitzky-Golay method, then the fourth-order date that contained complex information is obtained to analyze applications. A fourth-order correction method, which coupled unfolded partial least-squares to residual quadrilinearization, was proposed to deal with the five-way data. In order to test its predictive ability, the parallel factor method was used as a reference. Both of them can retrieve the excitation and emission profiles from the test samples. However, the REP value shows that the new method has higher precision than parallel factor analysis.
qualitative identification; five-way data; unfolded partial least squares method; parallel factor method
1000-7032(2016)11-1436-08
2016-05-19;
2016-09-03
國家自然科學基金(61471312); 河北省自然科學基金(F2015203240,F(xiàn)2015203072)資助項目
O433.4
A
10.3788/fgxb20163711.1436
*CorrespondingAuthor,E-mail:panzh_zach@hotmail.com