顏凡 朱啟兵 黃敏 劉財(cái)政 張麗文 張恒
摘?要?拉曼光譜數(shù)據(jù)含有與被測(cè)物質(zhì)組分相對(duì)應(yīng)的指紋譜信息,是混合物組分識(shí)別的有效方法。傳統(tǒng)的拉曼光譜法用于混合物組分檢測(cè)時(shí), 存在光譜特征提取困難、搜索比對(duì)算法性能容易受數(shù)據(jù)庫(kù)大小影響、識(shí)別精度難以保證等問(wèn)題。針對(duì)此問(wèn)題,本研究提出了一種基于稀疏非負(fù)最小二乘算法的混合物組分拉曼光譜識(shí)別方法。本方法將待識(shí)別的混合物光譜數(shù)據(jù)看作是各種純凈物光譜數(shù)據(jù)的線性表示;考慮到混合物組分?jǐn)?shù)量相對(duì)于數(shù)據(jù)庫(kù)中純凈物數(shù)量具有稀疏特性,利用稀疏最小二乘算法獲得混合物光譜在純凈物光譜數(shù)據(jù)中的線性表示系數(shù);并根據(jù)統(tǒng)計(jì)學(xué)中的2δ準(zhǔn)則確定疑似組分;在此基礎(chǔ)上,利用迭代最小二乘算法并結(jié)合T檢驗(yàn)方法,實(shí)現(xiàn)混合物組分的最終識(shí)別。本研究基于自建的500種純凈物拉曼光譜數(shù)據(jù)庫(kù),對(duì)組分等體積比混合的19個(gè)混合物樣本和不同體積比的81個(gè)樣本進(jìn)行了組分識(shí)別。結(jié)果表明,在等體積比情況下,本算法的查準(zhǔn)率為90.24%,查全率為88.10%;對(duì)于不同體積比的混合物樣本,整體查準(zhǔn)率為93.22%,查全率為83.65%, 表明此算法具有良好的穩(wěn)定性和準(zhǔn)確度。
關(guān)鍵詞?混合物組分識(shí)別; 拉曼光譜; 稀疏非負(fù)最小二乘算法
1?引 言
混合物組分識(shí)別一直是分析化學(xué)中的難題。質(zhì)譜和色譜分析法、化學(xué)實(shí)驗(yàn)室法、固相萃取法等[1,2]組分識(shí)別方法雖然具有較高的靈敏度和精確度,但是無(wú)法滿足快速、簡(jiǎn)便的檢測(cè)要求。近年來(lái),基于拉曼光譜的檢測(cè)分析方法由于具有無(wú)損、非接觸、無(wú)化學(xué)污染、檢測(cè)時(shí)間短、檢測(cè)結(jié)果準(zhǔn)確、重復(fù)性好、適用于大多數(shù)有機(jī)和無(wú)機(jī)化合物等優(yōu)點(diǎn),得到了廣泛的應(yīng)用[3~5]。然而,通過(guò)數(shù)學(xué)解析的方法提取拉曼光譜中包含的分子結(jié)構(gòu)信息仍然具有很大的挑戰(zhàn),特別是復(fù)雜的混合物光譜。目前,研究者已開(kāi)發(fā)了各種化學(xué)計(jì)量學(xué)方法用于鑒定拉曼光譜中的成分。
搜索算法與數(shù)據(jù)庫(kù)相結(jié)合是解決混合物組分識(shí)別的一個(gè)重要方法。數(shù)據(jù)庫(kù)為解釋拉曼光譜提供強(qiáng)大的工具,隨著數(shù)據(jù)庫(kù)規(guī)模的增加,各種各樣的搜索算法應(yīng)運(yùn)而生。大量的搜尋方法是通過(guò)采用相關(guān)系數(shù)、歐幾里得距離、絕對(duì)值相關(guān)性和最小二乘法比較相似性,但是這些方法僅適用于檢測(cè)純物質(zhì)[6]。在實(shí)際應(yīng)用中,多組分的樣本是很常見(jiàn)的,因此,迫切需要開(kāi)發(fā)鑒定混合物組分的算法。
Vignesh等[7]提出了一種混合物分析算法。該算法是首先通過(guò)搜索算法以生成樣本中可能存在的疑似物質(zhì)列表,然后計(jì)算列表中每種物質(zhì)的偏相關(guān)值,使用建立的廣義線性模型將偏相關(guān)值轉(zhuǎn)換為確定的成分在混合中真實(shí)存在的概率。但是該方法估計(jì)的概率的有效性取決于搜索算法的準(zhǔn)確性,若搜索算法錯(cuò)過(guò)多組分混合物中的一個(gè)或多個(gè)真實(shí)組分,則其估算的概率不可信。
馬靖[8]提出了一種基于激光拉曼光譜技術(shù)的二維分析方法,通過(guò)綜合分析特征譜線及若干特征譜線的強(qiáng)度比來(lái)測(cè)定混合溶液中存在的有機(jī)化合物,但特征峰的選取需要根據(jù)相關(guān)文獻(xiàn)資料及光譜標(biāo)識(shí)規(guī)律確定。
Zhang等[9]通過(guò)自定義的匹配質(zhì)量結(jié)合反向搜索對(duì)混合物進(jìn)行定性分析,但匹配質(zhì)量是根據(jù)兩種物質(zhì)拉曼光譜的峰位與峰強(qiáng)定義的,其結(jié)果依賴于尋峰算法的準(zhǔn)確性。黃培賢等[10]提出了一種子空間重合判斷法,將測(cè)得的混合物光譜視為向量,通過(guò)計(jì)算混合拉曼光譜與標(biāo)準(zhǔn)樣品數(shù)據(jù)庫(kù)拉曼光譜的子空間夾角,并依據(jù)子空間夾角變化確定混合物組分。Fan等[11]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型的混合物組分識(shí)別方法,得到了比傳統(tǒng)建模方法更優(yōu)的結(jié)果。針對(duì)由甲醇、乙腈、蒸餾水構(gòu)成的三元混合物,能正確定性識(shí)別組分的最低體積濃度為4%。
綜上,現(xiàn)有的拉曼光譜混合物組分識(shí)別方法多依賴于拉曼光譜的譜峰特征提取,并逐一比對(duì)數(shù)據(jù)庫(kù)中物質(zhì)與被測(cè)物質(zhì)拉曼光譜特征的相似性。在實(shí)際測(cè)量中,當(dāng)混合物中組分較多時(shí),其拉曼光譜譜峰的重疊較為嚴(yán)重,給譜峰的特征提取與相似性計(jì)算帶來(lái)了極大困難。同時(shí),當(dāng)數(shù)據(jù)庫(kù)規(guī)模較大時(shí),這種逐一比對(duì)的方法將極為耗時(shí),并會(huì)產(chǎn)生較大的識(shí)別誤差[12]。
在拉曼光譜數(shù)據(jù)庫(kù)完備的情況下,混合物的拉曼光譜在數(shù)學(xué)上可視為拉曼光譜數(shù)據(jù)庫(kù)中拉曼光譜信號(hào)的線性表示。通常情況下,混合物組分相比于數(shù)據(jù)庫(kù)中的物質(zhì)是稀疏的,換言之,混合物拉曼光譜數(shù)據(jù)在數(shù)據(jù)庫(kù)上的表示系數(shù)是稀疏的。近年來(lái),信號(hào)的稀疏表示被廣泛的運(yùn)用在信號(hào)處理等領(lǐng)域。本研究基于這種稀疏性質(zhì),提出了一種基于稀疏非負(fù)最小二乘算法(Sparse non-negative least squares algorithm,SNNLS)的混合物拉曼光譜識(shí)別方法。此方法通過(guò)計(jì)算混合物拉曼光譜數(shù)據(jù)在光譜數(shù)據(jù)庫(kù)中的稀疏表示系數(shù),利用統(tǒng)計(jì)學(xué)中的2δ準(zhǔn)則獲取較小的混合物成分疑似物質(zhì)庫(kù); 在此基礎(chǔ)上,利用迭代最小二乘算法和T檢驗(yàn)方法,確定混合物的組分?;谧越ǖ?00種純凈物質(zhì)數(shù)據(jù)庫(kù),對(duì)組分等體積比混合物(19個(gè)樣本)和不同體積比的三元、四元混合物(81個(gè)樣本)進(jìn)行了組分識(shí)別。結(jié)果表明,此算法具有良好的穩(wěn)定性和準(zhǔn)確度。
2?算法原理與實(shí)驗(yàn)
2.1?實(shí)驗(yàn)儀器與實(shí)驗(yàn)樣本
拉曼光譜數(shù)據(jù)用Finder Edge手持拉曼光譜儀(北京卓立漢光儀器有限公司)采集,激發(fā)源為785 nm激光器,激光功率350 mW, 光譜范圍150~2700 cm1,光譜分辨率為8~10 cm1 。 采集了500種純凈物在相同環(huán)境下的拉曼光譜數(shù)據(jù),積分時(shí)間設(shè)置為1s,功率值約為70 mW,室內(nèi)環(huán)境溫度約為23℃。500種純凈物數(shù)據(jù)庫(kù)由北京卓立漢光儀器有限公司建立,主要由常見(jiàn)化學(xué)物質(zhì)和管制品組成。其中常見(jiàn)化學(xué)物質(zhì)購(gòu)于國(guó)藥集團(tuán)化學(xué)試劑北京有限公司,純度為二級(jí)品,適用于重要分析和一般性研究工作; 管制品來(lái)源于公安機(jī)關(guān),純度在98%以上。利用這500種純凈物的拉曼光譜數(shù)據(jù)(經(jīng)過(guò)預(yù)處理)作為純凈物拉曼數(shù)據(jù)庫(kù)。在公共安全中,對(duì)一些有毒、有害、易燃易爆等物質(zhì)的準(zhǔn)確檢測(cè)至關(guān)重要。因此,本研究選擇了丙二酸二乙酯、丙酮、二丙酮醇、環(huán)己烷、乙醇、乙腈6種純凈物配制混合物,采集其拉曼光譜對(duì)算法進(jìn)行驗(yàn)證。
圖1為6種純凈物的原始光譜圖。由于這6種物質(zhì)在常溫下物理狀態(tài)相同,都為無(wú)色液體,并且大部分為有毒有害物質(zhì),或易燃危險(xiǎn)品(如乙醇),它們的分子結(jié)構(gòu)比較類似,任意兩種物質(zhì)的拉曼光譜都存在部分譜峰重疊情況(圖1)。考慮到純凈物譜峰之間的相互重疊現(xiàn)象,按組分等體積比混合配制了19個(gè)二元、三元混合物,表1為19個(gè)混合物樣本的組成; 考慮到各組分不同體積比混合對(duì)拉曼光譜數(shù)據(jù)的影響,配制了5種三元混合物樣本和3種四元混合物樣本,其中三元混合物樣本配制了9種不同的體積比,四元混合物樣本配制了12種不同的體積比,共81個(gè)樣本,部分樣本信息如表2所示。
2.2?SNNLS算法闡述
由于在實(shí)際環(huán)境中,混合物的組分可能多種多樣,要完全對(duì)其定性分析則需要龐大的拉曼光譜數(shù)據(jù)庫(kù)。SNNLS算法利用所有純凈物的全譜信息進(jìn)行定性分析,避免了通過(guò)特征提取等降維操作改變數(shù)據(jù)結(jié)構(gòu)、丟失有用信息的缺陷; 同時(shí),SNNLS算法可獲取待識(shí)別物質(zhì)在整個(gè)數(shù)據(jù)庫(kù)物質(zhì)上的投影系數(shù),克服了遍歷搜索方法存在的計(jì)算復(fù)雜度大的缺點(diǎn)。
設(shè)A∈Rm+n+為所有純凈物光譜數(shù)據(jù)構(gòu)成的非負(fù)矩陣(m為光譜維數(shù),n為純凈物樣本個(gè)數(shù)),則對(duì)于任意一個(gè)待識(shí)別混合物光譜y∈Rm+, 可由純凈物光譜矩陣A線性表示,其表示系數(shù)為向量x,即y=Ax。 x向量中各分量xi,i=1, 2, … n的大小與待識(shí)別物質(zhì)中所含純凈物的濃度相關(guān),在純凈物數(shù)據(jù)庫(kù)完備且數(shù)量較大的情況下,表示系數(shù)向量x是稀疏非負(fù)的。因此,本研究構(gòu)造一個(gè)一范數(shù)稀疏非負(fù)約束方程,求解表示系數(shù)向量x:
minf(x)=‖Ax-y‖2+λ‖x‖1(1)
s.t.?xi≥0
其中,xi表示待識(shí)別光譜y在第i個(gè)純凈物下的表示系數(shù)。λ為稀疏懲罰因子,用于控制解向量x的稀疏性,其值越大,相應(yīng)的解x越稀疏,本研究設(shè)置稀疏懲罰因子λ=n100(其中n為光譜數(shù)據(jù)庫(kù)樣本總數(shù))。
將方程(1)轉(zhuǎn)換為無(wú)約束的對(duì)數(shù)障礙函數(shù)ni=1lnxi, 以方便求解:
minF(x)=‖Ax-y‖2+λni=1xi-Δnni=1lnxi(2)
其中,Δ=‖Ax-y‖2+λ‖x‖1-(-(Ax-y)T(Ax-y)-(Ax-y)Ty), Δ越趨近于零, 代表此時(shí)的解x越靠近最優(yōu)解。隨著x逐漸向最優(yōu)解靠近, Δ逐步減小,相應(yīng)的懲罰項(xiàng)-Δnni=1lnxi會(huì)隨著解x逐步逼近最優(yōu)解而趨近于零 [13]。對(duì)方程(2)的求解可采用牛頓內(nèi)點(diǎn)法,算法的具體步驟如下: 步驟(1)對(duì)于待測(cè)光譜y和已知的純組分光譜數(shù)據(jù)庫(kù)A,設(shè)定初始解x1=(1,1,...,1)n×1, 循環(huán)次數(shù)初始化為k=1, 初始步長(zhǎng)α=1,步長(zhǎng)縮減因子s=0.5,控制參數(shù)c=0.5; 步驟(2)?若Δ<10-3,則退出循環(huán),并輸出xk, 否則通過(guò)牛頓法確定迭代方向dxk=-F'(xk)F″(xk); 步驟(3)?若步長(zhǎng)α滿足F(xk+αdxk)≤F(xk)+αcF(xk)dxk,以及xki≥0 (i=1,2,...,n),則轉(zhuǎn)步驟(5), 否則轉(zhuǎn)步驟(4); 步驟(4)?令α=s·α,轉(zhuǎn)步驟(3); 步驟(5)?令xk+1=xk+α·dx, k=k+1, 轉(zhuǎn)步驟(2)。
2.3?混合物組分的確定
相比于實(shí)驗(yàn)室用高精度拉曼光譜系統(tǒng),手持式拉曼光譜儀的測(cè)量環(huán)境難以控制,且儀器的分辨率普遍偏低,從而導(dǎo)致純凈物光譜存在較大的測(cè)量誤差。在純凈物光譜數(shù)據(jù)庫(kù)較大的條件下,利用SNNLS獲得的解向量雖然是稀疏的,但很難直接通過(guò)解向量的系數(shù)大小判斷物質(zhì)是否存在??紤]到方程(2)獲得的表達(dá)系數(shù)xi是稀疏的,即在解向量x中, xi值較大的數(shù)量很少,可認(rèn)為是一個(gè)小概率事件(相對(duì)于整個(gè)解向量x而言)。 借助于統(tǒng)計(jì)分布思想,將取值落在(μ-2δ, μ+2δ)外的xi認(rèn)為是小概率事件,其中,μ和δ分別為向量x的均值和標(biāo)準(zhǔn)差。如果xi落在(μ-2δ, μ+2δ), 則代表數(shù)據(jù)庫(kù)中的第i種物質(zhì)為不相關(guān)物質(zhì),反之,將其歸為疑似物質(zhì)。
通過(guò)上述方法獲得的疑似物質(zhì)仍然偏多,為進(jìn)一步確定疑似物質(zhì),本研究將疑似物質(zhì)的光譜按照對(duì)應(yīng)的系數(shù)xi,由大到小進(jìn)行排列,得到B=(b1,b2,...,bL),其中,b1,b2,...,bL為數(shù)據(jù)庫(kù)A中L個(gè)疑似純凈物光譜。對(duì)前l(fā)(l=1, 2, … L)個(gè)純凈物光譜b1,b2,...,bl與待測(cè)樣本光譜y, 利用最小二乘算法求取擬合系數(shù)xl1,xl2,...,xll, 并計(jì)算殘差Δl=y-b1xl1-b2xl2-…,-blxll, Δl∈Rm。 重復(fù)此過(guò)程,可得到不同基底下的擬合殘差序列Δl,l=1, 2, … L。T檢驗(yàn)使用t分布理論來(lái)推斷差異發(fā)生的概率,從而比較兩列數(shù)據(jù)是否存在顯著差異。本研究對(duì)以上殘差使用T檢驗(yàn)確定混合物的組分。按照順序依此計(jì)算兩兩殘差的P值,若P(Δl-1, Δl)<0.01, 則代表兩殘差之間有顯著差異。即相對(duì)于前l(fā)-1個(gè)疑似純凈物光譜(b1, b2, …, bl-1)所擬合的殘差序列Δl-l, 第l個(gè)疑似物質(zhì)光譜bl的引入, 對(duì)擬合殘差有較大貢獻(xiàn),應(yīng)作為疑似物質(zhì)保留; 反之,可認(rèn)為第l個(gè)疑似物質(zhì)對(duì)整體擬合誤差沒(méi)有貢獻(xiàn),可排除。通過(guò)上述途徑,可進(jìn)一步縮小疑似物質(zhì)庫(kù),實(shí)現(xiàn)對(duì)待測(cè)混合物的定性識(shí)別。
2.4?算法評(píng)價(jià)指標(biāo)
對(duì)于混合物成分定性識(shí)別問(wèn)題,查準(zhǔn)率(Precision ratio, P)和查全率(Recall ratio, R)是最為常用的兩個(gè)性能指標(biāo),本研究采用這兩個(gè)指標(biāo)評(píng)價(jià)算法的性能。P反映了檢測(cè)的準(zhǔn)確性,其定義為所檢出的混合物中真實(shí)存在的組分占檢出組分總數(shù)的百分比; R反映了檢測(cè)的全面性,其定義為所檢出的混合物中真實(shí)存在的組分占混合物組分總數(shù)的百分比。其定義公式如下:
P=TPTP+FP(3)
R=TPTP+FN(4)
其中, TP為實(shí)際存在于混合物中并被檢測(cè)到的物質(zhì); FP為實(shí)際不存在于混合物中但被檢測(cè)到的物質(zhì); FN為實(shí)際存在于混合物中但未被檢測(cè)到的物質(zhì)。
3?結(jié)果與討論
3.1?光譜預(yù)處理
由圖1可見(jiàn),物質(zhì)原始光譜中含有熒光背景和噪聲等干擾,影響混合物組分的正確識(shí)別。因此,在建立數(shù)據(jù)庫(kù)并應(yīng)用檢測(cè)算法之前,需對(duì)原始光譜進(jìn)行預(yù)處理,去除干擾成分。小波變換由于具有高低頻信號(hào)分離的特點(diǎn),可在不丟失原信號(hào)重要信息成分的前提下,將原光譜信號(hào)進(jìn)行濾化處理,消除噪音信息,重構(gòu)出更加清晰的光譜特征,從而提高了信號(hào)的清晰度,為信號(hào)的預(yù)處理提供了更方便的條件。本研究利用連續(xù)小波變換和懲罰最小二乘函數(shù)擬合背景線,去除熒光背景和噪聲[14]。選取墨西哥帽小波作為母波,其數(shù)學(xué)表達(dá)式如下:
Ψ(x)=23π
14(1-x2)e
x2/2(5)
圖2A為S20樣本在9種不同體積比下的拉曼原始光譜圖,可見(jiàn)含有較強(qiáng)的熒光背景; 圖2B為背景校正后的拉曼光譜圖,可見(jiàn)通過(guò)連續(xù)小波函數(shù)和懲罰最小二乘法相結(jié)合的方法進(jìn)行背景校正后,消除了熒光背景產(chǎn)生的基線對(duì)物質(zhì)拉曼光譜的影響,保留了光譜的有用信息。
3.2?算法的優(yōu)勢(shì)
本研究通過(guò)制備的組分等體積比混合的混合物樣本(表1),對(duì)SNNLS和文獻(xiàn)[9]提出的RSearch-NNLS算法進(jìn)行比較,具體的自由參數(shù)設(shè)置與文獻(xiàn)[9]一致,表3給出了具體的性能對(duì)比。RSearch-NNLS通過(guò)檢測(cè)光譜的峰強(qiáng)與峰位計(jì)算混合物光譜與純物質(zhì)的相似度。由表3可見(jiàn),RSearch-NNLS的FP指標(biāo)較高,其查準(zhǔn)率僅為70.59%; 而本研究提出的SNNLS算法中僅出現(xiàn)4例FP,查準(zhǔn)率達(dá)到90.24%,查全率也相對(duì)提高了2.39%。上述結(jié)果表明, SNNLS算法采用光譜的全波段數(shù)據(jù)進(jìn)行混合物組分識(shí)別,避免了通過(guò)尋峰以及重疊峰的分解可能出現(xiàn)漏峰,以及重疊峰分解不完全等對(duì)識(shí)別精度的影響。
3.3?數(shù)據(jù)庫(kù)的大小對(duì)算法的影響
為了檢驗(yàn)數(shù)據(jù)庫(kù)大小的變化對(duì)SNNLS算法的影響,從自建的500種純凈物的數(shù)據(jù)庫(kù)當(dāng)中,隨機(jī)產(chǎn)生大小為100、200、300、400的子數(shù)據(jù)庫(kù)。為保證所產(chǎn)生的子數(shù)據(jù)庫(kù)相對(duì)于制備的混合物樣本具有完備性,本研究將含有制備混合物樣本的6種純凈物預(yù)先固定于子數(shù)據(jù)中,然后依次隨機(jī)抽取94、194、294、394種純凈物構(gòu)成100、200、300、400的子數(shù)據(jù)庫(kù),同一尺寸隨機(jī)抽取10次。根據(jù)隨機(jī)生成的子數(shù)據(jù)庫(kù)采用SNNLS依此對(duì)混合物進(jìn)行檢測(cè),結(jié)果如圖3所示,隨著數(shù)據(jù)庫(kù)規(guī)模增大,查準(zhǔn)率的均值波動(dòng)小于2%,最大方差為3.6%; 查全率的均值每次雖會(huì)逐步下降,但每次下降不超過(guò)2%,最低精度也大于90%,說(shuō)明此算法在數(shù)據(jù)庫(kù)規(guī)模增加時(shí)檢測(cè)結(jié)果依然穩(wěn)定,具有良好的魯棒性和準(zhǔn)確性。
3.4?數(shù)據(jù)庫(kù)不完備時(shí)算法的性能
在實(shí)際的檢測(cè)中,有時(shí)可能會(huì)出現(xiàn)數(shù)據(jù)庫(kù)不完備(數(shù)據(jù)庫(kù)中不含有混合物中部分組分)的情況。為了模擬這種情況,本研究從數(shù)據(jù)庫(kù)中人為刪除了一些存在于混合物中的組分,然后用SNNLS對(duì)混合物進(jìn)行定性識(shí)別。如從數(shù)據(jù)庫(kù)中移除純凈物丙二酸二乙酯的拉曼光譜,對(duì)含有丙二酸二乙酯組分的混合物樣本S1、S4、S6、S11、S15、S16和S18(表1)進(jìn)行識(shí)別,以檢驗(yàn)算法的性能。采用同樣方法,依次檢測(cè)制備混合物組分的其它5種純凈物缺失的情況。
由表4可知,由于SNNLS算法需要在誤差范圍內(nèi)盡可能地?cái)M合待測(cè)樣本光譜,算法會(huì)搜尋到類似缺失項(xiàng)的光譜進(jìn)行填充,這導(dǎo)致了大量FP的出現(xiàn),降低了查準(zhǔn)率,但平均查全率仍然維持在較高的水平(79.25%),這表明在數(shù)據(jù)庫(kù)不完備的情況下,所關(guān)注的混合物中的物質(zhì)也可大部分被檢出。
3.5?混合物各組分體積濃度變化對(duì)算法的影響
考慮到混合物中各組分在不同體積比混合下對(duì)應(yīng)的拉曼光譜具有差異性(圖2),而光譜數(shù)據(jù)的差異常會(huì)對(duì)各組分的識(shí)別產(chǎn)生重要影響。因此,本研究通過(guò)制備不同體積比的三元、四元混合物樣本(表2),對(duì)SNNLS和Rsearch-NNLS算法性能進(jìn)行比較(表5),SNNLS算法中,丙酮、二丙酮醇的查準(zhǔn)率和查全率要明顯優(yōu)于Rsearch-NNLS,但乙醇的FN指標(biāo)相對(duì)較高(22)。其原因可能是乙醇的拉曼吸收峰相對(duì)較少,在其濃度較低時(shí)會(huì)出現(xiàn)漏檢的情況,導(dǎo)致查全率下降; 而RSearch-NNLS算法中,F(xiàn)N指標(biāo)相對(duì)穩(wěn)定,不受各組分拉曼吸收峰多少的影響,這是因?yàn)镽Search-NNLS通過(guò)拉曼譜峰的峰強(qiáng)與峰位計(jì)算混合物光譜與純物質(zhì)的相似度。從整體結(jié)果來(lái)看,相較于RSearch-NNLS,SNNLS的查準(zhǔn)率和查全率分別提高了17.78%和3.04%。上述結(jié)果表明,SNNLS算法在保證解稀疏的前提下,通過(guò)調(diào)整數(shù)據(jù)庫(kù)中每種純凈物的系數(shù)對(duì)混合物光譜進(jìn)行擬合,使殘差最小化,組分能正確定性識(shí)別與其所占的體積濃度和本身的拉曼吸收峰數(shù)量有關(guān),總體上能正確定性識(shí)別組分的體積濃度在10%以上。
4?結(jié) 論
本研究提出了一種拉曼光譜中混合物的定性分析SNNLS算法,直接將全波段作為輸入信息進(jìn)行定性識(shí)別,在保證解稀疏的前提下,通過(guò)調(diào)整數(shù)據(jù)庫(kù)中每種純凈物的系數(shù)對(duì)混合物光譜進(jìn)行擬合,使殘差最小化,實(shí)現(xiàn)混合物的定性分析。利用500種純凈物構(gòu)成的數(shù)據(jù)庫(kù)進(jìn)行了實(shí)驗(yàn)驗(yàn)證,結(jié)果表明,在等體積比混合的19個(gè)混合物樣本中,算法的查全率為88.10%,查準(zhǔn)率可達(dá)90.24%,與RSearch-NNLS相比,查全率提高了2.39%,查準(zhǔn)率提高了19.65%; 在不同體積比的81個(gè)混合物樣本中,查全率和查準(zhǔn)率分別為83.65%和93.22%,證明了此算法的穩(wěn)定性和準(zhǔn)確性。此外,本研究也模擬了不完備數(shù)據(jù)庫(kù)下的混合物識(shí)別情況,結(jié)果表明,算法的平均查全率為79.25%,表明在數(shù)據(jù)庫(kù)不完備的情況下,混合物中的物質(zhì)大部分也可被檢測(cè)到,證明算法具有較好的魯棒性。在混合物中組分的特征峰較少且濃度較低,或不同組分構(gòu)建的混合物具有類似的拉曼光譜特征(峰位、強(qiáng)度)時(shí),算法存在組分特征難以充分挖掘、性能降低的問(wèn)題。如何提高上述情況下的定性分析結(jié)果,將是未來(lái)需要解決的問(wèn)題。
References
1?LIU Bin, LIU Yun-Hu. Food Science and Technology, 2018, 43(6): 317-321
劉 彬, 劉云虎. 食品科技, 2018, 43(6): 317-321
2?WU Li-Sa, ZHAO Ming-Yue, GE Chang, CAI He-Qing, JI Ling-Bo, HU You-Chi, HU Jun. Tobacco Science & Technology,2018,51(4):46-52
吳麗灑, 趙明月, 葛 暢, 蔡何青, 姬凌波, 胡有持, 胡 軍.煙草科技,2018,51(4):46-52
3?Stckel S, Kirchhoff J, Neugebauer U, Rsch P, Popp J. J. Raman Spectrosc.,2016,47(1):89-109
4?Penido C A F D, Pacheco M T T, Lednev I K, Silveira L. J. Raman Spectrosc.,2016,47(1):28-38
5?Li Y S, Church J S. J. Food Drug Anal.,2014,22(1):29-48
6?Shashilov V A, Lednev I K. Chem. Rev.,2010,110(10): 5692-5713
7?Vignesh T, Shanmukh S, Yarra M, Botonjic-Sehic E, Grassi J, Boudries H, Dasaratha S. Appl. Spectrosc.,2012,66(3): 334-340
8?MA Jing. Spectroscopy and Spectral Analysis,2014,34(7): 1865-1868
馬 靖. 光譜學(xué)與光譜分析,2014,34(7): 1865-1868
9?Zhang Z M, Chen X Q, Lu H M, Liang Y Z, Fan W, Xu D, Zhou J, Ye F, Yang Z Y. Chemometr. Intell. Lab. Syst.,2014,137: 10-20
10?HUANG Pei-Xian, YAO Zhi-Xiang, SU Hui, SUN Kuo. Journal of Instrumental Analysis,2013,32(3):281-286
黃培賢, 姚志湘, 粟 暉, 孫 闊.分析測(cè)試學(xué)報(bào),2013,32(3):281-286
11?Fan X, Ming W, Zeng H, Zhang Z M, Lu H M. Analyst,2019,144(5):1789-1798
12?HU Zhi-Yu, WANG Qiang. Journal of Test and Measurement Technology,2016,30(5): 400-405
胡志裕, 王 強(qiáng).測(cè)試技術(shù)學(xué)報(bào),2016,30(5): 400-405
13?Koh K. Stanford University,2009: 59-66
14?Zhang Z M, Chen S, Liang Y Z, Liu Z X, Zhang Q M, Ding L X, Ye F, Zhou H. J. Raman Spectrosc.,2010,41(6): 659-669
Identification of Mixture Components Using Sparse Non-Negative
Least Squares Algorithm Base on Raman Spectroscopy
YAN Fan1, ZHU Qi-Bing*1, HUANG Min1, LIU Cai-Zheng1, ZHANG Li-Wen2, ZHANG Heng2
1(Key Laboratory of Advanced Process Control for Light Industy,
Ministry of Education, Jiangnan University, Wuxi 214122, China)
2(Beijing Zhuoli Hanguang Instrument Co. Ltd., Beijing 101102, China)
Abstract?Raman spectral data contain fingerprint spectral information corresponding to the components of the measured substances, which is an effective method to identify the components of mixtures. The traditional mixture component detection methods based on Raman spectrum have some issues such as the difficulty in extracting spectral features, the performance of search and peak matching algorithms is easily affected by the database, and the recognition accuracy is difficult to guarantee. To overcome these problems, a method of mixture components recognition using Raman spectrum based on sparse non-negative least squares algorithm is proposed. In this method, the spectral data of the mixture to be recognized is regarded as the linear representation of the spectral data of all kinds of pure substances. Considering the sparse characteristic of the mixture components quantity relative to the pure substance quantity in the database, the linear representation coefficient of the mixture spectrum in the pure substance spectrum data is obtained by the sparse non-negative least squares algorithm. And the suspected components are determined according to the statistical 2δ principle. On this basis, the iterative least squares algorithm combined with the T-distribution test method is used to realize the final identification of the mixture components. The Raman spectral data of 500 pure substances are used to build a standard database for identification of the experimental sample of 19 mixtures with equal volume ratio of components and 81 mixtures with different volume ratio of components. The results show that the precision is 90.24% and the recall is 88.10% under the condition of equal volume ratios, and the precision is 93.22% and the recall is 83.65% under the condition of different volume ratios, which proves the good stability and accuracy of the proposed algorithm.
Keywords?Identification of mixture components;Raman spectroscopy;Sparse non-negative least squares algorithm
(Received 6 May 2019;accepted 15 November 2019)
This work was supported by the National Natural Science Foundation of China (No. 61775086).