陳彥銘,廉小親,王宇喬,劉 鈺
(1. 北京工商大學(xué)人工智能學(xué)院,北京100048;2. 北京工商大學(xué)中國輕工業(yè)工業(yè)互聯(lián)網(wǎng)與大數(shù)據(jù)重點實驗室,北京 100048)
電感耦合等離子體原子發(fā)射光譜法(Inductively coupled plasma atomic emission spectrometry,ICP-AES)是一種以電感耦合等離子體為激發(fā)光源的原子發(fā)射光譜分析技術(shù),具有多元素同時檢測、分析速度快以及準確度高等特點,被廣泛應(yīng)用于稀土、冶金、化工、無機材料和醫(yī)學(xué)等眾多領(lǐng)域[1]-[3]。然而在ICP-AES測量過程中,受儀器暗電流和光源雜散光的影響,測量所得的光譜通常存在一定程度的基線漂移現(xiàn)象,造成元素含量定量分析誤差,因此在測量過程中往往需要對光譜進行基線校正處理[4],[5]。
常見的基線校正方法包括迭代多項式擬合法[6],[7]、導(dǎo)數(shù)法[8][9]、移動窗口平滑法[10][11]、小波變換法[12]以及分段擬合法等。迭代多項式擬合法的實現(xiàn)步驟較為簡單,但是對于不同的光譜信號,多項式擬合階數(shù)往往需要論證確定,難以建立一種通用性較強的光譜基線擬合模型。導(dǎo)數(shù)法和移動窗口平滑法實現(xiàn)原理同樣相對簡單,但二者均會在時域內(nèi)降低光譜的分辨率,影響光譜的峰形,不利于后期的定量分析。小波變換也能夠有效去除光譜基線,但需要針對不同的光譜信號建立相應(yīng)的小波基函數(shù),因此算法的運算量相對較高,應(yīng)用效率也相對較低。分段擬合法分為分段線性擬合[13][14]和分段非線性擬合,分段線性擬合是將基線點依次用線段進行連接,連接得到的分段曲線即視為擬合基線;而分段非線性擬合又包括分段多項式擬合和樣條擬合兩種,分段多項式擬合法在一定程度上克服了迭代多項式擬合法中階數(shù)難以確定的問題,但是相比于分段樣條擬合法,分段多項式擬合法有時無法保證全波段范圍下的擬合誤差,臨界處擬合基線的平滑性也較差,而樣條擬合則需要通過人工參與以此來確定樣條曲線的內(nèi)接點序列和控制點序列,例如基于B樣條曲線的擬合方式[15][16]。
針對以上問題,本文提出一種基于徑向基函數(shù)(Radial Basis Function,RBF)神經(jīng)網(wǎng)絡(luò)和非均勻B樣條(Non uniform rational B-spline,NURBS)曲線模型的ICP-AES光譜基線校正方法,該方法不僅能夠避免降低光譜信號分辨率,減小光譜基線擬合誤差,也能夠利用RBF神經(jīng)網(wǎng)絡(luò)能夠進行非線性分類[17]的優(yōu)勢快速篩選出合適的光譜基線點,并構(gòu)造相應(yīng)的NURBS曲線內(nèi)節(jié)點序列,進一步通過NURBS曲線逆向計算模型計算出合適的控制點序列,有效的克服了傳統(tǒng)B樣條擬合方式中內(nèi)節(jié)點序列和基線點序列難以確定的局限性,獲得了更好的基線校正效果。
本文提出的基于RBF神經(jīng)網(wǎng)絡(luò)和NURBS曲線模型的ICP-AES光譜基線校正方法流程如圖1所示。
圖1 基線校正流程
首先利用高斯濾波對原始光譜進行去噪預(yù)處理,然后通過RBF神經(jīng)網(wǎng)絡(luò)篩選光譜基線點序列,并對基線點序列進行首尾填充,構(gòu)造NURBS曲線的內(nèi)節(jié)點序列;利用NURBS曲線逆向計算模型、基線點序列以及內(nèi)節(jié)點序列計算NURBS曲線的控制點序列;通過內(nèi)節(jié)點序列和控制點序列即可擬合出相應(yīng)的NURBS曲線作為光譜基線;將濾波后的光譜與擬合的光譜基線進行對應(yīng)點相減,即可消除光譜基線,達到基線校正的目的。
高斯濾波是數(shù)字信號處理中常用的濾波方式,其本質(zhì)為原始信號與高斯卷積核的離散卷積運算,如式(1)所示
(1)
本文采用高斯濾波對ICP-AES光譜進行預(yù)處理,一方面由于ICP-AES光譜信號基本服從高斯分布,因此通過高斯卷積核進行卷積能夠盡可能地保留譜線信息,避免降低光譜分辨率;另一方面,本文對實測的ICP-AES光譜數(shù)據(jù)進行分析,抽樣統(tǒng)計各波段中的噪聲信號分布特征,如圖2所示。
圖2結(jié)果表明,ICP-AES光譜中噪聲信號概率密度基本服從高斯分布,因此通過高斯濾波能夠有效的去除噪聲信號。
圖2 不同波段光譜噪聲信號幅值分布統(tǒng)計結(jié)果
1)光譜基線點篩選總體思路
本文利用RBF神經(jīng)網(wǎng)絡(luò)篩選ICP-AES光譜基線點,基本思路如下:構(gòu)造相應(yīng)的數(shù)據(jù)集對RBF神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,使得該神經(jīng)網(wǎng)絡(luò)能夠判斷任意一段特定長度的光譜信號的中間點能否作為基線點;然后將該RBF神經(jīng)網(wǎng)絡(luò)模型作為掃描窗口,逐步掃描光譜信號,并對每一步窗口中的光譜中間點進行標簽標注,若該窗口內(nèi)的光譜中間點可視為基線點,則該點對應(yīng)的標簽為1,反之該點標簽為0;重復(fù)上述流程,即可篩選出光譜中的基線點。需要注意的是,受掃描窗口影響,第一個掃描窗口內(nèi)的前半部分光譜數(shù)據(jù)和最后一個掃描窗口內(nèi)后半部分光譜數(shù)據(jù)無法進行基線點判斷,因此不參與基線擬合與校正。窗口掃描示意圖如圖3所示。
圖3 RBF神經(jīng)網(wǎng)絡(luò)篩選光譜基線點示意圖
2) RBF神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)集
本文首先實測了一組ICP-AES光譜作為原始數(shù)據(jù)樣本,波段范圍為190nm-460nm,如圖4所示。
圖4 光譜原始數(shù)據(jù)樣本
本文設(shè)定基線點掃描判斷窗口大小為11,將圖4所示的全波段光譜數(shù)據(jù)按上述窗口大小進行分割并進行初步篩選,最終得到489組數(shù)據(jù)集樣本;通過專家判定的方法對數(shù)據(jù)集樣本進行分類,若樣本光譜的中間點可視為基線點,則該數(shù)據(jù)樣本對應(yīng)標簽為1,反之對對應(yīng)標簽則為0,如圖5所示。
圖5 RBF神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)集(部分)
3) RBF神經(jīng)網(wǎng)絡(luò)模型
本文設(shè)計的RBF神經(jīng)網(wǎng)絡(luò)模型拓撲結(jié)構(gòu)如圖6所示。由于數(shù)據(jù)集中每組樣本均為11個數(shù)據(jù)點,因此RBF神經(jīng)網(wǎng)絡(luò)的輸入節(jié)點數(shù)量為11;RBF神經(jīng)網(wǎng)絡(luò)隱含層節(jié)點數(shù)量通過網(wǎng)絡(luò)迭代訓(xùn)練進行確定,每輪迭代增加一個隱含層神經(jīng)元節(jié)點,并調(diào)整輸出權(quán)值矩陣,直至滿足訓(xùn)練條件;本文構(gòu)造的數(shù)據(jù)集輸出標簽僅有兩類,因此RBF神經(jīng)網(wǎng)絡(luò)設(shè)置一個輸出節(jié)點即可。
圖6 RBF神經(jīng)網(wǎng)絡(luò)模型
本文采用NURBS曲線模型進行ICP-AES光譜基線擬合。NURBS曲線擬合的必要條件為一組特定的內(nèi)節(jié)點序列和控制點序列;本文將對光譜的基線點序列進行首尾填充,以此作為NURBS曲線的內(nèi)節(jié)點序列,而控制點序列的選擇往往難以確定,因此本文將采用NURBS曲線逆向計算模型推算控制點序列,以此實現(xiàn)NURBS曲線的擬合。
1) NURBS曲線模型
記數(shù)據(jù)點序列集合為X,X={(x1|u,x1|v)},{(x2|u,x2|v)},{(x3|u,x3|v)},…,{(xn|u,xn|v)}采用節(jié)點符號t將數(shù)據(jù)點序列X進行劃分,并記節(jié)點序列集合為T,T=[t-k+1,t-k+2,…,t-1,t0,t1,…,tn,tn+1,tn+2,…,tn+k],則節(jié)點序列滿足以下關(guān)系
t-k+1≤t-k+2≤…≤t-1≤t0<
t1<… (2) 其中,t1到tn稱為內(nèi)節(jié)點,其余稱之為外節(jié)點,n為內(nèi)節(jié)點數(shù),k為B樣條曲線的階數(shù);若內(nèi)節(jié)點均勻分布,則最終構(gòu)成的曲線稱之為均勻B樣條曲線,反之則為非均勻B樣條曲線。 對于k階的B樣條曲線,其表達式如式(3)所示。 (3) (4) 在計算過程中,控制點序列和曲線坐標點序列通常均以坐標的形式進行運算,因此式(3)也可寫為 (5) 同理,可記控制點序列為C={(c0|u,c0|v),(c1|u,c1|v),…,(cn|u,cn|v)}。 (6) 構(gòu)造出內(nèi)接點序列T后即可代入式(3)或式(5)進行運算,但根據(jù)式(3)或式(5)可知,若需要構(gòu)造NURBS曲線,還需要一組控制點序列C,因此本文將采用NURBS曲線逆向計算模型計算相應(yīng)的控制點序列C。 (2) NURBS曲線逆向計算模型 由于基線點均位于基線上,即基線點坐標均為NURBS曲線的取值集合,因此本文將建立NURBS曲線逆向計算模型,以計算控制點序列C的取值。NURBS曲線逆向計算模型步驟如下。 已知歸一化處理后的基線點序列集合為P,內(nèi)節(jié)點序列集合為T。由于本文是通過式(3)或式(5)的逆向運算求解控制點序列,因此令式(3)或式(5)中的自變量輸入為內(nèi)節(jié)點值,建立以下方程組 (7) 其中,pi=(pi|u,pi|v),ci=(ci|u,ci|v),i=1,2,…,n將以上表達式改寫為矩陣形式,如式(8)所示。 (8) 記式(8)中的基函數(shù)矩陣為N,顯然r(N) 本文將掃描一組樣品溶液對應(yīng)的ICP-AES光譜信號,該溶液所含元素及對應(yīng)的特征波長如表1 表1 樣品溶液所含元素及特征波長 選取其中的294.547nm-297.400nm光譜,并將強度值進行歸一化處理,以歸一化后的光譜作為測試樣本,如圖7所示。 圖7 測試樣本光譜信號 1) 高斯濾波測試結(jié)果 對圖7所示的原始光譜進行高斯濾波處理,消除部分噪聲干擾,處理結(jié)果如圖8所示。 圖8 測試樣本濾波處理結(jié)果 2)RBF神經(jīng)網(wǎng)絡(luò)訓(xùn)練結(jié)果 本文共計構(gòu)造489組RBF神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)集,其中標簽0數(shù)據(jù)集為427組,表示中心點為非基線點,標簽1數(shù)據(jù)集為62組,表示中心點為基線點;隨機選擇260組標簽0的數(shù)據(jù)集和40組標簽1的數(shù)據(jù)集共同構(gòu)成訓(xùn)練集,其余數(shù)據(jù)集作為測試集,通過RBF神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,設(shè)置目標均方根誤差為0.01,當?shù)螖?shù)為162時,即隱含層節(jié)點數(shù)量為162時,網(wǎng)絡(luò)輸出實際均方根誤差滿足目標值,為9.95×10-3,神經(jīng)網(wǎng)絡(luò)分類結(jié)果對應(yīng)的混淆矩陣如表2所示。 表2 神經(jīng)網(wǎng)絡(luò)分類結(jié)果混淆矩陣 根據(jù)混淆矩陣結(jié)果可以計算正確率(NetAccuracy)、精確率(Precision)以及召回率(Recall)和F1_Measure四項基本性能指標,如式(9)所示。 (9) 3)基線點序列P篩選結(jié)果 將訓(xùn)練完成的RBF神經(jīng)網(wǎng)絡(luò)模型作為滑動檢測窗口,逐段篩選光譜中的基線點。最終篩選結(jié)果如圖9所示。 圖9 測試樣本基線點篩選結(jié)果 4)控制點序列C計算結(jié)果 將基線點序列P作為NURBS逆向計算模型輸入,計算控制點序列C。控制點序列C相對于測試樣本的分布如圖10所示。 圖10 控制點序列C分布 5) 光譜基線擬合及校正結(jié)果 利用NURBS模型擬合測試樣本對應(yīng)的光譜基線,并對測試樣本進行基線校正?;€擬合結(jié)果和基線校正結(jié)果如圖11所示。 圖11 測試樣本基線擬合結(jié)果 6) 測試結(jié)果對比 本文分別利用移動窗口平滑法、分段二次多項式擬合法以及分段三次多項式擬合法對測試樣本進行基線擬合和基線校正,并與本文所提出的基線校正方法進行對比。對比結(jié)果如圖12所示和圖13所示。 圖13 移動窗口平滑法與NURBS擬合法對比 由圖12可知,相比于NURBS曲線模型擬合法,分段二次多項式擬合法和分段三次多項式擬合法在分段點臨界附近的擬合基線平滑性相對較差,且對于光譜基線波動較為劇烈的波段,擬合誤差也相對較高;而通過圖13的對比可知,相比于NURBS曲線模型擬合法,移動窗口平滑法對光譜信號時域分辨率的影響較大,且光譜信號的動態(tài)范圍也有所減小,不利于后期的定量分析。 本文總結(jié)歸納了常見的光譜基線校正方法的局限性,并針對ICP-AES光譜提出一種基于RBF神經(jīng)網(wǎng)絡(luò)和NURBS曲線模型的基線校正方法。相比于傳統(tǒng)的分段多項式擬合法和移動窗口平滑法,該方法能夠擬合較為平滑的基線,且全波段范圍內(nèi)均能保證較小的擬合誤差,并保證光譜信號時域分辨率不受影響;另一方面也能夠有效快速的計算出NURBS曲線的內(nèi)節(jié)點序列和控制點序列,有效提高了NURBS模型的應(yīng)用效率。 然而,本文提出的方法仍具有一定的局限性,例如,RBF神經(jīng)網(wǎng)絡(luò)的訓(xùn)練結(jié)果決定了NURBS曲線的內(nèi)節(jié)點序列和控制點序列的分布,進而直接影響最終的基線擬合效果;而本文中RBF神經(jīng)網(wǎng)絡(luò)的分類正確率和精確率盡管均達到90%以上,但召回率僅為72.58%,F(xiàn)1_Measure值也僅為80.36%,對于本文的數(shù)據(jù)集和分類問題而言,上述指標并未達到理想值,即網(wǎng)絡(luò)的分類性能并非十分理想。因此在后續(xù)的工作中需要針對RBF神經(jīng)網(wǎng)絡(luò)進行優(yōu)化,在保證召回率的前提下盡可能提高正確率和精確率,最終獲得更為理想的分類結(jié)果。3 實驗結(jié)果與分析
3.1 測試方案
3.2 測試結(jié)果
4 結(jié)論