路皓翔,吳鵬飛,楊輝華,3*,劉振丙
(1.桂林電子科技大學(xué) 電子工程與自動化學(xué)院,廣西 桂林 541004;2.桂林電子科技大學(xué) 計算機(jī)與信息安全學(xué)院,廣西 桂林 541004;3.北京郵電大學(xué) 自動化學(xué)院,北京 100876)
自20世紀(jì)90年代起,近紅外光譜分析技術(shù)在石油化工、食品藥品監(jiān)督以及農(nóng)業(yè)等領(lǐng)域有了廣泛應(yīng)用[1-4]。然而在實(shí)際應(yīng)用中,由于儀器老化、基線漂移和吸光度波動等原因,會造成以一臺儀器測得的樣品光譜數(shù)據(jù)建立的定量分析模型不能直接應(yīng)用于其他光譜儀上測得的樣品光譜數(shù)據(jù)的分析。為了提高定量分析模型的通用性,近紅外光譜的模型傳遞技術(shù)應(yīng)運(yùn)而生。
近紅外光譜的模型傳遞又稱近紅外光譜儀器的標(biāo)準(zhǔn)化[5],主要是用數(shù)學(xué)運(yùn)算的相關(guān)知識求解出兩臺或兩臺以上的光譜儀測得的光譜數(shù)據(jù)之間的轉(zhuǎn)換矩陣,進(jìn)而實(shí)現(xiàn)不同儀器上測得的光譜數(shù)據(jù)的標(biāo)準(zhǔn)化,提高近紅外光譜定量分析模型在不同儀器上的通用性。當(dāng)前模型傳遞中轉(zhuǎn)換矩陣的求解主要有標(biāo)樣法和無標(biāo)樣法兩種[6-7]。其中,標(biāo)樣法需要在主、從儀器之間測得的光譜矩陣上選擇一定數(shù)量的標(biāo)樣集,并通過標(biāo)樣集建立主、從儀器之間模型傳遞的數(shù)學(xué)模型,主要包括直接校正算法[8]、分段直接校正算法[9]、Shenk's[10]及一元線性回歸直接校正法[11]等。無標(biāo)樣法則不需要標(biāo)樣集,主要包括有限脈沖響應(yīng)算法[12]等。最小角回歸(Least angle regression,LAR)算法是由Efron等[13]于2004年提出的一種既可以用于特征變量篩選又可以用于線性回歸的機(jī)器學(xué)習(xí)算法,然而在近紅外光譜分析領(lǐng)域該方法應(yīng)用相對較少[14]。
針對近紅外光譜分析技術(shù)中的模型傳遞問題,本文提出了一種最小角回歸結(jié)合一元線性回歸直接校正(Least angle regression combined simple linear regression direct standardization,LAR-SLRDS)的模型傳遞方法。為了驗(yàn)證LAR-SLRDS算法的性能,采用LAR實(shí)現(xiàn)藥品樣品和汽油樣品近紅外光譜數(shù)據(jù)全譜區(qū)特征波長的篩選,然后結(jié)合SLRDS實(shí)現(xiàn)從儀器測得光譜數(shù)據(jù)的校正,并與未經(jīng)過篩選的一元線性回歸直接校正法(Simple linear regression direct standardization,SLRDS)、直接校正法(Direct standardization,DS)、分段直接校正法(Piecewise direct standardization,PDS)進(jìn)行對比。實(shí)驗(yàn)結(jié)果表明,LAR-SLRDS可以很好地解決不同光譜儀器之間的差異,提高PLS定量分析模型的通用性和準(zhǔn)確性。
LAR算法通過引入一階懲罰函數(shù)將無效變量的系數(shù)置為0,從而實(shí)現(xiàn)變量的篩選。其線性回歸模型如下:
(1)
在式(1)中,(xi1,xi2,…,xip)代表第i個樣本的自變量,yi代表第i個樣本的響應(yīng)變量,βj表示第j個自變量系數(shù),t代表約束值,通常設(shè)置t≥0。
一元線性回歸的表達(dá)式是y=a0+ax,式中x和y分別代表自變量和因變量,a0和a為回歸系數(shù)。假設(shè)近紅外光譜樣本中不同波長的吸光度不相關(guān),采用SLRDS對從儀器上測得的近紅外光譜分析校正[13]。設(shè)主、從儀器上測得的第i個樣品在第j個波長點(diǎn)上的吸光度Xm(i,j)和Xs(i,j)滿足如下一元線性回歸方程:
Xm(i,j)=a0(j)+a(j)Xs(i,j) (i∈1…n,j∈1…p)
(2)
式(2)中,第j(j∈1…p)個波長點(diǎn)對應(yīng)的回歸系數(shù)分別為a0(j)和a(j)。把式(2)寫成矩陣形式如下:
(3)
其中,1n×1表示n×1的列向量且元素全為1。由式(3)可得:
(4)
(5)
第j(j∈1…p)個波長點(diǎn)對應(yīng)的回歸系數(shù)a0(j)和a(j)可以通過公式(4)求出。從儀器上測得的未知樣品光譜Xunknown(n′×p)通過公式(5)轉(zhuǎn)換為與主儀器上測得的光譜一致的光譜Xstd,其中n′為未知樣品數(shù)。最后由主儀器建立的校正模型計算結(jié)果。
從內(nèi)部網(wǎng)絡(luò)中的打印機(jī)和多功能一體機(jī)上收集工作日志,然后生成對管理員和管理層有用的報告。能保存所有用戶的打印、復(fù)印、掃描、傳真記錄,并可以隨時搜索,可以追蹤及監(jiān)視用戶用量,可以生成各種報表(列表,圖形)制作及分析。包括以下:服務(wù)類型、色彩模式、紙張尺寸、單/雙面選擇、什么時間、輸出設(shè)備型號等信息。
由于樣品的光譜特征波長數(shù)量較多,而這些波長中部分與預(yù)測結(jié)果的相關(guān)性較低,反而會影響預(yù)測結(jié)果和模型傳遞的準(zhǔn)確性和可靠性[15-16]。本文采用LAR以最小化池化信息準(zhǔn)則(Akaike information criterion,AIC)作為回歸系數(shù),將相關(guān)性較低的系數(shù)置為0,相關(guān)性較高的系數(shù)置為非0,從而實(shí)現(xiàn)樣品近紅外光譜特征波長的篩選。然后利用SLRDS對篩選出的波長進(jìn)行校正,從而提高模型的通用性。LAR-SLRDS算法的具體步驟如下:
(1)預(yù)處理:利用墨西哥帽小波變換對主、從儀器上測得的樣品近紅外光譜數(shù)據(jù)進(jìn)行預(yù)處理;
(2)波長篩選:將小波變換預(yù)處理后的光譜數(shù)據(jù)作為LAR算法的輸入,根據(jù)AIC最小的原則實(shí)現(xiàn)全譜區(qū)波長點(diǎn)的篩選,并利用篩選出來的特征波長點(diǎn)建立對應(yīng)的偏最小二乘回歸(Partial least squares regression,PLS)分析模型;
(3)轉(zhuǎn)換矩陣計算:利用K-S算法從主、從儀器測得的樣品光譜數(shù)據(jù)中篩選出最具代表性的光譜數(shù)據(jù)樣本,結(jié)合步驟(2)中篩選出的波長點(diǎn),利用SLRDS算法實(shí)現(xiàn)轉(zhuǎn)換矩陣的求解;
(4)驗(yàn)證:在從儀器上測得驗(yàn)證集樣品的光譜數(shù)據(jù),并結(jié)合步驟(2)中篩選出的波長點(diǎn)信息,利用求解出的轉(zhuǎn)換矩陣對驗(yàn)證集的光譜數(shù)據(jù)進(jìn)行校正,將校正后的樣品光譜數(shù)據(jù)送入到主儀器上建立的PLS回歸分析模型,利用預(yù)測標(biāo)準(zhǔn)偏差(Standard error of prediction,SEP)對模型的性能進(jìn)行評估。
為了驗(yàn)證LAR-SLRDS算法的有效性,在汽油和藥品兩個近紅外光譜數(shù)據(jù)集上進(jìn)行相關(guān)實(shí)驗(yàn)并與DS、PDS和SLRDS進(jìn)行對比。數(shù)據(jù)集1采用石油化工科學(xué)研究院提供的汽油樣品的近紅外光譜數(shù)據(jù)集,該數(shù)據(jù)集包含兩臺NIR-3000型近紅外光譜儀(分別記作m1和s1)上測得的88個汽油樣本的近紅外光譜,其波長范圍為700~1 100 nm,波長間隔為0.2 nm,每個樣本共有2 002個特征波長點(diǎn),此外還測定了C7、C8、C9和C10 4種成分的含量值。數(shù)據(jù)集2采用國際漫反射會議提供的藥品樣品的近紅外光譜數(shù)據(jù)集(http://www.eigenvector.com/data/tablets/index.html),該數(shù)據(jù)集包含兩臺Foss NIR-Systems近紅外光譜儀(分別記為m2和s2)上測得的655粒藥片樣本的近紅外光譜,其采樣的波長為600~1 898 nm,采樣的間隔為2 nm,每個樣本共650個特征波長點(diǎn),并分別測定了藥片樣本活性、重量和硬度3種成分的參考值。
由于實(shí)驗(yàn)用到的藥品樣本和汽油樣本的近紅外光譜數(shù)據(jù)存在基線漂移、漫反射和隨機(jī)噪聲等,首先采用標(biāo)準(zhǔn)正態(tài)變量變化消除樣本漫反射以及光程變換造成的樣本近紅外光譜數(shù)據(jù)之間的差異,然后采用數(shù)據(jù)平滑化消除樣本近紅外光譜數(shù)據(jù)存在的隨機(jī)噪聲,最后采用墨西哥帽小波變換(尺度值scale設(shè)為3,母小波波長設(shè)為32*scale)消除樣本近紅外光譜數(shù)據(jù)存在的基線漂移。預(yù)處理后藥品樣本和汽油樣本主、從儀器的光譜圖如圖1所示。
由于LAR-SLRDS算法本質(zhì)上是有標(biāo)樣法,因此在實(shí)現(xiàn)模型傳遞的過程中需要選擇合適數(shù)量的標(biāo)樣集,本文采用K-S算法實(shí)現(xiàn)藥品樣本和汽油樣本兩個近紅外光譜數(shù)據(jù)集標(biāo)樣集的選取,其中設(shè)置標(biāo)樣集的上限為25,下限為3。
本次實(shí)驗(yàn)采用偏最小二乘法(PLS)建立定量回歸分析模型,其主成分?jǐn)?shù)由交互驗(yàn)證法確定。采用光譜平均差異(ARMS)、光譜校正率(Prcorrected)及預(yù)測均方根誤差(RMSEP)作為LAR-SLRDS算法的評價指標(biāo)。其中,ARMS的值越大,表明不同儀器間測得的光譜數(shù)據(jù)差異越大;Prcorrected可顯示不同儀器間光譜差異的扣除率,其值越大表明算法的模型傳遞效果越好。RMSEP作為PLS回歸模型的評價準(zhǔn)則,其值越小說明算法的傳遞性能越好。其中,ARMS和Prcorrected計算公式如下:
(6)
(7)
首先將藥品樣本和汽油樣本的成分含量參考值按照升序排列;然后采用隔三選一的方式在汽油樣本數(shù)據(jù)集中挑選預(yù)測集60個,校正集28個;在藥品樣本數(shù)據(jù)集中挑選預(yù)測集460個,校正集155個;最后利用PLS分別在兩臺主儀器上建立定量模型。
圖2 汽油C7成分RMSECV隨變量數(shù)變換情況Fig.2 RMSECV of gasoline C7 component with variable number conversion
由于樣品近紅外光譜數(shù)據(jù)維度較高,特征波長數(shù)量較多,而這些變量中存在很多與PLS回歸模型預(yù)測結(jié)果相關(guān)性較低甚至無關(guān)的變量,如果過多引入這些變量,會降低模型傳遞的效果和PLS模型預(yù)測結(jié)果的準(zhǔn)確性,因此需要對樣品光譜數(shù)據(jù)中的有效變量進(jìn)行篩選,對無關(guān)變量進(jìn)行剔除。以汽油樣本C7成分含量為例,采用LAR算法對其變量進(jìn)行篩選,然后利用PLS建立回歸分析模型。本次實(shí)驗(yàn)采用交叉驗(yàn)證均方根誤差(Root mean square error of cross validation,RMSECV)作為PLS回歸模型的評價指標(biāo),通常RMSECV值越小,PLS回歸模型的效果越好。汽油C7成分的RMSECV隨變量數(shù)變換的情況如圖2所示,從圖中可以看出特征波長數(shù)的選取對PLS模型的預(yù)測會產(chǎn)生影響。隨著樣品波長數(shù)目的增加,汽油樣品C7成分的RMSECV值逐漸變小,當(dāng)樣品波長數(shù)為45時,C7成分的RMSECV取得最小值,表明PLS模型的預(yù)測效果最好。當(dāng)樣品波長數(shù)大于45時,隨著樣本波長數(shù)的增加,C7成分的RMSECV值逐漸處于擺動狀態(tài),但均高于樣品波長數(shù)為45時的RMSECV值,表明當(dāng)波長數(shù)超過一定數(shù)量時反而會降低PLS模型的預(yù)測效果。
為了驗(yàn)證模型傳遞的效果,利用LAR-SLRDS算法對汽油和藥品的近紅外光譜數(shù)據(jù)集進(jìn)行模型傳遞實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖3所示,其中圖3A(左)給出了汽油樣本C7成分選擇標(biāo)樣集時,測試集在主、從儀器上的平均光譜,圖3B(左)給出了藥品樣本重量成分選擇標(biāo)樣集時,測試集在主、從儀器上的平均光譜。從圖中可以看出汽油、藥品兩個數(shù)據(jù)集在主、從儀器上測得光譜數(shù)據(jù)的平均光譜均存在明顯的差異。圖3(右)給出了LAR-SLRDS算法校正后汽油樣本和藥品樣本測試集在主、從儀器上的平均光譜。從圖中可以看出經(jīng)LAR-SLRDS算法校正后,兩個數(shù)據(jù)集在主、從儀器上的平均光譜之間幾乎不存在差異。
LAR-SLRDS算法校正前后兩個數(shù)據(jù)集的光譜平均差異(ARMS)和光譜校正率(Pr)的計算值如表1所示。以藥品中重量性質(zhì)為例進(jìn)行相關(guān)說明,從表1中可以看出,從儀器的標(biāo)樣集大小設(shè)為4,光譜傳遞前主、從儀器上測得的近紅外光譜的光譜差異為0.109 1,經(jīng)LAR-SLRDS算法傳遞后主、從儀器上測得的近紅外光譜的差異僅為0.031 8,校正率達(dá)到91.59%。與圖3B的結(jié)果一致。由此可以得出,LAR-SLRDS算法能夠消除主、從儀器上光譜之間的差異性,很好地實(shí)現(xiàn)模型傳遞。
表1 LAR-SLRDS算法傳遞前后儀器間的光譜差異(ARMS)Table 1 ARMS before and after calibration transfer by LAR-SLRDS
本文將DS、PDS和SLRDS與LAR-SLRDS算法模型傳遞進(jìn)行對比。前3種算法校正過程中標(biāo)樣集大小的選取以及PDS算法窗口的選擇與LAR-SLRDS算法相同,均遵從SEP最小原則,僅缺少波長篩選環(huán)節(jié)。表2給出了DS、PDS、SLRDS和LAR-SLRDS傳遞后測試集主、從儀器上光譜差異的計算值。從表2中可以看出,與DS、PDS、SLRDS傳遞后的光譜差異相比,汽油和藥品兩個數(shù)據(jù)集經(jīng)LAR-SLRDS算法傳遞后主、從儀器上的光譜差異均明顯降低。以藥品數(shù)據(jù)集的重量性質(zhì)為例說明,經(jīng)DS、PDS和SLRDS算法傳遞后,主、從儀器上的光譜差異分別降為0.074 7、0.039 5和0.049 5,然而經(jīng)LAR-SLRDS算法傳遞后,主、從儀器上的光譜差異降為0.031 8,證明LAR-SLRDS模型傳遞的效果最好。
表2 經(jīng)DS、PDS、SLRDS和LAR-SLRDS傳遞后主、從儀器間的光譜差異(ARMS)Table 2 ARMS between master and slave devices after calibration transfer by DS,PDS,SLRDS and LAR-SLRDS
表3給出了DS、PDS、SLRDS和LAR-SLRDS算法模型傳遞以后從儀器測試集預(yù)測標(biāo)準(zhǔn)差(SEP)的變化情況。以汽油數(shù)據(jù)集中C7成分含量為例進(jìn)行相關(guān)分析,從表3中可以看出,未經(jīng)過校正的從儀器上C7成分的SEP為2.783 2,經(jīng)過DS、PDS、SLRDS和LAR-SLRDS算法模型傳遞后,其預(yù)測標(biāo)準(zhǔn)偏差均明顯降低,其中本文提出的LAR-SLRDS算法的模型傳遞效果最好,從儀器上測得的汽油樣本光譜數(shù)據(jù)經(jīng)LAR-SLRDS算法模型傳遞并進(jìn)行PLS回歸后,預(yù)測標(biāo)準(zhǔn)差僅為0.410 6。
表3 DS、PDS、SLRDS和LAR-SLRDS傳遞前后的預(yù)測標(biāo)準(zhǔn)差(SEP)Table 3 SEP before and after calibration transfer by DS,PDS,SLRDS and LAR-SLRDS
近年來,近紅外光譜技術(shù)研究融入人們生活的方方面面,然而模型傳遞問題尚未得到很好地解決。本文提出了一種新的模型傳遞方法——最小角回歸結(jié)合一元線性回歸直接校正法(LAR-SLRDS),利用LAR算法進(jìn)行樣品光譜信息中有效特征波長點(diǎn)的篩選,同時剔除無關(guān)或非線性變量,使得樣品的光譜矩陣維度降低,結(jié)合SLRDS算法所求參數(shù)少、傳遞效果好等優(yōu)勢,提高了近紅外光譜定量分析模型在不同儀器之間的通用性。最后,采用汽油和藥品樣本兩個光譜數(shù)據(jù)集評估LAR-SLRDS算法的性能,并與DS、PDS和SLRDS算法的模型傳遞效果進(jìn)行對比。實(shí)驗(yàn)結(jié)果表明,LAR-SLRDS算法可以消除儀器間的光譜差異,實(shí)現(xiàn)模型傳遞,提高定量分析模型的準(zhǔn)確性以及穩(wěn)定性,較DS、PDS和SLRDS算法具有所求參數(shù)少、模型傳遞效果好等優(yōu)點(diǎn),能夠?qū)崿F(xiàn)藥品和汽油樣本的近紅外光譜模型傳遞。