申永祥 趙秋菊
近紅外光譜(NIR)因測定速度快、效率高、成本低、且無前處理、無污染、無破壞性、多通道多組分同時(shí)測定等優(yōu)點(diǎn),現(xiàn)已廣泛應(yīng)用于工業(yè)生產(chǎn)過程的在線檢測和智能控制系統(tǒng)。越來越多的國家已經(jīng)將近紅外光譜分析技術(shù)作為產(chǎn)品質(zhì)量檢測及在線分析的重要手段。
近紅外光譜信息處理是一個(gè)典型的高維小樣本機(jī)器學(xué)習(xí)問題。在近紅外光譜的高維數(shù)據(jù)中,光譜噪聲的存在對(duì)測量的結(jié)果一般有較大的影響。1986年Stark 提出了近紅外光譜儀的信噪比為105,但由于種種原因,近紅外光譜儀的信噪比很難達(dá)到這一要求。為了消除光譜噪聲、提取有用信息,人們提出了平滑處理、位移校正、多元散射校正、標(biāo)準(zhǔn)正態(tài)變量校正及矢量歸一化、小波濾噪等光譜預(yù)處理方法。由于近紅外光譜數(shù)據(jù)的非線性,許多非線性機(jī)器學(xué)習(xí)算法如PPLS、ANN、SVR 等也被應(yīng)用到近紅外光譜預(yù)處理中。此外,通過對(duì)光譜數(shù)據(jù)進(jìn)行降維,也能提取有用信息,如常用的PCA、PLS 等線性降維方法。為了在降維的過程中同時(shí)提取光譜的非線性信息,非線性降維無疑是一種有效的選擇,Isomap 算法是最近提出的一種有廣泛應(yīng)用前景的非線性降維方法。
類信息能用于降維過程和特征分離。由于Kernel Isomap 算法具有樣本外特性,降維時(shí)不使用類信息。Kernel Isomap 算法在構(gòu)建鄰居圖時(shí)所有的數(shù)據(jù)點(diǎn)被同等對(duì)待。為了利用類信息,在構(gòu)建鄰居圖計(jì)算兩點(diǎn)間的歐氏距離時(shí)賦以權(quán)值,把這種改進(jìn)的Kernel Isomap 算法稱為WKIsomap 算法。假如XL為訓(xùn)練集,XU為測試集,在 ix 與xj兩點(diǎn)間的帶權(quán)值的歐氏距離定義為其中:w( i, j) 是權(quán)函數(shù)
β 是所有兩點(diǎn)之間歐氏距離的平均值的平方。
算法:WKIsomap-PLS 算法
第一步:在訓(xùn)練集中,用 dw代替 de,應(yīng)用NIR 光譜的kernel Isomap-PLS 建模方法及其在血府逐瘀口服液提取過程分析的應(yīng)用研究中的kernel Isomap 算法1 求出其低維嵌入M。
第二步:在測試集中,用 dw代替 de,應(yīng)用NIR 光譜的kernel Isomap-PLS 建模方法及其在血府逐瘀口服液提取過程分析的應(yīng)用研究中的kernel Isomap 算法2 求出其低維嵌入R。
第三步:對(duì)光譜矩陣M 和性質(zhì)矩陣Y 進(jìn)行分解。
(2)式中T 為光譜矩陣M 的得分矩陣;S 為光譜矩陣M 的載荷矩陣的轉(zhuǎn)置;E 為光譜矩陣M 的擬合殘差矩陣。(3)式中U 為性質(zhì)矩陣Y 的得分矩陣;Q 為性質(zhì)矩陣Y 的載荷矩陣的轉(zhuǎn)置;F 為性質(zhì)矩陣Y 的擬合殘差矩陣。
第四步:線性回歸。
式中B 為回歸系數(shù)。
第五步:計(jì)算預(yù)測值。
式中Tscore 為測試集的得分矩陣,可由(2)式得出。
1)數(shù)據(jù)集描述
儀器:北京英賢儀器有限公司的INCE9500MT 近紅外光譜儀,光譜測量方式:透射,光程:2mm,光譜范圍:1000~2200cm,波長間隔:4.8cm。樣本:吉林敖東延邊藥業(yè)股份有限公司的血府逐瘀口服液的在線近紅外光譜共163 個(gè),所得提取液光譜如圖1 所示。
圖1 INCE9500MT 測得樣品集的近紅外光譜圖
使用高效液相色譜儀SH MADZU-LC-2-10A 作為檢測儀器,采用高效液相色譜法(High Performance Liquid Chromatography HPLC)檢測樣本中組分羥基紅花素-A 和甘草酸銨的含量。測得樣品中羥基紅花素-A 的含量范圍為0.015mg/ml 至0.195mg/ml,甘草酸銨的含量范圍為0.066mg/ml 至0.192mg/ml。
2)數(shù)據(jù)處理
對(duì)所得光譜數(shù)據(jù),分別用WKIsomap-PLS、kernel Isomap-PLS、Isomap-PLS 與PLS 建立回歸模型,以留一法交叉驗(yàn)證均方根誤差(RMSECV)最小為最優(yōu)或測試集均方根誤差(RMSEP)最小為最優(yōu)及決定系數(shù)(R2)最大為最優(yōu)來評(píng)價(jià)模型。
1)參數(shù)優(yōu)化及在校正集上建模結(jié)果對(duì)比
在Isomap 算法中有2 個(gè)可進(jìn)行調(diào)整的參數(shù)d 和k,其中d 為樣本本真維數(shù),k 為鄰域參數(shù),d 和k 均為整數(shù),使用網(wǎng)絡(luò)搜索法對(duì)算法進(jìn)行優(yōu)化。在樣本數(shù)據(jù)集中,所有樣本選擇樣本本真維數(shù)d 的范圍為5 到80,領(lǐng)域參數(shù)k 的范圍為5 到70。通過WKIsomap 降維,再用PLS 建立回歸模型,并用RMSECV 或R2 來評(píng)價(jià)模型。當(dāng)d=55,k=48 時(shí),羥基紅花素-A 的 RMSECV 值最小、為0.0376,R2 值最大,為0.9412;當(dāng)d=37,k=35時(shí),甘草酸銨具有最小的RMSECV 值和最大的R2,RMSECV=0.0332,R2=0.9569。建立的校正模型見表1。結(jié)果顯示用WKIsomap-PLS 建立的校正模型其性能優(yōu)于kernel Isomap-PLS、Isomap-PLS 與PLS 建立的校正模型。
2)WKIsomap-PLS 算法和其他算法在測試集上預(yù)測性能的對(duì)比
在163 個(gè)樣本數(shù)據(jù)中,任意選取其中的15 個(gè)樣本作為測試集,余下的148 個(gè)樣本作為校正集。Kernel Isomap-PLS、Isomap-PLS 與PLS 均采用RMSECV 最小為最優(yōu)或R2 最大為最優(yōu)來建立校正模型,并用測試集來評(píng)價(jià)模型,測試集中均方根誤差RMSEP 最小其預(yù)測性能為最優(yōu)或R2 最大其預(yù)測性能為最優(yōu)。結(jié)果見表2。實(shí)驗(yàn)結(jié)果顯示:采用WKIsomap-PLS 建立模型的預(yù)測性能也優(yōu)于kernel Isomap-PLS、Isomap-PLS 與PLS 建立的模型。
表2 WKIsomap-PLS 與kernel Isomap-PLS、Isomap-PLS、PLS 在測試集上預(yù)測性能對(duì)比
表1 WKIsomap-PLS 與kernel Isomap-PLS、Isomap-PLS、PLS 在校正集上建模結(jié)果對(duì)比
對(duì)kernel Isomap 改進(jìn)后,并結(jié)合PLS,提出了WKIsomap-PLS 的建模方法,實(shí)驗(yàn)結(jié)果表明:該方法所建模型優(yōu)于其他PLS 方法建立的模型、其所建模型預(yù)測性能也優(yōu)于其他PLS 方法。利用近紅外光譜的WKIsomap-PLS 建模方法,可以實(shí)現(xiàn)血府逐瘀口服液的在線檢測與智能控制。此方法可以推廣應(yīng)用到其他中藥質(zhì)量的在線檢測與智能控制系統(tǒng)中。