陸偉,宋楠
1 中國煙草總公司山東省公司,煙草質(zhì)量監(jiān)督檢測站,濟(jì)南市高新區(qū)龍奧北路1067號(hào) 250098;2 山東煙草研究院有限公司,濟(jì)南市高新區(qū)龍奧北路1067號(hào) 250098
基于非線性PLS的煙葉中K和Cl近紅外光譜建模研究
陸偉1,宋楠2
1 中國煙草總公司山東省公司,煙草質(zhì)量監(jiān)督檢測站,濟(jì)南市高新區(qū)龍奧北路1067號(hào) 250098;2 山東煙草研究院有限公司,濟(jì)南市高新區(qū)龍奧北路1067號(hào) 250098
針對煙葉中K、Cl兩個(gè)無機(jī)元素含量與近紅外光譜數(shù)據(jù)之間存在復(fù)雜非線性關(guān)系、常規(guī)的線性模型效果差、預(yù)測誤差大等問題,在傳統(tǒng)偏最小二乘法(PLS)的基礎(chǔ)上,將基于核變換的非線性PLS建模方法(NPLS)引入到煙葉無機(jī)元素的建模中,建立了K、Cl等指標(biāo)數(shù)學(xué)模型,并對模型的可行性和有效性進(jìn)行了研究,同時(shí)與PCR、PLS等其它方法線性建模方法建模準(zhǔn)確度和誤差分布進(jìn)行了對比。實(shí)驗(yàn)證明,該方法對煙葉光譜與無機(jī)元素之間的非線性關(guān)系進(jìn)行了處理,模型的準(zhǔn)確率更高,預(yù)測誤差分布更合理。
近紅外光譜;高斯核函數(shù);非線性PLS;校正分析模型
煙葉中總糖、還原糖、總氮、煙堿、鉀、氯等主要化學(xué)成分含量是評價(jià)煙葉質(zhì)量的基礎(chǔ)和重要指標(biāo),其研究對煙草工農(nóng)業(yè)生產(chǎn)具有重要的理論與實(shí)踐意義。目前,煙草行業(yè)中常規(guī)化學(xué)成分的檢測主要以化學(xué)檢測方法為主,存在費(fèi)時(shí)費(fèi)力、成本高、操作流程繁雜、重復(fù)性差等不足[1],難以實(shí)現(xiàn)大批量煙葉的快速檢測和對煙葉質(zhì)量的精確把握。近紅外光譜分析技術(shù)因分析速度快、操作簡單、成本低、非破壞性以及多組分同時(shí)定量分析等優(yōu)點(diǎn),在食品、化工、制藥、農(nóng)業(yè)等許多領(lǐng)域得到了廣泛的應(yīng)用[2-4]。國內(nèi)外許多專家學(xué)者也利用近紅外分析技術(shù)對煙草領(lǐng)域進(jìn)行了大量研究,特別是對煙草中常規(guī)化學(xué)成分檢測方面。McClure等[5]首次公開報(bào)道了利用近紅外方法測定煙草中還原糖;秦志強(qiáng)[6]、鄧發(fā)達(dá)[7]等采用偏最小二乘法(PLS)建立了煙草中總糖、還原糖、綠原酸等成分的校正模型;蔣錦鋒等[8]研究并建立了煙草中17項(xiàng)主要化學(xué)成分的近紅外校正模型,實(shí)現(xiàn)了煙草中常規(guī)化學(xué)成分快速大批量的分析。綜上所述,對于煙草中糖類、生物堿等有機(jī)化合物,其化學(xué)成分含量和光譜數(shù)據(jù)相關(guān)性較高,采用偏最小二乘法(PLS)、主成分回歸(PCR)等線性建模算法可得到較好的預(yù)測效果,可實(shí)現(xiàn)預(yù)測平均相對誤差低于5%[9]。
而對于K、Cl等無機(jī)元素的近紅外方法測定,學(xué)者們研究相對較少。王國慶等[10]研究了煙草中無機(jī)元素鉀的定量模型;宋怡等[11]研究了卷煙紙中鉀和鈉的測定;McClure等[12]對煙草中無機(jī)元素進(jìn)行了測定。但通常所建模型效果較差,這主要是因?yàn)闊o機(jī)元素對近紅外光譜沒有明顯的吸收,只能通過其與有機(jī)基團(tuán)的結(jié)合間接測定其含量,因此無機(jī)元素含量與光譜數(shù)據(jù)之間存在一定的非線性關(guān)系,常規(guī)的線性模型無法解決此問題,導(dǎo)致預(yù)測誤差相對較大[13]。針對此問題,本文在傳統(tǒng)PLS方法的基礎(chǔ)上,將基于核變換的非線性PLS建模方法(NPLS)引入到煙草無機(jī)元素的建模中,建立了K、Cl等指標(biāo)數(shù)學(xué)模型,并與其它建模方法進(jìn)行了對比分析。以期為全面、快速、深入的認(rèn)知煙葉品質(zhì)特性提供了多樣化分析手段。
根據(jù)各產(chǎn)區(qū)生態(tài)條件、種植規(guī)模和種植品種的不同,選取山東、廣西、云南、四川、湖南等產(chǎn)區(qū)的上、中、下部位300個(gè)煙葉樣品,樣品包括B2F、B2L、C3F、C3L、X2F、X2L六個(gè)等級(jí)。將樣品置于烘箱中,40℃條件下干燥4 h,旋風(fēng)磨粉碎過40目篩,然后將樣品密封平衡后進(jìn)行光譜測量。利用常規(guī)化學(xué)分析方法進(jìn)行K、Cl等主要無機(jī)元素含量的測定,作為建模的標(biāo)準(zhǔn)值。
采用FOSS DS2500近紅外分析儀,將每個(gè)樣品進(jìn)行稱重約20 g,放入5 cm樣品杯中,采用200 g壓樣器輕壓樣品,溫度保持在(20±2)℃,濕度<60%,采用漫反射方式進(jìn)行光譜采集。光譜掃描范圍為400~2500 nm,掃描次數(shù)64次,分辨率為0.5 nm。為消除樣品不均勻性的影響,對每個(gè)樣品重復(fù)裝樣掃描3次,計(jì)算其平均光譜作為該樣品光譜。
基于核函數(shù)變換的非線性PLS建模方法實(shí)質(zhì)是一種擬線性建模方法,它將線性方法延伸到非線性建模中,即對原變量作變換,變換函數(shù)有樣條函數(shù)、多項(xiàng)式函數(shù)、核函數(shù)等[14]變換后可將原變量間的非線性關(guān)系轉(zhuǎn)化為擬線性關(guān)系,然后就可以利用線性關(guān)系進(jìn)行求解。本研究采用高斯核函數(shù)作為變換函數(shù),對光譜數(shù)據(jù)的每一維xj(j=1,2,...,n)進(jìn)行變換xj→zj,具體建模過程如下:
(1)設(shè)預(yù)處理后的樣品光譜矩陣X與濃度向量Y的函數(shù)關(guān)系式為:
其中n為波長變量,ε為隨機(jī)誤差。
(2)對每一維fj(xj)采用高斯核函數(shù)進(jìn)行變換如下:
式中i為樣本數(shù),Sj,l,SY分別為Zj,l,Y的標(biāo)準(zhǔn)差,分別為Zj,l,Y的均值。
(4)綜合式(1)(2)(3)可得到光譜數(shù)據(jù)與待測變量的濃度關(guān)系如下:
由于采集的煙葉近紅外光譜數(shù)據(jù)不但包含樣品光譜信息,還包含儀器、背景噪聲等干擾信息,近紅外光譜分析需要從復(fù)雜的光譜中提取有效信息。如圖1所示,采集的煙葉樣品近紅外原始光譜圖存在基線漂移現(xiàn)象。為消除干擾信息,提高信噪比和模型的性能,建模前需要對光譜數(shù)據(jù)進(jìn)行預(yù)處理。
圖1 煙葉近紅外原始光譜圖Fig.1 Original near infrared spectrum
經(jīng)過比較,本文選取二階導(dǎo)數(shù)+Norris 7點(diǎn)平滑作為預(yù)處理方法。從圖2可以看出,經(jīng)過預(yù)處理后可有效消除光譜的基線漂移現(xiàn)象。
從上述制備的樣品中按產(chǎn)地、部位、等級(jí)、含量等選取220個(gè)代表性樣品作為建模樣品集,剩余80個(gè)樣品作為測試樣品集。本研究選取1120~2400 nm作為建模波長。表1為采用PLS、PCR線性建模方法和基于高斯核函數(shù)變換的非線性PLS法建立的鉀、氯等無機(jī)元素的定量分析模型的性能對比。
表1 不同建模方法性能對比Tab.1 Comparison of different modeling methods
可以看出,基于核函數(shù)變換的非線性PLS所建模型總體效果和預(yù)測性能明顯好于PLS和PCR等法所建模型,而PLS、PCR所建模型性能比較相近,PLS稍好于PCR。雖然PLS是目前應(yīng)用效果最好、最廣泛的建模方法,它綜合了多元線性回歸、典型相關(guān)分析和主成分分析三種方法,與PCR相比,能夠消除自變量多重共線性的同時(shí)與因變量最大相關(guān),但它只是一種線性的建模方法,對測定煙葉中總糖、總氮等與光譜相關(guān)性較高的有機(jī)物效果較好,但上述實(shí)驗(yàn)可以看出該方法并不適合煙葉中鉀、氯等無機(jī)元素的測定。這主要是因?yàn)闊o機(jī)元素對近紅外光譜無直接吸收,煙草中的無機(jī)離子是以一定的形式與有機(jī)基團(tuán)結(jié)合,只能間接測定其含量,導(dǎo)致煙葉光譜與無機(jī)元素之間存在較為復(fù)雜的非線性關(guān)系,普通的線性建模方法無法得到好的預(yù)測結(jié)果,因此預(yù)測誤差較大(鉀超過8%,氯超過13%)。
而基于核函數(shù)變換的非線性PLS將非線性建模思想引入到PLS建模中,該方法不但能消除建模自變量各波長點(diǎn)存在的共線性問題,而且能解決鉀、氯等無機(jī)元素與光譜之間的非線性關(guān)系,預(yù)測誤差明顯降低(鉀為5.6 %,氯為8.9%)。
圖3、4分別為基于高斯核函數(shù)變換的非線性PLS模型對80個(gè)測試樣本的鉀、氯指標(biāo)預(yù)測值與化學(xué)實(shí)測值的相關(guān)圖。可見兩指標(biāo)預(yù)測值與實(shí)測值之間呈顯著的線性相關(guān),樣品較集中地分布在中心線附件,說明所建模型預(yù)測性能較好。
圖3 鉀含量預(yù)測值與實(shí)測值Fig.3 Predicted and actual value of potassium
圖4 氯含量預(yù)測值與實(shí)測值Fig.4 Predicted and actual value of chlorine
表2為選取同一樣品重復(fù)裝樣掃描6次預(yù)測結(jié)果對比。可以看出,所建的鉀、氯模型具有較好的測量精度和重復(fù)性。
表2 重復(fù)性預(yù)測結(jié)果Tab.2 Prediction results of repeatability
近紅外建模分析中,模型預(yù)測誤差結(jié)構(gòu)合理與否是驗(yàn)證模型性能的一個(gè)重要指標(biāo),不同模型的預(yù)測誤差結(jié)構(gòu)差異會(huì)導(dǎo)致模型的性能差異較大。本文選取K為研究指標(biāo),對80個(gè)測試樣本的誤差結(jié)構(gòu)進(jìn)行了分析,圖5、6分別為PLS和基于核函數(shù)變換的非線性PLS模型的鉀的預(yù)測誤差結(jié)構(gòu)分布圖。
圖5 PLS模型預(yù)測誤差結(jié)構(gòu)分布圖Fig.5 Prediction errors distribution of PLS
圖6 非線性PLS模型預(yù)測誤差結(jié)構(gòu)分布圖Fig.6 Prediction errors distribution of nonlinear PLS
可以看出,PLS方法所建模型的誤差分布較廣,在0.4%~13.8%之間,誤差分布范圍較廣,而非線性PLS所建模型的誤差分布范圍相對較小,范圍在0.3%~7.8%之間,均勻分布在3.5%左右,誤差分布范圍比較合理,同時(shí)相對PLS模型誤差分布范圍明顯變窄,進(jìn)一步說明該方法的預(yù)測結(jié)果優(yōu)于PLS。
本研究針對煙葉中K、Cl等無機(jī)元素與近紅外光譜數(shù)據(jù)之間存在復(fù)雜的非線性關(guān)系,在傳統(tǒng)PLS方法的基礎(chǔ)上,將基于核變換的非線性PLS建模方法引入到煙草無機(jī)元素的建模中,通過核函數(shù)將非線性關(guān)系轉(zhuǎn)化為線性關(guān)系進(jìn)行求解,所建模型與其它方法相比準(zhǔn)確率更高,預(yù)測誤差分布更合理。本方法可進(jìn)一步推廣到煙葉中其它無機(jī)元素的快速測定,這將對煙草主管部門及時(shí)了解煙葉品質(zhì)的變化、提升煙葉質(zhì)量、改進(jìn)生產(chǎn)技術(shù)等方面提供重要技術(shù)支撐。同時(shí)本研究對建立近紅外校正分析模型也具有普遍的參考意義。
[1] Blanco M, Villarroya I. NIR spectroscopy: a rapid-response analytical tool[J]. Trends in Analytical Chemistry, 2002,21(4):240-250.
[2] 張位春.近紅外光譜分析技術(shù)在農(nóng)產(chǎn)品品質(zhì)檢測中的應(yīng)用[J].光電學(xué)院學(xué)報(bào), 2010,1(1):1-4.Zhang Weichun. Development of the application of qualitative analysis by near infrared spectroscopy in agricultural product quality inspection. Journal of Optoelectronic College, 2010,1(1):1-4. (in Chinese)
[3] 褚小立,袁洪福.近紅外光譜分析技術(shù)發(fā)展和應(yīng)用現(xiàn)狀[J].現(xiàn)代儀器, 2011,17(5):1-4.Chung Xiaoli, Yuan Hongfu. The research and application status of near infrared spectroscopy analytical technology[J].Modern Instruments, 2011,17(5):1-4. (in Chinese)
[4] 黃富榮,潘濤,張甘霖等. 應(yīng)用近紅外漫反射光譜快速測定土壤鋅含量[J]. 光學(xué)精密工程,2010,18(3):586-592.Huang Furong, Pan Tao, Zhang Ganlin, et al. Rapid measurement of zinc contents by near infrared diffuse reflectance spectroscopy[J].Optics and Precision Engineering, 2010,18(3):586-592. (in Chinese)
[5] McClure W F, Norris K H, Weeks W W. Rapid spectrophotometric analysis of the chemical composition of tobacco, part1: total reducing sugars[J]. Beitr Tabalforsch,1977, (9):13-18.
[6] 秦志強(qiáng),蔡紹松,謝豪等.聲光可調(diào)-NIR法預(yù)測煙草中的總煙堿、總糖、還原糖核總氮[J].煙草科技,2007,(2):30-34.Qin Zhiqiang, Cai Shaosong, Xie hao, et al. Prediction of total nicotine, total sugar, reducing sugar and total nitrogen in tobacco with AOTF-NIR. Tobacco Science and Technology, 2007,(2):30-34. (in Chinese)
[7] 鄧發(fā)達(dá),朱立軍,戴亞等.近紅外技術(shù)測定成品卷煙中總糖和還原糖及綠原酸的含量[J].安徽農(nóng)業(yè)科學(xué),2010,38(12):6181-6182,6188.Deng Fada, Zhu Lijun, Dai Ya, et al. Determination on contents of total sugar, reducing sugar and chlorogenic acid in cigarette by near infrared technique. Journal of Anhui Agricultural Science, 2010,38(12):6181-6182,6188. (in Chinese)
[8] 蔣錦鋒,李莉,趙明月.應(yīng)用近紅外檢測技術(shù)快速測定煙葉主要化學(xué)成分[J].中國煙草學(xué)報(bào), 2006,12(2):8-12.Jiang Jinfeng, Li Li, Zhao Mingyue. Rapid determination of main chemical components in tobacco leaf by NIR diffuse reflectance spectroscopy. Acta Tabacaria Sinica,2006,12(2):8-12. (in Chinese)
[9] 邱軍,張懷寶,宋巖等.近紅外光譜分析技術(shù)在煙草行業(yè)的應(yīng)用[J].中國煙草科學(xué), 2008,29(1):55-58.Qiu Jun, Zhang Huaibao, Song Yan. Application of near infrared spectroscopic analytical techniques in tobacco industry. Chinese Tobacco Science, 2008,29(1):55-58. (in Chinese)
[10] 王國慶,王芳,陳達(dá).近紅外光譜技術(shù)用于復(fù)雜植物樣品中無機(jī)離子測定的新方法[J].光譜學(xué)與光譜分析,2004,24(12):1540-1542.Wang Guoqing, Wang Fang, Chen Da. A novel method for the determination of inorganic ions in complex plant samples by near infrared spectroscopy. Spectroscopy and Spectral Analysis, 2004,24(12):1540-1542. (in Chinese)
[11] 宋怡,劉巍,丁中濤.近紅外光譜法同時(shí)測定卷煙紙中的鉀和鈉[J].分析測試技術(shù)與儀器, 2009,15(2):95-100.Song Yi, Liu Wei, Ding Zhongtao. Simultaneous determination of potassium and sodium in cigarette paper by near infrared spectroscopy. Analysis and Testin,Technology and Instruments, 2009,15(2):95-100. (in Chinese)
[12] McClure W F, Williamson R E. Status of near infrared technology in the tobacco industry[J]. Recent Advances in Tobacco Science, 1986, (12):3-53.
[13] 王麗芝,潘存寬,張峻松等.利用近紅外快速測定煙草化學(xué)成分的研究[J].安徽農(nóng)學(xué)通報(bào), 2009,15(14):48-49,219.Wang Lizhi, Pan Cunkuan, Zhang Junsong. Research on rapid detection of chemical components in tobacco using near infrared spectroscopy[J].Anhui agricultural Science Bulletin, 2009,15(14):48-49, 219. (in Chinese)
[14] 劉玉幫,楊川.基于核函數(shù)的非線性PLSR模型在葉水勢預(yù)測中的應(yīng)用[J].水資源與水工程學(xué)報(bào),2010,21(4):84-88.Liu Yubang, Yang Chuan. Application of non-linear PLSR model to the prediction of leaf water potential based on kernel function transformation[J]. Journal of Water Resource and Water Engineering, 2010,21(4):84-88. (in Chinese)
Establishment of near infrared calibration model of K and Cl in tobacco leaves based on nonlinear PLS
LU Wei1, SONG Nan2
1 Quality Supervision& Test Center, Shandong Provincial Tobacco Company, Jinan 250098, China;2 Shandong Tobacco Research Institute Co., Ltd, Jinan 250098, China
Due to complicated nonlinear relationship between near infrared spectra of tobacco and contents of inorganic elements such as potassium and chloride, which resulted in poor modeling effects and high prediction errors of conventional linear model, this paper introduced nonlinear partial least squares (NPLS) method based on kernel function transformation into calibration. Mathematical models of potassium and chloride were built and their feasibility and effectiveness were studied. The accuracy and distribution of errors were also compared with other linear calibration methods such as PCR and PLS. Results showed that NPLS processed nonlinear relationship between spectra and inorganic elements of tobacco. The model achieved higher prediction accuracy and more reasonable error distribution. It provided an alternative analytical method and technique for cognizing quality of tobacco in a comprehensive, fast and in-depth manner.
near infrared spectra; Gaussian kernel function; nonlinear PLS; calibration analysis model
陸偉,宋楠. 基于非線性PLS的煙葉中K和Cl近紅外光譜建模研究[J]. 中國煙草學(xué)報(bào),2016,22(3)
中國煙草總公司山東省公司科技重大專項(xiàng)和重點(diǎn)資助項(xiàng)目(合同編號(hào):KN223)
陸偉(1981—),研究生,工程師,主要從事煙草產(chǎn)品質(zhì)量分析檢測,Tel:0531-81218121,Email:luwei@sd-tobacco.com.cn
宋楠(1982—),Tel:0531-81218169,Email:songnan@sd-tobacco.com.cn
2015-11-10
:LU Wei, SONG Nan. Establishment of near infrared calibration model of K and Cl in tobacco leaves based on nonlinear PLS[J].Acta Tabacaria Sinica, 2016,22(3)