王 超,李朋成,楊 凱,張?zhí)鹛?,劉藝琳,李軍?
1. 上海煙草集團(tuán)有限責(zé)任公司,上海 200082 2. 中國農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院,北京 100083
近紅外光譜技術(shù)具備綠色高效的分析特點(diǎn)[1-3],通過掃描樣品的近紅外光譜,可得到樣品中有機(jī)分子含氫基團(tuán)的特征信息[2]; 隨著該技術(shù)的日趨成熟[3],其已經(jīng)在各個領(lǐng)域發(fā)揮著舉足輕重的作用[4]。
近年來,近紅外光譜技術(shù)在煙草產(chǎn)業(yè)的應(yīng)用有著突破性的進(jìn)展[5-10]。許多研究成果實(shí)現(xiàn)了應(yīng)用近紅外光譜技術(shù)對煙草特定化學(xué)成分的定量分析[11-12],以及研究了煙草內(nèi)關(guān)鍵化學(xué)指標(biāo)含量對煙草質(zhì)量等級的影響[13],揭示了煙草關(guān)鍵化學(xué)指標(biāo)含量與煙草質(zhì)量等級間存在著密切關(guān)系。
為了更好的指導(dǎo)煙草企業(yè)進(jìn)行原料采購和配方使用,需根據(jù)我國煙葉資源的現(xiàn)狀制定合適的烤煙工業(yè)分級體系。國內(nèi)煙葉質(zhì)量等級的評價目前仍延用傳統(tǒng)的方法,即以煙葉的感官質(zhì)量或外觀質(zhì)量(煙葉的部位、顏色、成熟度、油分、色度)為主,加以物理特性或化學(xué)成分為輔進(jìn)行分析。在一定程度上對煙葉外觀質(zhì)量的評價主觀依賴性較強(qiáng),導(dǎo)致評價偏差較大,較為耗時耗力,增加了生產(chǎn)成本,不利于可持續(xù)的穩(wěn)定生產(chǎn)。應(yīng)用近紅外光譜技術(shù)實(shí)現(xiàn)對煙葉質(zhì)量等級的快速檢測,可避免傳統(tǒng)方法的不足,高效率的實(shí)現(xiàn)煙草的工業(yè)分級,對烤煙質(zhì)量等級劃分可提供更加實(shí)用的客觀指導(dǎo)依據(jù)。
收集了來自全國14個省份40個地市級產(chǎn)地不同質(zhì)量等級的煙葉樣品,進(jìn)行近紅外光譜與質(zhì)量等級分析研究,實(shí)現(xiàn)對上部低等、下部低等、中部低等、上部上等、下部上等、中部中等、中部上等,等主要煙葉質(zhì)量等級的快速檢測。這對完善煙葉工業(yè)分級評價體系,指導(dǎo)企業(yè)進(jìn)行原料采購和配方使用具有實(shí)際意義。
2018年度的768份煙草樣品來自全國五大主要產(chǎn)區(qū),產(chǎn)地覆蓋14個省份40個地市級,樣品產(chǎn)地來源分布見表1。
實(shí)驗(yàn)用近紅外儀器為美國賽默飛儀器公司的Antaris型傅里葉變換近紅外光譜儀,并配備中國農(nóng)業(yè)大學(xué)近紅外建模軟件(CAUNIR7.2)使用。
光譜掃描條件: 波長掃描,波長范圍為12 000~4 000 cm-1,分辨率8 cm-1,掃描次數(shù)為64次,每隔30 min掃描一次背景。
表1 煙草樣品產(chǎn)地分布Table 1 Distribution of tobacco samples
1.3.1 方法概述
應(yīng)用偏最小二乘定性判別方法(partial least squares-discriminant analysis,PLS-DA或DPLS)[14-15]建立基于近紅外光譜的定性判別模型,在應(yīng)用PLS-DA建立分類模型的編碼中可采用多維二進(jìn)制(0,1)方式進(jìn)行類別量化[14],即使用多個二進(jìn)制定量模型實(shí)現(xiàn)定性判別,該方式對類別間相似性關(guān)系不確定的類別量化編碼較為合理有效。樣品根據(jù)外觀標(biāo)準(zhǔn)劃分為7個質(zhì)量等級,并經(jīng)感官評價依次得出了7個等級的質(zhì)量梯度,等級間的相似性關(guān)系較為確定,因此在類別量化編碼中采用連續(xù)數(shù)字編碼方式,即使用一個定量模型實(shí)現(xiàn)定性判別,7個質(zhì)量等級的對應(yīng)編碼見表2。
表2 煙葉質(zhì)量等級編碼Table 2 Grade coding of tobacco leaves
采用多次隨機(jī)劃分方式確定建模集和檢驗(yàn)集,得到的建模和預(yù)測結(jié)果基本一致,文中使用其中一次的結(jié)果。建模過程中采用內(nèi)部交叉驗(yàn)證方法確定PLS主因子數(shù)[15-16]。
1.3.2 光譜預(yù)處理方法
導(dǎo)數(shù)和平滑方法結(jié)合既可以消除基線漂移或平緩背景干擾的影響,也可以有效降低隨機(jī)噪聲[2-3]。采用一階導(dǎo)數(shù)加15點(diǎn)平滑對原光譜進(jìn)行預(yù)處理。
1.3.3 模型評價方法
評價模型的指標(biāo)性參數(shù)為交叉驗(yàn)證集與預(yù)測集的相關(guān)系數(shù)(r)、內(nèi)部交叉驗(yàn)證預(yù)測標(biāo)準(zhǔn)差(standard error of cross-validation/prediction,SECV)、預(yù)測集標(biāo)準(zhǔn)偏差(standard error of prediction,SEP)[2-3]。
應(yīng)用全部樣品建立全國煙葉質(zhì)量等級模型的建模和預(yù)測結(jié)果如表3所示。
表3 所有樣品建模結(jié)果Table 3 Modeling results of samples from all regions
表3中模型的內(nèi)部交叉驗(yàn)證和預(yù)測驗(yàn)證結(jié)果表明: 建模集與預(yù)測集的預(yù)測標(biāo)準(zhǔn)差不大于1.35,預(yù)測偏差基本在相鄰等級之間,滿足實(shí)際應(yīng)用要求,應(yīng)用近紅外光譜可基本實(shí)現(xiàn)煙葉質(zhì)量等級的快速預(yù)測。同時,實(shí)驗(yàn)樣品來自全國40個地級市產(chǎn)地,相同質(zhì)量等級不同產(chǎn)地?zé)熑~間會存在較大差異,因此通過縮小產(chǎn)地范圍有望進(jìn)一步提高模型預(yù)測結(jié)果。
煙葉質(zhì)量受地域等生長環(huán)境的影響較大,相同質(zhì)量等級不同產(chǎn)地?zé)熑~間會存在較大差異,將全部樣品按表1中的5大生態(tài)產(chǎn)區(qū)分類后進(jìn)行建模的結(jié)果情況見表4。
表4 不同產(chǎn)區(qū)建模結(jié)果Table 4 Modeling results of different regions
由表4中結(jié)果可以看出分產(chǎn)區(qū)后,各個產(chǎn)區(qū)所建模型的預(yù)測標(biāo)準(zhǔn)差均有所降低,其中東南、西南、黃淮煙區(qū)模型預(yù)測偏差降幅較大,驗(yàn)證集的預(yù)測標(biāo)準(zhǔn)差不大于1.07,較全國模型預(yù)測標(biāo)準(zhǔn)差降低幅度可達(dá)25%左右,因此通過建立不同產(chǎn)區(qū)預(yù)測模型可進(jìn)一步提高預(yù)測準(zhǔn)確度,預(yù)測偏差可進(jìn)一步縮小在相鄰等級之間,滿足實(shí)際應(yīng)用要求。
近紅外光在不同頻率范圍內(nèi)吸收的有機(jī)基團(tuán)及相關(guān)物質(zhì)信息見表5[2]。由于樣品光譜的采集時間較為分散,將不同等級煙葉樣品光譜進(jìn)行標(biāo)準(zhǔn)正態(tài)變量變換(standard normal variable transformation,SNV)預(yù)處理,不同等級煙葉預(yù)處理后的平均光譜見圖1,在4 200~5 200 cm-1波數(shù)范圍內(nèi)放大的平均光譜見圖2。
表5 近紅外光在不同頻率范圍吸收的有機(jī)基團(tuán)及相關(guān)物質(zhì)成分信息Table 5 Organic groups and related substance composition information absorbed in different frequency ranges
圖1 SNV預(yù)處理后的平均光譜Fig.1 SNV-preprocessed spectra
由表5,圖1及圖2可知,不同質(zhì)量等級的煙葉光譜在不同波數(shù)范圍內(nèi)時,存在不同特征。在4 200~4 400 cm-1波數(shù)范圍內(nèi),是以纖維素等為主的碳?xì)浠鶊F(tuán)等的吸收,質(zhì)量等級較低的1~4等級煙葉的吸光度較高,質(zhì)量等級較高的5~7等級的吸光度較低。在4 700~4 800 cm-1波數(shù)范圍內(nèi),是以淀粉糖類等為主的氧氫基團(tuán)等的吸收,質(zhì)量等級最差的1等級煙葉吸光度最低,2和3等級煙葉也具有較低吸光度,4~7等級煙葉具有較高吸光度。在5 100~5 200 cm-1波數(shù)范圍內(nèi),是以蛋白質(zhì)類等為主的氮?dú)浠鶊F(tuán)等的吸收,質(zhì)量等級較低的1等級煙葉吸光度明顯偏高。
依據(jù)近紅外光在不同頻率范圍吸收的有機(jī)基團(tuán)及相關(guān)物質(zhì)成分信息,以及不同等級煙葉在不同波段的吸收特征可以推測得出: 質(zhì)量等級較好的煙葉,具有纖維素含量較低,淀粉等糖類物質(zhì)含量較高的特點(diǎn); 質(zhì)量等級較差的煙葉,具有纖維素含量較高,淀粉等糖類物質(zhì)含量較低的特點(diǎn),其中質(zhì)量等級最差(上部低等)煙葉,同時具有蛋白質(zhì)類物質(zhì)含量較高的特點(diǎn)。不同等級煙葉在以纖維素、淀粉和糖類、蛋白質(zhì)類等物質(zhì)為主產(chǎn)生的基團(tuán)吸收特征不同,是應(yīng)用近紅外光譜實(shí)現(xiàn)煙葉質(zhì)量等級快速檢測的信息基礎(chǔ)。
基于不同產(chǎn)地?zé)熑~樣品,分別建立了全國和分產(chǎn)區(qū)的煙葉質(zhì)量等級預(yù)測模型。全國及五大產(chǎn)區(qū)的模型預(yù)測結(jié)果表明,應(yīng)用近紅外光譜可實(shí)現(xiàn)煙葉質(zhì)量等級的快速預(yù)測,通過建立不同產(chǎn)區(qū)預(yù)測模型可進(jìn)一步提高預(yù)測準(zhǔn)確度,檢驗(yàn)集與預(yù)測標(biāo)準(zhǔn)差均不大于1.07,預(yù)測偏差基本在相鄰等級之間,滿足實(shí)際應(yīng)用要求。
依據(jù)近紅外光在不同頻率范圍吸收的有機(jī)基團(tuán)及相關(guān)物質(zhì)成分信息,以及不同等級煙葉在不同波段的吸收特征可以推測了解不同質(zhì)量等級煙葉的纖維素、淀粉和糖類、蛋白質(zhì)類等物質(zhì)成分的含量有差異,同時,這些差異也是應(yīng)用近紅外光譜實(shí)現(xiàn)煙葉質(zhì)量等級快速檢測的物質(zhì)和光譜信息基礎(chǔ)。
本研究結(jié)果對優(yōu)化煙葉工業(yè)等級方案,以及產(chǎn)品質(zhì)量和維護(hù)等方面可提供更加科學(xué)的方法指導(dǎo)和技術(shù)支撐,對建立其他農(nóng)產(chǎn)品質(zhì)量等級的快速檢測模型和質(zhì)量等級的特征分析具有參考價值。