郝 勇,杜嬌君,張書敏,王起明
1.華東交通大學(xué)機電與車輛工程學(xué)院,江西 南昌 330013 2.南昌海關(guān)技術(shù)中心,江西 南昌 330013
冬棗又名凍棗、雁來紅或蘋果棗,是目前公認的鮮食優(yōu)質(zhì)栽培品種。冬棗營養(yǎng)極其豐富,含有天門冬氨酸、蘇氨酸、絲氨酸等19種人體必需的氨基酸,且維生素C的含量尤其豐富,有“活維生素丸”之美譽,營養(yǎng)價值為百果之冠[1]。冬棗的可溶性固形物(soluble solids content,SSC)是其重要的內(nèi)部品質(zhì)和成熟度評價指標(biāo)。冬棗生長環(huán)境的溫度、水分、光照、風(fēng)和土壤等因素均會對其采后轉(zhuǎn)紅指數(shù)產(chǎn)生影響,造成冬棗顏色和SSC差異,而消費者常會將顏色與其SSC進行關(guān)聯(lián)來判斷冬棗的口感。因此,對于不同顏色冬棗SSC含量的研究是非常必要的。
SSC含量的測定方法主要分為折射法和光譜分析法,折射法的主要缺點是需破壞被測樣品;而可見-近紅外(visible and near-infrared spectroscopy,Vis-NIR)光譜技術(shù)是一種快速、無損、綠色的現(xiàn)代檢測技術(shù),根據(jù)全波段或者特征波長給出的信息與樣品屬性或含量間的相關(guān)關(guān)系對樣品進行定性和定量分析。然而,由于Vis-NIR光譜常含有較多冗余信息及干擾,影響了模型的精度和穩(wěn)定性,因此,需要進行光譜預(yù)處理及變量篩選,實現(xiàn)對干擾信息的抑制或濾除,從而提高后續(xù)模型的分析精度。李勇等討論了油菜籽樣品顏色對波長為700~2 500 nm譜區(qū)的近紅外光譜分析準(zhǔn)確度的影響,認為樣品表面顏色越深, 吸光度越大, 在短波處最為明顯[2];姚鑫淼等研究了玉米子粒顏色對850~1 050 nm的光譜波段的淀粉含量的影響,結(jié)果表明樣品的外觀顏色是影響其分析精度的因素之一,采用平滑求導(dǎo)等光譜預(yù)處理方法可提高模型的預(yù)測性能[3]。郭成等采用無信息變量消除(UVE)方法對無花果SSC的PLS模型建模變量進行優(yōu)選,其預(yù)測相關(guān)系數(shù)可達到0.89[4]。Tian等采用光譜預(yù)處理和隨機森林變量選擇方法對蘋果SSC在線預(yù)測模型進行優(yōu)化,變量減少為原始變量的86%,而RMSEP減小了17%[5]。
本工作采用Vis-NIR光譜結(jié)合Norris-Williams平滑(Norris-Williams smoothing,NWS)、連續(xù)小波導(dǎo)數(shù)(continuous wavelet derivative,CWD)、多元散射校正(multiplicative scattering correction,MSC)、標(biāo)準(zhǔn)正態(tài)變量變換(standard normal variate,SNV)和NWS-MSC五種預(yù)處理方法[6-8]和蒙特卡羅無信息變量消除(Monte Carlo uninformative variable elimination,MCUVE)方法[8]對不同顏色(紅綠相間MJ,綠色GJ和紅色RJ)冬棗樣品的SSC進行偏最小二乘(partial least squares,PLS)定量分析模型的構(gòu)建和優(yōu)化,以期實現(xiàn)不同顏色冬棗SSC的準(zhǔn)確分析[9]。
樣品(大荔冬棗)來源于陜西某棗園,冬棗樣品如圖1所示。采集了同一批次、取大小均等且表皮顏色不同的三種冬棗(紅綠相間MJ,綠色GJ和紅色RJ)各45個樣品,共計135個。采用冷庫保鮮處理,用蓄冷箱送至實驗室。
光譜采集裝置如圖2所示,采用透射方式進行光譜的采集,Ocean Optics USB2000 Vis-NIR光譜儀(中國海洋光學(xué)公司)用于冬棗光譜的檢測,2盞100 W的飛利浦鹵素?zé)糇鳛楣庠?,光譜范圍為340~1 027 nm,光譜分辨率約為0.4 nm。
圖2 光譜采集裝置示意圖
光譜采集前,將三種顏色的冬棗樣品從冷藏室取出并置于室溫下8 h,相對濕度為25%~30%;采集距離為10 cm,隨機翻轉(zhuǎn)冬棗位置5次進行光譜的采集,5次測量的平均光譜作為最終的分析光譜。采用SpectraSuite軟件進行光譜數(shù)據(jù)的采集和存儲。
三種顏色冬棗樣品原始光譜的平均光譜如圖3所示,從圖中可知,不同顏色的冬棗樣品光譜譜形相似,主要不同之處在于光譜響應(yīng)強度間的差異。此外,光譜圖不僅包含其組分信息,還包括光譜儀相關(guān)器件引入的噪聲、雜散光和樣品背景、顏色等干擾信息引起的光譜反射率的變化,因此,需要對光譜進行預(yù)處理,以提高后續(xù)模型的分析精度。
圖3 冬棗樣品平均光譜圖
每個冬棗樣品均勻地選擇5個點進行SSC的測試,其平均值作為該樣品的最終SSC的標(biāo)準(zhǔn)參考值。采用SSC均勻分布的方式將樣品集劃分為校正集和測試集,每種顏色冬棗樣品校正集和測試集樣品數(shù)量比為2∶1,即每種顏色的45個冬棗樣品中,30個樣品用于建模,15個樣品用于模型的測試。
為研究不同顏色冬棗SSC構(gòu)建的PLS模型的分析精度,分別建立不同顏色冬棗SSC的單一模型和混合模型。單一模型即單種顏色冬棗SSC建模,混合模型即兩種或三種顏色冬棗SSC混合建模。為了描述方便,單一模型校正集MJc,GJc和RJc分別表示建模樣品集是為紅綠相間冬棗、綠色冬棗和紅色冬棗;混合模型校正集MJc-GJc和MJc-GJc-RJc分別表示建模樣品是由紅綠相間冬棗-綠色冬棗和三種顏色的冬棗組成;MJv,GJv,RJv和MJv-GJv-RJv分別表示測試樣品集是由紅綠相間冬棗、綠色冬棗、紅色冬棗和三種顏色冬棗組成;冬棗樣品SSC的統(tǒng)計信息如表1所示。
表1 冬棗樣品及其SSC含量統(tǒng)計信息
采用模型的校正相關(guān)系數(shù)(correlation coefficient of calibration set,Rc)和交叉驗證均方根誤差(root mean square error of cross-validation,RMSECV)作為評價指標(biāo)對光譜的預(yù)處理方法和變量進行優(yōu)選,采用測試集的預(yù)測相關(guān)系數(shù)(correlation coefficient of prediction set,Rp)和預(yù)測均方根誤差(root mean square error of prediction,RMSEP)作為模型預(yù)測精度的評價指標(biāo)。其中Rc越大,RMSECV越小,模型的精度越高;Rp越大,RMSEP越小,模型的預(yù)測能力越好。Matlab R2018a用于光譜數(shù)據(jù)的預(yù)處理、變量優(yōu)選以及PLS模型的建立。
樣品光譜采集時易受光譜儀噪聲和雜散光等因素的干擾,引起光譜反射率的變化。因此,需要對樣品光譜進行預(yù)處理,抑制或濾除干擾信息以提高模型的分析精度。為了研究不同預(yù)處理方法對冬棗SSC模型精度的影響,分別采用NWS,CWD,MSC,SNV和NWS-MSC五種預(yù)處理方法對光譜進行信息變換和提取,并計算其Rc和RMSECV對模型精度進行評價,PLS模型的校正結(jié)果如表2所示。由表可知,校正集為MJc,GJc,RJc,MJc-GJc,MJc-GJc-RJc建立的五種PLS模型分別選用NWS,CWD,NWS,NWS-MSC和SNV方法進行預(yù)處理時,模型的精度均有明顯提升。
表2 不同預(yù)處理方法的冬棗可溶性固形物PLS模型的校正結(jié)果
光譜的吸收主要反映了有機物中C—H,O—H和N—H等含氫基團信息,而SSC主要是指可溶性糖類,包含重要的—OH基團信息。在冬棗樣品Vis-NIR光譜中,波長725 nm處具有明顯的由于O—H鍵伸縮振動產(chǎn)生的吸收峰。圖4(a)為采集的三種顏色共135個冬棗樣品的原始可見-近紅外光譜圖,圖4(b)為采用優(yōu)選的SNV方法進行預(yù)處理后的光譜圖。由圖可知,預(yù)處理后在一定程度上消除了原始光譜中的背景噪聲及其他影響。
圖4 冬棗樣品的可見-近紅外光譜圖與SNV預(yù)處理后的光譜圖
2.2.1 單一顏色冬棗SSC模型分析
由于三種顏色的冬棗樣品光譜譜形相似,可用不同顏色冬棗樣品的預(yù)測集對冬棗SSC模型進行評價。分別對MJc,GJc和RJc樣品集進行建模,采用MJv,GJv和RJv三個測試集樣品對模型的預(yù)測能力進行評價。單一顏色冬棗樣品SSC的PLS模型的預(yù)測結(jié)果如表3所示。
由表3可知,對于單一顏色冬棗的PLS模型,當(dāng)預(yù)測集樣品與建模集樣品的顏色性質(zhì)相同時,其模型的預(yù)測結(jié)果較好,即校正集MJc中,MJv為預(yù)測集時預(yù)測結(jié)果最佳;校正集GJc中,GJv為預(yù)測集時預(yù)測結(jié)果最佳;校正集RJc中,RJv為預(yù)測集時預(yù)測結(jié)果最佳。
表3 單一顏色冬棗樣品SSC的PLS模型的預(yù)測結(jié)果
2.2.2 混合顏色冬棗SSC模型分析
分別對混合顏色MJc-GJc和MJc-GJc-RJc樣品集進行建模,采用MJv,GJv,RJv和MJv-GJv-RJv四個測試集樣品對模型的預(yù)測能力進行評價?;旌项伾瑮棙悠稴SC的PLS模型的預(yù)測結(jié)果如表4所示。
表4 混合顏色冬棗樣品SSC的PLS模型的預(yù)測結(jié)果
由表4可知,當(dāng)預(yù)測集中只含有與校正集相同顏色的樣品時,其預(yù)測結(jié)果較好,即校正集為MJc-GJc時,模型對MJv和GJv的預(yù)測精度較RJv的好;用預(yù)測集為MJv-GJv-RJv評價模型時,雖然校正集MJc-GJc中含有紅綠相間和綠色冬棗樣品,但無紅色冬棗樣品,因此,預(yù)測精度較差;當(dāng)在MJc-GJc中增加RJc組成MJc-GJc-RJc建模集,模型對MJv-GJv-RJv的預(yù)測誤差由1.378減小到0.946。
圖5所示為采用不同顏色的冬棗樣品組成的五個校正集建立冬棗SSC的PLS模型對由三種顏色冬棗樣品組成的測試集進行預(yù)測的RMSEP變化圖,由圖中可知,當(dāng)建模集樣品與測試集樣品性質(zhì)相同時,模型均得到較好的預(yù)測結(jié)果,RMSEP均比較小。
圖5 不同顏色樣品建模集建立的冬棗SSC的PLS模型的RMSEP變化圖
通過對校正集MJc,GJc和RJc的單一模型,及MJc-GJc,MJc-GJc-RJc的混合模型經(jīng)預(yù)處理方法優(yōu)選后采用PLS建模分析可知,當(dāng)測試集樣品與校正集樣品性質(zhì)相似時,模型具有更好的預(yù)測能力。為了進一步對模型進行優(yōu)化,采用MCUVE方法進行變量選擇后,應(yīng)用所篩選的特征變量建立PLS模型的結(jié)果如表5所示[10]。
由表5中可知,冬棗樣品的Vis-NIR光譜包含有2 048個建模變量,選用MCUVE變量篩選后,模型的建模變量均減少,且精度得到不同程度的提高。對于冬棗校正集為MJc-GJc-RJc模型,優(yōu)化后的模型保留了200個有效建模變量。圖6是校正集為MJc-GJc-RJc時樣品經(jīng)過MCUVE選擇的波長信息,選擇的變量主要集中于近紅外短波光譜區(qū)域(770~1 100 nm),剔除大部分位于可見光譜區(qū)域(390~770 nm)的樣本點,從而減少了表面顏色對分析模型的影響,大大提高了不同顏色冬棗混合建模時變量的相似性,從而使模型的精度及預(yù)測能力得以提高,模型的RMSECV從1.158降低到0.886,RMSEP從0.946降低到0.721。
表5 變量優(yōu)選后模型的分析結(jié)果
圖6 MCUVE方法選擇變量的分布
不同顏色的冬棗樣品進行混合建模時,通過光譜預(yù)處理和變量優(yōu)選方法可以得到預(yù)測精度較高的分析模型。圖7所示為利用優(yōu)選變量建立的混合冬棗PLS模型的RMSECV和RMSEP隨主成分數(shù)的變化圖,從圖中可以,兩者相差較小且變化規(guī)律具有較好的一致性,表明模型擬合的較合理[11]。
圖7 混合冬棗模型的RMSECV和RMSEP隨PLS因子數(shù)變化圖
最優(yōu)混合模型對測試集樣品SSC的預(yù)測值和參考值的相關(guān)關(guān)系如圖8所示。由圖可知,冬棗SSC的參考值和模型預(yù)測值之間存在較好的相關(guān)關(guān)系,預(yù)測樣品集的Rp和RMSEP分別為0.922和0.721。
圖8 SSC實測值與模型預(yù)測值的相關(guān)關(guān)系
對不同顏色冬棗SSC的Vis-NIR光譜分析模型構(gòu)建進行研究,采用不同的光譜預(yù)處理方法和MCUVE變量篩選方法對冬棗SSC的PLS定量分析模型進行優(yōu)化,以期實現(xiàn)不同顏色冬棗SSC含量準(zhǔn)確分析的通用模型的構(gòu)建。結(jié)果表明,分別采用MJ,GJ和RJ的獨立樣品集進行建模時,模型僅僅對具有相同顏色的冬棗樣品的SSC實現(xiàn)了較好的預(yù)測;分別在MJ樣品中加入GJ和GJ-RJ樣品進行MJ-GJ和MJ-GJ-RJ兩個混合樣品集的定量模型的構(gòu)建時,MJ-GJ模型對MJ和GJ樣品的SSC具有較好的預(yù)測效果,而對RJ樣品的預(yù)測誤差較大;MJ-GJ-RJ模型對三種顏色的冬棗SSC均有較好的預(yù)測結(jié)果;采用Vis-NIR光譜對不同顏色冬棗的SSC進行分析時,當(dāng)校正集樣品與測試集樣品顏色屬性相似進行模型構(gòu)建時,模型具有更好的通用性和分析精度。采用MCUVE方法對模型進行變量優(yōu)選后,模型的各項評價指標(biāo)均得到改善。