石魯珍 張景川 蔣 霞 陳 杰 白鐵成
(1 塔里木大學(xué)信息工程學(xué)院, 新疆 阿拉爾 843300)(2 塔里木盆地生物資源保護利用重點實驗室, 新疆 阿拉爾 843300)(3 塔里木大學(xué)機械電氣化工程學(xué)院, 新疆 阿拉爾 843300)
?
光譜測定南疆鮮冬棗Vc含量方法的研究
石魯珍1,2張景川3蔣 霞1陳 杰1白鐵成1
(1 塔里木大學(xué)信息工程學(xué)院, 新疆 阿拉爾 843300)(2 塔里木盆地生物資源保護利用重點實驗室, 新疆 阿拉爾 843300)(3 塔里木大學(xué)機械電氣化工程學(xué)院, 新疆 阿拉爾 843300)
摘要本研究嘗試?yán)媒t外光譜技術(shù)測量冬棗的Vc含量,用連續(xù)投影算法(SPA)在校正模型中選擇有效的近紅外光譜波長變量,然后用篩選出的變量建立偏最小二乘(PLS)模型。該模型的預(yù)測標(biāo)準(zhǔn)偏差(RMSEP)為0. 249 3,預(yù)測相關(guān)系數(shù)(RP)為0. 919 7,并將SPA篩選的變量建立的PLS模型與全光譜建立PLS模型結(jié)果進行比較。結(jié)果表明,SPA優(yōu)選出全光譜1 557個變量中的24個變量,建立的PLS模型預(yù)測效果要好于全光譜建立的PLS模型,SPA能夠有效地選取待測成分的特征波長,在冬棗Vc無損檢測方面提供理論基礎(chǔ)。
關(guān)鍵詞近紅外光譜; PLS; SPA; Vc
Testing Research on Fresh Jujube Vc in South Xinjiang by NIRS
冬棗又名凍棗、蘋果棗,以其成熟晚而得名。冬棗皮薄質(zhì)脆,酸甜適口,且富含多種氨基酸和維生素,其中Vc含量達 300~500 mg/100g,被譽為“活的維生素丸”[1],已被列入保健食品行列[2,3,4]。隨著人們對冬棗營養(yǎng)價值及保健功效的認(rèn)識,加之其獨特的風(fēng)味,冬棗深受消費者青睞,已成為水果中的精品,發(fā)展前景巨大,市場空間廣闊。
傳統(tǒng)紅棗維生素C含量的檢測是用化學(xué)方法?;瘜W(xué)方法既要破壞紅棗結(jié)構(gòu)的完整性,又要使用有毒的化學(xué)藥品,費時、費工,而且不能實時跟蹤紅棗維生素C含量的變化。近紅外(NIR)光譜是一個快速無損的技術(shù),可以實時檢測物質(zhì)成分含量,在某種程度上優(yōu)于一些耗時的化學(xué)分析。近紅外光譜的結(jié)構(gòu)信息和組成信息都十分豐富,非常適用于含氫有機化合物(如農(nóng)產(chǎn)品)的物化參數(shù)測量。如紅棗的糖度和水分[5,6]、蘋果的糖度[7]、臍橙的糖度[8]等。偏最小二乘法( partial least square, PLS )可有效地從復(fù)雜信息中提取相關(guān)信息,并建立可靠的模型, 如果選擇具有較好代表性的校正集,可以提高預(yù)測模型的預(yù)測能力。目前,較常用的選擇校正樣本的方法有Kennard Stone(KS)[9]和sample set partitioning based on joint x-y distances(SPXY)[10]等方法。
在利用NIR結(jié)合偏最小二乘法(PLS)建模過程中,發(fā)現(xiàn)雖然PLS方法的抗干擾能力較強,并可在全光譜范圍建立校正模型,但是隨著對PLS研究的深入,發(fā)現(xiàn)用經(jīng)過篩選的特征變量或者特征譜區(qū)建立的定量校正模型[11]有可能更好。連續(xù)投影算法(SPA)[12]是在數(shù)據(jù)矩陣中尋找一個變量組,該變量組含有的冗余信息最低,并使該變量組中變量之間的共線性達到最小。連續(xù)投影算法只用少數(shù)幾列的原始數(shù)據(jù)信息就可以總結(jié)出絕大部分樣本的光譜信息,有力地減少了重疊信息。SPA除了可以用來選擇光譜變量,而且還可以用來確定主成分分析所得的最佳主成分?jǐn)?shù)[13]。本文利用SPXY來劃分冬棗校正集樣本,應(yīng)用連續(xù)投影算法(SPA)優(yōu)化冬棗Vc的近紅外光譜無損檢測模型,并優(yōu)選出冬棗Vc近紅外特征波長。
1材料與方法
1.1試驗材料與儀器
試驗所用冬棗于2014年10月采集于新疆阿拉爾市,挑選出沒有霉?fàn)€、破損的完好冬棗150顆,去除表面灰塵并做好標(biāo)記,放入冷庫冷藏保鮮。
1.2光譜采集儀器及方法
紅棗近紅外光譜采集的光譜儀是美國生產(chǎn)的Antaris Ⅱ FT-NIR型。該光譜儀無需另外提供采樣背景,以儀器內(nèi)部空氣為背景,測量波長范圍4 000~10 000 cm-1,1 557點的采樣點數(shù),設(shè)定每張光譜掃描32次,設(shè)定8 cm-1的分辨率,儀器使用的檢測器為InGaAs。采集光譜條件:采集光譜前,先將紅棗放入溫度在19℃-23℃間,相對濕度在20%-25%之間的室內(nèi)4h;測樣方式:開機預(yù)熱30分鐘后,用近紅外光譜儀對紅棗的可區(qū)別3個部位分別掃描32次,取3次采集光譜的平均值。
1.3光譜數(shù)據(jù)處理
圖1a為冬棗樣品的原始近紅外光譜。該光譜圖反映了維生素C含量在近紅外區(qū)各個波數(shù)上的吸收強度。原始光譜是通過近紅外光譜儀來獲取的,它包含背景信息和除樣品外的噪聲信息。為了獲得可靠、精確和穩(wěn)定的模型,對模型校正集光譜進行預(yù)處理是很有必要的。目前光譜預(yù)處理方法很多,例如均值中心化,標(biāo)準(zhǔn)化,平滑,求導(dǎo),標(biāo)準(zhǔn)正態(tài)變量變換(SNV),多元散射校正(MSC),傅立葉變化和其他一些新的方法。本研究試圖比較3種經(jīng)典的光譜預(yù)處理方法,分別是均值中心化, MSC和導(dǎo)數(shù)。均值中心化是用來增強樣品光譜之間的差異,從而提高模型的穩(wěn)健性和預(yù)測能力。MSC主要是消除因顆粒分布不均勻及顆粒大小造成的散射,基線和其他背景干擾可通過導(dǎo)數(shù)光譜有效地消除,分辨出重疊峰,從而提高分辨率和靈敏度。
通過比較3種光譜預(yù)處理,MSC預(yù)處理方法好于其他的方法。因此本研究采用MSC預(yù)處理方法。圖1b為光譜經(jīng)過MSC處理。由經(jīng)過MSC處理提取的反射光譜建立維生素C含量預(yù)測模型,在預(yù)測模型標(biāo)準(zhǔn)偏差和相關(guān)系數(shù)方面都優(yōu)于其它方法。
(a) (b)
1.4冬棗Vc標(biāo)準(zhǔn)測定方法
冬棗的Vc標(biāo)準(zhǔn)測量方法采用2,4-二硝基苯肼法,按國標(biāo)(GB/T 5009.86-2003)執(zhí)行。
1.5軟件
所有的算法應(yīng)用在Matlab 2009b (Mathworks,USA)上。Result軟件(Antaris II,賽默飛世爾科技,美國)用于近紅外光譜數(shù)據(jù)采集。
2結(jié)果與分析
2.1校正模型
校正集樣品的分布特點會直接影響校正模型的校正結(jié)果,采樣樣品密集的地方可能出現(xiàn)過擬合,而采樣樣品較少的地方則會擬合不足。這里用 SPXY(sample set partitioning based on joint x-y distances)[10]法對樣品進行選擇。SPXY是用來選擇校正樣本的方法,是有Galvao等人在KS方法[9]的基礎(chǔ)上提出的。SPXY法將光譜變量和濃度變量同時加入樣品間距離計算公式,其距離按公式(1)計算:
(1)
式中,dx(i,j)是以光譜為特征參數(shù)計算的樣本之間的距離;dy(i,j)是以濃度為特征參數(shù)計算的樣本之間的距離。為使樣本在光譜空間和濃度空間具有相同的權(quán)重,分別除以它們各自的最大值進行標(biāo)準(zhǔn)化處理。
表1 校正集和驗證集樣品Vc參考測量值
利用SPXY法劃分100個紅棗樣本作為校正集和50個樣本作為驗證集。通過校正集參數(shù)建立冬棗Vc近紅外光譜模型,通過驗證集參數(shù)驗證所建模型的準(zhǔn)確性和可靠性。校正集和驗證集的參數(shù)統(tǒng)計結(jié)果表1所示,從表1中可以看出校正集樣品濃度范圍大于驗證集樣品濃度范圍,說明校正集樣品劃分是合理的。
在校正模型中,采用留一交互驗證法來建立校正模型。留一交互驗證法是這樣的:在樣本集的n個樣品中,(n-1)個樣品用來建立校正模型,剩余的一個樣品與校正模型的預(yù)測值進行比對。樣品集中的每個樣品都會與校正模型的預(yù)測值進行比對一次。交互驗證均方根誤差(RMSECV)是按照公式(2)計算的:
(2)
yi,actual為第i樣品參考方法的測量值,yi,predicted為留i樣品所建校正模型的預(yù)測值,n為校正集的總樣品數(shù)。最優(yōu)模型是選擇通過全譜最低的RMSECV。
最后,最優(yōu)的模型是通過獨立的樣品驗證集驗證的。預(yù)測均方根誤差(RMSEP)和相關(guān)系數(shù)r在預(yù)測集中通過公式(2)和(3)計算的。
(3)
yi,actual,為第i樣品參考方法的測量值,yi,predicted為預(yù)測模型對驗證集第i樣品的光譜預(yù)測值,m為驗證集的總樣品數(shù)。
(4)
2.2近紅外變量區(qū)間篩選
在采用近紅外光譜技術(shù)預(yù)測冬棗的Vc研究中,冬棗的近紅外光譜中可能有一個或若干個與Vc信息相關(guān)的區(qū)間,通過區(qū)間篩選法,可簡化建模過程,提高預(yù)測模型的預(yù)測精度。
連續(xù)投影算法(successive projections algorithm,SPA)[14]是前向循環(huán)選擇算法,它從某個波長開始,每次循環(huán)都計算它在未選入波長上的投影,并將投影向量最大的波長收入到波長組合中。每一個新收入的波長,都具有與前一個線性關(guān)系最小的特點。
校正集的光譜矩陣X(n×m)給出需要選擇的波長數(shù)h,SPA算法如下:
Step 1: 在光譜矩陣中任選一列向量xj,作為第一次迭代(p=1)的初始向量,記為;xk(0)=j,{j∈1,…,m}
Step 2:把光譜矩陣中沒有入選的其余列向量位置的集合記為s,s={j,1≤j≤m,j{k(0),…,k(p-1)}};
Step 3:分別計算剩余列向量xj(j∈s)與當(dāng)前所選向量xk(p-1)的投影:
Step 4:提取最大投影值的波長點變量序號:k(p)=arg[max(‖Pxj‖)],j∈s;
Step 5:令xj=Pxj,j∈s;
Step 6: p=p+1,如果p 最后選用的波長變量為{k(p),p=0,…,h-1}。 對每一初始k(0)進行一次循環(huán)計算,再進行偏最小二乘法(PLS)交互驗證分析,選擇出最小RMSECV所對應(yīng)的k(p)。 通過連續(xù)投影算法進行光譜變量選擇,相應(yīng)于冬棗Vc的校正模型,以50作為提取光譜特征波長的最大值,分別選取1~50個特征光譜波長與冬棗Vc的標(biāo)準(zhǔn)測量方法獲取的結(jié)果(Vc含量)建立PLS模型,以PLS模型中的最低交互驗證均方根誤差(RMSECV)作為最優(yōu)模型,圖2(a)為冬棗近紅外光譜中選用不同變量數(shù)的最低RMSECV值,方框為最終選用建立模型的變量數(shù)。當(dāng)采用24個變量時,可得到最低的RMSECV值0. 220 97,對應(yīng)的PLS模型為最佳模型。圖2(b)為所選擇的相應(yīng)變量波數(shù)分別為8 388. 83cm-1, 4 003. 497 cm-1,5 781. 543 cm-1,6 961. 765 cm-1,4 844. 308 cm-1,8 496. 824 cm-1,4 153. 917 cm-1,5 337. 996 cm-1,9 812. 038 cm-1,5 299. 426 cm-1,8 427. 399 cm-1,7 779. 435 cm-1,8 701. 241 cm-1,4 713. 172 cm-1,7 899 cm-1,8 651. 102 cm-1,8 180. 556 cm-1,6 869. 198 cm-1,8 550. 821 cm-1,8 300. 12 cm-1,4 952. 302 cm-1,4 747. 885 cm-1,4 674. 603 cm-1,4 547. 324 cm-1。 (a)選用不同變量PLS模型的RMSECV值 (b)參加建模的近紅外光譜波長 2.3結(jié)果驗證與分析 將SPA所選擇的變量建立偏最小二乘(PLS)模型,圖3是PLS模型驗證集中NIR的預(yù)測值與實際測量值之間的相關(guān)性散點圖,數(shù)字代表驗證集樣品序號。 采用SPA篩選的變量與全光譜建立PLS模型結(jié)果比較如表2所示。通過SPA篩選的變量建立的PLS模型與全光譜變量建立的PLS模型相比較,前者的預(yù)測相關(guān)系數(shù)rp大,預(yù)測標(biāo)準(zhǔn)偏差RMESP=0. 249 3,小于全光譜變量PLS模型的預(yù)測相關(guān)系數(shù)。說明通過SPA選取的較少波長變量建立的模型,其預(yù)測精度比全光譜變量建立的PLS模型的預(yù)測精度要高,且SPA所篩選出的波長能夠正確反映待測組分(Vc)信息,優(yōu)選出的波長間的共線性影響不影響預(yù)測,可以不予考慮。再者,用SPA篩選的變量建立預(yù)測模型的時間比用全光譜變量建立預(yù)測模型的時間要短得多。 圖3 SPA選擇的變量PLS模型驗證集中冬棗Vc參考值與NIR預(yù)測值對比圖 方法波數(shù)/cm-1變量數(shù)最佳主成分rcRMSECVrpRMSEP全光譜4000~100001557130.92480.26570.90890.2641SPA8388.83,4003.497,5781.543,6961.765,4844.308,8496.824,4153.917,5337.996,9812.038,5299.426,8427.399,7779.435,8701.241,4713.172,7899,8651.102,8180.556,6869.198,8550.821,8300.12,4952.302,4747.885,4674.603,4547.3242490.93340.220970.91970.2493 3結(jié)論 本文利用NIR法測定冬棗的Vc含量,利用SPXY方法劃分校正集,實驗結(jié)果表明SPXY法可以很好地選擇有代表性的校正樣本;利用連續(xù)投影(SPA)進行波長變量選擇,最終從1 557個變量中選擇出24個變量,光譜變量之間的共線性影響降到最低,大大簡化了模型的復(fù)雜度,可以有效地優(yōu)選出特征光譜變量縮短校正時間,并且提高了冬棗Vc近紅外模型預(yù)測精度,是一種有效的光譜變量選擇方法,近紅外光譜技術(shù)可以對新疆冬棗Vc進行無損檢測。 參考文獻 [1]于洪長,高新一.珍稀果品—沾化冬棗[J].植物雜志,1998(3):8-9. [2]劉孟軍,彭建營,劉新云,等.鮮棗貯藏及酒制過程中營養(yǎng)成分的變化[J].河北農(nóng)業(yè)大學(xué)學(xué)報,1996,19(1):36-39. [3]劉孟軍,王永蕙.棗和酸14種園藝植物 cAMp 含量的研究[J].河北農(nóng)業(yè)大學(xué)學(xué)報,1991,14(4):20-23. [4]Chyul J C,Kiyomichi H.Cyclic adenosine monophosphate in fruits of Ziziphus jujuba[J]. Phytochemistry,1980(19):24-47. [5]彭云發(fā),彭海根,詹映,等.近紅外光譜對南疆紅棗水分無損檢測的研究[J].食品科技,2013(11):260-263. [6]詹映,彭云發(fā),彭海根,等.近紅外光譜在南疆紅棗糖度無損檢測中的應(yīng)用[J].農(nóng)機化研究,2014(06):179-183. [7]Jhs S N,Garg R.Non-destructive prediction of quality of intact apple using near infrared spectroscopy[J].Journal of Food Science and Technology,2010,47(2):207-213. [8]Yande L,Xudong S,Jianmin Z, Linear and nonlinear multivariate regressions for determinationsugar content of intact Gannan navel orange by Vis-NIR diffusereflectance spectroscopy[J]. Mathematical and Computer Modelling 2010, 51:1438-1443. [9]Kennard R W,Stone L A.Computer aided design of experiments[J].Technometrics,1969,11:137-148. [10]Galváo RKH, Araújo MCU, José GE, et al. A method for calibration and validation subset partitioning[J]. Talanta ,2005,67(4):736-740. [11]褚小立,袁洪福,陸婉珍.近紅外分析中光譜預(yù)處理及波長選擇方法進展與應(yīng)用[J].化學(xué)進展,2004,16(4):528-542. [12]Arau jo M C U, Saldanha T C B, Galva o R K H, et al. The successive projections algorithm for variable selection in spectroscopic multicomponent analysis [J]. Chemometrics and intelligent laboratory systems, 2001, 57: 65-73. [13]吳迪,金春華,何勇.基于連續(xù)投影算法的光譜主成分組合優(yōu)化方法研究[J].光譜學(xué)與光譜分析,2009,29(10):2734-2737. [14]付坦. 冬棗冰溫保鮮技術(shù)的研究[D].天津商業(yè)大學(xué),2013 Shi Luzhen1,2Zhang Jingchuan3Jiang Xia1Chen Jie1Bei Tiecheng1 (1 College of Information Engineering, Tarim University, Alar, Xinjiang 843300) (2 Xinjiang Production& Construction Corps Key Laboratory of Protection and Utilization of Biological Resources in Tarim Basin, Alar, Xinjiang 843300) (3 College of Mechanic and Electrical Engineering, Tarim University, Alar, Xinjiang 843300) AbstractThe study attempts to detect fresh jujube Vc content by NIRS, Choose effective NIR wavelength variable in adjusted model by continuous projection algorithm (SPA), then establish partial least squares(PLS) model based on selected variables. The standard deviation of the predicted value(RMSEP) was 0. 249 3, the correlation coefficient (RP) of the predicted value was 0. 919 7, comparative the model based on the variables SPA screening with the model basted on the full spectrum. The results show, 24 variables were preferred from 1 557 full spectrum variables on SPA screening, the predicted value of PLS model established with the 24 variables is better than the predicted value of PLS model established with full-spectrum, the characteristic wavelength can be elected effectively by SPA, this provide a theoretical basis for non-destructive testing in Winter jujube Vc. Key wordsNIRS; least squares(PLS); continuous projection algorithm (SPA); Vc 中圖分類號:TP391.41 文獻標(biāo)識碼:ADOI:10.3969/j.issn.1009-0568.2015.04.015 文章編號:1009-0568(2015)04-0093-06 作者簡介:石魯珍(1972-),女,講師,碩士,研究方向:微波技術(shù)與光譜應(yīng)用研究。E-mail:shiluzhen08@yeah.net 基金項目:塔里木大學(xué)校長基金碩士項目(TDZKSS201413)。 收稿日期:2015-04-06