孫陽,劉翠玲,孫曉榮,聞世震
(北京工商大學(xué) 人工智能學(xué)院,食品安全大數(shù)據(jù)技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室,北京,100048)
櫻桃番茄又名圣女果、千禧果、珍珠小番茄等,是茄科番茄屬中多汁漿果一年生草本植物,被聯(lián)合國糧農(nóng)組織(Food and Agriculture Organization of the United Nations,FAO)列為優(yōu)先推廣的四大水果之一[1-2]。櫻桃番茄表面光亮,色澤鮮艷,營養(yǎng)價(jià)值高,具有防癌、降壓、降膽固醇等保健作用[3-7],近年來深受消費(fèi)者喜愛。相比于人們?nèi)粘J秤玫钠胀ǚ?櫻桃番茄的口感更佳,味道更甜。香甜可口也成為了櫻桃番茄在如今市場備受歡迎的一大原因。影響櫻桃番茄口感的因素有很多,如糖分、有機(jī)酸、纖維素等,但糖分是衡量櫻桃番茄口感及品質(zhì)的一項(xiàng)重要指標(biāo)。
光譜檢測技術(shù)作為一種快速的檢測手段,目前已廣泛應(yīng)用于農(nóng)業(yè)、工業(yè)、食品檢測等領(lǐng)域[8]。常用的光譜檢測技術(shù)有近紅外光譜檢測技術(shù)、拉曼光譜檢測技術(shù)、高光譜成像檢測技術(shù)、熒光光譜檢測技術(shù)等[9-13]。目前,番茄的光譜檢測大部分集中在使用實(shí)驗(yàn)室大型儀器上,對使用便攜式近紅外光譜儀器研究櫻桃番茄光譜尤為少見,王凡等[14]建立了基于櫻桃番茄近紅外透射光譜的可溶性固形物含量分析模型,但對實(shí)驗(yàn)環(huán)境的要求很高,儀器昂貴,無法做到便攜、快速地檢測。雷鷹等[15]使用便攜式近紅外光譜儀器掃描蘋果光譜數(shù)據(jù),對蘋果糖分含量建立模型,使用偏最小二乘算法最終得到的模型預(yù)測集相關(guān)系數(shù)為0.918 9,均方根誤差為0.237;劉偉[16]使用便攜式近紅外光譜儀器,以贛南臍橙和蘋果為實(shí)驗(yàn)對象,對這2種水果的光譜數(shù)據(jù)建立了糖度分析模型,贛南臍橙糖分分析模型預(yù)測集的相關(guān)系數(shù)為0.77,均方根誤差為0.83,蘋果糖分分析模型的預(yù)測集相關(guān)系數(shù)為0.75,均方根誤差為0.82,均取得了較為理想的實(shí)驗(yàn)結(jié)果。在現(xiàn)實(shí)生活中,使用便攜式儀器實(shí)現(xiàn)現(xiàn)場快速檢測可以使果農(nóng)們在種植櫻桃番茄時(shí)能夠無損地檢測作物中的含糖情況,可依此來安排其具體采摘時(shí)間和進(jìn)行光照及養(yǎng)分調(diào)整;同時(shí)在面向市場時(shí),商家可以用該方法來檢驗(yàn)貨物以保證貨物質(zhì)量,更大程度上滿足消費(fèi)者們的需求。綜上,在這些實(shí)際生活需求和眾多研究基礎(chǔ)上,本文提出用便攜式近紅外光譜儀器對櫻桃番茄的糖分進(jìn)行建模分析,實(shí)現(xiàn)現(xiàn)場的快速無損檢測。
本研究使用AMBER Ⅱ便攜式近紅外光譜儀器,以櫻桃番茄為實(shí)驗(yàn)樣本,獲取其近紅外光譜數(shù)據(jù)。使用Kennard-Stone(K-S)算法對172個(gè)樣本進(jìn)行樣本劃分,用標(biāo)準(zhǔn)歸一化(standard normal variate,SNV)和Savitzky-Golay卷積平滑相結(jié)合的方式對光譜數(shù)據(jù)進(jìn)行預(yù)處理,將預(yù)處理過后的光譜數(shù)據(jù)進(jìn)行無信息變量消除算法(uniformative variable elimination,UVE)和連續(xù)投影算法(successive projections algorithm,SPA)聯(lián)合使用提取特征波長,在此基礎(chǔ)上進(jìn)行偏最小二乘(partial least squares,PLS)方法建模,建立櫻桃番茄糖分預(yù)測模型。
AMBER Ⅱ便攜式近紅外光譜檢測儀,北京凱勝天成科技有限公司。為使測量結(jié)果更為準(zhǔn)確,設(shè)置樣本掃描次數(shù)為10次,最終得到樣品掃描10次的平均光譜。波長測量范圍為900~1 700 nm,測量的波長點(diǎn)數(shù)為605個(gè)。通過USB接口與控制器進(jìn)行連接。ANBER Ⅱ便攜式近紅外光譜檢測儀器如圖1所示。愛宕PAL-1數(shù)顯糖度計(jì),日本Atago。儀器的測量范圍為:糖度(Brix)0.0%~53.0%;測量精度為:糖度(Brix)整幅0.2%。
圖1 AMBER Ⅱ便攜式近紅外光譜儀Fig.1 AMBER Ⅱ portable near infrared spectrometer
1.2.1 實(shí)驗(yàn)樣本及糖度檢測
實(shí)驗(yàn)樣本為來自3個(gè)不同大型果蔬超市所采購的櫻桃番茄,產(chǎn)地分別為海南省陵水市、廣西省田陽縣和福建省晉江市,樣本總數(shù)為172個(gè),平均果徑為2.32 cm。
首先用水果刀將櫻桃番茄從赤道處切開,將使用濾布過濾后的番茄汁液滴于檢測儀器上用于檢測,顯示結(jié)果為23 ℃室溫條件下的可溶性物質(zhì)含量值(%Brix),將3次測量結(jié)果的平均值作為實(shí)際測量值。圖2為櫻桃番茄樣本的糖分分布,從圖中可知,采集到的樣本糖分分布大致符合正態(tài)分布。
圖2 櫻桃番茄糖分與樣品數(shù)量的關(guān)系圖Fig.2 Relationship between cherry tomatoes sugar and sample quantity
1.2.2 實(shí)驗(yàn)樣本光譜采集
AMBER Ⅱ便攜式近紅外光譜儀器所檢測的譜頻區(qū)域?yàn)?00~1 700 nm,獲取的原始光譜如圖3所示。光譜在980、1 200和1 450 nm處出現(xiàn)了波峰。櫻桃番茄中的糖分主要為果糖、葡萄糖和蔗糖[17],1 080 nm處為C—H基團(tuán)的2倍頻吸收峰,980 nm處為O—H基團(tuán)的二級倍頻特征波峰,1 200 nm處為C—H鍵的二級倍頻特征波峰,1 450 nm為C—H鍵的一級倍頻特征波峰,具有較強(qiáng)特征性。
圖3 櫻桃番茄近紅外原始光譜圖Fig.3 Near infrared spectrum of cherry tomatoes
1.3.1 Kennard-Stone算法
為了使所建立的模型魯棒性更強(qiáng),訓(xùn)練集和預(yù)測集的樣品更具有代表性,使用K-S算法將樣本集以3∶1的比例劃分為訓(xùn)練集和驗(yàn)證集。K-S算法將所有的樣本全部看作訓(xùn)練集的候選樣本,隨后依次從中挑選樣本進(jìn)行劃分。該算法首先選擇歐式距離最遠(yuǎn)的2個(gè)樣本進(jìn)入訓(xùn)練集,隨后對剩下的樣本計(jì)算到訓(xùn)練集中每一個(gè)已知樣本的歐氏距離。分別找到擁有最大最小距離的樣本放入訓(xùn)練集,以此類推,直到訓(xùn)練集樣本個(gè)數(shù)達(dá)到數(shù)量要求。該算法的優(yōu)點(diǎn)是可以確保訓(xùn)練集中的樣本按照空間距離均勻的分布。歐式距離的計(jì)算如公式(1)所示。
(1)
式中:xp和xq,2個(gè)不同的樣本;N表示樣本的光譜點(diǎn)數(shù)。
1.3.2 UVE無信息變量消除法
UVE算法[18]是用于光譜波長變量篩選的一種算法。它可以有效減少最終PLS模型中包含的變量數(shù),將有效的特征波段應(yīng)用于模型中,從而降低PLS模型的復(fù)雜性,并且提高模型的預(yù)測能力。在實(shí)際采集的櫻桃番茄光譜數(shù)據(jù)中,會有大量不包含糖分信息的波長點(diǎn)存在,因此為了提高模型精度,使用UVE算法去除不包含信息的波長點(diǎn)是尤為必要的。
UVE算法是一種基于分析PLS回歸系數(shù)的算法,目的在于消除不提供有效信息的變量。在PLS模型中光譜數(shù)據(jù)矩陣(X)和濃度矩陣(Y)的回歸關(guān)系如公式(2)所示。
Y=Xb+e
(2)
式中:b,模型的回歸系數(shù)向量,e,誤差向量。
UVE算法首先要產(chǎn)生一個(gè)與自變量矩陣相同變量數(shù)目的隨機(jī)矩陣,將其等同于噪音,并將該隨機(jī)矩陣加入到原光譜矩陣中。隨后通過留一交叉驗(yàn)證的方法逐一建立PLS模型,最終得到回歸系數(shù)的矩陣B。計(jì)算回歸系數(shù)矩陣中的回歸系數(shù)向量b的平均值和標(biāo)準(zhǔn)偏差的商,記為Ci,如公式(3)所示。
Ci=mean(bi)/S(bi)
(3)
式中:mean(bi),回歸系數(shù)向量b的平均值;S(bi),回顧系數(shù)向量b的標(biāo)準(zhǔn)偏差,下標(biāo)i為B矩陣中的第i列,具體算法如下:
(1)產(chǎn)生一隨機(jī)噪聲矩陣R(n×m),將其與光譜矩陣X(n×m)合成矩陣XR(n×2m),其中前m列為X后m列為R;
(2)將矩陣XR與濃度矩陣Y(n×1)進(jìn)行PLS回歸,使用留一交叉驗(yàn)證方法,每次得到一個(gè)回歸系數(shù)向量b,共得到n個(gè)回歸系數(shù)向量,組成矩陣B(n×2m);
(3)按列計(jì)算回歸系數(shù)矩陣B平均值與標(biāo)準(zhǔn)偏差的商,計(jì)算Ci=mean(bi)/S(bi),i=1,2,…,2m;
(4)在[m+1,2m]區(qū)間取C的最大絕對值Cmax=max[abs(C)];
(5)在[1,m]區(qū)間內(nèi)去除Ci 1.3.3 SPA連續(xù)投影算法 SPA算法[19-20]為一種波長選擇算法,該算法對波長進(jìn)行選擇的主要原理是從某一個(gè)波長點(diǎn)出發(fā),不斷地采用連續(xù)投影策略選擇與已有波長線性相關(guān)度最小的波長點(diǎn)構(gòu)成一個(gè)波長子集,重復(fù)這一操作選出一系列的波長子集,隨后將這些選擇出來的波長子集建模后的模型預(yù)測能力進(jìn)行比較,選出結(jié)果最優(yōu)的波長子集。計(jì)算未選擇變量xj(j∈s)在已選擇的特征變量xk(t-1)構(gòu)成的正交子空間上的投影,如公式(4)所示。其中,P為投影算子;I為單位矩陣。這一算法的優(yōu)勢在于盡可能地降低了被選波長之間所存在的共線性問題。 (4) 在本研究中使用的模型評價(jià)指標(biāo)有決定系數(shù)、驗(yàn)證均方根誤差 (root-mean-square error of collection,RMSEC)、預(yù)測均方根誤差 (root-mean-square error of prediction,RMSEP)和相對分析誤差(relative percent deviation,RPD)。其中,模型最終計(jì)算出的RMSEC和RMSEP的值越小、R2的值越接近于1則說明模型越穩(wěn)定,預(yù)測能力越強(qiáng)。一般情況下,RMSEC和RMSEP的值相差不多,若RMSEC和RMSEP的值相差過大,則說明建模集樣本或預(yù)測集的樣本不具有代表性,出現(xiàn)了欠擬合或過擬合的狀況,需要重新對樣本集進(jìn)行劃分。RPD的值可以說明模型的預(yù)測能力,當(dāng)其值大于1.4時(shí)便說明該模型數(shù)據(jù)有預(yù)測能力,值越大則說明模型的預(yù)測能力越強(qiáng)。RMSEP和RMSEC的計(jì)算公式相同,如公式(5)所示,R2的計(jì)算公式如公式(6)所示。 (5) (6) 采集的實(shí)驗(yàn)樣本一共為172個(gè),利用K-S算法對實(shí)驗(yàn)樣本數(shù)據(jù)進(jìn)行分析。以3∶1的比例將樣本劃分為建模集和預(yù)測集,即建模集樣本為129個(gè),預(yù)測集樣本為43個(gè)。樣本劃分過后的糖含量統(tǒng)計(jì)值如表1所示。 表1 樣本含糖量統(tǒng)計(jì)表Table 1 Statistical value of sample sugar content 在原始光譜數(shù)據(jù)中可以觀察到,該光譜數(shù)據(jù)具有明顯的噪音及漂移,因此在建立模型前對光譜數(shù)據(jù)進(jìn)行預(yù)處理。預(yù)處理方法選用了SNV、Savitzky-Golay卷積平滑處理和一階導(dǎo)數(shù)差分[21-23]。使用不同預(yù)處理方法后基于PLS方法建模的結(jié)果如表2所示。 表2 櫻桃番茄糖分模型不同預(yù)處理方法建模結(jié)果Table 2 Modeling results of different pretreatment methods for sugar model of cherry tomatoes 由表2可知,無論是用哪一種預(yù)處理方案,該模型驗(yàn)證集和預(yù)測集的R2均>0.7,RPD均>1.4,說明每一種預(yù)處理方案下的模型均具有一定的預(yù)測能力。但采用SNV+S-G卷積平滑預(yù)處理方法后所建立模型的R2值最大,且RMSEC和RMSEV的值最小,說明在該預(yù)處理方法下的模型性能為最優(yōu)。預(yù)處理過后的近紅外光譜圖如圖4所示。 圖4 櫻桃番茄近紅外預(yù)處理光譜圖Fig.4 Near infrared pretreatment spectrum of cherry tomatoes 2.3.1 基于全譜段的PLS櫻桃番茄糖分分析模型 選擇最佳預(yù)處理方法后,使用全波段的光譜數(shù)據(jù)進(jìn)行PLS建模分析,最終得到的糖分分析模型建模集和預(yù)測集的決定系數(shù)R2分別為0.894 2和0.892 9,預(yù)測均方根誤差RMSEC和RMSEP分別0.159 6和0.223 4,RPD的值為2.22。預(yù)測結(jié)果如圖5所示。 圖5 全譜段的PLS模型櫻桃番茄糖分預(yù)測結(jié)果Fig.5 Prediction of sugar content in cherry tomatoes based on PLS model 2.3.2 基于UVE-PLS的櫻桃番茄糖分預(yù)測模型 為使模型更加簡化,降低模型計(jì)算量,提高預(yù)測精度,將SNV+S-G卷積平滑預(yù)處理過后的光譜數(shù)據(jù)用UVE特征波段篩選方法對605個(gè)波長點(diǎn)進(jìn)行篩選,將與預(yù)測糖分無關(guān)的特征變量去除[24]。UVE算法共去除了231個(gè)無信息波長點(diǎn),保留信息變量374個(gè)。用全部波段的61.8%建立櫻桃番茄糖分的定量分析模型,最終所選取的波段如圖6所示。 圖6 UVE算法對特征波段篩選的結(jié)果Fig.6 The result of selecting characteristic wavelength by UVE algorithm 基于UVE-PLS方法建立的櫻桃番茄糖分模型建模集和預(yù)測集的決定系數(shù)R2分別為0.929 5和0.899 9,預(yù)測均方根誤差RMSEC和RMSEP分別為0.135 9和0.215 9,RPD的值為2.29。預(yù)測結(jié)果如圖7所示。 圖7 UVE-PLS模型櫻桃番茄糖分預(yù)測結(jié)果Fig.7 Prediction results of sugar content of cherry tomato based on UVE-PLS model 2.3.3 基于SPA-PLS櫻桃番茄糖分預(yù)測模型 對櫻桃番茄的光譜數(shù)據(jù)進(jìn)行SNV+S-G卷積平滑預(yù)處理,將預(yù)處理過后的光譜進(jìn)行SPA特征波長提取。由于SPA算法要求在優(yōu)化過程中生成的每個(gè)波長子集的波長點(diǎn)數(shù)的數(shù)目是不能超過校正集中的樣本個(gè)數(shù)的,因此在本實(shí)驗(yàn)中,用SPA算法所提取出的特征波長數(shù)量一定會少于21個(gè),這使變量輸入到PLS模型后的計(jì)算量在很大程度上得到了簡化。使用SPA算法最終提取到了16個(gè)特征波長點(diǎn),分別是906.15、966.04、995.60、1 056.44、1 109.99、1 196.42、1 214.36、1 220.32、1 450.70、1 476.74、1 582.20、1 596.57、1 639.11、1 644.12、1 650.11、1 689.61 nm。結(jié)果如圖8所示。 圖8 SPA算法選擇的特征波段Fig.8 Characteristic wavelength selected by SPA algorithm 圖9顯示了基于SPA算法的PLS模型用不同波長數(shù)量進(jìn)行交叉驗(yàn)證的均方根誤差結(jié)果。隨著選擇的波段數(shù)的增加,PLS模型的均方根誤差值在逐漸減小,隨后減小趨勢逐漸平緩最后幾乎不變。當(dāng)選擇的波長數(shù)量<16時(shí)的均方根誤差的值下降速率較快,當(dāng)選擇波長數(shù)量>16后,均方根誤差的下降速率明顯減小。因此,SPA算法最終選擇的波長變量數(shù)為16個(gè)。 圖9 SPA算法選擇的變量個(gè)數(shù)Fig.9 Prediction results of sugar content of cherry tomato based on SPA-PLS model 將提取過后的特征波長進(jìn)行PLS建模,建模集和預(yù)測集的決定系數(shù)R2分別為0.930 1和0.918 6,預(yù)測均方根誤差RMSEC和RMSEP分別為0.130 4和0.194 7,RPD的值為2.53。預(yù)測結(jié)果如圖10所示。 圖10 SPA-PLS模型櫻桃番茄糖分預(yù)測結(jié)果Fig.10 Prediction results of sugar content of cherry tomato based on SPA-PLS model 2.3.4 基于UVE-SPA-PLS櫻桃番茄糖分預(yù)測模型 在研究中,分別將櫻桃番茄的光譜數(shù)據(jù)進(jìn)行了UVE和SPA算法的特征波長提取。單獨(dú)使用UVE算法時(shí),盡管消除了部分不具有信息的特征波長點(diǎn),但被選擇的特征波長點(diǎn)之間會存在共線性問題。同樣,當(dāng)在單獨(dú)使用SPA算法進(jìn)行特征波長提取時(shí),雖然降低了特征波長點(diǎn)之間的共線性,但所選擇的波長子集中很可能會包含一些無信息的、甚至?xí)a(chǎn)生干擾的波長[25]。因此,在本實(shí)驗(yàn)中將UVE算法與SPA算法聯(lián)合,實(shí)現(xiàn)兩者之間的優(yōu)勢互補(bǔ),建立基于UVE-SPA特征波段選取的PLS櫻桃番茄糖分模型。經(jīng)過2種算法的計(jì)算,最終被選取的特征波長點(diǎn)分別為1 056.44、1 109.99、1 196.42、1 214.36、1 220.32、1 476.74、1 582.20、1 596.57、1 639.11、1 644.12、1 650.11、1 689.61 nm,共12個(gè)特征波長點(diǎn)?;赨VE-SPA-PLS方法所建立的櫻桃番茄糖分模型建模集和預(yù)測集的決定系數(shù)R2分別為0.938 5和0.934 7,預(yù)測均方根誤差RMSEC和RMSEP分別為0.130 5和0.174 4,RPD的值為2.81。預(yù)測結(jié)果如圖11所示。 圖11 UVE-SPA-PLS模型櫻桃番茄糖分預(yù)測結(jié)果Fig.11 Prediction results of sugar content of cherry tomato based on UVE-SPA-PLS model 表3是基于不同波長提取算法下PLS模型的模型參數(shù),從表中可以看出,經(jīng)過特征波長提取后的模型決定系數(shù)R2和相對分析誤差RPD的值均有所提高,均方根誤差RMSEC和REMSP均有所降低。其中UVE和SPA特征波長選取方法聯(lián)合使用既去除了無消息特征波長點(diǎn),又降低了波長之間的共線性,因此UVE-SPA-PLS建模方法達(dá)到的效果最佳。 表3 不同波長提取方法PLS建模結(jié)果表Table 3 PLS modeling results of different wavelength extraction methods 本實(shí)驗(yàn)用AMBER Ⅱ便攜式近紅外光譜儀器采集櫻桃番茄的近紅外光譜圖,使用K-S算法將樣本以3∶1的比例進(jìn)行劃分,建模集樣本個(gè)數(shù)為129個(gè),預(yù)測集樣本個(gè)數(shù)為43個(gè)。用PLS方法建模,經(jīng)過多種預(yù)處理方法比較,選用S-G卷積平滑和SNV預(yù)處理方法的建模結(jié)果最佳。建模集和預(yù)測集的決定系數(shù)R2分別為0.894 2和0.892 9,均方根誤差RMSEC和REMSP分別為0.159 6和0.223 4,RPD的值為2.22。 對預(yù)處理過后的光譜數(shù)據(jù)分別使用UVE、SPA和UVE-SPA聯(lián)合這3種方法進(jìn)行特征波長提取,最終使用UVE-SPA特征波長提取方法提取到的12個(gè)特征波長進(jìn)行PLS建模效果最佳,建模集和預(yù)測集的決定系數(shù)R2分別為0.938 5和0.934 7,均方根誤差RMSEC和REMSP分別為0.130 5和0.174 4,RPD的值為2.81。建模集和預(yù)測集的決定系數(shù)都達(dá)到了0.9以上,均方根誤差也都較低,說明了使用便攜式近紅外光譜儀掃描的數(shù)據(jù)可以建立精度較高的櫻桃番茄的糖分預(yù)測模型。 在進(jìn)一步研究中,應(yīng)擴(kuò)大樣本獲取范圍,采集更多不同產(chǎn)地的櫻桃番茄,增大樣本數(shù)量,增大樣本的糖分范圍,盡量使不同產(chǎn)地櫻桃番茄的采摘時(shí)間大致相同,使模型的預(yù)測性更高,應(yīng)用更加廣泛。1.4 模型評價(jià)標(biāo)準(zhǔn)
2 結(jié)果與分析
2.1 樣本劃分
2.2 光譜數(shù)據(jù)預(yù)處理
2.3 櫻桃番茄糖分分析模型建立
3 結(jié)論與討論