趙志磊, 王雪妹, 劉冬冬, 王艷偉, 顧玉紅, 滕佳鑫, 牛曉穎*
1. 河北大學質(zhì)量技術監(jiān)督學院, 河北 保定 071002 2. 計量儀器與系統(tǒng)國家地方聯(lián)合工程研究中心, 河北 保定 071002 3. 河北省能源計量與安全檢測技術重點實驗室, 河北 保定 071002 4. 河北大學地理標志研究院, 河北 保定 071002 5. 河北農(nóng)業(yè)大學生命科學學院, 河北 保定 071002
“安哥諾”李是李中極晚熟品種, 色香味美, 品質(zhì)極佳。 隨著李果實產(chǎn)量和消費量的增加, 消費者在選購李果實時除了關注其大小、 形狀、 顏色等外觀品質(zhì), 對于內(nèi)在品質(zhì)也越來越重視, 其中糖、 酸含量是決定果實口感的主要因素, 直接影響消費者的購買意愿。 因此實現(xiàn)李果實糖度和酸度的快速無損檢測以品質(zhì)分級實現(xiàn)優(yōu)質(zhì)優(yōu)價顯得尤為重要。 糖、 酸含量的傳統(tǒng)檢測方法均屬有損檢測, 無法滿足對大批量果實進行快速分級篩選的需求, 急需建立一種快速無損檢測李果實糖、 酸含量的方法。
近紅外光譜(near infrared spectroscopy, NIRS)分析技術作為一種無損、 快速及同時測定多種組分的檢測手段已在多種水果的無損檢測方面得到廣泛應用。 近些年來, 國內(nèi)外眾多學者采用近紅外光譜分析技術相繼開展了對蘋果[1]、 梨[2]、 芒果[3]、 桃[4]、 靈武長棗[5]、 獼猴桃[6]、 橙子[7]、 山楂[8]、 柿子[9]、 西瓜、 櫻桃[10]等水果的可溶性固形物(soluble solids content, SSC)含量、 可滴定總酸(titratable acidity, TA)和硬度等品質(zhì)的無損檢測研究。 與其他果實相比, 李果實表面光潔且果皮較薄, 尤其適用于NIRS漫反射光譜信息采集果實品質(zhì)信息。 Paz等獲取了9個品種李果實樣品的近紅外光譜, 并建立了評估李果實SSC含量和硬度度的校正模型, 用以對不同品種的李果實進行分類, 預測結果得出SSC的交叉驗證的標準誤差和決定系數(shù)分別為0.77, 0.83[11]。 Louw等建立了波長為800~2 700 nm范圍內(nèi)的傅里葉變換近紅外反射模型對李果實SSC和TA及糖酸比指標進行預測, 也取得了較好的結果[12]。 白鳳華等使用偏最小二乘法結合近紅外光譜定量檢測了李果實的堅實度, 其模型校正相關系數(shù)、 校正和預測均方根誤差分別為0.878 1, 1.22和1.51 kg·cm-2[13]。 上述研究為近紅外光譜無損預測“安哥諾”李果實內(nèi)部品質(zhì)的提供了重要參考。
本研究提出一種使用杠桿值和F概率值進行異常樣品剔除、 人工篩結合軟件自動優(yōu)化比較不同波段和不同光譜預處理方法優(yōu)化分析模型, 采用偏最小二乘法、 主成分分析結合反向傳播人工神經(jīng)網(wǎng)絡兩種算法建模, 通過實驗對比尋求最佳建模方案, 建立了適用于“安哥諾”李果實SSC和TA的定量分析模型, 為實現(xiàn)快速無損檢測“安哥諾”李品質(zhì)提供技術支撐。
“安哥諾”李采摘自河北省保定市易縣獨樂村商品李果園。 對采摘以后的李果實清洗晾干, 挑選果形正常、 色澤一致且無機械損傷的李果實樣品, 用于測定SSC的樣品數(shù)目為583個、 TA的樣品數(shù)目為402個并對其標記。
使用MPA近紅外光譜儀及漫反射附件(Bruker, 德國)采集李果實的漫反射光譜, 光譜采集范圍為4 000~12 500 cm-1, 分辨率設定為8 cm-1, 掃描次數(shù)32, 儀器光源為20 W鎢鹵燈, 檢測器為PbS, 所使用的光譜采集軟件為布魯克公司的OPUS 6.5。
以儀器內(nèi)置的金背景作為背景光譜, 對李果實樣品赤道部位每隔120°進行1次光譜掃描, 共得到3條掃描光譜, 而后取其平均光譜作為該樣品的原始光譜用于分析。
采集李果實樣品的近紅外光譜后, 取光譜采集點處的果肉擠壓果汁, 使用PAL-1型數(shù)顯糖量計(Atago, 日本)測量SSC含量。
總酸含量的分析則依據(jù)GB/T 12456—2008進行。 精確稱取5.00 g李果實樣品置于研缽中, 充分研磨至果漿狀后完全轉(zhuǎn)移至10 mL離心管中, 經(jīng)超聲振蕩30 min及離心10 min后, 取上清液于錐形瓶中作為待測溶液。 以酚酞作為指示劑, 使用0.10 mol·L-1的氫氧化鈉溶液滴定至待測液呈微紅色且30 s內(nèi)不褪色為終點。 計算出可滴定酸的數(shù)值。
使用杠桿值和F概率值進行異常樣品剔除及偏最小二乘法(partial least squares, PLS)建模和優(yōu)化均使用OPUS 6.5軟件, 使用消除常數(shù)偏移量、 減去一條直線、 矢量歸一化(standard normal variate, SNV)、 最大-最小歸一化、 多元散射校正(multiplicative scatter correction, MSC)、 一階和二階導數(shù)結合平滑處理、 一階導數(shù)結合減去一條直線和平滑處理、 以及一階導數(shù)結合SNV或MSC校正等光譜預處理方法[14]。 用MATLAB 7.0軟件提取樣品全光譜數(shù)據(jù)的主成分, 并進行神經(jīng)網(wǎng)絡的建模和優(yōu)化。
安哥諾李果實的近紅外光譜的圖如圖1所示。 在9 000~12 500 cm-1波段范圍內(nèi), 李果實光譜包含較多的噪聲, 而4 000~9 000 cm-1光譜波段中所包含的光譜噪聲則相對較少, 且在波數(shù)7 134, 5 264和4 463 cm-1附近有較為明顯的吸收峰, 可能是由于李果實中的SSC和TA等成分所包含的基團(C—H, O—H, N—H)對近紅外光譜吸收不同所導致, 可為光譜與SSC和TA建立關系提供理論基礎。 其中, 7 134 cm-1附近的吸收峰可能與O—H鍵伸縮振動的一級倍頻吸收有關, 5 264 cm-1附近的吸收峰與水中O—H鍵的伸縮和變形振動的吸收相關, 而4 463 cm-1附近的吸收峰則可能與NH3基團的變形振動和N—H鍵伸縮振動吸收有關[14]。
圖1 李果實的近紅外光譜
在對李果實品質(zhì)進行定量分析過程中, 建模樣品的各指標濃度的檢測精度、 分布情況和覆蓋范圍對所建模型的性能優(yōu)劣具有一定的影響。 圖2(a,b)分別為李果實樣品的SSC、 TA兩個指標含量的頻率分布圖。 由圖2可知, 各指標濃度數(shù)據(jù)的分布情況均大體呈現(xiàn)正態(tài)分布的趨勢, 說明本實驗所獲得的李果實樣品的SSC、 TA兩個指標的濃度值具有一定的代表性, 可用于對李果實SSC、 TA進行分析。
圖2 李果實樣品SSC (a)和TA (b)含量頻率分布圖
2.3.1 有效波段篩選及樣品集分配
(1)有效波段篩選
由圖1可知, 李果實的近紅外光譜在9 000~12 500 cm-1范圍內(nèi)沒有較為明顯的吸收峰且包含的噪音也相對較多。 因此, 將該范圍的光譜除去, 對剩余波段中包含明顯吸收峰的光譜范圍進行手動選取和組合, 結合軟件自動優(yōu)化, 分別進行SSC、 TA的定量建模, 并比較不同波段的建模效果, 如表1。
表1 不同波段建模效果比較
由表1可以看出, 對于SSC的最佳波段范圍為4 000~8 852 cm-1, 在剔除完10個異常樣品后, 該模型的相關系數(shù)較高, 且校正集和交叉驗證的標準誤差都有所下降, 模型性能趨于穩(wěn)定。 TA指標的最優(yōu)波段覆蓋范圍為4 605~6 523 cm-1, 因而最終選取該波段用于定量建模分析。
(2)樣品集數(shù)據(jù)統(tǒng)計
對有效波段進行篩選后, SSC、 TA指標的剩余樣品數(shù)分別為573個、 397個。 根據(jù)SSC、 TA的數(shù)值大小分別對各指標所對應的全部樣品進行排序, 并將最大值和最小值樣品歸入校正集, 其余樣品則按照大約2∶1的比例隨機分為校正集和預測集。 李果實各指標的校正集和預測集樣品的數(shù)據(jù)統(tǒng)計數(shù)據(jù)如表2所示。
表2 李果實SSC、 TA校正集和預測集樣品統(tǒng)計數(shù)據(jù)
2.3.2 定量模型的建立和優(yōu)化
(1)偏最小二乘法
在各指標的最佳光譜范圍內(nèi), 比較了不同的光譜預處理方法對各預測模型的影響, 表3—表5分別列出了結合不同光譜預處理方法的SSC、 TA含量的建模效果。
表3 不同光譜預處理方法下SSC建模性能比較
表4 不同光譜預處理方法下TA建模性能比較
由表3可知, SSC含量的定量模型在經(jīng)過最大-最小歸一化、 一階微分(平滑點數(shù): 17)和二階微分(平滑點數(shù): 17和25)等光譜預處理方法處理后, 原始光譜的模型性能無論是校正集還是預測集均有所下降; 盡管平滑點數(shù)為5和25的一階微分處理方法能夠略微提高模型預測集的性能, 但其校正集性能卻變差, 從而影響了模型的整體性能; 而消除常數(shù)偏移量、 減去一條直線、 SNV、 MSC校正、 一階微分結合減去一條直線(平滑點數(shù): 5)、 一階微分分別結合SNV和MSC校正(平滑點數(shù): 25)等方法則使原始光譜的模型性能有所改善, 尤其是經(jīng)過MSC校正方法預處理后, 原始光譜的模型性能改善情況相對較為明顯。 因此, 基于4 000~8 852 cm-1波段范圍結合MSC校正的預處理方法建立了李果實SSC近紅外定量檢測模型, 最佳模型的定量結果如圖3(a)所示。
圖3 PLS模型對李果實(a)SSC、 (b)TA的定量結果
由表4可知, SNV、 MSC校正、 一階微分(平滑點數(shù): 17)以及一階微分結合SNV(平滑點數(shù): 9和25)等預處理方法均能夠改善李果實TA原始光譜模型的相關性和預測精度, 且由表4數(shù)據(jù)可知, 經(jīng)一階微分結合SNV和9點平滑方法處理后的TA模型效果最佳, 其校正集和預測集的相關系數(shù)都得到提升且誤差均有所下降; 最大-最小歸一化、 一階微分結合25點平滑以及二階微分結合17點平滑等方法達不到從總體上提高模型性能的效果; 而消除常數(shù)偏移量、 減去一條直線、 二階微分結合25點平滑、 一階微分結合減去一條直線(平滑點數(shù): 5)以及一階微分結合MSC校正(平滑點數(shù): 25)等預處理方法則使TA原始光譜模型的性能變差。 即TA的最佳PLS模型是經(jīng)一階微分結合SNV和9點平滑處理后得到的, 見圖3(b)。
(2)神經(jīng)網(wǎng)絡
采用反向傳播人工神經(jīng)網(wǎng)絡(back propagating artificial neutral net, BP-ANN)建模算法對李果實各品質(zhì)指標進行定量分析。 首先使用MATLAB軟件提取李果實所有樣品全波段光譜數(shù)據(jù)的主成分, SSC、 TA前10主成分得分的累積百分比分別達到99.686%和98.614%。 因而, 采用這兩個指標的前10主成分代替原始光譜建模是可行的。 將各指標的前10主成分得分作為BP-ANN模型的輸入變量, 建立各自的近紅外定量分析模型。
構建一個三層的BP神經(jīng)網(wǎng)絡, 用以建立李果實SSC、 TA的定量模型。 由于將前10主成分得分作為BP-ANN模型的輸入變量, 因而各模型的輸入層節(jié)點數(shù)均設為10, 輸出層節(jié)點數(shù)為1, 其他各項參數(shù)見表5。
表5 李果實SSC、 TA的 BP-ANN定量模型的參數(shù)
表6 不同隱層節(jié)點數(shù)對李果實SSC定量模型的影響
表7 不同隱層節(jié)點數(shù)對李果實TA定量模型的影響
表6和表7分別比較了不同隱含層節(jié)點數(shù)所對應的李果實SSC、 TA的BP-ANN定量模型的性能。 由表7和表8可以看出, 當SSC和TA指標的隱含層節(jié)點數(shù)分別設為18和19時, 其BP-ANN模型的性能達到最優(yōu)。 其中, SSC和TA最佳BP-ANN模型校正集和預測集的R分別為0.976 7, 0.889 7和0.974 3, 0.897 7; 二者的校正和預測均方根誤差分別是0.75, 0.99和0.62, 0.83。 其最佳定量模型分別如圖4(a,b)所示。 李果實SSC、 TA的PLS和BP-ANN定量分析模型的結果比較如表8所示。 與PLS定量模型結果相比, BP-ANN模型性能均有較大的改善, 即BP-ANN模型對SSC和TA指標的定量分析結果更精準可靠。
圖4 BP-ANN模型對李果實(a)SSC和(b)TA的定量結果
表8 李果實SSC、 TA的PLS和BP-ANN模型的定量結果
建立并優(yōu)化了基于PLS和BP-ANN算法的李果實的SSC、 TA的定量分析模型。
(1)比較了李果實SSC、 TA指標的不同波段的PLS建模效果, 最終確定各指標的最佳波段范圍分別為4 000~8 852和4 605~6 523 cm-1。 采用PLS法分別建立這兩個指標的定量分析模型, 通過比較不同的光譜預處理方法得出, SSC的PLS模型的最佳光譜預處理方法均為MSC校正, 經(jīng)該方法處理后, SSC最佳PLS模型校正集與預測集的R和均方根誤差分別為0.914 4, 0.878 5和0.91, 1.00。 采用一階微分結合SNV和9點平滑的方法預處理后, TA指標的PLS模型效果較佳, 校正集的R和均方根誤差分別為0.860 3和0.80, 預測集的分別為0.819 6和0.86。
(2)提取了李果實SSC、 TA樣品光譜數(shù)據(jù)主成分, 并基于前10主成分得分建立這兩個指標的BP-ANN定量分析模型。 經(jīng)對不同隱含層節(jié)點數(shù)進行比較后確定各指標的最佳BP-ANN模型。 其中, SSC最優(yōu)BP-ANN模型校正集和預測集的R分別為0.976 7和0.889 7, RMSEC和RMSEP依次為0.75和0.99; TA的BP-ANN模型的相應參數(shù)值依次為0.974 3, 0.897 7, 0.62, 0.83。 與采用PLS算法建立的定量模型相比較, BP-ANN模型具有較高的Rc,Rp和較低的RMSEC, RMSEP, 因此BP-ANN模型對SSC和TA指標的定量分析結果更佳。
本研究采用PLS和BP-ANN兩種算法分別建立了安哥諾李果實主要品質(zhì)指標的定量分析模型, 并取得了良好的結果, 證實了近紅外光譜分析技術無損快速檢測李果實品質(zhì)的可行性, 同時也為近紅外技術在其他果實檢測分析的應用提供參考。