張晨,朱玉杰,馮國紅
(東北林業(yè)大學(xué) 工程技術(shù)學(xué)院,黑龍江 哈爾濱,150040)
藍(lán)莓,又稱越橘,屬杜鵑花科越橘屬植物,富含花青素、維生素C、可溶性固形物等營養(yǎng)成分,具有抗癌、抗氧化衰老、調(diào)節(jié)血糖濃度、預(yù)防心血管疾病等功能[1],被譽(yù)為漿果之王。藍(lán)莓采收季節(jié)較強(qiáng),鮮果含水量高,容易受到擠壓損傷,采摘后容易變質(zhì)[2],因此通常采用低溫貯藏技術(shù)延長保質(zhì)期。在貯藏期間,藍(lán)莓品質(zhì)會隨貯藏時間延長而快速變化,進(jìn)而影響產(chǎn)品銷售和深加工環(huán)節(jié),因此建立一種高效準(zhǔn)確無損的檢測方法對當(dāng)前藍(lán)莓產(chǎn)業(yè)的發(fā)展具有重要意義。
由于擁有快速和無損的優(yōu)勢,近紅外光譜技術(shù)在農(nóng)業(yè)[3-5]、林業(yè)[6-8]和中草藥[9-10]等領(lǐng)域得到廣泛應(yīng)用。例如孫曉榮等[11]利用近紅外光譜技術(shù)實(shí)現(xiàn)快速無損檢測小麥粉的品質(zhì),劉翠玲等[12]利用近紅外光譜技術(shù)實(shí)現(xiàn)對京郊鮮食杏品質(zhì)的快速無損檢測,湯文濤等[13]利用近紅外光譜技術(shù)對山核桃的蛋白質(zhì)和脂肪含量進(jìn)行快速檢測,關(guān)曄晴等[14]利用近紅外光譜技術(shù)實(shí)現(xiàn)對蜜桃果實(shí)內(nèi)部品質(zhì)快速檢測。
當(dāng)前對藍(lán)莓各成分無損檢測研究較多[15-19],但模型準(zhǔn)確度和泛化能力均有待提高。本文以丹東瑞卡藍(lán)莓和綠寶石藍(lán)莓為研究對象,通過實(shí)驗(yàn)獲得瑞卡藍(lán)莓不同貯藏時間和綠寶石藍(lán)莓不同成熟度的近紅外光譜、花青素、可溶性固形物和維生素C相關(guān)數(shù)據(jù),使用競爭性自適應(yīng)重加權(quán)采樣法(competitive adaptive reweighted sampling, CARS)對預(yù)處理光譜進(jìn)行特征波長篩選,將支持向量回歸(support vector regression, SVR)、極端梯度上升(extreme gradient boosting, XGBoost)和多層感知機(jī)(multilayer perceptron, MLP)作為基模型,采用Stacking融合策略,建立基于集成學(xué)習(xí)的藍(lán)莓貯藏品質(zhì)無損檢測模型。研究結(jié)果表明,與SVR、XGBoost和MLP模型相比,本文所提出的Stacking集成學(xué)習(xí)模型具有更高的精度、穩(wěn)定性和泛化能力,可為藍(lán)莓無損檢測研究提供新的思路。
本實(shí)驗(yàn)選用品種相近,果實(shí)大小相同,果皮無損傷的遼寧丹東瑞卡藍(lán)莓和綠寶石藍(lán)莓作為樣本,瑞卡藍(lán)莓成熟度相同,綠寶石藍(lán)莓成熟度不同,每個樣本中含有20枚果實(shí),瑞卡藍(lán)莓共計(jì)150個樣本,綠寶石藍(lán)莓共計(jì)30個樣本。將瑞卡藍(lán)莓樣本進(jìn)行編號,放置在4 ℃的生化培養(yǎng)箱中進(jìn)行貯藏,之后在第0、3、6、9、12天分別測量30個樣本的近紅外光譜、可溶性固形物、維生素C和花青素含量。將綠寶石藍(lán)莓進(jìn)行編號,在第0天測量所有樣本的近紅外光譜、可溶性固形物、維生素C和花青素含量。
LabSpec 5000型光譜儀,美國ASD公司;LYT-330手持式折光儀,上海淋譽(yù)公司;UV-1801紫外可見分光光度計(jì),北京北分瑞利公司;SPX-70BⅢ型生化培養(yǎng)箱,天津泰斯特公司。
本實(shí)驗(yàn)采用近紅外光譜儀及其漫反射組件對藍(lán)莓近紅外光譜進(jìn)行采集,在采集過程中為了減小誤差,對樣本中的每個果實(shí)采集3次光譜,將60個光譜的平均值作為該樣本的近紅外光譜數(shù)據(jù)。儀器參數(shù)設(shè)定:光譜波長范圍為500~2 300 nm,采集間隔1 nm,掃描次數(shù)32。原始光譜圖和瑞卡藍(lán)莓不同貯藏時間平均光譜圖如圖1所示。
A-藍(lán)莓原始光譜曲線;B-瑞卡藍(lán)莓不同貯藏時間平均光譜曲線圖1 藍(lán)莓近紅外光譜曲線Fig.1 Near infrared spectrum curve of blueberry
本實(shí)驗(yàn)采用折光儀對藍(lán)莓可溶性固形物的含量進(jìn)行采集。在使用蒸餾水對折光儀進(jìn)行零點(diǎn)校正后,吸取樣本果汁滴入折光儀進(jìn)行讀數(shù),獲取樣本中可溶性固形物含量,其中每個樣本測量3次,將3次平均值作為該樣本的可溶性固形物數(shù)據(jù)。
樣本中維生素C和花青素含量通過標(biāo)準(zhǔn)曲線法進(jìn)行測量,參考文獻(xiàn)[20]中的方法,分別制作出維生素C 標(biāo)準(zhǔn)曲線和花青素標(biāo)準(zhǔn)曲線。從樣本中取出2 g藍(lán)莓,加入2 mL的10%(體積分?jǐn)?shù))HCl溶液進(jìn)行研磨,使用蒸餾水定容至25 mL;取出2 mL溶液,加入0.2 mL 10% HCl和0.4 mL 1% HCl,用蒸餾水定容至10 mL,最后使用分光光度計(jì)測量其243 nm處吸光度,查找標(biāo)準(zhǔn)曲線,計(jì)算出樣本維生素C的含量。從樣本中取出2 g藍(lán)莓,加入少量1%(體積分?jǐn)?shù))鹽酸-甲醇溶液,研磨后繼續(xù)使用溶液定容至20 mL,之后放置在4 ℃的保溫箱中25 min。靜置完成后過濾溶液,放置在離心機(jī)(4 000 r/min)中離心10 min,取出上層清液1 mL,使用蒸餾水稀釋至8 mL,測出吸光度,查找標(biāo)準(zhǔn)曲線,計(jì)算出樣本花青素含量。瑞卡藍(lán)莓可溶性固形物、花青素和維生素C平均測量值隨貯藏時間變化如圖2所示。
圖2 瑞卡藍(lán)莓不同貯藏時間平均理化指標(biāo)曲線Fig.2 Average physicochemical index curve of Ricca blueberries at different storage times
由圖2可知,在貯藏期間,可溶性固形物含量呈上升趨勢,花青素和維生素C含量呈下降趨勢,這與文獻(xiàn)[21]的實(shí)驗(yàn)結(jié)果具有一致性。將可溶性固形物、花青素和維生素C進(jìn)行標(biāo)準(zhǔn)化處理,采用主成分分析的方法構(gòu)建藍(lán)莓貯藏品質(zhì)綜合得分[22-23],首先對上述指標(biāo)進(jìn)行主成分分析,構(gòu)建3個新的相互獨(dú)立的綜合指標(biāo),其次按照各綜合指標(biāo)的方差貢獻(xiàn)率,對綜合指標(biāo)進(jìn)行加權(quán)求和,計(jì)算每個藍(lán)莓樣本的綜合得分,瑞卡藍(lán)莓樣本綜合得分如圖3所示。
圖3 綜合得分圖Fig.3 Comprehensive score distribution
參照NY/T 3033—2016《農(nóng)產(chǎn)品等級規(guī)格 藍(lán)莓》的規(guī)定,根據(jù)藍(lán)莓貯藏品質(zhì)綜合得分,采用K均值聚類方法(K-means clustering,K-means),將瑞卡藍(lán)莓150個樣本分為三類,其中一級品可溶性固形物、花青素和維生素C的均值分別為10.4、10.3、20.4;二級品均值分別為11.1、8.8、17.0;三級品均值分別為11.9、7.3、13.1。樣本中貯藏品質(zhì)隨貯藏時間變化如圖4所示,可以明顯看出隨著貯藏時間的延長,一級品數(shù)量在前3天內(nèi)快速減少,在后9天內(nèi)緩慢減少,三級品數(shù)量在前6天內(nèi)緩慢增加,在后6天內(nèi)快速增加。
圖4 貯藏品質(zhì)變化曲線Fig.4 Variation curve of storage quality
本文采用光譜-理化值共生距離法(sample set partitioning based on joint X-Y distance, SPXY)將瑞卡藍(lán)莓樣本劃分為訓(xùn)練集和驗(yàn)證集,其中訓(xùn)練集和驗(yàn)證集的比例為4:1,綠寶石藍(lán)莓樣本為測試集。SPXY是基于K-S(Kennard-Stone)算法提出的一種改進(jìn)方法,K-S算法依據(jù)特征維度歐氏距離對數(shù)據(jù)集進(jìn)行劃分;而SPXY算法,在此基礎(chǔ)上增加了對不同樣本標(biāo)簽維度方向的歐氏距離的計(jì)算,并通過正則化將2種距離結(jié)合,更加全面地評估和劃分?jǐn)?shù)據(jù)集。特征維度歐氏距離、標(biāo)簽維度歐式距離和正則距離計(jì)算如公式(1)~公式(3)所示。樣本劃分結(jié)果如表1所示。
表1 訓(xùn)練集樣本和測試集樣本結(jié)果統(tǒng)計(jì)Table 1 results statistics of training set samples and test set samples
(1)
(2)
(3)
式中:p,q為數(shù)據(jù)集中的一對樣本;J表示特征維度;maxp,q∈[1,N]dx(p,q)和maxp,q∈[1,N]dy(p,q)分別為數(shù)據(jù)集中最大特征維度歐氏距離和最大標(biāo)簽維度歐式距離。
由于藍(lán)莓果實(shí)外形的差異以及環(huán)境的影響,原始光譜存在大量干擾信息,主要表現(xiàn)為光源散射、基線重疊和噪聲,因此為了減少相關(guān)因素的影響,需要對光譜數(shù)據(jù)進(jìn)行預(yù)處理。本文選用標(biāo)準(zhǔn)正態(tài)變換(standard normal variate transformation, SNV)、數(shù)據(jù)標(biāo)準(zhǔn)化(Z-score standardization, Z-score)、一階導(dǎo)數(shù)(first derivative, 1st-D)、二階導(dǎo)數(shù)(second derivative, 2nd-D)4種預(yù)處理方法對原始光譜進(jìn)行處理,選用偏最小二乘方法(partial least squares regression, PLSR)對預(yù)處理后的數(shù)據(jù)進(jìn)行建模,采用相關(guān)系數(shù)R2、均方根誤差(root mean square error, RMSE)和相對分析誤差(relative percent deviatio, RPD)對模型進(jìn)行評價,計(jì)算方法如公式(4)~公式(6)所示:
(4)
(5)
(6)
通常所建模型的RMSE越小,R2越接近1,預(yù)測效果越好,但是在實(shí)際建模過程中,一般設(shè)定R2為0.66~0.80時,剛好達(dá)到預(yù)測效果;R2為0.81~0.90時,預(yù)測效果較好;R2>0.90時,預(yù)測效果最佳。RPD主要對模型可靠性進(jìn)行衡量,當(dāng)RPD<1.4時,認(rèn)為所建模型可靠;當(dāng)RPD為1.4~2.0時,認(rèn)為所建模型較可靠;當(dāng)RPD>2.0時,則認(rèn)為所建模型有較高可靠性,能夠用于模型分析。各種光譜預(yù)處理方法建模結(jié)果如表2所示。
表2 不同光譜預(yù)處理方法建模結(jié)果Table 2 modeling results of different spectral pretreatment methods
從表2可知,采用預(yù)處理方法后能夠大幅提高模型的相關(guān)系數(shù)和相對分析誤差,減少RMSE,其中可溶性固形物、維生素C和花青素最優(yōu)模型的R2均大于0.81,RPD均大于2,說明采用近紅外光譜對藍(lán)莓貯藏品質(zhì)進(jìn)行無損檢測是可行的。由表2可知,可溶性固形物最優(yōu)預(yù)處理方法為Z-score+1st-D;維生素C最優(yōu)預(yù)處理方法為Z-score+2nd-D;花青素最優(yōu)預(yù)處理方法為SNV+1st-D。
預(yù)處理后的光譜數(shù)據(jù)中含有大量的冗余信息,嚴(yán)重影響模型的魯棒性和準(zhǔn)確性,為了簡化模型結(jié)果和提高預(yù)測精度,本文使用競爭性自適應(yīng)重加權(quán)采樣法(competitive adaptive reweighted sampling, CARS)對藍(lán)莓近紅外光譜特征波長進(jìn)行篩選。由于CARS算法具有隨機(jī)性,本文多次重復(fù),選擇選取最佳波段,算法迭代過程中RMSE以及被選擇波長數(shù)量變化如圖5所示,最優(yōu)波長數(shù)量信息如表3所示。
表3 最優(yōu)波長數(shù)量信息表Table 3 Optimal wavelength number information table
A-RMSE曲線變化;B-波長數(shù)量曲線變化圖5 RMSE和波長數(shù)量變化圖Fig.5 RMSE and wavelength number changes
集成學(xué)習(xí)是訓(xùn)練多個機(jī)器學(xué)習(xí)模型并將其輸出組合在一起的過程,致力構(gòu)建一個最優(yōu)的預(yù)測模型。集成學(xué)習(xí)可以提高整體模型的穩(wěn)定性,從而獲得更準(zhǔn)確的預(yù)測結(jié)果,其關(guān)鍵在于基模型的選擇和融合。
本文利用K鄰近算法(K-nearest neighbor, KNN),隨機(jī)森林(random forest, RF)等10余種常見機(jī)器學(xué)習(xí)模型對數(shù)據(jù)進(jìn)行訓(xùn)練,其中SVR對數(shù)據(jù)異常值具有魯棒性,訓(xùn)練速度快,泛化能力強(qiáng);XGBoost對于中低維數(shù)據(jù)有很好的處理速度和精度,具有一定的抗噪能力;MLP具有自適應(yīng)自學(xué)習(xí)能力,對數(shù)據(jù)擬合能力強(qiáng),預(yù)測精度高。
2.1.1 SVR
SVR是一種回歸模型,與一般線性回歸相比,SVR首先在損失計(jì)算上不考慮間隔帶ε范圍內(nèi)的誤差;其次通過最大化間隔帶的寬度與最小化損失函數(shù)來優(yōu)化模型。SVR算法回歸估計(jì)函數(shù)如公式(7)所示,其中w,b分別為系數(shù)矩陣和常數(shù)項(xiàng),φ(x)為樣本數(shù)據(jù)與高維特征空間的映射函數(shù)。利用公式(8)計(jì)算得到w和b:
(7)
(8)
2.1.2 XGBoost
XGBoost是基于提升樹的Boosting算法,其原理是把每個弱模型的輸出結(jié)果當(dāng)成連續(xù)值,使得損失函數(shù)連續(xù),進(jìn)而通過對弱模型迭代達(dá)到損失函數(shù)最小,最終完成對整個模型的優(yōu)化。XGBoost最終預(yù)測結(jié)果為所有弱模型輸出結(jié)果之和,計(jì)算方法如公式(9)所示:
(9)
XGBoost目標(biāo)函數(shù)如公式(10)所示:
(10)
式中:n表示樣本數(shù)量,yi表示樣本i的真實(shí)值,l為真實(shí)值和預(yù)測值之間的損失函數(shù),Ω為弱模型的復(fù)雜度函數(shù),c為公式合并后的常數(shù)項(xiàng)。
2.1.3 多層感知機(jī)(multilayer perceptron, MLP)
MLP也稱為人工神經(jīng)網(wǎng)絡(luò),其結(jié)構(gòu)包括輸入層、輸出層和隱藏層,通過線性變換和非線性函數(shù)激活的方式進(jìn)行特征變換,使用小批量梯度下降和反向傳播更新MLP中的參數(shù),最后完成對整個模型的優(yōu)化。損失函數(shù)的計(jì)算如公式(11)所示:
(11)
按照基模型是否相同,融合策略可以分為同質(zhì)集成和異質(zhì)集成,其中同質(zhì)集成按照基模型之間是否存在依賴關(guān)系,可以分為并行Bagging集成和串行Boosting集成;異質(zhì)集成按照元模型訓(xùn)練數(shù)據(jù)選取的不同,可以分為Stacking集成和Blending集成。為了充分利用樣本數(shù)據(jù),本文采用Stacking集成策略融合SVR、XGBoost和MLP建立藍(lán)莓貯藏品質(zhì)無損檢測模型,算法整體架構(gòu)如圖6所示,其流程共分為5步。
圖6 Stacking集成學(xué)習(xí)整體架構(gòu)圖Fig.6 Stacking ensemble learning architecture
a)如圖7所示,在訓(xùn)練SVR、XGBoost和MLP 3個基模型時,將訓(xùn)練集數(shù)據(jù)劃分為5個相等的集合,取其中一份進(jìn)行預(yù)測,其余進(jìn)行訓(xùn)練。
圖7 基模型數(shù)據(jù)流程圖Fig.7 Base model data flow diagram
b)每個基模型都要進(jìn)行5折疊交叉驗(yàn)證,驗(yàn)證完成后,將訓(xùn)練集預(yù)測結(jié)果合并構(gòu)成元模型訓(xùn)練集特征。
c)使用所有基模型的交叉驗(yàn)證模型,對驗(yàn)證集和測試集進(jìn)行預(yù)測,將得到的5次預(yù)測結(jié)果求取平均值,獲得元模型驗(yàn)證集特征和測試集特征。
d)如圖6所示,將獲得的3個特征進(jìn)行合并,構(gòu)建元模型XGBoost的訓(xùn)練集、驗(yàn)證集和測試集。
e)利用新的訓(xùn)練集、驗(yàn)證集和測試集對元模型XGBoost進(jìn)行訓(xùn)練、驗(yàn)證和測試,得到最終結(jié)果。
為了檢驗(yàn)本文提出的Stacking集成學(xué)習(xí)算法的有效性,將其與SVR、XGBoost、MLP算法進(jìn)行比較,各算法建模結(jié)果如表4所示。與其他單一預(yù)測模型相比,本文所提出的Stacking集成學(xué)習(xí)效果最優(yōu),其中維生素C預(yù)測模型相關(guān)系數(shù)R2為0.872 6,RMSE為0.566 4,RPD為2.801 6;可溶性固形物預(yù)測模型相關(guān)系數(shù)R2為0.881 4,RMSE為0.696 3,RPD為2.903 7;花青素預(yù)測模型相關(guān)系數(shù)R2為0.905 5,RMSE為1.693 9,RPD為3.253。上述所有模型的相關(guān)系數(shù)R2均大于0.81,RPD均大于2,說明本文所提出的模型具有較高的精度和穩(wěn)定性,以及良好的泛化性。維生素C、可溶性固形物和花青素測測試集的預(yù)測值與真實(shí)值分布散點(diǎn)圖如圖8~圖10所示。
表4 不同算法建模結(jié)果Table 4 Modeling results of different algorithm
A-SVR模型散點(diǎn)圖;B-XGBoost模型散點(diǎn)圖;C-MLP模型散點(diǎn)圖;D-Stacking模型散點(diǎn)圖圖8 維生素C預(yù)測值與真實(shí)值散點(diǎn)圖Fig.8 Scatter plot of predicted and true values of vitamin C
A-SVR模型散點(diǎn)圖;B-XGBoost模型散點(diǎn)圖;C-MLP模型散點(diǎn)圖;D-Stacking模型散點(diǎn)圖圖9 可溶性固形物預(yù)測值與真實(shí)值散點(diǎn)圖Fig.9 scatter plot of predicted and true values of soluble solids content
A-SVR模型散點(diǎn)圖;B-XGBoost模型散點(diǎn)圖;C-MLP模型散點(diǎn)圖;D-Stacking模型散點(diǎn)圖圖10 花青素預(yù)測值與真實(shí)值散點(diǎn)圖Fig.10 Scatter plot of predicted and true values of anthocyanin
本文以品種相近的丹東瑞卡藍(lán)莓和綠寶石藍(lán)莓為研究對象,采集不同貯藏時間的瑞卡藍(lán)莓和不同成熟度的綠寶石藍(lán)莓近紅外反射光譜和理化指標(biāo),之后利用4種算法,建立藍(lán)莓貯藏品質(zhì)無損檢測模型,最終得出如下結(jié)論:
a)通過比較4種光譜預(yù)處理方法,發(fā)現(xiàn)可溶性固形物最優(yōu)預(yù)處理方法為Z-score+1st-D,維生素C最優(yōu)預(yù)處理方法為Z-score+2nd-D,花青素最優(yōu)預(yù)處理方法為SNV+1st-D。
b)采用競爭性自適應(yīng)重加權(quán)采樣法對預(yù)處理光譜進(jìn)行處理,能夠有效對特征波長進(jìn)行篩選,簡化了模型復(fù)雜度,提高了預(yù)測精度。
c)與SVR,XGBoost和MLP模型相比,本文所提出的Stacking集成學(xué)習(xí)模型具有更高的精度和穩(wěn)定性,以及更好的泛化能力,其中維生素C預(yù)測模型的相關(guān)系數(shù)R2為0.872 6,可溶性固形物預(yù)測模型的相關(guān)系數(shù)R2為0.881 4,花青素預(yù)測模型的相關(guān)系數(shù)R2為0.905 5。