黃 華,劉 亞,庫爾班古麗·都力昆,曾繁琳,瑪依熱·麥麥提,阿瓦古麗·麥麥提,買地努爾汗·艾則孜,郭俊先
1. 新疆農(nóng)業(yè)大學(xué)數(shù)理學(xué)院,新疆 烏魯木齊 830052 2. 新疆農(nóng)業(yè)科學(xué)院綜合試驗(yàn)場,新疆 烏魯木齊 830013 3. 新疆農(nóng)業(yè)大學(xué)機(jī)電工程學(xué)院,新疆 烏魯木齊 830052
蘋果是一種常見的水果,富含豐富的糖類、花青素、維生素和礦物質(zhì)等營養(yǎng)物質(zhì),容易被人體吸收,素有“活水”之稱,可以溶解硫元素,促使皮膚光滑柔嫩,深受人們喜愛??扇苄怨绦挝锖?soluble solids content,SSC)是反映和決定水果品質(zhì)和成熟度的主要指標(biāo)之一,SSC測定是林果產(chǎn)品加工和食品營養(yǎng)研究中的基礎(chǔ)問題之一[1]。傳統(tǒng)的SSC含量測定有濕化學(xué)酸堿滴定法和折光儀法[4],這些方法需要對樣品部分抽樣并進(jìn)行切割、壓榨等前處理,既耗費(fèi)材料和藥品,又耗時費(fèi)力,效率低下,難以普及推廣,不適宜現(xiàn)場快速個體檢測和工廠化大批量水果品質(zhì)分級。此外,在水果生長過程中,由于光照、水分和肥料營養(yǎng)供給的不均衡性,導(dǎo)致水果采摘時,水果內(nèi)部化學(xué)物質(zhì)成分存在巨大差異,以部分樣本的抽樣測量代替總體樣本,存在一定的誤差。因此,研究一種快速、準(zhǔn)確、無損的SSC檢測方法對監(jiān)測蘋果個體的品質(zhì)和成熟狀況,指導(dǎo)蘋果采收后分級加工和提升蘋果商品化效益具有重要意義。
可見/近紅外光譜技術(shù)是利用可見/近紅外光譜區(qū)有機(jī)分子中的含氫官能團(tuán)的倍頻和合頻吸收原理,依據(jù)官能團(tuán)的吸收強(qiáng)度對被測物質(zhì)進(jìn)行定量和定性分析的一種現(xiàn)代、無損測試技術(shù)。它具有快速簡便、無試劑、過程無污染、多組分同時測定等優(yōu)點(diǎn),已被廣泛應(yīng)用于農(nóng)業(yè)、食品等領(lǐng)域[2-3]。國內(nèi)外學(xué)者已經(jīng)開展了大量可見/近紅外光譜蘋果內(nèi)部品質(zhì)檢測的研究。其中,采集模式方面有使用漫反射[4]、半透射[5]、漫透射[6]及多模式[7]獲取光譜信號,用于檢測蘋果SSC;應(yīng)用光譜成像技術(shù),獲取具有樣本空間位置信息的光譜信號,建立有效的預(yù)測模型[8];也有從研究減少蘋果著色、個體大小差異、測量位置、果皮,以及不同天氣采摘等外部不確定因素對蘋果SSC預(yù)測的影響[9-10],以提高模型的穩(wěn)定性和適應(yīng)性。此外,諸多學(xué)者從波長選擇和光譜建模角度進(jìn)行了廣泛研究,包括主成分回歸[11]、最小二乘支持向量回歸[12]、改進(jìn)無信息變量消除法[13]、CARS-SPA 算法[14]、CARS-Bipls算法[15]、SAE-BPNN模型[16]、區(qū)域組合建模[17]、機(jī)器學(xué)習(xí)[18]、深度學(xué)習(xí)[19]等。
當(dāng)前,利用可見/近紅外光譜進(jìn)行蘋果品質(zhì)檢測的研究多針對成熟采摘后的果實(shí),而關(guān)于生長成熟期內(nèi)蘋果SSC的光譜無損檢測研究較少,且SSC與蘋果成熟度有一定的相關(guān)性。因此,本工作以成熟期內(nèi)蘋果為研究對象,以等間隔采摘周期,采摘一定數(shù)量的蘋果,采集這些蘋果可見/近紅外光譜數(shù)據(jù),測定SSC,然后,結(jié)合分?jǐn)?shù)階微分(fractional differential,FD)及置換重要性-隨機(jī)森林(permutation importance-random forest,PIMP-RF)算法,構(gòu)建成熟期蘋果SSC預(yù)測的集成學(xué)習(xí)模型,以期提高預(yù)測模型的魯棒性和精度,實(shí)現(xiàn)光譜在水果成熟期大田管理、采摘期預(yù)測、內(nèi)部多品質(zhì)檢測和成熟度判別等方面的應(yīng)用。
試驗(yàn)區(qū)位于新疆阿克蘇市紅旗坡農(nóng)場(41°15′N,80°18′E),選擇新疆阿克蘇冰糖心紅富士蘋果為試驗(yàn)樣本,采摘和光譜測定時間為2015年8月20日至10月30日,這段時間為蘋果果實(shí)膨大定形期至果實(shí)成熟的采收期。研究試驗(yàn)地選擇蘋果集中連片種植區(qū)的一戶果園,果園面積5 300 m2,果樹共有264株,樹齡9年,選擇其中30株枝條、樹干、掛果量、位置以及生長狀況基本一致的果樹編碼,用于蘋果采摘。編碼完成后,從8月23日開始,間隔3 d采摘1株果樹上的24個蘋果。蘋果采摘和處置原則:①果樹冠層上、中、下3層,東、西、南、北4個方位,樹冠外圍和內(nèi)部的24個方位作為采摘點(diǎn);②蘋果樣品由人工采摘完成,采摘時,采集大小基本一致、無病蟲害的蘋果,保留果梗,套塑料自封袋;③采摘后,用軟紙巾清除蘋果表面灰塵和雜物,粘貼標(biāo)簽,室溫放置3 h,供后續(xù)采集光譜數(shù)據(jù)和SCC含量測定,所有數(shù)據(jù)均于當(dāng)天在當(dāng)?shù)販y定完成。
選用美國海洋光學(xué)公司的Maya 2000 Pro可見/近紅外光纖光譜儀(波長范圍198~1 118 nm,波長數(shù)2 068個,光學(xué)分辨率0.035 nm,采樣間隔0.42 nm),并配以高能量連續(xù)寬波段HL-2000型20 W鹵鎢燈,通過光纖連接光源與光譜儀,樣品放置于支架的樣品池中進(jìn)行光譜采集??扇苄怨绦挝锖繙y定選用ATAGO PR-101型數(shù)字折光儀(Tokyo,Japan,精度±0.1°Brix)。數(shù)據(jù)分析用MATLAB R2019b軟件和R4.1.2軟件。
1.3.1 光譜采集
光譜采集前,開機(jī)預(yù)熱30 min,之后在配套Ocean Options SpectraSuite采集軟件上選擇反射測量模式,開啟軟件的電子暗噪聲校正和雜散光校正,用標(biāo)準(zhǔn)聚四氟乙烯漫反射白板為背景進(jìn)行參考光譜校正和遮光方式進(jìn)行暗場校正,校正完成后采集光譜。光譜采集參數(shù):平滑度3,平均次數(shù)10,波長范圍:380~1 100 nm;采集環(huán)境參數(shù):室溫(22±2)℃,濕度50%±3%;采集光譜時,選取果實(shí)赤道面上120°均勻分布且無缺陷的3點(diǎn),每個測點(diǎn)采集3條光譜曲線,最終將其平均光譜作為單個蘋果的光譜曲線。本試驗(yàn)共采集552個蘋果的可見/近紅外光譜曲線。
1.3.2 SSC測定
光譜采集后,按NY/T2637—2014《水果和蔬菜制品可溶性固形物的測定折射法》,逐個測定每個樣品的SSC。測定時,分別剜取3個光譜采集位置的體積為15 mm×15 mm×15 mm的果肉組織(含果皮),通過榨汁器獲取汁液,滴于ATAGO PR-101型數(shù)字折光儀的樣液池中,測定蘋果的可溶性固形物含量。測定過程中,每次使用榨汁器和數(shù)字折光儀前,用純凈水和吸水紙清洗干凈,取3次測量的平均值作為單個蘋果可溶性固形物含量值。
1.3.3 分?jǐn)?shù)階微分技術(shù)
基于Grünwald-Letnikov分?jǐn)?shù)階微積分定義進(jìn)行光譜數(shù)據(jù)的分?jǐn)?shù)階微分處理。該定義具體描述為
(1)
(2)
(3)
根據(jù)上述公式,可以實(shí)現(xiàn)光譜數(shù)據(jù)的分?jǐn)?shù)階微分處理。
1.3.4 PIMP-RF算法
隨機(jī)森林是一種以決策樹為基學(xué)習(xí)器的集成算法,它采用套袋法(Bagging)進(jìn)行采樣并構(gòu)建多棵決策樹,通過組合多棵獨(dú)立的決策樹后根據(jù)投票或取均值的方式得到最終預(yù)測結(jié)果。該算法主要應(yīng)用于回歸和分類問題,且具有較高的精確度、泛化能力和可解釋性,是一種極為流行的機(jī)器學(xué)習(xí)算法。隨機(jī)森林基于變量重要性評分(Gini、VIM等)可以實(shí)現(xiàn)變量篩選,Altmann等[20]提出了一種修正隨機(jī)森林Gini指數(shù)偏差的啟發(fā)式方法——置換重要性-隨機(jī)森林(permutation importance-random forest,PIMP-RF)算法。該算法可以有效校正變量重要性度量指標(biāo),且大多數(shù)情況下,其準(zhǔn)確性優(yōu)于隨機(jī)森林。
1.3.5 集成學(xué)習(xí)模型
結(jié)合分?jǐn)?shù)階微分技術(shù)與PIMP-RF算法進(jìn)行集成,構(gòu)建一種集成學(xué)習(xí)模型。具體流程如圖1所示?;舅悸窞?(1)采用不同階次(取0-2階,步長為0.1)的分?jǐn)?shù)階微分預(yù)處理訓(xùn)練集光譜;(2)利用偏最小二乘(partial least squares,PLS)模型優(yōu)選分?jǐn)?shù)階階次(假設(shè)優(yōu)選的分?jǐn)?shù)階階次為α1、α2、…、αn);(3)基于αi階微分光譜及PIMP-RF算法構(gòu)建基學(xué)習(xí)器,并輸出相應(yīng)的預(yù)測結(jié)果;(4)將基學(xué)習(xí)器的預(yù)測結(jié)果組成一個新訓(xùn)練集,并采用K近鄰(K-nearest neighbors,KNN)回歸算法完成集成,得到最終的KNN回歸預(yù)測模型;(5)采用對應(yīng)優(yōu)選階次的分?jǐn)?shù)階微分技術(shù)預(yù)處理測試集光譜,然后基于已建立的基學(xué)習(xí)器,輸出相應(yīng)的預(yù)測結(jié)果;(6)將測試集的基學(xué)習(xí)器預(yù)測結(jié)果構(gòu)成一個新測試集,并基于已建立的KNN回歸預(yù)測模型,輸出最終的預(yù)測結(jié)果。
圖1 集成學(xué)習(xí)模型流程圖Fig.1 The flow chart of ensemble learning model
成熟期內(nèi)蘋果的可見/近紅外光譜如圖2示,在380~1 100 nm范圍內(nèi)反射率值差異較大,變化趨勢基本一致。在可見光400~700 nm波段,光譜反射率較低,并呈現(xiàn)低—高—低的走勢,即藍(lán)光波段430~500 nm低,黃綠波段520~590 nm高,橙紅波段600~680 nm低;在短波近紅外波段,740~930 nm波段反射率較高,在930~1 040 nm波段出現(xiàn)吸收峰,在1 040~1 100 nm波段具有較高的反射率。此外,波段430~450和640~665 nm是葉綠素的吸收峰,波點(diǎn)550 nm是花青素的吸收峰,波點(diǎn)950 nm是水分的吸收峰。
圖2 蘋果樣本的可見/近紅外光譜Fig.2 Visible/near infrared spectra of apple samples
試驗(yàn)期間,蘋果SSC的測定時間周期為3 d,實(shí)測23 d,每天測定24個蘋果,552個蘋果樣本的SSC范圍為8.8~19.4°Brix,均值±標(biāo)準(zhǔn)差等于(13.333±1.999)°Brix。同時,由圖3可知,蘋果果實(shí)膨大定形期至果實(shí)成熟采收期的前20 d,其SSC逐漸遞增,在成熟期末(第21~23天)SSC基本穩(wěn)定,這與實(shí)際相符。
圖3 成熟期蘋果可溶性固形物含量的小提琴圖Fig.3 Violin plot of soluble solids contents of apples at ripening stage
在進(jìn)行集成建模前,需要優(yōu)選分?jǐn)?shù)階微分階次。首先,按照7∶3的比例隨機(jī)劃分訓(xùn)練集和測試集,然后利用分?jǐn)?shù)階微分(選取0-2階,步長取0.1)對原始光譜進(jìn)行分?jǐn)?shù)階微分預(yù)處理,最后利用PLS模型對訓(xùn)練集進(jìn)行擬合,再對測試集進(jìn)行預(yù)測。共進(jìn)行200次重復(fù)實(shí)驗(yàn),如圖4示,為訓(xùn)練集和測試集的相關(guān)系數(shù)r、均方根誤差RMSE的箱形圖。
圖4 基于不同階分?jǐn)?shù)階微分光譜的PLS模型結(jié)果(200次重復(fù)實(shí)驗(yàn))Fig.4 Violin plot of soluble solids contents of apples at ripening stage (200 repeated experiments)
由圖4可知,基于所有階次(0-2階,步長為0.1)的分?jǐn)?shù)階微分處理,建立的PLS模型均具有一定的預(yù)測能力,也說明利用分?jǐn)?shù)階微分技術(shù)對可見/近紅外光譜進(jìn)行預(yù)處理是可行的。同時,結(jié)合訓(xùn)練集和測試集的r、RMSE以及集成學(xué)習(xí)的同質(zhì)異構(gòu)思想,最終優(yōu)選分?jǐn)?shù)階微分階次為0階、0.4階、1.1階和1.6階。
基于優(yōu)選的分?jǐn)?shù)階微分階次,分別對原始光譜訓(xùn)練集進(jìn)行分?jǐn)?shù)階微分預(yù)處理,然后利用PIMP-RF算法建立基學(xué)習(xí)器。在構(gòu)建基學(xué)習(xí)器的同時,可以計(jì)算出不同特征波長的特征變量重要性,同時,利用Altmann方法計(jì)算出變量重要性的統(tǒng)計(jì)顯著性檢驗(yàn)p值。
如圖5(a)所示,未經(jīng)分?jǐn)?shù)階微分處理(0階)時,p值小于等于0.01的特征波長區(qū)間為525~565和650~685 nm,分別對應(yīng)可見光波段的黃綠波段和橙紅波段,且特征波長重要性排序?yàn)榈谝坏氖遣ㄩL535 nm;如圖5(b)所示,經(jīng)0.4階分?jǐn)?shù)階微分處理,p值小于等于0.01的特征波長區(qū)間為520~565和635~685 nm,分別對應(yīng)可見光波段的黃綠波段和橙紅波段,且特征波長重要性排序?yàn)榈谝坏氖遣ㄩL645 nm;如圖5(c)所示,經(jīng)1.1階分?jǐn)?shù)階微分處理,p值小于等于0.01的特征波長區(qū)間為440~720 nm,對應(yīng)可見光波段,且特征波長重要性排序?yàn)榈谝坏氖遣ㄩL615 nm;如圖5(d)所示,經(jīng)1.6階分?jǐn)?shù)階微分處理,p值小于等于0.01的特征波長區(qū)間為443~695 nm,也對應(yīng)可見光波段,且特征波長重要性排序?yàn)榈谝坏氖?05 nm。綜合上述分析結(jié)果可得,利用可見/近紅外光譜技術(shù)預(yù)測成熟期蘋果可溶性固形物含量,其關(guān)鍵波長主要是可見光波段。
圖5 特征變量重要性分析示意圖紅色*表示特征變量重要性的統(tǒng)計(jì)顯著性檢驗(yàn)p值≤0.01;綠色·表示特征重要性的統(tǒng)計(jì)顯著性檢驗(yàn)p值>0.01(a):0 order;(b):0.4 order;(c):1.1 order;(d):1.6 orderFig.5 Violin plot of soluble solids contents of apples at ripening stagered* indicates the p-value of the statistical significance test for the feature importance≤0.01;green · indicates the p-value of the statistical significance test for the feature importance>0.0.1(a):0 order;(b):0.4 order;(c):1.1 order;(d):1.6 order
在基于0階、0.4階、1.1階和1.6階分?jǐn)?shù)階微分光譜和PIMP-RF算法構(gòu)建完成基學(xué)習(xí)器的基礎(chǔ)上,進(jìn)一步利用KNN回歸完成元學(xué)習(xí)器的模型構(gòu)建,從而完成蘋果可溶性固形物含量的集成學(xué)習(xí)模型建立。為比較集成學(xué)習(xí)模型的優(yōu)劣,同時給出融合0階、0.4階、1.1階、1.6階微分預(yù)處理及PIMP-RF算法(分別簡記作FD0-PIMP-RF、FD0.4-PIMP-RF、FD1.1-PIMP-RF、FD1.6-PIMP-RF)的預(yù)測結(jié)果,如表1所示。
表1 不同模型用于蘋果可溶性固形物含量預(yù)測的結(jié)果對比Table 1 Comparing the prediction results of different models for SSC in apples
由表1可知,對于訓(xùn)練集而言,集成學(xué)習(xí)模型的相關(guān)系數(shù)r、平均絕對誤差MAE、均方根誤差RMSE和平均絕對百分誤差MAPE分別等于0.989 2,0.241 2,0.309 1,0.018 3,都優(yōu)于其他模型;對于測試集而言,集成學(xué)習(xí)模型的相關(guān)系數(shù)r、平均絕對誤差MAE、均方根誤差RMSE和平均絕對百分誤差MAPE分別等于0.903 8,0.549 9,0.740 8,0.043 4,其中評價指標(biāo)r、RMSE均優(yōu)于其他模型,指標(biāo)MAE和MAPE略高于FD1.6-PIMP-RF模型,但優(yōu)于其他三個模型。同時,圖6給出不同模型的SSC估測值與SSC實(shí)測值之間的關(guān)系圖。綜合上述分析結(jié)果表明,融合分?jǐn)?shù)階微分技術(shù)與PIMP-RF算法構(gòu)建的集成學(xué)習(xí)模型預(yù)測成熟期蘋果可溶性固形物含量具有可行性。
結(jié)合可見近紅外光譜技術(shù),融合分?jǐn)?shù)階微分技術(shù)與PIMP-RF算法構(gòu)建集成學(xué)習(xí)模型,實(shí)現(xiàn)新疆阿克蘇冰糖心紅富士蘋果的可溶性固形物含量估測,得到如下主要結(jié)論:
(1)利用分?jǐn)?shù)階微分技術(shù)預(yù)處理可見近紅外光譜數(shù)據(jù),可以通過計(jì)算光譜曲線不同階次的分?jǐn)?shù)階微分挖掘出分?jǐn)?shù)階微分層面的更多深層次信息,且基于分?jǐn)?shù)階微分光譜建立的PLS模型均具有一定的預(yù)測能力。
(2)在優(yōu)選分?jǐn)?shù)階微分階次的基礎(chǔ)上,基于預(yù)處理后的分?jǐn)?shù)階微分光譜,利用PIMP-RF算法構(gòu)建基學(xué)習(xí)器,并實(shí)現(xiàn)特征波長的篩選。結(jié)果表明,利用可見近紅外光譜技術(shù)預(yù)測成熟期蘋果可溶性固形物含量的關(guān)鍵波長主要是可見光波段,這為今后新疆阿克蘇冰糖心紅富士蘋果的快速無損檢測設(shè)備研發(fā)提供科學(xué)依據(jù)。
(3)結(jié)合可見近紅外光譜,基于分?jǐn)?shù)階微分技術(shù)和PIMP-RF算法構(gòu)建的成熟期蘋果可溶性固形物含量集成學(xué)習(xí)模型,取得了預(yù)期的預(yù)測效果。結(jié)果表明,集成學(xué)習(xí)模型是最優(yōu)的,其中,訓(xùn)練集的相關(guān)系數(shù)r等于0.989 2,平均絕對誤差MAE等于0.241 2,均方根誤差RMSE等于0.309 1,平均絕對百分誤差等于0.018 3;測試集的相關(guān)系數(shù)r等于0.903 8,平均絕對誤差MAE等于0.549 9,均方根誤差RMSE等于0.740 8,平均絕對百分誤差等于0.043 4。