馬惠玲 曹夢柯 王 棟 邱凌雨 任小林
(1.西北農(nóng)林科技大學生命科學學院, 陜西楊凌 712100; 2.西北農(nóng)林科技大學園藝學院, 陜西楊凌 712100)
我國蘋果年產(chǎn)量約占世界總產(chǎn)量的50%[1]。準確預測貨架期能有效減少貯藏損失,保障上市果實品質(zhì)。在蘋果保鮮技術的研究中,通常測定失重率、可溶性固形物含量、可滴定酸含量、硬度、色值、抗壞血酸含量等品質(zhì)指標來衡量保鮮效果[2-5]。因此,有望從中篩選特征指標或組合來用于采后蘋果的貨架期預測。目前在一些果蔬上已成功運用品質(zhì)指標來構建貨架期預測模型[6-8]。
廣泛應用于貨架期預測的模型主要包括傳統(tǒng)的動力學模型以及機器學習模型等。前人對蘋果采后品質(zhì)指標變化也進行了探究,以及建立了Arrhenius貨架期預測方程,但預測準確率較低[9],說明常用的動力學模型難以表征蘋果采后品質(zhì)綜合變化的復雜性,從而使其預測誤差率較高。機器學習模型如反向傳播人工神經(jīng)網(wǎng)絡(Back propagation-artificial neural networks, BP-ANN)已經(jīng)廣泛應用于農(nóng)產(chǎn)品[10-12]的貨架期預測問題上。然而,由于機器學習模型的復雜性,小樣本數(shù)據(jù)集容易造成過擬合、欠擬合現(xiàn)象。擴充數(shù)據(jù)集,可以在一定程度上降低過擬合現(xiàn)象,提高模型預測的準確率。SMOTE(Synthetic minority over-sampling technique)及其改進算法的數(shù)據(jù)合成方法屬于線性插值法,其合成的數(shù)據(jù)和實際數(shù)據(jù)相關性不強[13]。生成式對抗網(wǎng)絡(GAN)模型是一種基于深度學習的數(shù)據(jù)生成方法,其基于博弈理論的數(shù)據(jù)生成原理,并采用無監(jiān)督的學習方法,能自動對數(shù)據(jù)集進行學習,生成高質(zhì)量的數(shù)據(jù)[14]。目前GAN已經(jīng)應用于在一些小規(guī)模樣本生成問題上[13,15-17],暫未發(fā)現(xiàn)其用于果蔬理化指標數(shù)據(jù)的生成。
“富士”作為蘋果中的優(yōu)良品種,在我國和日本的種植比例都高達50%以上[18]。本文使用GAN提升BP-ANN模型的預測性能,基于蘋果貯藏期間的真實數(shù)據(jù)來生成采后“富士”蘋果的理化品質(zhì)指標、貯藏溫度及貨架期數(shù)據(jù),擴大BP-ANN的訓練樣本集數(shù)量,結合不同的變量排序方式對品質(zhì)指標進行排序,分別建立品質(zhì)指標和貯藏溫度作為輸入變量的貨架期預測模型。
分別于2016—2018年10月10—11日在陜西省渭南市白水縣某果園采收達到商品成熟期的套袋栽培的“富士”蘋果(采收前7 d脫去最后一層半透明果袋),選取果形規(guī)整、表面光潔、大小均勻的套袋果,去果袋,單果套發(fā)泡網(wǎng),運回西北農(nóng)林科技大學(3 h)。于0℃冷庫預冷24 h,散去田間熱量,再分別在溫度0、5、15、25℃和相對濕度 85%~90%的條件下貯藏,所有果實均裝于加有厚度11 μm塑料內(nèi)襯袋的果框內(nèi),袋口松散折疊以保濕。0℃貯藏果前72 d每12 d取樣一次,后198 d每24 d取樣一次;5℃貯藏果前63 d每9 d取樣一次,后108 d每18 d取樣一次;15℃果每6 d取樣一次,25℃果每3 d一次。每次取樣隨機抽取12個果實,以4個為一組建立3個生物學重復,用于在貯藏期間的各品質(zhì)指標測定。
1.2.1顏色參數(shù)
使用白板校準后的CR-400型色差計 (日本Konica Minolta公司),分別用果實赤道線均勻的5個點來測定果實的顏色參數(shù)(亮度L、紅綠度a、黃藍度b)??偵瞀和飽和度C計算公式為
(1)
(2)
式中L0、a0、b0——顏色參數(shù)初始值
1.2.2硬度
沿蘋果果實赤道線的陰陽兩面各取兩點削去1 cm×1 cm果皮,然后采用GY-3型果蔬硬度計(意大利Aldo Brue公司)測定硬度,單位為N/cm2。
1.2.3可溶性固形物含量、可滴定酸含量和固酸比
沿果實的赤道面,隨機選取3個點,每個點去皮后各取10 g果肉,用榨汁機榨出汁,用吸管吸取3滴果汁,使用SW-LB32T型折光儀測定蘋果的可溶性固形物含量,用質(zhì)量分數(shù)表示。取剩余的果汁,采用酸堿滴定法測定可滴定酸含量[19],用質(zhì)量分數(shù)表示。固酸比為可溶性固形物與可滴定酸質(zhì)量分數(shù)的比值。
1.2.4抗壞血酸含量
隨機稱取蘋果鮮樣5 g,采用鉬藍比色法[20]測定果實中還原型抗壞血酸的質(zhì)量比,單位為mg/kg。
1.2.5淀粉含量
隨機稱取蘋果鮮樣1.5 g,采用硫酸蒽酮法[21]測定果實中淀粉質(zhì)量比,單位為g/kg。
1.2.6質(zhì)量損失率
每次取樣時稱取蘋果的鮮質(zhì)量,以質(zhì)量隨時間下降的百分比計算質(zhì)量損失率。
請10名經(jīng)過專業(yè)培訓的人員,對每次取樣的12個果實進行品嘗和感官品質(zhì)評分,參照文獻[22]的評定項目和權重,每批果實的得分值為10個品嘗員評分的平均值。
1.4.1理化品質(zhì)指標排序
(1)稀疏主成分分析
稀疏主成分分析是在主成分分析的基礎上引入帶有稀疏度的懲罰系數(shù)或者不同的系數(shù)約束條件,使得到的部分載荷向量為零,從而得到稀疏的主成分[23]。
(2)ReliefF算法
ReliefF算法最早由文獻[24]提出,最早用于解決二分類問題,ReliefF算法是公認的效果較好的Filter式特征評估算法。其關鍵思想是根據(jù)屬性的值對實例的區(qū)分程度去估計這個特征區(qū)分鄰近樣本的能力,特征選擇的思路是選取一個特征子集,使得特征子集上的分類錯誤率最小[25-26]。預測的品質(zhì)指標權重通常取決于最近鄰的數(shù)量,在本研究中,一共有12個品質(zhì)指標,將最近鄰分別設置為從2到11的數(shù),計算預測權重平均值來作為最終結果,其權重即代表品質(zhì)屬性的重要程度,權重越大,則該品質(zhì)屬性越重要。
1.4.2附加GAN的BP-ANN貨架期預測模型
生成式對抗網(wǎng)絡(GAN)是由文獻[27]提出的基于博弈論的生成式深度學習算法。GAN的一般結構如圖1所示,主要由生成器和判別器兩部分組成。由生成器接收隨機噪聲數(shù)據(jù),真實數(shù)據(jù)的標簽為0,生成數(shù)據(jù)的標簽為1,由判別器判別是真實數(shù)據(jù)還是生成器生成的數(shù)據(jù),判別器的損失函數(shù)為一個二分類模型,可通過交叉熵計算目標函數(shù),其損失函數(shù)為
(3)
式中G、D——生成器和判別器的可微函數(shù)
E——目標函數(shù)的期望值
x——真實樣本數(shù)據(jù)
z——隨機噪聲
G(z)——判別器的生成數(shù)據(jù)
下角標x~Pdata(x)表示x采樣于真實數(shù)據(jù)分布Pdata(x),z~Pz(z)表示z采樣于真實數(shù)據(jù)分布Pz(z)。
第1項代表D判斷出x是真實數(shù)據(jù)的情況,第2項代表D判斷數(shù)據(jù)是否是由生成器G將噪聲矢量z映射而成的生成數(shù)據(jù)。G和D進行二元零和博弈,GAN算法的流程為先固定生成器優(yōu)化判別器,使得判別器的判別準確率最大化,然后固定判別器,優(yōu)化生成器使得判別器的判別準確率最小。當且僅當Pdata(判別真實數(shù)據(jù)的準確率)等于Pg(判別生成數(shù)據(jù)的準確率)時達到全局最優(yōu)解。
生成器和判別器均采用全連接網(wǎng)絡結構。生成器是由兩層感知機組成,其輸入為隨機噪聲,第1層其激活函數(shù)為ReLU,由 25個隱藏層神經(jīng)元組成,第2層其激活函數(shù)為Linear,輸出維度為14的數(shù)據(jù)。判別器也是由兩層感知機組成,其輸入為真實數(shù)據(jù)和生成器生成的假數(shù)據(jù),第1層由25個神經(jīng)元組成,其激活函數(shù)為ReLU,第2層由1個神經(jīng)元組成,其激活函數(shù)為Sigmoid。每訓練3 000次,保存一次模型。文獻[15]通過直接觀察生成的菌菇表型圖像數(shù)據(jù)來選擇GAN生成的圖像;文獻[13]根據(jù)鴨蛋的蛋形指數(shù)來選擇GAN生成的數(shù)據(jù);文獻[17]根據(jù)模型預測的準確率來判斷GAN模型對于長短期記憶網(wǎng)絡(LSTM)的改進作用,從而選擇GAN生成的數(shù)據(jù)。在本研究中,蘋果的品質(zhì)指標取值均隨著貯藏時間的變化而變化,而且品質(zhì)指標無法像圖像一樣可以直接觀察,因此通過GAN的判別器判別真實數(shù)據(jù)和生成數(shù)據(jù)的準確率對生成數(shù)據(jù)進行初次選擇,并通過繪圖的形式,將生成數(shù)據(jù)和真實數(shù)據(jù)的取值范圍進行比較,再通過 GAN-BP-ANN模型預測貨架期的準確性來再次判斷GAN生成數(shù)據(jù)的質(zhì)量。試驗平臺為Windows 10系統(tǒng),8 GB內(nèi)存,500GB SSD,1TB HD,Intel Core i5-5200U,2.20 GHz,Nvidia GeForce 930M,2 GB。算法采用Tensorflow V1.1GPU框架和Python 3.7實現(xiàn)。
BP-ANN模型是一種誤差反向傳播的模型,其通常由輸入層、隱藏層和輸出層3層組成。在此研究中,將品質(zhì)屬性和貯藏溫度作為輸入層,貨架期作為輸出層。將得到的品質(zhì)指標,按照其排序結果,從1到12逐一疊加,再組合貯藏溫度,作為輸入變量分別建立擴充數(shù)據(jù)集的GAN-BP-ANN和未擴充數(shù)據(jù)集的BP-ANN貨架期預測模型。從圖2可以看出,基于GAN改進的BP-ANN模型結構將GAN生成的最優(yōu)解和真實測定的數(shù)據(jù)同時作為BP-ANN的輸入層,BP-ANN模型第1層的激活函數(shù)為Tansig,第2層的激活函數(shù)為Purelin,若在最大迭代次數(shù)內(nèi)未達到訓練目標,則根據(jù)相應規(guī)則對參數(shù)進行優(yōu)化,如果達到訓練目標,則保存模型,并根據(jù)保存的模型對驗證集進行預測。訓練目標為0.000 1,學習率為0.01,最大迭代次數(shù)為1 000。 由于其初始化的權值和閾值對網(wǎng)絡的性能具有較大的影響,在此研究中通過多次建模來選擇最優(yōu)的權值和閾值。
采用平均相對誤差和決定系數(shù)(R2)作為模型準確性的評價標準,建模過程通過Matlab 2019a軟件實現(xiàn),在進行建模前,將所有數(shù)據(jù)進行歸一化處理。
考慮到生產(chǎn)上采用冷藏、氣調(diào)貯藏蘋果的溫度通常在0℃,采用自然低溫貯藏時在5~15℃,消費者在室溫存放又常為20~25℃,因此,蘋果采后可能存在的環(huán)境溫度為0~25℃范圍內(nèi)的任意溫度,本研究選定其中的4種特征溫度進行仿真試驗。
從圖3可看出,0℃下貯藏的蘋果12種品質(zhì)指標變化速率最慢,隨著溫度的升高,變化速率加快。各指標在不同溫度下的變化總趨勢一致,表現(xiàn)為3種類型:①漸降型。首先是可溶性固形物含量,各組可溶性固形物含量在第2個觀測點均出現(xiàn)短暫上升,這是果實采后初期淀粉等多糖降解量較大,可溶性糖的積累大于消耗,使其總量增加所致。而采后可溶性糖主要是作為呼吸底物而被消耗[28],因此,貯藏(貨架)全程呈現(xiàn)總體下降趨勢。其次,可滴定酸和還原型抗壞血酸含量也全程下降。抗壞血酸作為一種抗氧化劑,能清除機體內(nèi)活性氧,延緩衰老[29-30],其在中性和堿性環(huán)境下極易被氧化,它和可滴定酸總量的含量逐漸減少意味著蘋果果實貯藏過程中除了酸味會變淡外,果實營養(yǎng)品質(zhì)也在下降;淀粉作為果實細胞重要的貯藏性物質(zhì),其降解與果實的軟化有關[31]。②上升型。質(zhì)量損失率呈現(xiàn)上升趨勢,導致果實質(zhì)量損失的原因主要是水分的喪失和呼吸消耗[32]。隨著貯藏溫度的升高和貯藏時間的延長,黃藍度b、總色差ΔE、色彩飽和度C總體呈現(xiàn)上升狀態(tài),主要是由于在貯藏期間葉綠素逐漸被降解[33],反映了蘋果的底色逐漸黃化,光澤變暗。③起伏+漸變型。硬度在前7個觀測點和a、L在前3~5個觀測點取值均呈起伏式變化,以后緩慢下降,雖然隨著貯藏時間的延長,果膠物質(zhì)逐漸被細胞壁酶降解,細胞壁結構逐漸發(fā)生變化,果實的硬度總體下降[32],但是,不同蘋果采后硬度下降快慢不同,“富士”蘋果以其“寧爛不綿”而著稱,此文結果從數(shù)據(jù)上展示了該品種硬度在貯藏全程下降慢的屬性;5~25℃組的前3個觀測點均表現(xiàn)a先上升再下降,對應地,L先下降再上升,可見,蘋果采后在貨架期紅度短暫增大,亮度短暫下降,這與果實采后后熟有關[33]。“富士”蘋果果實的這種變化特性在其它研究中也有所報道[29,34]。0℃組可溶性固形物含量和a的初期變化幅度小,L卻也先急降后上升,表明除了與紅度有關外,L還受到果面其它屬性,如果粉厚度等影響,是與糖分、紅綠度不完全相關的獨立屬性。
在建立貨架期預測模型時,用簡化的數(shù)據(jù)集作為模型的輸入變量可以節(jié)省運算時間和預算。稀疏主成分分析(SPCA)和ReliefF算法對品質(zhì)指標進行排序的標準不同,SPCA算法是將高維數(shù)據(jù)向低維子空間映射降維,ReliefF算法側重于自變量對因變量的區(qū)分程度。表1列出這2種分析方法對品質(zhì)屬性的排序結果,可以看出,兩種排序結果有很大區(qū)別,SPCA中,當k=1時,得到的排序第一的品質(zhì)指標為質(zhì)量損失率。ReliefF算法中,與貨架期關聯(lián)度最大的為L。
表1 2種特征提取方法得到的品質(zhì)指標排序結果Tab.1 Ranking of quality attributes obtained by three feature extraction methods
2.3.1GAN生成的有效數(shù)據(jù)
在構建預測模型時,數(shù)據(jù)集越大,預測模型能學習到的特征越多并且越準確,從而越能避免模型的過擬合和欠擬合現(xiàn)象,使得模型的預測準確性越高。而實際上,經(jīng)常由于試驗材料、經(jīng)費等眾多問題使試驗獲得的數(shù)據(jù)集較小。生成式對抗網(wǎng)絡(GAN)是一種深度學習算法,其通過生成器和判別器互相博弈來提高生成數(shù)據(jù)的準確性。隨著迭代次數(shù)的增加,GAN的生成器會生成不同的數(shù)據(jù)。在此研究中,為了使品質(zhì)屬性的取值更加可靠,將年份之間作為重復,獲得的理化指標和對應貨架期的平均值數(shù)據(jù)為51組,判別器對此真實數(shù)據(jù)和生成數(shù)據(jù)判別準確率如圖4所示??梢钥闯?,隨著迭代次數(shù)的增加,判別準確率逐漸接近于0.50,當?shù)螖?shù)為33 000次時,判別真實數(shù)據(jù)的準確率為0.51,判別生成數(shù)據(jù)的準確率也為0.51,均最接近于0.50,繼續(xù)增大迭代次數(shù)至2.0×105,判別器對兩組數(shù)據(jù)判別準確率偏差增大,說明迭代次數(shù)為33 000時的生成器和判別器之間已經(jīng)接近納什均衡,即生成數(shù)據(jù)與真實數(shù)據(jù)已經(jīng)非常相似。由圖5(圖中參數(shù)序號1~14分別表示硬度(N/cm2)、可溶性固形物質(zhì)量分數(shù)(%)、可滴定酸質(zhì)量分數(shù)(%)、固酸比、還原型抗壞血酸質(zhì)量比(mg/kg)、淀粉質(zhì)量比(g/kg)、質(zhì)量損失率(%)、L、a、b、ΔE、C、貯藏溫度、貨架期)顯示,生成數(shù)據(jù)各指標取值均在真實數(shù)據(jù)取值范圍之內(nèi),直觀表現(xiàn)了二者的相似性。由于前人的研究均沒有對GAN生成數(shù)據(jù)的合理量有具體約定[13-15],故選擇迭代次數(shù)33 000次時生成的38組數(shù)據(jù)作為通過GAN進行數(shù)據(jù)生成的結果,用于后續(xù)的模型構建。
按訓練集和驗證集為3∶1的比例進行建模和驗證,訓練集經(jīng)生成式對抗網(wǎng)絡(GAN)擴充得到的38組生成數(shù)據(jù)不用于驗證集驗證,即分別采用真實數(shù)據(jù)的3/4(38組)、真實數(shù)據(jù)+生成數(shù)據(jù)(76組)作為訓練集,選取每個貯藏溫度下的剩余的1/4組數(shù)據(jù)(其中25℃共4組數(shù)據(jù),其它3個溫度各3組),共13組真實數(shù)據(jù)作為驗證集來構建BP-ANN和GAN-BP-ANN貨架期預測模型。
2.3.2GAN對ReliefF-BP-ANN預測貨架期準確性的影響
為了評估GAN對于 BP-ANN貨架期預測模型的改進作用,分別按照ReliefF排序方法的結果,將1~12個品質(zhì)指標依次累加,再加上貯藏溫度作為輸入層變量,分別建立經(jīng)過訓練集擴充的ReliefF-GAN-BP-ANN模型和未經(jīng)訓練集擴充的ReliefF-BP-ANN模型。為了有效評估GAN的作用,均將各個模型重復訓練100次,取其平均值作為最后的結果,模型的最大訓練次數(shù)、學習率和激活函數(shù)均相同。由表2可知,ReliefF-GAN-BP-ANN模型其訓練集平均相對誤差在0~0.095之間,ReliefF-BP-ANN模型其訓練集平均相對誤差在0~0.112之間,ReliefF-GAN-BP-ANN相比ReliefF-BP-ANN模型,其建模效率沒有明顯的改善。由圖6可直觀地看出,采用ReliefF-GAN-BP-ANN模型其驗證集的平均相對誤差均低于ReliefF-BP-ANN模型,決定系數(shù)均高于ReliefF-BP-ANN模型,表明附加GAN的BP-ANN模型(ReliefF-GAN-BP-ANN)對本研究中建模較單獨采用ReliefF-BP-ANN的準確度有明顯提高,有效地增加了模型的預測準確率,說明GAN生成數(shù)據(jù)的有效性及增大數(shù)據(jù)集改進BP-ANN預測貨架期的準確性。由圖6可知,用ReliefF對品質(zhì)指標進行排序后,分別構建ReliefF-BP-ANN和ReliefF-GAN-BP-ANN模型,當采用排序前8的8個品質(zhì)指標即L、還原型抗壞血酸含量、a、C、ΔE、可滴定酸含量、硬度、b和貯藏溫度作為ReliefF-GAN-BP-ANN的輸入變量時,驗證集中13組數(shù)據(jù)的預測值與真實值的平均相對誤差最小,為0.154,決定系數(shù)為0.957。
表2 采用ReliefF排序方法構建GAN-BP-ANN和BP-ANN模型訓練集的平均相對誤差Tab.2 Mean relative error of GAN-BP-ANN and BP-ANN model training set based on ReliefF
2.3.3GAN對SPCA-BP-ANN預測貨架期準確性的影響
按照SPCA排序方法的結果,將1~12個品質(zhì)指標依次累加,再加上貯藏溫度作為輸入層變量,分別建立經(jīng)過訓練集擴充的SPCA-GAN-BP-ANN模型和未經(jīng)訓練集擴充的SPCA-BP-ANN模型。均將各個模型重復訓練100次,取其平均值作為最后的結果,模型的最大訓練次數(shù)、學習率和激活函數(shù)均相同。由表3可知,SPCA-GAN-BP-ANN模型其訓練集平均相對誤差在0~0.018之間,SPCA-BP-ANN模型其訓練集平均相對誤差在0~0.019之間,均小于ReliefF-GAN-BP-ANN和ReliefF-BP-ANN模型,SPCA-GAN-BP-ANN相比SPCA-BP-ANN模型,其建模效率沒有明顯的改善。由圖7可見,采用SPCA-GAN-BP-ANN模型其驗證集的平均相對誤差也均低于SPCA-BP-ANN模型,決定系數(shù)也均高于BP-ANN模型。當采用排序第1的品質(zhì)指標即質(zhì)量損失率和貯藏溫度(D1組)一起作為GAN-BP-ANN的輸入變量時,驗證集中13組數(shù)據(jù)的預測值與真實值的平均相對誤差最小,為0.052,決定系數(shù)為0.989。當采用排序前2的兩個品質(zhì)指標和貯藏溫度作為輸入層時,即質(zhì)量損失率、b和貯藏溫度(D2組)作為GAN-BP-ANN的輸入變量時,驗證集中13組數(shù)據(jù)的預測值與真實值的平均相對誤差為0.064,決定系數(shù)為0.990。當采用排序前6的6個品質(zhì)指標即質(zhì)量損失率、b、淀粉含量、可滴定酸含量、還原型抗壞血酸含量、ΔE和貯藏溫度(D3組)作為GAN-BP-ANN的輸入變量時,驗證集中13組數(shù)據(jù)的預測值與真實值的平均相對誤差為0.070,決定系數(shù)為0.992。綜合可知,2種特征選擇方法中,SPCA通過特征累加所構建的模型其驗證集平均相對誤差最小,通過SPCA挑選出3組GAN-BP-ANN建模的特征品質(zhì)指標,即:質(zhì)量損失率和貯藏溫度(D1組);質(zhì)量損失率、b和貯藏溫度(D2組);質(zhì)量損失率、b、淀粉含量、可滴定酸含量、還原型抗壞血酸含量、ΔE和貯藏溫度(D3組),其驗證集中13組數(shù)據(jù)的相對誤差分別為0.052、0.064和0.070,低于BP-ANN的0.109、0.104和0.115,即附加GAN的模型把預測準確度從平均0.891提高到0.938,提高了0.047;驗證集中預測值和真實值決定系數(shù)R2分別為0.989、0.990和0.992,大于等于未附加GAN模型的0.989、0.963和0.991。這說明輸入層為D1、D2和D3組所構建的GAN-BP-ANN模型可以較為準確地預測采后蘋果的貨架期。
表3 SPCA排序方法構建GAN-BP-ANN和BP-ANN模型訓練集的平均相對誤差Tab.3 Mean relative error of GAN-BP-ANN and BP-ANN model training set based on SPCA
2.3.4GAN-BP-ANN模型與其它貨架期預測模型的比較
常用的貨架期預測模型還包括多元線性回歸(MLR)、決策樹(DT)和支持向量機(SVM)等。分別建立品質(zhì)屬性與貨架期之間的多元線性回歸(MLR)、決策樹(DT)模型和支持向量機(SVM)等,使用上述通過SPCA得到的最優(yōu)模型的輸入變量作為輸入變量,即分別使用質(zhì)量損失率和貯藏溫度(D1組);質(zhì)量損失率、b和貯藏溫度(D2組);質(zhì)量損失率、b、淀粉含量、可滴定酸含量、還原型抗壞血酸含量、ΔE和貯藏溫度(D3組)作為輸入變量,其訓練集和驗證集平均相對誤差和決定系數(shù)如表4所示,可以看出其訓練集和驗證集的平均相對誤差均比較高,決定系數(shù)均比較低。上述選出的最優(yōu)模型其性能均優(yōu)于MLR、DT和SVM。
表4 多元線性回歸(MLR)、決策樹(DT)和支持向量機(SVM)貨架期預測模型訓練集和驗證集的平均相對誤差和決定系數(shù)Tab.4 Mean relative error and determination coefficient of training set and validation set of multiple linear regression (MLR), decision tree (DT) and support vector machine (SVM) shelf-life prediction models
(1)采用GAN法對觀測數(shù)據(jù)集進行擴充,迭代次數(shù)33 000次時生成器和判別器之間接近納什均衡,生成數(shù)據(jù)均在真實數(shù)據(jù)的分布范圍之內(nèi)。
(2) 2種變量排序法下,均以附加GAN的BP-ANN所建模型對貨架期的預測準確度高。且以SPCA法排序結果構建GAN-BP-ANN模型的平均相對誤差較ReliefF更低,部分驗證集的平均相對誤差均在0.07以內(nèi),比未附加GAN的BP-ANN模型預測準確度提升了0.047。結合SPCA法特征變量選擇的GAN-BP-ANN模型被確定為預測蘋果貨架期的有效方法。