劉媛媛 張 凡 師 琪 馬倩云 王文秀, 孫劍鋒
(1.塔里木大學現(xiàn)代農(nóng)業(yè)工程重點實驗室,阿拉爾 843300;2.河北農(nóng)業(yè)大學食品科技學院,保定 071001)
庫爾勒香梨因營養(yǎng)豐富,香氣馥郁、皮薄肉脆,果肉豐富多汁而深受消費者喜愛[1-2]。然而香梨易受病原菌的侵染,造成果實品質(zhì)下降,腐爛率極高。黑斑病是梨的三大病害之一,是一種由鏈格孢屬真菌Alternariaalternata引起的病害[3]。實現(xiàn)黑斑病脅迫下庫爾勒香梨的快速診斷與檢測,尤其是潛育期的早期識別具有重要意義。
目前庫爾勒香梨黑斑病檢測尚停留在抽樣基礎(chǔ)上的主觀經(jīng)驗判斷、分子生物學評價等階段。主觀經(jīng)驗法通過目測對有明顯病癥的樣品進行識別,方便快捷,但對病害潛育期及癥狀不明顯的樣品辨識能力有限;分子生物學方法靈敏準確,但存在檢測效率低、結(jié)果滯后、前處理繁瑣、分析過程復雜等弊端,不適合于快速實時檢測[4]。高光譜成像技術(shù)融合了圖像和光譜信息,具有分辨率高、波數(shù)較多、“圖譜合一”的特點,可同時獲取被檢測對象各波長的圖像信息和各像元的光譜信息。目前,利用高光譜技術(shù)檢測水果病害感染已有較多先例[5-10]?,F(xiàn)有研究證明高光譜技術(shù)是水果病害等級區(qū)分的有效手段,但大多針對水果病害的顯性病癥進行識別,對更深層面的潛育期早期診斷仍需要深入研究。
化學計量學方法是高光譜定性判斷水果病害程度分析中的重要組成部分,常用的分類器算法包括K最近鄰法(K-nearest neighbors,KNN)、最小二乘支持向量機(Least squares-support vector machine,LS-SVM)、隨機森林(Random forest,RF)、線性判別分析(Linear discriminant analysis,LDA)等[11]。單一分類器往往具有泛化性能不佳的缺點,有學者提出將多個弱分類器集成為強分類器以完成高精度分類任務(wù)的集成學習方法[12]。其中,Stacking集成學習策略是一種異構(gòu)分類器集合的技術(shù),能增強模型的準確性、魯棒性和整體歸納能力,在夏玉米覆蓋度估測[13]、黑枸杞快速分級[14]等研究上表現(xiàn)出較好的預測能力。鑒于Stacking集成學習策略較強的特征學習能力,將其與高光譜成像技術(shù)結(jié)合,有望實現(xiàn)潛育期病害樣品的正確識別。
綜合上述分析,本文基于高光譜成像特征,結(jié)合Stacking集成學習框架,解析潛育期不同病害程度黑斑病庫爾勒香梨的圖譜特征,提取表征樣品性質(zhì)的特征光譜信息,構(gòu)建香梨黑斑病早期快速診斷模型,以期為香梨黑斑病潛育期快速診斷和發(fā)病過程實時監(jiān)測提供一種新的方法。
實驗所用梨品種為庫爾勒香梨,購于河北省保定市農(nóng)貿(mào)市場。挑選234個成熟度、尺寸、質(zhì)量相近且無明顯缺陷、物理損傷、疾病感染的新鮮香梨,立即運輸至河北農(nóng)業(yè)大學食品科技學院實驗室,用自來水沖洗后,再用75%酒精擦拭果實表面,最后用蒸餾水沖洗香梨3次,自然風干后備用。
選擇自然發(fā)病的黑斑病香梨果實,切取染病組織后將其移入到馬鈴薯葡萄糖瓊脂(PDA)培養(yǎng)基上,放置到25℃恒溫培養(yǎng)箱培養(yǎng)7 d。然后,用無菌接種環(huán)挑取培養(yǎng)基中茁壯的菌落,接種到新的PDA培養(yǎng)基上繼續(xù)培養(yǎng)3 d,向其中加入10 mL含0.5%Tween-80的0.85%無菌生理鹽水,并用平板涂布器反復刮擦PDA培養(yǎng)基上的病菌菌落,使病原菌的孢子脫落。隨后,將制備好的菌懸液移入無菌三角瓶中,振蕩15 s,再用4層紗布進行過濾,加入適量的無菌生理鹽水使孢子懸浮液菌體濃度調(diào)節(jié)至1×106個/mL備用。
制備黑斑病香梨樣品時,先用75%酒精擦拭健康香梨果實表面,再用無菌水淋洗3次后放入超凈工作臺中進行紫外線滅菌,待果皮表面干燥后,在梨的赤道線附近使用注射器注射20 μL孢子懸浮液,另注射20 μL無菌生理鹽水作為對照樣品。將接種好的樣品放入恒溫恒濕培養(yǎng)箱中,保證環(huán)境相對濕度為80%,溫度為(25±2)℃。為獲得不同病害程度的香梨樣品,每天接種17個樣品,整個實驗持續(xù)10 d,最終獲得170個接菌的香梨樣品和64個健康樣品用于后續(xù)分析。接種3 d后,大部分果實表面開始出現(xiàn)顯現(xiàn)的病斑,說明庫爾勒香梨經(jīng)歷3 d的潛育期后開始發(fā)病。培養(yǎng)過程中,采用十字交叉法記錄每個果實的病斑直徑,參照文獻[9]以病斑直徑40 mm為重度發(fā)病的閾值,結(jié)合庫爾勒香梨平均表面積,制定表1的分級標準,將樣品分為健康、潛育期、輕度發(fā)病、重度發(fā)病。
表1 庫爾勒香梨的分類標準Tab.1 Classification standards of Korla pear
本研究采用的高光譜成像系統(tǒng)如圖1所示,主要包括SPECIM FX 10型高光譜相機(Specim公司,芬蘭)、光源、鏡頭、位移平臺、步進電機和計算機等。光譜范圍為400~1 000 nm,光譜分辨率為5.5 nm,像素尺寸為8 μm×8 μm,焦距為15 mm,光源為一對12 V、100 W的鹵素燈。
圖1 高光譜成像系統(tǒng)Fig.1 Hyperspectral imaging system1.相機 2.鏡頭 3.位移平臺 4.計算機
圖2 感興趣區(qū)域選取示意圖Fig.2 Schematic of ROI selection from hyperspectral image
經(jīng)過前期實驗,將位移平臺速度、相機曝光時間和采集距離分別設(shè)置為7.5 mm/s、50 ms和300 mm。采集樣品時,首先將儀器預熱30 min以確保實驗的穩(wěn)定性,然后將6個樣品按照2行×3列病斑朝上的方式放置在位移平臺上,高光譜相機連續(xù)線掃描,完成一幅高光譜圖像的采集,在ENVI 5.2中進行批處理圖像切割,得到單個樣品的圖像。為了減弱相機暗電流和光強變化對圖像的影響,對原始高光譜圖像進行黑白校正,即
式中I——校正后的高光譜圖像
I0——采集的原始高光譜圖像
W——掃描標準白板得到的圖像
B——旋上相機鏡頭蓋采集得到的黑色圖像
利用高光譜系統(tǒng),得到234個樣品的光譜圖像立方體,每個像素點有224個波長處光譜信息。在圖像中選擇感興趣區(qū)域(Region of interest,ROI)進行光譜信息的提取,ROI的選擇對后續(xù)模型的性能具有重要的影響。如圖2(圖中λ表示波長)所示,以香梨損傷接種點為中心,橫向像素個數(shù)設(shè)置為150,選擇方形感興趣區(qū)域,通過ENVI 5.2獲取ROI內(nèi)22 500個像素點的平均反射光譜,即可得到樣品的反射光譜曲線。由于相機有低和高光輸出以及量子效率的存在,在整個光譜范圍內(nèi),靠近兩端光譜噪聲比較大,因此最終選擇的波長范圍為444~1 000 nm。依次提取所有樣品的平均光譜,由此得到234×206(樣品數(shù)×變量數(shù))的光譜矩陣用于后續(xù)分析。
所提取的光譜中包括一些與待測樣品性質(zhì)無關(guān)的因素帶來的干擾,如光的散射、雜散光、儀器噪聲等影響,導致光譜產(chǎn)生基線漂移和光譜的不重復[15],因此需對提取的光譜進行預處理。對比研究采用標準正態(tài)變量變換(Standard normal variate transformation,SNV)、一階導數(shù)(First derivative,FD)、二階導數(shù)(Second derivative,SD)及組合使用(SNV+FD、SNV+SD)對光譜及建模結(jié)果的影響。其中,SNV可用來校正樣品間因散射引起的光譜誤差,微分處理能消除基線漂移、強化譜帶特征、克服譜峰重疊等。
由于獲取的光譜存在冗余和多重共線性問題,因此采用主成分分析(Principal component analysis,PCA)對光譜進行降維。首先對光譜數(shù)據(jù)矩陣進行奇異值分解,得到一系列正交的變量(得分矩陣、對角矩陣和載荷矩陣),然后選取大特征值對應(yīng)的特征得分矩陣替代原始光譜數(shù)據(jù)矩陣用于后續(xù)建模分析。主成分數(shù)的確定采用累計貢獻率法,本研究取主成分的累計貢獻率達到99%以上時主成分的數(shù)目。
1.6.1基于單一分類器的建模分析
首先,利用Kennard-Stone算法將234個健康和不同病害程度的庫爾勒香梨按照比例3∶1分為校正集C(176個樣品)和驗證集P(58個樣品),其中校正集包括48個健康、41個潛育期、62個輕度發(fā)病和25個重度發(fā)病的香梨,驗證集包括16個健康、13個潛育期、21個輕度發(fā)病和8個重度發(fā)病的香梨。然后,利用KNN、LS-SVM和RF算法,分別建立基于單一分類器的病害診斷模型。KNN是以同類樣品在模式空間內(nèi)較為靠近為依據(jù)的分類方法,對待分析的樣品,逐一計算其與校正集樣品間的距離,找出最近的K個樣品進行判別,本研究中K值設(shè)置為4。LS-SVM是適用于小樣本的非線性機器學習算法,是支持向量機的一種擴展。RF是一種包含多個決策樹的分類器,對于待分析樣品,由每一棵決策樹進行分類,最后取所有結(jié)果中最多的分類。本研究決策樹數(shù)量為500,分裂屬性集中的屬性數(shù)量為12。
1.6.2基于Stacking集成學習的建模分析
Stacking是一種通過元模型將多個單一模型進行組合的集成策略,其學習框架由兩級分類器組成,其中低級別的分類器稱為基學習器,而高級別的稱為元學習器?;赟tacking集成學習的建模分析過程如圖3所示,包括基于基學習器的基模型建立和基于元學習器的元模型建立兩部分。具體步驟包括:
(1)利用上述基于單一分類器建模分析中的校正集C和驗證集P,按照五折交叉驗證的方式先將176個校正集樣品隨機分為5個子集(C1、C2、C3、C4、C5)。
(2)選擇某一基學習器,以C2、C3、C4、C5中樣品為校正子集建立模型,對C1和P中樣品進行預測,記為x1和y1。
(3)重復上述步驟,以C1、C3、C4、C5中樣品為校正子集,對C2和P中樣品進行預測,記為x2和y2。以此類推,得到校正集樣品C的預測值X1(由x1、x2、x3、x4、x5進行列合并所得)和驗證集樣品P的預測值Y1(由y1、y2、y3、y4、y5取眾數(shù)所得)。
(4)選擇其他基學習器,重復步驟(2)、(3),分別得到X2、X3、Y2、Y3等。
(5)將第1層得到的結(jié)果合并,得到X={X1,X2,X3}和Y={Y1,Y2,Y3}。分別以X和Y作為校正集C和驗證集P樣品的新輸入特征,以樣品的實際類別Clabel和Plabel為輸出特征,采用元學習器構(gòu)建判別模型生成最終結(jié)果,實現(xiàn)對基模型能力的綜合和特征的堆疊。
圖3 Stacking集成學習模型Fig.3 Stacking ensemble learning model
上述分析過程中,基分類器和元分類器的設(shè)計至關(guān)重要。選擇基分類器時應(yīng)充分考慮學習器的充分性和多樣性,使建立的基模型之間相互獨立,實現(xiàn)模型間信息的有效互補。本研究以KNN、LS-SVM和RF算法為基分類器,以建模效果最好的基分類器作為元分類器進行第2層模型的訓練。
采用總體判別準確率和各類判別準確率對模型性能進行評價,分析過程在ENVI 5.2和Matlab 2012b中完成。
健康和鏈格孢菌侵染不同時間的庫爾勒香梨及病斑面積如圖4和表2所示。對比圖4a、4b,在潛育期內(nèi),鏈格孢菌在香梨寄主體內(nèi)吸收營養(yǎng)和水分并不斷繁殖和擴展,形成局部侵染,使寄主部位新陳代謝發(fā)生改變,對寄主內(nèi)部細胞及色素含量、水分和細胞間隙產(chǎn)生影響,但果實外表并未出現(xiàn)明顯的可見癥狀。隨著侵染時間的延長,鏈格孢菌從香梨果實組織中獲取生長所需的營養(yǎng)物質(zhì),致使梨果實的結(jié)構(gòu)和生理機能發(fā)生變化,表面開始出現(xiàn)肉眼可見的黑褐色圓形小點(圖4c)。病原菌在香梨內(nèi)部不斷繁殖,產(chǎn)生溶解酶(纖維素酶、果膠酶等)和毒素(交鏈格孢酚等),使香梨果實細胞的超微結(jié)構(gòu)(細胞膜、葉綠體等)發(fā)生改變,病斑區(qū)域逐漸擴大,發(fā)病樣品的病斑面積范圍為0.19~36.30 cm2,且稍有凹陷,部分病斑為同心輪紋斑(圖4d)。
圖4 不同病害程度庫爾勒香梨Fig.4 Korla pear with different disease degrees
表2 不同病害程度庫爾勒香梨病斑面積統(tǒng)計信息Tab.2 Statistical information of diseased spot area of Korla pear with different disease degrees
圖5 不同病害程度庫爾勒香梨原始及預處理光譜Fig.5 Original and pretreated spectra of Korla pear with different disease degrees
分別提取健康和不同病害程度黑斑病香梨高光譜圖像ROI內(nèi)的原始光譜,如圖5a所示。可以發(fā)現(xiàn),健康和潛育期樣品光譜曲線較為相似,隨著病害程度加深,光譜的反射率整體呈下降趨勢。光譜反射率的降低表示梨果實中蔗糖、果糖、葡萄糖等成分含量在發(fā)生變化[10]。其中,波長680 nm處可見明顯的吸收峰,與梨果皮和果肉中的葉綠素吸收有關(guān);波長740 nm與O—H鍵伸縮的3級倍頻有關(guān);波長980 nm處可見明顯的吸收峰,該吸收峰源于O—H鍵伸縮振動的2級倍頻,與水分子結(jié)構(gòu)密切相關(guān)[16]。潛育期香梨和健康香梨的光譜總體差異相對較小,與發(fā)病樣品的差異較大。這可能是因為鏈格孢菌侵染初期,在表皮蠟質(zhì)層和組織細胞壁的防御作用下,梨果實發(fā)生的變化相對較小。隨著鏈格孢菌侵染時間的延長,病原菌含量增加,同時釋放出寄主特異性毒素等代謝產(chǎn)物,香梨防御層遭到破壞,各種酶活性降低,梨果實中的果糖、葡萄糖、蔗糖、還原糖、總糖、總酸、水溶性蛋白質(zhì)等化學成分減少。在病原菌和香梨自身變化的綜合影響下,光譜反射率整體降低,在波長550、680、730、980 nm處較為明顯。對健康和不同病害程度黑斑病香梨光譜進行Kruskal-Wallis顯著性差異分析,其漸近顯著性P<0.000 1,表明不同等級樣品的光譜信息存在差異,為后續(xù)分類模型的建立提供了理論依據(jù)。
經(jīng)過5種不同方法預處理后的光譜如圖5b~5f所示。SNV預處理有效減小了樣品間因散射引起的光譜誤差(圖5b);微分是消除基線漂移、強化譜帶特征的常用方法,經(jīng)FD處理可有效去除與波長無關(guān)的漂移(圖5c),波長525、690 nm處的吸收峰更加明顯,而經(jīng)SD處理能有效去除同波長線性相關(guān)的漂移(圖5d)。將SNV處理與微分處理結(jié)合,能在散射校正的同時有效提高譜圖信息。如圖5e、5f所示,SNV+FD和SNV+SD處理后的光譜與FD和SD處理后的光譜總體趨勢保持一致,數(shù)值上有較大差異。
圖6 主成分分析結(jié)果Fig.6 Principal component analysis results
由于光譜數(shù)據(jù)量較大,因此對其進行PCA處理,只取其中的主成分進行投影分析,在最大程度保留有效信息的基礎(chǔ)上,通過減少特征維度來提高計算速度。所選取的各主成分之間彼此相互正交,從而使數(shù)據(jù)從高維空間向低維空間投影時能盡可能多地保留有用信息。以原始光譜為例,前10個主成分的貢獻率和累計貢獻率如圖6a所示,前3個主成分的累計貢獻率超過85%,前6個主成分的累計貢獻率超過99%。為了盡可能多地利用光譜特征信息,選取前6個主成分用于后續(xù)分類建模。前3個主成分的載荷如圖6b所示,載荷反映了各主成分在光譜范圍內(nèi)不同波長處的相關(guān)系數(shù),波峰或波谷表示局部最大絕對權(quán)重系數(shù)。由圖6可知,波長480、530、550、650、680、720、745、805、925、970、980 nm處具有較高的權(quán)重系數(shù),其中480 nm與類胡蘿卜素有關(guān);波長530 nm和550 nm反映梨果實的綠色信息;波長650~680 nm由梨果表皮葉綠素吸收差異引起,反映了香梨從健康到發(fā)病后表皮顏色的變化;波長720 nm與O—H鍵3級倍頻有關(guān);波長745 nm與CH2伸縮振動有關(guān);波長805 nm與N—H鍵3級倍頻有關(guān);波長925 nm與C—H鍵3級倍頻有關(guān);波長970 nm反映了C—H鍵2級倍頻的吸收,與果實中糖分的吸收密切相關(guān)[17-18];波長980 nm則與果實中含水率密切相關(guān)。不同病害程度梨果實的顏色、水分、化學成分之間具有差異,所選主成分能夠反映待測樣品特征信息。以第1和第2主成分進行投影分析,健康和不同病害程度黑斑病梨果的空間分布如圖6c所示。從圖中可知,直接采用主成分分析投影,為4類樣品的正確區(qū)分提供了有效信息,但健康和潛育期樣品區(qū)分效果較差,且輕度發(fā)病和重度發(fā)病樣品邊緣區(qū)域的區(qū)分效果不好。因此,基于所選前6個主成分,進一步采用分類器算法進行不同病害程度梨果的區(qū)分和潛育期梨果的識別。
將健康、潛育期和不同病害程度黑斑病庫爾勒香梨分別賦予類別標簽1、2、3、4,以所選主成分特征變量為輸入,分別采用KNN、LS-SVM和RF算法建立分類模型,結(jié)果如表3所示??梢园l(fā)現(xiàn),基于預處理光譜的總體和各類判別準確率均優(yōu)于原始光譜建模,表明采用合適的預處理方法能有效減少光譜采集過程中無關(guān)變量和噪聲的干擾,對于有效信息的保留、模型穩(wěn)健度的提高有重要的意義。對比不同方法預處理后的建模結(jié)果可知,導數(shù)處理后的建模結(jié)果優(yōu)于SNV預處理后的建模結(jié)果,尤其是對提高潛育期樣品的識別準確率較為明顯,表明微分處理可以放大局部譜峰信息,分辨重疊峰,提高分辨率和靈敏度,對易混淆為健康和輕度發(fā)病的潛育期樣品具有較好的識別效果。在SNV預處理的基礎(chǔ)上增加FD或SD處理能有效提高模型的判別準確率,且SNV+SD處理后的總體和各類判別準確率相對更高。
對比不同分類器算法的建模結(jié)果發(fā)現(xiàn),LS-SVM算法的分類效果較好,驗證集和潛育期的判別準確率分別為93.10%和76.92%。利用KNN和RF算法建立的模型,驗證集總體判別準確率分別為91.38%和89.83%。LS-SVM算法致力于將香梨主成分光譜特征映射到高維特征空間中,通過尋找一個超平面將不同病害程度的香梨樣品分開。模型建立過程中,通過對徑向基核函數(shù)邊界參數(shù)和核寬度的優(yōu)化,較好地解決了本研究中的小樣本、高維度的分類問題。KNN算法通過計算待分析香梨與訓練集香梨主成分特征之間的空間距離,由最近鄰的K個樣品“表決”確定其歸屬情況。RF算法通過在香梨主成分特征空間的多次采樣和變量空間的隨機選擇構(gòu)建多個決策樹模型,投票確定其所屬的類別。后兩種算法在對待測樣品歸類時,受各類別樣品數(shù)量不一致的影響,容易使信息增益的結(jié)果偏向于具有更多樣品數(shù)量的特征。而本研究中不同類別香梨樣品的數(shù)量有所不同,從而使KNN算法和RF算法較LS-SVM算法稍差。
表3 不同分類模型的總體判別準確率和各類判別準確率比較Tab.3 Comparison of classification accuracy for total samples and each category samples by using different classification models %
由表3可知,基于SNV+SD預處理后的光譜數(shù)據(jù),利用LS-SVM的建模結(jié)果最優(yōu)。為進一步明確該模型對不同類別庫爾勒香梨的識別效果,利用混淆矩陣對結(jié)果進行分析,如圖7所示。在混淆矩陣中,用顏色代表樣品數(shù)量,顏色越深,表示數(shù)量越大。對角線上數(shù)字表示被正確識別的樣品數(shù)量,對角線以外的數(shù)字表示被錯誤識別的樣品數(shù)量。如圖7a所示,校正集176個樣品有4個識別錯誤,其中1個健康香梨識別為潛育期,2個潛育期香梨分別識別為健康和輕度發(fā)病,1個輕度發(fā)病香梨識別為潛育期。如圖7b所示,驗證集58個樣品中有4個識別錯誤,其中,3個潛育期樣品分別被識別為健康(1個)和輕度發(fā)病(2個),1個輕度發(fā)病樣品被識別為重度發(fā)病樣品。這說明潛育期香梨和健康、輕度發(fā)病尤其是發(fā)病初期的樣品光譜較為相似,判別時會相互影響。同時,未出現(xiàn)潛育期判別為重度發(fā)病的樣品,表明此二類樣品之間差別較為明顯,更適合于選擇最優(yōu)信息點,建立分類模型時誤差降低,從而提高分類準確度。總體而言,驗證集中潛育期樣品的判別準確率最低,僅為76.92%,因此進一步采用Stacking集成學習的方法,提高模型的預測準確率。
圖7 LS-SVM算法的混淆矩陣 Fig.7 Confusion matrix of LS-SVM model
上述分析可知,利用SNV+SD預處理光譜的建模結(jié)果整體上優(yōu)于其他預處理方法,LS-SVM算法的識別效果優(yōu)于KNN和RF。因此,基于SNV+SD預處理光譜,以KNN、LS-SVM和RF作為第1層分類器算法,以LS-SVM作為第2層分類器算法,進行Stacking集成學習的模型構(gòu)建,預測結(jié)果的混淆矩陣如圖8所示。由圖可知,Stacking集成學習模型表現(xiàn)出良好的分類性能,校正集中各類別樣品的判別準確率均為100%,驗證集中健康、潛育期和重度發(fā)病樣品的判別準確率均為100%,輕度發(fā)病樣品中有1個判別為重度發(fā)病,準確率為95.24%,總體準確率為98.28%,比基于單一分類器建模的準確率高5.18個百分點。該判別錯誤與臨界樣品有關(guān),處于輕度發(fā)病和重度發(fā)病閾值點附近的樣品被錯誤分類。與單一分類器模型相比,Stacking集成學習的多模型組合策略可以減少總誤差,提高單個模型的性能,在潛育期樣品的識別上具有顯著的優(yōu)勢,判別準確率高23.08個百分點。因此,基于高光譜結(jié)合集成學習算法建立的庫爾勒香梨黑斑病模型能較好地實現(xiàn)潛育期樣品的正確識別。
圖8 Stacking集成學習模型的混淆矩陣Fig.8 Confusion matrix of Stacking ensemble learning model
本研究Stacking集成學習的分類器組合模型第1層選擇了學習能力較強、差異度較大的KNN、LS-SVM和RF作為基分類器,3種算法的組合使用有助于優(yōu)勢互補地提升模型的預測效果。第2層學習器采用泛化能力較強、建模效果最佳的LS-SVM模型,用于糾正多個分類器算法對于校正集的偏置情況,并通過集合方式防止過擬合效應(yīng)的出現(xiàn)[19]。元模型構(gòu)建過程中采用五折交叉驗證進行訓練,緩解了過擬合風險。目前已有較多研究證明集成模型的性能優(yōu)于單一模型[20-21],本研究的實驗結(jié)果得到相同的結(jié)論,即與單一分類器模型相比,Stacking集成學習模型能提高對不同病害程度黑斑病庫爾勒香梨的識別效果,尤其是針對潛育期樣品,模型的預測準確率有較大幅度的提升。這可能是因為,單一分類器在訓練過程中極易陷入局部最優(yōu)點,導致模型泛化性能不佳,而Stacking集成學習集合多個基分類器,能夠在保持高可信度和穩(wěn)定性的前提下兼顧一定的泛化能力,有效減少了陷入局部最優(yōu)點的風險[22]。
(1)基于高光譜成像技術(shù)和Stacking集成學習算法,構(gòu)建了庫爾勒香梨黑斑病的早期快速診斷模型,實現(xiàn)黑斑病潛育期和發(fā)病過程的實時檢測。
(2)對比分析了健康、潛育期、輕度發(fā)病和重度發(fā)病的黑斑病庫爾勒香梨的光譜曲線,健康和潛育期樣品光譜較為相似,隨著病害程度加深,光譜的反射率整體呈下降趨勢。對不同病害程度黑斑病香梨光譜進行顯著性差異分析,光譜信息存在顯著性差異,為分類模型的建立提供了理論依據(jù)。
(3)以KNN、LS-SVM和RF為基學習器,以LS-SVM為元學習器,構(gòu)建了黑斑病病害程度的Stacking集成學習預測模型。該模型對健康和不同病害程度黑斑病庫爾勒香梨的總體判別準確率為98.28%,對潛育期香梨的判別準確率為100%。
(4)Stacking集成學習算法充分結(jié)合了多個學習器的能力,能實現(xiàn)模型間信息的有效互補,具有較強的特征學習能力。該方法集成多個基分類器,有效減少了陷入局部最優(yōu)點的風險,結(jié)果相比單一分類器具有明顯的提高。