袁培森 曹益飛 馬千里 王浩云 徐煥良
(1.南京農(nóng)業(yè)大學(xué)人工智能學(xué)院, 南京 210095; 2.南京農(nóng)業(yè)大學(xué)工學(xué)院, 南京 210031)
植物表型是植物在一定環(huán)境下可觀察的形態(tài)特征,在植物保護(hù)、育種等領(lǐng)域具有重要應(yīng)用價(jià)值,其研究涉及植物學(xué)、數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)等領(lǐng)域[1-2]。水稻細(xì)菌性條斑病屬于水稻表型研究的重要內(nèi)容,是一種由稻黃單胞菌致病變種引發(fā)的水稻病害[3],實(shí)時(shí)準(zhǔn)確地判定水稻細(xì)菌性條斑病的分布區(qū)域和危害程度是采取有效防控措施和實(shí)現(xiàn)精準(zhǔn)噴藥的關(guān)鍵。目前,水稻細(xì)菌性條斑病常用的診斷方法主要依靠人力在田間觀察,這種方法不僅費(fèi)時(shí)費(fèi)力、難以在大范圍內(nèi)展開(kāi),還受觀察者自身經(jīng)驗(yàn)的影響[4],并且細(xì)菌性條斑病早期癥狀并不明顯,很容易被忽略。因此,研究既能克服傳統(tǒng)觀測(cè)方法局限性,又能精確、有效診斷早期細(xì)菌性條斑病病害的技術(shù)迫在眉睫[5]。
高光譜成像是植物病害檢測(cè)中常用的監(jiān)測(cè)技術(shù),具有無(wú)污染、高效等特點(diǎn)[6]。通過(guò)光譜中的每個(gè)波段記錄一個(gè)圖像,反映每個(gè)空間像素點(diǎn)的光譜信息,從而彌補(bǔ)了傳統(tǒng)光譜分析與成像技術(shù)的缺點(diǎn)[7-8]。研究人員對(duì)高光譜成像技術(shù)應(yīng)用于植物病理分析進(jìn)行了大量的研究。WU等[9]利用高光譜成像技術(shù)結(jié)合病理分析,通過(guò)聚合酶鏈?zhǔn)椒磻?yīng)標(biāo)記不同條件下收集的稻粒真實(shí)感染狀態(tài),使用主成分分析分離健康稻谷粒和受感染稻谷粒,并使用隨機(jī)森林極限學(xué)習(xí)機(jī)模型(RF-ELM)對(duì)不同感染程度的健康和感染混合粒進(jìn)行分類。雷雨等[10]對(duì)小麥葉片的高光譜圖像進(jìn)行掩膜處理,利用主成分分析法和最大類間方差法獲取小麥葉片的條銹病病斑區(qū)域,通過(guò)面積比判定小麥的條銹病病害等級(jí)。LU等[11]利用遠(yuǎn)程高光譜遙感監(jiān)測(cè)實(shí)時(shí)和特定位置的水稻氮、磷和硫等含量。SUN等[12]結(jié)合高光譜技術(shù)和全基因組關(guān)聯(lián)分析技術(shù)對(duì)水稻種子的生化特性進(jìn)行表型分析,結(jié)果表明,歸一化光譜指數(shù)與蛋白質(zhì)含量具有高度相關(guān)性。GHAMISI等[13]根據(jù)LiDAR和高光譜數(shù)據(jù)的空間信息進(jìn)行建模,通過(guò)使用支持向量機(jī)或隨機(jī)森林分類技術(shù)獲得最終的分類圖。張帥堂等[14]提出了基于高光譜成像技術(shù)和圖像處理技術(shù)融合的茶葉病斑識(shí)別方法。YEH等[15]基于高光譜成像技術(shù),利用光譜角度映射器檢測(cè)3個(gè)不同感染階段的草莓葉狀炭疽病。郭偉等[16]通過(guò)高光譜影像的光譜指數(shù)、比值光譜指數(shù)及歸一化差值光譜指數(shù)構(gòu)建偏最小二乘回歸預(yù)測(cè)模型,反演冬小麥全蝕病病情指數(shù)。梁琨等[17]利用連續(xù)投影算法和自適應(yīng)加權(quán)算法提取特征波段的光譜圖像,識(shí)別小麥赤霉病。這些研究表明,高光譜可以用于作物病害檢測(cè),并且取得了較好的效果。但基于高光譜成像對(duì)細(xì)菌性條斑病進(jìn)行早期識(shí)別的研究較少。
張智韜等[18]探討了分?jǐn)?shù)階微分聯(lián)合支持向量機(jī)分類-隨機(jī)森林模型改善高光譜監(jiān)測(cè)荒漠土壤有機(jī)質(zhì)含量的效果,通過(guò)篩選敏感的歸一化光譜指數(shù),建立不同分?jǐn)?shù)階微分的隨機(jī)森林模型,并以不同土質(zhì)中的最佳模型進(jìn)行組合,構(gòu)建的支持向量機(jī)分類和隨機(jī)森林模型能夠快速評(píng)估荒漠土壤有機(jī)質(zhì)含量。競(jìng)霞等[19]利用弗勞恩霍夫譜線三波段判別算法提取冠層日光誘導(dǎo)葉綠素?zé)晒鈹?shù)據(jù),結(jié)合對(duì)小麥條銹病病情嚴(yán)重度敏感的11種反射率微分光譜指數(shù),基于隨機(jī)森林算法和BP神經(jīng)網(wǎng)絡(luò)算法預(yù)測(cè)小麥條銹病的病情嚴(yán)重度。BISWAS等[20]利用灰度共生矩陣和隨機(jī)森林對(duì)感染炭疽病、白粉病和霜霉病的葡萄葉片進(jìn)行分類,并確定其嚴(yán)重程度。目前,基于高光譜影像病害的研究多集中于提取光譜指數(shù),再對(duì)病害進(jìn)行識(shí)別和分類,基于光譜本身對(duì)病害進(jìn)行識(shí)別的研究較少。
本研究以感染細(xì)菌性條斑病的水稻葉片為研究對(duì)象,利用隨機(jī)森林算法基于高光譜曲線本身的光譜信息建立水稻細(xì)菌性條斑病早期檢測(cè)模型,并對(duì)特征波段重要性進(jìn)行篩選,以提高識(shí)別性能和效果。
試驗(yàn)水稻栽培品種選用2015年被農(nóng)業(yè)部評(píng)為超級(jí)稻品種的南梗9108。種植前挑選飽滿種粒,浸種、催芽后,于2019年8月17日在南京農(nóng)業(yè)大學(xué)植物保護(hù)學(xué)院溫室播種,采用盆栽式,共80杯,每杯6~8顆種子,均勻播種,管理方法相同。水稻出苗后,搬運(yùn)到室外,在自然條件下生長(zhǎng)。試驗(yàn)采用的細(xì)菌性條斑病菌種由江蘇省農(nóng)業(yè)科學(xué)院植物保護(hù)研究所提供,菌種為致病性強(qiáng)的B5-16病原菌,水稻細(xì)菌性條斑病病原菌培育圖如圖1所示。
2019年9月21日,水稻苗長(zhǎng)到4葉期后,接種細(xì)菌性條斑病菌。將每株水稻苗的倒二葉葉片完全伸展,用酒精消毒的雙針頭棉花注射器均勻沾取準(zhǔn)備好的菌液,將針頭口按住葉片,輕輕按動(dòng),使菌液通過(guò)壓力滲入到葉片細(xì)胞間隙內(nèi)[21]。每片倒二葉首末兩端各接種一次,距離保持在8 cm左右,水稻接種后如圖2所示。
本試驗(yàn)采用的推掃型高光譜成像系統(tǒng)(HSI-VNIR-0001, 上海五鈴光電科技有限公司)如圖3所示。采集軟件為Spectral-image成像軟件和HSI Analyzer分析軟件。高光譜系統(tǒng)采集的水稻葉片光譜波長(zhǎng)范圍為373~1 033 nm,共616個(gè)波段。選用17 mm的成像鏡頭,確定物距為27 cm,亮度為200 lx,調(diào)節(jié)曝光時(shí)間8 ms使分辨率達(dá)到3 000像素。
水稻細(xì)菌性條斑病的潛伏期為3 d,前3 d接種點(diǎn)附近的葉片和健康葉片類似。由預(yù)試驗(yàn)及植保專家確定,3~7 d為爆發(fā)期,在此期限內(nèi),細(xì)菌性條斑病會(huì)快速蔓延。由于設(shè)備與場(chǎng)地限制,試驗(yàn)在病害早期的第3天和第7天進(jìn)行離體拍攝,以6~8片離體水稻葉片樣本為1組放置在載物臺(tái)上進(jìn)行成像,水稻葉片隨著載物臺(tái)勻速移動(dòng),高光譜成像儀獲取葉片每個(gè)像素在各個(gè)波長(zhǎng)處的光譜信息和圖像數(shù)據(jù)。共獲得1 961個(gè)接種水稻細(xì)菌性條斑病病原菌的水稻葉片樣本的高光譜數(shù)據(jù)和400個(gè)接種蒸餾水的水稻葉片樣本的高光譜數(shù)據(jù)。
對(duì)高光譜儀器進(jìn)行校正后再進(jìn)行高光譜曲線采集,通過(guò)調(diào)節(jié)光強(qiáng)、圖像清晰度、圖像失真度來(lái)實(shí)現(xiàn)高光譜成像系統(tǒng)的校正。物鏡之間的高度、電控載物臺(tái)的移動(dòng)速度和曝光時(shí)間都會(huì)影響圖像清晰度。為了減少噪聲信息對(duì)高光譜曲線的影響,進(jìn)而提高光譜曲線定性或定量分析模型的穩(wěn)定性和精度,需要對(duì)高光譜曲線進(jìn)行黑白校正[16],采用HSI Analyzer分析軟件進(jìn)行圖像處理。先對(duì)采集的光譜圖像進(jìn)行校正,圖像校正公式為
(1)
式中R(i)——校正后的圖像相對(duì)反射率
Ir(i)——試驗(yàn)光譜的原始圖像反射率
Iw(i)——白板校正后亮電流光譜反射率
Id(i)——黑板校正后暗電流光譜反射率
用水稻樣本感興趣區(qū)域(Region of interest, ROI)中的所有像素點(diǎn)的光譜平均值作為該樣本的平均光譜。
通過(guò)HSI Analyzer加載水稻樣本的高光譜圖像,放大水稻葉片的高光譜圖像,選擇接種條斑病病原菌葉片中心10像素×10像素的圓形感興趣區(qū)域,計(jì)算感興趣區(qū)域內(nèi)所有像素點(diǎn)的平均光譜,作為水稻感染條斑病葉片樣本的原始高光譜數(shù)據(jù)。
常見(jiàn)的高光譜數(shù)據(jù)預(yù)處理方法有S-G卷積平滑[10]、多元散射校正[14](Multiple scattering correction, MSC)、標(biāo)準(zhǔn)正態(tài)變量變換[15](Standard normal variate,SNV)和一階導(dǎo)數(shù)法[17]。比較以上4種方法對(duì)染病水稻數(shù)據(jù)和健康水稻數(shù)據(jù)進(jìn)行平滑處理的效果,得到經(jīng)過(guò)S-G、MSC以及SNV處理后的光譜反射率基本保持了原始光譜曲線的走向,但效果不佳,而經(jīng)過(guò)多元散射校正處理后的光譜曲線反射率保持在0~0.6的區(qū)間范圍內(nèi),曲線集中、輪廓清晰,處理效果較好,預(yù)處理后的光譜曲線如圖4所示。因此本文選定多元散射校正對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。
隨機(jī)森林(Random forest,RF)算法解決了決策樹(shù)創(chuàng)建不穩(wěn)定、過(guò)擬合等問(wèn)題,在分類精度上比單株決策樹(shù)有明顯的提高。此外,RF算法對(duì)比其他分類算法具有分類速度快和能夠處理高維數(shù)據(jù)等特點(diǎn),而且對(duì)噪聲和孤立點(diǎn)不敏感,不存在過(guò)擬合等問(wèn)題[22-23]。
將RF算法用于葉片高光譜數(shù)據(jù)集,數(shù)據(jù)集中的每行數(shù)據(jù)對(duì)應(yīng)616個(gè)反射率和標(biāo)簽,共2 361行。為保證試驗(yàn)數(shù)據(jù)劃分的隨機(jī)性和一致性,將2 361行水稻葉片高光譜數(shù)據(jù)以8∶2的比例隨機(jī)劃分為訓(xùn)練集和測(cè)試集[24],訓(xùn)練集共1 889行水稻葉片高光譜數(shù)據(jù),用于模型的建立與優(yōu)化;測(cè)試集共472個(gè)水稻葉片高光譜數(shù)據(jù),用于檢驗(yàn)。
利用RF算法對(duì)1 889個(gè)水稻葉片高光譜數(shù)據(jù)進(jìn)行訓(xùn)練。一行葉片數(shù)據(jù)對(duì)應(yīng)一個(gè)決策樹(shù),在單棵決策樹(shù)進(jìn)行分裂時(shí),有3種方法可以選擇[25-26],分別為開(kāi)平方、取對(duì)數(shù)和無(wú)處理,本模型選擇將波段數(shù)開(kāi)平方取整,即從616個(gè)反射率中隨機(jī)選取24個(gè)反射率。用全波段反射率的熵和24個(gè)反射率的熵做差,算出24個(gè)反射率的信息增益。信息增益最大的反射率為這棵決策樹(shù)的根部節(jié)點(diǎn),其余反射率按信息增益大小依次排列,作為其他非葉子節(jié)點(diǎn),建成一個(gè)分類決策樹(shù)。按照以上步驟,生成大量的決策樹(shù),建立基于RF算法的水稻細(xì)菌性條斑病識(shí)別模型。在構(gòu)建RF算法時(shí),有3個(gè)影響性能和效率的重要參數(shù)[27]:
(1)決策樹(shù)數(shù)量
設(shè)ntrees為森林中決策樹(shù)數(shù)量,即評(píng)估器數(shù)量。這個(gè)參數(shù)對(duì)RF算法的精確性影響是單一的。較多的子樹(shù)可以讓模型有更好的性能,但同時(shí)會(huì)使模型運(yùn)行變慢。ntrees達(dá)到一定值后,RF算法的精確性往往不再上升或開(kāi)始波動(dòng)。對(duì)于這個(gè)參數(shù),需要在訓(xùn)練難度和算法效果之間取得平衡。
(2)葉節(jié)點(diǎn)樣本數(shù)
隨機(jī)森林是決策樹(shù)B的集合{T1(X),T2(X),…,TB(X)},其中X=(X1,X2,…,Xp)為分子描述符或與分子有關(guān)的p維向量。決策樹(shù)B產(chǎn)生輸出集合B={T1(X),T2(X),…,TB(X)},其中B(B=1,2,…,b)是第B棵樹(shù)對(duì)一個(gè)分子的預(yù)測(cè),對(duì)所有樹(shù)的輸出進(jìn)行聚合以產(chǎn)生一個(gè)最終預(yù)測(cè),在本文水稻細(xì)菌性條斑病的識(shí)別模型中,是集成的決策樹(shù)的預(yù)測(cè)結(jié)果。
將水稻葉片的高光譜數(shù)據(jù)整理成一組含n個(gè)訓(xùn)練分子的數(shù)據(jù)集D={(X1,Y1),(X2,Y2),…,(Xn,Yn)},其中Xi(i=1,2,…,n)是描述符向量,Yi對(duì)應(yīng)的標(biāo)簽是0或1,訓(xùn)練算法步驟如下[28]:①?gòu)碾S機(jī)水稻葉片訓(xùn)練數(shù)據(jù)集D中抽取一個(gè)隨機(jī)樣本,即隨機(jī)抽樣,替換n個(gè)訓(xùn)練分子。②對(duì)于每個(gè)bootstrap樣本,在每個(gè)節(jié)點(diǎn)上,隨機(jī)選擇隨機(jī)特征數(shù)mtry,在子集中確定最佳分割位置使樹(shù)長(zhǎng)到最大尺寸(即不可能進(jìn)一步分裂,停止生長(zhǎng))。③重復(fù)步驟①、②,直到(足夠大的數(shù)量)決策樹(shù)B長(zhǎng)至足夠大,此時(shí)葉節(jié)點(diǎn)的樣本數(shù)為nestimators。
(3)候選特征子集
在決策樹(shù)生長(zhǎng)過(guò)程中,所有的隨機(jī)特征數(shù)都在每個(gè)節(jié)點(diǎn)上測(cè)試其分裂性能,而RF算法只測(cè)試隨機(jī)特征數(shù)mtry。由于mtry通常非常小(軟件中的默認(rèn)值是分類描述符數(shù)量的平方根),因此運(yùn)行速度非??臁榱双@得具有最佳預(yù)測(cè)強(qiáng)度的模型復(fù)雜度,一般算法是通過(guò)交叉驗(yàn)證對(duì)單個(gè)決策樹(shù)進(jìn)行修剪,該過(guò)程計(jì)算量較大。但是,隨機(jī)森林不作任何修改。所以在水稻葉片的高光譜數(shù)據(jù)量非常大的情況下,RF算法可以比單個(gè)決策樹(shù)在更少的時(shí)間內(nèi)被訓(xùn)練。
根據(jù)RF算法原理[29],本試驗(yàn)取mtry=p、在所有描述符中選擇每個(gè)節(jié)點(diǎn)的最佳分割點(diǎn)時(shí),RF算法與Bagging相同。
水稻葉片的高光譜波長(zhǎng)范圍為373.79~1 033.59 nm,共616個(gè)波段,不是每一個(gè)波段對(duì)隨機(jī)森林分類模型都能造成影響,對(duì)于重要性較小或者冗余波段,即使受到噪聲干擾,對(duì)分類結(jié)果也沒(méi)有影響。從616個(gè)光譜波段中篩選出對(duì)分類結(jié)果影響較大的光譜波段,用重要波段分類模型代替全波段分類模型,以此來(lái)簡(jiǎn)化隨機(jī)森林分類模型,減少計(jì)算量。本文模型中對(duì)波段重要性的排序步驟如下[26]:①遍歷616個(gè)波段,利用袋外數(shù)據(jù)進(jìn)行預(yù)測(cè),將每個(gè)波段的預(yù)測(cè)誤差記為{E1,E2,…,Em}。②對(duì)袋外數(shù)據(jù)的某一自變量值進(jìn)行干擾,再對(duì)袋外數(shù)據(jù)進(jìn)行預(yù)測(cè),將每個(gè)波段的預(yù)測(cè)誤差記為{E11,E12,…,E1m}。③干擾后的預(yù)測(cè)誤差與干擾前的預(yù)測(cè)誤差取差值,對(duì)m個(gè)差值取平均值,將每個(gè)差值與平均值比較,其相差越大則該波段的重要程度越高。
選取經(jīng)過(guò)MSC預(yù)處理的健康和染病水稻葉片的高光譜數(shù)據(jù),對(duì)兩種不同葉片的光譜曲線進(jìn)行分析。水稻葉片樣本高光譜曲線如圖6所示。
在616個(gè)全波段水稻葉片高光譜數(shù)據(jù)中,對(duì)本文方法識(shí)別水稻細(xì)菌性條斑病有重要影響的波段是12個(gè),其中10個(gè)均勻分布在第56號(hào)波長(zhǎng)(429.27 nm)和第69號(hào)波長(zhǎng)(442.55 nm)之間,即藍(lán)光波長(zhǎng)(并不在上述范圍內(nèi))附近。
剩下2個(gè)波長(zhǎng)為第301號(hào)波長(zhǎng)(688.15 nm)和第302號(hào)波長(zhǎng)(689.24 nm),驗(yàn)證了圖6中水稻葉片樣本的健康高光譜數(shù)據(jù)與染病數(shù)據(jù)對(duì)比分析,因?yàn)樵诘?75號(hào)波長(zhǎng)(659.99 nm)附近,健康水稻葉片的光譜反射率到達(dá)谷值,與同波段染病的水稻葉片光譜反射率相比,差異明顯。
這12個(gè)波長(zhǎng)均不在綠光波長(zhǎng)(550 nm)附近。其他的101個(gè)波長(zhǎng)也鮮有在綠光波長(zhǎng)(550 nm)附近。
因?yàn)榻臃N水稻細(xì)菌性條斑病病原菌的水稻葉片在發(fā)病前期,其細(xì)胞內(nèi)部含有大量的葉綠素,在陽(yáng)光的照射下呈墨綠色水漬斑點(diǎn),與健康水稻葉片沒(méi)有太大區(qū)別。在綠光波長(zhǎng)(550 nm)附近,染病水稻葉片的光譜反射率與健康水稻葉片的光譜反射率也重合,充分說(shuō)明了在綠光波長(zhǎng)(550 nm)附近沒(méi)有重要光譜的原因。
在藍(lán)光波長(zhǎng)(450 nm)附近,由于藍(lán)光可以被水稻葉片中葉黃素吸收,轉(zhuǎn)給葉綠素進(jìn)行光合作用,促進(jìn)水稻生長(zhǎng),導(dǎo)致大量水稻代謝產(chǎn)物堆積在藍(lán)光附近,所以重要光譜基本出現(xiàn)在藍(lán)光波段附近。
試驗(yàn)平臺(tái)為Windows10系統(tǒng),16 GB內(nèi)存,256 GB SSD,1TB HD,Intel QuadCore i7-8700, 4.2 GHz。采用scikit-learn 2.2和Python 3.7編寫(xiě)算法,高光譜數(shù)據(jù)采用HSI Analyzer和Matlab 7.1軟件完成處理。
將預(yù)測(cè)正確的健康樣本數(shù)量記為TP,將預(yù)測(cè)錯(cuò)誤的健康樣本數(shù)量記為TN,將預(yù)測(cè)正確的染病樣本數(shù)量記為FP,將預(yù)測(cè)錯(cuò)誤的染病樣本數(shù)量記為FN[28-29]。采用精確率P、召回率R、綜合評(píng)價(jià)指標(biāo)F1值、準(zhǔn)確率A作為評(píng)價(jià)指標(biāo)。
RF算法篩選出的水稻葉片的高光譜波長(zhǎng)中一共有113個(gè)波長(zhǎng)對(duì)基于隨機(jī)森林的水稻細(xì)菌性條斑病的分類模型有相關(guān)性影響。圖7為波長(zhǎng)重要程度相關(guān)性分析示意圖。
由圖7可知,排序第1的波長(zhǎng)是443.58 nm,其重要性分值為0.046 40。重要程度排序第1的波長(zhǎng)(443.58 nm,第70號(hào)波長(zhǎng))到第11的波長(zhǎng)(432.33 nm,第59號(hào)波長(zhǎng))對(duì)RF算法的重要性依次緩慢遞減。排序第12波長(zhǎng)(659.99 nm,第275號(hào)波長(zhǎng))到第13波長(zhǎng)(845.68 nm,第445號(hào)波長(zhǎng))對(duì)RF算法的重要性迅速下降。之后緩慢下降,此時(shí)的光譜波長(zhǎng)的重要性已經(jīng)很低,對(duì)RF算法分類水稻細(xì)菌性條斑病的影響不大。
從113個(gè)對(duì)本文模型有影響的波長(zhǎng)中選取影響程度最高的前12個(gè)光譜波長(zhǎng),波長(zhǎng)重要性排序見(jiàn)表1。
表1 波長(zhǎng)重要性排序Tab.1 Band importance ranking
試驗(yàn)選取邏輯回歸(Logistic regression, LR)、樸素貝葉斯(Naive Bayes, NB)、決策樹(shù)(Decision tree, DT)、k最近鄰(k-nearest neighbor, KNN)、支持向量分類機(jī)(Support vector classifier, SVC)和(Gradient boosting decision tree,GBDT)算法進(jìn)行對(duì)比試驗(yàn),相關(guān)算法參數(shù)均為scikit-learn 2.2默認(rèn)參數(shù)。
通過(guò)對(duì)比分析發(fā)現(xiàn)樸素貝葉斯準(zhǔn)確率最低,只有74.27%(表2)。因?yàn)闃闼刎惾~斯模型在給定輸出類別的情況下,假設(shè)屬性之間相互獨(dú)立,這個(gè)假設(shè)在實(shí)際應(yīng)用中往往不成立,當(dāng)屬性個(gè)數(shù)比較多或者屬性之間相關(guān)性較大時(shí),分類效果較差。相對(duì)邏輯回歸算法,RF算法的準(zhǔn)確率提高了2.32個(gè)百分點(diǎn),相對(duì)樸素貝葉斯算法,RF算法的準(zhǔn)確率提高了20.97個(gè)百分點(diǎn),相對(duì)決策樹(shù)算法,RF算法的準(zhǔn)確率提高了1.94個(gè)百分點(diǎn),相對(duì)KNN算法,RF算法的準(zhǔn)確率提高了3.96個(gè)百分點(diǎn),相對(duì)SVC,RF算法的準(zhǔn)確率提高了3.66個(gè)百分點(diǎn),相對(duì)GBT,RF算法的準(zhǔn)確率提高了2.02個(gè)百分點(diǎn)。
表2 不同分類算法的準(zhǔn)確率Tab.2 Accuracy of different classification algorithm
綜上所述,基于隨即森林的水稻細(xì)菌性條斑病識(shí)別方法的分類效果最優(yōu)。
將427個(gè)測(cè)試水稻葉片樣本數(shù)據(jù)輸入訓(xùn)練好的水稻細(xì)菌性條斑病識(shí)別算法中,健康樣本標(biāo)簽為0,染病樣本標(biāo)簽為1。
本文方法對(duì)全波段的分類結(jié)果的精確率為97.63%,召回率為95.15%,F(xiàn)1值為96.37%,準(zhǔn)確率為95.17%。本文中的水稻葉片數(shù)據(jù)集不均衡,染病葉片遠(yuǎn)遠(yuǎn)高于健康葉片數(shù)量,F(xiàn)1值較高,從側(cè)面反映本文方法的精確性和穩(wěn)定性較好。
使用隨機(jī)森林算法篩選水稻葉片高光譜重要光譜波段,提高模型的預(yù)測(cè)性能,將用于分類的波段數(shù)量從616個(gè)減少到12個(gè),數(shù)量下降了98.05%,大大簡(jiǎn)化了模型結(jié)構(gòu)。
本文方法對(duì)12個(gè)波長(zhǎng)分類的識(shí)別精確率為94.66%,召回率為99.55%,F(xiàn)1值為97.04%,準(zhǔn)確率為94.32%。與全波段分類結(jié)果相比,精確率減少了2.97個(gè)百分點(diǎn),召回率增加了4.4個(gè)百分點(diǎn),F(xiàn)1值增加了0.67個(gè)百分點(diǎn),準(zhǔn)確率減少了0.85個(gè)百分點(diǎn)。雖然準(zhǔn)確率有所下降,但是模型結(jié)構(gòu)更加精簡(jiǎn),計(jì)算復(fù)雜度下降,模型精度基本保持不變。
(1)通過(guò)對(duì)水稻葉片全波段光譜曲線分析可得,水稻葉片光譜曲線總體呈上升趨勢(shì),患病葉片光譜曲線在590 nm附近,達(dá)到高峰;之后開(kāi)始緩慢波動(dòng),在650 nm附近開(kāi)始下降,在680 nm附近到達(dá)谷值,染病水稻葉片的光譜反射率與健康水稻葉片有明顯差異;隨后迅速上升,在750 nm附近趨于平緩。在藍(lán)光波長(zhǎng)(450 nm)和紅光波長(zhǎng)(664 nm)附近,染病水稻葉片的光譜反射率與健康水稻葉片的光譜反射率差距較大。
(2) RF算法的分類準(zhǔn)確率最高,為95.24%,相對(duì)LR、NB、DT、KNN、SVC和GBT算法,準(zhǔn)確率分別提高了2.32、20.97、1.94、3.96、3.66、2.02個(gè)百分點(diǎn)。
(3)采用RF算法對(duì)基于全波段和基于12個(gè)重要波長(zhǎng)的分類結(jié)果進(jìn)行比較?;?2個(gè)重要波長(zhǎng)的識(shí)別精確率為94.66%、召回率為99.55%、F1值為97.04%、準(zhǔn)確率為94.32%,與全波段分類結(jié)果相比,精確率減少了2.97個(gè)百分點(diǎn),召回率增加了4.4個(gè)百分點(diǎn),F(xiàn)1值增加了0.67個(gè)百分點(diǎn),準(zhǔn)確率減少了0.85個(gè)百分點(diǎn)。雖然準(zhǔn)確率有所下降,但是模型結(jié)構(gòu)更加精簡(jiǎn)、計(jì)算復(fù)雜度下降,模型精度基本保持不變。
(4)采用MSC對(duì)光譜曲線進(jìn)行預(yù)處理,利用RF算法對(duì)細(xì)菌性條斑病高光譜影像識(shí)別的準(zhǔn)確率均高于94%,可以實(shí)現(xiàn)對(duì)細(xì)菌性條斑病的快速識(shí)別。