康 麗,袁建清,高 睿,孔慶明,賈銀江,蘇中濱*
1. 東北農(nóng)業(yè)大學電氣與信息學院,黑龍江 哈爾濱 150030 2. 大連工業(yè)大學信息科學與工程學院,遼寧 大連 116034 3. 哈爾濱金融學院計算機系,黑龍江 哈爾濱 150030
稻瘟病是世界公認的水稻三大病害之一,極大地危害水稻的品質和產(chǎn)量,因而對稻瘟病的監(jiān)測與防治一直是水稻種植領域的重要課題。目前主要采取階段性提前噴灑農(nóng)藥防治稻瘟病,雖然在一定程度上起到防治作用,但由于不區(qū)分發(fā)病與否,易造成施藥過量、危害食品安全、污染環(huán)境、抬升成本等問題。實現(xiàn)稻瘟病的分級監(jiān)測,尤其發(fā)病早期葉片的檢測識別,對早期防治、精準科學施藥等具有指導意義。
目前農(nóng)田生產(chǎn)中稻瘟病識別和分級方式主要以傳統(tǒng)的人工觀察為主,效率低、誤差大,尤其對于癥狀不明顯的發(fā)病早期葉片,非專業(yè)人員不易識別,對于發(fā)病之初的無病斑葉片,人工更是完全無法識別。近年來,高光譜技術以其無損、綠色、高效等優(yōu)點逐步引起農(nóng)業(yè)領域研究人員的關注,已在作物識別[1]、葉綠素估算[2-3]、生物量檢測[4]、病蟲害檢測[5-8]等方面得到廣泛研究。水稻病害方面,李志偉等[9]應用高光譜技術對水稻紋枯病進行識別; 朱夢遠等[10]研究了基于高光譜數(shù)據(jù)和葉綠素含量的紋枯病早期識別; Kobayashi等[11]利用航空高光譜圖像對水稻稻瘟病區(qū)域識別進行了研究; 袁建清等[12]針對寒地水稻研究了稻瘟病與缺氮葉片高光譜識別; 黃雙萍等[13]對穗瘟病的高光譜檢測方法進行了研究。目前利用高光譜技術對水稻稻瘟病葉片檢測的研究主要集中在染病葉片和健康葉片的區(qū)分識別,及輕重程度差異較大的分級檢測。對于早期分級檢測研究較少,基于自然發(fā)病的早期檢測,尤其對非人工接種方式染病無病斑葉片的檢測研究未見報道。
以大田自然發(fā)病水稻為研究對象,應用高光譜成像技術,對水稻稻瘟病早期分級檢測進行研究,并提出染病無病斑級別進行檢測。采用多種特征變量提取方式,構建多個稻瘟病早期高光譜分級檢測模型,對比分析確定最優(yōu)模型,以實現(xiàn)為水稻病害早期防治、精準用藥以及監(jiān)測儀器的開發(fā)提供理論支持。
樣本全部采集于黑龍江省哈爾濱市方正縣水稻研究院大田。選擇在稻瘟病發(fā)病明顯的水稻拔節(jié)期進行樣本采集,根據(jù)病斑區(qū)域大小選取染病程度較輕葉片和健康葉片放入保溫箱內(nèi),并立即帶入研究院內(nèi)實驗室采集高光譜圖像。最終獲得有效樣本共計433片,其中,健康葉片109片、染病葉片324片。
水稻感染稻瘟病之初,并不會立刻出現(xiàn)可見病斑,無病斑導致在田間無法識別、無法直接采集到此類葉片樣本。有病斑葉片的病斑附近雖未呈現(xiàn)病斑,但葉片組織也已受到病害侵襲、遭到破壞,因此,為實現(xiàn)對自然發(fā)病狀態(tài)下最早期的染病葉片無病斑狀態(tài)的檢測,提取染病葉片樣本靠近病斑的非病斑區(qū)域高光譜數(shù)據(jù)進行研究。在采集的染病葉片中隨機選取116片作為此類樣本,定義為染病等級中的1級(染病無病斑)樣本。
根據(jù)病斑面積將所有葉片樣本劃分為4個等級: 健康葉片為0級(109片)、染病無病斑為1級(116片)、病斑面積<10%為2級(107片)、病斑面積<25%為3級(101片)。將4個級別的樣本各自隨機排列,按照2∶1的比例隨機劃分建模集和驗證集,具體樣本數(shù)量描述如表1所示。
表1 樣本數(shù)量統(tǒng)計表Table 1 Quantitative statistic of samples
使用美國HeadWall公司生產(chǎn)的高光譜成像系統(tǒng)進行水稻葉片樣本高光譜圖像采集。該系統(tǒng)主要由高光譜相機、采集器、鹵素燈光源、可移動載物臺、計算機以及光源箱等部件組成,光譜范圍為400~1 000 nm、采樣間隔3 nm。將待測葉片正面朝上平鋪在移動平臺上,調(diào)整并設置載物臺移動速度3.0 mm·s-1、曝光時間30 ms,鏡頭垂直向下高度45 cm,進行高光譜圖像采集。為消除采集圖像中由環(huán)境、設備等因素引起的測量偏差,對其進行反射率標定: 掃描標準白板獲得標準圖像Rw,關閉快門、蓋上鏡頭蓋獲得暗場圖像Rd,對待校正的高光譜圖像Rr進行式(1)運算,獲得校正后高光譜圖像R。
(1)
利用ENVI5.3軟件,避開葉脈和葉片邊緣,在葉片中段位置隨機分散選取4個矩形區(qū)域為感興趣區(qū)域,2和3級樣本需包含病斑,1級樣本選擇貼近病斑的無病斑區(qū)域。計算區(qū)域內(nèi)所有像素點的光譜反射率平均值作為該葉片樣本的高光譜數(shù)據(jù),全部樣本光譜曲線如圖1所示。
圖1 全部水稻葉片光譜曲線Fig.1 Reflectance spectra of all rice leaves
為降低環(huán)境、儀器、測量方法等因素引起的干擾和影響,對高光譜數(shù)據(jù)進行Savitzky-Golay卷積平滑和歸一化處理。
為解決由于高光譜數(shù)據(jù)波段多、數(shù)據(jù)量大而帶來的數(shù)據(jù)相關、冗余、共線性等問題,降低模型的復雜度、提高建模精度和運算速度,運用主成分分析(principle component analysis,PCA)和競爭性自適應重加權(competitive adaptive reweighted sampling,CARS)算法對高光譜數(shù)據(jù)進行染病級別的特征變量選取。
PCA是將多個變量通過線性變換轉換為相互正交、信息不重疊的新變量[14]。PCA概念簡單、運算簡潔,能夠在保留有效信息的同時解決變量之間的多重共線性問題,在高光譜數(shù)據(jù)降維、特征提取、消除噪聲、去相關性等方面得到廣泛應用。
CARS是基于蒙特卡羅采樣與偏最小二乘法(partial least squares,PLS)模型回歸系數(shù)的特征變量選擇方法。采用自適應重加權采樣技術選取PLS模型中回歸系數(shù)絕對值權重較大的變量,剔除權重較小的變量,建立PLS模型,經(jīng)多次運算,通過交互驗證選取均方根誤差最低的子集中的變量作為特征波長。
支持向量機(support vector machine,SVM)是一種有監(jiān)督機器學習方法,它是在線性分類器的基礎上,引入結構風險最小化原理、最優(yōu)化理論和核方法演化而成[15]。適用于處理樣本少、特征多、非線性等復雜問題,具有運算速度快、抗噪聲、泛化能力強等優(yōu)點,目前在很多研究領域得到廣泛應用。因此,選用SVM進行水稻稻瘟病早期分級檢測建模。
采用PCA算法對全部樣本的高光譜數(shù)據(jù)進行降維,前10個主成分(principle component,PC)特征值和累積貢獻率如表2所示。PC1的貢獻率最大,為45.59%,PC2的貢獻率為30.78%,前3個PC的累積貢獻率為83.86%,前4個PC的累積貢獻率為90.14%,之后各PC的累積貢獻率繼續(xù)提高,幅度逐步變小。
選擇主成分的常用標準主要有兩種: (1)累積貢獻率大于等于85%; (2)特征值大于等于1。在此,前4個PC累積貢獻率為90.14,符合標準(1); 前8個PC特征值符合標準(2)。因此,分別以前4個PC和前8個PC作為特征變量建模。
表2 前10個主成分特征值和累積貢獻率Table 2 The eigenvalues and the cumulativecontributions of the first 10 PCs
采用CARS對全部葉片高光譜數(shù)據(jù)進行染病級別特征波長選擇,蒙特卡羅采樣次數(shù)設置為50,選擇過程如圖2。
圖2 CARS特征波長選擇過程Fig.2 Variable selection based on CARS
圖2(a)表明變量個數(shù)隨采樣次數(shù)增加逐步減少,下降速度由快變慢,體現(xiàn)了變量選取由“粗”到“精”的選擇過程。圖2(b)顯示了PLS模型的交叉驗證RMSECV值隨采樣次數(shù)增加先降后升。由圖2(c)中“*”的位置可知,當采樣次數(shù)為25時,RMSECV值最小,表明與稻瘟病檢測不相關或共線性信息已被剔除,第25次采樣之后,RMSECV值逐步升高,表明與稻瘟病檢測相關的變量被剔除,尤其37次以后,模型性能明顯變差。因此,選擇第25次采樣獲得的變量為特征波長,共計21個,分布如圖3。
通過CARS選取的稻瘟病檢測特征波長數(shù)為21,數(shù)量依然較多。為了進一步減少變量之間可能存在的相關性或共線性、獲取更少的關鍵特征變量,利用PCA對CARS選取的特征波長變量進一步降維,結果如表3。前6個PC的累積貢獻率已達到99.27%,所以取前6個主成分變量為特征變量建模。
運用SVM算法,分別以全波段變量、PCA提取的4個、8個特征變量、CARS和CARS-PCA獲取的特征變量為輸入,建立稻瘟病檢測SVM、PCA4-SVM、PCA8-SVM、CARS-SVM和CARS-PCA-SVM模型,核函數(shù)選用徑向基函數(shù),每個模型均通過網(wǎng)格搜索法對懲罰因子C和核參數(shù)g尋取最優(yōu)值,建模結果見表4。
圖3 CARS特征波長選擇結果Fig.3 Results of variable selectionbased on CARS
表3 前6個主成分特征值和累積貢獻率Table 3 The eigenvalues and the cumulativecontributions of the first 6 PCs
表4 各分類模型預測準確率Table 4 Prediction results of identification models
所有模型的樣本總體檢測準確率全部大于94.6%,精度較高。各模型對3級樣本的檢測準確率最高; 對1級樣本的檢測準確率最高值為97.44%,最低值為89.74%,平均值為94.87%,與0級和2級相當,識別效果較好?;谌ǘ嗡⊿VM模型各級別的準確率分別是91.89%,97.44%,91.43%和100.00%,總體準確率是95.19%,能夠較為準確地檢測各級別稻瘟病。PCA8-SVM的準確率與全譜SVM模型相當,但輸入變量由203減為8。CARS-SVM模型的總體準確率最高,與SVM模型比較,1級、3級準確率相同,0級、2級和總體準確率分別提高了2.94%,6.25%和2.21%; 輸入變量數(shù)為21,較SVM減少了89.66%。CARS-PCA-SVM模型的各級準確率均大于94%,總體準確率為96.61%,比CARS-SVM略低0.68%,但其輸入變量數(shù)為6,較CARS-SVM減少71.43%,進一步降低模型的復雜度、提高模型的運算速度,因此,綜合評價CARS-PCA-SVM模型為最優(yōu)模型,其各級準確率分別為97.30%,94.87%,94.29%和100.00%。
以大田自然發(fā)病癥狀較輕的稻瘟病葉片和健康葉片為研究對象,采用不同特征變量選取算法,構建并對比分析多種水稻稻瘟病早期分級檢測模型,主要結論如下:
1級樣本即染病無病斑樣本的檢測效果較好; PCA,CARS和CARS-PCA均實現(xiàn)對高光譜數(shù)據(jù)的降維,大幅降低數(shù)據(jù)的冗余度,且較好地保留了表征葉片稻瘟病染病狀況信息; 結果表明CARS-SVM模型的準確率最高,結合模型復雜度、運算速度綜合評價CARS-PCA-SVM模型最優(yōu),其各級和總體準確率分別為97.30%,94.87%,94.29%,100.00%和96.61%,建模輸入變量數(shù)為6,模型變量少、檢測精度較高、運算速度較快。
基于大田自然發(fā)病,實現(xiàn)了對水稻稻瘟病的早期分級檢測,為稻瘟病染病早期無病斑葉片的檢測提供新思路,為水稻稻瘟病監(jiān)測、早期防治、精準施藥提供科學依據(jù),也為開發(fā)實時、便攜病害檢測儀器提供理論支持。