王 璐,關海鷗*,李偉凱,張志超,鄭 明,于 崧,侯玉龍
1. 黑龍江八一農(nóng)墾大學電氣與信息學院,黑龍江 大慶 1633192. 東北農(nóng)業(yè)大學,黑龍江 哈爾濱 1500303. 黑龍江八一農(nóng)墾大學農(nóng)學院,黑龍江 大慶 163319
我國是農(nóng)作物生產(chǎn)大國,在中國農(nóng)業(yè)發(fā)展中,雜糧具有關鍵地位和對其進行深入探究具有重要指導意義[1]。隨著人們開始關注營養(yǎng)健康的食品,雜糧的需求量日益增強[2],其中雜糧中的蕓豆具有較高的營養(yǎng)價值和廣泛用途。黑龍江省是我國種植蕓豆的主要地區(qū)之一,可知黑龍江省收獲蕓豆產(chǎn)量對中國的農(nóng)業(yè)生產(chǎn)及糧食安全影響非凡。但是黑龍江省擁有超過140萬公頃的鹽堿土面積和超過50萬公頃的鹽堿化耕地面積[3]。鹽堿脅迫是一種普遍的環(huán)境脅迫,隨著近年來鹽堿化面積持續(xù)加劇,鹽堿化問題已成為影響農(nóng)作物的產(chǎn)量和質量的逆境因子之一[4-5]。對農(nóng)作物鹽堿脅迫的研究一般是通過傳統(tǒng)的化學研磨萃取等方法,其操作繁瑣且存在破壞性和耗時長等不足,導致仍不能快速、無損地檢測鹽堿脅迫。如何快速準確、實時地獲取農(nóng)作物生長期的鹽堿脅迫狀態(tài)信息的機理及模型,已成為實施精細農(nóng)業(yè)的最重要的研究點之一。同時,NIR是一種具有無損、快速、精確等優(yōu)點的現(xiàn)代光譜分析技術。但是,目前基于近紅外光譜技術,對于以農(nóng)作物中的蕓豆為研究對象來進行鹽堿脅迫的研究較少和建立鹽堿脅迫下農(nóng)作物光譜曲線的特征波長提取方法來反映鹽堿脅迫程度的研究更是鮮有報道。
因此以苗期蕓豆為研究對象,獲取苗期蕓豆健康和多等級鹽堿脅迫的近紅外光譜曲線,分析鹽堿脅迫對蕓豆光譜反射特性參數(shù)的變化規(guī)律時,應用去趨勢算法(detrending,DT)對蕓豆鹽堿脅迫采樣數(shù)據(jù)進行預處理,然后針對預處理后的多維度光譜特點,優(yōu)選競爭性自適應重加權采樣算法(competitive adaptive reweighted sampling,CARS)提取對鹽堿脅迫程度敏感的特征波長,最后選用結合徑向基神經(jīng)網(wǎng)絡(radial basis function neural network,RBF)提供了一種鹽堿脅迫下蕓豆冠層NIR光譜特性分析及檢測的新方法。
實驗在黑龍江八一農(nóng)墾大學生物技術中心進行,以苗期蕓豆為研究對象,在自然環(huán)境下,選擇用霍格蘭營養(yǎng)液水培和用100 mmol·L-1碳酸氫鈉進行鹽堿脅迫處理為實驗方法,根據(jù)蕓豆苗期葉片生理指標中的光合色素含量、氣體交換參數(shù)和葉綠素熒光參數(shù)每隔24 h就有顯著變化來確定鹽堿脅迫程度等級,即分別獲取苗期時健康和鹽堿脅迫時間為24,48,72,96,120和144 h(第168 h蕓豆葉片已無活性)依次分為0級和1~6級的蕓豆冠層近紅外光譜曲線。實驗設備采用的是TANGO型德國布魯克近紅外光譜儀,檢測波數(shù)范圍: 11 541.94~3 946.174 cm-1,光譜分辨率: 8 cm-1,掃描次數(shù): 32次,蕓豆實驗場景如圖1所示。
圖1 蕓豆實驗場景(a): 水培蕓豆實況; (b): 近紅外光譜儀獲取蕓豆光譜曲線Fig.1 Kidney bean experiment scene
光譜儀預熱后利用OPUS軟件對蕓豆冠層進行掃描獲取近紅外光譜曲線,通過保留峰位、測量背景單通道光譜等,提高光譜數(shù)據(jù)的精度[6]。光譜儀在測量范圍的兩端有較大的噪音和蕓豆光譜異常樣本的存在會影響預測模型效果,因此保留990~2 452 nm范圍內(nèi)的光譜吸光度值進行研究,且采用主成分分析聯(lián)合馬氏距離法[7],如圖2所示和光譜曲線趨勢類似觀察法[8],判斷蕓豆多維度光譜曲線形狀趨勢是否大致一樣來剔除蕓豆異常樣本,經(jīng)過檢查無異常??傆嫴杉?24個蕓豆樣本的近紅外光譜曲線,如圖3所示和依次劃分0~6級鹽堿脅迫等級程度蕓豆的平均光譜吸光度值曲線,如圖4所示。為了提高模型的預測能力,采用光譜理化值共生距離(sample set partitioning based on joint x-y distance,SPXY)算法[9]按3∶1的比例劃分蕓豆的樣本集,且優(yōu)選去趨勢算法進行預處理如圖5所示。
圖2 524個蕓豆樣本的馬氏距離分布Fig.2 Distribution of mahalanobis distancesof 524 kidney bean samples
圖3 蕓豆樣本近紅外光譜Fig.3 Near infrared spectra of kidney bean samples
圖4 7類蕓豆樣本平均光譜吸光度值曲線Fig.4 Average spectral absorbance curves of7 types of kidney bean samples
圖5 DT預處理的蕓豆冠層近紅外光譜Fig.5 Near infrared spectra of kidney beancanopy pretreated by DT
在獲取蕓豆冠層的光譜曲線的基礎上,提出檢測蕓豆鹽堿脅迫時近紅外光譜數(shù)據(jù)效果較好的預處理和數(shù)學建模方法,以提高快速檢測鹽堿脅迫的精度。為避免多維度光譜信息丟失,采用偏最小二乘回歸法(partial least squares regression,PLSR)和主成分回歸法(principal component regression,PCR)兩種方法構建模型,可使相關度較高的波長變量放在一個獨立變量里,依照較少的獨立變量構建回歸方程,并對原始光譜(990~2 452 nm)范圍內(nèi)進行多種預處理,通過以均方根誤差較小和相關系數(shù)較高的綜合比較,PLSR模型和在PLSR模型中去趨勢預處理的實驗效果較合適,如表1所示。
表1 通過PLSR和PCR分析得出鹽堿脅迫預處理模型Table 1 The salt-alkali stress pretreatment model obtained by PLSR and PCR analysis
2.2.1 采用競爭性自適應重加權采樣算法提取特征波長
基于多維度光譜利用CARS算法優(yōu)選蕓豆冠層的特征波長的運算過程,具體化表述為圖6所示,通過圖6(a)能夠發(fā)現(xiàn)蕓豆冠層光譜變量數(shù)逐漸下降; 圖6(b)中的交叉驗證均方根誤差(root mean square error of cross validation,RMSECV)表明了基于自適應重加權采樣算法優(yōu)選的特征波長構建的PLSR模型的預測效果; 圖6(c)中每條線表示每個波長變量回歸系數(shù)的變化路徑,其中星號垂線表示擁有最小RMSECV值的最優(yōu)變量子集的采樣次數(shù),星號垂線以后RMSECV值開始上升,表示一些有效特性光譜變量被刪除了從而導致模型精度變差。在圖6(b)中RMSECV的最小值為1.070 4,此時對應的星號垂線位置為圖6(c)運行次數(shù)中的19,因此對于蕓豆冠層在星號垂線點19的位置上為RMSECV值最小和優(yōu)選的變量子集檢測蕓豆冠層鹽堿脅迫程度的效果較好,共包含95個特征波長。
圖6 CARS算法提取特征波長Fig.6 Extraction of characteristic wavelength by CARS
2.2.2 采用連續(xù)投影算法提取特征波長
利用連續(xù)投影算法(successive projections algorithm,SPA)優(yōu)選以蕓豆冠層光譜曲線中投影向量最大的波長為檢測鹽堿脅迫等級程度的待選波長,然后基于預測均方根誤差(root mean square error of prediction,RMSEP)來確定最佳的光譜變量總數(shù),即檢測蕓豆鹽堿脅迫的最終特征波長。
通過研究,根據(jù)最小誤差(RMSEP: 1.222 4)從1 463個波長點中優(yōu)選出蕓豆冠層的光譜17個波長變量,如圖7所示。
利用偏最小二乘回歸模型(PLSR),分別以990~2 452 nm的原始波長,和依次優(yōu)選出的95和17個光譜特征波長,構建蕓豆鹽堿脅迫檢測系統(tǒng),并對蕓豆鹽堿脅迫程度進行檢測和評價檢測系統(tǒng)性能,結果如表2所示。
圖7 SPA算法提取特征波長(a): 篩選變量的數(shù)目; (b): 特征波長的分布Fig.7 Extraction of characteristic wavelength by SPA(a): Number of filter variables;(b): Distribution of characteristic wavelengths
表2 三種建模方法檢測結果對比Table 2 Comparison of three modeling methods
分析表2中的不同特征波長的PLSR建模方法,采用全波長相對于CARS算法和SPA算法提取特征波長的變量較多,提取特征波長的兩種模型雖然在校正集和預測集的各項表征參數(shù)與DT-PLSR模型相比較略差一點,但差距小。再看CARS-PLSR模型和SPA-PLSR模型分別選擇的特征波長數(shù)量95個和17個,簡化了模型結構,提高了運算效率。通過參數(shù)效果和考慮波長數(shù)量甚少可能會過度失去有效信息的結合比較,認為應用CARS算法優(yōu)選了95個光譜波長變量較好,反映了蕓豆鹽堿脅迫時,其冠層光譜曲線的全波長特性,為進一步建立結構簡單且精度較高的蕓豆鹽堿脅迫檢測模型提供了有效的特征手段。
為解決蕓豆鹽堿脅迫與冠層光譜特征波長之間存在著非線性映射關系[10],并且難以建立嚴密和精確的數(shù)學模型的問題,應用徑向基神經(jīng)網(wǎng)絡(RBF)具有自適應的歸納推理機制,以其簡單的結構、快速的訓練過程和具有較好的精確識別鹽堿脅迫等級等諸多優(yōu)點,為其進行蕓豆鹽堿脅迫檢測提供了有利手段,能夠建立蕓豆鹽堿脅迫與冠層光譜特征波長之間映射規(guī)律,完成蕓豆鹽堿脅迫程度自動快速檢測模型實現(xiàn)過程。
2.3.1 RBF神經(jīng)網(wǎng)絡結構及參數(shù)
構建蕓豆檢測鹽堿脅迫的徑向基神經(jīng)網(wǎng)絡模型關鍵是網(wǎng)絡結構和參數(shù)的確定,由于CARS算法優(yōu)選了95維度波長特征向量,決定了徑向基神經(jīng)網(wǎng)絡的輸入層節(jié)點數(shù)為95; 是否蕓豆有鹽堿脅迫采用7位二進制編碼,即輸出層節(jié)點數(shù)為7和徑向基層的神經(jīng)元節(jié)點為282; 所以用于蕓豆鹽堿脅迫程度檢測的徑向基神經(jīng)網(wǎng)絡模型的拓撲結構為95-282-7型。
在網(wǎng)絡實際訓練時,基于上述輸入層、隱含層和輸出層參數(shù)設定的基礎上,選取包含受鹽堿脅迫不同程度的蕓豆樣本480個作為訓練集,余下44個樣本作為預測集。采用newrb函數(shù)創(chuàng)建檢測網(wǎng)絡,設定檢測鹽堿脅迫程度的目標精度為0.01,最大學習次數(shù)為60 000,模型擴展速度為1.7,訓練過程應用頻率為1。利用反向傳播神經(jīng)網(wǎng)絡(back propagation neural network,BP)和文中提出的徑向基神經(jīng)網(wǎng)絡分別進行蕓豆鹽堿脅迫模型的參數(shù)訓練,在網(wǎng)絡結構參數(shù)均相同的前提下,對基于CARS-BP和CARS-RBF模型苗期蕓豆鹽堿脅迫程度檢測的收斂曲線如圖8所示。
圖8 網(wǎng)絡收斂速度對比(a): BP神經(jīng)網(wǎng)絡; (b): RBF神經(jīng)網(wǎng)絡Fig.8 Contrast of convergence speed of networks(a): BP neural network; (b): RBF neural network
從圖8中訓練效果看,在學習次數(shù)為60 000次時,BP神經(jīng)網(wǎng)絡未達到預設精度誤差0.01; 而RBF神經(jīng)網(wǎng)絡學習次數(shù)為282次,精度誤差為0.009 938 59,RBF神經(jīng)網(wǎng)絡在平均學習次數(shù)和精度誤差均優(yōu)于BP網(wǎng)絡。
2.3.2 檢測模型應用實例與評價
調用BP和RBF智能檢測模型; 然后計算神經(jīng)網(wǎng)絡模型前向輸出y值,通過比較輸出網(wǎng)絡前向y值里的最大值來構建輸出值至編碼向量,將y編碼向量解析至鹽堿脅迫等級,最后輸出檢測鹽堿脅迫等級的結果。其二進制編碼的解碼映射規(guī)則為: 如果Max(y1,y2,…,yi,…,y7)中Max=yi,則yi=1,其余為0,將y編碼向量解析至鹽堿脅迫等級,達到可自適應地檢測農(nóng)作物多個鹽堿脅迫等級的目的。其中0000001代表健康、0000010代表鹽堿1等級、0000100代表鹽堿2等級、0001000代表鹽堿3等級、0010000代表鹽堿4等級、0100000代表鹽堿5等級和1000000代表鹽堿6等級,最后輸出檢測的鹽堿脅迫等級結果。
研究中以應用去趨勢預處理后的蕓豆冠層光譜曲線為基礎,通過競爭性自適應重加權采樣算法優(yōu)選95維度波長特征,構建了基于徑向基神經(jīng)網(wǎng)絡的蕓豆鹽堿脅迫檢測模型(CARS-RBF),為測試和評價該模型對蕓豆鹽堿脅迫檢測性能的效果,評價性能指標取檢測模型的學習次數(shù)、準確率以及均方誤差(MSE)。在相同條件下,與BP神經(jīng)網(wǎng)絡模型,分別構建蕓豆鹽堿脅迫檢測模型(CARS-RBF和CARS-BP),以及RAW-RBF和DT-RBF模型,比較4種蕓豆鹽堿脅迫等級程度檢測方法的模型性能參數(shù),其結果如表3所示。
從表3可知,在RBF構建的三種模型中均方誤差都相差較小和CARS-RBF模型在其他參數(shù)方面綜合效果較好,因此選擇CARS-RBF模型。CARS-RBF模型學習次數(shù)、模型準確率和均方誤差均優(yōu)于CARS-BP模型,應用CARS-RBF模型進行自動快速檢測蕓豆鹽堿脅迫等級程度中學習次數(shù)為282次,模型檢測準確率達到97.73%,均方誤差(MSE)為0.009 938 59。構建的CARS-RBF模型簡化了檢測模型的復雜程度,避免了全波長建模在計算規(guī)模及耗時上缺陷,該方法檢測鹽堿脅迫等級程度的準確率較高,滿足了蕓豆鹽堿脅迫程度自動檢測的精度要求,一種較為理想的蕓豆鹽堿脅迫檢測模型。
表3 蕓豆鹽堿脅迫檢測模型性能指標Table 3 The performance index of salt and alkalistress detection model of kidney bean
應用去趨勢算法實現(xiàn)了對蕓豆冠層原始近紅外光譜曲線消噪平滑處理,以此有效數(shù)據(jù)信息源為基礎,采用競爭性自適應重加權采樣算法,優(yōu)選了多維度光譜波長特征,并作為徑向基神經(jīng)網(wǎng)絡的輸入向量,構建了蕓豆鹽堿脅迫自動檢測模型?;趦?yōu)選NIR光譜波長構建的CARS-RBF智能模型,極大程度簡化了原來模型,能夠精確無損檢測蕓豆鹽堿脅迫程度,實現(xiàn)了一種快速、無損檢測蕓豆鹽堿脅迫和及時防治、保障蕓豆健康生長的新方法。