李 穎 陳懷亮
1)(中國氣象局·河南省農(nóng)業(yè)氣象保障與應(yīng)用技術(shù)重點實驗室, 鄭州 450003)2)(河南省氣象科學(xué)研究所, 鄭州 450003)3)(河南省氣象局, 鄭州 450003)
農(nóng)業(yè)在全球經(jīng)濟(jì)中發(fā)揮著基礎(chǔ)性且至關(guān)重要的作用,國家和地區(qū)農(nóng)業(yè)生產(chǎn)力高低直接影響其工業(yè)化程度與經(jīng)濟(jì)水平,落后的農(nóng)業(yè)技術(shù)會帶來饑餓、貧窮與社會發(fā)展的滯后[1]。到2050年,全球?qū)⑿略?0億左右人口[2],加之氣候變化對農(nóng)業(yè)生產(chǎn)的影響[3],使得消除饑餓和保障糧食安全成為當(dāng)今世界可持續(xù)發(fā)展的重要議題[4],農(nóng)業(yè)技術(shù)的進(jìn)步可有力應(yīng)對該挑戰(zhàn)[5]。精準(zhǔn)農(nóng)業(yè)被列為農(nóng)業(yè)領(lǐng)域的十大發(fā)展之一[6],其特點是應(yīng)用密集的數(shù)據(jù)——以遙感技術(shù)[7]和無線傳感器技術(shù)[8]為主要手段采集信息并進(jìn)行時空處理,提高農(nóng)業(yè)生產(chǎn)效率、作物產(chǎn)量和環(huán)境質(zhì)量。農(nóng)業(yè)氣象學(xué)是研究農(nóng)業(yè)生產(chǎn)與氣象條件之間相互關(guān)系及其規(guī)律的科學(xué),以促進(jìn)農(nóng)業(yè)生產(chǎn)為主旨,圍繞現(xiàn)代氣象與現(xiàn)代農(nóng)業(yè)的智慧化進(jìn)程也在不斷進(jìn)行著自身的科學(xué)創(chuàng)新,智慧氣象和精準(zhǔn)農(nóng)業(yè)結(jié)合下的現(xiàn)代農(nóng)業(yè)氣象工作意味著對納入遙感可視化數(shù)據(jù)在內(nèi)的大型農(nóng)業(yè)和氣象數(shù)據(jù)高時效性的分析與處理[9],機(jī)器學(xué)習(xí)(machine learning,ML)技術(shù)對其發(fā)展有很大的助力。
ML是圖像處理和大數(shù)據(jù)分析不可或缺的技術(shù),廣泛應(yīng)用于醫(yī)學(xué)、藥學(xué)、經(jīng)濟(jì)學(xué)、生物學(xué)、水文學(xué)、農(nóng)業(yè)氣象學(xué)等諸多科學(xué)領(lǐng)域[10-13]。深度學(xué)習(xí)(deep learning,DL)和淺層學(xué)習(xí)中的梯度提升機(jī)(gradient boosting machine,GBM)是當(dāng)前最受矚目的兩項ML技術(shù),其中DL結(jié)構(gòu)中最著名的卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)自2012年起已成為計算機(jī)視覺任務(wù)的首選解決方案[14]?,F(xiàn)代農(nóng)業(yè)氣象研究不僅涉及大量氣象數(shù)據(jù)、土壤數(shù)據(jù)、作物觀測數(shù)據(jù),也涉及到農(nóng)業(yè)遙感中采集自地面、無人機(jī)、衛(wèi)星的海量影像數(shù)據(jù),DL技術(shù)的特點及其在機(jī)器視覺領(lǐng)域的優(yōu)勢使其在現(xiàn)代農(nóng)業(yè)氣象工作中具有很大的應(yīng)用潛力[15]。
本文對ML技術(shù)的主要方法及其在現(xiàn)代農(nóng)業(yè)氣象中尤其是涉及農(nóng)業(yè)遙感的應(yīng)用進(jìn)行系統(tǒng)性介紹。由于所涉及的文獻(xiàn)眾多,側(cè)重列舉代表性文獻(xiàn),對其研究成果進(jìn)行概要介紹,且重點列舉出DL技術(shù)的應(yīng)用實例,旨在推動ML技術(shù)特別是DL技術(shù)在現(xiàn)代農(nóng)業(yè)氣象科研與業(yè)務(wù)中的深入應(yīng)用。
ML技術(shù)蓬勃發(fā)展于20世紀(jì)90年代,是人工智能(artificial intelligence,AI)中最受歡迎和最成功的子領(lǐng)域。Arthur Samuel將ML定義為一門不需要通過外部程序指令而讓計算機(jī)具有自我學(xué)習(xí)能力的學(xué)科。在傳統(tǒng)編程中,人類輸入規(guī)則和需要規(guī)則處理的數(shù)據(jù),計算機(jī)輸出答案;而在ML技術(shù)中,人類輸入數(shù)據(jù)和期望從數(shù)據(jù)中得到的答案,計算機(jī)通過訓(xùn)練找到數(shù)據(jù)和答案間的統(tǒng)計結(jié)構(gòu)、輸出規(guī)則,并將這些規(guī)則應(yīng)用于該任務(wù)的新數(shù)據(jù)進(jìn)而生成答案[14]。ML技術(shù)與經(jīng)典統(tǒng)計分析的一項重要區(qū)別是ML技術(shù)傾向于處理大型、復(fù)雜的數(shù)據(jù)集,以及沒有已知算法可解決的問題。將ML技術(shù)用于大數(shù)據(jù)挖掘可以適應(yīng)新的數(shù)據(jù),發(fā)現(xiàn)數(shù)據(jù)中隱含的模式,減少人工分析工作量,更好地處理解并解決傳統(tǒng)方法難以應(yīng)對的復(fù)雜問題[16]。
ML技術(shù)是一個日益龐大的家族,其包含的眾多算法與模型可根據(jù)不同標(biāo)準(zhǔn)進(jìn)行歸類。其中一種廣泛使用的分類方法是根據(jù)訓(xùn)練過程中得到的監(jiān)督的數(shù)量和類型,將其分為監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)[16]。在監(jiān)督學(xué)習(xí)中,需要人工為訓(xùn)練數(shù)據(jù)加標(biāo)簽(即明確的屬性標(biāo)識),其代表性方法包括線性回歸(linear regression)、邏輯回歸(logistic regression)、樸素貝葉斯(na?ve bayes)、高斯判別(gaussian discriminant analysis,GDA)、支持向量機(jī)(support vector machine,SVM)、神經(jīng)網(wǎng)絡(luò)(neural network,NN)、K最鄰近法(K-Nearest neighbor,K-NN)、決策樹(decision trees,DTs)、隨機(jī)森林(random forest,RF)和梯度提升機(jī)等;在非監(jiān)督學(xué)習(xí)中,訓(xùn)練數(shù)據(jù)則不加標(biāo)簽,其主要方法包括以期望最大化算法(expectation maximization)、分層聚類分析(hierarchical cluster analysis,HCA)、K均值法(K-means)為代表的聚類方法,以主成分分析(principal component analysis,PCA)和局部線性嵌入算法(locally-linear embedding,LLE)為代表的降維算法,以及Apriori,F(xiàn)P-Growth,Eclat等關(guān)聯(lián)規(guī)則學(xué)習(xí)算法;在半監(jiān)督學(xué)習(xí)中,僅需為少量訓(xùn)練數(shù)據(jù)加標(biāo)簽,或為訓(xùn)練數(shù)據(jù)加不確定性標(biāo)簽,其重要方法包括拉普拉斯支持向量機(jī)(laplacian SVM)、協(xié)同過濾算法(collaborative filtering),以及貝葉斯網(wǎng)絡(luò)(bayesian network)、馬爾科夫隨機(jī)場(markov random filed)等概率圖模型;在強(qiáng)化學(xué)習(xí)中,不需要預(yù)先給定訓(xùn)練數(shù)據(jù),而是通過接收環(huán)境對動作的反饋獲得學(xué)習(xí)信息,代表性算法包括策略梯度(policy gradient,PG)、Q學(xué)習(xí)(Q-learning)、深度Q網(wǎng)絡(luò)(deep Q network)、Sarsa算法等[17-20]。
DL技術(shù)是ML技術(shù)的一個子領(lǐng)域,代表著一類思想,即以多層結(jié)構(gòu)從數(shù)據(jù)中學(xué)習(xí)表示(representation),其結(jié)構(gòu)通常包含數(shù)十個乃至上百個連續(xù)的表示層。DL技術(shù)起源于神經(jīng)網(wǎng)絡(luò),在神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上增加了層級,可自動提取復(fù)雜特征,近年來,DL技術(shù)以其更高精度和更優(yōu)性能,在諸多應(yīng)用領(lǐng)域已經(jīng)取代了以往支持向量機(jī)和集成學(xué)習(xí)的領(lǐng)先地位[14]。DL技術(shù)較經(jīng)典ML技術(shù)的優(yōu)勢主要體現(xiàn)在以下幾方面:①DL技術(shù)完全自動化了淺層ML技術(shù)的關(guān)鍵步驟——特征工程,對使用者更為簡單、友好;②DL技術(shù)具有深層非線性網(wǎng)絡(luò)結(jié)構(gòu),采用遞增的、逐層的方式開發(fā)愈加復(fù)雜的特征,具有更強(qiáng)的學(xué)習(xí)能力,有助于解決淺層ML技術(shù)難以解決的復(fù)雜問題,并可進(jìn)行遷移學(xué)習(xí);③DL技術(shù)可以一次性學(xué)習(xí)所有特征,并持續(xù)在線學(xué)習(xí),具有實時運算能力[21-23]。DL的基本模型包括卷積神經(jīng)網(wǎng)絡(luò)、深度信念網(wǎng)絡(luò)(deep belief network,DBN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(reccurent neural network,RNN)、深度自動編碼器(deep autoencoder,DA)、遞歸神經(jīng)網(wǎng)絡(luò)(recursive neural network,RNN)等。
土地覆蓋與作物類型圖是農(nóng)業(yè)氣象工作的重要基礎(chǔ)數(shù)據(jù)之一。過去的十幾年中,隨著遙感數(shù)據(jù)時空分辨率不斷提高,以及大量豐富的免費數(shù)據(jù)源向公眾開放,將遙感影像用于土地覆蓋與作物類型分類制圖方面的研究呈指數(shù)增長,ML技術(shù)中多種經(jīng)典算法、模型已成功應(yīng)用于該類任務(wù)[24-26],根據(jù)Yu等[27]的統(tǒng)計,最大似然分類法使用頻率最高,相關(guān)文獻(xiàn)中應(yīng)用比例達(dá)32.34%,最大似然分類法和K最鄰近法、K均值法等也是文獻(xiàn)中平均精度較低的方法,分類精度較高的方法則是集成分類器、人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)。Khatami等[28]進(jìn)一步統(tǒng)計分析了既往研究,指出傳統(tǒng)監(jiān)督分類方法中支持向量機(jī)平均精度最高,緊隨其后的是人工神經(jīng)網(wǎng)絡(luò),且當(dāng)影像空間分辨率和光譜分辨率提高時,支持向量機(jī)表現(xiàn)出較人工神經(jīng)網(wǎng)絡(luò)更大的優(yōu)勢。此外,ML技術(shù)在作物管理區(qū)的劃分方面已有成功應(yīng)用的例子,Pantazi等[29]利用K均值法和自組織映射結(jié)合遙感數(shù)據(jù)、土壤參數(shù)和產(chǎn)量數(shù)據(jù)進(jìn)行了作物管理分區(qū),進(jìn)一步看,農(nóng)業(yè)氣候區(qū)劃(如農(nóng)作物品質(zhì)氣候區(qū)劃)、農(nóng)業(yè)氣象災(zāi)害風(fēng)險區(qū)劃、農(nóng)業(yè)保險風(fēng)險區(qū)劃[30-31]等是農(nóng)業(yè)氣象工作的重要任務(wù),有待有針對性地將ML技術(shù)應(yīng)用于區(qū)劃工作。
近年來,最受歡迎和最具效率的多源多時相遙感影像土地覆蓋與作物制圖方法是集成學(xué)習(xí)和DL技術(shù)[32]。針對復(fù)雜地區(qū)的分類問題,集成學(xué)習(xí)的經(jīng)典算法隨機(jī)森林的分類精度明顯優(yōu)于傳統(tǒng)的決策樹[33],DL結(jié)構(gòu)中的卷積神經(jīng)網(wǎng)絡(luò)、深度自動編碼器、深度信念網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等均被用于探索該類任務(wù)[34-38]。Minh等[39]利用兩種循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)結(jié)合星載合成孔徑雷達(dá)(synthetic aperture radar,SAR)影像制作了冬季植被質(zhì)量分類圖,制圖精度優(yōu)于支持向量機(jī)和隨機(jī)森林。Yang等[40]研究表明:DL技術(shù)用于土地覆蓋分類的精度高于支持向量機(jī)等淺層學(xué)習(xí)模型,且DL技術(shù)無需人工設(shè)計分類特征,并可在分類中使用遷移學(xué)習(xí)。Kussul等[32]將卷積神經(jīng)網(wǎng)絡(luò)用于作物制圖的精度與隨機(jī)森林和一種集成的多層感知器(multi-layer perceptrons,MLPs)方法對比,結(jié)果表明卷積神經(jīng)網(wǎng)絡(luò)精度最高。
雜草檢測是地基農(nóng)業(yè)遙感的一項重要任務(wù),有研究認(rèn)為雜草是對農(nóng)作物生產(chǎn)最大的威脅,ML技術(shù)和田間傳感器結(jié)合可以精確檢測田間雜草,進(jìn)而應(yīng)用于農(nóng)業(yè)工具和農(nóng)業(yè)機(jī)器人的除草作業(yè),最大程度減少除草劑的使用[41]。Cho等[42]使用電荷耦合元件(charge coupled device,CCD)相機(jī)和人工神經(jīng)網(wǎng)絡(luò)組成的機(jī)器視覺系統(tǒng)識別了雜草與蘿卜。Karimi等[43]將支持向量機(jī)用于玉米田雜草和氮素脅迫檢測,取得比人工神經(jīng)網(wǎng)絡(luò)更高的精度。Binch等[44]的對比研究表明:在經(jīng)典ML技術(shù)中,支持向量機(jī)取得最優(yōu)的雜草檢測效果。近年來的研究表明:DL技術(shù)可有效從圖像中自動提取特征,在目標(biāo)識別中取得優(yōu)于支持向量機(jī)的精度[45-47]。王璨等[48]應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)準(zhǔn)確識別了幼苗期玉米與雜草。Dyrmann等[49]應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)在農(nóng)田影像中識別了22種雜草與作物物種,并在后續(xù)研究中將全卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于存在嚴(yán)重葉片遮擋的情況下,從谷物田中成功識別單株雜草[50]。除雜草檢測,張雪芬等[51]利用支持向量機(jī)結(jié)合CCD影像實現(xiàn)了作物發(fā)育期的圖像自動識別,余衛(wèi)東等[52]在對中國農(nóng)業(yè)氣象自動化觀測的展望中提及計算機(jī)視覺技術(shù)的應(yīng)用,ML技術(shù)在今后的農(nóng)業(yè)氣象自動化觀測中有待發(fā)揮更重要的作用。
DL技術(shù)可以從高維海量數(shù)據(jù)中強(qiáng)有力提取復(fù)雜的結(jié)構(gòu)信息[21],近年來在植株表型觀測、病蟲害檢測、農(nóng)田障礙檢測、果實檢測等任務(wù)中得到成功應(yīng)用[53-55],可極大提升農(nóng)業(yè)氣象自動化觀測水平。Christiansen等[56]對比了DL技術(shù)和經(jīng)典ML技術(shù)在農(nóng)田障礙和異常檢測中的應(yīng)用效果,結(jié)果顯示DL技術(shù)具有最高精度和最快運算速度。Yalcin等[57]利用卷積神經(jīng)網(wǎng)絡(luò)自動提取圖像特征,識別農(nóng)業(yè)植被的物候期,精度優(yōu)于基于手工設(shè)計特征的經(jīng)典ML技術(shù)。Jin等[58]應(yīng)用更快速的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)和區(qū)域生長法從Lidar 3D點云中分割單株玉米,可準(zhǔn)確測量植株高度。Ubbens等[59]開發(fā)了可用于葉片計數(shù)等植物表型任務(wù)的DL平臺。Xiong等[60]開發(fā)了基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分割軟件用于水稻穗部分割,可實現(xiàn)水稻表型自動化測量,段凌鳳等[61]和張領(lǐng)先等[62]開展了類似研究。Baweja等[63]使用CCD相機(jī)和卷積神經(jīng)網(wǎng)絡(luò)組成的機(jī)器視覺系統(tǒng)自動計算莖稈數(shù)并測量莖寬。黃雙萍等[64]利用卷積神經(jīng)網(wǎng)絡(luò)和穗株高光譜圖像提取不同尺度穗瘟病斑分布式特征,實現(xiàn)水稻穗瘟病害的精準(zhǔn)檢測。Mohanty等[65]通過遷移學(xué)習(xí)和重新訓(xùn)練兩種方式訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),有效識別14種作物物種和26種作物病害,孫俊等[66]開展了類似工作。Rahnemoonfar等[67]提出一種DL結(jié)構(gòu)用于果實計數(shù),即使水果處于陰影下,或被樹葉、樹枝遮擋,或水果之間存在一定程度的重疊,也能有效計數(shù)。薛月菊等[68]利用DL技術(shù)中的YOLOv2網(wǎng)絡(luò)檢測未成熟芒果,表明該方法在復(fù)雜場景下的檢測精度優(yōu)于更快速的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)。
在健康的生態(tài)系統(tǒng)下以最低成本取得最大作物產(chǎn)量是農(nóng)業(yè)生產(chǎn)最重要的目標(biāo)之一[69]。作物產(chǎn)量預(yù)測是農(nóng)業(yè)氣象工作中的一項重要任務(wù),關(guān)系到糧食安全、種植結(jié)構(gòu)調(diào)整、作物管理、農(nóng)業(yè)保險等,提高預(yù)測的準(zhǔn)確性有助于增加作物產(chǎn)量和商業(yè)利潤。經(jīng)典統(tǒng)計方法難以準(zhǔn)確預(yù)測作物產(chǎn)量的非線性時空變化,當(dāng)前更有效的產(chǎn)量預(yù)測方法包括作物生長模擬和ML技術(shù)[70]。作物生長模型將作物生長階段的動態(tài)機(jī)制以數(shù)學(xué)模型抽象表達(dá)[71],建模過程耗時且昂貴,其運行所需參數(shù)集在發(fā)展中國家尤難獲取。另一方面的研究中,經(jīng)典ML技術(shù)與遙感數(shù)據(jù)、氣象數(shù)據(jù)、土壤數(shù)據(jù)等結(jié)合實現(xiàn)了不同尺度下不同作物產(chǎn)量的準(zhǔn)確預(yù)測[72-73],并有學(xué)者對比不同方法的預(yù)測能力。Fortin等[74]研究表明:在馬鈴薯產(chǎn)量預(yù)測中,多層感知器預(yù)測效果優(yōu)于多元線性回歸。Ruβ[75]對比了多層感知器、回歸樹、徑向基核函數(shù)網(wǎng)絡(luò)和支持向量回歸用于冬小麥產(chǎn)量預(yù)測的精度,表明支持向量回歸預(yù)測結(jié)果最準(zhǔn)確。González等[70]對比了多元線性回歸、M5-Prime回歸樹、人工神經(jīng)網(wǎng)絡(luò)、K最鄰近法和支持向量回歸對大規(guī)模種植的多種作物產(chǎn)量的預(yù)測能力,結(jié)果顯示:M5-Prime回歸樹表現(xiàn)最優(yōu),作者同時指出變量和屬性的選取直接影響不同算法、模型的預(yù)測精度,這是其研究與前人研究結(jié)論存在差異的主要原因。與產(chǎn)量預(yù)測緊密相關(guān)的農(nóng)業(yè)氣象災(zāi)害風(fēng)險評估是農(nóng)業(yè)氣象學(xué)領(lǐng)域中研究的熱點[76-80],較之傳統(tǒng)技術(shù)手段,ML技術(shù)對此有很大的應(yīng)用潛力,目前已有研究將ML技術(shù)用于農(nóng)業(yè)氣象災(zāi)害遙感監(jiān)測與產(chǎn)量影響評估,如Park等[81]利用隨機(jī)森林等ML技術(shù)與多源遙感數(shù)據(jù)結(jié)合,對農(nóng)業(yè)干旱進(jìn)行監(jiān)測評估。
近幾年,將DL技術(shù)應(yīng)用于作物產(chǎn)量預(yù)測的研究陸續(xù)出現(xiàn)[82]。Kuwata等[83]對比使用DL技術(shù)和支持向量回歸預(yù)測玉米產(chǎn)量,顯示DL技術(shù)預(yù)測精度更高。Kim等[84]將支持向量機(jī)、隨機(jī)森林、極限隨機(jī)樹和DL技術(shù)用于玉米產(chǎn)量預(yù)測,顯示DL技術(shù)精度最高,且可克服一般ML技術(shù)應(yīng)用中的過擬合問題,更穩(wěn)定。You等[85]利用公眾可獲得的遙感數(shù)據(jù)預(yù)測大豆產(chǎn)量,使用了卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)中的長短期記憶(long-short term memory,LSTM)網(wǎng)絡(luò)與3種對比方法,顯示卷積神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)可自動學(xué)習(xí)原始數(shù)據(jù)中的有效特征并取得最高的預(yù)測精度。Wang等[86]將深度遷移學(xué)習(xí)和回歸模型分別與遙感數(shù)據(jù)結(jié)合用于作物產(chǎn)量預(yù)測,表明使用遷移學(xué)習(xí)的長短期記憶網(wǎng)絡(luò)預(yù)測精度最高。
農(nóng)業(yè)氣象研究相關(guān)的水文、土壤、作物參數(shù)通過站點觀測無法取得其連續(xù)準(zhǔn)確的空間分布情況,且某些參數(shù)測量難度大、費用昂貴。ML技術(shù)與氣象數(shù)據(jù)、遙感數(shù)據(jù)等相結(jié)合,可簡單、高效地實現(xiàn)參數(shù)估算,且使對其時空連續(xù)性監(jiān)測與預(yù)報成為可能。農(nóng)業(yè)氣象工作關(guān)注的熱點參數(shù)包括蒸散、土壤濕度、土壤溫度、氮素含量、葉面積指數(shù)、生物量等。
準(zhǔn)確估算蒸散對農(nóng)業(yè)灌溉水資源時空優(yōu)化配置至關(guān)重要,同時該參數(shù)測量難度較大。Yang等[87]利用支持向量機(jī)結(jié)合通量觀測數(shù)據(jù)與MODIS遙感數(shù)據(jù)實現(xiàn)了大尺度蒸散的時空變化預(yù)測。Jung等[88]使用一種模型樹集成的ML技術(shù)集成站點觀測蒸散與遙感數(shù)據(jù)和氣象數(shù)據(jù),估算全球尺度的多年蒸散。Patil等[89]將ML技術(shù)與氣象數(shù)據(jù)結(jié)合估算參考蒸散,表明單層前饋神經(jīng)網(wǎng)絡(luò)中的極限學(xué)習(xí)機(jī)(extreme learning machine,ELM)和最小二乘支持向量機(jī)估算精度高于經(jīng)驗?zāi)P?。Mehdizadeh等[90]利用支持向量機(jī)、基因表達(dá)式編程、多元自適應(yīng)回歸樣條與氣象觀測資料結(jié)合估算干旱與半干旱地區(qū)的月平均參考蒸散,顯示支持向量機(jī)和多元自適應(yīng)回歸樣條效果最好。
土壤溫濕度和養(yǎng)分含量直接影響作物生長發(fā)育和產(chǎn)量形成,其信息獲取對農(nóng)業(yè)生產(chǎn)中科學(xué)高效的水肥管理具有重要意義。Baghdadi等[91]利用多層感知器和SAR數(shù)據(jù)結(jié)合估算了農(nóng)業(yè)區(qū)的土壤表面粗糙度和土壤濕度。Srivastava等[92]對比了支持向量機(jī)、關(guān)聯(lián)向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)和廣義線性模型在土壤濕度降尺度中的應(yīng)用效果,顯示基于人工神經(jīng)網(wǎng)絡(luò)的降尺度方法提高遙感反演土壤濕度空間分辨率效果最好。Nahvi等[93]利用極限學(xué)習(xí)機(jī)與氣象數(shù)據(jù)結(jié)合估算了不同深度的日平均土壤溫度,效果理想。Morellos等[94]利用偏最小二乘回歸、主成分回歸,以及兩種ML技術(shù)(最小二乘支持向量機(jī)和Cubist算法)與地面光譜數(shù)據(jù)結(jié)合估算土壤全氮、有機(jī)碳和含水量,結(jié)果顯示:最小二乘支持向量機(jī)對含水量和有機(jī)碳估算效果最好,而Cubist算法對全氮估算效果最好。
葉面積指數(shù)和生物量是反映植被生長狀況的重要參數(shù),與植被生產(chǎn)力和作物產(chǎn)量密切相關(guān)。Ali等[95]的綜述顯示,人工神經(jīng)網(wǎng)絡(luò)、支持向量回歸和隨機(jī)森林回歸是生物量和葉面積指數(shù)遙感反演中使用頻率較高的算法。Prasad等[96]利用人工神經(jīng)網(wǎng)絡(luò)實現(xiàn)菠菜不同生育期葉面積指數(shù)和生物量等參數(shù)的反演。Jia等[97]利用人工神經(jīng)網(wǎng)絡(luò)與地面散射計數(shù)據(jù)和RADARSAT-2影像結(jié)合反演水稻生物量,取得理想精度。Wang等[98]將隨機(jī)森林回歸和支持向量回歸、人工神經(jīng)網(wǎng)絡(luò)兩種對比方法用于小麥多個生育期生物量的遙感反演,結(jié)果顯示:隨機(jī)森林回歸估算精度最高,且其穩(wěn)健性與支持向量回歸相當(dāng),優(yōu)于人工神經(jīng)網(wǎng)絡(luò)。Mao等[99]對比了人工神經(jīng)網(wǎng)絡(luò)、支持向量回歸、隨機(jī)森林回歸、高斯過程回歸和梯度升壓回歸樹(gradient boosting regression tree,GBRT)等ML技術(shù)在棉花葉面積指數(shù)遙感反演中的應(yīng)用效果,表明梯度升壓回歸樹估算精度最高且穩(wěn)健性最好,支持向量回歸則計算效率最高。ML技術(shù)與遙感數(shù)據(jù)結(jié)合,還可反演作物的其他生物物理和生物化學(xué)參數(shù),并可監(jiān)測作物生長過程的相關(guān)活動。Liu等[100]利用一種神經(jīng)網(wǎng)絡(luò)模型與微波亮溫數(shù)據(jù)結(jié)合,反演了小麥植株含水量。Yang等[101]分別利用支持向量回歸和逐步多元回歸與高光譜反射率結(jié)合反演水稻葉面積指數(shù)和葉綠素含量,表明支持向量回歸在水稻生理生化參數(shù)估算方面優(yōu)于逐步多元回歸。Abdel-Rahman等[102]利用隨機(jī)森林回歸和逐步多元回歸分別與Hyperion高光譜數(shù)據(jù)結(jié)合估算甘蔗葉片氮素含量,表明隨機(jī)森林回歸估算精度高于逐步多元回歸。Van Wittenberghe等[103]利用高斯過程與光譜數(shù)據(jù)結(jié)合成功估算了葉片含水量、葉綠素含量、氮素含量和比葉面積等生化與結(jié)構(gòu)參數(shù)。Maimaitijiang等[104]分別利用偏最小二乘回歸、支持向量回歸和極限學(xué)習(xí)機(jī)回歸與多源遙感數(shù)據(jù)結(jié)合反演大豆的生理參數(shù)(葉面積指數(shù)和生物量)與生化參數(shù)(氮素含量和葉綠素含量),顯示極限學(xué)習(xí)機(jī)回歸效果最理想。
近些年,將DL用于上述參數(shù)估算的研究陸續(xù)見諸報道。Song等[105]提出一種聯(lián)合深度信念網(wǎng)絡(luò)與宏觀細(xì)胞自動機(jī)(macroscopic cellular automata,MCA)的DBN-MCA模型,結(jié)合環(huán)境變量預(yù)測土壤濕度,顯示其預(yù)測精度高于經(jīng)典ML技術(shù),為預(yù)測高度非線性特點的土壤濕度提供了一個強(qiáng)有力的工具。王璨等[106]利用卷積神經(jīng)網(wǎng)絡(luò)和近紅外光譜預(yù)測土壤含水率,結(jié)果顯示:卷積神經(jīng)網(wǎng)絡(luò)預(yù)測精度優(yōu)于人工神經(jīng)網(wǎng)絡(luò)、偏最小二乘回歸和最小二乘支持向量機(jī)等對比方法。Ma等[107]利用田間數(shù)字影像和卷積神經(jīng)網(wǎng)絡(luò)估算冬小麥早期生育階段的地上生物量,結(jié)果顯示該方法具有良好的穩(wěn)健性。馬浚誠等[108]利用可見光圖像和卷積神經(jīng)網(wǎng)絡(luò)估算冬小麥冠層葉面積指數(shù)和地上生物量,表明卷積神經(jīng)網(wǎng)絡(luò)估算精度優(yōu)于支持向量機(jī)和隨機(jī)森林兩種對比方法。此外,DL技術(shù)還被用于農(nóng)業(yè)氣象條件預(yù)測、畜牧業(yè)等相關(guān)研究,如Sehgal等[109]在作物規(guī)劃中利用長短期記憶網(wǎng)絡(luò)預(yù)測天氣和土壤屬性。
本文系統(tǒng)概述了ML技術(shù)的主要方法及其在現(xiàn)代農(nóng)業(yè)氣象中的主要應(yīng)用方向,有針對性且全面涵蓋了現(xiàn)代農(nóng)業(yè)氣象中特別是涉及農(nóng)業(yè)遙感的ML技術(shù)的研究及應(yīng)用情況,并納入近年來最新的研究進(jìn)展。
本文將ML技術(shù)在農(nóng)業(yè)氣象工作中的主要應(yīng)用歸納為4個方面:制圖與區(qū)劃、檢測與觀測、產(chǎn)量預(yù)測和參數(shù)估算。在制圖與區(qū)劃方面,ML技術(shù)與遙感影像結(jié)合實現(xiàn)了不同尺度的土地覆蓋與作物類型制圖,亦已結(jié)合遙感數(shù)據(jù)、土壤數(shù)據(jù)、統(tǒng)計數(shù)據(jù)用于作物長勢、植被質(zhì)量等專題圖的制作與作物管理區(qū)劃分;在檢測與觀測方面,ML技術(shù)成功用于田間影像中的雜草檢測,DL技術(shù)在植株表型觀測、病蟲害檢測、農(nóng)田障礙檢測、果實檢測等方面,取得了理想精度,可極大提升農(nóng)業(yè)氣象自動化觀測水平;在產(chǎn)量預(yù)測方面,ML技術(shù)與遙感時間序列數(shù)據(jù)、氣象數(shù)據(jù)、土壤數(shù)據(jù)結(jié)合在不同尺度成功預(yù)測了不同作物的產(chǎn)量,與之相關(guān),ML技術(shù)在農(nóng)業(yè)氣象災(zāi)害評估中也有很大的應(yīng)用潛力;在參數(shù)估算方面,農(nóng)業(yè)氣象研究關(guān)注的以蒸散、葉面積指數(shù)、土壤濕度、氮素含量等為代表的水文、土壤、作物參數(shù)均可利用ML技術(shù)與氣象數(shù)據(jù)、遙感數(shù)據(jù)等的結(jié)合實現(xiàn)精確反演或預(yù)測。
綜合看,傳統(tǒng)淺層ML技術(shù)中以支持向量機(jī)和人工神經(jīng)網(wǎng)絡(luò)在本文涉及的諸多任務(wù)中應(yīng)用最為廣泛且效果最為理想。近年來的方法對比類研究中,隨機(jī)森林和梯度提升機(jī)等集成學(xué)習(xí)方法普遍取得優(yōu)于支持向量機(jī)和人工神經(jīng)網(wǎng)絡(luò)的精度,DL技術(shù)則在某些任務(wù)中取得更優(yōu)于集成學(xué)習(xí)的精度,且可解決淺層ML技術(shù)較難解決的一些問題,如在農(nóng)業(yè)氣象觀測中可精準(zhǔn)實現(xiàn)植株表型的自動化觀測。從應(yīng)用時間上看,人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)等淺層ML技術(shù)自20世紀(jì)90年代開始在農(nóng)業(yè)氣象和農(nóng)業(yè)遙感中應(yīng)用并逐漸繁榮,其中人工神經(jīng)網(wǎng)絡(luò)的應(yīng)用略早于支持向量機(jī),而以支持向量機(jī)為代表的核方法則較人工神經(jīng)網(wǎng)絡(luò)更具優(yōu)勢;決策樹自21世紀(jì)開始受到學(xué)界的關(guān)注,2010年后隨機(jī)森林和梯度提升機(jī)等決策樹集成方法在很多方面被認(rèn)為是較核方法更好的選擇;DL技術(shù)自2012年前后重回主流學(xué)界的視野,伴隨卷積神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)的成功,自2015年后被廣泛認(rèn)為在諸多應(yīng)用中的表現(xiàn)超越了支持向量機(jī)和集成學(xué)習(xí)[14]。盡管將DL技術(shù)應(yīng)用于農(nóng)業(yè)問題的先驅(qū)探索始于2010年[110],但大部分研究成果發(fā)表于2015年以后[15],且有逐年增多的趨勢,國內(nèi)相關(guān)研究相對滯后,多數(shù)發(fā)表于2017年以后,且涉及到的現(xiàn)代農(nóng)業(yè)氣象中的問題尚十分有限。
目前有待驗證ML技術(shù)特別是DL技術(shù)在更多農(nóng)業(yè)氣象問題上的適用性和先進(jìn)性,如農(nóng)業(yè)氣象災(zāi)害遙感監(jiān)測與損失評估、農(nóng)業(yè)氣象災(zāi)害風(fēng)險評估與區(qū)劃、農(nóng)業(yè)氣候區(qū)劃、氣候變化對作物生長的影響評估等任務(wù),同時,伴隨ML技術(shù)的發(fā)展,特別是類似長短期記憶網(wǎng)絡(luò)的DL時間維算法和新結(jié)構(gòu)的發(fā)展,有望更好地結(jié)合以風(fēng)云系列氣象衛(wèi)星數(shù)據(jù)為代表的遙感時間序列數(shù)據(jù),在制圖、估產(chǎn)、預(yù)測等諸多已開展研究的任務(wù)中取得更高的精度和準(zhǔn)確性。特別地,將ML技術(shù)與智能手機(jī)等移動終端結(jié)合,可為農(nóng)業(yè)管理者和生產(chǎn)者提供功能強(qiáng)大且智慧化的農(nóng)業(yè)氣象信息服務(wù);將DL技術(shù)與地基觀測、無人機(jī)遙感等結(jié)合,開發(fā)相關(guān)業(yè)務(wù)系統(tǒng),可以顯著提升農(nóng)業(yè)氣象自動化觀測水平。同時,需要認(rèn)識到ML技術(shù)中沒有一種方法可以取代其他所有方法,在現(xiàn)代農(nóng)業(yè)氣象工作中需要根據(jù)具體任務(wù)和數(shù)據(jù)情況選擇最適用的ML技術(shù),如梯度提升機(jī)在當(dāng)今被普遍認(rèn)為是處理非感知數(shù)據(jù)的最好算法之一,而當(dāng)訓(xùn)練數(shù)據(jù)有限時,淺層ML技術(shù)往往比DL技術(shù)更適用。
未來ML技術(shù)的各種算法和模型必將進(jìn)一步發(fā)展,程序庫和普適性的訓(xùn)練數(shù)據(jù)集也將更加豐富,繼承并突破現(xiàn)代DL技術(shù)核心思想的新方法也終將出現(xiàn)。需要熟悉ML技術(shù)在現(xiàn)代農(nóng)業(yè)氣象所涉及的各類問題上的適用情況,并及時追蹤掌握科技前沿技術(shù),使農(nóng)業(yè)氣象科研與業(yè)務(wù)工作可以最大程度地受益于每一次信息技術(shù)的革命性突破,以ML技術(shù)特別是DL技術(shù)帶動農(nóng)業(yè)氣象服務(wù)模式的創(chuàng)新,更好地迎接現(xiàn)代農(nóng)業(yè)氣象發(fā)展的新挑戰(zhàn)與新機(jī)遇。