季彥東,李 龍
長久以來,我國都是一個(gè)農(nóng)業(yè)大國,擁有著眾多的農(nóng)業(yè)從業(yè)者,近年來,隨著科學(xué)技術(shù)的發(fā)展并應(yīng)用于農(nóng)業(yè)生產(chǎn),我國農(nóng)業(yè)科技取得了長足進(jìn)步,“智慧農(nóng)業(yè)”這一概念被提及,智慧農(nóng)業(yè)研究也取得了豐碩成果[1-2].智慧農(nóng)業(yè)是農(nóng)業(yè)同科技高度融合的產(chǎn)物,主要應(yīng)用的科學(xué)技術(shù)包括傳感器網(wǎng)絡(luò)、大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)等等,其主要作用是通過對(duì)農(nóng)業(yè)生產(chǎn)生活當(dāng)中的相關(guān)數(shù)據(jù)進(jìn)行采集、處理和分析,為相應(yīng)的農(nóng)業(yè)生產(chǎn)提供指導(dǎo)和智能決策.機(jī)器學(xué)習(xí)算法是智慧農(nóng)業(yè)應(yīng)用較常見的技術(shù),其主要作用是利用人們的先驗(yàn)知識(shí)建立不同算法模型,從而實(shí)現(xiàn)對(duì)未知事物的預(yù)測.農(nóng)作物的分類、病蟲害識(shí)別預(yù)測、農(nóng)產(chǎn)品價(jià)格預(yù)測是智慧農(nóng)業(yè)發(fā)展的至關(guān)重要的三個(gè)方面,大量的研究結(jié)果顯示,機(jī)器學(xué)習(xí)算法(主要包括支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)、極限學(xué)習(xí)機(jī)、k最近鄰、隨機(jī)森林、Ada-Boost算法、線性判別分析、最小二乘支持向量、Fisher判別分析等)在以上三方面的應(yīng)用非常廣泛[3-17].為了深入了解當(dāng)前機(jī)器學(xué)習(xí)算法在智慧農(nóng)業(yè)應(yīng)用方面的研究進(jìn)展,本文對(duì)機(jī)器學(xué)習(xí)算法在智慧農(nóng)業(yè)上的主要研究成果進(jìn)行了綜述,分析了相關(guān)研究的不足,以期為探索更加適合智慧農(nóng)業(yè)發(fā)展的機(jī)器學(xué)習(xí)算法提供借鑒.
高光譜數(shù)據(jù)具有較高的分辨率,數(shù)據(jù)內(nèi)容豐富,數(shù)據(jù)獲取方式多樣化,可以直接對(duì)照片進(jìn)行光譜數(shù)據(jù)提取,也可以通過光譜儀進(jìn)行實(shí)地?cái)?shù)據(jù)采集,此外,還可以采用衛(wèi)星的遙感數(shù)據(jù)進(jìn)行分析,通常情況下,機(jī)器學(xué)習(xí)算法被用于分析高光譜的海量數(shù)據(jù).智慧農(nóng)業(yè)的一個(gè)重要發(fā)展前提是進(jìn)行農(nóng)作物的有效劃分,為后期的病蟲害預(yù)測、鋤草施肥提供依據(jù),機(jī)器學(xué)習(xí)算法與高光譜技術(shù)結(jié)合成為智慧農(nóng)業(yè)中進(jìn)行農(nóng)作物分類的有效手段.
程術(shù)希等(2014)[2]利用高光譜技術(shù),結(jié)合Ada-Boost、極限學(xué)習(xí)機(jī)、隨機(jī)森林和支持向量機(jī)四種機(jī)器學(xué)習(xí)算法對(duì)8個(gè)品種的239顆大白菜種子進(jìn)行品種驗(yàn)證分析,四種算法均具有較強(qiáng)的泛化能力,通過對(duì)比發(fā)現(xiàn),最優(yōu)的算法是極限學(xué)習(xí)機(jī),對(duì)大白菜種子的判斷準(zhǔn)確率可以達(dá)到100%.
Pu Ruiliang(2009)[3]從高光譜數(shù)據(jù)中抽取的30個(gè)光譜特征變量,使用非線性人工神經(jīng)網(wǎng)絡(luò)和線性判別分析兩種機(jī)器學(xué)習(xí)算法對(duì)美國佛羅里達(dá)州境內(nèi)的11種城市森林闊葉樹種進(jìn)行區(qū)分,結(jié)果顯示,采用高光譜技術(shù)與機(jī)器學(xué)習(xí)算法對(duì)闊葉樹種類的判斷精確度可以達(dá)到85%以上.
林川等(2013)[4]同樣在高光譜數(shù)據(jù)中抽取了8個(gè)光譜特征變量,同時(shí)使用非線性人工神經(jīng)網(wǎng)絡(luò)和Fisher線性判別分析兩種機(jī)器學(xué)習(xí)算法對(duì)北京野鴨湖濕地的7種濕地植物進(jìn)行生態(tài)類型分類,兩種算法的精確度分別達(dá)到85.5%和87.98%,甚至對(duì)兩種沉水植物的識(shí)別度達(dá)到了100%,說明機(jī)器學(xué)習(xí)算法可以對(duì)濕地植物進(jìn)行良好的識(shí)別和分類.
李嬋等(2018)[5]提取了高光譜數(shù)據(jù)當(dāng)中的63種特征變量,采用k最近鄰、支持向量機(jī)和隨機(jī)森林三種機(jī)器學(xué)習(xí)算法對(duì)江蘇宜興市郊的8種植物進(jìn)行分類,研究結(jié)果表明,支持向量分類優(yōu)于k最近鄰和隨機(jī)森林算法.
黃雙燕等(2018)[6]采用隨機(jī)森林機(jī)器學(xué)習(xí)算法對(duì)Sentinel 2A衛(wèi)星獲取的沙灣縣內(nèi)的典型農(nóng)作物遙感數(shù)據(jù)進(jìn)行分析,分類精度達(dá)到89%以上,整體的精度可以達(dá)到94.02%,此結(jié)果證明了隨機(jī)森林算法對(duì)農(nóng)作物分類的有效性.
何雋(2016)[7]實(shí)現(xiàn)了機(jī)器視覺對(duì)圖像進(jìn)行分割的技術(shù),提高了農(nóng)作物分類感興趣區(qū)域的比重,從而更好地進(jìn)行農(nóng)作物分類.
以上研究成果顯示,機(jī)器學(xué)習(xí)算法與高光譜數(shù)據(jù)結(jié)合能夠有效地進(jìn)行植物物種識(shí)別和分類,針對(duì)不同的農(nóng)作物,進(jìn)行合理的機(jī)器學(xué)習(xí)算法的選擇能夠獲得較好的分類效果.
傳統(tǒng)的病蟲害預(yù)測,需要到田間進(jìn)行農(nóng)作物取樣,通過調(diào)查研究才可以進(jìn)行相應(yīng)的決策實(shí)施,因此存在著費(fèi)時(shí)費(fèi)力、預(yù)測不及時(shí)、預(yù)測范圍有限等缺點(diǎn).而利用機(jī)器學(xué)習(xí)算法對(duì)農(nóng)作物進(jìn)行病蟲害的預(yù)測具有獨(dú)特的優(yōu)勢,尤其對(duì)早期的病蟲害預(yù)測和田間管理具有重要意義,省時(shí)省力,人為干擾誤差減小,在農(nóng)業(yè)生產(chǎn)中,可以為農(nóng)業(yè)技術(shù)人員針對(duì)相應(yīng)的病蟲害進(jìn)行預(yù)防處理提供科學(xué)的理論支撐.近年來,研究學(xué)者已經(jīng)在這方面取得了較多的研究成果.
石晶晶(2009)[8]利用支持向量機(jī)算法對(duì)稻縱卷葉螟危害水稻進(jìn)行了遙感識(shí)別,將獲取到的108個(gè)樣本分為70個(gè)訓(xùn)練樣本和38個(gè)測試樣本,測試的準(zhǔn)確率可達(dá)到100%,此實(shí)驗(yàn)驗(yàn)證了機(jī)器學(xué)習(xí)算法進(jìn)行農(nóng)作物病蟲害預(yù)測的可行性,為后期病蟲害治理提供了決策支撐.
尹小君(2015)[9]對(duì)加工番茄細(xì)菌性斑點(diǎn)病的氮素含量反演進(jìn)行了研究,通過病蟲害的預(yù)測來檢測氮素含量,為番茄施肥提供策略幫助.本研究首先對(duì)光譜指數(shù)進(jìn)行區(qū)分,選取具有代表性的13個(gè)光譜指數(shù),通過相關(guān)驗(yàn)證,獲取4個(gè)穩(wěn)定的光譜指數(shù),作為算法的特征變量.其次,建立線性核、多項(xiàng)式核、徑向基核、Sigmoid核為核函數(shù)的支持向量機(jī)模型,根據(jù)預(yù)測效果,選定徑向基核.最后,通過使用K-cv交叉驗(yàn)證,確定懲罰系數(shù)C、核函數(shù)參數(shù)g的最佳參數(shù).本研究的特征在于非不同機(jī)器學(xué)習(xí)算法的比較,而是僅選擇一個(gè)機(jī)器學(xué)習(xí)算法,采用不同的參數(shù)進(jìn)行模型的比較,為智慧農(nóng)業(yè)中農(nóng)作物病蟲害的預(yù)測提供了思路.
許章華(2018)[10]利用Fisher判別矩陣和隨機(jī)森林兩種機(jī)器學(xué)習(xí)算法對(duì)森林當(dāng)中的馬尾松毛蟲進(jìn)行了預(yù)測.其數(shù)據(jù)主要來自于LAI-2000實(shí)地采集的光譜數(shù)據(jù)和衛(wèi)星遙感數(shù)據(jù),同時(shí)結(jié)合當(dāng)?shù)氐牧謽I(yè)工作者長期的病蟲害記錄和總結(jié),共選取7個(gè)特征變量,結(jié)果顯示,F(xiàn)isher判別矩陣和隨機(jī)森林機(jī)器學(xué)習(xí)算法的平均檢測精度分別為74.5%和81.8%.二者的檢測精度比較接近,但在病蟲害等級(jí)劃分上具有差異,對(duì)于無、輕度、中度病蟲害檢測,隨機(jī)森林算法優(yōu)于Fisher判別矩陣,對(duì)于重度病蟲害檢測,結(jié)果相反,F(xiàn)isher判別矩陣要明顯優(yōu)于隨機(jī)森林,可見,F(xiàn)isher判別矩陣和隨機(jī)森林機(jī)器學(xué)習(xí)算法在病蟲害檢測方面各有優(yōu)劣,在實(shí)際應(yīng)用中,可以采用優(yōu)勢互補(bǔ)的方式交叉使用這兩種算法.
向昌盛(2012)[11]針對(duì)蟲害發(fā)生所具有的小樣本數(shù)據(jù)和非線性的特點(diǎn),基于小樣本數(shù)據(jù)量和非線性模型,使用最小二乘支持向量機(jī)的機(jī)器學(xué)習(xí)算法進(jìn)行病蟲害的預(yù)測,結(jié)果顯示,通過遺傳算法對(duì)最小二乘支持向量機(jī)的參數(shù)進(jìn)行了優(yōu)化,可以獲得較好的預(yù)測效果.
葉聰?shù)龋?018)[12]利用人工神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)算法對(duì)圖像灰度頻率數(shù)據(jù)預(yù)處理后進(jìn)行病蟲害的預(yù)測.使用Canon EOS 550D數(shù)碼相機(jī)進(jìn)行粘蟲板圖像數(shù)據(jù)采集,構(gòu)建RGB彩色數(shù)碼圖像,進(jìn)行分割與信息提取,共獲得14個(gè)特征變量,將總體的樣本分為訓(xùn)練樣本和測試樣本兩類,訓(xùn)練樣本用來訓(xùn)練人工神經(jīng)網(wǎng)絡(luò),測試樣本進(jìn)行人工神經(jīng)網(wǎng)絡(luò)的驗(yàn)證.結(jié)果顯示,采用人工神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)算法對(duì)溫室大棚環(huán)境下粉虱和薊馬的識(shí)別精度分別為96%和92%,說明人工神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)算法對(duì)溫室大棚內(nèi)的早期病蟲害的預(yù)測有幫助.
王雪麗(2018)[13]的研究則從專家?guī)旖ㄔO(shè)的角度出發(fā),通過BP神經(jīng)網(wǎng)絡(luò)對(duì)所采集到的病蟲害相關(guān)的文本數(shù)據(jù)進(jìn)行分類,為病蟲害進(jìn)行專家系統(tǒng)的建立提供技術(shù)基礎(chǔ).
通過以上分析可知,機(jī)器學(xué)習(xí)算法在農(nóng)業(yè)病蟲害預(yù)測方面已經(jīng)取得了豐碩的研究成果,主要集中于方法學(xué)研究、病蟲害預(yù)測精度研究、病蟲害分類研究等幾個(gè)方面,研究方法介紹細(xì)致,研究內(nèi)容范圍較廣,可為后續(xù)的相關(guān)研究工作提供相應(yīng)的技術(shù)參考.
農(nóng)產(chǎn)品價(jià)格不僅與農(nóng)民自身的經(jīng)濟(jì)收入有關(guān),同樣也關(guān)乎國民生活水平的穩(wěn)定.農(nóng)產(chǎn)品價(jià)格的上升有助于提高農(nóng)民自身的經(jīng)濟(jì)收入,但也帶來了物價(jià)上漲的困擾,相反,農(nóng)產(chǎn)品價(jià)格的下降則會(huì)降低農(nóng)民的經(jīng)濟(jì)收入.因此,在智慧農(nóng)業(yè)應(yīng)用過程中,農(nóng)產(chǎn)品價(jià)格的預(yù)測是影響智慧農(nóng)業(yè)建設(shè)的重要方面,如何利用科技的力量進(jìn)行合理、有效的農(nóng)產(chǎn)品價(jià)格預(yù)測是智慧農(nóng)業(yè)建設(shè)需要考慮的關(guān)鍵問題之一.
賀艷輝等(2010)[14]利用非線性BP人工神經(jīng)網(wǎng)絡(luò)對(duì)影響羅非魚價(jià)格的相關(guān)因素進(jìn)行分析,選擇銷售月份、銷售地經(jīng)度、銷售地緯度、銷售地人口密度、銷售地人均消費(fèi)水平五個(gè)指標(biāo)作為特征變量,而價(jià)格參考上海、虎門、新疆三地的水產(chǎn)品市場,共收集135個(gè)樣本,其中108個(gè)樣本作為訓(xùn)練樣本,27個(gè)作為測試樣本.結(jié)果顯示,測試的相對(duì)誤差在1%~6%,平均值為4%,測試結(jié)果非常準(zhǔn)確,因此,非線性BP人工神經(jīng)網(wǎng)絡(luò)算法可作為其他水產(chǎn)品或者農(nóng)產(chǎn)品的價(jià)格預(yù)測工具.
羅長壽(2011)[15]利用BP神經(jīng)網(wǎng)絡(luò)、遺傳算法下的神經(jīng)網(wǎng)絡(luò)、RBF神經(jīng)網(wǎng)絡(luò)對(duì)北京的香菇市場的每日價(jià)格進(jìn)行預(yù)測分析,選取2003—2007年的每日香菇價(jià)格作為訓(xùn)練數(shù)據(jù),并使用2008—2009年的每日香菇價(jià)格作為測試數(shù)據(jù).測試結(jié)果顯示,BP神經(jīng)網(wǎng)絡(luò)、遺傳算法下的神經(jīng)網(wǎng)絡(luò)、RBF神經(jīng)網(wǎng)絡(luò)建立的三種模型預(yù)測的平均絕對(duì)誤差分別為0.15%、0.114%、0.144%,三種模型的集成模型的平均絕對(duì)誤差為0.106%,穩(wěn)定性大大提高.
岳之峣等(2013)[16]以雞蛋價(jià)格預(yù)警作為切入點(diǎn),采用支持向量機(jī)的機(jī)器學(xué)習(xí)算法對(duì)雞蛋價(jià)格進(jìn)行預(yù)測.將雞蛋和豬肉價(jià)格的比值作為預(yù)警值,采用2010年7月到2011年6月的數(shù)據(jù)作為訓(xùn)練樣本,采用2011年7月到2012年12月的數(shù)據(jù)作為測試樣本,最終測試樣本當(dāng)中的預(yù)測結(jié)果均在實(shí)際范圍之內(nèi),說明支持向量機(jī)訓(xùn)練的價(jià)格預(yù)測模型有效.
石波等(2016)[17]采用RBF神經(jīng)網(wǎng)絡(luò)和訓(xùn)練預(yù)測模型對(duì)中國的大豆價(jià)格進(jìn)行預(yù)測,選取2009-2013年的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),將2014年的數(shù)據(jù)作為測試數(shù)據(jù),將大豆進(jìn)口量、消費(fèi)者信心指數(shù)、進(jìn)口大豆價(jià)格三個(gè)指數(shù)作為輸入變量,預(yù)測模型的預(yù)測誤差為3.64%,與傳統(tǒng)的數(shù)學(xué)建模分析方式相比,機(jī)器學(xué)習(xí)算法的分析難度和預(yù)測誤差均有所降低.
蔡超敏等(2016)[18]創(chuàng)新性地提出引進(jìn)經(jīng)驗(yàn)?zāi)B(tài)分解方法(EMD),將豬肉的歷史數(shù)據(jù)進(jìn)行分解并集成為高頻部分、低頻部分、殘余項(xiàng)三個(gè)模塊,通過支持向量機(jī)訓(xùn)練模型進(jìn)行預(yù)測.此外,還通過單純的SVM、EMD-BP、BP進(jìn)行預(yù)測,通過比較分析發(fā)現(xiàn),EMD-SVM具有較好的預(yù)測精度.
謝申汝(2018)[19]利用支持向量機(jī)算法以2005—2016年的小麥最低收購價(jià)格數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,而后對(duì)2017年的小麥最低價(jià)格進(jìn)行預(yù)測,預(yù)測準(zhǔn)確率達(dá)到標(biāo)準(zhǔn)水平.
通過以上研究成果的分析可見,機(jī)器學(xué)習(xí)算法對(duì)農(nóng)作物價(jià)格的預(yù)測非常有幫助.機(jī)器學(xué)習(xí)的海量數(shù)據(jù)來源廣泛,如農(nóng)產(chǎn)品以往銷售的價(jià)格數(shù)據(jù)、當(dāng)?shù)厝丝谙M(fèi)水平的統(tǒng)計(jì)年鑒數(shù)據(jù)、原材料供應(yīng)的價(jià)格數(shù)據(jù)等,為農(nóng)產(chǎn)品價(jià)格的預(yù)測提供了數(shù)據(jù)支撐.采用機(jī)器學(xué)習(xí)算法對(duì)農(nóng)產(chǎn)品價(jià)格進(jìn)行預(yù)測,可以調(diào)控農(nóng)產(chǎn)品價(jià)格,保障農(nóng)民的經(jīng)濟(jì)收入,從智慧農(nóng)業(yè)的發(fā)展來看,農(nóng)產(chǎn)品價(jià)格的預(yù)測有利于智慧農(nóng)業(yè)發(fā)展方向的選擇,因此,有必要深入研究農(nóng)產(chǎn)品價(jià)格預(yù)測的方法.
本文主要綜述了機(jī)器學(xué)習(xí)算法在智慧農(nóng)業(yè)中的應(yīng)用進(jìn)展,集中對(duì)農(nóng)作物分類、病蟲害預(yù)測、農(nóng)產(chǎn)品價(jià)格預(yù)測三方面進(jìn)行了分析,雖然機(jī)器學(xué)習(xí)算法在智慧農(nóng)業(yè)上的應(yīng)用已經(jīng)取得了非常多的研究成果,且預(yù)測準(zhǔn)確度較高,但仍然存在一些問題值得我們進(jìn)一步思考.
首先,機(jī)器學(xué)習(xí)算法種類較多,各有優(yōu)缺點(diǎn),前文中論述的部分研究已經(jīng)認(rèn)識(shí)到這一點(diǎn),考慮到單一的機(jī)器學(xué)習(xí)算法不能有效地完成任務(wù),因此,多數(shù)研究是將多種機(jī)器學(xué)習(xí)算法進(jìn)行對(duì)比分析,最終選擇準(zhǔn)確率較高的一種.但還有一個(gè)問題需要考慮,就是研究對(duì)象的差異性,研究對(duì)象的差異同樣會(huì)造成機(jī)器學(xué)習(xí)算法預(yù)測精度的差異,因此,筆者認(rèn)為,在后續(xù)的研究中,應(yīng)該加入不同的農(nóng)作物分類任務(wù),重點(diǎn)考慮研究對(duì)象這一個(gè)維度,從而將研究結(jié)果細(xì)化.
其次,每種機(jī)器學(xué)習(xí)算法都需要引入一定的參數(shù),參數(shù)選取的有效性直接影響機(jī)器學(xué)習(xí)算法分析的精度,對(duì)農(nóng)作物分類、病蟲害預(yù)測、農(nóng)產(chǎn)品價(jià)格預(yù)測的精度會(huì)有很大影響.但前文綜述的研究成果中對(duì)機(jī)器學(xué)習(xí)算法中不同參數(shù)選擇帶來的結(jié)果差異基本都沒有考慮,僅有的一篇文獻(xiàn)對(duì)支持向量機(jī)中的不同的參數(shù)所帶來的預(yù)測結(jié)果進(jìn)行了分析[10],筆者認(rèn)為,不同參數(shù)的選擇對(duì)于機(jī)器學(xué)習(xí)算法精度的影響也應(yīng)該重點(diǎn)考慮,以提高預(yù)測結(jié)果的精度.
最后,機(jī)器學(xué)習(xí)算法中要求的特征變量及其數(shù)目的選擇具有隨機(jī)性.通常情況下,特征變量及其數(shù)目會(huì)影響機(jī)器學(xué)習(xí)算法的準(zhǔn)確性和泛化能力,應(yīng)該精確選取.然而,前文綜述的研究成果顯示,特征變量選擇的研究較少,多數(shù)特征變量的選擇僅僅是依據(jù)個(gè)人的經(jīng)驗(yàn),具有一定的主觀性,標(biāo)準(zhǔn)不統(tǒng)一,從而導(dǎo)致相應(yīng)有效的模型的可移植性較差,可應(yīng)用的范圍縮小,不利于研究方法的進(jìn)一步開發(fā)和應(yīng)用.因此,今后應(yīng)加強(qiáng)特征變量選擇的研究工作,提高預(yù)測模型的通用性.
為了促進(jìn)機(jī)器學(xué)習(xí)算法在智慧農(nóng)業(yè)中的應(yīng)用,今后的研究應(yīng)注意以下三方面:第一,著手從研究對(duì)象的差異方面切入,詳細(xì)分析研究對(duì)象的差異,進(jìn)而選擇合適的機(jī)器學(xué)習(xí)算法,擴(kuò)大機(jī)器學(xué)習(xí)算法的應(yīng)用范圍;第二,在機(jī)器學(xué)習(xí)算法的相關(guān)參數(shù)的選擇方面,多比較不同參數(shù)所造成的模型差異,選擇最佳的參數(shù);第三,在機(jī)器學(xué)習(xí)算法的特征變量的選擇方面,農(nóng)業(yè)上應(yīng)進(jìn)行一個(gè)有效的統(tǒng)一,讓預(yù)測模型具有通用性,可以更加有效地為多樣化的智慧農(nóng)業(yè)生產(chǎn)服務(wù)需求提供幫助.
通化師范學(xué)院學(xué)報(bào)2019年6期