吳迪 吳方華
摘要:我國(guó)是農(nóng)業(yè)生產(chǎn)大國(guó),農(nóng)業(yè)生產(chǎn)中極易受到病蟲害的侵襲導(dǎo)致減產(chǎn),因此越來(lái)越多的養(yǎng)殖戶開始大量使用農(nóng)藥來(lái)防治病蟲害,但是農(nóng)業(yè)生產(chǎn)者在實(shí)際的用藥過(guò)程中經(jīng)常會(huì)因?yàn)樽陨韺I(yè)知識(shí)掌握不足導(dǎo)致無(wú)法進(jìn)行精準(zhǔn)用藥,而且在實(shí)體店咨詢用藥的方式也極易會(huì)錯(cuò)過(guò)用藥時(shí)間,因此基于大數(shù)據(jù)的農(nóng)業(yè)用藥推薦可以節(jié)省很多線下咨詢的時(shí)間,而且用的藥也可以在很大概率上保證是最好的?;诖?,本文基于大數(shù)據(jù)進(jìn)行了農(nóng)藥用藥推薦模型的構(gòu)建,以此實(shí)現(xiàn)農(nóng)業(yè)生產(chǎn)中的配方施藥、精準(zhǔn)施藥,從而提高現(xiàn)代農(nóng)業(yè)的生產(chǎn)質(zhì)量。
關(guān)鍵詞:大數(shù)據(jù);農(nóng)業(yè)用藥;推薦系統(tǒng);機(jī)器學(xué)習(xí)
1 大數(shù)據(jù)與農(nóng)業(yè)用藥推薦概述
1.1 大數(shù)據(jù)
現(xiàn)在的社會(huì)高速發(fā)展,信息流通比以往更加便捷,人們的交流溝通也越來(lái)越密切,在這個(gè)時(shí)代背景下,大數(shù)據(jù)就產(chǎn)生了。
我們正處于大數(shù)據(jù)時(shí)代,但是很少有人深入了解過(guò)大數(shù)據(jù)的內(nèi)涵,對(duì)大數(shù)據(jù)的定義尚不清晰明確。因此有必要對(duì)其定義進(jìn)行闡述。
大數(shù)據(jù)的特征可以歸納為體量浩大,超出常規(guī)數(shù)據(jù)處理工具的運(yùn)算能力;數(shù)據(jù)形式多樣,大數(shù)據(jù)中包含了大量的非結(jié)構(gòu)化數(shù)據(jù);產(chǎn)生速度快,互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、智能設(shè)備每時(shí)每刻都在產(chǎn)生大量數(shù)據(jù),數(shù)據(jù)增長(zhǎng)速度較快;以及數(shù)據(jù)價(jià)值密度低四個(gè)特征[1]。
大數(shù)據(jù)可以用于解決生產(chǎn)生活的方方面面問(wèn)題,如電商推薦系統(tǒng)、人臉識(shí)別、語(yǔ)音處理及智能控制、天氣預(yù)測(cè)等。隨著信息化的發(fā)展,未來(lái)社會(huì)將逐步走入人工智能時(shí)代,而大數(shù)據(jù)就是人工智能研究和實(shí)踐的基礎(chǔ)。
1.2 大數(shù)據(jù)與農(nóng)業(yè)用藥推薦
農(nóng)業(yè)用藥大數(shù)據(jù)即通過(guò)大數(shù)據(jù)的相關(guān)技術(shù)和方法在農(nóng)業(yè)用藥推薦上的實(shí)踐。以往農(nóng)民們用藥時(shí),都需要去農(nóng)藥店咨詢用藥,在用藥淡季還是很方便,但是一旦到了病蟲害的高峰期,到實(shí)體店咨詢農(nóng)藥的人就會(huì)特別多,一來(lái)會(huì)浪費(fèi)黃金用藥時(shí)間,二來(lái)人多了之后很難保證商家對(duì)每個(gè)人用藥推薦都是最好的。
如果將大數(shù)據(jù)應(yīng)用到用藥推薦上面,就可以節(jié)省很多線下咨詢的時(shí)間,而且用的藥也可以在很大概率上保證是最好的,只要大數(shù)據(jù)包含的歷史用藥信息足夠大,那么幾乎可以說(shuō)是很少失誤的。
在農(nóng)業(yè)大數(shù)據(jù)這方面,美國(guó)實(shí)施得比較好,他們推行了精準(zhǔn)農(nóng)業(yè),對(duì)于擁有大片土地的美國(guó)農(nóng)場(chǎng)主來(lái)說(shuō),利用大數(shù)據(jù)技術(shù)來(lái)操控農(nóng)業(yè)的方方面面,提高了他們的生產(chǎn)效率以及收益。目前也有許多大公司看到了這一行業(yè)的前景,孟山都、杜邦先鋒等種業(yè)巨頭都先后投入大批資金在這一領(lǐng)域。
目前國(guó)內(nèi)這一塊發(fā)展得比較緩慢,作為傳統(tǒng)農(nóng)業(yè)大國(guó),全國(guó)范圍內(nèi)分散的小農(nóng)生產(chǎn)方式讓大數(shù)據(jù)的應(yīng)用進(jìn)程緩慢,不過(guò)像東北,新疆這幾個(gè)大面積種植農(nóng)產(chǎn)品的地區(qū),大數(shù)據(jù)的應(yīng)用前景還是可以期待的。
2 農(nóng)業(yè)數(shù)據(jù)獲取
我國(guó)是農(nóng)業(yè)大國(guó),農(nóng)業(yè)發(fā)展歷史悠久,由于農(nóng)業(yè)科技進(jìn)步發(fā)展滯后,加之農(nóng)業(yè)信息化程度不高,農(nóng)業(yè)數(shù)據(jù)呈現(xiàn)以下特點(diǎn):數(shù)據(jù)歷史長(zhǎng)、數(shù)據(jù)量大、類型多。但存在數(shù)據(jù)缺失嚴(yán)重、數(shù)據(jù)質(zhì)量不高、開發(fā)利用不夠、數(shù)據(jù)采集基礎(chǔ)建設(shè)不完善、家底不清等問(wèn)題[2]。
但值得期待的是,國(guó)家對(duì)農(nóng)業(yè)大數(shù)據(jù)這一塊逐漸加大了重視,許多高校研究院都相繼開辦了相關(guān)專業(yè),比如山東農(nóng)業(yè)大學(xué)就開辦了農(nóng)業(yè)大數(shù)據(jù)研究中心。在此基礎(chǔ)上,我們也可以對(duì)農(nóng)業(yè)大數(shù)據(jù)的獲取有一些展望。建立農(nóng)業(yè)數(shù)據(jù)的標(biāo)準(zhǔn)體系,比如土地的相關(guān)參數(shù),天氣以及氣溫變化的統(tǒng)一化規(guī)定,農(nóng)產(chǎn)品質(zhì)量的指標(biāo)等。利用先進(jìn)技術(shù)進(jìn)行大數(shù)據(jù)采集,比如利用物聯(lián)網(wǎng)、云計(jì)算、微信遙感與通信等來(lái)進(jìn)行農(nóng)業(yè)大數(shù)據(jù)的采集,使得獲取的大數(shù)據(jù)更加準(zhǔn)確和統(tǒng)一。
3 農(nóng)業(yè)數(shù)據(jù)預(yù)處理
在基于大數(shù)據(jù)的人工智能中,數(shù)據(jù)預(yù)處理是最重要的一環(huán)。預(yù)處理主要包括數(shù)據(jù)缺失值的填充和異常值的修正,還有就是特征工程?,F(xiàn)實(shí)的數(shù)據(jù)都是“骯臟”的,也就是不能直接拿來(lái)做分析推薦的,我們稱之為有噪聲。缺失值是最常見的,比如某一塊農(nóng)田的某一天的氣溫缺失了,我們就可以用最近幾天的平均值來(lái)填充這一缺失值,當(dāng)然用來(lái)填充的方法很多,在檢驗(yàn)最后用藥推薦的準(zhǔn)確率的時(shí)候,可以相應(yīng)的通過(guò)修改數(shù)據(jù)處理的方法來(lái)不斷地逼近一個(gè)比較高的正確率。比如我們收集到了某個(gè)地區(qū)某塊地幾年的數(shù)據(jù),有氣溫,降雨量等,甚至可以用往年當(dāng)天的數(shù)據(jù)來(lái)作為當(dāng)天的缺失值的填充量。另外一種方法就是預(yù)測(cè),將不存在缺失值的數(shù)據(jù)放入到機(jī)器學(xué)習(xí)模型中訓(xùn)練,得到一個(gè)較好的模型,然后對(duì)于有缺失數(shù)據(jù)的那塊地,我們把那塊地不缺失的數(shù)據(jù)作為訓(xùn)練特征,然后預(yù)測(cè)出這塊地缺失的數(shù)據(jù)。
更加深入的處理缺失值的方法有插值法,在數(shù)值分析中,牛頓給出了用插值的方法求得一組數(shù)中缺失的值,只要把缺失值前后對(duì)應(yīng)的數(shù)據(jù)提取出來(lái),建立插值多項(xiàng)式,就可以求得缺失值。異常值也是經(jīng)常遇見的,可以用人工智能機(jī)器學(xué)習(xí)中常用的“滑窗”方法來(lái)給數(shù)據(jù)建立一個(gè)散點(diǎn)圖,當(dāng)發(fā)現(xiàn)有偏離正常曲線的點(diǎn)時(shí),就基本可以認(rèn)定這個(gè)點(diǎn)是異常值,修正值可以用曲線來(lái)預(yù)測(cè)。
在統(tǒng)計(jì)學(xué)中,我們也可以用z-score的方法來(lái)判斷是否有異常值。將農(nóng)業(yè)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,也就是將每個(gè)數(shù)據(jù)減去這組數(shù)的平均數(shù),再除以這組數(shù)方差。經(jīng)過(guò)這番處理后,這組數(shù)據(jù)就變成了平均值為0,方差為1的標(biāo)準(zhǔn)數(shù)。利用3σ原則,把絕對(duì)值大于3的數(shù)列為不恰當(dāng)值,也就是異常值。之后就可以把這些異常值視為缺失值,再對(duì)這些值進(jìn)行替換處理,用更準(zhǔn)確的數(shù)代替它們。
最后就是特征工程,在機(jī)器學(xué)習(xí)中,有這么一句話:“特征工程決定上限,而模型只是在不斷逼近這個(gè)上限”。所以得到好的特征工程可以說(shuō)是關(guān)鍵一環(huán)。對(duì)于一塊特定的農(nóng)田,可以選取當(dāng)?shù)氐臍鉁刈兓?,施藥的時(shí)間,歷年災(zāi)害等眾多特征,把特定時(shí)間的用藥作為標(biāo)簽,當(dāng)然,特征的調(diào)整也會(huì)影響正確率。不過(guò),對(duì)于具體特征的選擇需要采取相應(yīng)的辦法。
第一種方法就是卡方檢驗(yàn),經(jīng)典的卡方檢驗(yàn)是檢驗(yàn)定性自變量對(duì)定性因變量的相關(guān)性。可以利用它選出與農(nóng)業(yè)用藥相關(guān)性最強(qiáng)的特征集合。
其次就是RFE,即遞歸消除特征法,將所有的特征投入到一個(gè)模型進(jìn)行訓(xùn)練,然后逐步淘汰掉不太重要的特征,比如在農(nóng)業(yè)大數(shù)據(jù)特征里,可能就會(huì)淘汰掉田的形狀等不太相關(guān)的特征,然后遞歸調(diào)用這種方法,直到特征數(shù)滿足我們的需求。
第三種方法是利用模型選取特征,可以選取RandomForest來(lái)作為特征選擇的學(xué)習(xí)器,投入農(nóng)業(yè)大數(shù)據(jù)到學(xué)習(xí)器中后,它會(huì)輸出每個(gè)特征的重要性,就可以選取重要的特征。
4 模型建立
支持向量機(jī)、隨機(jī)森林、樸素貝葉斯、線性回歸、神經(jīng)網(wǎng)絡(luò)等都是比較常用的機(jī)器學(xué)習(xí)模型,當(dāng)然隨著深度學(xué)習(xí)的發(fā)展,也可嘗試一些深度網(wǎng)絡(luò)等方法。將處理好的農(nóng)業(yè)大數(shù)據(jù)劃分為訓(xùn)練集和測(cè)試集,把訓(xùn)練集投入到這個(gè)模型中,經(jīng)過(guò)訓(xùn)練得到一個(gè)標(biāo)準(zhǔn)模型,然后利用測(cè)試集檢驗(yàn)?zāi)P偷臏?zhǔn)確率,不斷改變數(shù)據(jù)預(yù)處理的方法來(lái)獲得一個(gè)比較理想的正確率。這樣,一個(gè)簡(jiǎn)易的農(nóng)業(yè)用藥推薦系統(tǒng)就應(yīng)運(yùn)而生。
當(dāng)然,我們也得注意模型的泛化能力,也就是模型的普適度??赡艽嬖诘那闆r就是,模型在用作訓(xùn)練集的農(nóng)業(yè)大數(shù)據(jù)里錯(cuò)誤率比較低,表現(xiàn)很好,但是當(dāng)農(nóng)戶投入他自己的農(nóng)業(yè)數(shù)據(jù)時(shí),就可能得不到很精確的用藥推薦,這就是因?yàn)槟P偷姆夯芰μ土?。造成這種現(xiàn)象的原因可能是過(guò)擬合,也可能是欠擬合。過(guò)擬合就是模型太依賴于訓(xùn)練集的數(shù)據(jù),而缺失“舉一反三”的能力,欠擬合就是模型沒有很好地?cái)M合數(shù)據(jù),也就是說(shuō)“課堂內(nèi)容”都沒消化好,就想著去做“模擬試卷”了。
解決這兩種現(xiàn)象的方法有很多。
第一,特征數(shù)和樣本數(shù)的平衡。當(dāng)樣本數(shù)很少的時(shí)候,特征數(shù)也要跟著稍微少一點(diǎn),防止過(guò)擬合。當(dāng)樣本數(shù)比較多時(shí),也要適當(dāng)增加特征數(shù),防止欠擬合。
第二,利用交叉驗(yàn)證的方法,也就是將獲取的農(nóng)業(yè)大數(shù)據(jù)分為兩部分,一個(gè)訓(xùn)練集,一個(gè)是測(cè)試集。也就是說(shuō)一個(gè)是“課堂內(nèi)容”,用于自己鞏固提高,另一個(gè)是“模擬試卷”,檢查自己學(xué)習(xí)的效果。然后再不斷重新劃分訓(xùn)練集和測(cè)試集,基本保證農(nóng)業(yè)大數(shù)據(jù)的每個(gè)部分都曾作為訓(xùn)練集和測(cè)試集。
5 用藥推薦
把簡(jiǎn)易的推薦系統(tǒng)進(jìn)行包裝,就可以得到一個(gè)人機(jī)交互的推薦系統(tǒng),例如觸屏式機(jī)器人,或者app。農(nóng)民按照條件,把作物狀況、土地的相關(guān)參數(shù)、天氣、氣溫等特征填入,就可以得到用藥推薦。
6 結(jié)束語(yǔ)
我國(guó)是農(nóng)業(yè)大國(guó),將近14億人口對(duì)糧食的消耗量是不言而喻的,而農(nóng)藥的使用對(duì)糧食的產(chǎn)量起到了關(guān)鍵性的作用,農(nóng)業(yè)用藥不能只憑已有的經(jīng)驗(yàn),隨著大數(shù)據(jù)技術(shù)的逐步深入,利用農(nóng)業(yè)大數(shù)據(jù)進(jìn)行用藥推薦是配方施藥、精準(zhǔn)施藥,是大勢(shì)所趨,不僅可以提高生產(chǎn)力,還可以實(shí)現(xiàn)農(nóng)藥減量,確保農(nóng)產(chǎn)品質(zhì)量安全和農(nóng)業(yè)環(huán)境友好。
參考文獻(xiàn)
[1] 羅成飛.基于大數(shù)據(jù)的制造企業(yè)服務(wù)化研究[J].現(xiàn)代營(yíng)銷(下旬刊),2019(9):73-74.
[2] 宋長(zhǎng)青,溫孚江,李俊清,等.農(nóng)業(yè)大數(shù)據(jù)研究應(yīng)用進(jìn)展與展望[J].農(nóng)業(yè)與技術(shù),2018,38(22):153-156.