李衍瑞
(塔里木大學(xué)信息工程學(xué)院,新疆 阿拉爾 843300)
我國(guó)是農(nóng)業(yè)大國(guó),農(nóng)業(yè)經(jīng)濟(jì)在國(guó)民經(jīng)濟(jì)中占據(jù)著非常重要的地位,2020年全國(guó)農(nóng)業(yè)及相關(guān)產(chǎn)業(yè)增加值為166 900億元,占國(guó)內(nèi)生產(chǎn)總值(GDP)的比重為16.47%[1]。隨著經(jīng)濟(jì)的飛速發(fā)展,人們的生活質(zhì)量大幅度提升,人們對(duì)于食品方面的要求越來(lái)越高,這就要求農(nóng)業(yè)生產(chǎn)質(zhì)量也要不斷提高。機(jī)器學(xué)習(xí)成為農(nóng)業(yè)信息化中的重要一環(huán),為農(nóng)業(yè)提質(zhì)增效作出了巨大貢獻(xiàn),隨機(jī)森林算法作為機(jī)器學(xué)習(xí)的一種,在農(nóng)業(yè)中有著廣泛的應(yīng)用[2-4]。
決策樹是有監(jiān)督的機(jī)器學(xué)習(xí)算法,是一種樹狀結(jié)構(gòu)的流程圖,主要解決分類問題。這種方法根據(jù)數(shù)據(jù)及參數(shù)的屬性特征對(duì)其進(jìn)行分類,對(duì)每一次分類過程進(jìn)行記錄并匯總。決策樹本身由根節(jié)點(diǎn)、非葉子節(jié)點(diǎn)(決策點(diǎn))、葉子節(jié)點(diǎn)和分支組成。在決策樹中,每個(gè)決策點(diǎn)實(shí)現(xiàn)一個(gè)具有離散輸出的測(cè)試函數(shù)記為分支[5]。根節(jié)點(diǎn)是決策樹中最上面一層的節(jié)點(diǎn),該節(jié)點(diǎn)往往具有信息增益大的特點(diǎn),在根節(jié)點(diǎn)處,信息熵值下降最快,可以有效地對(duì)數(shù)據(jù)進(jìn)行第一次分類。非葉子節(jié)點(diǎn)代表問題的決策,通常對(duì)應(yīng)決策所依據(jù)的屬性。葉子節(jié)點(diǎn)代表分類的標(biāo)簽值,決策樹是一個(gè)由上到下的遍歷過程,每一次分類會(huì)有不同的判斷結(jié)果,將不同的判斷結(jié)果引入不同的分支,從而賦予不同的標(biāo)簽值[6]。
如果決策樹在構(gòu)建中考慮了所有的訓(xùn)練數(shù)據(jù)集,得到的決策樹就會(huì)很龐大[7]。雖然這樣可以保證訓(xùn)練數(shù)據(jù)集的決策正確率達(dá)到100%,但是由于需要考慮所有數(shù)據(jù),將數(shù)據(jù)分割得過于零散,致使決策樹學(xué)習(xí)到一些噪聲點(diǎn)和錯(cuò)誤點(diǎn),出現(xiàn)過擬合現(xiàn)象[8]。對(duì)于上述問題可以通過決策樹的剪枝有效解決。決策樹常用的剪枝方法有兩種。
1)預(yù)剪枝:在構(gòu)建決策樹時(shí)提前停止。如果該節(jié)點(diǎn)的信息增益過低,則說明該節(jié)點(diǎn)的分類效果不好,并將該節(jié)點(diǎn)設(shè)為葉子節(jié)點(diǎn)。
2)后剪枝:在決策樹構(gòu)造完成后,進(jìn)行剪枝。自下而上地對(duì)每個(gè)非葉子節(jié)點(diǎn)進(jìn)行考察,選擇該節(jié)點(diǎn)中個(gè)數(shù)最多的類別作為標(biāo)簽,試將節(jié)點(diǎn)的子樹替換為葉子節(jié)點(diǎn);若能夠使得決策樹在驗(yàn)證集上的準(zhǔn)確率升高,則將該子樹替換成葉子節(jié)點(diǎn)。
隨機(jī)森林由Leo Breiman提出,它通過自助法(Bootstrap)重采樣技術(shù),從原始訓(xùn)練樣本集N中有放回地重復(fù)隨機(jī)抽取m個(gè)樣本生成新的訓(xùn)練樣本集合,然后根據(jù)自助樣本集生成m個(gè)分類樹組成隨機(jī)森林,新數(shù)據(jù)的分類結(jié)果按分類樹投票多少形成的分?jǐn)?shù)而定。通俗來(lái)講,隨機(jī)森林就是將若干個(gè)弱分類器組成一個(gè)強(qiáng)分類器。其本質(zhì)是將決策樹算法進(jìn)行了集合,將若干個(gè)決策樹組起來(lái),每一個(gè)獨(dú)立抽取樣本建立一棵相關(guān)的決策樹,森林中的每棵樹具有相同的分布,每棵樹的誤差取決于每棵樹的相關(guān)性。參數(shù)特征采用隨機(jī)方式對(duì)每一個(gè)節(jié)點(diǎn)進(jìn)行分類,然后比較不同情況下產(chǎn)生的誤差,能夠檢測(cè)到內(nèi)在估計(jì)誤差、分類能力和相關(guān)性決定選擇特征的數(shù)目[9]。每一棵樹的分類能力較小,隨著大量的樹的建立,其分類能力逐步提高,一個(gè)測(cè)試樣品可以通過每一棵樹的分類結(jié)果統(tǒng)計(jì)后選擇最可能的分類。隨機(jī)森林的基本原理和技術(shù)路線如圖1、圖2所示。
圖1 隨機(jī)森林基本原理
圖2 隨機(jī)森林技術(shù)路線
農(nóng)業(yè)干旱監(jiān)測(cè)一直是農(nóng)業(yè)方面的一項(xiàng)重大工作,干旱意味著農(nóng)作物從種植、生長(zhǎng)到收獲都會(huì)受到巨大影響,而農(nóng)業(yè)干旱監(jiān)測(cè)如果出現(xiàn)誤差過大的情況,會(huì)導(dǎo)致灌溉量不符合要求,作物生長(zhǎng)得不到有效保障,使得農(nóng)民種植成本大大提高,甚至出現(xiàn)經(jīng)濟(jì)損失等問題。對(duì)于大部分農(nóng)民來(lái)說,對(duì)土壤干旱檢測(cè)的方法還停留在經(jīng)驗(yàn)層面,通過種植經(jīng)驗(yàn)對(duì)土壤干旱程度進(jìn)行估算,從而確定灌溉量等信息。這樣以經(jīng)驗(yàn)來(lái)判斷土壤干旱程度的方法,對(duì)農(nóng)民種植經(jīng)驗(yàn)有著較高要求。另外,不同作物的需水量不同,對(duì)土壤的含水量需求也不相同,一定程度上加大了土壤干旱檢測(cè)的誤差,使得農(nóng)民資金受損的風(fēng)險(xiǎn)大大提高。少部分人使用手持土壤檢測(cè)設(shè)備,對(duì)農(nóng)田進(jìn)行隨機(jī)采樣,通過隨機(jī)采樣點(diǎn)的數(shù)據(jù)對(duì)整體農(nóng)田的土壤干旱度進(jìn)行估算。這種方法不僅對(duì)人力有著巨大要求,而且只對(duì)農(nóng)田的個(gè)別區(qū)域有著較高的精度,農(nóng)田整體的土壤干旱數(shù)據(jù)可能存在較大誤差。上述兩種常用的方法都有著高誤差風(fēng)險(xiǎn),一旦出現(xiàn)估算錯(cuò)誤,對(duì)整體的種植進(jìn)程有著巨大影響。
農(nóng)作物與人們生活息息相關(guān),農(nóng)作物產(chǎn)量對(duì)人們的生活有著巨大的影響,隨著我國(guó)人口的增長(zhǎng),農(nóng)業(yè)系統(tǒng)的壓力逐步增大,另外,農(nóng)作物產(chǎn)量對(duì)國(guó)家農(nóng)業(yè)系統(tǒng)的政策制定等也有著重要的影響,因此農(nóng)作物產(chǎn)量預(yù)測(cè)非常重要。傳統(tǒng)的農(nóng)作物產(chǎn)量預(yù)測(cè)通常以近幾年的農(nóng)作物產(chǎn)量數(shù)據(jù)為基礎(chǔ),應(yīng)用統(tǒng)計(jì)類模型進(jìn)行相關(guān)預(yù)測(cè),常用的分析方法有灰色關(guān)聯(lián)度分析、逐步回歸模型等。其中,灰色關(guān)聯(lián)度分析需要對(duì)各項(xiàng)指標(biāo)的最優(yōu)值進(jìn)行現(xiàn)行確定,相當(dāng)一部分的指標(biāo)無(wú)法現(xiàn)行確定,這就導(dǎo)致該方法主觀性過強(qiáng),容易產(chǎn)生誤差,另外灰色關(guān)聯(lián)度分析的一系列模型已不能滿足當(dāng)前對(duì)于模型的需求,導(dǎo)致結(jié)果具有偏差。在逐步回歸模型中,采用哪一種因子和該因子采用哪一種具體的表達(dá)式并不能完全確定,這就影響了因子的多樣性和不確定性,使得回歸分析的精度受到影響,導(dǎo)致作物產(chǎn)量預(yù)測(cè)有較大誤差。
隨著經(jīng)濟(jì)社會(huì)發(fā)展,人們對(duì)生活質(zhì)量的要求越發(fā)提高,并且隨著食品安全意識(shí)的普及,老百姓對(duì)食品品質(zhì)也越來(lái)越重視,農(nóng)產(chǎn)品在日常飲食中占據(jù)極大的比例,所以如今對(duì)農(nóng)作物品質(zhì)的檢測(cè)要求也越來(lái)越高?,F(xiàn)如今對(duì)農(nóng)作物的品質(zhì)檢測(cè)分為有損檢測(cè)和無(wú)損檢測(cè),有損檢測(cè)雖然更為精確,但是成本過高,而且農(nóng)作物的有損檢測(cè)步驟煩瑣,需要消耗大量的人力、物力。對(duì)于無(wú)損檢測(cè)來(lái)說,傳統(tǒng)的檢測(cè)方法有近紅外光譜檢測(cè)和高光譜檢測(cè),通過高光譜成像對(duì)作物進(jìn)行檢測(cè)。近紅外光譜檢測(cè)和高光譜成像技術(shù)雖然極具優(yōu)勢(shì),但是有一定的局限性。近紅外光譜設(shè)備造價(jià)高,且接收光譜時(shí)容易受到外界因素的干擾,高光譜成像技術(shù)數(shù)據(jù)采集時(shí)間長(zhǎng),獲取的數(shù)據(jù)復(fù)雜、冗余高。
作為機(jī)器學(xué)習(xí)的一種,隨機(jī)森林算法有著分類回歸的作用。2022年,王曉燕等[10]通過隨機(jī)森林、BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等對(duì)農(nóng)業(yè)干旱監(jiān)測(cè)建立了模型。通過確定不同的參數(shù)因子,提取2002—2019年甘肅4—10月所有氣象站點(diǎn)的VCI、TCI、PCI和VSWI指數(shù),按月依次對(duì)4種遙感指數(shù)和1個(gè)月、3個(gè)月、6個(gè)月時(shí)間尺度的SPEI進(jìn)行Pearson相關(guān)性分析,分析單個(gè)遙感干旱指數(shù)監(jiān)測(cè)農(nóng)業(yè)干旱的能力以及融合多源數(shù)據(jù)的必要性。結(jié)果表示,各項(xiàng)因子都高于0.01,表示其對(duì)于干旱指數(shù)顯著相關(guān),選取站點(diǎn)數(shù)據(jù)構(gòu)建隨機(jī)模型,對(duì)于隨機(jī)森林、BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)的結(jié)果進(jìn)行R2、RMSE、MAE的測(cè)算,結(jié)果如下:R2=0.86、0.81、0.82,RMSE=0.53、0.59、0.53,MAE=0.41、0.45、0.42。隨機(jī)森林算法在對(duì)數(shù)據(jù)進(jìn)行擬合后,其精度高于BP神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)。從而得出結(jié)論:隨機(jī)森林可以更全面、可靠地進(jìn)行農(nóng)業(yè)干旱監(jiān)測(cè)。
2019年,王鵬新等[11]基于隨機(jī)森林回歸的算法,對(duì)玉米進(jìn)行了單產(chǎn)估測(cè)。該文的研究區(qū)域?yàn)楹颖笔〉闹性瓍^(qū)域,特征變量選取了上包絡(luò)線S-G濾波的葉面積指數(shù)和條件植被溫度指數(shù)。該文首先確定了玉米對(duì)于水分的脅迫程度,進(jìn)行了VTCI的計(jì)算,VTCI的計(jì)算公式如下:
通過上包絡(luò)線S-G濾波對(duì)選取的葉面積指數(shù)進(jìn)行平滑處理,使得該葉面指數(shù)更加符合該地區(qū)玉米生長(zhǎng)的實(shí)際情況,之后建立回歸決策樹,通過建立隨機(jī)子空間法確立決策樹的相關(guān)節(jié)點(diǎn)及其分裂特征。通過有放回地隨機(jī)參數(shù)抽樣,從最初的原始樣本抽取訓(xùn)練樣本,通過該方法確立m個(gè)訓(xùn)練樣本,在決策樹建立過程中,利用CART方法隨機(jī)選取樹的數(shù)量,且不對(duì)決策樹進(jìn)行剪枝,將所有決策樹構(gòu)建成隨機(jī)森林后,對(duì)所有回歸后得到的玉米單產(chǎn)值進(jìn)行平均計(jì)算,所得到的最終值即為該地區(qū)玉米單產(chǎn)的估算值。結(jié)果表明,通過隨機(jī)森林回歸模型構(gòu)建變量估產(chǎn)模型時(shí),其精度較高,具有實(shí)際意義,可以對(duì)該地區(qū)的相關(guān)作物產(chǎn)量進(jìn)行相對(duì)精確的預(yù)測(cè)。
2019年,劉倩[12]以哈密瓜為試驗(yàn)材料,通過隨機(jī)森林算法對(duì)其進(jìn)行了模型構(gòu)建,對(duì)哈密瓜的無(wú)損檢測(cè)進(jìn)行研究。該文首先通過哈密瓜對(duì)不同基質(zhì)的含水量進(jìn)行統(tǒng)計(jì)和處理,包括糖分、可溶性固體物、維生素C等不同品質(zhì)指標(biāo)。并且提取了哈密瓜相關(guān)的外部表型特征,例如紋理特征、顏色特征等。之后對(duì)哈密瓜進(jìn)行了外部因子的相關(guān)性分析,綜合多個(gè)環(huán)境因子,使用隨機(jī)森林的回歸算法,對(duì)哈 密瓜的紋理特征和顏色特征進(jìn)行模型建立,結(jié)合哈密瓜對(duì)外部環(huán)境因子的敏感程度,對(duì)不同的環(huán)境因子進(jìn)行了R2的測(cè)算。最后通過試驗(yàn)證明哈密瓜內(nèi)部品質(zhì)與外部特征有著顯著的相關(guān)性,通過隨機(jī)森林進(jìn)行預(yù)測(cè)模型的建立,結(jié)合外部表型特征,建立果實(shí)預(yù)測(cè)模型。通過對(duì)比哈密瓜含水量與內(nèi)部品質(zhì),確定其規(guī)律,并將特征分析的結(jié)果與外部表型對(duì)比。試驗(yàn)結(jié)果表明,哈密瓜對(duì)不同的內(nèi)外部因素測(cè)算得到相應(yīng)的R2,其R2均高于0.75。該試驗(yàn)表明隨機(jī)森林算法在農(nóng)作物的品質(zhì)檢測(cè)方面,構(gòu)建的品質(zhì)預(yù)測(cè)模型有著較高的精度及實(shí)用性。
綜上所述,隨機(jī)森林作為機(jī)器學(xué)習(xí)的一類算法,可以應(yīng)用到很多方面,在農(nóng)業(yè)上的應(yīng)用也很廣泛,無(wú)論是在農(nóng)業(yè)環(huán)境中的應(yīng)用還是在農(nóng)產(chǎn)品中的應(yīng)用,都有著較高的應(yīng)用價(jià)值。隨機(jī)森林算法具有高精度以及對(duì)數(shù)據(jù)的強(qiáng)大處理能力,并且可以有效地避免數(shù)據(jù)過多時(shí)出現(xiàn)數(shù)據(jù)冗余的情況。