沙世琨
(濟(jì)寧市水利事業(yè)發(fā)展中心,山東 濟(jì)寧 272000)
陳垓灌區(qū)地處山東省濟(jì)寧市梁山縣,隨著區(qū)域設(shè)施配套、改造的不斷升級(jí),目前已經(jīng)被水利部命名為全國(guó)先進(jìn)灌區(qū),并且成為集自流、提水、補(bǔ)源等功能于一身的大型水利灌區(qū)[1]。
為確保陳垓引黃灌區(qū)節(jié)水改造工程順利完成,工程繼續(xù)進(jìn)行節(jié)水改造。工程改造過(guò)程中,水文氣象資料不僅是當(dāng)?shù)馗珊?、洪澇預(yù)報(bào)和工程實(shí)施過(guò)程中的一個(gè)重要參考依據(jù),同時(shí)也是影響流域徑流計(jì)算的主要因素之一,但由于降雨量及其影響因素的復(fù)雜性,目前對(duì)所采用的預(yù)測(cè)模型的研究和應(yīng)用均沒有趨近完善,存在穩(wěn)健性差、計(jì)算量大、預(yù)測(cè)精度不高和過(guò)度擬合情況等不足,極大地降低了模型的實(shí)用性[2- 3]。
近年來(lái),人工智能機(jī)器學(xué)習(xí)領(lǐng)域的隨機(jī)森林(Random Forest,RF)算法在學(xué)習(xí)復(fù)雜非線性關(guān)系、提高模型泛化性等方面取得了豐碩的研究成果[4]。因此,文章針對(duì)目前降雨量預(yù)測(cè)模型在計(jì)算量、精度、泛化性等方面的缺點(diǎn)[5],充分結(jié)合隨機(jī)森林算法的特有優(yōu)勢(shì),建立了基于隨機(jī)森林算法的陳垓灌區(qū)降水量預(yù)測(cè)模型,提高了模型的擬合預(yù)測(cè)性能。
隨機(jī)森林作為一種集成學(xué)習(xí)已在很多領(lǐng)域有了一定的應(yīng)用,以決策樹作為核心單元,主要思想是集成學(xué)習(xí)[6]。通常選取Bootstrap重抽樣方式進(jìn)行訓(xùn)練集樣本抽樣處理,依照規(guī)則,對(duì)樣本集進(jìn)行一分為二分割,以二分遞歸方式來(lái)實(shí)現(xiàn)決策樹模型搭建。模型中的各個(gè)決策樹相互獨(dú)立,互不干涉,通常不對(duì)決策樹進(jìn)行修剪,任其生長(zhǎng),最后把生長(zhǎng)好的決策樹進(jìn)行組合得到分類器,即隨機(jī)森林,對(duì)于使用該模型的數(shù)據(jù)分類結(jié)果采用投票方式來(lái)決定新樣本的類別,以實(shí)現(xiàn)對(duì)數(shù)據(jù)的預(yù)測(cè)。
決策樹屬于典型的單分類器,通過(guò)遞歸的方式從一組數(shù)量較大,且雜亂無(wú)章的樣本中推求出決策樹對(duì)于分類數(shù)據(jù)的分類規(guī)則,利用規(guī)則來(lái)分析數(shù)據(jù)。文章采用分類回歸樹(Classification and Regression Tree,CART)來(lái)實(shí)現(xiàn)決策樹的節(jié)點(diǎn)分裂[9]。CART算法依據(jù)Gini指標(biāo)來(lái)衡量數(shù)據(jù)劃分標(biāo)準(zhǔn),以Gini指標(biāo)最小的特征值作為節(jié)點(diǎn)的分裂屬性,可解釋生成的規(guī)則。
(1)樣本Gini系數(shù)的計(jì)算公式
(1)
式中,T—樣本;k—樣本類別個(gè)數(shù);p(i|t)—類別i在t節(jié)點(diǎn)處的概率。
(2)計(jì)算劃分的指數(shù)
(2)
式中,m—子節(jié)點(diǎn)個(gè)數(shù);ni—子節(jié)點(diǎn)i處的樣本數(shù);n—母節(jié)點(diǎn)的樣本數(shù)。
在屬性分裂過(guò)程中,根據(jù)公式(1)和公式(2)進(jìn)行CART算法中參數(shù)的計(jì)算,即Gini系數(shù),并根據(jù)計(jì)算結(jié)果選擇優(yōu)先屬性作為節(jié)點(diǎn)分裂的屬性,即Gini系數(shù)最小的屬性,通過(guò)遞歸循環(huán)的方式,不斷更新,最終產(chǎn)生完整的決策樹。
隨機(jī)森林模型屬于集成學(xué)習(xí)的一種,由若干個(gè)小型分類器組合而成,并對(duì)這些學(xué)習(xí)器的計(jì)算結(jié)果進(jìn)行優(yōu)化,選取出最優(yōu)結(jié)果。因此,隨機(jī)森林集成學(xué)習(xí)算法的模型性能必然優(yōu)于任何一個(gè)弱學(xué)習(xí)器的預(yù)測(cè)性能,同時(shí)進(jìn)一步提高了預(yù)測(cè)模型性能的穩(wěn)定性。
模型原始樣本集總共包括N個(gè)樣本,M個(gè)特征,這些實(shí)測(cè)數(shù)據(jù)資料中包含了復(fù)雜的作用關(guān)系,可能是線性關(guān)系,也可能是非線性關(guān)系,但一般非線性關(guān)系在數(shù)據(jù)科學(xué)中最為常見[10]。隨機(jī)森林模型從中抽取N個(gè)樣本集作為模型的訓(xùn)練集(隨機(jī)有放回方式)。由于在抽樣過(guò)程中采用了隨機(jī)有放回的方式,所有抽取的樣本在一定程度上均含有重復(fù)樣本,但由于沒有全部抽取,抽取的樣本又不包含全部樣本,所以避免了將全部樣本輸入模型而造成過(guò)擬合現(xiàn)象。抽樣過(guò)程中未被采樣到的數(shù)據(jù)通常被定義為袋外數(shù)據(jù)(Out of Bag, OOB),由于其在訓(xùn)練模型中未出現(xiàn)的特殊性,因此通常被用來(lái)檢驗(yàn)?zāi)P偷挠?xùn)練性能,即測(cè)試樣本集。
隨機(jī)森林模型抽樣次數(shù)n(既決策樹個(gè)數(shù))和特征分裂節(jié)點(diǎn)數(shù)m決定著模型的預(yù)測(cè)能力。決策樹個(gè)數(shù)可以通過(guò)其與OOB誤差的關(guān)系實(shí)驗(yàn)來(lái)確定;特征分裂節(jié)點(diǎn)數(shù)m按照推薦值選取為M/3。
分別采取獨(dú)立同分布的訓(xùn)練樣本對(duì)每棵決策樹進(jìn)行訓(xùn)練,基于所有決策樹預(yù)測(cè)結(jié)果投票決定RF最終的預(yù)測(cè)結(jié)果[11]。RF無(wú)須專門設(shè)置交叉驗(yàn)證,通常采用袋外數(shù)據(jù)樣本輸入到訓(xùn)練好的最優(yōu)參數(shù)模型中進(jìn)行模型測(cè)試[12]。
傳統(tǒng)的降雨量預(yù)測(cè)模型在預(yù)測(cè)精度、泛化性和實(shí)用性等方面存在缺陷,因此,建立基于RF的降雨量預(yù)測(cè)模型,具體建模步驟如下。
采用統(tǒng)計(jì)學(xué)方法對(duì)實(shí)測(cè)降雨量數(shù)據(jù)進(jìn)行粗差處理,為預(yù)測(cè)模型的建立提供可靠的數(shù)據(jù)基礎(chǔ)。將降雨量數(shù)據(jù)樣本作為模型數(shù)據(jù)集,采用標(biāo)準(zhǔn)化公式對(duì)所有數(shù)據(jù)樣本進(jìn)行標(biāo)準(zhǔn)化處理[13]。
(3)
式中,μ—相應(yīng)變量數(shù)據(jù)的均值;σ—相應(yīng)變量數(shù)據(jù)的標(biāo)準(zhǔn)差。
將經(jīng)過(guò)預(yù)處理的標(biāo)準(zhǔn)化訓(xùn)練集樣本作為模型輸入,通過(guò)梯度下降算法進(jìn)行誤差反向傳播驅(qū)使模型損失函數(shù)收斂,獲得最優(yōu)參數(shù)模型。
模型訓(xùn)練過(guò)程中樣本的重采樣方式是防止過(guò)擬合現(xiàn)象的一項(xiàng)重要措施,抽樣剩余的袋外數(shù)據(jù)未在模型訓(xùn)練數(shù)據(jù)集中出現(xiàn),因此這一部分?jǐn)?shù)據(jù)可被用來(lái)進(jìn)行模型測(cè)試,同時(shí)作為模型參數(shù)優(yōu)化的一項(xiàng)重要手段。
將重采樣剩余的訓(xùn)練樣本數(shù)據(jù)作為模型測(cè)試樣本進(jìn)行模型測(cè)試,同時(shí)根據(jù)測(cè)試結(jié)果的相關(guān)評(píng)價(jià)指標(biāo)(如標(biāo)準(zhǔn)差、平均絕對(duì)百分比誤差等)作為決策樹個(gè)數(shù)這一重要參數(shù)優(yōu)化的損失函數(shù),當(dāng)這些損失函數(shù)達(dá)到最小值時(shí),其最小值所對(duì)應(yīng)的模型決策樹個(gè)數(shù)即為其最優(yōu)取值。
將測(cè)試集自變量因子數(shù)據(jù)輸入訓(xùn)練好的最優(yōu)參數(shù)預(yù)測(cè)模型中,獲得相應(yīng)的降雨量預(yù)測(cè)結(jié)果。
為了準(zhǔn)確衡量模型預(yù)測(cè)性能,結(jié)合統(tǒng)計(jì)多元回歸理論,采用均方根誤差RMSE和平均絕對(duì)百分比誤差MAPE作為模型預(yù)測(cè)效果評(píng)價(jià)指標(biāo)[14]。
(4)
(5)
如果模型預(yù)測(cè)評(píng)價(jià)指標(biāo)較其他模型最優(yōu),那么這個(gè)模型就為最優(yōu)模型。
陳垓灌區(qū)區(qū)域氣候四季分明,春季干旱且風(fēng)沙較大,夏季降雨集中且容易發(fā)生洪澇災(zāi)害。為了能提前預(yù)測(cè)干旱年和洪澇年,文章以灌區(qū)內(nèi)梁山氣象站1954—2007年實(shí)測(cè)降雨量數(shù)據(jù)為依據(jù),建立基于隨機(jī)森林算法的陳垓灌區(qū)降水量預(yù)測(cè)模型,實(shí)現(xiàn)降雨量的精準(zhǔn)預(yù)測(cè)。梁山縣氣象站歷年降雨量過(guò)程線如圖1所示。
圖1 梁山縣氣象站歷年降雨量過(guò)程線
(1)模型參數(shù)設(shè)置
決策樹個(gè)數(shù)作為隨機(jī)森林模型最重要的參數(shù),其選取結(jié)果對(duì)于模型的擬合預(yù)測(cè)能力起著關(guān)鍵性作用。為了獲取最優(yōu)的模型參數(shù),初步擬定決策樹個(gè)數(shù)為1~500,分別計(jì)算每棵決策樹下隨機(jī)森林模型的袋外數(shù)據(jù)誤差,決策樹個(gè)數(shù)與袋外數(shù)據(jù)誤差關(guān)系曲線如圖2所示?;谧顑?yōu)參數(shù)下模型預(yù)測(cè)誤差最小的準(zhǔn)則,確定本數(shù)據(jù)集下決策樹個(gè)數(shù)為200。
圖2 決策樹個(gè)數(shù)與袋外數(shù)據(jù)誤差的關(guān)系圖
(2)模型預(yù)測(cè)分析
以預(yù)處理的標(biāo)準(zhǔn)化降雨量數(shù)據(jù)為基礎(chǔ),分別建立基于最小二乘回歸(Least Square Regression,LSR)、基于RF的降雨量預(yù)測(cè)模型,并按照前面所采取的最優(yōu)模型參數(shù)進(jìn)行模型訓(xùn)練。圖3為降雨量實(shí)測(cè)值和各模型降雨量擬合值過(guò)程線。
圖3 各模型降雨量擬合值和實(shí)測(cè)值過(guò)程線
通過(guò)對(duì)圖3分析可知,基于RF的降雨量預(yù)測(cè)模型曲線吻合度最高,目標(biāo)損失函數(shù)最小,模型訓(xùn)練結(jié)果較優(yōu),同時(shí)其預(yù)測(cè)性能也明顯優(yōu)于基于LSR的降雨量預(yù)測(cè)模型因此,RF模型能更好地挖掘數(shù)據(jù)信息的內(nèi)部特征以反映降雨量的真實(shí)性態(tài),具有良好的實(shí)際參考價(jià)值。
(3)模型評(píng)價(jià)
為了驗(yàn)證基于RF的降雨量預(yù)測(cè)模型的性能,選取常用的預(yù)測(cè)值與實(shí)測(cè)值殘差、均方根誤差和平均絕對(duì)百分比誤差等指標(biāo)評(píng)價(jià)預(yù)測(cè)模型精確性,并對(duì)基于LSR、RF的降雨量預(yù)測(cè)模型評(píng)價(jià)指標(biāo)計(jì)算結(jié)果進(jìn)行對(duì)比分析。各模型的預(yù)測(cè)值與實(shí)測(cè)值過(guò)程線如圖4所示,各模型的均方根誤差和平均絕對(duì)百分比誤差計(jì)算結(jié)果見表1。
圖4 各模型降雨量預(yù)測(cè)值和實(shí)測(cè)值過(guò)程線
表1 預(yù)測(cè)模型精確性指標(biāo)
分析圖5和表2可知,常用的LSR模型在一定程度上能夠?qū)崿F(xiàn)區(qū)域降雨量的預(yù)測(cè),但基于RF的降雨量預(yù)測(cè)模型預(yù)測(cè)效果最好,具有較高的精準(zhǔn)度。相較于基于LSR的降雨量預(yù)測(cè)模型各項(xiàng)指標(biāo),基于RF的降雨量預(yù)測(cè)模型殘差最小,RMSE低于50,MAPE低于10,均處于較低的區(qū)間。因此,基于RF的降雨量預(yù)測(cè)模型精準(zhǔn)度性能較佳,預(yù)測(cè)結(jié)果更接近真實(shí)數(shù)據(jù)。
(1)機(jī)器學(xué)習(xí)技術(shù)在降雨量預(yù)測(cè)模型建立中的成功應(yīng)用,能夠有效提高模型預(yù)測(cè)性能,更加準(zhǔn)確地預(yù)測(cè)降雨量的發(fā)展趨勢(shì)。
(2)基于RF的降雨量預(yù)測(cè)模型不僅提高了預(yù)測(cè)運(yùn)算效率,同時(shí)能有效地避免過(guò)擬合現(xiàn)象,具有較高的預(yù)測(cè)精度,并且兼有較強(qiáng)的外延性和泛化性,這些良好的性能使得降雨量預(yù)測(cè)具有較高的靈敏度。
(3)基于RF的降雨量預(yù)測(cè)模型必須基于大量的歷史實(shí)測(cè)數(shù)據(jù),不適用于小樣本數(shù)據(jù)。