朱宏宇,劉 群
(閩南師范大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,福建 漳州 363000)
福建省沿海地形較平坦,對夏季風(fēng)抬升作用相對較弱,降水較少一些,西部有武夷山脈,對夏季風(fēng)阻擋抬升作用較強(qiáng),武夷山東南側(cè)降水較多,故福建省的降雨量空間分布特征為東南沿海降水偏少,向西北內(nèi)陸方向降雨增多,降水分布不均衡[1]。利用隨機(jī)森林算法[2-4],對福建省是否降雨進(jìn)行預(yù)測研究。
使用的數(shù)據(jù)來自美國國家大氣研究中心、計(jì)算與信息系統(tǒng)實(shí)驗(yàn)室公開網(wǎng)站,其檔案中的NCEP GDAS/FN(https://rda.ucar.edu/datasets/ds094.0/#sfol-wl-/data/ds094.0?p=33)業(yè)務(wù)為全球分析及訂正數(shù)據(jù)。該數(shù)據(jù)為水平分辨率0.5×0.5的網(wǎng)格氣象數(shù)據(jù),時(shí)間頻率為每1 h從原始數(shù)據(jù)集sfluxgrbl中通過經(jīng)緯度選取整個(gè)福建省的氣象數(shù)據(jù),時(shí)間跨度為2021年6月1日24時(shí)至2022年5月31日24時(shí),為每小時(shí)觀測數(shù)據(jù),共記錄8760個(gè)數(shù)據(jù)。通過經(jīng)緯度網(wǎng)格劃分,網(wǎng)格精度水平分辨率為0.5×0.5,將福建省劃分為5大區(qū)域,分別為龍巖、南平、福州寧德、泉州莆田三明及廈門漳州。使用變量見數(shù)據(jù)集sfluxgrbl。
選取云層氣象數(shù)據(jù)具有更好的特征,對降雨的影響可解釋性更高。各區(qū)域數(shù)據(jù)量及特征數(shù)量如表1所示。
表1 各區(qū)域原始降雨數(shù)據(jù)
隨機(jī)森林(random forest)的基本組成單元是決策樹,又稱為分類回歸樹(CART)[5]。分類回歸樹的基本思想是一種二分遞歸分割方法,在計(jì)算過程中充分利用二叉樹,在一定的分割規(guī)則下將當(dāng)前樣本集分割為兩個(gè)子樣本集,令生成的決策樹的每個(gè)非葉節(jié)點(diǎn)都有兩個(gè)分枝,這個(gè)過程在子樣本集上重復(fù)進(jìn)行,直至不可再分為葉節(jié)點(diǎn)為止。由于單棵決策樹精度不高,容易出現(xiàn)過擬合的問題,故需通過聚集多個(gè)模型來提高訂正精度。隨機(jī)森林采用Bagging[6-7]方法來組合決策樹,利用Bootstrap[8]重抽樣方法從原始樣本中抽取多個(gè)樣本,對每個(gè)樣本進(jìn)行決策樹建模,組合多棵決策樹的預(yù)測,通過投票得出最終預(yù)測結(jié)果。
圖1 隨機(jī)森林示意圖Fig.1 Schematic diagram of random forest
按照經(jīng)緯度,將福建省一年之間的逐小時(shí)氣象數(shù)據(jù)劃分為5個(gè)區(qū)域,分別為南平、福州寧德、龍巖、泉州莆田三明及廈門漳州。其中,福州寧德與廈門漳州兩大區(qū)域除目標(biāo)特征label(是否降雨)之外,有54個(gè)氣象特征,南平、龍巖及泉州莆田三明三大區(qū)域除目標(biāo)特征label之外,有84個(gè)氣象特征。每個(gè)區(qū)域降雨(非降雨)數(shù)據(jù)量分布如表2所示。
表2 各區(qū)域降雨(非降雨)數(shù)據(jù)量分布
對各區(qū)域數(shù)據(jù)建立隨機(jī)森林分類模型,將5個(gè)區(qū)域的數(shù)據(jù)通過隨機(jī)抽樣分別按照7∶3的比例隨機(jī)劃分,其中70%作為訓(xùn)練數(shù)據(jù),30%作為測試數(shù)據(jù)。分別選取10%特征數(shù)、30%特征數(shù)、50%特征數(shù)、70%特征數(shù),CART決策樹從0~200變化時(shí)觀察模型的誤差變化情況[如圖2、圖3、圖4、圖5所示(南平區(qū)域)]。圖中橫坐標(biāo)表示決策樹的數(shù)量,縱坐標(biāo)表示模型的分類誤差率,其中error0實(shí)線表示非降雨(標(biāo)簽為0)的誤差率,error1短虛線表示降雨的誤差率(標(biāo)簽為1),errorOOB長虛線表示袋外數(shù)據(jù)兩種類別綜合的誤差率。觀察圖2、圖3、圖4、圖5、圖6,隨著決策樹數(shù)量的增加,袋外數(shù)據(jù)的誤差率先減小后趨于穩(wěn)定。對比各特征數(shù)的模型,選取決策樹100棵、50%特征作為最終模型。
圖2 10%特征數(shù)Fig.2 10% feature number
圖3 30%特征數(shù)Fig.3 30% feature number
圖4 50%特征數(shù)Fig.4 50% feature number
圖5 70%特征數(shù)Fig.5 70% feature number
圖6 南平區(qū)域變量重要性排序Fig.6 Importance ranking of variables in Nanping Region
隨機(jī)森林模型在擬合數(shù)據(jù)后會對數(shù)據(jù)特征有一個(gè)重要性的度量,對應(yīng)隨機(jī)森林模型認(rèn)為訓(xùn)練特征的重要程度。圖6展現(xiàn)的是隨機(jī)森林分類模型對南平區(qū)域的數(shù)據(jù)擬合后生成的變量重要性的排序,取前30個(gè),橫坐標(biāo)為平均下降基尼系數(shù)(Mean Decrease Gini),計(jì)算每個(gè)變量對分類樹每個(gè)節(jié)點(diǎn)上觀測值異質(zhì)性的影響,該值越大表示變量的重要性越大。
對5個(gè)區(qū)域輸出影響是否降雨的前30個(gè)特征,結(jié)果表明,每個(gè)區(qū)域的重要性均不同,按重要性排序(選取影響較大的特征),福州寧德區(qū)域?yàn)榈驮莆豢傇屏?、邊界層總云量、中云位總云量、大氣總云量、大氣晴空頂部向上長波通量,龍巖區(qū)域?yàn)榈乇斫邓俾?、大氣柱云功函?shù)、中云位總云量、低云位總云量、地表植物冠層地表水,泉州莆田三明區(qū)域?yàn)榈乇肀┯甑乇韽搅鳌⒌驮莆豢傇屏?、中云位總云量、地表植物冠層地表?廈門漳州區(qū)域?yàn)橹性莆豢傇屏俊⒌驮莆豢傇屏?、大氣頂部晴空向上長波通量,南平區(qū)域?yàn)榈乇碇参锕趯拥乇硭⒅性莆豢傇屏?、地表暴雨地表徑流、低云位總云量?/p>
建立隨機(jī)森林分類模型后,對比各區(qū)域誤差率在不同特征下隨著決策樹數(shù)量的變化,選取誤差率最小的參數(shù)訓(xùn)練模型,如表3所示,其中南平、龍巖兩個(gè)區(qū)域選取50%特征數(shù)用來訓(xùn)練模型,福州寧德與泉州莆田三明兩個(gè)區(qū)域選取30%特征數(shù),廈門漳州區(qū)域選取70%特征數(shù)。決策樹數(shù)量南平、福州寧德、泉州莆田三明3個(gè)區(qū)域均選取100棵,廈門漳州區(qū)域取130棵決策樹,龍巖區(qū)域選擇150棵決策樹作為最終的模型參數(shù)。
表3 各區(qū)域隨機(jī)森林分類模型參數(shù)
表4為模型在5個(gè)區(qū)域袋外數(shù)據(jù)的混淆矩陣及各類別上的錯(cuò)誤率、訓(xùn)練集袋外數(shù)據(jù)的誤差率及測試集的準(zhǔn)確率。觀察表4可知,各區(qū)域的測試集準(zhǔn)確率均達(dá)到96%以上,其中龍巖區(qū)域的OOB誤差在1%以下,測試集準(zhǔn)確率達(dá)到99.5%,訂正效果最好。
表4 各區(qū)域袋外數(shù)據(jù)混淆矩陣及準(zhǔn)確率
利用隨機(jī)森林分類算法對福建省降雨進(jìn)行預(yù)測研究,得出了以下結(jié)論:隨機(jī)森林在對是否降雨的分類預(yù)測上能夠表現(xiàn)出較好的效果,對福建省各區(qū)域是否降雨的判斷準(zhǔn)確率均達(dá)到96%以上。在是否降雨的預(yù)測上,不同區(qū)域的特征重要性程度不一,其中中云位總云量、低云位總云量、地表植物冠層地表水3個(gè)特征對各個(gè)區(qū)域是否降雨的影響較重要。