史逸民 史達(dá)偉 郝玲 張銀意 王鵬
摘要 夏季降水日數(shù)的準(zhǔn)確預(yù)測(cè),對(duì)于保障農(nóng)業(yè)、運(yùn)輸業(yè)、電力等行業(yè)的有序進(jìn)行具有重要現(xiàn)實(shí)意義.利用連云港市氣象局提供的1951—2012年夏季降水?dāng)?shù)據(jù)對(duì)連云港地區(qū)的降水日數(shù)特征進(jìn)行分析,難以直觀地發(fā)現(xiàn)夏季降水日數(shù)隨時(shí)間分布的規(guī)律.為進(jìn)一步探索降水日數(shù)的發(fā)生規(guī)律,結(jié)合國(guó)家氣候中心網(wǎng)站提供的多種氣候因子數(shù)據(jù),基于CART決策樹(shù)算法構(gòu)建了連云港地區(qū)夏季降水日數(shù)是否偏多與是否偏少的分類(lèi)與預(yù)測(cè)模型.該模型可以發(fā)現(xiàn)在多種氣候因子不同條件下,夏季降水日數(shù)是否偏多(偏少)的規(guī)律,模型的分類(lèi)與預(yù)測(cè)都具有良好的效果.利用52 a的數(shù)據(jù)樣本訓(xùn)練模型,模型的訓(xùn)練準(zhǔn)確率為90.38%(86.54%),再用剩余10 a數(shù)據(jù)樣本檢驗(yàn)?zāi)P?,測(cè)試準(zhǔn)確率為80%(80%),并且得到規(guī)則集,方便氣象業(yè)務(wù)人員使用以及決策服務(wù)人員參考.同時(shí),為降水日數(shù)的預(yù)測(cè)提供了數(shù)據(jù)挖掘的新思路.
關(guān)鍵詞 數(shù)據(jù)挖掘;CART算法;降水日數(shù)
中圖分類(lèi)號(hào)? TP242
文獻(xiàn)標(biāo)志碼? A
0 引言
夏季降水的過(guò)多或者過(guò)少對(duì)人類(lèi)社會(huì)的發(fā)展而言都是一種氣候?yàn)?zāi)害,而降水日數(shù)的多寡,往往對(duì)農(nóng)業(yè)病蟲(chóng)害防治、電力部門(mén)輸電線路的安全管理以及航空運(yùn)輸?shù)陌踩鸾涤兄匾挠绊?汛期降水的短期氣候預(yù)測(cè)不論是基于統(tǒng)計(jì)還是模式的準(zhǔn)確率仍維持在60%到70%左右[1] .對(duì)于降水日數(shù)的研究,往往停留在氣候特征的分析上,并且,對(duì)降水日數(shù)的預(yù)測(cè)手段方法較少.以往的研究成果主要還是采用模式預(yù)測(cè)[2] 以及統(tǒng)計(jì)預(yù)測(cè)[3] 方法,而模式預(yù)測(cè)往往具有參數(shù)復(fù)雜、不易獲取等特點(diǎn),統(tǒng)計(jì)方法也存在準(zhǔn)確率有限等不足.
我國(guó)華東地區(qū)的夏季降水,往往是由于中小尺度的對(duì)流系統(tǒng)造成的,這些尺度較小的系統(tǒng)常常受到大尺度的環(huán)流背景場(chǎng)的調(diào)制,諸如東亞夏季風(fēng)、副熱帶高壓以及其他的一些氣候系統(tǒng)[4] .高輝等[5] 研究發(fā)現(xiàn),當(dāng)前期ENSO為暖(冷)位相狀態(tài)時(shí),則長(zhǎng)江流域夏季降水偏多(偏少).西太平洋副熱帶高壓的強(qiáng)度和位置變化是華東地區(qū)旱澇的最主要的影響因素.閔錦忠等[6] 發(fā)現(xiàn)南海、孟加拉灣和阿拉伯海春季海溫與夏季長(zhǎng)江流域降水呈正相關(guān);黃嘉佑等[7] 運(yùn)用奇異值分解方法發(fā)現(xiàn)北半球極渦指數(shù)和北半球副高指數(shù)對(duì)我國(guó)夏季降水有一定影響,并討論了它們之間的具體關(guān)系;龔道溢[8] 指出北極濤動(dòng)(AO)指數(shù)與梅雨量呈負(fù)相關(guān);李自強(qiáng)等[9] 研究發(fā)現(xiàn)了QBO東西位相與華東地區(qū)夏季降水的顯著關(guān)系.此外南方濤動(dòng)[10] 、印緬槽[11] 、北太平洋海溫[12] 、極渦[13] 等也影響著夏季降水的變化.
數(shù)據(jù)挖掘技術(shù)是一種基于機(jī)器學(xué)習(xí)的專家系統(tǒng),其本質(zhì)是從數(shù)據(jù)中發(fā)現(xiàn)對(duì)人們有用的知識(shí)和規(guī)律,其基本任務(wù)是對(duì)事物的預(yù)測(cè)和描述[14] .決策樹(shù)算法是數(shù)據(jù)挖掘中較為常用的分類(lèi)與預(yù)測(cè)算法,相比于神經(jīng)網(wǎng)絡(luò)等算法的黑箱式操作及收斂速度慢等特點(diǎn),決策樹(shù)算法可以從數(shù)據(jù)中挖掘出決策規(guī)則集,并且計(jì)算的復(fù)雜度較低,具有較快的收斂速度.目前,決策樹(shù)算法在氣象上的應(yīng)用越來(lái)越廣泛.史達(dá)偉等[15] 利用決策樹(shù)算法對(duì)道路結(jié)冰災(zāi)害建立了較為準(zhǔn)確的分類(lèi)與預(yù)測(cè)模型;Zhang等[16-17] 利用決策樹(shù)算法對(duì)臺(tái)風(fēng)路徑是否轉(zhuǎn)向與臺(tái)風(fēng)路徑是否登陸建立了較為準(zhǔn)確的分類(lèi)與預(yù)測(cè)模型.本文將以連云港地區(qū)為例,利用數(shù)據(jù)挖掘技術(shù)中的經(jīng)典的分類(lèi)與預(yù)測(cè)算法——CART算法,? ?對(duì)連云港地區(qū)的夏季降水日數(shù)進(jìn)行分類(lèi)和預(yù)測(cè).
本文首先對(duì)連云港地區(qū)的夏季降水特征進(jìn)行分析,接著,將連云港地區(qū)夏季降水日數(shù)是否偏多、是否偏少抽象為兩個(gè)二元分類(lèi)問(wèn)題,以國(guó)家氣候中心及NOAA提供的多個(gè)氣候因子作為模型的輸入變量,利用CART決策樹(shù)算法分析因子與降水日數(shù)之間的關(guān)系,并運(yùn)用算法篩選后的因子建立了連云港地區(qū)夏季降水日數(shù)預(yù)測(cè)模型,最后對(duì)模型的預(yù)測(cè)效果進(jìn)行檢驗(yàn).
1 資料與方法
1.1 資料來(lái)源
本文采用連云港市氣象局提供的1951—2012年日降水?dāng)?shù)據(jù),將缺測(cè)值進(jìn)行了剔除,對(duì)有降水的日數(shù)標(biāo)記為一個(gè)降水日數(shù).同時(shí),本文采用了國(guó)家氣候中心及NOAA網(wǎng)站下載的多種氣候因子數(shù)據(jù)諸如ENSO指數(shù)、副高指數(shù),具體如表1所示,求得其6、7、8三個(gè)月的平均值作為夏季值.
1.2 CART算法
CART算法又稱分類(lèi)與回歸樹(shù)算法,是數(shù)據(jù)挖掘中常用的分類(lèi)預(yù)測(cè)算法,它是一種二叉樹(shù)非參數(shù)的統(tǒng)計(jì)方法,適用于離散型變量和連續(xù)型變量的分類(lèi).若目標(biāo)變量是離散型,那么CART算法生成分類(lèi)樹(shù);若目標(biāo)變量是連續(xù)型,則CART算法生成回歸樹(shù).本文運(yùn)用的是CART的分類(lèi)樹(shù)算法.在分類(lèi)樹(shù)的構(gòu)建中CART選擇最小Gini系數(shù)的屬性作為測(cè)試屬性,Gini系數(shù)越小,樣本的異質(zhì)性越小,分割效果越好.
CART算法首先將數(shù)據(jù)按升序排序,從小到大以相鄰數(shù)值的中間值將樣本分為兩組,然后通過(guò)Gini系數(shù)計(jì)算兩組樣本中輸出變量取值異質(zhì)性:
G(t)=1-∑ K j=1 p 2(j t), (1)
其中, t為節(jié)點(diǎn),K為輸出變量的類(lèi)別數(shù),p(j|t)為節(jié)點(diǎn)t樣本輸出變量取j 的概率.當(dāng)節(jié)點(diǎn)樣本為同一類(lèi)別值時(shí),輸出變量取值的差異性最小,Gini系數(shù)為0,而當(dāng)各類(lèi)別概率相等時(shí),輸出變量取值差異性最大,Gini系數(shù)也最大,為1-1/ k .
CART算法利用Gini系數(shù)的減少量描述異質(zhì)性的下降:
Δ G(t)=G(t)- N ?r ?N G(t ?r )- N ?l ?N G(t ?l ), (2)
其中, G(t)和N分別為分組前輸出變量的 Gini 系數(shù)和樣本量,G(t ?r )、N ?r 和G(t ?l )、N ?l? 分別為分組后右子樹(shù)的Gini系數(shù)、樣本量及左子樹(shù)的Gini系數(shù)、樣本量.
按照這種方式,反復(fù)計(jì)算便可得到異質(zhì)性下降最大的分割點(diǎn),即使Δ G(t) 達(dá)到最大的組限為當(dāng)前最佳分割點(diǎn).
2 連云港地區(qū)降水日數(shù)時(shí)間特征分析
連云港市位于江蘇省東北部的黃海之濱,屬于雨熱同季的溫帶季風(fēng)性氣候,因此,對(duì)其夏季降水的研究具有較高的現(xiàn)實(shí)意義.在夏季,年均降水日數(shù)35.22 d,最多的夏季降水日數(shù)出現(xiàn)在1956年,有48 d ,最少的夏季降水日數(shù)出現(xiàn)在2002年,夏季降水日數(shù)僅有18 d.
為了研究連云港地區(qū)夏季降水日數(shù)與降水量的年際變化特征,本文繪制了降水量與降水日數(shù)隨年份變化的折線圖,如圖1所示.可以看出,連云港地區(qū)夏季的降水日數(shù)年際分布較為復(fù)雜,難以直觀地發(fā)現(xiàn)其變化規(guī)律,因此,從夏季降水日數(shù)年變化的角度建立預(yù)測(cè)模型具有重要意義.
從連云港地區(qū)夏季降水日數(shù)的月分布狀況而言(圖2),最大值出現(xiàn)在7月,最小值出現(xiàn)在6月.降水日數(shù)的月分布規(guī)律較為簡(jiǎn)單,容易掌握.
3? 基于CART決策樹(shù)的降雨日數(shù)分類(lèi)與預(yù)測(cè)模型
連云港地區(qū)的夏季降水多是由中小尺度天氣系統(tǒng)的影響造成的.前文已經(jīng)闡明,中小尺度引發(fā)的降水現(xiàn)象是受到大尺度環(huán)流系統(tǒng)調(diào)制的,連云港地區(qū)的夏季降水也不會(huì)例外.因此本文致力于挖掘連云港地區(qū)夏季降水日數(shù)與大尺度環(huán)流系統(tǒng)氣候因子間的關(guān)系.如表1所示,連云港地區(qū)夏季降水日數(shù)與Nio4及歐亞經(jīng)向環(huán)流指數(shù)通過(guò)了顯著性檢驗(yàn).從單一的氣候因子角度也難以準(zhǔn)確發(fā)現(xiàn)連云港地區(qū)夏季降水日數(shù)的變化規(guī)律,那么,能否建立連云港地區(qū)夏季降水日數(shù)與多種氣候因子間的關(guān)系呢?
為了進(jìn)一步探索連云港地區(qū)夏季降水日數(shù)與本文中所采用的氣候因子之間的關(guān)系,本文利用CART算法,將連云港地區(qū)夏季降水日數(shù)作為目標(biāo)變量與各個(gè)夏季的氣候因子進(jìn)行了聯(lián)合建模.
3.1 模型的構(gòu)建
首先,本文將連云港地區(qū)夏季降雨日數(shù)偏多(少)的標(biāo)準(zhǔn)定為夏季降水日數(shù)平均值加上正(負(fù))0.5倍的標(biāo)準(zhǔn)差.即當(dāng)連云港地區(qū)某年夏季降水日數(shù)≥ 38.16(≤32.3)時(shí),可以認(rèn)為連云港地區(qū)夏季降水日數(shù)偏多(少).接著,利用CART算法將1951—2012年連云港地區(qū)夏季降水日數(shù)樣本中隨機(jī)產(chǎn)生52 a的樣本作為模型的訓(xùn)練集,剩余10 a的樣本作為模型的測(cè)試集,用來(lái)驗(yàn)證模型的有效性和魯棒性.每年夏季的多種氣候信號(hào)指數(shù)作為模型的學(xué)習(xí)屬性,來(lái)確定目標(biāo)變量夏季降水日數(shù)“是否偏多”,當(dāng)某年連云港地區(qū)夏季降水日數(shù)≥38.16(<38.16)時(shí)為“是”(“否”),即連云港地區(qū)夏季降水日數(shù)偏多(偏少).在總共62 a的夏季降水日數(shù)數(shù)據(jù)中,降水日數(shù)偏多年樣本為17個(gè),降水日數(shù)偏少年樣本為19個(gè),剩余樣本為正常年份.通過(guò)多次的隨機(jī)數(shù)據(jù)建立模型,選取了測(cè)試集準(zhǔn)確率最高的決策樹(shù)作為最優(yōu)決策樹(shù)模型.
經(jīng)過(guò)CART算法的篩選,參與連云港地區(qū)夏季降水日數(shù)是否偏多模型的屬性為太平洋區(qū)渦強(qiáng)度指數(shù)、北半球副高北界指數(shù)、亞歐經(jīng)向環(huán)流指數(shù)以及QBO指數(shù),最終得到?jīng)Q策樹(shù),如圖3所示.每條從根節(jié)點(diǎn)到葉節(jié)點(diǎn)的路徑代表一條預(yù)測(cè)連云港地區(qū)夏季降水日數(shù)是否偏多的規(guī)則. 以一個(gè)葉節(jié)點(diǎn)“0(23/1)”為例,括號(hào)前的0代表夏季降水日數(shù)偏少,數(shù)字23和1是這個(gè)葉節(jié)點(diǎn)中的樣本總量為23,其中有23-1= 22 個(gè)正確分類(lèi)的連云港地區(qū)夏季降水日數(shù)的樣本和1個(gè)沒(méi)有正確分類(lèi)的路徑頻數(shù)的樣本.模型的訓(xùn)練(分類(lèi))準(zhǔn)確率為90.38%.運(yùn)用同樣的方式,本文又建立了連云港地區(qū)夏季降水是否偏少的決策樹(shù)模型,如圖4所示.模型的訓(xùn)練(分類(lèi))準(zhǔn)確率為86.54%.
3.2 模型的驗(yàn)證及決策樹(shù)規(guī)則集
將測(cè)試集代入決策樹(shù)模型進(jìn)行驗(yàn)證,結(jié)果顯示,對(duì)于夏季降水日數(shù)是否偏多驗(yàn)證(預(yù)測(cè))準(zhǔn)確率為80%;對(duì)于夏季降水日數(shù)是否偏少驗(yàn)證(預(yù)測(cè))準(zhǔn)確率同樣為80%.通常為了防止模型的過(guò)度擬合會(huì)對(duì)決策樹(shù)采取 剪枝策略,由于參與本次實(shí)驗(yàn)計(jì)算的樣? 本較少,采取剪枝與否對(duì)于實(shí)驗(yàn)結(jié)果的影響很小.通過(guò)對(duì)比發(fā)現(xiàn)本次實(shí)驗(yàn)在沒(méi)有采取剪枝策略的情況下模型測(cè)試的準(zhǔn)確率達(dá)到最高.
通過(guò)對(duì)決策樹(shù)根節(jié)點(diǎn)到葉節(jié)點(diǎn)的描述,可以總結(jié)出預(yù)測(cè)連云港地區(qū)夏季降水日數(shù)是否偏多與是否偏少的規(guī)則集,結(jié)果分別如表2與表3所示.
從以上的實(shí)驗(yàn)結(jié)果可以看出,CART算法對(duì)于連云港地區(qū)夏季降水日數(shù)的異常預(yù)測(cè)有較好的效果,并且可以得出簡(jiǎn)約的預(yù)測(cè)規(guī)則集,非??茖W(xué)易用.CART算法是數(shù)據(jù)挖掘中一種經(jīng)典高效的決策樹(shù)算法,利用CART對(duì)夏季降水日數(shù)進(jìn)行研究,也為非線性的分類(lèi)與預(yù)測(cè)夏季降水日數(shù)提供了一種新的研究思路.
4 總結(jié)與討論
本文首先分析了連云港地區(qū)夏季降水日數(shù)的特征,發(fā)現(xiàn)其年際變化規(guī)律較為復(fù)雜,并且發(fā)展趨勢(shì)與降水量的發(fā)展趨勢(shì)存在著不一致.為了進(jìn)一步探索夏季降水日數(shù)的規(guī)律,本文利用CART算法揭示了連云港地區(qū)夏季降水日數(shù)與各個(gè)夏季氣候因子間的關(guān)系,并得到了規(guī)則集,為從事短期氣候預(yù)測(cè)的氣象工作人員提供了可以參考的新思路.本文得到了以下結(jié)論:1)連云港地區(qū)夏季降水日數(shù)年際分布特征復(fù)雜,難以直觀地發(fā)現(xiàn)準(zhǔn)確的規(guī)律,降水日數(shù)有著下降的發(fā)展趨勢(shì);2)連云港地區(qū)的夏季降水日數(shù)僅與Nio4與歐亞經(jīng)向環(huán)流指數(shù)取得了顯著的相關(guān);3)通過(guò)隨機(jī)抽取將62 a的數(shù)據(jù)分割為建立模型的訓(xùn)練集樣本(52 a)與驗(yàn)證模型可靠性的測(cè)試集樣本(剩余的10 a),通過(guò)CART算法對(duì)連云港地區(qū)的夏季降水日數(shù)和各個(gè)氣候因子聯(lián)合建立了降水日數(shù)是否偏多與是否偏少的分類(lèi)與預(yù)測(cè)模型,降水日數(shù)是否偏多的模型訓(xùn)練準(zhǔn)確率為90.38%,是否偏少的模型訓(xùn)練準(zhǔn)確率為86.54%,兩個(gè)模型的驗(yàn)證準(zhǔn)確率均為80%,達(dá)到了較好的分類(lèi)與預(yù)測(cè)效果.
隨著大數(shù)據(jù)時(shí)代的到來(lái),氣象數(shù)據(jù)也越來(lái)越多元和海量,數(shù)據(jù)挖掘技術(shù)作為這個(gè)時(shí)代的“破冰船”,在氣象領(lǐng)域的應(yīng)用也變得越來(lái)越廣泛.相信隨著氣象學(xué)理論的不斷發(fā)展,氣象數(shù)據(jù)的不斷豐富和積累,數(shù)據(jù)挖掘技術(shù)將會(huì)在氣象領(lǐng)域發(fā)揮出更大的作用.
參考文獻(xiàn)
References
[ 1 ]?? 范 可,王會(huì)軍,Choi Y J.一個(gè)長(zhǎng)江中下游夏季降水的物理統(tǒng)計(jì)預(yù)測(cè)模型[J].科學(xué)通報(bào),2007,52(24):2900-2905
FAN Ke,WANG Huijun,CHOI Y J.A physically-based statistical model to forecast summer precipitation in middle and lower reaches of Yangtze River[J].Chinese Science Bulletin,2007,52(24):2900-2905
[ 2 ]? 劉綠柳,孫林海,廖要明,等.基于DERF的SD方法預(yù)測(cè)月降水和極端降水日數(shù)[J].應(yīng)用氣象學(xué)報(bào),2011,22(1):77-85
LIU Lüliu,SUN Linhai,LIAO Yaoming,et al.Prediction of monthly precipitation and number of extreme precipitation days with statistical downscaling methods based on the monthly dynamical climate model[J].Journal of Applied Meteorological Science,2011,22(1):77-85
[ 3 ]? 陸文秀,劉丙軍,陳俊凡,等.近50年來(lái)珠江流域降水變化趨勢(shì)分析[J].自然資源學(xué)報(bào),2014,29(1):80-90
LU Wenxiu,LIU Bingjun,CHEN Junfan,et al.Variation trend of precipitation in the Pearl River Basin in recent 50 years[J].Journal of Natural Resources,2014,29(1):80-90
[ 4 ]? 周秀驥.大氣隨機(jī)動(dòng)力學(xué)與可預(yù)報(bào)性[J].氣象學(xué)報(bào),2005,63(5):806-811
ZHOU Xiuji.Atmospheric stochastic dynamics and predictability[J].Acta Meteorologica Sinica,2005,63(5):806-811
[ 5 ]? 高輝,王永光.ENSO對(duì)中國(guó)夏季降水可預(yù)測(cè)性變化的研究[J].氣象學(xué)報(bào),2007,65(1):131-137
GAO Hui,WANG Yongguang.On the weakening relationship between summer precipitation in China and ENSO[J].Acta Meteorologica Sinica,2007,65(1):131-137
[ 6 ]? 閔錦忠,孫照渤,曾剛.南海和印度洋海溫異常對(duì)東亞大氣環(huán)流及降水的影響[J].南京氣象學(xué)院學(xué)報(bào),2000,23(4):542-548
MIN Jinzhong,SUN Zhaobo,ZENG Gang.Effect of South China Sea and Indian Ocean SSTA on East Asian circulation and precipitation[J].Journal of Nanjing Institute of Meteorology,2000,23(4):542-548
[ 7 ]? 黃嘉佑,劉舸,趙昕奕.副高、極渦因子對(duì)我國(guó)夏季降水的影響[J].大氣科學(xué),2004,28(4):517-526.
HUANG Jiayou,LIU Ge,ZHAO Xinyi.The influence of subtropical high indexes and polar vortex indexes on the summertime precipitation in China[J].Chinese Journal of Atmospheric Sciences,2004,28(4):517-526
[ 8 ]? 龔道溢.北極濤動(dòng)對(duì)東亞夏季降水的預(yù)測(cè)意義[J].氣象,2003,29(6):3-6
GONG Daoyi.Arctic oscillationcs significance for prediction of East Asian summer monsoon rainfall[J].Meteorological Monthly,2003,29(6):3-6
[ 9 ]? 李自強(qiáng),馬生春.平流層冬季50 hPa QBO與長(zhǎng)江中下游地區(qū)夏季旱澇關(guān)系的階段性[J].氣象,1992,18(1):3-7
LI Ziqiang,MA Shengchun.The stage character of relationship between 50 hPa QBO in winter and summer drought/flood trender in the lower and middle reaches of Changjiang River[J].Meteorological Monthly,1992,18(1):3-7
[10]? 趙振國(guó),廖荃蓀.南方濤動(dòng)與我國(guó)夏季降水[J].氣象,1991,17(6):33-37
ZHAO Zhenguo,LIAO Quansun.Southern oscillation and summer precipitation in China[J].Meteorological Monthly,1991,17(6):33-37
[11]? 時(shí)珍玲.九十年代以來(lái)江淮流域夏季典型旱澇成因分析[J].氣象,1996,22(9):35-38
SHI Zhenling.The cause analysis of the typical drought and flood years in the area between the Yangtze River and Huaihe River in summer since 1990[J].Meteorological Monthly,1996,22(9):35-38
[12]? 張慶云,呂俊梅,楊蓮梅,等.夏季中國(guó)降水型的年代際變化與大氣內(nèi)部動(dòng)力過(guò)程及外強(qiáng)迫因子關(guān)系[J].大氣科學(xué),2007,31(6):1290-1300
ZHANG Qingyun,L Junmei,YANG Lianmei,et al.The interdecadal variation of precipitation pattern over China during summer and its relationship with the atmospheric internal dynamic processes and extra-forcing factors[J].Chinese Journal of Atmospheric Sciences,2007,31(6):1290-1300
[13]? 王遵婭,丁一匯.夏季亞洲極渦的長(zhǎng)期變化對(duì)東亞環(huán)流和水汽收支的影響[J].地球物理學(xué)報(bào),2009,52(1):20-29
WANG Zunya,DING Yihui.Impacts of the long-term change of the summer Asian polar vortex on the circulation system and thewater vapor transport in East Asia[J].Chinese J Geophys,2009,52(1):20-29
[14] Han J,Kamber M.Data mining:Concepts and techniques[M].San Fransisco:Morgan Kaufmann,2006
[15]? 史達(dá)偉,耿煥同,吉辰,等.基于CART決策樹(shù)算法的道路結(jié)冰預(yù)報(bào)模型構(gòu)建及應(yīng)用[J].氣象科學(xué),2015,35(2):204-209
SHI Dawei,GENG Huantong,JI Chen,et al.Construction and application of road icing forecast model based on CART decision tree algorithm[J].Journal of the Meteorological Sciences,2015,35(2):204-209
[16] Zhang W,Leung Y,Chan J C L,et al.The analysis of tropical cyclone tracks in the Western North Pacific through data mining.part Ⅰ:tropical cyclone recurvature[J].Journal of Applied Meteorology and Climatology,2013,52:1394-1416
[17] Zhang W,Leung Y,Chan J C L,et al.The analysis of tropical cyclone tracks in the Western North Pacific through data mining.part Ⅱ:tropical cyclone landfall[J].Journal of Applied Meteorology and Climatology,2013,52:1417-1432
Model prediction of regional summer precipitation days based on CART algorithm
SHI Yimin 1 SHI Dawei 1 HAO Ling 1 ZHANG Yinyi 1 WANG Peng 1
1 Lianyungang Meteorological Bureau of Jiangsu Province,Lianyungang 222006
Abstract? The accurate prediction of the number of summer precipitation days has important practical significance for industries such as agriculture,transportation,and electric power supply.The data of summer precipitation during 1951-2012 provided by Lianyungang Meteorological Bureau were used to analyze the interannual characteristics of summer precipitation days,yet no obvious temporal variation trends were found.Thus a model to predict the regularity of precipitation days is established based on analysis of climate factors listed by National Climate Center website,and CART decision tree algorithm.Year with positive/negative anomalies of summer precipitation days in Lianyungang is defined by various climatic factors,which is trained by sample data of 52 years with training accuracy of 90.38%/86.54%.The remaining data of 10 years are used to test the model,resulting in accuracy of 80% for positive/negative anomalies of summer precipitation days prediction.The rule set is provided for meteorological business and decision-making.
Key words? data mining;CART algorithm;number of precipitation days
南京信息工程大學(xué)學(xué)報(bào)2018年6期