榮 新,覃衛(wèi)堅(jiān),韋文山,沈夢(mèng)燕
(1.廣西民族大學(xué)電子信息學(xué)院,南寧 530006;2.廣西氣候中心,南寧 530022)
臺(tái)風(fēng)作為一種極具破壞性的氣象災(zāi)害,威脅著沿海城市的經(jīng)濟(jì)發(fā)展,因此對(duì)臺(tái)風(fēng)的預(yù)報(bào)越來(lái)越受到重視。近年來(lái),國(guó)內(nèi)外的一些預(yù)報(bào)方法如一般線性回歸、多元線性回歸、動(dòng)態(tài)統(tǒng)計(jì)混合模式以及各種神經(jīng)網(wǎng)絡(luò)算法等在預(yù)測(cè)各海盆地的熱帶氣旋活動(dòng)中取得了巨大的成功[1-10]。本文運(yùn)用的預(yù)報(bào)方法支持向量回歸,以其較強(qiáng)的范化和有效捕捉信息能力被廣泛應(yīng)用于各個(gè)領(lǐng)域,童亮等[11]建立基于模糊信息?;椭С窒蛄炕貧w組合的模型,預(yù)測(cè)內(nèi)核船舶的耗油量,其結(jié)果要優(yōu)于BP模型和ELM模型;吳曉姣等[12]構(gòu)造支持向量回歸算法預(yù)測(cè)血壓模型,可以有效地預(yù)測(cè)人的血壓值;閆水保等[13]通過(guò)優(yōu)化支持向量的選擇策略來(lái)提高算法的預(yù)測(cè)能力,建立約束的支持向量回歸模型應(yīng)用于電站鍋爐燃燒。在處理天氣問(wèn)題方面,Nong等[14]運(yùn)用支持向量機(jī)對(duì)降水進(jìn)行“客觀預(yù)報(bào)”,其預(yù)測(cè)精確度高于基于BP網(wǎng)絡(luò)的預(yù)測(cè)模型;羅芳瓊[15]等結(jié)合線性方法和神經(jīng)網(wǎng)絡(luò)方法提取降水的線性和非線性特征,最后使用最小二乘支持向量機(jī)集成預(yù)測(cè),穩(wěn)定性較好。另外,在機(jī)器學(xué)習(xí)方法中因子的選擇對(duì)預(yù)報(bào)的精度有很大的影響,豐富和篩選合適的特征因子,是提高臺(tái)風(fēng)頻數(shù)預(yù)報(bào)精度的有效途徑之一。
特征選取是從原始集合中選擇冗余最小,并與預(yù)測(cè)對(duì)象相關(guān)性最大的特征集,隨機(jī)森林算法是一種準(zhǔn)確的集成學(xué)習(xí)算法,對(duì)大數(shù)據(jù)集具有高效的運(yùn)行和處理能力。崔兆億等[16]、林娜等[17]、林開(kāi)春等[18]利用隨機(jī)森林篩選最優(yōu)特征子集,獲取較高的數(shù)據(jù)精度;熊怡等[19]基于隨機(jī)森林算法選擇遙相關(guān)因子,提高了月徑流預(yù)報(bào)模型的泛化性能。
本文結(jié)合了隨機(jī)森林方法和逐步回歸方法來(lái)選擇特征因子,找出最優(yōu)特征集建立基于支持向量回歸的模型預(yù)測(cè)年度臺(tái)風(fēng)頻數(shù),驗(yàn)證融合隨機(jī)森林和逐步回歸方法篩選特征因子在支持向量模型預(yù)報(bào)年度臺(tái)風(fēng)頻數(shù)中的有效性和適用性。
由中國(guó)氣象局上海臺(tái)風(fēng)研究所提供1951—2020年共70年臺(tái)風(fēng)樣本數(shù)據(jù),國(guó)家氣候中心提供1951—2020年142項(xiàng)大氣環(huán)流特征量和海溫指數(shù)資料。
支持向量回歸(support vector regression,SVR)是基于統(tǒng)計(jì)學(xué)習(xí)理論的監(jiān)督學(xué)習(xí)算法,它保留了支持向量機(jī)最大邊緣算法的對(duì)偶性、稀疏性、核性和凸性等特性[20]。主要思想是利用核函數(shù)將輸入數(shù)據(jù)映射到高維空間,并對(duì)變換后的空間進(jìn)行回歸處理,利用結(jié)構(gòu)風(fēng)險(xiǎn)最小化和經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則,解決各種非線性回歸估計(jì)問(wèn)題。給定一組訓(xùn)練數(shù)據(jù)集構(gòu)造超平面,公式表示為
w表示加權(quán)矩陣,b為偏置項(xiàng)。當(dāng)且僅當(dāng)訓(xùn)練樣本落入超平面外,計(jì)算損失,將回歸風(fēng)險(xiǎn)最小化為
B為正則化常數(shù),g(xk)為第k個(gè)樣本的預(yù)測(cè)值,yk為第k個(gè)真實(shí)值,lθ為不敏感損失函數(shù):
引入松弛因子重寫式(1):
引入拉格朗日乘子,得到拉格朗日函數(shù),將式(1)代入,再利用拉格朗日函數(shù)分別對(duì)w,b,ηk,η?k求偏導(dǎo),將其代入拉格朗日函數(shù)即可得到支持向量回歸的對(duì)偶問(wèn)題,經(jīng)過(guò)進(jìn)一步求解最后得到SVR的解為
引入高斯核G(x,xk),將樣本從原始空間映射到一個(gè)更高維的特征空間,則SVR為
相關(guān)系數(shù)是研究?jī)蓚€(gè)定量變量之間線性相關(guān)程度的量,量化了兩個(gè)變量之間的標(biāo)準(zhǔn)化關(guān)系,取值范圍一般為[-1,1]。給定一組數(shù)據(jù)D=設(shè)相關(guān)系數(shù)為r,公式表示為
為了解釋某些特征共線性的可能,本文結(jié)合1951—2015年共65年的樣本,計(jì)算廣西臺(tái)風(fēng)頻數(shù)時(shí)間序列與同年或前一年各月142項(xiàng)大氣環(huán)流特征量和海溫指數(shù)的相關(guān)系數(shù),從中篩選出絕對(duì)相關(guān)系數(shù)值達(dá)到0.4的因子,共得到24個(gè)高相關(guān)因子。
逐步回歸是通過(guò)每次添加或刪除一個(gè)獨(dú)立預(yù)測(cè)因子構(gòu)建多元回歸方程。主要分為正向選擇、逆向消除和雙向消除[21]。本實(shí)驗(yàn)為了更好地優(yōu)化模型,選用雙向消除,將正向選擇和逆向消除相結(jié)合建立逐步回歸模型選擇重要因子,在未引入的因子集中尋找方差貢獻(xiàn)最大者做檢驗(yàn),在引入的因子集中對(duì)方差貢獻(xiàn)較小者做剔除檢驗(yàn)。最后輸出逐步回歸方程:
經(jīng)過(guò)計(jì)算,復(fù)相關(guān)系數(shù)為0.619,剩余標(biāo)準(zhǔn)差為1.689。方程式從24個(gè)因子中選擇x1、x8、x11作為預(yù)報(bào)因子,其中x1為前一年9月歐亞緯向環(huán)流指數(shù)(IZ,0-150E);x8為同一年1月Nino12區(qū)海溫,表示為90°W—80°W,赤道—10°S的太平洋海溫;x11為同一年2月Nino4區(qū)海溫,表示150°W—160°E,5°N—5°S的太平洋海溫。其相關(guān)系數(shù)值見(jiàn)表1。
表1 逐步回歸方法篩選的特征因子
隨機(jī)森林是一種集成和最精確的算法,融合了套袋法和隨機(jī)特征選擇法,具有高效處理高維數(shù)據(jù)和高相關(guān)數(shù)據(jù)的能力。本文使用隨機(jī)森林算法計(jì)算變量的重要性評(píng)分,確定隨機(jī)子集中的最佳特征。針對(duì)特征的重要性,在訓(xùn)練過(guò)程中有兩種方法MDI和MDA計(jì)算各特征的顯著性。本文使用MDI,也就是基尼指數(shù)(Gini)重要性計(jì)算特征重要性。工作原理如下:
定義原始數(shù)據(jù)D(xk,k∈1,2,3…n),
(1)在原始數(shù)據(jù)集D中有放回的多次隨機(jī)采樣,生成n個(gè)子集。
(2)每次重采樣時(shí),選擇一種隨機(jī)特征,不剪枝,構(gòu)造決策樹(shù)。
(3)投票選擇效果最好的決策樹(shù),計(jì)算決策樹(shù)每個(gè)特征的Gini。
公式表示特征pi在節(jié)點(diǎn)m中重要性。
(4)對(duì)每個(gè)節(jié)點(diǎn)先求出Gini,之后降序排列輸出。
本文利用隨機(jī)森林對(duì)經(jīng)過(guò)相關(guān)性分析得出的24個(gè)特征因子二次篩選,計(jì)算每個(gè)特征因子的基尼指數(shù),選出排列前三的特征因子(因子重要性值見(jiàn)表2),分別為前一年6月AMM(Atlantic Meridional Mode)風(fēng)指數(shù),前一年9月歐亞緯向環(huán)流指數(shù)(IZ,0-150E)以及同一年1月Nino12區(qū)(150°W—160°E,5°N—5°S)海溫。
表2 隨機(jī)森林方法篩選的特征因子
本文結(jié)合逐步回歸和隨機(jī)森林篩選出特征因子,分別是前一年6月AMM(Atlantic Meridional Mode)風(fēng)指數(shù),前一年9月歐亞緯向環(huán)流指數(shù)(IZ,0-150E),同一年2月Nino4區(qū)(150°W—160°E,5°N—5°S)海溫以及同一年1月Nino12區(qū)海溫(90°W—80°W,赤道—10°S)共四個(gè)特征因子,并結(jié)合1952-2015年共64年的訓(xùn)練樣本,2016—2020年共5年預(yù)測(cè),分別使用逐步回歸篩選的因子、隨機(jī)森林篩選的因子以及融合兩種方法篩選的因子,建立基于支持向量回歸的模型預(yù)測(cè)年度熱帶氣旋頻數(shù)(分別建立模型1、模型2、模型3)。上述步驟的流程圖如圖1所示。
模型選擇不敏感損失函數(shù)為squared_epsilon_insensitive,epsilon范圍設(shè)置為(0-10),懲罰函數(shù)參數(shù)范圍為(0-1),經(jīng)過(guò)調(diào)節(jié)模型參數(shù)最后確定不敏感損失函數(shù)的epsilon參數(shù)為2.64,懲罰函數(shù)C=0.3,最大迭代次數(shù)為10000次。預(yù)測(cè)結(jié)果見(jiàn)表3。模型1使用逐步回歸方法選擇的特征因子,建立支持向量回歸模型預(yù)報(bào),損失函數(shù)值loss=0.82,平均絕對(duì)誤差為14.48%,均方根誤差為0.91,絕對(duì)平均誤差為0.69;模型2使用隨機(jī)森林選擇特征因子,建立支持向量回歸模型預(yù)報(bào),損失函數(shù)值loss=0.64,均方根誤差為0.80,平均絕對(duì)誤差為14.15%,絕對(duì)平均誤差為0.65;模型3融合以上兩種方法選擇的特征,建立支持向量回歸預(yù)報(bào)模型,損失函數(shù)值loss=0.44,平均絕對(duì)誤差為9.58%,絕對(duì)平均誤差為0.42,均方根誤差為0.66。預(yù)測(cè)結(jié)果表明,基于隨機(jī)森林方法選取特征因子建模預(yù)測(cè)效果要高于逐步回歸方法,同時(shí)融合兩種方法選擇的因子,預(yù)測(cè)結(jié)果均高于以上兩種方法。
表3 基于支持向量回歸方法2016—2020年度臺(tái)風(fēng)頻數(shù)預(yù)報(bào)結(jié)果對(duì)比
本文以上海臺(tái)風(fēng)研究所提供的臺(tái)風(fēng)樣本數(shù)據(jù)和國(guó)家氣候中心提供的大氣環(huán)流特征量和海溫指數(shù)資料為基礎(chǔ),針對(duì)臺(tái)風(fēng)頻數(shù)非線性變化的特征使用支持向量方法,建立模型預(yù)測(cè)。研究使用相關(guān)分析方法,去除冗余和不相關(guān)的特征,初步篩選出絕對(duì)相關(guān)系數(shù)值達(dá)到0.4的特征因子。為提高數(shù)據(jù)的線性度,分別使用逐步回歸方法建立回歸方程和隨機(jī)森林方法進(jìn)一步提取因子的非線性特征。在相同的數(shù)據(jù)樣本下,建立基于支持向量回歸的模型,預(yù)測(cè)2016-2020年共5年的臺(tái)風(fēng)頻數(shù)。研究表明,融合兩種方法篩選因子預(yù)測(cè)結(jié)果最好,相比直接使用隨機(jī)森林方法和逐步回歸方法篩選的數(shù)據(jù)預(yù)測(cè)結(jié)果分別提高4.57%和4.90%。這主要是因?yàn)橹鸩交貧w方法在選擇因子、建立方程時(shí),不僅保證了所選變量的有效性和重要性,而且減少了冗余變量帶來(lái)的額外誤差,隨機(jī)森林具有平衡不穩(wěn)定數(shù)據(jù)集的誤差的類,可以產(chǎn)生高度精確的分類器。
目前年度的臺(tái)風(fēng)預(yù)報(bào)工作相對(duì)較少,本文提出的融合人工智能方法和線性方法選擇因子建立的機(jī)器學(xué)習(xí)模型預(yù)報(bào)臺(tái)風(fēng)頻數(shù)為年度臺(tái)風(fēng)預(yù)報(bào)提供了一種新方法和思路,這種因子選擇方法將來(lái)也可應(yīng)用于其他的領(lǐng)域。此外,本文在建立支持向量回歸模型過(guò)程中所采用的調(diào)參方法仍可以改進(jìn),進(jìn)一步提高預(yù)報(bào)的精確度。