于 洋
(遼陽市水利事務(wù)服務(wù)中心,遼寧 遼陽,111000)
近年來,由于全球性氣候變化,自然災(zāi)害頻繁發(fā)生,而旱災(zāi)是制約我國農(nóng)業(yè)發(fā)展及國民經(jīng)濟(jì)穩(wěn)步增長最為嚴(yán)重的自然災(zāi)害之一。旱災(zāi)不僅對農(nóng)業(yè)造成危險(xiǎn),嚴(yán)峻的旱災(zāi)還會對人民群眾的生命和財(cái)產(chǎn)安全構(gòu)成威脅。為降低旱災(zāi)的嚴(yán)重影響,研究旱災(zāi)預(yù)測模型,準(zhǔn)確、客觀進(jìn)行旱災(zāi)預(yù)測顯得尤為重要。
目前,由于計(jì)算機(jī)的普及和資料的豐富,各種數(shù)理統(tǒng)計(jì)方法在旱災(zāi)預(yù)測中得到廣泛應(yīng)用。段凱等[1](2021)利用中國十大一級流域50個(gè)國家氣象站構(gòu)建了逐月的日降水尺度模型,結(jié)果顯示,SVM、SDSM與LARSWG分別在中國干旱、半干旱與濕潤地區(qū)表現(xiàn)出更好的整體適用性。遲道才等[2](2012)將傳統(tǒng)的灰色理論預(yù)測模型與灰色關(guān)聯(lián)度分析相結(jié)合對遼寧省沈陽地區(qū)進(jìn)行預(yù)測,組合模型較好的擬合了預(yù)測災(zāi)變年,預(yù)測誤差小于普通灰色預(yù)測模型。羅黨等[3](2019)基于經(jīng)驗(yàn)?zāi)B(tài)分解和最小二乘支持向量機(jī)的多尺度組合預(yù)測模型預(yù)測河南省農(nóng)業(yè)旱災(zāi),取得了較好的預(yù)測精度。
綜上所述,眾多專家學(xué)者致力于旱災(zāi)特征分析及預(yù)測模型的應(yīng)用研究,并不斷推進(jìn)旱災(zāi)預(yù)測模型的預(yù)測精度,由此,本研究嘗試著將EMD(經(jīng)驗(yàn)?zāi)B(tài)分解法)和SVM(支持向量機(jī)模型)結(jié)合起來,建立基于EMD的SVM支持向量機(jī)旱災(zāi)預(yù)測模型,并將其應(yīng)用于朝陽旱災(zāi)預(yù)測中,該模型的應(yīng)用提高了預(yù)測精度,為朝陽地區(qū)旱災(zāi)預(yù)測提供技術(shù)依據(jù),為旱災(zāi)預(yù)測提供了一種切實(shí)可行的新途徑。
朝陽市位于遼寧省西部地區(qū),其降水量少而集中,因其地形相對復(fù)雜,受溫帶亞干旱氣候影響,導(dǎo)致朝陽地區(qū)降水時(shí)空分布不均勻,對該地區(qū)的農(nóng)業(yè)影響較為嚴(yán)重。因此,本研究利用朝陽地區(qū)1968~2018年共51年的降水資料作為研究對象,基于EMD的SVM旱災(zāi)預(yù)測模型對朝陽地區(qū)旱災(zāi)情況進(jìn)行預(yù)測研究,希望能準(zhǔn)確預(yù)測預(yù)報(bào)旱災(zāi)的發(fā)生,降低旱災(zāi)給當(dāng)?shù)剞r(nóng)業(yè)帶來的危害。
EMD經(jīng)驗(yàn)?zāi)B(tài)分解法可將一個(gè)復(fù)雜的非線性信號進(jìn)行平穩(wěn)性處理,其本質(zhì)是將信號中不同尺度(頻率)的波動或趨勢項(xiàng)逐級分解開來,形成一系列具有平穩(wěn)性且相互影響甚微的數(shù)據(jù)序列[4]。EMD經(jīng)驗(yàn)?zāi)B(tài)分解的信號是由幅度和相位隨時(shí)間變化的本征模態(tài)分量(Intrinsic Modal Functions,IMF)構(gòu)成。本征模態(tài)分量必須滿足以下兩個(gè)假設(shè)條件:
(1)本征模態(tài)分量(IMF)的極值點(diǎn)和過零點(diǎn)的數(shù)目必須相等或最多相差1;
(2)在任意時(shí)刻,本征模態(tài)分量(IMF)的極大值所形成的上包絡(luò)線和極小值所形成的下包絡(luò)線的平均值必須為零。
經(jīng)驗(yàn)?zāi)B(tài)分解法(EMD)具體分解步驟如下:
(1)找出數(shù)據(jù)序列X(t)所有的最大值點(diǎn)和最小值點(diǎn);
(2)運(yùn)用三次樣條插值的方法擬合出待分解數(shù)據(jù)序列的上包絡(luò)曲線、下包絡(luò)曲線,并計(jì)算上、下包絡(luò)曲線的平均值 M(t):
式中,Emax(t)為上包絡(luò)曲線值;Emin(t)下包絡(luò)曲線值。
(3)原始數(shù)據(jù)序列與上、下包絡(luò)曲線的平均值的差值為:
式中,X(t)為原始數(shù)據(jù)序列;M(t)為上、下包絡(luò)曲線的平均值。
(4)重復(fù)(2)、(3)的步驟,H(t)作為待處理信號,直到分量Hi(t)為一個(gè)IMF分量為止,并把該分量定義為ci(t);
(5)r(t)為剩余量,是原始數(shù)據(jù)序列與新獲得的IMF分量ci(t)的差值;
式中,X(t)為原始數(shù)據(jù)序列;ci(t)為新獲得的IMF分量。
(6)r(t)作為待處理信號,通過上述(1)到(5)以此類推可以獲得n分量;
進(jìn)行選定分解結(jié)束的條件是被Huang等人發(fā)明的,他們的方法是先定義SD為分量Hi-1(t)和Hi(t)的標(biāo)準(zhǔn)差,其表達(dá)式為:
式中:Hi(t)為IMF第i個(gè)分量;Hi-1(t)為IMF第i-1個(gè)分量。
那么,終止條件則設(shè)定為r(t)的SD值小于0.3或r(t)逐步的接近于一個(gè)固定的值可以結(jié)束分解。
(7)經(jīng)過上面提到的這些操作方法可將原始的數(shù)據(jù)變成很多的ci(t)和r(t),其表達(dá)式為:
式中:ci(t)為給定數(shù)據(jù)的分量;r(t)是通過原來的數(shù)據(jù)經(jīng)過處理后剩下的量。
SVM模型是Vapnik等人20世紀(jì)90年代提出的,它強(qiáng)調(diào)經(jīng)驗(yàn)風(fēng)險(xiǎn)最小值,是依據(jù)統(tǒng)計(jì)方法進(jìn)行學(xué)習(xí)的學(xué)習(xí)機(jī)。在眾多的機(jī)器學(xué)習(xí)方法中,SVM支持向量機(jī)模型具有強(qiáng)大的泛化能力,能夠得到全局最優(yōu)解,巧妙的解決了維數(shù)問題,不用過多的依賴于經(jīng)驗(yàn)確定隱含節(jié)點(diǎn),因此,本文選擇 SVM 模型進(jìn)行研究[5,6]。
(1)支持向量機(jī)模型的原理是利用線性映射,在空間中求得最優(yōu)結(jié)果,支持向量機(jī)在小樣本、非線性領(lǐng)域獲得較好的應(yīng)用,基本結(jié)構(gòu)如圖1所示。
(xi,yi)中xi為輸入樣本,yi為對應(yīng)輸出樣本,i=1,2…L,L被定義為樣本的數(shù)目。
(2)SVM支持向量機(jī)構(gòu)造學(xué)習(xí)機(jī)的方法是利用映射的方法Φ把數(shù)據(jù)輸入到更高維F中展開學(xué)習(xí),其函數(shù)表達(dá)式為:
式中:w為一個(gè)向量用來表示給定數(shù)據(jù)的權(quán)重,利用非線性的變化可以得到?(x);b為一個(gè)閥值;f(x)既是降水量時(shí)間系列函數(shù)同時(shí)又是?(x)的線性函數(shù)。
(3)為避免出現(xiàn)更多的風(fēng)險(xiǎn)來尋找f(x)的結(jié)果,使得J的值不那么大。
(4)ε為引入的不敏感損失函數(shù),其定義為:
(5)非負(fù)松弛變量ζi和可以解決在ε精度下處理數(shù)據(jù),目的是使回歸函數(shù)的解存在轉(zhuǎn)化為尋求解約束最優(yōu)化問題,公式為:
(6)采用不同類型的核函數(shù)會產(chǎn)生不同的預(yù)測結(jié)果,而徑向基函數(shù)具有一定的非線性映射能力,可以有效的反映出不同數(shù)據(jù)間的非線性關(guān)系,將其應(yīng)用到旱災(zāi)預(yù)測當(dāng)中,可以表現(xiàn)出一定的預(yù)測能力。因此,本文將構(gòu)造徑向基函數(shù)進(jìn)行學(xué)習(xí)[7,8]。
(7)由于高維空間的內(nèi)積運(yùn)算復(fù)雜,為取得更加準(zhǔn)確的轉(zhuǎn)換內(nèi)積結(jié)果可以通過引入核函數(shù)就可得到回歸方程,根據(jù)泛函理論,解決了非線性映射?(x),其回歸方程最終表達(dá)式為:
式中:ai*為拉格朗日函數(shù)的最優(yōu)解;ai為拉格朗日函數(shù)。
本文根據(jù)EMD分解步驟,利用Matlab工具,對朝陽地區(qū)51年來的降水資料進(jìn)行EMD分解,利用邊界延拓法來處理邊界問題,可得到IMF分量(c1~c5)跟一個(gè)剩余量r,如圖2。得到朝陽地區(qū)降水量EMD的分解結(jié)果可知,朝陽地區(qū)五個(gè)分量,通過每一個(gè)分量都可以看出其振幅大小及波動的頻率,這五個(gè)分量的振幅及波動情況是逐漸減小的,它表明通過EMD分解后的朝陽地區(qū)降水量時(shí)間序列降低了原有數(shù)據(jù)序列的隨機(jī)性、波動性,為下一步應(yīng)用支持向量機(jī)預(yù)測模型提供一個(gè)相對較平穩(wěn)的時(shí)間序列。為充分考量基于EMD的SVM支持向量機(jī)旱災(zāi)預(yù)測模型的優(yōu)越性,將EMD分解結(jié)果中前41年(1968~2008年)的年均降水時(shí)間序列作為SVM支持向量機(jī)學(xué)習(xí)的輸入值,得到基于EMD的SVM支持向量機(jī)模型的預(yù)測值,2009~2018年共10年的降水時(shí)間序列用于精度檢驗(yàn)。經(jīng)EMD分解后的模型明顯的降低了SVM支持向量機(jī)學(xué)習(xí)的訓(xùn)練次數(shù),優(yōu)化了學(xué)習(xí)效果。
為進(jìn)一步考量經(jīng)EMD分解后的SVM支持向量機(jī)組合模型優(yōu)于傳統(tǒng)SVM支持向量機(jī)模型,同樣將朝陽地區(qū)51年來的降水資料利用SVM支持向量機(jī)模型進(jìn)行預(yù)測對比分析。將EMD分解優(yōu)化后的SVM支持向量機(jī)旱災(zāi)預(yù)測模型的預(yù)測值與傳統(tǒng)的SVM支持向量機(jī)的預(yù)測值及實(shí)際值進(jìn)行對比,結(jié)果如圖3。
為量化不同模型的精確度差異表現(xiàn),本文選用均方誤差(MSE)、決定性系數(shù)(R2)對模型進(jìn)行精度檢驗(yàn),公式如(12)、(13)所示,精度檢驗(yàn)結(jié)果如表1所示。
表1 精度檢驗(yàn)結(jié)果
式中:R0為降水量真實(shí)值;Rm為降水量預(yù)測值;是凌河流域?qū)嶋H值的均值;N為時(shí)間序列長度。
根據(jù)表1結(jié)果,2009~2018年基于EMD的SVM支持向量機(jī)預(yù)測模型的年均降水量預(yù)測值的均方誤差(MSE)為0.000 5、決定系數(shù)(R2)為0.992;均方誤差、決定性系數(shù)均滿足朝陽地區(qū)旱災(zāi)預(yù)測的誤差精度要求,且結(jié)果優(yōu)于傳統(tǒng)SVM模型的均方誤差值和決定性系數(shù)。可見,利用EMD經(jīng)驗(yàn)?zāi)B(tài)分解法將年均降水量時(shí)間序列進(jìn)行層次化、平穩(wěn)化分解后降低了原時(shí)間序列的波動性、復(fù)雜性,基于EMD的SVM支持向量機(jī)旱災(zāi)預(yù)測模型能顯著提高預(yù)測的準(zhǔn)確度及穩(wěn)定性,比傳統(tǒng)的SVM模型表現(xiàn)出更多優(yōu)點(diǎn)。所以,基于EMD的SVM模型可以用來預(yù)測朝陽地區(qū)旱災(zāi)情況。
(1)基于EMD的SVM支持向量機(jī)模型對朝陽地區(qū)51a(1968~2018)降水進(jìn)行預(yù)測分析,經(jīng)EMD分解后的降水?dāng)?shù)據(jù)更加平穩(wěn),使降水?dāng)?shù)據(jù)較少波動,為支持向量機(jī)模型的預(yù)測工作提供一個(gè)相對較平穩(wěn)的數(shù)據(jù),降低了模型在預(yù)測中需要的信息量,而且減少了模型在訓(xùn)練過程的迭代數(shù)目,使學(xué)習(xí)任務(wù)簡化,利用不同模型的獨(dú)特優(yōu)勢,提高了預(yù)測精度,具有一定的可行性。
(2)利用基于EMD的SVM旱災(zāi)預(yù)測模型預(yù)測朝陽地區(qū)10a(2019~2028)旱災(zāi)情況,結(jié)果顯示朝陽地區(qū)10a(2019~2028)年均降水量未發(fā)現(xiàn)極端干旱情況,十年平均降水量為443.04mm,其中,2019年、2021年及2028年年均降水量相對偏少,分別為317mm,325.7mm,358.9mm?;贓MD的SVM旱災(zāi)預(yù)測模型在朝陽地區(qū)的應(yīng)用可以為當(dāng)?shù)剞r(nóng)業(yè)生產(chǎn)及人們的日常生活提供一定的參考依據(jù)。
(3)本研究只將影響朝陽地區(qū)旱災(zāi)的主要因素降水作為考慮因素,范圍較單一,在以后研究中應(yīng)進(jìn)行不斷改進(jìn)。