丁星臣,徐淑琴,路豪杰,陳際旭,劉琦峰
(東北農(nóng)業(yè)大學(xué)水利與建筑學(xué)院,哈爾濱 150030)
目前降雨量的預(yù)測(cè)方法主要有小波神經(jīng)網(wǎng)絡(luò)法[1]、序位集對(duì)分析法[2]、均生函數(shù)法[3]、時(shí)間序列法[4]、馬爾科夫預(yù)測(cè)法[5]、貝葉斯概率預(yù)報(bào)[6]、支持向量機(jī)預(yù)測(cè)法[7]等,而實(shí)際的降雨量數(shù)據(jù)并非純粹呈指數(shù)的增長(zhǎng)規(guī)律,是一種具有劇烈波動(dòng)的非線性變化規(guī)律,利用單一的預(yù)測(cè)方法雖然在預(yù)測(cè)過程中取得了較好的效果,但自身難免都存在一些不足,單獨(dú)使用預(yù)測(cè)精度不是很理想,誤差較大。比如時(shí)間序列法在數(shù)據(jù)波動(dòng)較大時(shí)預(yù)測(cè)效果較差,人工神經(jīng)網(wǎng)絡(luò)存在局部收斂、過擬合、網(wǎng)絡(luò)層數(shù)和各層神經(jīng)元數(shù)沒有統(tǒng)一的確定標(biāo)準(zhǔn)等問題[8],最小二乘支持向量機(jī)(Least Square Support Vector Machines,LS-SVM)繼承了標(biāo)準(zhǔn)SVM優(yōu)異的泛化性能和全局收斂能力,用等式約束代替了不等式約束,并用訓(xùn)練誤差的平方代替了松弛變量,從而優(yōu)化了SVM復(fù)雜的運(yùn)算過程,極大地提高了訓(xùn)練速率[9]。本文針對(duì)目前降雨量預(yù)測(cè)方法存在的不足提出時(shí)間序列最小二乘支持向量機(jī)組合模型的降雨量預(yù)測(cè)方法,該組合模型充分考慮了降雨量變化的時(shí)序動(dòng)態(tài)性、隨機(jī)性因素,提高了預(yù)測(cè)準(zhǔn)確度,為地區(qū)降雨量的精確預(yù)報(bào)提供了一種新的方法。
時(shí)間序列分析是一種暫不考慮外界因素影響對(duì)動(dòng)態(tài)數(shù)據(jù)處理的統(tǒng)計(jì)方法,對(duì)非線性數(shù)據(jù)具有較好的擬合效果,本文首先對(duì)858農(nóng)場(chǎng)1963-2004年的年降雨量采用AR模型進(jìn)行擬合,年降雨量動(dòng)態(tài)變化組成的數(shù)學(xué)表達(dá)式如下:
H(t)=h(t)+v(t)+x(t),t=1,2,3,…,n
(1)
式中:H(t)為年降雨總量,mm;h(t)為趨勢(shì)變化項(xiàng),mm;v(t)為周期變化項(xiàng),mm;x(t)為隨機(jī)干擾項(xiàng)。
1.2.1趨勢(shì)變化項(xiàng)h(t)
利用Excel2010軟件數(shù)據(jù)回歸分析功能對(duì)原始數(shù)據(jù)添加趨勢(shì)線,在α=0.05顯著水平下,挑選出適宜的趨勢(shì)項(xiàng)模型為:
h(t)=0.086x2-5.006x+602.5,r2=0.028
(2)
由于降雨量數(shù)據(jù)動(dòng)態(tài)變化趨勢(shì)呈現(xiàn)較明顯的周期性變化特點(diǎn),本文采用諧波分析法提取周期項(xiàng),取倍頻極限即最大波數(shù)p=(N/2),N為樣本數(shù),N=42,則p=21。根據(jù)最小二乘法和三角函數(shù)的正交性,可以得到序列v(t)的諧波系數(shù)估計(jì)值即傅立葉系數(shù)。在α=0.05顯著水平下,F(xiàn)α=3.05,經(jīng)過對(duì)各個(gè)諧波方差進(jìn)行檢驗(yàn),達(dá)到顯著水平的諧波只有24號(hào),其對(duì)應(yīng)的F統(tǒng)計(jì)量為3.448 5>Fα=3.05。達(dá)到顯著水平。故提取第24號(hào)諧波建立的周期序列為:
(3)
1.2.3隨機(jī)干擾項(xiàng)x(t)
假定降雨量隨機(jī)成分x(t)為平穩(wěn)的,則x(t)由平穩(wěn)相依成分D(t)和平穩(wěn)獨(dú)立隨機(jī)成分(純隨機(jī)成分)εt組成,即x(t)=ε(t)+D(t)。對(duì)于x(t)可以用線性平穩(wěn)隨機(jī)模型來表示他的統(tǒng)計(jì)特征。一般的自回歸模型表示為:
(4)
首先對(duì)序列x(t)分別進(jìn)行自相關(guān)分析和偏相關(guān)分析[10],自相關(guān)圖和偏相關(guān)圖如圖1、圖2所示。
圖1 自相關(guān)圖Fig.1 Auto correlation graph
圖2 偏相關(guān)圖Fig.2 Partial correlation graph
退行性膝關(guān)節(jié)骨性關(guān)節(jié)炎主要發(fā)生群體是老年人,隨著國(guó)家老齡化社會(huì)結(jié)構(gòu)的到來,退行性膝關(guān)節(jié)骨性關(guān)節(jié)炎的發(fā)生率逐年上升,該病癥會(huì)嚴(yán)重影響患者的生活質(zhì)量,甚至對(duì)社會(huì)生產(chǎn)力造成一定程度影響。退行性膝關(guān)節(jié)骨性關(guān)節(jié)炎會(huì)致使患者有巨大的病癥疼痛感,也是致使患者殘疾的重要原因之一。本文對(duì)退行性膝關(guān)節(jié)骨性關(guān)節(jié)炎患者的治療過程中應(yīng)用刺絡(luò)放血配合溫針灸治療,以此評(píng)價(jià)刺絡(luò)放血配合溫針灸治療的效果及對(duì)VAS評(píng)分的影響。
將以上計(jì)算得到的趨勢(shì)項(xiàng)h(t)、周期項(xiàng)v(t)及隨機(jī)性干擾項(xiàng)x(t)進(jìn)行疊加,得到降雨量非平穩(wěn)時(shí)序隨機(jī)模型。應(yīng)用該模型對(duì)858農(nóng)場(chǎng)年降雨量擬合結(jié)果見圖3。
圖3 1963-2004年降雨量擬合圖Fig.3 1963-2004 annual rainfall fitting
根據(jù)Suykens的LS-SVM理論,LS-SVR建模的主要思想是首先把一訓(xùn)練樣本集:(xi,yi),i=1,2,…,n,x∈Rd,y∈R通過非線性函數(shù)φ(x)將樣本從原輸入空間Rd映射到一個(gè)高維的特征空間Z中,在特征空間,采用如下公式來估計(jì)未知的非線性函數(shù):
y=wTφ(x)+b
(5)
式中:φ(x)為空間映射函數(shù);w為權(quán)重向量;b為偏置。
按結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理,LS-SVR取逼近誤差二次項(xiàng)和來控制模型的經(jīng)驗(yàn)風(fēng)險(xiǎn),其優(yōu)化問題被定義為:
(6)
式中:γ為正則化參數(shù)。
為求解上一優(yōu)化問題,構(gòu)造拉格朗日函數(shù)如下:
(7)
式中:αi∈R(i=1,2,…,N)為L(zhǎng)agrange因子。
根據(jù)最優(yōu)性條件,分別求L關(guān)于變量(w,b,ei,αi)的偏微分,得到:
(8)
方程組(8)中,消去變量w和ei,再利用Mercer條件:
Ωi,j=φ(xi)Tφ(xj)=K(xi,xj),i,j=1,…,N
(9)
得到矩陣形式為:
LS-SVR模型的表達(dá)式為:
(10)
式中:αi,b是方程組(8)的解[11-14]。
本文選取858農(nóng)場(chǎng)1963-2004年降雨量作為訓(xùn)練集,2005-2014年降雨量作為測(cè)試集,并對(duì)2015-2017年降雨量進(jìn)行預(yù)測(cè)。首先采用AR模型對(duì)數(shù)據(jù)進(jìn)行擬合,擬合結(jié)果見前文圖3,用實(shí)際值與擬合值計(jì)算42個(gè)時(shí)間點(diǎn)對(duì)應(yīng)的絕對(duì)誤差,見圖4。
圖4 絕對(duì)誤差分布圖Fig.4 Absolute error distribution
從圖4中可以看出,絕對(duì)誤差數(shù)值分布規(guī)律具有很強(qiáng)的周期性,可以很好地用LS-SVR進(jìn)行擬合,本文采用徑向基核函數(shù)(RBF):
RBF的參數(shù)較少,且變量限制性條件少,可以降低模型的復(fù)雜性,提高模型的訓(xùn)練速度。影響LS-SVM訓(xùn)練效果主要的參數(shù)是懲罰參數(shù)c和核函數(shù)參數(shù)g,懲罰參數(shù)和核函數(shù)參數(shù)是需要在模型訓(xùn)練前事先假定的,它決定了模型擬合的效果和預(yù)測(cè)精度,若c取值較小,則對(duì)樣本數(shù)據(jù)的離群點(diǎn)懲罰度減小,使訓(xùn)練精度變差,算法的泛化能力加強(qiáng)。若c取值較大,相對(duì)應(yīng)的wTw/2就小,算法的泛化能力將會(huì)變差。核函數(shù)參數(shù)g太小會(huì)對(duì)樣本數(shù)據(jù)造成過學(xué)習(xí)現(xiàn)象,太大會(huì)對(duì)樣本數(shù)據(jù)造成欠學(xué)習(xí)現(xiàn)象。本文采用交叉驗(yàn)證方法尋找最佳的懲罰參數(shù)c和核函數(shù)參數(shù)g,將原始數(shù)據(jù)均分成7組,將每個(gè)子集數(shù)據(jù)分別做一次驗(yàn)證集,同時(shí)其余的6組子集數(shù)據(jù)作為訓(xùn)練集,這樣會(huì)得到7個(gè)模型,用這7個(gè)模型最終的驗(yàn)證集分類準(zhǔn)確率的平均數(shù)作為此K-CV下分類器的性能指標(biāo),在每個(gè)模型最優(yōu)參數(shù)選定過程中,本文采用遺傳算法對(duì)參數(shù)進(jìn)行尋優(yōu),避免了傳統(tǒng)的網(wǎng)絡(luò)搜索法在大范圍尋優(yōu)費(fèi)時(shí)等缺點(diǎn),采用啟發(fā)式算法可以不必對(duì)網(wǎng)絡(luò)內(nèi)的所有參數(shù)點(diǎn)計(jì)算其分類準(zhǔn)確率,迅速找到全局最優(yōu)解,參數(shù)尋優(yōu)的算法流程見圖5。
圖5 GA優(yōu)化流程圖Fig.5 GA optimization flow chart
本文首先對(duì)絕對(duì)誤差做歸一化處理,最大進(jìn)化代數(shù)為500,種群最大數(shù)量為20,參數(shù)c的變化范圍設(shè)為(0,100],g的變化范圍設(shè)為[0,1 000],交配概率及變異概率設(shè)為0.9,適應(yīng)度函數(shù)采用平均相對(duì)百分比誤差MAPE函數(shù):
(11)
利用GA算法對(duì)訓(xùn)練樣本尋優(yōu)得到的參數(shù)c=4.066 6,g=56.968 6。組合模型的預(yù)測(cè)原理如圖6所示。
圖6 AR-LSSVR組合模型預(yù)測(cè)原理Fig.6 AR-LSSVR combination model prediction principle
為了說明模型預(yù)測(cè)的準(zhǔn)確性,利用組合模型對(duì)2005-2014年降雨量進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果見圖7,將預(yù)測(cè)值與實(shí)際值作比較,得到相對(duì)誤差分布圖見圖8。
圖7 2005-2014年降雨量預(yù)測(cè)值Fig.7 2005-2014 annual rainfall forecast
圖8 相對(duì)誤差分布Fig.8 Relative error distribution
由相對(duì)誤差分布圖可看出,2004和2011年的預(yù)測(cè)誤差較大,其他年份誤差較平穩(wěn),誤差較小,根據(jù)《水文情報(bào)預(yù)報(bào)規(guī)范》[15],相對(duì)誤差≤20%為合理的預(yù)測(cè)標(biāo)準(zhǔn),經(jīng)過計(jì)算,本文預(yù)測(cè)檢驗(yàn)合格率大于20%的達(dá)到了90%,達(dá)到一級(jí)預(yù)測(cè)標(biāo)準(zhǔn)。因此所建立的858農(nóng)場(chǎng)AR-LSSVR組合預(yù)測(cè)模型具有較好的可靠性和預(yù)測(cè)精度,可以對(duì)858農(nóng)場(chǎng)未來的降雨量進(jìn)行預(yù)測(cè)。現(xiàn)對(duì)858農(nóng)場(chǎng)2015-2017年的年降雨量進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果見表1。
表1 2015-2017年降雨量預(yù)測(cè)值 mm
本文針對(duì)如何提高年降雨量預(yù)測(cè)精度提出AR與LSSVR組合模型,AR模型對(duì)非平穩(wěn)降雨量數(shù)據(jù)進(jìn)行預(yù)測(cè)時(shí),由于不能消除其波動(dòng)性使預(yù)測(cè)效果不理想,LSSVR的訓(xùn)練過程等價(jià)于求解一個(gè)線性且有限制性條件的二次規(guī)劃問題,具有泛化能力強(qiáng)、不易陷入局部極小等優(yōu)點(diǎn),較好地解決了小樣本、非線性、高維數(shù)、和局部極小問題,改進(jìn)的GA優(yōu)化算法能夠在大范圍快速準(zhǔn)確地尋找最佳的核函數(shù)參數(shù)g和懲罰參數(shù)c,提高了LSSVR對(duì)樣本的訓(xùn)練效果以及預(yù)測(cè)精度,為降雨量預(yù)測(cè)提供了一種快速的參數(shù)尋優(yōu)方法。
雖然該模型達(dá)到了較高的預(yù)測(cè)精度,但還可以做更深入的研究:①影響降雨量的因素很多,本文由于數(shù)據(jù)的限制,僅采用單一年降雨量數(shù)據(jù)進(jìn)行預(yù)測(cè)還不夠全面,如果能同時(shí)考慮日照時(shí)間、空氣濕度、大氣中水氣含量、地面蒸發(fā)量、風(fēng)速等因素,能夠提高降雨量的預(yù)測(cè)精度。②支持向量是SVM的訓(xùn)練結(jié)果,在SVM預(yù)測(cè)過程中起決定作用的是支持向量,而本文LSSVR訓(xùn)練過程中,將所有訓(xùn)練樣本作為支持向量,降低了支持向量機(jī)的稀疏性,如能提出一種新的改進(jìn)算法,可以提高LSSVR訓(xùn)練的準(zhǔn)確性和運(yùn)算速率。
[1] 侯澤宇,盧文喜,陳社明. 基于小波神經(jīng)網(wǎng)絡(luò)方法的降水量預(yù)測(cè)研究[J]. 節(jié)水灌溉,2013,(3):31-34.
[2] 劉銀迪,張小壯,張澤中. 序位集對(duì)分析在遼河流域年降雨預(yù)測(cè)中的應(yīng)用[J]. 安徽農(nóng)業(yè)科學(xué),2011,28:17 534-17 536.
[3] 竇浩洋,鄧 航,孫小明,等. 基于均生函數(shù)-最優(yōu)子集回歸預(yù)測(cè)模型的青藏高原氣溫和降水短期預(yù)測(cè)[J]. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,(4):643-648.
[4] 劉 楊,徐淑琴,董麗麗,等. 時(shí)間序列模型在查哈陽農(nóng)場(chǎng)降雨量預(yù)測(cè)中應(yīng)用[J]. 黑龍江水利科技,2012,(2):5-7.
[5] 杜 川,梁秀娟,王中凱,等. 改進(jìn)灰色-馬爾科夫模型在年降水量預(yù)測(cè)中的應(yīng)用研究[J]. 節(jié)水灌溉,2014,(6):32-36.
[6] 邢貞相. 確定性水文模型的貝葉斯概率預(yù)報(bào)方法研究[D]. 南京:河海大學(xué),2007.
[7] 歐陽琦,盧文喜,董海彪,等. 基于支持向量機(jī)回歸分析的降水量預(yù)測(cè)研究[J]. 節(jié)水灌溉,2014,(9):38-41.
[8] 白玉潔. 改進(jìn)時(shí)間序列模型在降雨量預(yù)測(cè)中的應(yīng)用研究[J]. 計(jì)算機(jī)仿真,2011,(10):141-145.
[9] 李麗娟. 最小二乘支持向量機(jī)建模及預(yù)測(cè)控制算法研究[D]. 杭州:浙江大學(xué),2008.
[10] 付 強(qiáng).數(shù)據(jù)處理方法及其農(nóng)業(yè)應(yīng)用[M]. 北京:科學(xué)出版社, 2006:430-433.
[11] 曾 杰,張 華. 基于最小二乘支持向量機(jī)的風(fēng)速預(yù)測(cè)模型[J]. 電網(wǎng)技術(shù),2009,(18):144-147.
[12] 姜靜清. 最小二乘支持向量機(jī)算法及應(yīng)用研究[D]. 長(zhǎng)春:吉林大學(xué),2007.
[13] 袁從貴. 最小二乘支持向量回歸及其在水質(zhì)預(yù)測(cè)中的應(yīng)用研究[D]. 廣州:廣東工業(yè)大學(xué),2012.
[14] 陳其松. 智能優(yōu)化支持向量機(jī)預(yù)測(cè)算法及應(yīng)用研究[D]. 貴陽:貴州大學(xué),2009.
[15] GB/T 22482-2008,水文情報(bào)預(yù)報(bào)規(guī)范[S].