張書新,馬旭東,陳慧穎,王 眾
(長(zhǎng)春工業(yè)大學(xué) 基礎(chǔ)科學(xué)學(xué)院,吉林 長(zhǎng)春 130012)
?
加權(quán)多核支持向量回歸機(jī)在水質(zhì)預(yù)測(cè)中的應(yīng)用
張書新,馬旭東,陳慧穎,王 眾
(長(zhǎng)春工業(yè)大學(xué) 基礎(chǔ)科學(xué)學(xué)院,吉林 長(zhǎng)春 130012)
文章提出了一種加權(quán)組合多核支持向量機(jī)的水質(zhì)預(yù)測(cè)方法.在支持向量回歸機(jī)中,核函數(shù)及其參數(shù)選擇與樣本復(fù)雜情況密切相關(guān),采用單一核函數(shù)的支持向量回歸機(jī)方法在水質(zhì)預(yù)測(cè)中難以達(dá)到很好的效果.首先提出的多個(gè)不同類型核函數(shù)加權(quán)組合成的多核支持向量回歸機(jī),避免了核函數(shù)選擇的盲目性和局部最優(yōu)等非線性優(yōu)化問(wèn)題,其次針對(duì)各樣本重要程度的差異,對(duì)于每一個(gè)樣本的懲罰系數(shù)和誤差限都給予不同的權(quán)重,即利用加權(quán)系數(shù)的多核支持向量回歸機(jī)來(lái)控制樣本異方差對(duì)回歸預(yù)測(cè)結(jié)果的干擾制約.最后以遼河流域研究區(qū)內(nèi)傍河型地下水水質(zhì)信息數(shù)據(jù)作為研究對(duì)象,運(yùn)用多核加權(quán)支持向量機(jī)的理論和算法建立了水質(zhì)預(yù)測(cè)模型.實(shí)例表明,該方法對(duì)水質(zhì)預(yù)測(cè)有較好的結(jié)果.
多核學(xué)習(xí);加權(quán)支持向量機(jī);預(yù)測(cè)模型
水是地球上的所有生物得以生存的基本物質(zhì)條件之一,水資源是維持地球生態(tài)物質(zhì)環(huán)境可持續(xù)發(fā)展的關(guān)鍵所在.因此準(zhǔn)確地預(yù)測(cè)水資源的質(zhì)量,是對(duì)水資源進(jìn)行管理和污染控制的有效手段,也是進(jìn)行水資源治理和合理開(kāi)發(fā)利用的基礎(chǔ)工作[1].
近年來(lái),根據(jù)國(guó)內(nèi)外專家學(xué)者對(duì)水質(zhì)預(yù)測(cè)的研究成果,目前常用的水質(zhì)預(yù)測(cè)方法有:數(shù)理統(tǒng)計(jì)預(yù)測(cè)方法[2],混沌理論預(yù)測(cè)法[3],神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)法[4],水質(zhì)模擬模型及灰色系統(tǒng)理論預(yù)測(cè)法[5].伴隨著智能算法的興起和發(fā)展,人工神經(jīng)網(wǎng)絡(luò)對(duì)水質(zhì)預(yù)測(cè)方面的問(wèn)題已取得了豐碩的成果,但也存在著不足,如神經(jīng)網(wǎng)絡(luò)遵循經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則,在訓(xùn)練樣本時(shí),往往會(huì)陷入局部極小點(diǎn)或過(guò)擬合學(xué)習(xí)的狀況.因此,Vapnik 基于統(tǒng)計(jì)學(xué)習(xí)理論提出的新型機(jī)器學(xué)習(xí)方法——支持向量回歸機(jī)[6].對(duì)于小樣本,非線性、高維數(shù)和局部極小點(diǎn)等實(shí)際問(wèn)題支持向量回歸機(jī)有著很好地解決能力和較強(qiáng)的學(xué)習(xí)泛化能力,因此而成為了當(dāng)前的研究熱點(diǎn)之一.許多學(xué)者把支持向量機(jī)應(yīng)用在各個(gè)方面的預(yù)測(cè)研究問(wèn)題上,如于永慶將支持向量機(jī)應(yīng)用于跳頻序列研究中[7],戴初福等人建立了滑坡災(zāi)害空間預(yù)測(cè)的支持向量機(jī)模型[8].在水質(zhì)預(yù)測(cè)方面,學(xué)者們也做了大量的探究工作[9-10].
本文在前人研究的基礎(chǔ)上,針對(duì)地下水的特殊性,在傳統(tǒng)的支持向量回歸機(jī)的基礎(chǔ)上,改進(jìn)并建立加權(quán)多核支持向量回歸機(jī),并應(yīng)用此模型進(jìn)行水質(zhì)濃度預(yù)測(cè),并與傳統(tǒng)的水質(zhì)預(yù)測(cè)方法相比較,結(jié)果表明,此方法具有較好的預(yù)測(cè)能力.
支持向量回歸機(jī)(SVR)是在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理的基礎(chǔ)上建立的,憑借有限樣本在學(xué)習(xí)精度(模型的復(fù)雜性)和學(xué)習(xí)能力(模型的推廣性)之間探求最佳折中,以獲得學(xué)習(xí)機(jī)的實(shí)際風(fēng)險(xiǎn)最小化.
給定訓(xùn)練樣本集{(x1,y1),(x2,y2),…,(xl,yl)}?Rn×R,運(yùn)用一非線性映射函數(shù)φ把普通樣本空間映射到高維特征空間(Hilbert空間)之后再做線性回歸,其實(shí)就是求解凸約束條件下的二次規(guī)劃問(wèn)題.考慮其允許誤差ε的情況,引入松弛變量ξi或ζi及相應(yīng)的懲罰系數(shù)C.
設(shè)回歸函數(shù)f(x)=(ω·φ(x))+b,式中:ω為權(quán)值變量,b為偏置.于是,該問(wèn)題求解的標(biāo)準(zhǔn)SVR模型為
(1)
根據(jù)最優(yōu)化理論得到求解最優(yōu)化問(wèn)題:
(2)
式中:K(xi,xj)=(φ(xi)·φ(xj))是核函數(shù).
(3)
考慮到數(shù)據(jù)分布復(fù)雜性,采用不同核函數(shù)的SVR模型得到的結(jié)果也會(huì)有很大不同.不存在無(wú)條件性能優(yōu)越于其他核函數(shù)的核函數(shù).因此采用全局型的多項(xiàng)式核函數(shù)和局部型的高斯徑向基核函數(shù)的混合加權(quán)得到如下核函數(shù)
(4)
式中:多項(xiàng)式核函數(shù)K1=((xi·xj)+1)d,高斯徑向基核函數(shù)K2=exp(-(xi-xj)2/2σ2).因?yàn)棣选?,K=ρK1+(1-ρ)K2為對(duì)稱半正定矩陣,滿足核函數(shù)條件,所以K為可行核函數(shù).每個(gè)核函數(shù)矩陣Ki按下列算式進(jìn)行標(biāo)準(zhǔn)化
(5)
綜上得到求解二次約束下的二次優(yōu)化問(wèn)題
(6)
其中,c=tr(K).解出a和a*的值,可得到最優(yōu)回歸函數(shù)
(7)
3.1 研究對(duì)象
本文以遼河流域研究區(qū)內(nèi)傍河型地下水水質(zhì)信息數(shù)據(jù)為研究對(duì)象.選用2000-2014年遼河流域傍河型地下水研究區(qū)內(nèi)設(shè)第5號(hào)井所測(cè)氨氮濃度的15個(gè)監(jiān)測(cè)數(shù)據(jù)作為訓(xùn)練樣本和檢驗(yàn)樣本,如表1所示.由于支持向量機(jī)具有識(shí)別非線性問(wèn)題能力的優(yōu)點(diǎn),這里使用加權(quán)多核支持向量機(jī)建立水質(zhì)預(yù)測(cè)模型.
表1 2000-2014年研究區(qū)地下水#5所測(cè)的氨氮濃度信息資料(mg/L)
3.2 水質(zhì)預(yù)測(cè)的加權(quán)多核支持向量機(jī)模型
首先將監(jiān)測(cè)數(shù)據(jù)按下式進(jìn)行歸一化處理至區(qū)間[0, 1]內(nèi)
式中:xmax,xmin分別是監(jiān)測(cè)數(shù)據(jù)中的最大值和最小值.
選用不同懲罰函數(shù)C和參數(shù)σ,ε,ρ,使用網(wǎng)格優(yōu)化算法計(jì)算參數(shù),得到C=500,σ2=128,ε=0.01,ρ=0.5時(shí),對(duì)樣本產(chǎn)生的誤差相對(duì)較小,模型的預(yù)測(cè)精度較高.
3.3 數(shù)據(jù)擬合
本文使用MATLAB軟件中的Libsvm包建立加權(quán)多核SVR預(yù)測(cè)模型,取k=7,確定訓(xùn)練樣本為8個(gè).加權(quán)多核SVR模型與SVR模型的預(yù)測(cè)結(jié)果如表2所示.
表2 加權(quán)多核SVR模型與SVR模型的預(yù)測(cè)結(jié)果
從表2可以看出,改進(jìn)的SVR預(yù)測(cè)模型的平均相對(duì)誤差是3.11%,而傳統(tǒng)的SVR預(yù)測(cè)模型的平均相對(duì)誤差是9.89%,BP神經(jīng)網(wǎng)絡(luò)的平均相對(duì)誤差是12.60%,相比較而言,改進(jìn)的SVR預(yù)測(cè)模型的預(yù)測(cè)精度更高,更接近實(shí)測(cè)值,具有更強(qiáng)的學(xué)習(xí)能力,應(yīng)用于水質(zhì)預(yù)測(cè)的評(píng)價(jià)中具有廣闊的前景.
圖1 改進(jìn)SVR模型、傳統(tǒng)SVR模型和BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)值與實(shí)際值的擬合
從圖1可以看出,改進(jìn)的SVR預(yù)測(cè)模型整體上遠(yuǎn)遠(yuǎn)優(yōu)于傳統(tǒng)SVR預(yù)測(cè)模型.在有限樣本情況下,通過(guò)對(duì)SVR的核函數(shù)及控制異方差兩方面的改進(jìn),可以看出改進(jìn)的SVR預(yù)測(cè)模型的回歸函數(shù)更平滑,擬合度更高,從而提高了模型的泛化應(yīng)用能力.
本文在研究SVR理論的基礎(chǔ)上,提出一種基于改進(jìn)的SVR的預(yù)測(cè)模型,并將其應(yīng)用于遼河流域傍河型地下水水質(zhì)預(yù)測(cè)的問(wèn)題中.結(jié)果表明,改進(jìn)的SVR預(yù)測(cè)模型的訓(xùn)練樣本的擬合精度及預(yù)測(cè)精度均較高,具有很好的學(xué)習(xí)、泛化能力.與傳統(tǒng)的SVR預(yù)測(cè)模型和BP神經(jīng)網(wǎng)絡(luò)相比較而言,本文提出的改進(jìn)的SVR預(yù)測(cè)模型,其擬合精度及預(yù)測(cè)精度更具優(yōu)勢(shì).另外本文中的水質(zhì)樣本數(shù)據(jù)采集的時(shí)間跨度較大,采用改進(jìn)的SVR的預(yù)測(cè)模型,能獲得更充分合理的數(shù)據(jù)信息,從而提高了處理此類問(wèn)題的性能.
[1]Huang G H, Xia J. Barriers to sustainable water-quality management[J].Journal of Environmental Management, 2001, 61(1):1-23.
[2]Sun Z B, Wang B L, Hai-Feng J I et al. Water quality prediction based on probability-combination[J].china Environmental Science,2011,31(10):1657-1662.
[3]徐敏,曾光明,蘇小康.混沌理論在水質(zhì)預(yù)測(cè)中的應(yīng)用初探[J].環(huán)境科學(xué)與技術(shù), 2004, 27(1):51-54.
[4]樹(shù)錦. 基于人工神經(jīng)網(wǎng)絡(luò)方法的水質(zhì)預(yù)測(cè)初探[J].環(huán)境科學(xué)與管理, 2006, 31(1):44-46.
[5]黃廷林,盧金鎖,韓宏大,等.地表水源水質(zhì)預(yù)測(cè)方法研究[J].西安建筑科技大學(xué)學(xué)報(bào), 2004, 36(2):134-137.
[6]Vapnik V N. The Nature of Statistical Learning Theory[M]. New York:Springer, 2000.
[7]余永慶.多核支持向量機(jī)在跳頻預(yù)測(cè)中的應(yīng)用研究[D].蘭州:蘭州大學(xué),2014.
[8]戴福初,姚鑫,譚國(guó)煥.滑坡災(zāi)害空間預(yù)測(cè)支持向量機(jī)模型及其應(yīng)用[J].地學(xué)前緣, 2007, 14(6):153-159.
[9]梁雪春,龔艷冰,肖迪.一種多核加權(quán)支持向量機(jī)的水質(zhì)預(yù)測(cè)方法[J].東南大學(xué)學(xué)報(bào), 2011, 41(9):14-17.
[10]夏瓊,錢家忠,陳舟.基于支持向量機(jī)的淮南市淺層地下水水質(zhì)評(píng)價(jià)[J].水文地質(zhì)工程地質(zhì),2009, 36(1):56-59.
(責(zé)任編輯:陳衍峰)
Application of Weighted Multi-kernel Support Vector Regression in Water Quality Prediction
ZHANG Shu-xin, MA Xu-dong, CHEN Hui-ying, WANG Zhong
(CollegeofBasicScience,ChangchunUniversityofTechnology,Changchun,Jilin, 130012,China)
A method of water quality prediction for weighted combined multi-kernel support vector machine (SVM) is proposed. In a support vector regression machine, kernel function and its parameter selection are closely related to the complexity of the sample. Experimental results show that the method has good results for water quality prediction.
Multi-kernel Learning; Weighted Support Vector Machine; Prediction Model
2015-10-12
國(guó)家自然科學(xué)基金項(xiàng)目“基于三維隨機(jī)模擬的傍河型水源地污染物遷移轉(zhuǎn)化規(guī)律研究”(51278065)
張書新,山西柳林人,長(zhǎng)春工業(yè)大學(xué)基礎(chǔ)科學(xué)學(xué)院在讀碩士.
O242
A
1008-7974(2016)05-0027-03
10.13877/j.cnki.cn22-1284.2016.10.009