王秀美,牟少敏*,時愛菊,浩慶波.山東農(nóng)業(yè)大學信息科學與工程學院,山東泰安708.山東農(nóng)業(yè)大學化學與材料科學學院,山東泰安708
?
局部支持向量回歸在小麥蚜蟲預測中的研究與應用
王秀美1,牟少敏1*,時愛菊2,浩慶波1
1.山東農(nóng)業(yè)大學信息科學與工程學院,山東泰安271018
2.山東農(nóng)業(yè)大學化學與材料科學學院,山東泰安271018
摘要:針對小麥蚜蟲預測預警準確率不高的問題,本文提出了一種基于局部支持向量回歸的小麥蚜蟲短期預測算法。首先用相關分析法進行特征選擇,然后進行歸一化處理,最后使用局部支持向量回歸進行小麥蚜蟲百株蚜量短期預測模型的構建,并對未知樣本進行預測。利用1990~2013年山東省煙臺地區(qū)的小麥蚜蟲數(shù)據(jù)及氣象數(shù)據(jù)進行實驗,并與標準的支持向量回歸進行對比試驗。局部支持向量回歸的預測以及回代的均方誤差為196362和198780,準確率為82.69%和91.03%;支持向量回歸的預測以及回代的均方誤差為199366和213108,準確率為80.77%和91.03%。實驗結果表明,對于小麥蚜蟲的短期預測,局部支持向量回歸在準確率和推廣能力上均明顯優(yōu)于支持向量回歸。
關鍵詞:局部支持向量回歸;核函數(shù);相關分析;預測;小麥蚜蟲
農(nóng)產(chǎn)品的產(chǎn)量和品質對我國的發(fā)展具有舉足輕重的作用。小麥是我國主要的糧食作物之一,其年產(chǎn)量居世界第一。而小麥蚜蟲則是危害小麥產(chǎn)量和品質的主要蟲害[1]。對小麥蚜蟲百株蚜量進行準確的預測,可以提早預防,降低其對小麥造成的損失。目前,線性回歸[1,2]、馬爾科夫鏈[3]、神經(jīng)網(wǎng)絡[4]等回歸分析方法已被應用到蟲害發(fā)生的預測中,并取得了一定的效果。張永生于2009年將支持向量機用于第2代大豆造橋蟲幼蟲發(fā)生量的預測中,并取得了較為理想的預測結果[5]。2011年,向昌盛等人綜合考慮害蟲發(fā)生量與其影響因子之間的非線性和時滯性關系,借助于支持向量回歸(Support Vector Regression,SVR)對山東臨沂粘蟲幼蟲的密度進行預測,實驗結果表明,與其它預測方法相比,支持向量機具有較高的預測精度[6]。
近年來,隨著對支持向量機研究的深入,Steinwart于2002年證明了在一般情況下,支持向量機并不能滿足全局一致性[7]。為進一步改進支持向量機,滿足算法的一致性需求。2006年ZHANG等人在局部學習算法的啟發(fā)下提出了局部支持向量機的思想[8]。局部支持向量機不但具有適合小樣本、非線性、高維模式的優(yōu)勢,同時能夠滿足算法的一致性要求。局部支持向量機被提出后,迅速被應用于金融時間序列預測[9]、短期電力負荷預測[10]等領域。
目前,局部支持向量機應用于蟲害發(fā)生量預測的研究還尚未見相關文獻報道。本文首次將局部支持向量回歸應用于小麥蚜蟲百株蚜量預測中,構建基于局部支持向量回歸的小麥蚜蟲短期預測模型,彌補了局部支持向量機在小麥蚜蟲預測中的空白。實驗結果表明,局部支持向量回歸提高了小麥蚜蟲預測的準確率,具有一定的研究和應用價值。
回歸問題的數(shù)學描述:對于給定的一組訓練樣本集(x1,y1),…,(xn,yn),xi∈ Rn,yi∈ R,其中,xi為N維輸入向量,稱為影響因子,yi為預測對象,尋找與訓練樣本的輸入輸出擬合最優(yōu)的函數(shù)關系y= f(x),進而對未來樣本x的y值進行預測。
1.1支持向量回歸
支持向量機解決回歸問題的基本思路[11]為:首先通過一個非線性映射φ將樣本由輸入空間映射到高維特征空間H中;然后在高維特征空間中對樣本進行線性回歸,找到擬合最優(yōu)的回歸函數(shù)f(x)=w?φ(x)+b,即最優(yōu)回歸超平面;最后使用最優(yōu)回歸函數(shù)對其它樣本進行回歸預測。標準的支持向量回歸的損失函數(shù)為ε不敏感損失函數(shù),其數(shù)學表達式如公式(1)所示:
其中,ε為核寬,即回歸函數(shù)允許的最大誤差,使用ε不敏感損失函數(shù)可以提高回歸模型的泛化能力。
支持向量回歸構建回歸模型的原則是結構化風險最小化原則,即不僅要使經(jīng)驗風險最小,同時也要降低模型的復雜度,提高模型的泛化能力。支持向量回歸求最優(yōu)回歸超平面的問題可以轉化為如下的優(yōu)化問題:
1.2局部支持向量回歸
支持向量機使用全部訓練樣本構造回歸模型,忽略了樣本的局部變化信息。而局部支持向量機則是在支持向量機的基礎上引入了局部學習算法,因此局部支持向量機構造的回歸模型蘊含局部化的思想,能夠有效地捕捉樣本的局部變化趨勢,從而提高模型的預測精度[12]。
其中,計算xj*的K近鄰時使用的距離函數(shù)為歐式距離。
Cheng等人將提出的LSVM用于分類問題,并取得了較好的效果,本文將HLSVM用于回歸,得到基于HLSVM的局部支持向量回歸(Hard Localized Support Vector Regression,HLSVR),其構造回歸模型的步驟如下:(1)確定K值;(2)選取每個測試樣本的K個近鄰樣本;(3)對于選取的K近鄰樣本,使用支持向量機進行回歸建模;(4)使用建立的支持向量回歸模型對該測試樣本進行預測;(5)對每個測試樣本執(zhí)行(2)~(4),直到所有測試樣本預測完成。
與標準的SVR相比,使用HLSVR對測試樣本進行預測,可以充分利用樣本的局部信息,選取與測試樣本相似度較大的樣本參與模型的構建,能夠有效地提高預測精度;并且HLSVR能夠減少參與模型構建的樣本數(shù)量,從而降低了構建單個模型的時間。
蟲害的發(fā)生量是對蟲害發(fā)生情況預測的主要指標,本文以小麥蚜蟲百株蚜量作為預測對象,使用HLSVR構造小麥蚜蟲百株蚜量的短期預測模型。由于氣象條件對小麥蚜蟲的發(fā)生有重要影響[2],因此本模型使用某一時期的百株蚜量(簡稱蟲源基數(shù))和同時期的氣象因子作為影響因子,下一時期的小麥蚜蟲的百株蚜量作為預測對象,進行回歸模型的構建。
基于HLSVR的小麥蚜蟲百株蚜量短期預測模型建模過程如下:首先,通過特征選擇剔除對預測對象無顯著影響的因子;然后,對數(shù)據(jù)進行歸一化處理,提高建模效率;最后,選擇合適的核函數(shù)及參數(shù)構建回歸預測模型,并對未來樣本進行預測。
2.1特征選擇
選擇正確有效的特征,對回歸模型的構建及預測預報具有重要意義。特征選擇作為數(shù)據(jù)預處理的一個重要過程,其主要任務是去除不相關或者冗余的特征。首先,特征選擇可以揭示各個特征對預測對象的重要程度;其次,進行選擇特征,可以刪掉無關的特征,從而降低數(shù)據(jù)的維數(shù),縮小問題規(guī)模,提高模型的構建效率;最后,特征選擇可以使得構建的模型具有更好的泛化能力。
相關分析是研究隨機變量之間是否存在某種依存關系的一種常用方法,通過相關分析找到各影響因子與預測對象的相關關系,可以達到特征選擇的目的[14]。相關分析得到的相關關系是一種非確定性的關系,它并不能確切到由其中的一個變量去精確決定另一個變量的程度。Pearson相關系數(shù)和Spearman相關系數(shù)是相關分析中常用的兩種相關系數(shù)。其中,Pearson相關系數(shù)研究的是連續(xù)數(shù)據(jù)之間的相關關系,適用于兩個變量之間的相關關系的計算;Spearman相關系數(shù)是一種秩相關系數(shù),通過將兩列數(shù)變?yōu)橄鄳牡燃?,根?jù)等級之差來計算相關系數(shù)。
本文構建小麥蚜蟲短期預測模型,其影響因子包含多個氣象因子,考慮到各氣象因子之間存在一定的相關關系,因此通過相關分析刪除無關的或者冗余的影響因子,提高構建預測模型的準確率和泛化能力。本文特征選擇主要研究的是各個影響因子與預測對象的相關關系,屬于變量之間的相關關系,因此采用Pearson相關系數(shù)計算相關關系。影響因子Xi與預測對象Y的Pearson相關系數(shù)rXi Y的計算公式如下:
其中SXi X i,SYY,SXi Y為Xi,Y的樣本方差和協(xié)方差。
2.2數(shù)據(jù)預處理
歸一化方法是一種常用的數(shù)據(jù)預處理方法。歸一化方法主要有兩種,一種是為了數(shù)據(jù)處理的方便,將數(shù)據(jù)映射為0、1之間的小數(shù),另一種是去掉量綱,將有量綱的表達式,化為無量綱的表達式,成為純量。本文主要考慮不同影響因子的取值范圍差距較大,為了避免“大數(shù)吃小數(shù)”的情況,選用第二種歸一化的方法,對各個影響因子進行無量綱化處理,去掉其量綱,公式如下:
針對本文的小麥蚜蟲數(shù)據(jù),通過多次對比實驗發(fā)現(xiàn),僅對影響因子進行歸一化比對影響因子及預測對象均歸一化的效果明顯好,因此,本文將小麥蚜蟲的各個影響因子歸一化到[0,1]范圍內(nèi),預測對象未進行歸一化處理。
3.1數(shù)據(jù)來源
本文實驗采用的數(shù)據(jù)主要包含兩部分:1990~2013年山東煙臺地區(qū)小麥蚜蟲百株蚜量數(shù)據(jù)和煙臺地區(qū)氣象數(shù)據(jù)。我們將1990~2007年(1992~1994年無)的數(shù)據(jù)作為訓練集,2008~2013年的數(shù)據(jù)作為測試集。預測對象為小麥蚜蟲的百株蚜量以及發(fā)生程度,其中發(fā)生程度據(jù)分為5級,輕發(fā)生(1級)、偏輕發(fā)生(2級)、中發(fā)生(3級)、偏重發(fā)生(4級)、大發(fā)生(5級),主要以小麥蚜蟲發(fā)生盛期的百株蚜量來確定,各級指標見表1。影響因子為蟲源基數(shù)(x19)以及降雨量、氣溫、日照時數(shù)等氣象因子(x1-x18)。將百株蚜量與19個影響因子進行相關分析,相關系數(shù)以及顯著性檢驗結果見表2,其中r為相關系數(shù),P為顯著性檢驗的P值。
表1 小麥蚜蟲發(fā)生程度分級指標Table 1 The classification index of wheat aphid occurrence degree
表2 相關分析結果Table 2 The result of correlation analysis
取顯著性水平為0.5,由表2相關分析的顯著性檢驗結果可知,變量x1~x4、x6、x9、x18的P值均明顯大于0.5,與百株蚜量的相關關系不顯著,因此,使用其余12個變量預測百株蚜量的值。1990~2007(1992~1994年無)年共78條數(shù)據(jù),作為訓練樣本,2008~2013年共26條數(shù)據(jù),作為測試集樣本,即本實驗樣本總數(shù)為104。
3.2實驗結果及分析
本文利用局部支持向量回歸構造小麥蚜蟲短期預測模型,并與支持向量回歸進行對比實驗。核函數(shù)是解決非線性回歸問題的關鍵,它可以將樣本從低維空間向高維空間進行映射。核函數(shù)的類型、核參數(shù)的選取直接影響著模型預測精度的高低。目前,RBF核是應用最廣泛的核函數(shù)。無論樣本維數(shù)高低、樣本數(shù)量多少,RBF核函數(shù)均可以通過調節(jié)其核參數(shù)得到較為理想的預測結果[15]。本文兩種模型均使用RBF核函數(shù)。支持向量回歸模型參數(shù)的選取采用網(wǎng)格參數(shù)尋優(yōu),尋優(yōu)過程采用十折交叉驗證法,十折交叉驗證可以有效的避免過擬合,是對預測誤差的一種比較好的估計[16]。由于局部支持向量回歸目前并無較好的調參算法,其懲罰系數(shù)C、核寬ε、核參數(shù)δ的值與支持向量回歸中對應參數(shù)的值相等。而對于近鄰數(shù)K,給定多個值,使用十折交叉驗證選擇最優(yōu)的K值。具體選取的參數(shù)值見表3。
表3 模型參數(shù)Table 3 Model parameter
使用上述兩個模型對2008~2013年小麥蚜蟲百株蚜量進行預測,百株蚜量的均方誤差(Mean Square Error,MSE)以及發(fā)生程度的準確率如表4所示所示。MSE表達式為:
其中yi,y’i分別為實際值、預測值,n為測試樣本的數(shù)目。MSE越小,預測模型的準確度越高。
支持向量回歸只需要針對所有訓練樣本構建一個回歸預測模型,對所有測試集樣本采用該模型進行預測。而局部支持向量回歸則是針對每個測試樣本分別建立預測模型,理論上局部支持向量回歸比支持向量回歸有更好的預測能力以及推廣能力。由表4的均方誤差可以看出,用HLSVR對1990~2007年的小麥蚜蟲數(shù)據(jù)進行回代檢驗,其均方誤差小于SVR,對于未參與模型構建的2008~2013年的小麥蚜蟲的數(shù)據(jù),HLSVR模型預測百株蚜量的均方誤差明顯小于SVR。HLSVR模型以及SVR模型的回代檢驗的均方誤差均高于預測的均方誤差,主要是因為1990~2007年小麥蚜蟲的百株蚜量存在比較大的值,而2008~2013年小麥蚜蟲的百株蚜量值相對比較小,導致回代檢驗時,較大的百株蚜量對應較大的誤差。
表4 均方誤差及發(fā)生程度準確率Table 4 MSE and the accuracy of classification index
由表4的發(fā)生程度的準確率可以看出,對1990~2007年的小麥蚜蟲發(fā)生程度進行回代檢驗,HLSVR的回代準確率等于SVR的回代準確率。但是,對2008~2013年的小麥蚜蟲的26條數(shù)據(jù)進行預測,HLSVR的預測準確率明顯高于SVR。因此,與SVR相比,基于HLSVR的小麥蚜蟲百株蚜量短期預測模型的準確度更高,泛化能力更強。
局部支持向量回歸既有支持向量回歸適合小樣本數(shù)據(jù)、非線性回歸問題的優(yōu)點,同時也可以充分利用樣本的局部變化信息,符合算法的一致性要求。本文首次將局部支持向量回歸應用于小麥蚜蟲短期預測,構建基于HLSVR的小麥蚜蟲短期預測模型。使用相關分析法進行特征選擇,對影響因子及預測對象進行相關分析,剔除了與預測對象相關關系不顯著的因子;使用局部支持向量回歸為每個測試樣本構建回歸模型,提高了模型預測的準確率。實驗結果表明,HLSVR比SVR在小麥蚜蟲百株蚜量預測中準確率更高,同時HLSVR比SVR的適用性更強。本文的研究成果為蟲害短期預測提供了新的思路,具有一定的應用前景。下一步考慮實現(xiàn)基于hadoop的局部支持向量回歸,來處理更加復雜的農(nóng)業(yè)數(shù)據(jù),進一步提高農(nóng)業(yè)蟲害監(jiān)測預警的準確率。
參考文獻
[1]李文峰,尹彬,曹志偉,等.許昌市小麥蚜蟲種群變化規(guī)律及氣象預測模型[J].河南農(nóng)業(yè)科學,2011(3):81-84
[2]劉明春,蔣菊芳,史志娟,等.小麥蚜蟲種群消長氣象影響成因及預測[J].中國農(nóng)業(yè)氣象,2009(3):440-444
[3]吳華新,金珠群,韓敏暉.用馬爾可夫鏈分析法預測棉鈴蟲發(fā)生趨勢[J].浙江農(nóng)業(yè)學報,2003(6):33-36
[4]靳然,李生才.基于小波神經(jīng)網(wǎng)絡的麥蚜發(fā)生量預測研究[J].天津農(nóng)業(yè)科學,2015(4):127-131
[5]張永生.支持向量機在害蟲預測預報中的應用[J].現(xiàn)代農(nóng)業(yè)科技,2009(14):147-148
[6]向昌盛,周子英,張林峰.支持向量機在害蟲發(fā)生量預測中的應用[J].生物信息學,2011(1):28-31
[7] STEINWART I. Support vector machines are universally consistent [J]. Journal of Complexity,2002,18(3):768-791
[8] ZHANG H,BERG AC,MAIRE M,et al. SVM KNN: discriminative nearest neighbor classification for visual category recognition[C] //Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York:IEEE,2006:2126-2136
[9] HAIQIN YANG,KAIZHU HUANG,IRWIN KING,et al. Local support vector regression for time series prediction [J]. Neurocomputing,2009,72(10-12):2659-2669
[10]李以志.基于粒子群優(yōu)化的局部支持向量回歸短期電力負荷預測建模方法研究[D].上海:華東理工大學,2012:26-35
[11]曾紹華.支持向量回歸機算法理論研究與應用[D].重慶:重慶大學,2006:9-15
[12]尹傳環(huán),牟少敏,田盛豐,等.局部支持向量機的研究進展[J].計算機科學,2012(1):170-174,189
[14] CHENG H,TAN PN,JIN R. Localized support vector machine and its efficient algorithm[C]//Proc. of STAM International Conference on Data Mining 2007,Minneapolis,Minnesota,2007:461-466
[15]程濤,慕運動,曹建莉.方差分析與相關分析在分層次教學中的應用[J].荊楚理工學院學報,2011(9):59-62
[16]林升梁,劉志.基于RBF核函數(shù)的支持向量機參數(shù)選擇[J].浙江工業(yè)大學學報,2007(2):163-167
[17]楊柳,王鈺.泛化誤差的各種交叉驗證估計方法綜述[J].計算機應用研究,2015(5):1287-1290,1297
Research and Application of Local Support Vector Regression in Prediction of Wheat Aphid
WANG Xiu-mei1,MU Shao-min1*,SHI Ai-ju2,HAO Qing-bo1
1. College of Information Science and Engineering/Shandong Agricultural University, Taian 271018,China
2. College of Chemistry and Material Science/Shandong Agricultural University, Taian 271018,China
Abstract:Aiming at the accuracy of wheat aphid prediction is low,this paper proposed a short-term forecasting algorithm of wheat aphid based on local support vector regression. Firstly,feature selection was realized by correlation analysis. Secondly,the normalized processing of selected features was calculated. Finally,the short-term forecasting model was established and the prediction value of test sample was obtained by the established model. Experiments were conducted on the wheat aphid data and meteorological data of Yantai area from 1990 to 2013 year and contrast test was conducted by the standard support vector regression. The standard support vector regression achieved the Mean Square Error at 199366 in prediction and 213108 in back-substitution check,the accuracy at 80.77%in prediction and 91.03%in back-substitution check,while local support vector regression achieved the Mean Square Error at 196362 in prediction and 198780 in back-substitution check,the accuracy at 82.69%in prediction and 91.03%in back-substitution check. The results showed that local support vector regression has better performance in accuracy and generalization ability for the short-term prediction of wheat aphid.
Keywords:Local support vector regression;kernel function;correlation analysis;prediction;wheat aphid
*通訊作者:Author for correspondence. E-mail:msm@sdau.edu.cn
作者簡介:王秀美(1992-),女,山東濰坊人,碩士研究生,主要研究方向:機器學習. E-mail:wxmsdau@163.com
基金項目:山東省自然基金(ZR2012FM024)
收稿日期:2014-07-12修回日期:2014-09-24
中圖法分類號:TP391
文獻標識碼:A
文章編號:1000-2324(2016)01-0052-05