董 超,胡艷珍,李晨光
(1.天津理工大學(xué) 天津市復(fù)雜系統(tǒng)控制理論及應(yīng)用重點(diǎn)實(shí)驗(yàn)室,天津 300384;2.中國石油化工股份有限公司 天津分公司,天津 300271)
PCA-SS-LSSVM算法研究
董 超1,胡艷珍1,李晨光2
(1.天津理工大學(xué) 天津市復(fù)雜系統(tǒng)控制理論及應(yīng)用重點(diǎn)實(shí)驗(yàn)室,天津 300384;2.中國石油化工股份有限公司 天津分公司,天津 300271)
近年來,支持向量機(jī)被廣泛地運(yùn)用于許多行業(yè)進(jìn)行分類、預(yù)測分析工作,并取得了很好的效果。雖然標(biāo)準(zhǔn)支持向量機(jī)在解決小樣本、非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢,但仍存在一定的不足,如計(jì)算速度慢、精度不高、資源占用多等。針對上述問題,在總結(jié)研究相關(guān)算法優(yōu)缺點(diǎn)基礎(chǔ)上,提出了一種新型的組合算法,即PCA-SS-LSSVM算法。結(jié)果表明該算法能有效彌補(bǔ)標(biāo)準(zhǔn)支持向量機(jī)的不足,具有更好的適應(yīng)性和應(yīng)用可行性。
支持向量機(jī);分散搜索算法;主成分分析
支持向量機(jī)是Corinna Cortes和Vapnik于1995年提出的一種具有很強(qiáng)自學(xué)習(xí)能力的算法。其比神經(jīng)網(wǎng)絡(luò)具有更好的泛化能力、模型精度不會因使用者的知識差異而不同以及能避免局部最優(yōu)等優(yōu)勢,因而在許多行業(yè)得到了廣泛的應(yīng)用。例如2016年廣東電網(wǎng)有限責(zé)任公司電力調(diào)度控制中心的王寧等人使用支持向量機(jī)回歸組合模型對中長期降溫負(fù)荷進(jìn)行了預(yù)測[1]。2016年湖南大學(xué)的喻勝華、龔尚花利用Lasso和支持向量機(jī)對糧食價(jià)格進(jìn)行了預(yù)測[2]。2016年華南理工大學(xué)周璇等人使用小波分解和支持向量機(jī)對辦公建筑空調(diào)負(fù)荷進(jìn)行了預(yù)測[3]。2015年吉林大學(xué)生物與農(nóng)業(yè)工程學(xué)院的任順等人將支持向量機(jī)應(yīng)用于葉綠素?zé)晒忸A(yù)測光能利用效率的研究中[4]。2015年河海大學(xué)的張秀菊等人利用支持向量機(jī)對水質(zhì)進(jìn)行了預(yù)測[5]。雖然標(biāo)準(zhǔn)支持向量機(jī)有很多優(yōu)勢,能夠解決很多行業(yè)的預(yù)測、分類問題,但是其仍然存在一些弊端。主要表現(xiàn)為損失函數(shù)的限制以及懲罰因子、核函數(shù)寬度參數(shù)的優(yōu)化組合等問題。這些問題會降低預(yù)測的精度、收斂速度,增加模型計(jì)算的資源占用等。而目前學(xué)者們使用的大都是GA、PSO等方式來優(yōu)化支持向量機(jī),但是GA有其弊端,即無法動態(tài)跟蹤,PSO容易導(dǎo)致局部最優(yōu),因此本文提出選用SS算法對其參數(shù)進(jìn)行尋優(yōu),并提出了組合狀態(tài)的支持向量機(jī)PCA-SS-LSSVM算法。
PCA-SS-LSSVM是一種標(biāo)準(zhǔn)支持向量機(jī)的改進(jìn)組合算法。采用最小二乘線性方程代替?zhèn)鹘y(tǒng)標(biāo)準(zhǔn)向量機(jī)中ε不敏感損失函數(shù),從而將原來的非線性約束轉(zhuǎn)變?yōu)榫€性約束。利用分散搜索算法(SS)對懲罰因子和核函數(shù)寬度進(jìn)行尋優(yōu),從而找到最優(yōu)組合來提高模型的精度。由此就形成了擴(kuò)展的向量機(jī)SS-LSSVM。在大多數(shù)研究使用中,分析結(jié)果總是同時(shí)受到很多因素的共同影響作用。而在建模時(shí),輸入量過多將會影響其模型的收斂速度以及占用大量資源。為了解決這一問題,該算法引入了PCA對輸入變量進(jìn)行降維得到主成分。且得到的主成分能盡可能保留原參數(shù)的信息。其算法結(jié)構(gòu)框圖如圖1所示。
圖1 PCA-SS-LSSVM算法結(jié)構(gòu)框圖
由圖1可知該算法的輸入變量在經(jīng)過PCA降維處理之后得到主成分,并將其作為模型的輸入進(jìn)行訓(xùn)練建模。其中模型的參數(shù)尋優(yōu)由SS得到。經(jīng)過SS-LSSVM的建模預(yù)測之后輸出變量,當(dāng)輸出變量的誤差允許值超過設(shè)定范圍,則返回輸入重新計(jì)算。該算法的流程圖如圖2所示(Pr為PCA降維以后得到的成分)。
圖2 算法流程圖
2.1 主成分分析(PCA)
在該算法中主成分分析的主要作用是對輸入樣本數(shù)據(jù)進(jìn)行降維處理,從而提高計(jì)算速度等。主成分分析是把各變量之間互相關(guān)聯(lián)的復(fù)雜關(guān)系進(jìn)行簡化分析的方法。在力求數(shù)據(jù)信息丟失最少的原則下,對高維的變量空間降維,即研究指標(biāo)體系的少數(shù)幾個(gè)線性組合,并且這幾個(gè)線性組合所構(gòu)成的綜合指標(biāo)將盡可能多地保留原來指標(biāo)變異方面的信息。這些綜合指標(biāo)就稱為主成分。主成分分析的具體計(jì)算步驟流程圖如圖3所示。
圖3 PCA計(jì)算步驟流程圖
2.2 支持向量機(jī)(SVM)
支持向量機(jī)是主體算法,其作用是實(shí)現(xiàn)非線性的多元回歸預(yù)測。
支持向量機(jī)方法是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上在模型的復(fù)雜性(即對特定訓(xùn)練樣本的學(xué)習(xí)精度)和學(xué)習(xí)能力(即無錯(cuò)誤地識別任意樣本的能力)之間尋求最佳折衷,以期獲得最好的推廣能力,能夠很好地克服前者訓(xùn)練時(shí)間長、訓(xùn)練結(jié)果存在隨機(jī)性和過學(xué)習(xí)等不足,因此越來越廣泛地被用于復(fù)雜非線性系統(tǒng)的建模中。
SVM算法步驟為:
1)設(shè)訓(xùn)練集為:
2)求解最優(yōu)化問題的最優(yōu)解:
4)構(gòu)造線性最優(yōu)分類超平面,得出決策函數(shù):
由于SVM收斂速度慢,所需資源多,因此使用最小二乘線性方程代替原始的損失函數(shù),形成最小二乘支持向量機(jī)LS-SVM。其特點(diǎn)是通過映射將原空間的不等式約束轉(zhuǎn)化成特征空間中的等式約束,轉(zhuǎn)化后的對偶問題為求解一組線性方程組,相比于原始的SVM,LSSVM具有計(jì)算代價(jià)小,泛化能力好,不易陷入局部極小等優(yōu)點(diǎn)[6]。
在LSSVM回歸算法中,利用非線性映射函數(shù)將樣本映射到高維特征空間,將原樣本空間的非線性函數(shù)估計(jì)問題轉(zhuǎn)化為高維特征空間的線性函數(shù)估計(jì)問題:
這一回歸問題是根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理,并綜合考慮函數(shù)復(fù)雜度和擬合誤差,表示為一個(gè)等式約束優(yōu)化問題,其目標(biāo)優(yōu)化為:
R為懲罰因子數(shù),ei為誤差值,b為偏差量。
將上述優(yōu)化問題,建立拉格朗日等式,把約束優(yōu)化問題轉(zhuǎn)為無約束優(yōu)化問題:
其中K(x,xi)為核函數(shù)。
在LSSVM中實(shí)現(xiàn)非線性映射主要依靠核函數(shù)實(shí)現(xiàn),目前通用的核函數(shù)主要有以下四個(gè)。
多項(xiàng)式核函數(shù):
高斯徑向基核函數(shù):
Sidmoid核函數(shù):
Fourier核函數(shù):
2.3 分散搜索算法(SS)
在本算法中SS主要是為了優(yōu)化支持向量機(jī)的懲罰因子、核函數(shù)寬度兩個(gè)參數(shù),尋找最優(yōu)化組合來提高模型的精度。在以往的研究中多用GA、PSO來優(yōu)化參數(shù),但是GA無法動態(tài)跟蹤,PSO容易導(dǎo)致局部最優(yōu),因此選用SS算法對其參數(shù)進(jìn)行尋優(yōu)。
分散搜索的中心思想最初由FredGlover于1977年的提出,留一小部分參考解的種群或稱為參考集,然后合并這些參考解生成新的解。分散搜索算法具有很多不同的算法組成而只需要稍加修改就可以應(yīng)用于不同優(yōu)化問題的通用算法框架。相比于其他進(jìn)化算法,如遺傳算法,SS算法由于其共參考集的記憶能力,使其可以動態(tài)跟蹤當(dāng)前的搜索情況,以調(diào)整其搜索策略。同時(shí)SS具有柔性的框架,其中的每種機(jī)制都可以用多種方法予以實(shí)現(xiàn)。SS算法整合了多種有效機(jī)制,包括多樣性生成方法、局部搜索方法、以及路徑重連方法等,這使得該算法可以快速的得到滿意解。
SS算法實(shí)現(xiàn)步驟為:
1)算法從一個(gè)參考集的創(chuàng)建開始。首先使用多樣化生成方法diversification generation method生成具有多樣性的解。然后通過優(yōu)化解方法改進(jìn)這些解;
按照石油裝備企業(yè)在現(xiàn)代經(jīng)濟(jì)建設(shè)發(fā)展中的績效管理控制因素實(shí)施來看,石油裝備企業(yè)建設(shè)管理中的績效管理考核體系構(gòu)建還存在著很多的缺陷,由于這些缺陷性的存在制約了石油裝備企業(yè)的績效管理。要想提升整體的石油裝備企業(yè)績效管理就應(yīng)該在績效管理工作的開展中,將其績效管理工作的開展和HU績效管理考核內(nèi)生性需求結(jié)合在一起,這樣才能在二者的結(jié)合過程中,及時(shí)按照績效管理因素的控制將對應(yīng)的績效管理工作實(shí)踐好。因此,在這種背景下,按照HU績效考核內(nèi)生性方法的應(yīng)用,將其考核中的管理因素歸納為以下幾點(diǎn):一是基數(shù)管理;二是平均管理;三是超額管理;四是漏報(bào)管理;五是多報(bào)管理。
2)建立參考集,參考集的大小通常是20個(gè)解,而哪些要放入?yún)⒖技卸家鶕?jù)其質(zhì)量及多樣性來進(jìn)行選擇。在參考集中的解將用來建立解的子集。每一個(gè)子集中的解都是用于合并的候選解,其中最簡單的情況是大小為20的子集兩個(gè)個(gè)體相結(jié)合。子集的解都要進(jìn)行合并,每一個(gè)新生成的解都通過優(yōu)化解方法得到改進(jìn)并可能取代參考集中的一個(gè)解。子集生成解合并和優(yōu)化解方法不斷重復(fù)直到參考集不再改變或滿足某種條件為止[7]。分散搜索算法的結(jié)構(gòu)流程如圖4所示。
圖4 SS算法流程圖
PCA-SS-LSSVM算法中,PCA的主要作用是針對應(yīng)用中輸入?yún)?shù)維數(shù)過高的問題進(jìn)行降維處理,以提高模型的計(jì)算速度,并不會影響算法的精度。因此本文的例子省略了降維處理這一步驟。將算法運(yùn)用于普通線性、非線性函數(shù)的預(yù)測實(shí)現(xiàn)中,實(shí)例中輸入為X =10[-1:2/(N-1):1]'(N=101),輸出分別為y1 = sin(abs(X))./abs(X),y2=0.1.X+1.5,同時(shí)采用目前性能較好的PSOLSSVM算法與本文算法進(jìn)行比較,在MATLAB中進(jìn)行仿真其結(jié)果如圖5所示。
圖5 仿真結(jié)果對比圖
PSO-LSSVM與SS-LSSVM的誤差以及運(yùn)行結(jié)果如表1所示。
表1 SS-LSSVM與PSO-LSSVM預(yù)測的絕對誤差和運(yùn)行時(shí)間對比圖
由表1可得與PSO-LSSVM相比,本文的算法無論在誤差還是計(jì)算時(shí)間方面都有其優(yōu)勢,其中絕對誤差減少了27.9%,運(yùn)行時(shí)間提高了22.6%,故SS-LSSVM有更好的性能。
本文針對標(biāo)準(zhǔn)向量機(jī)自身參數(shù)所帶來的收斂速速、模型精度不高等缺點(diǎn),在研究學(xué)習(xí)相關(guān)算法的基礎(chǔ)上,提出了改進(jìn),利用最小二乘線性方程和分散搜索算法對其缺點(diǎn)進(jìn)行針對性的改進(jìn),提出了改進(jìn)算法SSLSSVM。同時(shí)考慮了實(shí)際應(yīng)用中輸入?yún)?shù)多而帶來的計(jì)算速度緩慢的問題,引入了PCA,最終形成組合算法PCA-SS-LSSVM。該算法擁有如下的優(yōu)點(diǎn):
1)對于解決小樣本、非線性問題有很強(qiáng)的針對性。
2)泛化能力好,對樣本適應(yīng)性強(qiáng)。
3)模型中的參數(shù)為最優(yōu)組合,因此模型精度高、收斂速度快。
該算法提出的目的是為了解決一些復(fù)雜的非線性問題,通過上述實(shí)例也簡單驗(yàn)證了其可行有效性。在后續(xù)的研究中,擬將該算法用于石化循環(huán)冷卻水腐蝕結(jié)垢的預(yù)測中。循環(huán)冷卻水系統(tǒng)是一個(gè)復(fù)雜多學(xué)科交叉的非線性問題,同時(shí)影響腐蝕結(jié)垢的因素眾多。故此該算法可以很好地解決這些問題,并預(yù)期可以達(dá)到很好的預(yù)測效果,為石化實(shí)際安全可靠運(yùn)行生產(chǎn)提供科學(xué)的理論依據(jù)。
[1] 王寧,謝敏,鄧佳梁,等.基于支持向量機(jī)回歸組合模型的中長期降溫負(fù)荷預(yù)測[J].電力系統(tǒng)保護(hù)與控制,2016,44(03):92-97.
[2] 喻勝華,龔尚花.基于Lasso和支持向量機(jī)的糧食價(jià)格預(yù)測[J].湖南大學(xué)學(xué)報(bào),2016,30(01):71-75.
[3] 周璇,劉慶典,閆軍威.基于小波分解和支持向量機(jī)的辦公建筑空調(diào)負(fù)荷預(yù)測[J].暖通空調(diào),2016,46(05):114-117,107.
[4] 任順,于海業(yè),周麗娜.基于支持向量機(jī)的葉綠素?zé)晒忸A(yù)測光能利用效率研究[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2015,46(04):273-275,251.
[5] 張秀菊,安煥,趙文榮,等.基于支持向量機(jī)的水質(zhì)預(yù)測應(yīng)用實(shí)例[J].中國農(nóng)村水利水電.2015,01:85-89.
【】【】
[6] 顧燕萍,趙文杰,吳占松.最小二乘支持向量機(jī)的算法研究[J].清華大學(xué)學(xué)報(bào),2010,07:1063-1066,1071.
[7] 王曉晴,唐加福,韓毅.分散搜索算法研究進(jìn)展[J].系統(tǒng)仿真學(xué)報(bào),2009.11:3155-3159.
[8] 侯振雨,蔡文生,邵學(xué)廣.主成分分析-支持向量回歸建模方法及應(yīng)用研究[J].分析化學(xué)研究報(bào)告.2006,05:617-620.
[9] 徐蓓蓓,蔣鐵錚,易宏.基于GA-LS-SVM的風(fēng)電場小時(shí)風(fēng)速預(yù)測[J].水電與新能源,2012,01:74-76.
[10] YongshengZhao,Xiangping Zhang,Liyuan Deng, Suojiang Zhang.Prediction of viscosity of imidazolium-based ionic liquids using MLR and SVM algorithms[J].Elsevier Journal,2016.09.02:37-42.
[11] Wei Huang, Fengchen Huang, Jing Song.WaterQuality Retrieval and PerformanceAnalysisUsingLandsat Thermatic Mapper Imagery Based on LS-SVM[J].Journal of Software,2011,6(8).
[12] Burak Gokalp,H.Metin Ertunc, Murat Hosoz et al.. Performance prediction of a CI engine using artificial neural network for various SME and diesel fuel blends[J].Int.J.of Vehicle Design,2010,54(2).
[13] Sun Bo Liu, Ping An Shi, Lei Wu. Short-Term Prediction of Ship Motion Based on EMD-SVM[J].Applied Mechanics and Materials,2014,3253(571).
[14] Lu Rongxiu,Yang Hui,Zhang Kunpeng. Component Content Soft-Sensor of SVM Based on Ions Color Characteristics[J].TELKOMNIKA Indonesian Journal of Electrical Engineering,2012,10(6).
[15] Kyumann Im, Woonchul Ham. ANALYSIS AND PROGRAMMING OF KERNEL FOR EMBEDDED SYSTEMS[J].Inventi Impact Embedded Systems,2015,2015.
[16] Jian-qiang Gao,Li Li,Li-ya Fan et al.ANAPPLICATION OF WEIGHTED KERNELFUZZY DISCRIMINANT ANALYSIS[J].Inventi Impact Computational Mathematics,2014,2014.
[17] Yang H, Wang Y, Dai J.Instance selection and SVM ensembles for underwater acoustic target recognition[J].Xibei Gongye Daxue Xuebao Journal of Northwestern Polytechnical University,2014, 32(3).
Study of PCA-SS-LSSVM algorithm
DONG Chao1, HU Yan-zhen1, LI Chen-guang2
TP181
:A
1009-0134(2017)07-0088-04
2017-03-20
董超(1978 -),男,山東人,副研究員,碩士研究生,主要研究方向?yàn)檫^程控制。