向先全,陶建華
(1.天津大學(xué)環(huán)境科學(xué)與工程學(xué)院,天津 300072;2.天津大學(xué)機(jī)械工程學(xué)院,天津 300072)
基于GA-SVM的渤海灣富營(yíng)養(yǎng)化模型
向先全1,陶建華2
(1.天津大學(xué)環(huán)境科學(xué)與工程學(xué)院,天津 300072;2.天津大學(xué)機(jī)械工程學(xué)院,天津 300072)
為了更好地模擬和認(rèn)知渤海灣富營(yíng)養(yǎng)化的復(fù)雜行為,通過(guò)研究遺傳算法(GA)和支持向量機(jī)(SVM)的結(jié)合形式,即參數(shù)尋優(yōu)和特征選擇,以渤海灣水質(zhì)實(shí)測(cè)資料為依據(jù),葉綠素a的質(zhì)量濃度為輸出,建立了GA-SVM的富營(yíng)養(yǎng)化模型.無(wú)特征選擇時(shí),用遺傳算法對(duì)支持向量機(jī)的參數(shù)(懲罰參數(shù)和核參數(shù))進(jìn)行自適應(yīng)地優(yōu)選,預(yù)測(cè)模型的均方誤差可達(dá)到 1.831 μg/L,具有較好的認(rèn)知、泛化能力.再利用遺傳算法二進(jìn)制編碼及啟發(fā)式尋優(yōu)的優(yōu)點(diǎn),對(duì)所建模型的輸入空間進(jìn)行特征選擇,提取出代表性的特征變量:DO%、pH值、水溫、COD、鹽度以及氨氮.特征提取后預(yù)測(cè)模型的均方誤差可達(dá)到1.363 μg/L,模型性能有了很大提高.分析表明,COD、鹽度及氨氮可作為人為控制的首要指標(biāo).
富營(yíng)養(yǎng)化模型;支持向量機(jī);遺傳算法;參數(shù)尋優(yōu);特征選擇;渤海灣
沿海地區(qū)經(jīng)濟(jì)的快速發(fā)展,使得作為陸地產(chǎn)生污水最后歸宿的海洋,尤其是近岸海域受到了越來(lái)越嚴(yán)重的污染.渤海灣是位于渤海西側(cè)的一個(gè)半封閉淤泥質(zhì)淺水海灣,海水交換能力和自凈能力很弱[1],近岸海域水體富營(yíng)養(yǎng)化嚴(yán)重,赤潮頻繁發(fā)生.2008年國(guó)家海洋環(huán)境質(zhì)量公報(bào)指出:連續(xù) 5年的監(jiān)測(cè)結(jié)果表明,持續(xù)的城市化進(jìn)程和陸源排污未得到有效控制,致使渤海灣水體始終處于嚴(yán)重的富營(yíng)養(yǎng)化狀態(tài),生態(tài)系統(tǒng)處于亞健康狀態(tài).
國(guó)內(nèi)外對(duì)富營(yíng)養(yǎng)化模型開(kāi)展了廣泛研究,主要包括以下幾類:① 基于機(jī)理或假設(shè)的確定性模型,如簡(jiǎn)單的營(yíng)養(yǎng)物平衡模型、復(fù)雜的生態(tài)-水質(zhì)-水動(dòng)力模型、復(fù)雜的生態(tài)結(jié)構(gòu)動(dòng)力學(xué)模型[2];② 多元統(tǒng)計(jì)方法,如 Handan等[3]通過(guò)主成分分析和多元線性回歸方法預(yù)測(cè)葉綠素a與16個(gè)物理、化學(xué)、生物指標(biāo)的關(guān)系;③ 不確定性富營(yíng)養(yǎng)化模型,Malmaeus等[4]結(jié)合Monte-Carlo模擬和靈敏度分析,評(píng)價(jià)模型參數(shù)中的不確定因素對(duì)模型預(yù)測(cè)結(jié)果的影響,Chen等[5]提出了基于模糊邏輯理論預(yù)測(cè)藻類生物量的富營(yíng)養(yǎng)化模型;④ 非線性富營(yíng)養(yǎng)化模型,黑箱模型人工神經(jīng)網(wǎng)絡(luò)[6-7]在富營(yíng)養(yǎng)化建模和評(píng)價(jià)中被廣泛應(yīng)用.
近岸海域水生態(tài)系統(tǒng)是一個(gè)具有多因素耦合的復(fù)雜系統(tǒng),生態(tài)要素間的關(guān)系錯(cuò)綜復(fù)雜,表現(xiàn)出極大的隨機(jī)性、不確定性和非線性,系統(tǒng)內(nèi)各因素之間的相互作用及其動(dòng)態(tài)變化過(guò)程未被完全知曉,制約著確定型的生態(tài)水動(dòng)力學(xué)發(fā)展.隨著現(xiàn)代化監(jiān)測(cè)技術(shù)的發(fā)展和監(jiān)測(cè)手段的多樣化,在大量監(jiān)測(cè)數(shù)據(jù)基礎(chǔ)上利用多元統(tǒng)計(jì)、神經(jīng)網(wǎng)絡(luò)等方法建立的富營(yíng)養(yǎng)化模型,得到了廣泛的應(yīng)用.但這些以傳統(tǒng)漸進(jìn)統(tǒng)計(jì)學(xué)為理論基礎(chǔ)的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則是基于樣本無(wú)限大的假設(shè),并不能很好地實(shí)現(xiàn)由貝葉斯決策理論導(dǎo)出的期望風(fēng)險(xiǎn)最小化原則,這在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中表現(xiàn)得尤為突出(過(guò)學(xué)習(xí)問(wèn)題).在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)之上發(fā)展起來(lái)的支持向量機(jī)(support vector machine,SVM)算法具有嚴(yán)格的理論基礎(chǔ),采用結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則(而非傳統(tǒng)的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則),把學(xué)習(xí)問(wèn)題轉(zhuǎn)化為一個(gè)二次規(guī)劃問(wèn)題來(lái)獲得全局最優(yōu)解,從而克服了神經(jīng)網(wǎng)絡(luò)的不足,在小樣本情況下具有良好外推能力.近年來(lái)支持向量機(jī)開(kāi)始被應(yīng)用于富營(yíng)養(yǎng)化模型的研究,并取得了一定的效果[8-9].
但是,作為一種學(xué)習(xí)機(jī)器,SVM 也存在一些有待完善的地方.其參數(shù)選取便是亟待完善的問(wèn)題之一,懲罰系數(shù) C、核函數(shù)以及核函數(shù)的相關(guān)參數(shù)等的選取在一定程度上對(duì)模型的預(yù)測(cè)精度存在很大影響.另一方面,如何從原始特征中去挑選出一些最有代表性的特征,也是建立 SVM 模型時(shí)需要面臨的問(wèn)題.因此,筆者提出基于遺傳算法的支持向量機(jī)富營(yíng)養(yǎng)化模型,用于自適應(yīng)地特征選擇和參數(shù)尋優(yōu),克服以上存在的不足,提高了富營(yíng)養(yǎng)化模型的精度,并對(duì)富營(yíng)養(yǎng)化的影響因子進(jìn)行了分析.
支持向量機(jī)的基本思想可以概括為:首先通過(guò)非線性變換將輸入空間變換到一個(gè)高維空間,然后在這個(gè)新空間中求取最優(yōu)線性分類面,而這種非線性變換是通過(guò)定義適當(dāng)?shù)膬?nèi)積函數(shù)實(shí)現(xiàn)的.目前支持向量機(jī)已經(jīng)發(fā)展了很多種,如 C-SVC、ν-SVC、ε-SVR、ν-SVR等,筆者建立的富營(yíng)養(yǎng)化模型主要是基于支持向量回歸(support vector regression,SVR)方法進(jìn)行的,采用的是ε-SVR.
將式(2)風(fēng)險(xiǎn)最小化問(wèn)題轉(zhuǎn)化為求解約束優(yōu)化問(wèn)題,并采用對(duì)偶理論和 Lagrange乘子法進(jìn)行變換,該優(yōu)化問(wèn)題的對(duì)偶形式為
利用最優(yōu)化理論中的二次型規(guī)劃方法求解可得拉格朗日乘子 α 和 α*,α 和 α*只有一小部分不為 0,它們對(duì)應(yīng)的樣本就是支持向量(support vector,SV).再根據(jù)凸二次規(guī)劃的 Karush-Kuhn-Tucker(KKT)條件求得偏置b.由此可得支持向量回歸機(jī)的決策函數(shù)
當(dāng)樣本集為非線性可分問(wèn)題時(shí),引入了核函數(shù)將輸入樣本通過(guò)非線性函數(shù)Φ映射到一個(gè)高維的Hilbert空間,在該空間中構(gòu)造并求解最優(yōu)分類面.所謂核函數(shù)就是在輸入空間中存在一個(gè)函數(shù) K(x,x'),滿足 K(x,x')=(Φ(x)Φ(x')).非線性求解將式(3)中的(xi,xj)替換為 K(xi,xj)即可.
由統(tǒng)計(jì)學(xué)習(xí)理論可知,只要任意函數(shù)滿足Mercer條件,就可作為核函數(shù).應(yīng)用核函數(shù)可避免直接計(jì)算(Φ(x)Φ(x')),從而解決由于模式升維而引起的“維數(shù)災(zāi)難”問(wèn)題,使得在沒(méi)有增加復(fù)雜度情況下,智能學(xué)習(xí)在高維特征空間成為可能.目前常見(jiàn)核函數(shù)有以下幾種:多項(xiàng)式核 K(x,xi)=(γx·xi+γ0)d;徑向基核(radial basis function,RBF)K(x,xi)=exp(-γ‖xxi‖2);Sigmoid 核 K(x,xi)=tanh(γ xxi+γ0).
遺傳算法(genetic algorithm,GA)是一類具有很強(qiáng)魯棒性的優(yōu)化算法,隱含并行性和全局搜索特性是其兩大顯著特征.利用遺傳算法求解問(wèn)題,首先必須對(duì)每個(gè)可行解進(jìn)行編碼,從而將解空間變換為染色體空間,并定義染色體的適應(yīng)度,使得較優(yōu)個(gè)體的適應(yīng)度也較高.然后再對(duì)種群施加遺傳算子如選擇、交叉、變異等操作,使得群體不斷向著最優(yōu)解的方向進(jìn)化.
選定渤海灣近岸的一個(gè)監(jiān)控區(qū)作為研究對(duì)象.模型建立與驗(yàn)證的數(shù)據(jù)采用該監(jiān)控區(qū)的實(shí)測(cè)數(shù)據(jù)資料.在渤海灣 N38°49′20″~38°55′00″,E117°37′00″~117°50′00″的范圍內(nèi)共設(shè) 6 個(gè)站位.分別在2006和 2007年 6~10月期間,每 2周一次,對(duì)監(jiān)控區(qū)的表層海水進(jìn)行了共 20多次的水質(zhì)監(jiān)測(cè),監(jiān)測(cè)指標(biāo)包括表層水溫、透明度、pH值、鹽度、化學(xué)需氧量(chemical oxygen demand,COD)、溶解氧(dissolved oxygen,DO)、溶解氧飽和度(DO%)、活性硅酸鹽(Si)、磷酸鹽(P)、硝基氮、亞硝基氮、氨氮以及葉綠素a的質(zhì)量濃度等13項(xiàng).
富營(yíng)養(yǎng)化是指水體中營(yíng)養(yǎng)物質(zhì)增加,水生生物特別是浮游藻類大量繁殖,使生物量的種群、種類以及數(shù)量發(fā)生改變,破壞了水體的生態(tài)平衡.藻類中葉綠素 a(Chla)是葉綠素主要成分,其含量高低與水體藻類的種類、數(shù)量等密切相關(guān),其濃度影響水色、水質(zhì)及水中初級(jí)生產(chǎn)力,是表征水體富營(yíng)養(yǎng)化現(xiàn)象及其程度的最重要的指示劑之一.分析葉綠素 a的含量與動(dòng)態(tài),可以快速簡(jiǎn)便地了解浮游植物生物量狀況及其變化趨勢(shì),在一定程度上反映水體富營(yíng)養(yǎng)化狀況.因此,確定葉綠素a的含量作為富營(yíng)養(yǎng)化預(yù)測(cè)模型的輸出,即
為了對(duì)原始數(shù)據(jù)中的冗余信息進(jìn)行處理,提取更有用的信息,首先對(duì)數(shù)據(jù)進(jìn)行平滑處理,以剔除奇異值;其次,為了消除各屬性數(shù)據(jù)的單位差異以及數(shù)值量綱上的差異,對(duì)原始數(shù)據(jù)進(jìn)行歸一化處理(防止計(jì)算溢出),使之落入一個(gè)小的特定的區(qū)域[0,1],對(duì)樣本的輸入和輸出變量分別用下式進(jìn)行歸一化處理
由于有多種核函數(shù),設(shè)計(jì) SVM 一個(gè)重要步驟就是選擇核函數(shù)和核參數(shù).Vapnik[10]的研究表明,SVM的性能與所選用的核函數(shù)類型關(guān)系不大,而核參數(shù)和誤差懲罰因子C是影響SVM性能的主要因素.RBF核函數(shù)是一個(gè)普適的核函數(shù),只有一個(gè)可控參數(shù),通過(guò)參數(shù)的選擇,它可以適用于任意分布的樣本且輸出權(quán)值由算法自動(dòng)確定.同時(shí)考慮到富營(yíng)養(yǎng)化的高度非線性和復(fù)雜性,選擇了RBF核函數(shù),此時(shí),SVM回歸方法中的參數(shù)主要有不靈敏參數(shù)ε、懲罰常數(shù)C和RBF核參數(shù)γ.
一般情況下 ε越大,支持向量數(shù)目就越少,解就越稀疏,超平面的復(fù)雜程度越低.文獻(xiàn)[11]表明,對(duì)于ε的不同取值,預(yù)測(cè)誤差隨參數(shù)對(duì)(γ,C)具有相似的變化趨勢(shì),表明 ε的選取在某種程度上獨(dú)立于(γ,C)的選擇.因此,可以先確定 ε,把三參數(shù)優(yōu)化問(wèn)題轉(zhuǎn)化為二參數(shù)優(yōu)化問(wèn)題.核參數(shù)γ的改變實(shí)際上是隱含地改變映射函數(shù)從而改變樣本數(shù)據(jù)子空間分布的復(fù)雜程度(維數(shù)).如果數(shù)據(jù)子空間維數(shù)很高,則得到的最優(yōu)分類面就可能比較復(fù)雜,經(jīng)驗(yàn)風(fēng)險(xiǎn)小但置信范圍大;反之亦然.要想得到推廣能力良好的 SVM 回歸器,需選擇合適的核函數(shù) γ將數(shù)據(jù)投影到合適的特征空間.在確定的數(shù)據(jù)子空間中,C的取值小表示對(duì)經(jīng)驗(yàn)誤差的懲罰小,學(xué)習(xí)機(jī)器的復(fù)雜度小而經(jīng)驗(yàn)風(fēng)險(xiǎn)值較大;反之亦然.前者稱為“欠學(xué)習(xí)”現(xiàn)象,而后者則為“過(guò)學(xué)習(xí)”.當(dāng) C超過(guò)一定值時(shí),SVM 的復(fù)雜度達(dá)到了數(shù)據(jù)子空間允許的最大值,此時(shí)經(jīng)驗(yàn)風(fēng)險(xiǎn)和推廣能力幾乎不再變化.
參數(shù)調(diào)整通常以最小化推廣誤差的估計(jì)來(lái)實(shí)現(xiàn),交叉驗(yàn)證誤差是推廣誤差一種近似無(wú)偏估計(jì).所謂交叉驗(yàn)證是將學(xué)習(xí)樣本先隨機(jī)地分成 k個(gè)同樣大小數(shù)量的子集,用 k-1個(gè)子集作為訓(xùn)練樣本,預(yù)測(cè)那個(gè)沒(méi)有參加訓(xùn)練的子集,共需進(jìn)行k次.這樣全部數(shù)據(jù)中每個(gè)樣本點(diǎn)都被預(yù)測(cè)一遍,準(zhǔn)確率是比較穩(wěn)定的.
在實(shí)際應(yīng)用中,SVR參數(shù)的確定方法主要有經(jīng)驗(yàn)確定、網(wǎng)格搜索等.經(jīng)驗(yàn)確定是按照樣本的分布規(guī)律,對(duì)各個(gè)參數(shù)給出經(jīng)驗(yàn)估計(jì)值,這需要使用者有較深厚的SVR理論基礎(chǔ),對(duì)于非專業(yè)人員并不適合;網(wǎng)格搜索是將3個(gè)參數(shù)所處的空間劃分成網(wǎng)格,在每一個(gè)網(wǎng)格點(diǎn)上逐一實(shí)驗(yàn)以確定最優(yōu)參數(shù),計(jì)算量隨著參數(shù)數(shù)量的增加呈指數(shù)增長(zhǎng),對(duì)于實(shí)際中很多大型回歸分析問(wèn)題由于計(jì)算量太大而不實(shí)用.而遺傳算法具有很強(qiáng)的全局搜索能力,且不依賴于特定的求解模型,故筆者采用遺傳算法對(duì)支持向量機(jī)的參數(shù)進(jìn)行智能選取.具體實(shí)現(xiàn)如下.
(1) 編碼及初始種群 采用浮點(diǎn)數(shù)方式進(jìn)行編碼,設(shè)定 γ、C 的搜索空間分別為:(0,50)、(0,50),初始種群由完全隨機(jī)的方法產(chǎn)生.
(2) 適應(yīng)度函數(shù) 為了使相近回歸精度下的最優(yōu)分類面結(jié)構(gòu)盡可能簡(jiǎn)單,適應(yīng)度函數(shù)除考慮交叉驗(yàn)證的均方根誤差外,還加入了一個(gè)復(fù)雜度控制項(xiàng).在實(shí)際計(jì)算中,適應(yīng)度通常按照目標(biāo)函數(shù)值從小到大的順序來(lái)取值的,此時(shí)的目標(biāo)函數(shù)為
式中:E是SVM 在訓(xùn)練樣本集的交叉驗(yàn)證均方根誤差;svn和n分別為支持向量數(shù)和訓(xùn)練樣本數(shù).
(3) 遺傳操作(選擇、交叉、變異) 用隨機(jī)遍歷抽樣與最優(yōu)個(gè)體保留策略相結(jié)合的方法對(duì)個(gè)體進(jìn)行選擇;交叉采用具有突變特征的線性重組;變異操作采用遺傳算法育種器的變異算子.
從一組特征中挑選出一些最有效的、最有代表性的特征以達(dá)到降低特征空間維數(shù)的目的,這就是特征選擇.筆者利用遺傳算法對(duì)支持向量機(jī)的輸入空間進(jìn)行特征選擇,以期了解在渤海灣富營(yíng)養(yǎng)化中哪些特征更具有代表性.其方法簡(jiǎn)述為:
(1)編碼及初始種群 采用二進(jìn)制編碼,每一位二進(jìn)制數(shù)字對(duì)應(yīng)一個(gè)特征.把訓(xùn)練集上所有特征(即式(5)中的 12個(gè)自變量),分別對(duì)應(yīng)染色體上不同的位 (共12位).當(dāng)某位的數(shù)字為 1時(shí),表示這個(gè)特征被選中,否則沒(méi)被選中.用隨機(jī)方法生成初始種群.
(2)適應(yīng)度函數(shù) 根據(jù)染色體各個(gè)位的二進(jìn)制信息,把對(duì)應(yīng)的特征組成訓(xùn)練集,作為 SVM 的輸入,調(diào)用遺傳算法優(yōu)化SVM 參數(shù)過(guò)程建立 SVM 模型.為尋找富營(yíng)養(yǎng)化模型最有效的特征,應(yīng)使訓(xùn)練模型誤差和預(yù)測(cè)模型誤差都盡可能小,同時(shí)兩誤差不應(yīng)差別過(guò)大,因此將計(jì)算適應(yīng)度值的目標(biāo)函數(shù)確定為
即為訓(xùn)練模型和預(yù)測(cè)模型均方根誤差的平方之和.
(3) 遺傳操作(選擇、交叉、變異) 用隨機(jī)遍歷抽樣與最優(yōu)個(gè)體保留策略相結(jié)合方法對(duì)個(gè)體進(jìn)行選擇,種群交叉和變異分別采用單點(diǎn)交叉、離散變異算子.
對(duì)原始監(jiān)測(cè)數(shù)據(jù)進(jìn)行前處理(去噪和歸一化)之后,首先考慮在無(wú)特征選擇時(shí),利用遺傳算法進(jìn)行參數(shù)優(yōu)選,建立渤海灣富營(yíng)養(yǎng)化的 SVM 模型;其次,利用遺傳算法進(jìn)行特征選擇,分析對(duì)富營(yíng)養(yǎng)化產(chǎn)生作用的主要特征因子.為了便于比較分析模型性能,采用以下兩個(gè)統(tǒng)計(jì)量來(lái)評(píng)價(jià)模型的擬合程度和預(yù)測(cè)效果,這兩個(gè)統(tǒng)計(jì)量是均方根誤差σ和確定系數(shù)r2,即
取交互驗(yàn)證的次數(shù) k為 10,選取遺傳算法操作過(guò)程的相關(guān)參數(shù)如下:種群個(gè)體數(shù)為 40,最大遺傳代數(shù)為100,遺傳代溝為0.9.單參數(shù)ε的選取相當(dāng)于一個(gè)一維優(yōu)化問(wèn)題,給定 ε的取值范圍并離散化,取不同的離散值使遺傳算法目標(biāo)函數(shù)值最小,經(jīng)計(jì)算選 ε為 0.01.遺傳算法的進(jìn)化過(guò)程如圖 1所示,經(jīng) 40次遺傳迭代后,種群目標(biāo)函數(shù)最小值幾乎達(dá)到穩(wěn)定,可以認(rèn)為達(dá)到了近似最優(yōu)解,而種群目標(biāo)函數(shù)的平均值上下波動(dòng)表明種群是有活力的.
圖1 遺傳進(jìn)化的過(guò)程Fig.1 Process of genetic evolution
在GA進(jìn)化的最后一代里包含很多優(yōu)秀個(gè)體,部分優(yōu)秀個(gè)體及SVM性能見(jiàn)表1,可以看出參數(shù)C和γ在一定的小范圍內(nèi)波動(dòng)對(duì)模型性能影響不大,如個(gè)體 1、2、3.個(gè)體 4表明當(dāng)參數(shù) C取相對(duì)小的數(shù)時(shí)模型訓(xùn)練誤差較大;個(gè)體 5表明參數(shù) C取相對(duì)大的數(shù)時(shí),SVM 的訓(xùn)練效果較好,r2達(dá)到 90.50%,但模型的泛化能力較弱,預(yù)測(cè)效果中 r2只有 60.20%,與理論分析相吻合.表1中還列出了網(wǎng)格搜索優(yōu)化SVM參數(shù)的結(jié)果.參數(shù)C和γ分別在[0 10]范圍內(nèi),以0.001為步長(zhǎng)進(jìn)行網(wǎng)絡(luò)搜索,模型效果較好,但略差于 GA的優(yōu)化結(jié)果.
表1 SVM模型參數(shù)優(yōu)化的結(jié)果比較Tab.1 Comparison of SVM model results based on parameters optimization
以個(gè)體3為例,將所建立的GA優(yōu)化SVM參數(shù)模型的模擬結(jié)果和預(yù)測(cè)結(jié)果與 Chla的實(shí)測(cè)值進(jìn)行了比較(見(jiàn)圖2).可以看出,由式(5)所建立的模型基本上能表達(dá)實(shí)測(cè)值的變化趨勢(shì),在一定范圍內(nèi)滿足了要求.為取得更滿意的結(jié)果,將對(duì)模型的輸入進(jìn)行特征提取,用GA實(shí)現(xiàn)這一目的.
圖2 SVM模型結(jié)果與實(shí)測(cè)值的比較Fig.2 Comparison of SVM model results with field data
按第 3.3節(jié)的步驟進(jìn)行GA-SVM 富營(yíng)養(yǎng)化模型特征選擇,選取遺傳算法操作過(guò)程的相關(guān)參數(shù)如下:種群個(gè)體數(shù)為40,最大遺傳代數(shù)為50,遺傳代溝為0.9.特征選擇結(jié)果中最優(yōu)的3個(gè)個(gè)體結(jié)果如表2所示.
表2 GA特征選擇的SVM模型結(jié)果Tab.2 Results of SVM model with GA-based feature selection
從表2中可以看出,優(yōu)選的特征中若只有T、pH、S、COD、DO%、NH3-N 時(shí),SVM 富營(yíng)養(yǎng)化模型的性能達(dá)到最好,訓(xùn)練誤差和預(yù)測(cè)誤差都比較小,而且兩者接近,可以認(rèn)為模型的泛化能力達(dá)到最佳狀態(tài).
為充分了解各因素對(duì)模型的影響及貢獻(xiàn)情況,從敏感性角度出發(fā),對(duì)無(wú)特征選擇的GA-SVM模型進(jìn)行敏感性分析.即基于實(shí)測(cè)資料,通過(guò)改變某一變量(增加 10%或減少 10%),而其他變量不變,利用已建立的SVM模型,計(jì)算輸出值的相對(duì)變化值,以此得到該變量敏感度.以個(gè)體3為例,分析結(jié)果見(jiàn)圖3所示.
圖3 無(wú)特征選擇SVM模型的敏感度分析Fig.3 Sensitivity analysis of SVM model without feature selection
敏感度分析的結(jié)果與特征選擇結(jié)果有較好的吻合,都顯示了 T、pH 值、S、COD、DO%、氨氮對(duì) Chla有較強(qiáng)的表征能力.
對(duì)于控制渤海灣富營(yíng)養(yǎng)化來(lái)說(shuō),水溫是天氣氣候等的綜合作用,人為很難控制,而 pH值和 DO%是綜合指標(biāo),由物理、生物和化學(xué)多種復(fù)雜過(guò)程影響,不易控制.因此COD、鹽度及氨氮可作為人為控制的首要指標(biāo).COD最能表征出人類活動(dòng)(生活污水和工業(yè)廢水)對(duì)水體的污染,需進(jìn)行有效地管理控制;鹽度對(duì)藻類生長(zhǎng)繁殖、魚(yú)類產(chǎn)卵等活動(dòng)有重要的影響,而近岸海域鹽度主要受流域徑流的影響,因此,在不加重污染的前提下,需加強(qiáng)利用流域徑流這一環(huán)節(jié)來(lái)調(diào)節(jié)近岸海域的鹽度;氨氮中的氮元素與浮游植物體內(nèi)氨基酸中氮的價(jià)態(tài)相同,易被浮游植物吸收利用,可側(cè)重于通過(guò)調(diào)查研究渤海灣中氨氮的輸入、分布及轉(zhuǎn)化特性,從而有效控制渤海灣浮游植物的生長(zhǎng)繁殖.
(1) 通過(guò)對(duì)支持向量機(jī)各參數(shù)響應(yīng)的研究,利用自適應(yīng)的遺傳算法對(duì)懲罰常數(shù)C和RBF核參數(shù)γ進(jìn)行啟發(fā)式尋優(yōu),GA適應(yīng)度函數(shù)考慮了最優(yōu)分類面的結(jié)構(gòu)簡(jiǎn)單性.以渤海灣實(shí)測(cè)資料為依據(jù),Chla質(zhì)量濃度的預(yù)測(cè)均方誤差控制在1.831,μg/L內(nèi),表明所建立的GA-SVM模型具有較好的認(rèn)知、泛化能力.
(2) 為提取富營(yíng)養(yǎng)化模型中更具有代表性的特征變量,利用遺傳算法二進(jìn)制編碼及啟發(fā)式尋優(yōu)的優(yōu)點(diǎn),綜合考慮 SVM 富營(yíng)養(yǎng)化模型的訓(xùn)練誤差和預(yù)測(cè)誤差,對(duì)渤海灣富營(yíng)養(yǎng)化影響因子進(jìn)行特征選擇,結(jié)合無(wú)特征選擇時(shí) GA-SVM 模型的敏感性分析,提取出代表性的特征變量有:海水表層水溫、pH值、鹽度、化學(xué)需氧量、溶解氧的飽和度以及氨氮.特征提取后預(yù)測(cè)均方誤差最小可達(dá)到 1.363 μg/L,模型性能有了很大提高.
(3) 通過(guò)特征選擇和敏感性分析,結(jié)合可操作性,在渤海灣富營(yíng)養(yǎng)化的控制中,可考慮將 COD、鹽度及氨氮作為人為控制的首要指標(biāo).
[1]Sun Jian,Tao Jianhua. Relation matrix of water exchange for sea bays and its application[J]. China Ocean Engineering,2006,20(4):529-544.
[2]盧小燕,徐福留,詹 巍,等. 湖泊富營(yíng)養(yǎng)化模型的研究現(xiàn)狀與發(fā)展趨勢(shì)[J]. 水科學(xué)進(jìn)展,2003,14(6):792-798.
Lu Xiaoyan,Xu Fuliu,Zhan Wei,et al. Current situation and development trends in lake eutrophication models[J].Advances in Water Science,2003,14(6):792-798(in Chinese).
[3]Handan Camdevyren,Nilsun Demyr,Arzu Kanik,et al.Use of principal component scores in multiple linear regression models for prediction of Chlorophyll-a in reservoirs[J].Ecological Modelling,2005,181:581-589.
[4]Malmaeus J M,Hakanson L. A dynamic model to predict suspended particulate matter in lakes[J].Ecological Modelling,2003,167(3):247-262.
[5]Chen Qiuwen,Mynett A E. Modelling algal blooms in the Dutch coastal waters by integrated numerical and fuzzy cellular automata approaches[J].Ecological Modelling,2006,199(1):73-81.
[6]Yao Z H,F(xiàn)ei M R,Li K,et al. Recognition of blue-green algae in lakes using distributive genetic algorithm based neural networks[J].Neurocompution,2007,70(4/5/6):641-647.
[7]Velo-Suarez L,Gutierrez-Estrada J C. Artificial neural network approaches to one-step weekly prediction of dinophysis acuminate blooms in Huelva[J].Harmful Algae,2007(6):361-371.
[8]馮劍豐,王洪禮,李勝朋. 基于支持向量機(jī)的浮游植物密度預(yù)測(cè)研究[J]. 海洋環(huán)境科學(xué),2007,26(5):438-441.
Feng Jianfeng,Wang Hongli,Li Shengpeng. Research on prediction of phytoplankton’s density using support vector machines[J].Marine Environmental Science,2007,26(5):438-441(in Chinese).
[9]Behzad M,Asghari K,Eazi M,et al. Generalization performance of support vector machines and neural networks in runoff modeling[J].Expert Systems with Applications,2009,36:7624-7629.
[10]Vapnik V N. 統(tǒng)計(jì)學(xué)習(xí)理論的本質(zhì)[M]. 張學(xué)工,譯.北京:清華大學(xué)出版社,2000.
Vapnik V N.Statistical Learning Theory[M]. Zhang Xuegong,Trans. Beijing:Tsinghua University Press,2000(in Chinese).
[11]劉靖旭,蔡懷平,譚躍進(jìn). 支持向量回歸參數(shù)調(diào)整的一種啟發(fā)式算法[J]. 系統(tǒng)仿真學(xué)報(bào),2007,19(7):1540-1547.
Liu Jingxu,Cai Huaiping,Tan Yuejin. Heuristic algorithm for tuning hyperparameters in support vector regression[J].Journal of System Simulation,2007,19(7):1540-1547(in Chinese).
Eutrophication Model of Bohai Bay Based on GA-SVM
XIANG Xian-quan1, TAO Jian-hua2
(1. School of Environmental Science and Engineering,Tianjin University,Tianjin 300072,China;2. School of Mechanical Engineering,Tianjin University,Tianjin 300072,China)
For better simulating and cognizing the complex eutrophication behaviors of Bohai Bay,the combining forms of genetic algorithm and support vector machine (parameter optimization and feature selection) have been researched to establish GA-SVM eutrophication model for Bohai Bay based on the field measured data,and chlorophyll_a content has been selected as the model output. Firstly, with GA self-adaptive optimizing for penalty parameter and kernel parameter, the root mean square error (RMSE) of SVM test model was 1.831 μg/L,indicating preferable generalization performance. Then,with GA-based feature selection for the established SVM model,RMSE of SVM test model was 1.363 μg/L,showing great improvement for model performance. The representative features were extracted such as DO%,pH,water temperature,COD,salinity,and ammonia-nitrogen,the latter three of which could be considered as prior indexes for artificial control of eutrophication based on further analysis.
eutrophication model;support vector machine;genetic algorithm;parameters optimization;feature selection;Bohai Bay
X171;TP181
A
0493-2137(2011)03-0215-06
2010-01-07;
2010-09-17.
國(guó)家自然科學(xué)基金資助項(xiàng)目(10872144).
向先全(1984— ),男,博士研究生,xxquan@tju.edu.cn.
陶建華,jhtao@tju.edu.cn.