張成成,沈愛(ài)春,張曉晴,陳求穩(wěn),3,*
(1.中國(guó)科學(xué)院生態(tài)環(huán)境研究中心,北京 100085;2.太湖流域管理局水文水資源監(jiān)測(cè)局,無(wú)錫 214024;3.三峽大學(xué),宜昌 443002)
富營(yíng)養(yǎng)化評(píng)價(jià)結(jié)果不僅可以客觀反映水環(huán)境的質(zhì)量和污染狀況,而且能為富營(yíng)養(yǎng)化防治、管理和決策提供依據(jù)和指導(dǎo)。從本質(zhì)上講,富營(yíng)養(yǎng)化評(píng)價(jià)是一個(gè)多指標(biāo)分類問(wèn)題,各指標(biāo)與分類等級(jí)之間存在復(fù)雜、非線性和不確定的關(guān)系[1]。近年來(lái),智能方法在富營(yíng)養(yǎng)化評(píng)價(jià)方面獲得了大量應(yīng)用,如模糊評(píng)價(jià)法[2-4]、灰色理論評(píng)價(jià)法[5-6]、進(jìn)化算法評(píng)價(jià)法[7-8]、人工神經(jīng)網(wǎng)絡(luò)評(píng)價(jià)法[9-10]等。這些方法對(duì)富營(yíng)養(yǎng)化評(píng)價(jià)的發(fā)展起到了一定的促進(jìn)作用,但在評(píng)價(jià)過(guò)程中尚存在不足[11]。其中,模糊評(píng)價(jià)法和灰色評(píng)價(jià)法在確定評(píng)價(jià)函數(shù)結(jié)構(gòu)和評(píng)價(jià)指標(biāo)權(quán)重方面存在較大的主觀性,進(jìn)化算法評(píng)價(jià)法主要用于對(duì)現(xiàn)有評(píng)價(jià)模型進(jìn)行參數(shù)的優(yōu)化選取,而人工神經(jīng)網(wǎng)絡(luò)評(píng)價(jià)法存在固有的網(wǎng)絡(luò)結(jié)構(gòu)難以確定、容易陷入局部最優(yōu)以及無(wú)法保證模型泛化性等問(wèn)題。支持向量機(jī)(Support Vector Machine,SVM)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的新型機(jī)器學(xué)習(xí)算法[12],比較適用于解決富營(yíng)養(yǎng)化評(píng)價(jià)這類非線性多指標(biāo)分類問(wèn)題[13-15]。雖然它在建模過(guò)程和形式上與人工神經(jīng)網(wǎng)絡(luò)法相似,但理論基礎(chǔ)完全不同,且有效克服了人工神經(jīng)網(wǎng)絡(luò)法收斂性和泛化性的不足,具有較好的應(yīng)用前景。
目前,應(yīng)用支持向量機(jī)法進(jìn)行太湖富營(yíng)養(yǎng)化評(píng)價(jià)方面的研究尚比較少,本研究采用該方法建立了太湖的富營(yíng)養(yǎng)化評(píng)價(jià)模型,并進(jìn)行了實(shí)際應(yīng)用,以期為太湖的富營(yíng)養(yǎng)化評(píng)價(jià)提供一種新的可選方法。
支持向量機(jī)(SVM)是Cortes和Vapnik于1995年首先提出的,它在解決小樣本、非線性及高維模式識(shí)別中表現(xiàn)出許多特有的優(yōu)勢(shì),并能夠推廣應(yīng)用到函數(shù)擬合等其他機(jī)器學(xué)習(xí)問(wèn)題中[16]。其基本思想是,利用核函數(shù)(Kernel Function)將低維空間中線性不可分的點(diǎn)映射成高維特征空間中線性可分的點(diǎn),并通過(guò)劃分超平面,使所有的點(diǎn)到分類超平面的距離最大化。
所謂的支持向量,指的是高維空間中那些距離分類超平面最近的點(diǎn)對(duì)應(yīng)的低維空間點(diǎn)。它們來(lái)源于原始樣本,對(duì)分類超平面的位置起決定作用。換言之,就是它們支持起了分類超平面。
將向量從低維空間向高維空間映射,會(huì)使計(jì)算復(fù)雜度變大。為此,SVM中引入了核函數(shù),從而巧妙地避免了這個(gè)問(wèn)題。核函數(shù)能接受兩個(gè)低維空間向量,計(jì)算出它們?cè)诟呔S空間中的內(nèi)積值。常用的核函數(shù)有:
線性核函數(shù)
多項(xiàng)式核函數(shù)
徑向基核函數(shù)(Radial Basis Function,簡(jiǎn)稱RBF)
Sigmoid核函數(shù)
式中,K為核函數(shù);xi、xj為兩個(gè)低維空間列向量,在本研究中,代表兩組不同的樣本,且列向量中的每一個(gè)分量對(duì)應(yīng)一個(gè)輸入變量;d、γ和r為核參數(shù)。
由于RBF核函數(shù)能夠?qū)颖痉蔷€性地映射到更高維空間,且數(shù)值條件和參數(shù)數(shù)目相對(duì)較少,對(duì)模型選擇的復(fù)雜度影響較小[13],一般都將其作為首選。確定核函數(shù)后,需對(duì)相應(yīng)參數(shù)進(jìn)行優(yōu)化選取,通常采用基于交叉驗(yàn)證思想的網(wǎng)格搜索法[17]。SVM的輸入和輸出,一般如圖1所示。
選取合適的評(píng)價(jià)標(biāo)準(zhǔn),對(duì)于評(píng)價(jià)結(jié)果的合理性與客觀性至關(guān)重要。目前,我國(guó)廣泛使用的富營(yíng)養(yǎng)評(píng)價(jià)方法有兩種,一是中國(guó)環(huán)境監(jiān)測(cè)總站于2001年底推薦使用的綜合營(yíng)養(yǎng)狀態(tài)指數(shù)法(簡(jiǎn)稱TLI法)[18],二是中國(guó)水利部《地表水資源質(zhì)量評(píng)價(jià)技術(shù)規(guī)程》(SL395—2007)中采用的線性插值評(píng)分法(簡(jiǎn)稱SCO法)。在評(píng)價(jià)指標(biāo)選取和營(yíng)養(yǎng)類型劃分上,二者是一致的。本研究采用與SCO法對(duì)應(yīng)的湖庫(kù)富營(yíng)養(yǎng)化程度評(píng)價(jià)標(biāo)準(zhǔn)(表1)。
圖1 支持向量機(jī)的輸入和輸出Fig.1 The inputs and outputs of SVM
表1 湖庫(kù)富營(yíng)養(yǎng)化程度評(píng)價(jià)標(biāo)準(zhǔn)Table 1 The eutrophication evaluation standard of lakes and reservoirs
為了消除不同量級(jí)數(shù)據(jù)對(duì)評(píng)價(jià)結(jié)果的影響,按照公式5對(duì)表1中的評(píng)價(jià)指標(biāo)和太湖實(shí)測(cè)數(shù)據(jù)進(jìn)行了歸一化處理:
式中,X'為數(shù)據(jù)X歸一化后的值,Xmin、Xmax分別為表1中與X對(duì)應(yīng)的評(píng)價(jià)指標(biāo)的最小值和最大值。
在經(jīng)過(guò)歸一化處理的每個(gè)區(qū)間范圍內(nèi)隨機(jī)生成100組樣本,以其中的60組作為訓(xùn)練樣本,剩余的40組作為驗(yàn)證樣本。共獲得訓(xùn)練樣本540組,驗(yàn)證樣本360組。將5種營(yíng)養(yǎng)等級(jí)分別“標(biāo)記”為{1,2,3,4,5},作為模型輸出的目標(biāo)值。
研究中采用LIBSVM-3.16[19]軟件,對(duì)SVM分類算法進(jìn)行了實(shí)現(xiàn)。首先,設(shè)置核函數(shù)為RBF,相應(yīng)參數(shù)為懲罰因子 c和核參數(shù) g(公式 3 中的 γ);然后,設(shè)置 c∈{2-10,2-9,…,210},g∈{2-10,2-9,…,210},對(duì)訓(xùn)練樣本進(jìn)行5折交叉驗(yàn)證,得到最佳參數(shù)為c=4,g=32;接著,按最佳參數(shù)取值,代入訓(xùn)練樣本進(jìn)行訓(xùn)練,即可建立評(píng)價(jià)模型;最后,將驗(yàn)證樣本代入評(píng)價(jià)模型,得到驗(yàn)證準(zhǔn)確率為100%(360/360)。
由《2012太湖健康狀況報(bào)告》可知,太湖通常被劃分為9個(gè)湖區(qū)(圖2),各湖區(qū)富營(yíng)養(yǎng)化狀況不同。每年的夏季和秋季,為藍(lán)藻水華發(fā)生較為嚴(yán)重的時(shí)期。為使評(píng)價(jià)結(jié)果更具代表性,選取對(duì)太湖33個(gè)監(jiān)測(cè)點(diǎn)(圖2)2012年7—9月份的月監(jiān)測(cè)數(shù)據(jù)(共99組)進(jìn)行營(yíng)養(yǎng)狀況評(píng)價(jià)。研究所采用的數(shù)據(jù)通過(guò)合作從太湖流域管理局水文水資源監(jiān)測(cè)局獲得。
圖2 太湖分區(qū)及33個(gè)監(jiān)測(cè)點(diǎn)位置Fig.2 The partitions of Taihu Lake and the locations of 33 monitoring sites
分別運(yùn)用SVM評(píng)價(jià)法和SCO評(píng)價(jià)法,對(duì)99組數(shù)據(jù)進(jìn)行評(píng)價(jià),得到33個(gè)監(jiān)測(cè)點(diǎn)7—9月的營(yíng)養(yǎng)類型如圖3所示,評(píng)分值以及兩種方法的評(píng)價(jià)營(yíng)養(yǎng)等級(jí)如表2所示。經(jīng)統(tǒng)計(jì),兩種評(píng)價(jià)法的結(jié)果一致率為78.8%(其中,7月份為100%,8月份為60.6%,9月份為75.8%),其中不一致的個(gè)例均屬于相鄰營(yíng)養(yǎng)等級(jí)。
通過(guò)對(duì)兩種方法的評(píng)價(jià)結(jié)果進(jìn)行綜合可知,2012年7—9月份,太湖水體共出現(xiàn)3種營(yíng)養(yǎng)類型,分別為中營(yíng)養(yǎng)、輕度富營(yíng)養(yǎng)和中度富營(yíng)養(yǎng)。其中,中營(yíng)養(yǎng)主要分布于東太湖,輕度富營(yíng)養(yǎng)主要分布于湖心區(qū)和東部沿岸區(qū),中度富營(yíng)養(yǎng)主要分布于西北部湖區(qū),這種水質(zhì)分布狀況與張曉晴等[20]的研究結(jié)果基本一致。太湖水體整體表現(xiàn)為輕度到中度富營(yíng)養(yǎng)狀態(tài)。
圖3 SVM和SCO方法對(duì)太湖33個(gè)監(jiān)測(cè)點(diǎn)7—9月?tīng)I(yíng)養(yǎng)狀態(tài)的評(píng)價(jià)結(jié)果比較Fig.3 Comparison results of Taihu Lake's 33 monitoring sites from July to September evaluated by the two methods
表2 評(píng)分值以及兩種方法的評(píng)價(jià)營(yíng)養(yǎng)等級(jí)Table 2 Scores and the evaluated eutrophication degrees of two methods
續(xù)表
在7月份的評(píng)價(jià)結(jié)果中,SVM法得出太湖大部分水域的營(yíng)養(yǎng)類型為輕度富營(yíng)養(yǎng),竺山湖為中度富營(yíng)養(yǎng),東太湖為中營(yíng)養(yǎng);SCO法得出的結(jié)果和SVM法結(jié)果一致。
在8月份的評(píng)價(jià)結(jié)果中,SVM法得出太湖大部分區(qū)域?yàn)檩p富,竺山湖、梅梁湖為中富;SCO法評(píng)價(jià)結(jié)果顯示大部分區(qū)域?yàn)橹懈?,和SVM結(jié)果差異較大。
在9月份的評(píng)價(jià)結(jié)果中,SVM法得出太湖大部分區(qū)域?yàn)檩p富,竺山湖、梅梁湖為中富;SCO法評(píng)價(jià)結(jié)果顯示竺山湖、梅梁湖和少量西部湖區(qū)為中富,其余部分為輕富,總體上和SVM結(jié)果比較一致。
兩種方法評(píng)價(jià)結(jié)果存在不一致的原因主要如下:
(1)評(píng)價(jià)原理不同 在SCO評(píng)價(jià)法中,首先采用線性插值法將各評(píng)價(jià)指標(biāo)濃度值轉(zhuǎn)換為相應(yīng)的評(píng)分值,然后計(jì)算評(píng)分值的均值,并按其所處的區(qū)間范圍判斷營(yíng)養(yǎng)等級(jí);而在SVM評(píng)價(jià)法中,首先通過(guò)在評(píng)價(jià)標(biāo)準(zhǔn)各區(qū)間范圍內(nèi),隨機(jī)生成若干訓(xùn)練樣本,然后利用SVM的分類算法,對(duì)樣本進(jìn)行訓(xùn)練,獲得相應(yīng)的評(píng)價(jià)模型,最后利用模型對(duì)水體的營(yíng)養(yǎng)類型進(jìn)行評(píng)價(jià)。兩種方法評(píng)價(jià)原理的不同,會(huì)使評(píng)價(jià)結(jié)果產(chǎn)生差異。
(2)SVM評(píng)價(jià)法的建模過(guò)程存在隨機(jī)性 由于SVM法所用的訓(xùn)練樣本是隨機(jī)產(chǎn)生的,而不同的訓(xùn)練樣本,一般會(huì)得出不同的模型。這在一定程度上,也會(huì)對(duì)SVM評(píng)價(jià)模型的表現(xiàn)產(chǎn)生影響。
雖然兩種方法的評(píng)價(jià)結(jié)果一致率為78.8%,但以上的結(jié)果及其分析表明SVM評(píng)價(jià)法是有效的,能夠作為太湖富營(yíng)養(yǎng)化狀態(tài)評(píng)價(jià)的一種可選的新方法。但由于SVM方法基于低維變量和小樣本數(shù)據(jù),具有更好的泛化性;同時(shí)核函數(shù)的引入,提高了模型收斂性。
本研究根據(jù)已有的湖庫(kù)富營(yíng)養(yǎng)化程度評(píng)價(jià)標(biāo)準(zhǔn),建立了太湖富營(yíng)養(yǎng)化評(píng)價(jià)的支持向量機(jī)模型,然后分別運(yùn)用該模型和線性插值評(píng)分法(SCO),對(duì)太湖2012年7—9月33個(gè)站點(diǎn)的99組水質(zhì)數(shù)據(jù)進(jìn)行了評(píng)價(jià)。通過(guò)對(duì)評(píng)價(jià)結(jié)果的對(duì)比分析,得到以下結(jié)論:
(1)2012年7—9月份,太湖水體共出現(xiàn)3種營(yíng)養(yǎng)類型,中營(yíng)養(yǎng)主要分布于東太湖,輕度富營(yíng)養(yǎng)主要分布于湖心區(qū)和東部沿岸區(qū),中度富營(yíng)養(yǎng)主要分布于西北部湖區(qū),太湖水體整體表現(xiàn)為輕度到中度富營(yíng)養(yǎng)狀態(tài)。
(2)本研究建立的支持向量機(jī)評(píng)價(jià)模型能夠有效應(yīng)用于太湖富營(yíng)養(yǎng)化狀態(tài)評(píng)價(jià)。實(shí)際應(yīng)用表明兩種方法的評(píng)價(jià)結(jié)果一致率為78.8%,存在不一致的個(gè)例均屬于相鄰營(yíng)養(yǎng)等級(jí)??紤]到兩種方法的評(píng)價(jià)原理不同,且建模過(guò)程存在隨機(jī)性,78.8%的一致率是可以接受的,說(shuō)明運(yùn)用支持向量機(jī)建立太湖富營(yíng)養(yǎng)化評(píng)價(jià)模型是有效的,且具有更好的收斂性和泛化性。
[1]Wu M,Li ZY,Liu ZY,Li D P.Application of improved set pair analysis to assessment of lake eutrophication.Water Resources Protection,2009,25(2):5-9.
[2]Taheriyoun M,Karamouz M,Baghvand A.Development of an entropy-based fuzzy eutrophication index for reservoir water quality evaluation.Iranian Journal of Environmenal Health Science& Engineering,2010,7(1):1-14.
[3]Pappas J L.Phytoplankton assemblages,environmental influences and trophic status using canonical correspondence analysis,fuzzy relations,and linguistic translation.Ecological Informatics,2010,5(2):79-88.
[4]Zhang P,Huang Y L,Chen Y Y,Hu X L,Liu D F.Fuzzy mathematics for evaluation of eutrophication in Xiangxi Bay.Environmental Science&Technology,2012,35(6):173-179.
[5]Jiang L X,Yu SJ,Wei D B,Liu T,Zhang Z F.Grey situation decision method aplying to eutrophication evaluation for Lakes.Environmental Sciences and Management,2006,31(2):10-12.
[6]Hu L H,Pan A,Li T S,Li C Z,Wang Y H.Application of the grey clustering method to assessing the eutrophication of Shengzhong Reservoir.Journal of Agro-Environment Science,2008,27(6):2407-2412.
[7]Zou CW,Jin X C,Xiong J Q,Li Z Y.Evolutionary ant colony algorithm and its application in evaluating the eutrophic state of lake.Research of Environmental Sciences,2006,19(5):149-153.
[8]Dang Y,Li Z Y,Zou Y L.Lake eutrophic evaluation based on bee immune evolutionary algorithm.Journal of Anhui Agricultural Sciences,2010,38(16):8618-8619,8695.
[9]Lin G S,Huang X Y,Li J.Application of artificial neural network method on eutrophication assessment for Shenzhen Reservoirs.The Administration and Technique of Environmental Monitoring,2010,22(1):59-63.
[10]Cui D W.Applications of several neural network models to eutrophication evaluation of lakes and reservoirs.Water Resources Protection,2012,28(6):12-18.
[11]Zhang C L,F(xiàn)ang C,Huang W J.Comprehensive evaluation method of projection pursuit based on particle swarm optimization in lake Eutrophication.Journal of Anhui Agricultural Sciences,2010,38(27):14823-14825,14830.
[12]Vapnik V.The nature of statistical learning theory.New York:Springer Verlag,1995.
[13]Shi X,Xiong Q Y,Lei L N.A comparative study of eutrophication evaluation models based on SOM neural network and SVM.Journal of Chongqing University,2010,33(3):119-123.
[14]Yang D J,Wang R,Shen G.SVM and ANN applied to evaluation of lake eutrophication:A comparative study.Environmental Science&Technology,2012,35(1):173-177.
[15]Xu L,Wang JY,Zhang B,Li Z Y.A hybrid TS-SVM model for evaluation of lake eutrophication.Advanced Materials Research,2012,463-464:917-921.
[16]Liu X,Lu W.Study on the application of SVM in text classification.IT Education,2007,2:72-77.
[17]Hsu CW,Chang C C,Lin C J.A practical guide to support vector classification.http://www.csie.ntu.edu.tw/—cjlin/libsvm/index.html.
[18]Wang M C,Liu X Q,Zhang JH.Evaluate method and classification standard on lake entrophication.Environmental Monitoring in China,2002,18(5):47-49.
[19]Chang CC,Lin CJ.LIBSVM:a library for support vector machines.ACM Transactions on Intelligent Systems and Technology,2011,2(3):1-27.
[20]Zhang X Q,Chen Q W.Spatial-temporal characteristic of water quality in Lake Taihu and its relationship with algal bloom.Journal of Lake Sciences,2011,23(3):339-347.
參考文獻(xiàn):
[1]鄔敏,李祚泳,劉智勇,李大鵬.一種改進(jìn)的集對(duì)分析法在湖泊富營(yíng)養(yǎng)化評(píng)價(jià)中的應(yīng)用.水資源保護(hù),2009,25(2):5-9.
[4]張平,黃鈺鈴,陳媛媛,胡響鈴,劉德富.模糊數(shù)學(xué)在香溪河庫(kù)灣富營(yíng)養(yǎng)化評(píng)價(jià)中的應(yīng)用.環(huán)境科學(xué)與技術(shù),2012,35(6):173-179.
[5]蔣利鑫,于蘇俊,魏代波,劉濤,張子峰.湖泊富營(yíng)養(yǎng)化評(píng)價(jià)中的灰色局勢(shì)決策法.環(huán)境科學(xué)與管理,2006,31(2):10-12.
[6]胡麗慧,潘安,李鐵松,李成柱,王佑漢.灰色聚類法在升鐘水庫(kù)水體富營(yíng)養(yǎng)化評(píng)價(jià)中的應(yīng)用.農(nóng)業(yè)環(huán)境科學(xué)學(xué)報(bào),2008,27(6):2407-2412.
[7]鄒長(zhǎng)武,金相燦,熊建秋,李祚泳.進(jìn)化蟻群算法及其在湖泊富營(yíng)養(yǎng)化評(píng)價(jià)中的應(yīng)用.環(huán)境科學(xué)研究,2006,19(5):149-153.
[8]黨媛,李祚泳,鄒艷玲.基于蜜蜂免疫進(jìn)化算法的湖泊富營(yíng)養(yǎng)化評(píng)價(jià).安徽農(nóng)業(yè)科學(xué),2010,38(16):8618-8619,8695.
[9]林高松,黃曉英,李娟.人工神經(jīng)網(wǎng)絡(luò)在深圳市水庫(kù)富營(yíng)養(yǎng)化評(píng)價(jià)中的應(yīng)用.環(huán)境監(jiān)測(cè)管理與技術(shù),2010,22(1):59-63.
[10]崔東文.幾種神經(jīng)網(wǎng)絡(luò)模型在湖庫(kù)富營(yíng)養(yǎng)化程度評(píng)價(jià)中的應(yīng)用.水資源保護(hù),2012,28(6):12-18.
[11]張春樂(lè),方崇,黃偉軍.基于粒子群算法湖泊富營(yíng)養(yǎng)化評(píng)價(jià)的投影尋蹤方法.安徽農(nóng)業(yè)科學(xué),2010,38(27):14823-14825,14830.
[13]石欣,熊慶宇,雷璐寧.SOM網(wǎng)絡(luò)與SVM在水質(zhì)富營(yíng)養(yǎng)化評(píng)價(jià)中的對(duì)比.重慶大學(xué)學(xué)報(bào),2010,33(3):119-123.
[14]楊道軍,王冉,沈剛.SVM與ANN在湖泊富營(yíng)養(yǎng)化評(píng)價(jià)中的對(duì)比研究.環(huán)境科學(xué)與技術(shù),2012,35(1):173-177.
[16]劉霞,盧葦.SVM在文本分類中的應(yīng)用研究.計(jì)算機(jī)教育,2007,2:72-77.
[18]王明翠,劉雪芹,張建輝.湖泊富營(yíng)養(yǎng)化評(píng)價(jià)方法及分級(jí)標(biāo)準(zhǔn).中國(guó)環(huán)境監(jiān)測(cè),2002,18(5):47-49.
[20]張曉晴,陳求穩(wěn).太湖水質(zhì)時(shí)空特性及其與藍(lán)藻水華的關(guān)系.湖泊科學(xué),2011,23(3):339-347.