王旭生,王 昕,孫曉川+
(1.華北理工大學 理學院,河北 唐山 063210;2.華北理工大學 人工智能學院,河北 唐山 063210)
近年來,我國海洋污染日益嚴重,海洋災害逐年增加,海洋生態(tài)環(huán)境逐漸惡化[1]。海洋水質參數(shù)的變化直接影響海水水質的好壞,利用海洋監(jiān)測網(wǎng)絡對海洋環(huán)境進行持續(xù)的動態(tài)監(jiān)測,精確預測未來海水水質的變化,如何準確預測海水水質成為國內外學者研究的熱點。
海水水質受多種物理、化學和生物因素影響,且不同影響因素之間有一定的關聯(lián)性,要想迅速、準確實現(xiàn)海水水質預測,必須要先降低不同因素間的關聯(lián)關系,提取影響水質的主要因子。主成分分析(principal component analysis,PCA)被用來解決這一問題[2,3],對給定的相關變量實現(xiàn)基于變換矩陣的降維,從而為回歸提供更友好的輸入,避免了人為選擇的主觀性問題。
在過去的幾十年里,出現(xiàn)了各種各樣的水質預測模型,現(xiàn)代較為流行的方法包括支持向量機模型、神經(jīng)網(wǎng)絡模型、模糊法、小波分析法等。文獻[4-6]建立了基于支持向量機的水質預測模型,文獻[7-10]采用神經(jīng)網(wǎng)絡進行水質預測。但神經(jīng)網(wǎng)絡存在收斂速度慢、在訓練過程中容易過擬合、需要調整的參數(shù)過多、泛化性能較差等缺點,支持向量機相較于神經(jīng)網(wǎng)絡參數(shù)較少,但其隨著訓練樣本的增加訓練時間也相應延長,懲罰因子不可估量,核函數(shù)要受到Mercer條件限制。相關向量機基于貝葉斯理論,可以實現(xiàn)概率輸出,且核函數(shù)不受條件制約,很好克服了支持向量機的缺陷[11-13]。
根據(jù)以上問題,本文提出一種基于組合核RVM的海水水質預測模型。該模型利用PCA將較多相互關聯(lián)的變量轉化為較少的主成分變量,然后將提取的主成分因子輸入到多核RVM中進行訓練和預測,但模型參數(shù)的選擇直接影響模型最終的預測性能,利用經(jīng)驗選取又存在很大的隨機性和主觀性。螢火蟲算法[14,15](firefly algorithm,F(xiàn)A)在收斂性和全局尋優(yōu)能力上展現(xiàn)出較強的穩(wěn)定性和較高的效率,且需要調整的參數(shù)少,因此,本文考慮螢火蟲算法對組合核RVM核函數(shù)權重和參數(shù)進行優(yōu)化選擇。
自適應多核模式下的PCA-RVM模型由3個關鍵的功能模塊構成,首先海洋中的傳感器采集到的水質數(shù)據(jù)利用PCA進行數(shù)據(jù)提取,消除隱藏在變量中的冗余信息;然后提取后的數(shù)據(jù)進入到多核RVM模型進行非線性逼近,為了避免人為調整參數(shù)的隨機性,采用了FA進行參數(shù)選擇,利用優(yōu)化后的參數(shù)建立水質預測模型。
傳感器采集到的水質數(shù)據(jù)進行PCA數(shù)據(jù)降維,主成分是輸入變量的線性變換,按照方差遞減順序排列,方差最大的為第一主成分,其次為第二主成分,以此類推。當前k個主成分的累計貢獻率超過95%,則認為這k個主成分可以代表原始數(shù)據(jù)所包含的信息量,用于水質預測研究。PCA的具體步驟如下所示:
(1)輸入待降維數(shù)據(jù)矩陣X,降維后數(shù)據(jù)貢獻率目標值Crate;
(2)計算數(shù)據(jù)矩陣X的去中心化矩陣C;
(3)求解C的特征值和特征向量;
(4)按照特征值由大到小的順序排列特征向量;
(5)使用特征值構造一個列向量,并對列向量做降序排列;
(6)計算特征值之和sum,并初始化降維后矩陣維數(shù)n=1;
(7)計算貢獻率Crate=前n個特征值之和/總特征值之和;
(8)如果Crate>95%,則取前n個特征向量構成變換矩陣T;否則令n=n+1,返回步驟(7);
(9)對數(shù)據(jù)矩陣做降維變換newX=X*T;
tm=y(xm,ω)+εm
(1)
式中:ω=(ω0,ω1,…,ωm)為權重向量,εm是期望為0,方差為σ2的高斯分布,即εm~N(0,σ2)。若定義
(2)
式中:K(x,xm)為核函數(shù),則p(tm|x)=N(tm|y(xm),σ2)。又由于tm相互獨立,因此目標向量t的高斯似然分布可表示為
(3)
式中:t=(t1,t2,…,tm)T,Φ=[φ(x1),φ(x2),…,φ(xm)]T,φ(xm)=[1,K(xm,x1),…,K(xm,xT)]T。
根據(jù)稀疏貝葉斯方法,讓ω服從均值為0的高斯先驗分布
(4)
式中:α=(α0,α1,…αN)T為確定權值ω服從高斯先驗分布的超參數(shù)。
根據(jù)貝葉斯規(guī)則,給定先驗概率,可得到后驗概率
(5)
和權值ω的后驗概率分布為
(6)
若設A=diag(α0,α1,…αN),則后驗協(xié)方差∑和均值μ的表達式分別為
∑=(σ-2ΦTΦ+A)-1
(7)
μ=σ-2∑ΦTt
(8)
基于最大期望超參數(shù)估計,運用多次迭代可得
(αi)new=γi/μ2
(9)
(10)
其中,μi為第i個后驗平均值,定義γi=1-αi∑ii。
當輸入一個新樣本x′,相應輸出t′的預測分布為
(11)
根據(jù)正態(tài)分布的性質可知,p(t′|t)服從正態(tài)分布。對于權值后驗概率分布的預測來說,其限制條件αMP,σ2MP均取最大值,所以可以得到
p(t′|t,αMP,σ2MP)=N(t′|y′,σ′2)
(12)
式中:σ′2=σ2MP+Φ(x′)T∑Φ(x′),y′=μTΦ(x′)(y′為t′的預測值)。
RVM中的內核函數(shù)是影響RVM性能的關鍵因素。因此,根據(jù)數(shù)據(jù)特點選擇合適的內核而不是使用單一固定的內核是非常重要的。常用的核函數(shù)包括:線性核
(13)
高斯核
(14)
Sigmoid核
(15)
Laplace核
(16)
在本文中,將以上4個核函數(shù)集成為RVM的組合內核,可以表示為
Kcom(xi,yi)=aKlin(xi,yi)+bKgas(xi,yi)+cKsig(xi,yi)+dKlap(xi,yi)
(17)
式中:a、b、c、d為4個核函數(shù)的權重。4個內核中每個單獨的內核都是組合核的特例,例如:當a=b=c=0時,組合核變?yōu)長aplace核。
對于水質預測問題,難以根據(jù)先驗知識對多核RVM預測器中的核參數(shù)及核權重設置合適的值。針對這一問題,本文提出FA算法來優(yōu)化組合RVM中的參數(shù)。該算法通過模擬自然界中螢火蟲的發(fā)光行為,利用發(fā)光強的螢火蟲會吸引其周圍發(fā)光弱的螢火蟲向其靠近來完成位置更新,通過多次迭代尋找空間中的最佳位置點作為尋優(yōu)結果,從而完成算法尋優(yōu)。具體步驟為:
(1)進行FA算法參數(shù)的初始化,包括螢火蟲數(shù)目n,最大吸引度β0,光強吸收系數(shù)γ,步長因子α,最大迭代次數(shù)或搜索精度ε;
(2)隨機選取螢火蟲的初始位置,通過計算目標函數(shù)值獲取每個螢火蟲最大熒光亮度I0;
(3)通過計算螢火蟲間的相對亮度I和吸引度β決定螢火蟲的移動方向;
(4)對移動后的螢火蟲進行空間位置更新,隨機移動處在最佳位置的螢火蟲;
(5)重新計算更新后螢火蟲的亮度;
(6)當達到所需搜索精度或最大設定搜索閾值,則轉(7);否則,搜索次數(shù)加1,轉向(3),進入下一次全局搜索;
(7)輸出所需最優(yōu)參數(shù)。
自適應多核RVM預測模型算法見表1,在算法的開始部分,輸入海洋傳感器數(shù)據(jù)集X,并設置主成分貢獻率,隨后進行PCA數(shù)據(jù)降維,得到提取后的數(shù)據(jù)集NewX,進入RVM預測器進行預測。模型訓練階段,初始化FA的參數(shù),進行參數(shù)尋優(yōu)得到對應參數(shù)集合C_best,建立預測模型,進行水質數(shù)據(jù)測試集預測。
表1 自適應多核RVM預測模型算法
為驗證本文所提出模型的性能,本文選取中國某海域水質數(shù)據(jù)作為實驗數(shù)據(jù),并與單一核RVM模型進行比較。溶解氧、藍綠藻、葉綠素a、pH作為水質數(shù)據(jù)的重要參數(shù),因此,本文選取這4種水質因子作為RVM預測器的輸出數(shù)據(jù)。
本文所用水質數(shù)據(jù)來源于中國某海域連續(xù)20天實時監(jiān)測數(shù)據(jù),采樣時間間隔為半小時,共包含1000個樣本,每個樣本包含10個化學因子,即鹽度(SAL)、電導率(CON)、溶解氧(DO)、葉綠素a(Chl-a)、濁度(TUR)、藍綠藻(BGA)、總溶解性固體(TSS)、溶解氧飽和度(DOS)、水溫(TEM)、pH。在進行數(shù)據(jù)集預處理時,將數(shù)據(jù)集中的異常值所在樣本刪除,對缺失值進行拉格朗日插值填補。選取10個化學因子作為模型的輸入,DO、Chl-a、BGA、pH分別作為輸出進行水質預測。在本實驗中,前800條數(shù)據(jù)作為模型的訓練集,后200條作為測試集。模型參數(shù)由FA確定,F(xiàn)A尋優(yōu)的參數(shù)設置見表2。
表2 優(yōu)化算法參數(shù)設置
為了評價海洋水質預測模型的綜合性能,采用平均絕對誤差MAE作為模型綜合性能的評價標準。其計算公式為
(18)
式中:h(xi)和yi分別為模型的預測值與真實值。
除此之外,本文還考慮了統(tǒng)計學習中的箱線圖和散點圖來進一步驗證模型的有效性。
箱線圖是描述海洋水質數(shù)據(jù)集四分位區(qū)間的圖形工具,通過箱子的上下邊表示水質數(shù)據(jù)的上下四分位數(shù),箱子中間的橫線表示海洋水質因子的中位數(shù),箱子兩端延伸出去的直線為數(shù)據(jù)的最大值和最小值,而箱子外的加號表示數(shù)據(jù)的離群點,以此來反應水質數(shù)據(jù)的離散程度。
散點圖是對于水質參數(shù)真實值與預測值作為橫縱軸進行繪圖,圖中y=x的直線表示預測數(shù)據(jù)與實際數(shù)據(jù)沒有偏差,模型的預測點越多集中在該直線上,表示模型的擬合效果越好,對于水質數(shù)據(jù)預測的誤差越小。
利用PCA對以上10種海水水質影響因素進行降維分析,再利用單一核和多核RVM模型將降維后的數(shù)據(jù)對其進行非線性逼近。
經(jīng)過PCA降維后的各主成分貢獻率如圖1所示。其中,橫坐標表示海水水質數(shù)據(jù)降維提取后的主成分,縱坐標表示各主成分對于原始數(shù)據(jù)信息量的貢獻率,折線表示主成分的累計貢獻率。由圖1可知,第1主成分貢獻率達35%以上,第2、3主成分貢獻率達20%以上,說明三維主成分已經(jīng)綜合了10項海水水質數(shù)據(jù)75%以上的信息量。通過折線可以看出前6個主成分的累計貢獻率達到了95%以上,符合主成分的提取個數(shù)原則(Crate>95%),說明PCA對于海洋水質輸入數(shù)據(jù)的降維提取是有效的,能夠為后續(xù)預測器提供更加可靠的輸入。
圖1 海洋水質因子主成分貢獻率
圖2給出了自適應多核RVM和4個單核RVM模型的部分預測曲線對比,其橫坐標表示海洋水質數(shù)據(jù)時間序列,縱坐標表示所預測水質因子的數(shù)值,不同的曲線代表不同的核函數(shù)模型,黑色實線為海洋水質數(shù)據(jù)的真實值。從圖中可以看出,多核RVM模型對于水質因子的擬合效果要優(yōu)于其它4個模型,尤其是對于數(shù)據(jù)集中奇異值的預測,自適應多核RVM展現(xiàn)出了較大的優(yōu)勢。不同預測曲線偏離真實數(shù)據(jù)的程度不同也驗證了由于核函數(shù)性質不同導致海洋水質因子預測結果不同。
表3給出了單一核與自適應多核RVM模型對于水質參數(shù)的預測能力誤差比較。從表3可以看出,在動態(tài)復雜的海洋水質影響因子中,多核組合RVM模型的預測精度最高,平均絕對誤差均低于單核RVM模型。但對于單一核RVM模型,Gas核對于DO和BGA的預測性能較好,Lap核能較好地預測Chl-a,而Lin和Gas對于pH的預測誤差相同,Sigmoid核函數(shù)對于BGA和Chl-a的預測誤差較大。
圖3給出了海洋水質預測模型實際值和預測值的箱線圖。從圖中可以明顯地看出,組合核的四分位范圍和中位數(shù)與實際數(shù)據(jù)的箱線圖最為接近,最大值、最小值預測上略有差距。不同核函數(shù)模型在對于DO和pH的預測中都沒有出現(xiàn)異常值點,說明實驗所采用核函數(shù)模型對于這兩種預測因子的擬合效果相對較好。值得注意的是,在對于BGA和Chl-a的預測中,Sigmoid核出現(xiàn)了多個異常值點,這與圖2中的Sigmoid預測曲線與真實數(shù)據(jù)擬合效果相較于其它核函數(shù)較差相一致。
表3 5種模型的海洋水質預測結果
圖2 不同評估模型輸出對比
圖3 5種模型預測值與真實值的箱線圖比較
圖4給出了海洋水質預測模型實際值和預測值的散點圖。從圖中可以看出,對于4種預測因子,組合核預測點比單核的預測點更多集中在基準線附近,再次顯示了其強大的非線性逼近能力。5種模型在對于DO的預測中,預測點偏離基準線程度較小。對于其它3種水質因子,單一核預測器都有較為明顯的離群點。
圖4 5種模型預測值與真實值的散點圖比較
本文提出了一種基于集成框架的海洋水質影響因子預測模型,該模型將PCA、FA和組合核RVM集成在一起。在數(shù)據(jù)降維階段,利用PCA將高維復雜的水質影響因子提取為幾個關鍵的主成分;在預測階段,利用FA優(yōu)化的組合核RVM進行預測。為了驗證組合核RVM,選擇了單獨核的RVM預測結果進行比較。通過實驗可以得出如下結論:①數(shù)據(jù)降維后的數(shù)據(jù)用較少的數(shù)據(jù)量代表了較多的水質特征;②組合核在大多數(shù)情況下性能優(yōu)于單一核RVM。在今后的研究工作中,可以探索其它改進RVM模型對水質的預測效果。