張慧妍, 段 瑜, 王小藝, 許繼平, 鄭 蕾
(1.北京工商大學 食品安全大數(shù)據(jù)技術(shù)北京市重點實驗室, 北京 100048; 2.北京師范大學 水科學研究院, 北京 100875)
農(nóng)業(yè)水質(zhì)與農(nóng)產(chǎn)品生產(chǎn)安全密切相關(guān),對其進行監(jiān)測與評價為從源頭保障生態(tài)農(nóng)業(yè)建設(shè)提供支撐。農(nóng)業(yè)在線水質(zhì)監(jiān)測一般在野外進行,環(huán)境影響因素眾多,測試數(shù)據(jù)攜帶噪聲是不可避免的。因此,構(gòu)建抗擾性較強、實用性較好的農(nóng)業(yè)水質(zhì)綜合評價模型,與實時監(jiān)測設(shè)備結(jié)合,將有利于進行自動、實時評價,以避免由于監(jiān)測不及時,任由水質(zhì)惡化引發(fā)農(nóng)作物污染等問題。
借鑒以往綜合評價方法可在一定程度上對解決農(nóng)業(yè)水質(zhì)評價面臨的噪聲等不確定性有所裨益。其中,模糊數(shù)學[1-2]可以恰當表達、計算難以量化的模糊信息,為農(nóng)業(yè)水質(zhì)評價問題提供了一種可行的解決思路,但如何避免主觀因素對參數(shù)的影響還需要注意。投影尋蹤法[3-4]通過考察數(shù)據(jù)投影方向的積聚與離散特征以實現(xiàn)數(shù)據(jù)降維目的,其投影值權(quán)重可作為綜合評價的基礎(chǔ),但尋求簡單、有效的求解方法是投影尋蹤法實際應(yīng)用中必須解決的前提條件?;疑碚揫5-6]則是針對數(shù)據(jù)量少、信息貧乏問題的一種實用不確定信息處理手段,與其他算法融合有可能發(fā)揮其優(yōu)勢并拓展應(yīng)用。
此外,余勛等[7]針對水質(zhì)評價過程中模型結(jié)構(gòu)的參數(shù)不確定性,建立融合三角模糊數(shù)的貝葉斯模糊綜合評價模型,對不確定性的刻畫更為全面、符合實際。鞏奕成等[8]為解決水質(zhì)評價中的數(shù)據(jù)模糊性與指標不相容性,引入螢火蟲算法,優(yōu)化尋求最佳投影方向,實現(xiàn)合理評價的目的。梁中耀等[9]則基于二項分布檢驗法定量表征了變量不確定性可能導(dǎo)致的決策風險,研究結(jié)果更具魯棒性。
本文擬依據(jù)農(nóng)業(yè)水質(zhì)評價標準,結(jié)合監(jiān)測數(shù)據(jù),探索在監(jiān)測噪聲情況下,建立具有良好抗擾性和等級劃分的綜合評價模型。采用投影尋蹤法求得各評價指標的優(yōu)化權(quán)重;數(shù)據(jù)驅(qū)動優(yōu)化確定三角形隸屬度參數(shù),進而構(gòu)建模糊支持向量機評價模型有效地解決農(nóng)業(yè)水質(zhì)監(jiān)測數(shù)據(jù)中存在的數(shù)據(jù)噪聲問題。此外,提出的等級劃分可信度,以期有效度量綜合評價等級可信任的程度,提高等級劃分分辨率,為全面考察綜合評價結(jié)果提供一個新的視角。
多指標綜合評價中各指標權(quán)重的科學確定,對于評價結(jié)果的客觀、公正具有重要意義。投影尋蹤(projection pursuit,PP)函數(shù)[10-11]是從評價指標數(shù)據(jù)特征出發(fā)來確定指標權(quán)重的方法,可有效避免權(quán)重確定中的主觀性和隨意性。
投影尋蹤法指標權(quán)重確定過程如下:
首先,利用PP函數(shù)將無量綱處理后[13]的m維數(shù)據(jù)xi=(xi1,xi2,…xim)變換為以σ=(σ1,σ2,…,σm)為投影分向量的一維特征值zi=xiσT,得到z=(z1,z2,…zi,…,zl)。而后通過z的標準差S(z),z與其對應(yīng)的水質(zhì)經(jīng)驗等級g=(g1,g2,…,gl)的相關(guān)系數(shù)絕對值Rzg定義投影指標函數(shù)Q(σ)。即:
Q(σ*)=maxQ(σ)=S(z)Rzg
(1)
(2)
PP函數(shù)的求解σ實質(zhì)上是一個非線性優(yōu)化問題,存在計算復(fù)雜,模型優(yōu)化求解困難等問題。適于非線性問題優(yōu)化求解的遺傳算法(genetic algorithm,GA)[12]存在易陷入局部最優(yōu),穩(wěn)健性不好等弊端。本文提出改進算法,其主要思想為擴充、倍增備選解集,每次迭代過程中最優(yōu)解被強制保留在備選解集中,解決了最優(yōu)解可能丟失的缺點,并增強了模型求解的穩(wěn)健性。
在實際應(yīng)用中,通過計算機算法求解σ實現(xiàn)多指標權(quán)重的客觀確定,具有較好的適用性,在指標增加是可以僅需修改對應(yīng)權(quán)重向量的維度,快捷、方便地計算給出新的數(shù)據(jù)驅(qū)動權(quán)重結(jié)果。
支持向量機(support vector machine, SVM)在非線性分類及高維模式識別中表現(xiàn)出特有的優(yōu)勢[14-16]。選擇SVM是期望能夠利用其結(jié)構(gòu)風險小,泛化能力強的特點來提高模型的抗噪聲干擾特性。
由于傳統(tǒng)SVM對孤立點反應(yīng)敏感,而野外在線監(jiān)測獲得的數(shù)據(jù)常常伴隨噪聲、野值,且綜合評價研究中認為等級邊界漸變較為合理。因此,本文采用模糊支持向量機(fuzzy support vector machines,F(xiàn)SVM)[17-20]嘗試對上述問題予以解決。通過合理設(shè)置隸屬度對樣本點實現(xiàn)差異化與模糊化[21-22]以提高評價精度。
在農(nóng)業(yè)水質(zhì)綜合評價中,評價指標之間存在著復(fù)雜的非線性關(guān)系,因此,需要利用核函數(shù)K(xi,xj)映射變換。模糊訓練樣本集為:T=[φ(xi),yi|i=1,2,…,l],其中樣本xi∈Rm,φ(xi)為經(jīng)過核函數(shù)變換的樣本指標,評價標簽yi∈{-1,+1},隸屬度fi∈(0,1],為降低樣本錯分的幾率,需要設(shè)置懲罰參數(shù)C。則FSVM優(yōu)化目標和約束條件如下:
(3)
(4)
(5)
為簡化起見本文構(gòu)建的FSVM選用三角模糊隸屬度,1隸屬度值對應(yīng)為農(nóng)業(yè)水質(zhì)等級評價標準中對應(yīng)等級的區(qū)間中心值;而對應(yīng)的0.5隸屬度的值,則需結(jié)合需要劃分等級的建模數(shù)據(jù)方差設(shè)定。
為了較精細地刻畫評價等級結(jié)果,本文綜合FSVM的判別函數(shù)值ki,隸屬度fi,評價標簽yi,引入?yún)^(qū)域劃分可信度δi作為評價補充,使得評價結(jié)果更加全面、易于理解。在采用FSVM評價時,每構(gòu)建一次評價超平面,參與評價的樣本就會產(chǎn)生一個對應(yīng)的區(qū)域劃分可信度。構(gòu)建超平面時的樣本區(qū)域劃分可信度具體定義如下:
(6)
由公式(6)可知區(qū)域劃分可信度由兩部分構(gòu)成,一部分體現(xiàn)了模型離散評價等級的偏差;另外一部分綜合了判別函數(shù)值與隸屬度,體現(xiàn)了FSVM評價結(jié)果的精確范圍。校正參數(shù)p,q應(yīng)使公式(6)中的分子與分母的數(shù)量級一致。p和q的存在,保證了模型參數(shù)在一定范圍內(nèi)可以做出調(diào)整以適應(yīng)不同的具體情況。文中選取p=1,q=1。
應(yīng)用中每經(jīng)過一次超平面劃分,參與劃分的樣本就會按公式(6)計算出其相應(yīng)的區(qū)域劃分可信度。這樣,通過比較每組監(jiān)測數(shù)據(jù)所得的區(qū)域劃分可信度,了解評價結(jié)果的可信任程度,有效彌補了現(xiàn)行離散評價結(jié)果分辨率較低的不足。
參考國家農(nóng)田灌溉水質(zhì)標準并且結(jié)合太湖流域的水域環(huán)境,本文選取鹽度、氯化物、氨氮、溶解固體作為監(jiān)測指標,將水質(zhì)等級分為Ⅰ級(優(yōu))、Ⅱ級(良)、Ⅲ級(中)、Ⅳ級(差),具體評級標準見表1。
表1 農(nóng)業(yè)水質(zhì)等級評價標準
首先根據(jù)表1水質(zhì)等級評價標準產(chǎn)生虛擬樣本序列[23],每個等級隨機產(chǎn)生5組數(shù)據(jù),即共生20組標準水質(zhì)樣本,同時為了增加樣本代表性,本文將指標處于等級區(qū)間臨界值的水樣定義為中間水質(zhì)等級,見表2的第6,12,18組數(shù)據(jù)。
如指標權(quán)重確定采用改進GA算法對PP函數(shù)求解,求得的投影權(quán)重σ=(0.108 1,0.442 6,0.805 7,0.378 5)。
為驗證模型評價效果,在相同條件下隨機生成40個樣本(每級10個)進行評價,測試結(jié)果正確的為39個,評價結(jié)果與水質(zhì)經(jīng)驗等級的一致率為97.5%,而采用傳統(tǒng)的灰色聚類法和模糊綜合評價法對虛擬測試樣本序列進行對比評價,兩種對比方法的一致率為95%和92.5%,說明使用本模型的評價結(jié)果可以推廣應(yīng)用,精度較高。
進一步,選取太湖流域用于農(nóng)業(yè)灌溉的20個水質(zhì)監(jiān)測樣本進行實測檢驗,最終評價結(jié)果詳見表3。
表2 農(nóng)業(yè)虛擬水質(zhì)樣本、經(jīng)驗等級及模型評價結(jié)果
表3 農(nóng)業(yè)水質(zhì)等級評價實例數(shù)據(jù)與不同評價方法的評價結(jié)果
其中,水樣7的鹽度屬于1級,而其他指標均屬于2級,由于鹽度權(quán)重較小,故最終模型評價此樣本為2級,其區(qū)域劃分可信度;水樣5的氨氮含量屬于2級,但計及其他污染物綜合考量,最終被模型評價為1級水,其區(qū)域劃分可信度 。3次構(gòu)建評價超平面的評價區(qū)域劃分可信度的無效臨界值分別為δ1=0.438 9,δ2=0.374 3和δ3=0.221 6,易知可信度均大于無效臨界值,水質(zhì)綜合評價結(jié)果可信。
為了進一步考察模型的抗噪穩(wěn)定性,在實測樣本中分別加入10%,20%,30%范圍的隨機噪聲進行測試分析。表4表明,在較低的隨機噪聲條件下,本文模型和模糊綜合法的評價結(jié)果基本不受影響,而灰色聚類法模型則出現(xiàn)錯評情況;在20%,30%的噪聲條件下所有模型均出現(xiàn)錯評,但本文的FSVM模型的錯評數(shù)少于對比模型。說明本文提出綜合評價模型評價精度較高,抗噪能力較強。
表4 加噪條件下模型的評價結(jié)果對比分析
此外,實際應(yīng)用中存在監(jiān)測數(shù)據(jù)突然變化是由于自然條件的改變而引起的,若模型參數(shù)恒定則不能區(qū)分隨機噪聲和真正的環(huán)境條件變化。因此,模型應(yīng)用時需要與實時監(jiān)測設(shè)備結(jié)合,存儲采集數(shù)據(jù),通過合理設(shè)定模型參數(shù)更新時長以盡快捕獲水質(zhì)的靜、動態(tài)特性,為甄別隨機噪聲與自然條件的變化提供理論與技術(shù)支撐。
針對農(nóng)業(yè)水質(zhì)綜合評價中監(jiān)測數(shù)據(jù)存在噪聲影響模型判別準確性,及常用評價的4等級劃分精度相對粗糙問題,本文提出數(shù)據(jù)驅(qū)動的FSVM評價模型。首先通過改進GA算法求解PP函數(shù)快速穩(wěn)健地實現(xiàn)了指標權(quán)重優(yōu)化;而后對FSVM模糊隸屬度進行優(yōu)化確定,經(jīng)過3次構(gòu)建評價超平面實現(xiàn)了4個等級有效換份,減小了噪聲的影響;最后,通過引入綜合評價區(qū)域可信度,用來表征模型評價結(jié)果的可信賴程度,為離散等級進一步細化描述提供了參考。文中提出的綜合評價模型構(gòu)建方法具有計算量小,訓練速度快、穩(wěn)健性好、區(qū)域可信度較高等優(yōu)點,實例驗證了模型的可行性與有效性。