王 晗 張 峰 薛惠鋒
1(中國(guó)航天系統(tǒng)科學(xué)與工程研究院 北京 100048) 2(山東理工大學(xué)管理學(xué)院 山東 淄博 255012)
在現(xiàn)階段國(guó)內(nèi)水資源形勢(shì)嚴(yán)峻與水務(wù)基礎(chǔ)設(shè)施持續(xù)建設(shè)的情況下,水資源數(shù)據(jù)管理問(wèn)題仍然突出。以國(guó)家水資源監(jiān)控能力建設(shè)項(xiàng)目為例,通過(guò)2012年-2014年期間一期運(yùn)行實(shí)施,取得了海量水資源動(dòng)態(tài)監(jiān)測(cè)數(shù)據(jù),但是對(duì)水資源管理決策支持力度偏弱,主要原因在于數(shù)據(jù)的完備性、真實(shí)性不足,特別是在水體監(jiān)控、取水許可分析上還存在嚴(yán)重的數(shù)據(jù)缺口[2]。根據(jù)智慧水務(wù)對(duì)水資源保障和數(shù)據(jù)管理的需求,目前最為關(guān)鍵的是確保數(shù)據(jù)的真實(shí)性、有效性,構(gòu)建與智慧水務(wù)標(biāo)準(zhǔn)相一致的水資源數(shù)據(jù)管理體系。
基于水資源數(shù)據(jù)處理工作的重要性與迫切性,已有相關(guān)學(xué)者對(duì)其進(jìn)行基礎(chǔ)性探索,主要集中在:1) 水資源數(shù)據(jù)處理與關(guān)聯(lián)性分析。按照水資源數(shù)據(jù)管理的實(shí)際業(yè)務(wù)需求,數(shù)據(jù)的基礎(chǔ)處理與關(guān)聯(lián)特性分析成為其研究熱點(diǎn),但由于缺乏規(guī)模樣本數(shù)據(jù),多聚焦于適用于小樣本的算法優(yōu)化。如:Reitsma等[3]提出采用面向?qū)ο蠹夹g(shù)模擬的水資源數(shù)據(jù)多準(zhǔn)則評(píng)價(jià)模型;Dietrich等[4]利用不同水資源評(píng)價(jià)指標(biāo)間的關(guān)聯(lián)特性提出濕地水平衡模型,其功效在于簡(jiǎn)化規(guī)模數(shù)據(jù)輸入,但易影響數(shù)據(jù)準(zhǔn)確性;Park等[5]針對(duì)農(nóng)業(yè)水資源數(shù)據(jù)管理的復(fù)雜性,采用數(shù)據(jù)聚類(lèi)算法及Web數(shù)據(jù)處理技術(shù),構(gòu)建了其水資源數(shù)據(jù)集成模型;Slaughter等[6]基于流域水質(zhì)數(shù)據(jù)的稀疏特性,提出引入流量參數(shù)控制的方法建立水質(zhì)系統(tǒng)評(píng)價(jià)模型;吳海斌[7]采用曲線(xiàn)回歸擬合模型提升水環(huán)境監(jiān)測(cè)數(shù)據(jù)預(yù)處理的自動(dòng)化水平;劉家宏等[8]構(gòu)建復(fù)雜水資源系統(tǒng)蓄調(diào)計(jì)算的數(shù)據(jù)時(shí)變耦合模型,用于提升供需水平衡的評(píng)估精度;徐梅等[9]應(yīng)用灰色理論、小波變換和自回歸異方差函數(shù)構(gòu)建流域水質(zhì)組合預(yù)測(cè)模型,并驗(yàn)證了其模型的精度。2) 水資源數(shù)據(jù)挖掘與融合研究。以水資源數(shù)據(jù)可用性與問(wèn)題研究需求為導(dǎo)向,水資源數(shù)據(jù)挖掘的探索集中在水文數(shù)據(jù)、防洪決策支持系統(tǒng)數(shù)據(jù)、城市供水?dāng)?shù)據(jù)等方向。Salah等[10]選取決策樹(shù)方法對(duì)底格里斯河水質(zhì)數(shù)據(jù)進(jìn)行挖掘,取得了評(píng)估水質(zhì)質(zhì)量的關(guān)鍵參數(shù)及其狀態(tài)變化規(guī)律;同為對(duì)水質(zhì)數(shù)據(jù)的研究,Junior等[11]以監(jiān)測(cè)數(shù)據(jù)為樣本,基于不同參數(shù)的分析提出基于規(guī)則分類(lèi)的水質(zhì)數(shù)據(jù)預(yù)測(cè)模型;Ioannou等[12]采取自組織映射數(shù)據(jù)挖掘方法分析家庭用水量數(shù)據(jù),并界定了該方法適用的時(shí)序統(tǒng)計(jì)數(shù)據(jù)類(lèi)別;曾羽琚[13]在將樣本擴(kuò)展到水生態(tài)數(shù)據(jù)的基礎(chǔ)上,提出雙曲方程特征分解數(shù)據(jù)挖掘方法;張峰等[14]利用粒子群優(yōu)化支持向量機(jī)方法處理國(guó)家水資源監(jiān)控能力建設(shè)項(xiàng)目中的異常數(shù)據(jù)。而考慮水資源數(shù)據(jù)的多元特征,國(guó)外對(duì)于水資源數(shù)據(jù)融合的探索較少,主要集中于多傳感器數(shù)據(jù)融合,如:Pour等[15]采用距離函數(shù)改進(jìn)參數(shù)權(quán)重來(lái)體現(xiàn)傳感數(shù)據(jù)隨機(jī)特性;Cammalleri等[16]選取函數(shù)映射模型融合衛(wèi)星與地面觀測(cè)水資源監(jiān)測(cè)數(shù)據(jù),并驗(yàn)證了數(shù)據(jù)融合誤差可控性。相比之下,國(guó)內(nèi)數(shù)據(jù)融合的研究更加側(cè)重于應(yīng)用創(chuàng)新,王恭等[17]利用數(shù)據(jù)融合算法測(cè)算水質(zhì)參數(shù)與連排流量的關(guān)系,提升系統(tǒng)抗干擾能力;李洋漾等[18]采用跟蹤動(dòng)態(tài)規(guī)劃算法實(shí)現(xiàn)多傳感器的多目標(biāo)融合,并運(yùn)用變轉(zhuǎn)移狀態(tài)數(shù)優(yōu)化融合效率;張春麗[19]針對(duì)高維數(shù)據(jù)聚類(lèi)效果的弊端,提出用分形維數(shù)來(lái)改進(jìn)投影聚類(lèi)的算法。
綜上,現(xiàn)有相關(guān)研究的積累較好地推動(dòng)了水資源管理向科學(xué)化與智能化發(fā)展,但是對(duì)水資源數(shù)據(jù)完備與真實(shí)性不足、決策支撐效用偏低等問(wèn)題的研究深度仍待提高。尤其是在國(guó)內(nèi)重點(diǎn)推進(jìn)最嚴(yán)格水資源管理制度及國(guó)家水資源監(jiān)控能力建設(shè)的背景下,以工業(yè)企業(yè)為代表的取用水大戶(hù)是水資源監(jiān)測(cè)的重點(diǎn)對(duì)象,如何針對(duì)目前已取得的工業(yè)取水監(jiān)測(cè)數(shù)據(jù),深入挖掘其變化規(guī)律和問(wèn)題特點(diǎn),并有效解決水資源監(jiān)測(cè)數(shù)據(jù)呈現(xiàn)出體量足而決策支持效用低的難題至關(guān)重要。值得注意的是,由于目前國(guó)家水資源監(jiān)控能力建設(shè)項(xiàng)目尚處于推進(jìn)期,工業(yè)取水監(jiān)測(cè)數(shù)據(jù)規(guī)模體量雖然較大,但缺乏不同歷史年份下的同時(shí)期數(shù)據(jù)進(jìn)行參考,數(shù)據(jù)的截面性較強(qiáng)而面板累積性不高,這就增加了提高水資源監(jiān)測(cè)數(shù)據(jù)質(zhì)量的難度,急需探索實(shí)用性強(qiáng)的數(shù)據(jù)分析方法。據(jù)此,該文按照“粗篩選-精識(shí)別-再重構(gòu)”的思路,提出基于分段拉依達(dá)準(zhǔn)則(3σ)與小波變換、Fourier函數(shù)融合的工業(yè)取水監(jiān)測(cè)異常數(shù)據(jù)的識(shí)別方法,采用自適應(yīng)慣性函數(shù)與粒子群優(yōu)化的最小二乘支持向量機(jī)模型重構(gòu)異常數(shù)據(jù),并利用國(guó)家水資源監(jiān)控能力建設(shè)項(xiàng)目所取得的重點(diǎn)取用水戶(hù)數(shù)據(jù)進(jìn)行驗(yàn)證。
通過(guò)國(guó)家水資源監(jiān)控能力建設(shè)項(xiàng)目一期所獲取的工業(yè)取水監(jiān)測(cè)數(shù)據(jù)的稽核分析,可歸納出現(xiàn)階段常出現(xiàn)的數(shù)據(jù)異常點(diǎn)主要包括以下幾種情況。
(1) 零值監(jiān)測(cè)數(shù)據(jù)。主要反映在取水?dāng)?shù)據(jù)時(shí)序動(dòng)態(tài)監(jiān)測(cè)過(guò)程中,某些時(shí)刻監(jiān)測(cè)數(shù)據(jù)由正常非零值波動(dòng)狀態(tài)突變?yōu)榱?,其后再次回歸常規(guī)波動(dòng)趨勢(shì)。若按照正常理解,該狀態(tài)表示取水戶(hù)未進(jìn)行取水行為。
(2) 非零數(shù)值的顯著性突變。體現(xiàn)在取水監(jiān)測(cè)數(shù)據(jù)波動(dòng)過(guò)程中,局部監(jiān)測(cè)點(diǎn)的數(shù)據(jù)呈現(xiàn)出突變幅度異常偏大或偏低的狀況。這意味著取水戶(hù)在該時(shí)刻一次性取水量遠(yuǎn)超出或低于正常運(yùn)行的企業(yè)用水。
(3) 非零數(shù)值的無(wú)波動(dòng)衡定。即隨著時(shí)間的推移,取水監(jiān)測(cè)數(shù)據(jù)不是零值狀態(tài),但取水監(jiān)測(cè)曲線(xiàn)未出現(xiàn)任何升降。這表示取水戶(hù)較長(zhǎng)時(shí)間內(nèi)固定式批量取水,與正常運(yùn)行的工業(yè)企業(yè)實(shí)際取水需求不符。
(4) 數(shù)值斷點(diǎn)。即數(shù)據(jù)缺失狀況,表現(xiàn)在取水監(jiān)測(cè)曲線(xiàn)上為監(jiān)測(cè)數(shù)據(jù)斷點(diǎn),通??砂ㄩg斷性數(shù)據(jù)斷點(diǎn)和連續(xù)性數(shù)據(jù)斷點(diǎn)兩種類(lèi)型。
(5) 逆季節(jié)性數(shù)值波動(dòng)。按照對(duì)不同類(lèi)型的工業(yè)取用水戶(hù)進(jìn)行數(shù)據(jù)對(duì)比觀測(cè)及調(diào)研分析,受季節(jié)性生產(chǎn)需求的影響,其取水特征總體上呈現(xiàn)夏季偏多而冬季偏低的規(guī)律,而實(shí)際監(jiān)測(cè)過(guò)程中會(huì)出現(xiàn)與上述規(guī)律相悖的現(xiàn)象。
上述5類(lèi)工業(yè)取水監(jiān)測(cè)數(shù)據(jù)的異常狀態(tài)基于截面數(shù)據(jù)的分析可較易識(shí)別。但是在實(shí)際監(jiān)測(cè)中還存在一些難以通過(guò)簡(jiǎn)單的統(tǒng)計(jì)手段發(fā)現(xiàn)的異常值,如數(shù)據(jù)突變強(qiáng)度不高但仍與其實(shí)際取水量不符的數(shù)值,這就需要建立相應(yīng)的數(shù)據(jù)挖掘模型對(duì)其異常數(shù)據(jù)進(jìn)行判定與重構(gòu),這也正是目前國(guó)家水資源監(jiān)控能力建設(shè)項(xiàng)目重點(diǎn)推進(jìn)的核心工作內(nèi)容之一。
鑒于目前可獲取的工業(yè)取水時(shí)序監(jiān)測(cè)數(shù)據(jù)中通常會(huì)存在數(shù)值為零、突變等狀況,若直接采用3σ準(zhǔn)則會(huì)容易受到上述異常值的影響,造成其閾值區(qū)間范圍偏差過(guò)大,而無(wú)法實(shí)現(xiàn)異常數(shù)據(jù)的有效識(shí)別[20]。但同時(shí)考慮到工業(yè)取水監(jiān)測(cè)數(shù)據(jù)通常具有“季節(jié)性”周期波動(dòng)規(guī)律,即不同季節(jié)之間工業(yè)取水量整體上存在較為顯著的差異性,而同一季節(jié)內(nèi)工業(yè)取水量雖然成持續(xù)波動(dòng)狀態(tài),但其波動(dòng)幅度要顯著低于季節(jié)之間的變化幅度。因此,可嘗試采用分段式的3σ準(zhǔn)則應(yīng)用策略,將各年度按照不同季節(jié)劃分為4個(gè)子區(qū)間,各子區(qū)間分別利用3σ準(zhǔn)則確定取水監(jiān)測(cè)數(shù)據(jù)的初步認(rèn)定正常范圍,以此完成數(shù)據(jù)的“粗篩選”。該過(guò)程是對(duì)前文概述的典型異常工業(yè)取水監(jiān)測(cè)數(shù)據(jù)進(jìn)行初步篩選,避免由于突變幅度過(guò)高、零值數(shù)據(jù)等影響后面采用小波變換和Fourier函數(shù)對(duì)取水監(jiān)測(cè)數(shù)據(jù)正常閾值區(qū)間劃定的準(zhǔn)確性,進(jìn)而導(dǎo)致異常值判斷準(zhǔn)確度受損。
小波變換是信號(hào)處理領(lǐng)域中的常用方法,其優(yōu)點(diǎn)在于充分挖掘時(shí)序數(shù)據(jù)的時(shí)空頻率局部變化特點(diǎn),采用伸縮平移算法對(duì)其進(jìn)行多尺度細(xì)化,提高時(shí)頻數(shù)據(jù)的自適應(yīng)分析能力[21]。工業(yè)取水監(jiān)測(cè)數(shù)據(jù)從采集、傳輸?shù)酱鎯?chǔ)的基本流程具備信號(hào)傳遞與分析過(guò)程的基本特征,同時(shí),取水監(jiān)測(cè)時(shí)頻數(shù)據(jù)不僅具備一定低頻序列,還存在較多高頻序列,滿(mǎn)足小波變換應(yīng)用的要求。據(jù)此,提出采用小波變換模極大值(WTMM)方法處理取水監(jiān)測(cè)時(shí)頻數(shù)據(jù),采用降噪的方式分離其高低頻序列,進(jìn)而通過(guò)誤差控制方法識(shí)別異常數(shù)據(jù)。其表達(dá)式如下:
(1)
利用WTMM方法時(shí),若對(duì)于尺度a0下的?τ,都滿(mǎn)足|WTf(a0,τ)|≤|WTf(a0,τ0)|不等式條件,且兩端鄰閾符合|WTf(a0,τ)|<|WTf(a0,τ0)|,則可認(rèn)為(a0,τ0)屬于|WTf(a,τ)|于a0下極大值點(diǎn),|WTf(a0,τ0)|被命名為|WTf(a,τ)|在(a0,τ0)上的模極大值。該點(diǎn)即為時(shí)頻函數(shù)f(x)經(jīng)過(guò)小波變換后求解的最大值,從小波模型運(yùn)算機(jī)理上來(lái)看,這類(lèi)數(shù)值對(duì)應(yīng)的是樣本數(shù)據(jù)中數(shù)值增大或降低等突變幅度較高的點(diǎn)。而對(duì)于工業(yè)取水監(jiān)測(cè)數(shù)據(jù)樣本中,其異常數(shù)據(jù)的表征狀態(tài)除了前文概述的5類(lèi)直觀性數(shù)據(jù),其他非直觀性異常數(shù)據(jù)通常是屬于幅度突變型。據(jù)此,將小波求解的模極大值所對(duì)應(yīng)的點(diǎn)暫定為監(jiān)測(cè)數(shù)據(jù)異常點(diǎn),其后需要根據(jù)人工數(shù)據(jù)反饋校驗(yàn)判斷異常值的真?zhèn)巍?/p>
根據(jù)上述解釋?zhuān)I(yè)取水監(jiān)測(cè)過(guò)程中導(dǎo)致數(shù)據(jù)點(diǎn)出現(xiàn)異常的原因較為復(fù)雜,而利用WTMM方法可對(duì)其監(jiān)測(cè)數(shù)據(jù)進(jìn)行不同時(shí)頻下的數(shù)據(jù)序列波動(dòng)特征的動(dòng)態(tài)分解,挖掘最能表征數(shù)據(jù)時(shí)頻變換的波動(dòng)曲線(xiàn)。但該過(guò)程還需要對(duì)取得小波模極大值后的數(shù)據(jù)序列進(jìn)行重構(gòu),具體包括:(1) 確定小波變換的最大尺度及其所對(duì)應(yīng)的極值閾值區(qū)間,保留閾值區(qū)間內(nèi)的極大值點(diǎn);(2) 分析所設(shè)定尺度下與極大值所在點(diǎn)相應(yīng)的數(shù)據(jù)位置,并剔除非極大值點(diǎn)的數(shù)據(jù);(3) 采用交替投影算法對(duì)篩選出的極值點(diǎn)進(jìn)行小波重構(gòu)。
選用WTMM重構(gòu)工業(yè)取水監(jiān)測(cè)數(shù)據(jù)時(shí),通常會(huì)剩余部分殘差序列,這類(lèi)序列仍屬于時(shí)頻數(shù)據(jù),而且其高頻特征較顯著。由于殘差序列中也涵蓋了部分原始監(jiān)測(cè)數(shù)據(jù)的潛在變動(dòng)特點(diǎn),若直接將殘差序列進(jìn)行剔除,則易造成數(shù)據(jù)信息的損失。因此,提出利用Fourier函數(shù)修正小波重構(gòu)殘差序列。Fourier函數(shù)較強(qiáng)的降噪功能使其不僅可以有效補(bǔ)償WTMM重構(gòu)導(dǎo)致的隨機(jī)誤差,同時(shí)還能較大限度地濾除取水監(jiān)測(cè)時(shí)頻數(shù)據(jù)殘差中噪聲,進(jìn)而提高時(shí)頻擬合精度。過(guò)程如下:
步驟1設(shè)定時(shí)頻殘差。
V=[V(1),V(2),…,V(n)]
(2)
步驟2利用Fourier變換殘差。
k=2,3,…,n,T=n-1
(3)
(4)
(5)
把V(1)=0代入式(3):
(6)
步驟3根據(jù)式(4)-式(6)和時(shí)頻殘差,計(jì)算an、bn和a0值,進(jìn)而確定Fourier變換殘差V。
最小二乘支持向量機(jī)(LSSVM)是機(jī)器學(xué)習(xí)高維模式識(shí)別的常用方法之一,其良好的泛化性能和非線(xiàn)性擬合效果,以及較快的計(jì)算速率等特點(diǎn)正是解決工業(yè)取水監(jiān)測(cè)異常數(shù)據(jù)重構(gòu)問(wèn)題的需求方向[22]。據(jù)此,提出利用LSSVM模型重構(gòu)取水監(jiān)測(cè)異常值,并選取自適應(yīng)慣性函數(shù)調(diào)整后的粒子群對(duì)LSSVM模型的核函數(shù)進(jìn)行優(yōu)化,提高數(shù)據(jù)重構(gòu)精度?;玖鞒倘缦拢?/p>
y(x)=ωTρ(x)+b
(7)
式中:ρ(x)表示映射函數(shù);ω為權(quán)重向量;b指偏置向量。按照式(7)表達(dá)LSSVM目標(biāo)函數(shù):
(8)
式中:θ為誤差項(xiàng);γ表示懲罰因子,γ>0。利用Lagrange函數(shù)對(duì)其轉(zhuǎn)換:
(9)
(10)
考慮RBF核函數(shù)處理非線(xiàn)性映射關(guān)系的良好轉(zhuǎn)換能力,取其作為模型的核函數(shù):
(11)
(12)
式中:L為粒子間最大距離;ο是粒子數(shù);aid表示粒子坐標(biāo)。為避免粒子群產(chǎn)生早熟而造成測(cè)算結(jié)果出現(xiàn)偏差,采用粒子方差控制其誤差狀態(tài),即:
(13)
(14)
(15)
式中:s表示慣性因子;Vid指粒子速度;χ表示加速因子;Qid指?jìng)€(gè)體極值;Qpd指全局搜索極值;Sid為粒子位置;r為[0,1]區(qū)間內(nèi)的隨機(jī)數(shù)。PSO中,慣性因子s的取值直接影響到粒子的收斂精度,而鑒于粒子極值搜索中的隨機(jī)性特征,本文借鑒Feng等[23]提出的基于混沌優(yōu)化理論的慣性權(quán)值調(diào)整方法,該方法在處理離散時(shí)頻數(shù)據(jù)中已得到相關(guān)學(xué)者的驗(yàn)證[24],其表達(dá)式為:
s(t)=(Smax-Smin)(UM-Ut)/DM+Smin·
q·rand·(1-rand)
(16)
式中:UM、Ut分別表示最大與當(dāng)前迭代次數(shù);rand表示[0,1]區(qū)間內(nèi)的隨機(jī)數(shù);smax和smin分別表示慣性因子在粒子搜索初期與結(jié)束期的取值;q表示混沌系統(tǒng)控制系數(shù)。
根據(jù)慣性函數(shù)-粒子群優(yōu)化的支持向量機(jī)模型,對(duì)剔除WTMM與Fourier函數(shù)所識(shí)別異常數(shù)據(jù)后的取水監(jiān)測(cè)數(shù)據(jù)樣本進(jìn)行訓(xùn)練擬合,進(jìn)而通過(guò)誤差分析來(lái)驗(yàn)證模型的有效性,并完成對(duì)異常數(shù)據(jù)的重構(gòu)恢復(fù)。
本文選取國(guó)家水資源監(jiān)控能力建設(shè)項(xiàng)目所取得的工業(yè)取水?dāng)?shù)據(jù)為樣本,以廣東省某工業(yè)企業(yè)取水?dāng)?shù)據(jù)為例,對(duì)其2017年1月5日至2017年12月20日期間數(shù)據(jù)進(jìn)行統(tǒng)計(jì),見(jiàn)圖1。將該段時(shí)間內(nèi)原始取水監(jiān)測(cè)數(shù)據(jù)序列記為Da_i,且根據(jù)其數(shù)據(jù)波動(dòng)曲線(xiàn)可以觀測(cè)到樣本區(qū)間內(nèi)存在部分?jǐn)?shù)值突變、為零等異常狀態(tài)。
受企業(yè)生產(chǎn)計(jì)劃的影響,通常工業(yè)企業(yè)的取水監(jiān)測(cè)數(shù)據(jù)呈現(xiàn)出來(lái)的季節(jié)性波動(dòng)規(guī)律特征較為顯著,若直接選取3σ準(zhǔn)則評(píng)估其取水監(jiān)測(cè)數(shù)據(jù)時(shí),則易受到突變數(shù)據(jù)(含零值)的影響而導(dǎo)致正常數(shù)據(jù)的閾值區(qū)間被拉大,會(huì)造成異常數(shù)據(jù)判定存在較大誤差。但是相比之下,同一季度中工業(yè)取水監(jiān)測(cè)數(shù)據(jù)變動(dòng)幅度相對(duì)較小。因此,本文考慮取水監(jiān)測(cè)數(shù)據(jù)的季節(jié)性周期的波動(dòng)特點(diǎn),將3σ準(zhǔn)則拓展應(yīng)用到不同季節(jié)下的取水監(jiān)測(cè)數(shù)據(jù)異常值分析中,即分別測(cè)算各季節(jié)下的工業(yè)取水監(jiān)測(cè)數(shù)據(jù)3σ區(qū)間,通過(guò)分段式3σ準(zhǔn)則篩選超出該閾值區(qū)間的異常數(shù)據(jù),實(shí)現(xiàn)對(duì)監(jiān)測(cè)數(shù)據(jù)的粗處理。其中,3σ區(qū)間下限為負(fù)時(shí)將數(shù)值設(shè)為零,如圖2所示。
圖2 基于3σ準(zhǔn)則的取水監(jiān)測(cè)數(shù)據(jù)分析
注:橫線(xiàn)表示3σ上下閾值;圓點(diǎn)表示超出閾值區(qū)間的異常數(shù)據(jù)。
觀測(cè)圖2中對(duì)取水監(jiān)測(cè)數(shù)據(jù)的粗處理結(jié)果,同時(shí)利用3σ準(zhǔn)則測(cè)算出的數(shù)據(jù)閾值區(qū)間從左到右依次分別為(715.16,29 853.99)、(0,41 509.05)、(953.06,37 029.70)、(4 724.50,27 928.94),且在上述閾值區(qū)間之外的數(shù)據(jù)共有26項(xiàng)。若直接對(duì)樣本數(shù)據(jù)采用3σ準(zhǔn)則,則劃分的異常數(shù)據(jù)邊界為(0,35 475.23),過(guò)大的閾值范圍導(dǎo)致較多的突變數(shù)據(jù)未能得到有效的識(shí)別,同時(shí)也會(huì)對(duì)后期數(shù)據(jù)重構(gòu)過(guò)程中的樣本數(shù)據(jù)擬合造成影響。通過(guò)各季節(jié)下的分段式3σ準(zhǔn)則提取出的異常數(shù)據(jù)具有易識(shí)別的特點(diǎn),但這也僅是部分直觀性的異常數(shù)據(jù),而對(duì)于隱含在剩余工業(yè)取水監(jiān)測(cè)數(shù)據(jù)序列中的非可直觀辨識(shí)數(shù)據(jù)難以進(jìn)行有效判斷(見(jiàn)圖3,記為Da′_i)。對(duì)此,本文嘗試采用WTMM方法和Fourier函數(shù)對(duì)去除3σ準(zhǔn)則所判定出的異常數(shù)據(jù)序列進(jìn)行分析,進(jìn)一步挖掘取水監(jiān)測(cè)時(shí)頻數(shù)據(jù)中潛在的異常值。
圖3 取水監(jiān)測(cè)數(shù)據(jù)的粗處理序列
在數(shù)據(jù)粗處理的基礎(chǔ)上,按照式(1)對(duì)Da′_i實(shí)施離散小波變換,取得離散小波最大分解尺度下的小波基及其模極大值序列,見(jiàn)圖4。可以發(fā)現(xiàn),不同尺度下的小波極大值序列能夠較好地分別體現(xiàn)出取水監(jiān)測(cè)時(shí)頻序列的低頻與高頻特征。而按照Lipschitz指數(shù)[25],進(jìn)一步可以判斷出,隨著小波分解尺度的提高,取水監(jiān)測(cè)時(shí)頻序列中的白噪聲密度逐漸降低,這表示其小波極大值主要集中在高分解尺度下的時(shí)頻數(shù)據(jù)內(nèi)??紤]到傳統(tǒng)小波變換中測(cè)算模極大值時(shí)通常是采用逆小波的方式,這種將小波系數(shù)進(jìn)行零值轉(zhuǎn)化的方式雖然計(jì)算簡(jiǎn)便,但是易造成測(cè)算結(jié)果的偏差。本文選取Mallat交錯(cuò)投影法[26],利用不同尺度下分解的小波模極大值序列,對(duì)取水監(jiān)測(cè)數(shù)據(jù)進(jìn)行分尺度時(shí)頻重構(gòu)(見(jiàn)圖5),在此基礎(chǔ)上,結(jié)合小波系數(shù)完成對(duì)時(shí)頻監(jiān)測(cè)序列的逆變換,對(duì)各尺度下的重構(gòu)數(shù)據(jù)進(jìn)行集成處理,取得新時(shí)頻序列Da″_i。
圖4 各尺度下小波模極大值序列分解
圖5 小波重構(gòu)變換
觀測(cè)圖5中重構(gòu)曲線(xiàn)可知,重構(gòu)序列Da″_i可以實(shí)現(xiàn)對(duì)取水監(jiān)測(cè)數(shù)據(jù)的總體變化趨勢(shì)特征的表征,但由于在數(shù)據(jù)降噪重構(gòu)的過(guò)程中將部分?jǐn)?shù)據(jù)誤判為高頻噪聲并進(jìn)行剔除處理,造成重構(gòu)信息的損失,影響了重構(gòu)序列對(duì)局部取水監(jiān)測(cè)數(shù)據(jù)特征的有效反映,而小波變換本身無(wú)法實(shí)現(xiàn)對(duì)這類(lèi)已損失信息的再處理。因此,本文進(jìn)一步利用Fourier函數(shù)對(duì)Da″_i重構(gòu)過(guò)程中剩余的殘差序列進(jìn)行修正,挖掘可補(bǔ)充于WTMM方法重構(gòu)序列的取水監(jiān)測(cè)數(shù)據(jù)信息。通過(guò)測(cè)算圖3中取水監(jiān)測(cè)數(shù)據(jù)的粗處理序列Da′_i和序列Da″_i之間的殘差Er′,采用Fourier函數(shù)對(duì)Er′及小波變換重構(gòu)數(shù)據(jù)進(jìn)行數(shù)據(jù)的再重構(gòu),取得殘差修正的序列Da?_i,見(jiàn)圖6。比較小波變換及其與Fourier函數(shù)重構(gòu)數(shù)據(jù)序列,可發(fā)現(xiàn)利用Fourier函數(shù)修正的Da?_i能夠在小波重構(gòu)數(shù)據(jù)表征取水監(jiān)測(cè)數(shù)據(jù)變化特征的基礎(chǔ)上,進(jìn)一步完善其局部監(jiān)測(cè)點(diǎn)的數(shù)據(jù)變化情況,從而更為精準(zhǔn)地反映工業(yè)取水的總體變化趨勢(shì)。
圖6 基于WTMM-Fourier函數(shù)重構(gòu)數(shù)據(jù)序列
通過(guò)分析WTMM-Fourier函數(shù)重構(gòu)的Da?_i序列與粗處理序列Da′_i之間的相對(duì)誤差Err′來(lái)進(jìn)一步識(shí)別取水監(jiān)測(cè)數(shù)據(jù)的異常值,見(jiàn)圖7。其中,按照國(guó)家水資源監(jiān)控能力建設(shè)項(xiàng)目中取水監(jiān)測(cè)數(shù)據(jù)的規(guī)模統(tǒng)計(jì)經(jīng)驗(yàn),設(shè)定Err′的正常數(shù)據(jù)區(qū)間為[-0.5,0.5],若|Err′|>0.5,則認(rèn)為取水監(jiān)測(cè)值呈異常狀態(tài)。依據(jù)該標(biāo)準(zhǔn)可挖掘Da′_i序列中存在異常數(shù)據(jù)為12項(xiàng)。綜合上述分析,通過(guò)WTMM-Fourier函數(shù)殘差修正方法能夠較為有效地識(shí)別取水監(jiān)測(cè)時(shí)頻數(shù)據(jù)中的異常點(diǎn)。為便于觀測(cè),將異常數(shù)據(jù)的值設(shè)為零,從而更為清晰地辨識(shí)異常點(diǎn)在序列中的具體位置,如圖8所示。
圖7 WTMM-Fourier函數(shù)重構(gòu)數(shù)據(jù)的誤差序列
圖8 基于3σ準(zhǔn)則和WTMM-Fourier函數(shù)識(shí)別的異常數(shù)據(jù)
為進(jìn)一步體現(xiàn)所提出的采用3σ準(zhǔn)則和WTMM-Fourier函數(shù)識(shí)別取水監(jiān)測(cè)數(shù)據(jù)中異常值的有效性,引入經(jīng)典統(tǒng)計(jì)學(xué)中箱線(xiàn)圖進(jìn)行同樣本測(cè)算,其結(jié)果見(jiàn)圖9。可以看出,采用箱線(xiàn)圖方法對(duì)取水監(jiān)測(cè)數(shù)據(jù)序列Da_i的異常值挖掘數(shù)目為11項(xiàng),要明顯低于基于3σ準(zhǔn)則和WTMM-Fourier函數(shù)識(shí)別的異常數(shù)據(jù)項(xiàng),其部分異常數(shù)據(jù)未能夠得到有效的挖掘,同時(shí)由于忽視工業(yè)企業(yè)季節(jié)性取水波動(dòng)規(guī)律特征,容易導(dǎo)致異常數(shù)據(jù)識(shí)別能力受限而造成監(jiān)測(cè)數(shù)據(jù)對(duì)水資源管理決策的支持力度不足。
圖9 基于箱線(xiàn)圖的取水監(jiān)測(cè)數(shù)據(jù)異常值分析
(17)
圖10 不同類(lèi)型支持向量機(jī)數(shù)據(jù)樣本擬合結(jié)果
圖11 不同類(lèi)型支持向量機(jī)數(shù)據(jù)樣本擬合誤差
圖12 基于曲線(xiàn)擬合的異常數(shù)據(jù)重構(gòu)恢復(fù)
圖13 基于慣性函數(shù)-粒子群優(yōu)化的LSSVM異常數(shù)據(jù)重構(gòu)恢復(fù)
從方法的適用性與可操作性角度,目前國(guó)家水資源監(jiān)控能力建設(shè)項(xiàng)目取得的取水監(jiān)測(cè)數(shù)據(jù)呈現(xiàn)出“截面數(shù)據(jù)規(guī)模大而縱向數(shù)據(jù)體量小”的現(xiàn)狀,即由于項(xiàng)目推進(jìn)年度較近,雖然數(shù)據(jù)規(guī)??偭枯^大但還尚未取得較長(zhǎng)歷史年份下的時(shí)間序列數(shù)據(jù),這就造成了同一監(jiān)測(cè)對(duì)象在不同歷史年份下的取水監(jiān)測(cè)可對(duì)比性差,也提高了異常數(shù)據(jù)挖掘的難度。但面對(duì)加快提升水資源數(shù)據(jù)管理與決策支持的需求,提高取水監(jiān)測(cè)數(shù)據(jù)質(zhì)量又勢(shì)在必行,因此基于當(dāng)前取水監(jiān)測(cè)能力及數(shù)據(jù)樣本提出有效的異常數(shù)據(jù)分析方法迫在眉睫?;谏鲜鰻顩r,本文提出的采用3σ準(zhǔn)則和WTMM-Fourier函數(shù)識(shí)別取水監(jiān)測(cè)數(shù)據(jù)中異常值的策略,能夠基于分段式3σ準(zhǔn)則的數(shù)據(jù)粗處理過(guò)程將取水監(jiān)測(cè)量季節(jié)性波動(dòng)規(guī)律特征考慮在內(nèi),從而選取小波變換與Fourier函數(shù)對(duì)其中的異常數(shù)據(jù)實(shí)現(xiàn)深度挖掘與有效辨識(shí)。其中,小波WTMM變換可以實(shí)現(xiàn)取水監(jiān)測(cè)序列中的高低頻數(shù)據(jù)的分離,在維持原始取水監(jiān)測(cè)序列時(shí)序特征的基礎(chǔ)上完成數(shù)據(jù)的重構(gòu),而Fourier函數(shù)則是對(duì)上述重構(gòu)殘差序列中取水監(jiān)測(cè)數(shù)據(jù)波動(dòng)特征的再次提取,提高取水監(jiān)測(cè)數(shù)據(jù)的整體重構(gòu)精度。由實(shí)際檢驗(yàn)情況可知該策略的重構(gòu)精度要顯著高于傳統(tǒng)統(tǒng)計(jì)方法。
從方法的有效性角度,現(xiàn)階段國(guó)家水資源監(jiān)控能力建設(shè)項(xiàng)目推進(jìn)中出現(xiàn)的數(shù)據(jù)異常狀況,可大致分為“需求型異常”與“非需求型異?!眱煞N類(lèi)型。前者是指受人為操作、環(huán)境干擾、設(shè)備損壞等因素導(dǎo)致的取水監(jiān)測(cè)數(shù)據(jù)出現(xiàn)異常,這類(lèi)異常不是取水?dāng)?shù)據(jù)狀態(tài)的真實(shí)反映,需要被修正;后者是指由取用水戶(hù)實(shí)際取水需求與行為引發(fā)的監(jiān)測(cè)數(shù)據(jù)突變的情況,這類(lèi)數(shù)據(jù)是對(duì)真實(shí)取水狀況的反映,不需要再進(jìn)行數(shù)據(jù)重構(gòu)修正。本文采用3σ準(zhǔn)則和WTMM-Fourier函數(shù)聯(lián)合識(shí)別的取水監(jiān)測(cè)異常數(shù)據(jù)共38項(xiàng),而通過(guò)將異常數(shù)據(jù)反饋至取水監(jiān)測(cè)戶(hù)進(jìn)行二次校驗(yàn),發(fā)現(xiàn)其中“需求型異常”數(shù)據(jù)有31項(xiàng),異常數(shù)據(jù)判斷準(zhǔn)確率達(dá)81.6%,利用慣性函數(shù)-粒子群優(yōu)化的LSSVM模型重構(gòu)恢復(fù)的取水監(jiān)測(cè)異常數(shù)據(jù)與校對(duì)反饋真實(shí)值對(duì)比,發(fā)現(xiàn)其重構(gòu)誤差率均低于5%。同時(shí),取水監(jiān)測(cè)數(shù)據(jù)重構(gòu)曲線(xiàn)對(duì)整體與局部數(shù)據(jù)變動(dòng)趨勢(shì)及季節(jié)性周期波動(dòng)特點(diǎn)均具有良好的體現(xiàn)。由上可見(jiàn),本文提出的工業(yè)取水監(jiān)測(cè)異常數(shù)據(jù)的多尺度挖掘與重構(gòu)策略相對(duì)有效,還可將其拓展至其他相關(guān)領(lǐng)域進(jìn)行監(jiān)測(cè)數(shù)據(jù)分析。
通過(guò)梳理目前國(guó)家水資源監(jiān)控能力建設(shè)項(xiàng)目實(shí)施中出現(xiàn)的水資源異常狀態(tài),提出運(yùn)用3σ準(zhǔn)則和小波模極大值變換-Fourier函數(shù)相結(jié)合的工業(yè)取水監(jiān)測(cè)異常數(shù)據(jù)識(shí)別方法,并根據(jù)傳統(tǒng)LSSVM模型樣本訓(xùn)練的特點(diǎn),提出采用慣性函數(shù)-粒子群優(yōu)化的LSSVM異常數(shù)據(jù)重構(gòu)恢復(fù)模型。實(shí)例驗(yàn)證發(fā)現(xiàn),在考慮取水監(jiān)測(cè)數(shù)據(jù)季節(jié)性波動(dòng)特征的基礎(chǔ)上,運(yùn)用分段式的3σ準(zhǔn)則能夠?qū)崿F(xiàn)對(duì)取水監(jiān)測(cè)數(shù)據(jù)的粗處理,避免了由數(shù)據(jù)突變引起判別區(qū)間過(guò)大而易導(dǎo)致異常數(shù)據(jù)識(shí)別不充分的弊端;而進(jìn)一步利用小波模極大值變換模型可以完成監(jiān)測(cè)數(shù)據(jù)的高低頻分離與重構(gòu),但重構(gòu)過(guò)程中存在數(shù)據(jù)信息損失問(wèn)題,采用Fourier函數(shù)殘差修正的方式可以有效解決上述問(wèn)題,提高樣本擬合精度,從而實(shí)現(xiàn)對(duì)取水監(jiān)測(cè)數(shù)據(jù)的有效識(shí)別。經(jīng)過(guò)慣性函數(shù)-粒子群優(yōu)化的LSSVM模型可滿(mǎn)足異常數(shù)據(jù)較高精度的重構(gòu)恢復(fù)需求,其重構(gòu)精度要強(qiáng)于LSSVM及其被粒子群優(yōu)化的模型。上述工業(yè)取水監(jiān)測(cè)異常數(shù)據(jù)的多尺度挖掘與重構(gòu)策略不僅可為國(guó)家水資源監(jiān)控能力建設(shè)項(xiàng)目提供方法支持,還可為其他相關(guān)領(lǐng)域的數(shù)據(jù)挖掘提供技術(shù)參考。