陳俊,龍東,楊舟,韋杏秋
(廣西電網(wǎng)有限責任公司電力科學研究院,南寧530023)
電能計量的智能化、系統(tǒng)化、模塊化是電力系統(tǒng)計量技術(shù)發(fā)展的趨勢[1]。由于電能計量設(shè)備本身的故障異常[2]、傳輸信號不穩(wěn)定等原因,造成計量自動化終端采集回來的電量計量數(shù)據(jù)缺失等問題,影響后續(xù)電能量數(shù)據(jù)在計量實際業(yè)務(wù)的分析、應(yīng)用。文獻[3-6]分別介紹了均值替代、空間自回歸、多項式插補、線性插值等通常的數(shù)據(jù)缺失值處理方法,但當電能量數(shù)據(jù)不平穩(wěn)或者缺失偏態(tài)情況嚴重時,通常處理方法的預(yù)測誤差變得不可控,缺值處理效果欠佳。黃喻[7]、董芳英[8]、蘇連成[9]等在地理、基因、材料等領(lǐng)域擴展應(yīng)用了局部加權(quán)回歸散點平滑法(Locally Weighted Scatter Plot Smoothing,LOWESS)進行數(shù)據(jù)缺失處理,并且得到了較好的結(jié)果,但現(xiàn)有的LOWESS回歸模型其準確性受限于給定的窗口和多項式的階數(shù)。Jae[10]提出了一種啟發(fā)式方法,通過交叉檢驗技術(shù)來選擇最優(yōu)的LOWESS窗口,對比分析模型與固定窗口的LOWESS模型在微陣列基因數(shù)據(jù)分析中的表現(xiàn)。因此,本文提出一種基于預(yù)測誤差最小化的組合優(yōu)化LOWESS回歸的電能量缺失數(shù)據(jù)插補處理方法,通過對比固定窗口和階數(shù)在非平穩(wěn)的電能量數(shù)據(jù)上的預(yù)測效果,研究參數(shù)優(yōu)化LOWESS模型的準確性、適應(yīng)性以及相對優(yōu)勢性。本文提出的組合優(yōu)化LOWESS模型為電能量數(shù)據(jù)缺失值處理的自動化、高準確率提供了解決方案。
非參數(shù)回歸具有開放式的探索變量關(guān)系,擬合曲線能較好描述變量之間的關(guān)系以及能擬合復(fù)雜的數(shù)據(jù)的特點。因此,非參數(shù)回歸比參數(shù)回歸擬合更加靈活,能更有效地減少參數(shù)回歸模型可能存在的模型偏差。LOWESS是非參數(shù)回歸模型中的局部多項式模型的一個擴充,其形式是非參數(shù)回歸模型的穩(wěn)健—M估計。穩(wěn)健性反映的是這一種性質(zhì):當真實模型與假定的理論模型有一定的偏離時,仍能維持較好的統(tǒng)計性質(zhì)。LOWESS模型首先需要對數(shù)據(jù)進行局部多項式估計,則應(yīng)用于電能量數(shù)據(jù)缺失處理的LOWESS模型一元非參數(shù)回歸模型為:
式中yi是實際的電能量數(shù)據(jù);m(xi)是模型預(yù)測值;ui是隨機誤差項,i=1,2,3,…n。ui的數(shù)學期望為0。假設(shè)m(xi)在計量自動化終端采集回來的電能量數(shù)據(jù)x0附近有p+1階導數(shù),則在x0的某一鄰域有:
組合優(yōu)化局部加權(quán)多項式擬合模型中設(shè)有加權(quán)誤差平均和滿足:
其中,wi是擬合模型的權(quán)重函數(shù),滿足如下條件:
其中 Δ[i](vj)*=|xi-xj|/|xq-xj|,且有 i,j=1,2,…,n,q=[hn],[hm]表示缺失電能量數(shù)據(jù)的寬度h和個數(shù)n的乘積。
由公式(1)則得到m(xi)的估計值為^m(xi),其誤差為:
其穩(wěn)健權(quán)數(shù)為
利用穩(wěn)健權(quán)數(shù)δi對模型進行局部多項式估計,可以得到新的誤差ci。重復(fù)以上過程,直至達到初始設(shè)置的次數(shù),則可以得到穩(wěn)健估計值。利用wi替代公式(4)中的wi,并根據(jù)公式(3)應(yīng)用誤差最小化規(guī)則,多次計算逼近后得到實際電能量數(shù)據(jù)的插補值。
為了構(gòu)建準確的電能量缺失數(shù)據(jù)自動處理的方法,需要對所有歷史數(shù)據(jù)進行遍歷,當識別到空值時將下標保存進集合中,設(shè)集合T的大小為h。對電能量缺失數(shù)據(jù)集合進行預(yù)測的過程進一步包括以下步驟(見圖1)。
圖1 缺失數(shù)據(jù)自動處理流程Fig.1 Missing data process flow
步驟一:初始化迭代最大步驟f,迭代窗寬步長l;
步驟二:重復(fù)進行組合優(yōu)化局部加權(quán)多項式擬合回歸模型預(yù)測,對于每次回歸,應(yīng)用預(yù)測誤差最小化規(guī)則判別此次的預(yù)測值和加權(quán)誤差是否加入結(jié)果集S={(t1,ei)},然后根據(jù)窗寬步長按風險最小化規(guī)則更新窗寬d和擬合階數(shù)p,并將中間計算值存入結(jié)果集 S={(ti,ei)};
步驟三:將結(jié)果集和權(quán)函數(shù)相乘,然后加和得到最終預(yù)測值;所述最終預(yù)測值滿足:
式中 s,j=1,2,…,h,z,kj是權(quán)函數(shù),z等于結(jié)果集的數(shù)量,且有:
其中 j=1,2,…,z,z等于結(jié)果集的數(shù)量;
步驟四:經(jīng)驗風險最小化原則判別原則為,若ei小于S中所有的誤差,則保存ti和ei入集合S;若ei大于預(yù)測值對應(yīng)的誤差,則不保存,所述窗寬更新和擬合階數(shù)更新條件為:若ei<ei-1,則d=d+l,否則,d=d-1,n=n+1。
若最大步驟f設(shè)定為10,所述迭代終止條件為局部加權(quán)多項式擬合回歸中的最后n項加權(quán)誤差的差值在-0.1~+0.1內(nèi)波動。則其窗寬步長為l=d/10,其中d為初始化局部加權(quán)多項式擬合回歸的窗寬。
隨機選取驗證數(shù)據(jù),本次是來自某供電局編號為0202I1B032****在2014年的輸入有功電能量數(shù)據(jù),具體數(shù)據(jù)如表1所示,表1中的記錄時間為電表采集時間,寫入時間為數(shù)據(jù)插入數(shù)據(jù)庫時間,輸入有功為終端采集回來的電表計量的電能值。所采用的缺失值是用隨機無重復(fù)抽樣的方法進行抽取,抽取的缺失值比例占總數(shù)據(jù)集的比例為10%。
表1 有功電能量數(shù)據(jù)Tab.1 Active power electricity data
由于在用電過程中,用戶在一段時間內(nèi)的用電行為總是類似的,如夏天的時候,制冷設(shè)備的使用等。因此,可以考慮使用一段時間內(nèi)的數(shù)據(jù)進行本時間內(nèi)的預(yù)測,同時考慮到用電規(guī)律的時間差距效應(yīng),離缺失值越遠的數(shù)據(jù),從邏輯上來說,離預(yù)測點越遠的數(shù)據(jù)對預(yù)測點的影響越小。因此關(guān)鍵的問題在于如何選取一個合適的寬度,使得該寬度以外的值對預(yù)測點的影響為0。通過LOWESS回歸來自適應(yīng)數(shù)據(jù)以達到精確插值的效果。
假設(shè)電能量的缺失數(shù)據(jù)分別為602及594,初始化寬度d=20,p=1,迭代最大步驟設(shè)定為10。迭代終止條件為組合優(yōu)化LOWESS回歸中的最后n項加權(quán)誤差的差值在+0.1~-0.1波動,則迭代過程及模型計算結(jié)果如表2所示。
利用本文提出的參數(shù)組合優(yōu)化LOWESS回歸,采用上述的迭代計算,可以得到所有數(shù)據(jù)的預(yù)測值和實際值的對比(見圖2、圖3)。由圖2可以看出,參數(shù)組合優(yōu)化LOWESS回歸的電能量缺失值處理的預(yù)測能力較為準確,與實際情況偏離不大;而圖3中,展示了缺失比例在0%~50%的模型的預(yù)測電能和實際電能平均差值的曲線圖,則說明參數(shù)優(yōu)化LOWESS回歸的電能量缺失值在數(shù)據(jù)集的高比例缺失下表現(xiàn)良好。
圖2 預(yù)測值和缺失值對比圖Fig.2 Comparison of predictive and missing data curve
圖3 不同缺失比例的平均誤差Fig.3 Mean error at different missing proportions
對于窗寬比起階數(shù)對預(yù)測后模型的估計偏差影響更大。因此以窗寬為自變量,研究不同固定參數(shù)和參數(shù)優(yōu)化LOWESS模型在預(yù)測集上的累計誤差。以步長為0.1,窗寬在0.1~0.5的LOWESS模型和組合優(yōu)化后的LOWESS模型的累計泛化誤差變化(見圖4);由圖4中可以發(fā)現(xiàn),組合優(yōu)化的LOWESS算法的累計誤差要小于窗寬為0.1~0.5的LOWESS模型,因此,從一個較長的時間來看,組合優(yōu)化的LOWESS模型較之固定參數(shù)LOWESS模型造成的偏差會更小,得到的結(jié)果更加精確。
圖4 固定參數(shù)與組合優(yōu)化LOWESS的累計誤差變化Fig.4 Accumulative error of fixed and optimized parameters LOWESS method
表2 迭代計算過程及預(yù)計結(jié)果Tab.2 Iterations calculation flow and prediction results
電能量數(shù)據(jù)缺失數(shù)據(jù)自動插補是電能計量系統(tǒng)智能化的不可缺少的部分。針對實際電能量數(shù)據(jù)的統(tǒng)計分布特性,考慮到通常的均值替代等方法對電能量數(shù)據(jù)缺失的處理效果欠佳,LOWESS模型的估計偏差受限于其給定的窗寬和擬合階數(shù)的特性,本文提出一種基于預(yù)測誤差最小化的參數(shù)組合優(yōu)化LOWESS回歸模型的缺失數(shù)據(jù)自動處理方法,通過對比固定窗口和階數(shù)在非平穩(wěn)的電能量數(shù)據(jù)上的預(yù)測效果,研究參數(shù)優(yōu)化LOWESS模型在模型準確性、適應(yīng)性以及相對優(yōu)勢性三個方面,得出如下結(jié)論:
(1)參數(shù)組合優(yōu)化LOWESS模型能適應(yīng)電能量數(shù)據(jù)不同數(shù)據(jù)分布、不同缺失比例等情況,在預(yù)測過程表現(xiàn)良好,預(yù)測準確率高;
(2)對于數(shù)據(jù)集上缺失比例在0~50%的范圍內(nèi),模型表現(xiàn)良好,缺失比例增大時,模型的泛化誤差沒有顯著性的增長;
(3)參數(shù)組合優(yōu)化LOWESS模型相比起寬度比例在0.1:0.5的LOWESS模型在實際數(shù)據(jù)集上的表現(xiàn)更好,其累計誤差均低于固定參數(shù)的LOWESS模型。