谷海彤 陳邵華 吳曉強 蔡妙妝 崔卓 曾小林
摘 要:針對電能量數(shù)據(jù)缺失值處理技術(shù),提出一種引入時間序列的基于貝葉斯常均值模型的數(shù)據(jù)增廣算法(DA多重插補法).應(yīng)用期望最大算法(EM插補算法)計算缺失值的插補值,將得到的插補值作為插補的初始值,然后根據(jù)電能量數(shù)據(jù)隨時間變化的特點,構(gòu)建基于常均值模型的多重插補模型,利用貝葉斯方法預(yù)測每個缺失值的多次插補值,綜合分析觀測誤差方差和狀態(tài)誤差方差得到最終插補值,從而得到多個完整數(shù)據(jù)集合.在不同缺失率的條件下,通過與EM插補結(jié)果,以及與基于貝葉斯線性回歸的DA多重插補結(jié)果相比較,得出改進的插補方法比所預(yù)測的誤差更低,波動更小,插補結(jié)果更穩(wěn)定的結(jié)論,有效提高電能量缺失數(shù)據(jù)的插補精度.
關(guān)鍵詞:貝葉斯常均值模型;DA多重插補法;電能量數(shù)據(jù)缺失
中圖分類號:TM71 文獻標志碼:A
0 引言
電網(wǎng)數(shù)據(jù)處理應(yīng)用中,電能量數(shù)據(jù)質(zhì)量的校驗及處理是電網(wǎng)大數(shù)據(jù)處理業(yè)務(wù)的一個重要環(huán)節(jié),其中,電能量數(shù)據(jù)的缺失,會導(dǎo)致有用信息的丟失,給電網(wǎng)企業(yè)后續(xù)的各種數(shù)據(jù)處理及應(yīng)用帶來嚴重影響;因此,為保證電網(wǎng)數(shù)據(jù)的完整性、有效性,提升電能量數(shù)據(jù)質(zhì)量,需要對缺失數(shù)據(jù)進行插補以解決數(shù)據(jù)缺失問題.
傳統(tǒng)的電能量缺失數(shù)據(jù)插補方法主要是利用均值、眾數(shù)等統(tǒng)計量進行替代,但電能量數(shù)據(jù)波動大或缺失嚴重時,這些處理方法的誤差不可控且效果欠佳.針對這類問題,已有專家學(xué)者進行了相應(yīng)研究,以期找到更符合電能量數(shù)據(jù)規(guī)律的插補方法.文獻[1]中介紹了一種基于遺傳優(yōu)化算法的電網(wǎng)缺失數(shù)據(jù)填補方法,該方法考慮電能量數(shù)據(jù)的歷史信息,借助遺傳算法優(yōu)化多重插補的參數(shù),尋找最優(yōu)的插補值.但該方法將電能量數(shù)據(jù)視為平穩(wěn)序列,未考慮其時間波動特性,從而導(dǎo)致插補效果不理想,因為用電高峰和用電低谷時電能量數(shù)據(jù)顯然是非平穩(wěn)的.
在電能量缺失數(shù)據(jù)處理中,將時間序列引入多重插補是行之有效的方法.本論文將EM(Expectation Maximization)插補[2]及DA(Data Augmentation)多重插補相結(jié)合,提出一種基于貝葉斯常均值模型的DA多重插補方法.該方法根據(jù)電能量數(shù)據(jù)隨時間變化的特點,構(gòu)建基于常均值模型的DA多重插補模型,通過貝葉斯方法預(yù)測缺失數(shù)據(jù)的多個插補值,以尋找更符合電能量數(shù)據(jù)時間波動性質(zhì)的插補值,提高電能量數(shù)據(jù)的完整性及有效性.
1 方法介紹
1.1 EM插補計算初始值
記一個完全數(shù)據(jù)集Y=(y1,y2,…,yT)為T個時期的電能量數(shù)據(jù),其中Yobs為觀測數(shù)據(jù)集,Ymis為缺失數(shù)據(jù)集,即Y=(Yobs,Ymis).
EM插補運用缺失數(shù)據(jù)和模型參數(shù)之間的迭代關(guān)系[3]:假定模型參數(shù),并在此基礎(chǔ)上獲得缺失數(shù)據(jù)的估計值,利用該估計值修正模型參數(shù),由此不斷迭代,直到模型參數(shù)值收斂.EM插補算法每一次迭代都由以下兩步來完成:
E步:E步是在給定觀測Yobs與當(dāng)前參數(shù)估計值的基礎(chǔ)上,得到完全數(shù)據(jù)對數(shù)似然函數(shù)lnp(Yobs,Ymis│?茲)關(guān)于缺失數(shù)據(jù)Ymis的期望:
g(?茲│?茲i,Yobs)=E[lnp(Yobs,Ymis│?茲)│Yobs,?茲i]=lnp(Ymis,Yobs│?茲)f(Ymis│?茲i,Yobs)dYmis(1)
其中?茲i為已知的當(dāng)前參數(shù)的估計值,Yobs與?茲i為常數(shù),?茲為待優(yōu)化的參數(shù),f(Ymis│?茲i,Yobs)是缺失數(shù)據(jù)Ymis的邊緣密度函數(shù),并依附于觀測數(shù)據(jù)和當(dāng)前參數(shù)?茲i,D為Ymis的取值空間.
Ymis為一隨機變量,并假設(shè)它服從分布:
f(Ymis│?茲i,Yobs)=f(Ymis,Yobs│?茲i)/f(Yobs│?茲i), (2)
f(Yobs│?茲i)與?茲無關(guān),則對數(shù)似然函數(shù)的期望為:
g(?茲│?茲i,Yobs)=lnp(Ymis,Yobs│?茲)f(Ymis,Yobs│?茲i)dYmis(3)
M步:M步是最大化期望值g(?茲│?茲i,Yobs),即找到一個?茲(i+1),滿足:
?茲(i+1)=argg(?茲│?茲i,Yobs)
其中?專代表參數(shù)空間.
1.2 構(gòu)造基于常均值模型的DA插補模型
常均值模型[4]為時間序列模型,其應(yīng)用范圍廣且算法簡潔,對于完全數(shù)據(jù)集Y構(gòu)造的常均值模型為:
觀測方程:Yt=?滋t+vt,vt~Np(0,Vt),t=1,2,…,T (4)
狀態(tài)方程:?滋t=?滋t-1+wt,wt~Np(0,Wt) (5)
初始信息:?滋0│D0~Np(m0,c0) (6)
在式(4)中,Yt為t時刻的觀測值向量, ?滋t為t時刻的期望向量,vt為t時刻的觀測誤差,是一個協(xié)方差矩陣為Vt的零均值正態(tài)分布.動態(tài)正態(tài)模型與傳統(tǒng)的靜態(tài)正態(tài)模型的不同之處在于,期望向量被看做是隨時間變化而變化的隨機變量.在式(5)中,?滋t相對于?滋t-1有一個狀態(tài)誤差,其分布為正態(tài)、零均值、協(xié)方差矩陣Wt.觀測和狀態(tài)誤差序列vt和wt相互獨立,且在不同的時刻每一序列內(nèi)部之間相互獨立.當(dāng)Wt=0時,狀態(tài)方程轉(zhuǎn)化為恒等式,動態(tài)正態(tài)模型轉(zhuǎn)化為靜態(tài)正態(tài)模型.
1.3 進行貝葉斯預(yù)測獲得插補值
記t時刻的信息集Dt=Y′,Dt-1,t時刻缺失時Y′需用插補值代替Yt中的缺失值,不缺失時為觀測值,參數(shù)為?茲t=?滋t,Vt,參數(shù)空間為?專t.
基于常均值模型進行貝葉斯預(yù)測的基本思想是[5]:首先根據(jù)(t-1)時刻的后驗分布p(?茲t-1│Dt-1),求先驗分布p(?茲t│Dt-1),若t時刻有數(shù)據(jù)缺失,則求預(yù)測分布p(Ymis,t│Dt-1),數(shù)據(jù)缺失變量的預(yù)測值作為插補值,然后求后驗分布p(?茲t│Dt).以上過程隨時間推移不斷進行遞推修正,具體如圖1所示.
插補后的數(shù)據(jù)依舊滿足常均值模型,在觀測誤差方差Vt和Wt狀態(tài)誤差方差已知的基礎(chǔ)上,遞推修正的過程如下:
Step1 (t-1)時刻的后驗如下:
?滋t-1│Vt-1,Dt-1~Np(mt-1,ct-1);(7)
Step2 t時刻先驗分布如下:
p(?茲t│Dt-1)=p(?茲t│?茲t-1,Dt-1)dF(?茲t-1│Dt-1)=p(?茲t│?茲t-1)p(?茲t-1│Dt-1)d?茲t-1,(8)
?滋t│Vt,Dt-1~Np(mt-1,Ct-1+Wt);(9)
Step3 t時刻缺失時預(yù)測分布如下:
p(Ymis,t│Dt-1)=p(Ymis,t│?茲t)dF(?茲t│Dt-1), (10)
Ymis,t│Dt-1~Np(mt-1,p,Ct-1+Wt+Vt),(11)
p(Y't│Dt-1)p(?茲t│Dt)=p(Y't│?茲t,Dt-1)p(?茲t│Dt-1);(12)
Step4 t時刻后驗分布如下:
p(?茲t│Dt)∝p(Y't│?茲t,Dt-1)p(?茲t│Dt-1)=p(Y't│?茲t)p(?茲t│Dt-1),(13)
?滋t│Dt~Np(mt,Ct);(14)
其中:mt=mt-1+At(Y't-mt-1),Ct=Ct-1+Wt-At A'(Ct-1+Wt+Vt),At=(Ct-1+Wt)(Ct-1+Wt+Vt)-1. mt=(1-At)mt-1+AtY't,表明水平的后驗估計mt是先驗估計mt-1和觀測值Y't的加權(quán)平均[6],當(dāng)先驗分布比似然分布更集中時,At更接近0;當(dāng)似然分布比先驗分布更集中式,At更接近1.
當(dāng)t時刻數(shù)據(jù)缺失時,從預(yù)測分布和后驗分布抽取樣本,抽取過程包括如下重復(fù)兩個步驟:
I步:從p(Ymis,t│Dt-1, ?滋)中抽取Y;
P步:從p(?滋t│Dt-1,Y)中抽?。孔?
結(jié)合EM插補得出的初始值形成一條MCMC鏈,該鏈收斂一個穩(wěn)定分布,從收斂的分布中隨機抽取樣本,替代t時刻缺失數(shù)據(jù).對全部時刻的觀測數(shù)據(jù)做貝葉斯預(yù)測,計算預(yù)測誤差,改變觀測誤差方差Vt和狀態(tài)誤差方差Wt,重復(fù)預(yù)測,尋找預(yù)測誤差最小的Vt和Wt,此時插補的數(shù)據(jù)為最終插補數(shù)據(jù).
上述方法為本論文提出的基于貝葉斯常均值模型的DA多重插補法,根據(jù)電能量缺失數(shù)據(jù)提供一個實例進行詳細說明.
2 在電能量缺失數(shù)據(jù)中的應(yīng)用與分析
現(xiàn)有一個電能量缺失數(shù)據(jù)集Y0,為某用戶2016-01-01至2016-01-31日共31天744條記錄的A相電流數(shù)據(jù),電流數(shù)據(jù)具有周期性.該數(shù)據(jù)集在時間為2016-01-01 1:00,2016-01-01 11:00及2016-01-02 14:00時A相電流缺失,為驗證算法在不同缺失情況下的插補效果,在此缺失基礎(chǔ)上,隨機構(gòu)造缺失率為10%,15%,20%,25%,30%的電能量數(shù)據(jù)集,用于計算插補誤差并對比不同缺失條件下算法的穩(wěn)健性.用缺失率為20%的該電能量數(shù)據(jù)集Y為例,說明算法的具體實施過程,缺失數(shù)據(jù)集Y的部分數(shù)據(jù)如表1所示.
將該電能量數(shù)據(jù)集中的觀測數(shù)據(jù)集表示為Yobs,缺失數(shù)據(jù)集表示為Ymis,即Y=(Yobs,Ymis).
2.1 EM插補作初始值
利用數(shù)據(jù)集Y使用EM插補計算電能量數(shù)據(jù)缺失值的插補值.作為DA多重插補的初始參數(shù)值.根據(jù)前文所述的EM插補算法,得到插補后完整數(shù)據(jù)集Yem,部分結(jié)果如表2所示.計算該數(shù)據(jù)集的期望?滋0=0.87,作為常均值模型的初始信息.
其中,根據(jù)電能量數(shù)據(jù)的相關(guān)特性,該用戶A相電流的額定電流為5 A,因此設(shè)置當(dāng)前參數(shù)?茲 i=5,Ymis的取值空間D∈[0,5].
2.2 貝葉斯常均值模型的計算
構(gòu)建基于時間序列的多重插補模型,觀測數(shù)據(jù)服從常均值模型,把缺失時間對缺失值大小的影響表現(xiàn)出來.根據(jù)2.1所得的完全數(shù)據(jù)集Yem,及其期望?滋0,作為常均值模型的初始信息,構(gòu)造出完全數(shù)據(jù)集Y的常均值模型,利用該模型作為后續(xù)DA多重插補的插補模型.
對于完全數(shù)據(jù)集Y構(gòu)造的常均值模型為:
觀測方程:Yt=?滋t+vt,vt~Np(0,0.05),t=1,2,…,744(15)
狀態(tài)方程:?滋t=?滋t-1+wt,wt~Np(0,0.005)(16)
初始信息:?滋0│D0~Np(m0,C0)(17)
其中,根據(jù)電網(wǎng)數(shù)據(jù)的特性,額定電流為5 A的A相電流數(shù)據(jù),其觀測值在額定電流的±0.05范圍內(nèi)波動屬于正常值,由此設(shè)置觀測誤差vt~Np(0,0.05),t=1,2,…,744,狀態(tài)誤差wt~Np(0,0.005).
2.3 DA多重插補結(jié)果
根據(jù)2.2建立的貝葉斯常均值模型,從分布vt~Np(0,0.05)及wt~Np(0,0.005)隨機抽取觀測誤差vt及狀態(tài)誤差wt;再利用貝葉斯方法預(yù)測每個缺失值的多次插補值,本次實例重復(fù)預(yù)測10次,得到10個完整數(shù)據(jù)集合Ypre_i,i=1,2,3,…,10;找到使預(yù)測誤差最小的觀測誤差方差Vt和狀態(tài)誤差方差Wt,此時插補的數(shù)據(jù)為最終插補值.
經(jīng)過10次預(yù)測后,預(yù)測出的缺失數(shù)據(jù)部分結(jié)果及部分原始數(shù)據(jù)如表3所示.
由表3中10次插補的預(yù)測值Ypre_i,i=1,2,3,…,10,結(jié)合前文所述該電能量數(shù)據(jù)集Y0,計算該電能量數(shù)據(jù)集的絕對預(yù)測誤差E,并綜合絕對預(yù)測誤差計算平均絕對誤差EMAE,以查看預(yù)測效果,具體計算公式如下:
E=,i=1,2,3,…,744(18)
EMAE= (19)
其中,Y0為電能量數(shù)據(jù)的原始值,Ypre_i為電能量缺失數(shù)據(jù)的預(yù)測值.根據(jù)上述公式得出部分計算結(jié)果如表4所示.
根據(jù)表4,在缺失率為20%的條件下,從該DA多重插補法得到的10次插補結(jié)果中,綜合得到第2次預(yù)測的觀測誤差方差、狀態(tài)誤差方差,使得預(yù)測值的平均絕對誤差最小為0.12,因此選取第2次的插補數(shù)據(jù)為該電能量缺失數(shù)據(jù)最終確定的插補數(shù)據(jù).并且由表中對比可知,基于貝葉斯常均值模型的DA多重插補算法的絕對預(yù)測誤差、絕對平均誤差均明顯低于EM插補算法,插補效果更優(yōu).
2.4 不同缺失率下EM插補與DA多重插補對比
上述過程詳細描述了基于常均值模型的DA多重插補法在缺失率為20%的電能量數(shù)據(jù)集中的應(yīng)用,同理,將該過程同樣應(yīng)用于缺失率為10%,15%,25%,30%的電能量數(shù)據(jù)集,并對比EM插補與該方法在不同缺失率情況下的效果,結(jié)果對比如圖2所示.
從圖2可知,基于常均值模型的DA多重插補法的絕對平均誤差更低,不同缺失率之間的誤差波動更小,效果更穩(wěn)定.由此證明該方法在不同缺失率下,較EM插補法在電網(wǎng)缺失數(shù)據(jù)的應(yīng)用中效果更優(yōu)越.
2.5 基于不同模型的DA多重插補對比
為了進一步衡量與比較經(jīng)過改善后,基于貝葉斯常均值模型DA多重插補對電網(wǎng)缺失數(shù)據(jù)的插補效果.利用基于貝葉斯線性回歸的DA多重插補對同一批缺失率為20%的數(shù)據(jù),同樣利用EM插補算法計算初始值進行插補,計算絕對預(yù)測誤差和平均預(yù)測誤差.兩種DA多重插補的結(jié)果比較如圖3所示.
從圖3可以看出,基于貝葉斯常均值模型的DA多重插補均值更低,方差更小,預(yù)測結(jié)果更穩(wěn)定,進一步證明該方法在電網(wǎng)數(shù)據(jù)中應(yīng)用的優(yōu)越性.
因此,將該方法應(yīng)用于實際電網(wǎng)缺失數(shù)據(jù)中以查看效果,取某用戶2016-01-18至2016-01-24即周一至周日共7天168條A相電流記錄,其中該記錄缺失率為21%,運用該方法得到插補結(jié)果如圖4所示.
從圖4中可看出.該用戶的A相電流具有周期性,工作日的電流隨時間的波動較大休息日波動較穩(wěn)定.基于常均值模型的DA多重插補結(jié)果曲線與原數(shù)據(jù)曲線較吻合,且很好地描繪了原數(shù)據(jù)的周期性,體現(xiàn)了該方法充分考慮電能量數(shù)據(jù)時間波動性的優(yōu)點,及應(yīng)用于電網(wǎng)缺失數(shù)據(jù)中的優(yōu)越性.
3 結(jié)論
電能量缺失數(shù)據(jù)處理對保證電網(wǎng)數(shù)據(jù)質(zhì)量及各種數(shù)據(jù)處理的準確性有著積極的意義.本研究利用貝葉斯常均值模型作為DA多重插補模型,考慮電能量數(shù)據(jù)隨時間變化的性質(zhì),通過貝葉斯預(yù)測得到缺失數(shù)據(jù)的多個插補值,并綜合歷史數(shù)據(jù)及當(dāng)前信息的變化規(guī)律,尋找最優(yōu)的插補數(shù)據(jù).通過對某供電局電能量數(shù)據(jù)的實驗及對比驗證,得到了在不同缺失率條件下,基于貝葉斯常均值模型的DA多重插補方法較EM插補法的效果更穩(wěn)定,并且相比于基于線性回歸模型的多重插補方法,基于貝葉斯常均值模型的DA多重方法的效果更優(yōu)的結(jié)論.該方法應(yīng)用于電網(wǎng)數(shù)據(jù)中,充分考慮電能量數(shù)據(jù)的時間波動特性,不僅準確描述了電能量數(shù)據(jù)的短期變化,而且對長期變化的表征也更加科學(xué),有效提高電網(wǎng)數(shù)據(jù)質(zhì)量.
參考文獻
[1] 王一蓉,王瑞杰,陳文剛,等.基于遺傳優(yōu)化的調(diào)控系統(tǒng)缺失數(shù)據(jù)填補算法[J].電力系統(tǒng)保護與控制,2016,44(21):182-186.
[2] GUO X,LI Q Y,XU W L,et al.Acceleration of the EM algorithm using the vector aitken method and its steffensen form[J].Acta Mathematicatae Applicatae Sinica English,2017,33(1):175-182.
[3] 龐新生.缺失數(shù)據(jù)多重插補處理方法的算法實現(xiàn)[J].統(tǒng)計與決策,2012(11):88-90.
[4] 張聰慧,楊明.貝葉斯動態(tài)模型在煤礦事故預(yù)測中的應(yīng)用研究[J].中國安全生產(chǎn)科學(xué)技術(shù),2014,10(S1):254-258.
[5] 盧艷紅.貝葉斯常均值模型狀態(tài)誤差方差Wt的改進及在能源預(yù)測中的應(yīng)用[D].上海:華東理工大學(xué),2013.
[6] 林開榮,徐新苗.貝葉斯統(tǒng)計在多片板簧可靠性設(shè)計中的應(yīng)用[J].廣西工學(xué)院學(xué)報,2004,15(4):34-36.
Application of DA multiple interpolation in electric energy data missing
GU Hai-tong, CHEN Shao-hua,WU Xiao-qiang, CAI Miao-zhuang, CUI Zhuo, ZENG Xiao-lin*
(Guangzhou Power Supply Co., Ltd., Guangzhou 510620, China)
Abstract:In this paper, a DA multiple interpolation method introducing time series based on Bayesian mean value model is proposed to handle with missing data in electric energy data. Firstly, the EM interpolation algorithm is used to calculate the interpolation value of missing value, and the obtained interpolation value is taken as the initial value of the interpolation. Secondly, according to the characteristics of electric energy date changing over time, a multiple imputation model on the base of mean value model is constructed. Then, the multiple interpolation values of each missing value will be predicted by Bayesian method. The final error is obtained by comprehensive analysis of the observed error variance and the state error variance, and a number of complete data sets are finally obtained. In the condition of different data loss rate, compared with other results of EM interpolation and the DA interpolation based on Bayesian linear regression, it is obviously concluded that the improved interpolation method applied in this paper takes full account of the time fluctuation characteristics of electric energy data and is more objective as well as practical, besides, its interpolation result is more scientific and reasonable.
Key words: Bayesian mean value model; DA multiple interpolation method; lack of electrical energy data
(學(xué)科編輯:張玉鳳)