王一蓉,王瑞杰,陳文剛,吳潤澤
基于遺傳優(yōu)化的調(diào)控系統(tǒng)缺失數(shù)據(jù)填補(bǔ)算法
王一蓉1,王瑞杰2,陳文剛3,吳潤澤2
(1.北京國電通網(wǎng)絡(luò)技術(shù)有限公司,北京 100070;2.華北電力大學(xué)電氣與電子工程學(xué)院,北京102206; 3.國網(wǎng)山西省電力公司晉城供電公司,山西 晉城 048000)
數(shù)據(jù)缺失問題是電網(wǎng)調(diào)度控制系統(tǒng)中重要的研究課題。為保證數(shù)據(jù)的完整性和準(zhǔn)確性,提出一種基于遺傳優(yōu)化的調(diào)度控制系統(tǒng)缺失數(shù)據(jù)填補(bǔ)算法。該算法利用遺傳優(yōu)化方法估計(jì)不完整數(shù)據(jù)的參數(shù),獲得最優(yōu)數(shù)據(jù)參數(shù),在最優(yōu)參數(shù)基礎(chǔ)上利用馬爾科夫鏈蒙特卡羅算法對缺失數(shù)據(jù)進(jìn)行估計(jì)、填補(bǔ)。對電力調(diào)度控制系統(tǒng)中缺失數(shù)據(jù)的填補(bǔ)結(jié)果分析,發(fā)現(xiàn)所提出的缺失數(shù)據(jù)填補(bǔ)算法能快速準(zhǔn)確地填補(bǔ)缺失數(shù)據(jù),保證了電網(wǎng)調(diào)度控制數(shù)據(jù)的完整性和準(zhǔn)確性。
電網(wǎng)調(diào)度控制系統(tǒng);缺失數(shù)據(jù);遺傳算法;最優(yōu)參數(shù);填補(bǔ)算法
智能電網(wǎng)是未來電力系統(tǒng)的理想解決方案,而調(diào)度環(huán)節(jié)是智能電網(wǎng)的神經(jīng)中樞。為了建設(shè)智能調(diào)度系統(tǒng)和電力系統(tǒng)可視化需要對海量的電力數(shù)據(jù)進(jìn)行處理[1]。但是,電力數(shù)據(jù)中存在數(shù)據(jù)缺失問題。一方面,電網(wǎng)調(diào)度控制系統(tǒng)采集的數(shù)據(jù)中普遍存在數(shù)據(jù)畸形和缺失的問題,比如數(shù)據(jù)采集與監(jiān)視控制系統(tǒng)、廣域監(jiān)測系統(tǒng)采集到畸形信號或者缺失數(shù)據(jù)[2-4];另一方面,對調(diào)控領(lǐng)域的多源數(shù)據(jù)進(jìn)行整合分析時(shí),容易造成數(shù)據(jù)缺失問題[5]。隨著大數(shù)據(jù)時(shí)代的到來,電網(wǎng)也逐步走向智能化,即智能電網(wǎng)。為了實(shí)現(xiàn)智能電網(wǎng),必須獲取海量的、真實(shí)完整的狀態(tài)數(shù)據(jù)[6]。因此,為了保證電網(wǎng)業(yè)務(wù)數(shù)據(jù)的真實(shí)性、完整性、準(zhǔn)確性,促進(jìn)智能電網(wǎng)大數(shù)據(jù)的發(fā)展,需要對不完整的數(shù)據(jù)進(jìn)行數(shù)據(jù)填充來解決缺失數(shù)據(jù)問題。
缺失數(shù)據(jù)的特征分為缺失數(shù)據(jù)模式和機(jī)制。缺失數(shù)據(jù)模式描述了以觀測數(shù)據(jù)和缺失數(shù)據(jù)兩部分。通常缺失數(shù)據(jù)模式分為兩類:單調(diào)缺失模式和任意缺失模式。缺失數(shù)據(jù)機(jī)制反映了缺失數(shù)據(jù)與其他觀測數(shù)據(jù)之間的相依關(guān)系。因此,在缺失數(shù)據(jù)填充中確定缺失機(jī)制非常重要。按照Little和Rubin提出的缺失機(jī)制方法,將其分為三類:完全隨機(jī)缺失(Missing Completely at Random,MCAR)、隨機(jī)缺失(Missing at Random,MAR)和非隨機(jī)缺失(Missing not at Random,NMAR)[7]。對于MCRA機(jī)制,數(shù)據(jù)缺失是隨機(jī)的,不依賴其他數(shù)據(jù);對于MAR機(jī)制,數(shù)據(jù)的缺失只依賴已觀測的部分,而不依賴于缺失的部分;對于NMAR機(jī)制,缺失數(shù)據(jù)不僅依賴于已觀測的部分,還依賴于缺失的數(shù)據(jù)。根據(jù)缺失數(shù)據(jù)的模式機(jī)制,可以確定相應(yīng)的缺失數(shù)據(jù)處理方法。目前存在一些不完整數(shù)據(jù)填充算法,主要包括基于屬性重要性的填充算法、基于最大期望(Expectation Maximization, EM)算法和貝葉斯網(wǎng)絡(luò)的丟失數(shù)據(jù)填充算法、演繹填補(bǔ)法、回歸填補(bǔ)法、最近距離填補(bǔ)法,多重填補(bǔ)算法(Multiple Imputation, MI)[8-12]。實(shí)際情況中,NMAR機(jī)制的缺失數(shù)據(jù)最常見,對該機(jī)制的缺失數(shù)據(jù)進(jìn)行數(shù)據(jù)填充時(shí),多重填補(bǔ)算法的填充效果相對較好,其通過多個(gè)完整的數(shù)據(jù)集進(jìn)行數(shù)據(jù)的統(tǒng)計(jì)分析,并將結(jié)果綜合分析產(chǎn)生推斷,反映了缺失數(shù)據(jù)帶來的不確定性和增加了估計(jì)的效率。但是,MI中也存在技術(shù)挑戰(zhàn),在MI中用到EM算法進(jìn)行數(shù)據(jù)參數(shù)估計(jì),通過估計(jì)的參數(shù)對缺失數(shù)據(jù)進(jìn)行估計(jì)。EM 算法估計(jì)不完整數(shù)據(jù)的參數(shù)時(shí),采用極大似然估計(jì)法,計(jì)算似然函數(shù)的極值確定最優(yōu)參數(shù),其未考慮全部參數(shù)情況,因此,EM 算法估計(jì)的最優(yōu)參數(shù)可能為局部最優(yōu)參數(shù),不準(zhǔn)確的參數(shù)影響缺失數(shù)據(jù)的準(zhǔn)確性。
為了提高多重填補(bǔ)算法估計(jì)缺失數(shù)據(jù)的準(zhǔn)確性和加快算法的計(jì)算過程,本文在保持MI算法良好的填充性能上對其進(jìn)行了改進(jìn),針對電力調(diào)度控制系統(tǒng)采集數(shù)據(jù)不完整的問題提出一種基于遺傳算法的調(diào)度控制系統(tǒng)缺失數(shù)據(jù)填充算法。該算法以遺傳算法思想對不完整數(shù)據(jù)的參數(shù)進(jìn)行估計(jì),需找數(shù)據(jù)參數(shù)的全局最優(yōu)解,提高了參數(shù)值的準(zhǔn)確度。在最優(yōu)參數(shù)的基礎(chǔ)上通過常用的馬爾科夫蒙特卡洛鏈的方法進(jìn)行缺失數(shù)據(jù)填補(bǔ)。本文以電網(wǎng)調(diào)度控制系統(tǒng)采集到的數(shù)據(jù)為實(shí)例,證明了本文算法能快速準(zhǔn)確地填補(bǔ)缺失數(shù)據(jù),保證了電網(wǎng)調(diào)度控制數(shù)據(jù)的完整性和準(zhǔn)確性。
本文中采用馬爾科夫鏈蒙特卡羅(Markov Chain Monte Carlo,MCMC)方法對NMAR機(jī)制電力調(diào)度控制系統(tǒng)采集的缺失數(shù)據(jù)進(jìn)行填充。該方法以不完整數(shù)據(jù)集和不完整數(shù)據(jù)的參數(shù)為條件,對缺失數(shù)據(jù)進(jìn)行迭代估計(jì)。由于數(shù)據(jù)缺失無法確定數(shù)據(jù)集的參數(shù),因此,對缺失數(shù)據(jù)填充之前需要對整個(gè)不完整數(shù)據(jù)的參數(shù)進(jìn)行估計(jì)。而且,估計(jì)的參數(shù)與實(shí)際值越相近,估計(jì)的缺失數(shù)據(jù)越接近真實(shí)值。為了提高參數(shù)的有效性,本文采用基于遺傳的算法對參數(shù)進(jìn)行估計(jì)。
1.1 估計(jì)數(shù)據(jù)均值和協(xié)方差矩陣
在電力數(shù)據(jù)中,數(shù)據(jù)的分布主要分為兩大類:正態(tài)分布和冪律分布。其中在對不完整數(shù)據(jù)參數(shù)進(jìn)行估計(jì)時(shí),本文以數(shù)據(jù)的對數(shù)似然函數(shù)作為目標(biāo)函數(shù)建立估計(jì)模型,其中均值和方差矩陣作為參數(shù)。
本文以包含參數(shù)的對數(shù)似然函數(shù)作為目標(biāo)函數(shù),通過已有樣本獲得參數(shù)的相應(yīng)約束條件,由目標(biāo)函數(shù)和約束條件共同構(gòu)成估計(jì)模型。其次,通過迭代的過程對參數(shù)值進(jìn)行估計(jì),而參數(shù)估計(jì)值的精確度是由目標(biāo)函數(shù)確定。目標(biāo)函數(shù)越大,所估計(jì)的參數(shù)越準(zhǔn)確。因此,根據(jù)目標(biāo)函數(shù)極大值所對應(yīng)的參數(shù)確定最優(yōu)參數(shù)。由此可得,估計(jì)數(shù)據(jù)均值和協(xié)方差矩陣的框架圖,如圖1所示。
圖1 數(shù)據(jù)參數(shù)估計(jì)方框圖Fig. 1 Block diagram for data parameter estimation
含有待估計(jì)的均值和協(xié)方差矩陣的對數(shù)似然函數(shù)為
確定待估計(jì)參數(shù)和參數(shù)估計(jì)模型之后,要在約束條件內(nèi)隨機(jī)生成參數(shù)種群,種群的規(guī)??梢愿鶕?jù)數(shù)據(jù)缺失率來定(當(dāng)數(shù)據(jù)缺失率較高時(shí),種群規(guī)??梢赃m當(dāng)增大;反之,規(guī)模適當(dāng)減小)。種群規(guī)模一般定為100。為了加快得到最優(yōu)解的速度,第一代種群中需要包含數(shù)據(jù)集obsY 所對應(yīng)的均值和協(xié)方差矩陣。種群中個(gè)體進(jìn)行初始化后,需要有適應(yīng)函數(shù)來計(jì)算每個(gè)參數(shù)個(gè)體在種群中的適應(yīng)度,以確定個(gè)體的優(yōu)劣程度。本文以目標(biāo)函數(shù)作為適應(yīng)函數(shù)。當(dāng)函數(shù)值越大,參數(shù)越接近真實(shí)值、越準(zhǔn)確。
種群迭代過程模擬了自然進(jìn)化規(guī)律。根據(jù)計(jì)算得到的個(gè)體的適應(yīng)度,對適應(yīng)度高的部分個(gè)體,采取保留的措施;同時(shí)對參數(shù)個(gè)體,利用交叉、變異措施進(jìn)行進(jìn)化,實(shí)現(xiàn)得到更優(yōu)的參數(shù)個(gè)體。在交叉、變異過程中,交叉概率 Pc和變異概率mP所對應(yīng)的兩個(gè)概率值將直接影響著種群的進(jìn)化速度,而且一般是通過經(jīng)驗(yàn)得到的。
其中,交叉進(jìn)化過程如下:設(shè) Pc為交叉概率,取值范圍為,建議取0.8。參數(shù)種群中含有n個(gè)參數(shù)個(gè)體,從參數(shù)種群中選取cn P×個(gè)參數(shù)個(gè)體進(jìn)行交叉操作。假設(shè)表示參數(shù)種群的父代,將其隨機(jī)選擇兩個(gè)參數(shù)組成交叉對,記作且i j1 。以交叉對為例說明交叉操作的過程,從區(qū)間產(chǎn)生一個(gè)隨機(jī)數(shù)e,在集合中隨機(jī)選擇v,按式(2)對中的進(jìn)行交叉操作,產(chǎn)生兩個(gè)后代,得到新的參數(shù)
其變異進(jìn)化過程如下:設(shè)mP為變異概率,取值范圍為( )0,1,建議取0.06,參數(shù)種群中含有n個(gè)參數(shù)個(gè)體,從參數(shù)種群中選取mn P× 個(gè)參數(shù)個(gè)體進(jìn)行交叉操作。設(shè)是參數(shù)種群中的個(gè)體,包含的均值為。取范圍內(nèi)的隨機(jī)值,按式(4)進(jìn)行變異,則變異后的均值為,則變異后的參數(shù)可記作'hq。
本文算法參數(shù)估計(jì)迭代終止條件為最優(yōu)參數(shù)對應(yīng)的適應(yīng)函數(shù)值變化范圍小于某個(gè)很小的值a,即,其中為迭代循環(huán)了i次后最優(yōu)參數(shù)對應(yīng)的目標(biāo)函數(shù)值。當(dāng)滿足終止條件時(shí),終止迭代,得到最優(yōu)估計(jì)值。若滿足則終止迭代,得到最優(yōu)估計(jì)值;若不滿足則返回繼續(xù)迭代尋優(yōu)。需要注意,取值范圍為,建議取 10-4,因?yàn)槿≈颠^小,迭代次數(shù)就會大幅度的增加,增加了系統(tǒng)開銷和迭代時(shí)間,但是目標(biāo)函數(shù)值的變化幅度較??;a取值過大,確定的參數(shù)誤差較大,未實(shí)現(xiàn)尋找最優(yōu)參數(shù)個(gè)體的目的。
相對于EM算法估計(jì)參數(shù),本文基于遺傳算法進(jìn)行不完整數(shù)據(jù)參數(shù)估計(jì),擴(kuò)大了待估計(jì)參數(shù)的范圍,在求解數(shù)據(jù)參數(shù)問題中,容易跳出局部收斂情況,得到更優(yōu)的解,具有更好的收斂性和收斂速度。
1.2 估計(jì)缺失數(shù)據(jù)
為了提高估計(jì)值的準(zhǔn)確性,針對電力調(diào)度控制系統(tǒng)中以隨機(jī)缺失模式為主的缺失數(shù)據(jù),本文利用MCMC方法對缺失數(shù)據(jù)進(jìn)行迭代估計(jì)。填補(bǔ)的過程如所述。
(1) 以1.1節(jié)估計(jì)的均值向量、協(xié)方差矩陣和數(shù)據(jù)集obsY 為條件,對每個(gè)缺失數(shù)據(jù)獨(dú)立地估計(jì),即從條件分布中,得出的值。
(2) 根據(jù)填補(bǔ)后的完整數(shù)據(jù)集,模擬數(shù)據(jù)的后驗(yàn)均值向量和協(xié)方差矩陣,即中得到,將其用在(1)中,重復(fù)進(jìn)行。
(1)、(2)兩步相互迭代對缺失數(shù)據(jù)進(jìn)行填充,直到填補(bǔ)的缺失數(shù)據(jù)以及對應(yīng)的數(shù)據(jù)參數(shù)不再變化或者變化范圍在允許的范圍之內(nèi)。也就是說,在填補(bǔ)過程中產(chǎn)生一條馬爾科夫鏈,該鏈會聚于分布。當(dāng)該分布穩(wěn)定時(shí),將得到的misY 填補(bǔ)缺失數(shù)據(jù),獲得最終的完整數(shù)據(jù)集。
為了減小誤差提高精確度,本文采用產(chǎn)生m (一般m取5)條馬爾科夫鏈進(jìn)行填補(bǔ),填補(bǔ)之后會得到m個(gè)完整的數(shù)據(jù)集。當(dāng)需要對原數(shù)據(jù)集進(jìn)行統(tǒng)計(jì)分析時(shí),需要首先對m個(gè)完整的數(shù)據(jù)集進(jìn)行分析,之后將分析結(jié)果進(jìn)行綜合推斷分析。
為了分析本文所提出算法的性能,本文以電力調(diào)度控制系統(tǒng)中山西省某變電站數(shù)據(jù)為實(shí)例數(shù)據(jù),利用不同算法對缺失數(shù)據(jù)填充過程和結(jié)果進(jìn)行了仿真分析。該實(shí)例數(shù)據(jù)由8個(gè)變量的數(shù)據(jù)組成,其整體符合正態(tài)分布。為了準(zhǔn)確地分析填補(bǔ)算法的性能,在選取完整數(shù)據(jù)基礎(chǔ)上,人為地去掉部分?jǐn)?shù)據(jù)之后作為實(shí)例數(shù)據(jù)。
本文將基于EM算法與本文算法估計(jì)數(shù)據(jù)參數(shù)的過程進(jìn)行仿真比較。其中,在本文算法的參數(shù)估計(jì)過程中,將初始種群規(guī)模定為 200,交叉概率Pc=0.8,變異概率 Pm=0.06。通過兩種算法分別估計(jì)缺失數(shù)據(jù)的均值和協(xié)方差矩陣,其中均值情況如表1所示。通過每個(gè)屬性所對應(yīng)的均值可以發(fā)現(xiàn),本文算法估計(jì)的均值更接近于更準(zhǔn)確。
表1 真實(shí)數(shù)據(jù)參數(shù)與填補(bǔ)后參數(shù)比較Table 1 Comparative between real data parametersand filling data parameters
圖2 EM算法與GA算法估計(jì)參數(shù)過程Fig. 2 Estimation parameters process using EM algorithm and GA algorithm
EM算法和GA算法估計(jì)參數(shù)迭代過程如圖2所示。由圖可知,EM 算法在計(jì)算目標(biāo)函數(shù)最優(yōu)解過程中產(chǎn)生了局部最優(yōu)解,并且迭代的速度緩慢,共迭代了198次,而且每代與前一代之間目標(biāo)函數(shù)值變化比較小。而GA算法在計(jì)算目標(biāo)函數(shù)值時(shí),容易跳出局部最優(yōu)解,獲得更優(yōu)的參數(shù)。同時(shí),該算法在迭代過程中,存在跳變的可能,大大加快了迭代的速度,本文中迭代次數(shù)為131次。
利用SAS軟件實(shí)現(xiàn)MCMC缺失數(shù)據(jù)填充過程,本文馬爾科夫鏈的數(shù)量m取5,即基于EM的MI算法和本文填充算法的填充結(jié)果分別為5個(gè)完整的數(shù)據(jù)集。同時(shí),采用常用的均值填補(bǔ)法和最近鄰域法對不完整數(shù)據(jù)進(jìn)行填充。衡量填充數(shù)據(jù)精度的指標(biāo)有3個(gè):真值與估計(jì)值的平均偏差Bias,平均絕對偏差A(yù)BS和平均偏移均方根RMSD。設(shè)是估計(jì)值, Xi是模擬真值,m為缺失數(shù)據(jù)的個(gè)數(shù)。在中,為平均偏差 Bias,為平均絕對偏差A(yù)BS,后再對和式求算術(shù)平方根即RMSD。ABS、RMSD值越小,估計(jì)準(zhǔn)確性越高。對同一缺失密度下的不完整數(shù)據(jù),采用不同的算法進(jìn)行填充,填充數(shù)據(jù)精度如表2所示。可得,4種算法中,本文算法和基于EM的MI算法得到的填充數(shù)據(jù)偏差較小,更接近真實(shí)數(shù)據(jù),其中本文填補(bǔ)算法對應(yīng)的填補(bǔ)數(shù)據(jù)準(zhǔn)確性最高。
表2 不同算法的填充數(shù)據(jù)精度指標(biāo)Table 2 Accuracy index of filling data by different algorithms
本文算法對數(shù)據(jù)集中數(shù)據(jù)缺失密度(數(shù)據(jù)中連續(xù)多個(gè)數(shù)據(jù)缺失情況)分別為 12.5%、25%、37.5%的缺失情況進(jìn)行填充分析,如表3所示??傻?,隨著數(shù)據(jù)缺失密度的增大,填充數(shù)據(jù)偏差也增大。
表3 不同缺失密度下的填充數(shù)據(jù)精度指標(biāo)Table 3 Accuracy index of filling data under different loss density
隨著大數(shù)據(jù)時(shí)代的到來,對電力系統(tǒng)數(shù)據(jù)的質(zhì)量要求也越來越高。然而,電力調(diào)度控制系統(tǒng)中普遍存在數(shù)據(jù)缺失的問題。部分?jǐn)?shù)據(jù)的缺失影響了整體數(shù)據(jù)的完整性和真實(shí)性,干擾了數(shù)據(jù)后期的清洗、整合、挖掘等處理操作,造成數(shù)據(jù)分析、挖掘的結(jié)論與真實(shí)結(jié)論存在較大差異。近年來盛行的多重填充法是解決數(shù)據(jù)缺失的有效方法,而如今面對海量的數(shù)據(jù)需要加快算法迭代速度以及更準(zhǔn)確的估計(jì)缺失值。本文提出一種基于遺傳優(yōu)化的調(diào)度控制系統(tǒng)缺失數(shù)據(jù)填補(bǔ)方法,不僅可加快估計(jì)不完整數(shù)據(jù)參數(shù)的迭代速度,而且有效地提高了缺失數(shù)據(jù)所估計(jì)值的準(zhǔn)確度。
[1] 沈國輝, 孫麗卿, 游大寧, 等. 智能調(diào)度系統(tǒng)信息綜合可視化方法[J]. 電力系統(tǒng)保護(hù)與控制, 2014, 42(13): 129-134.
SHEN Guohui, SUN Liqing, YOU Daning, et al. Intelligent dispatch system information comprehensive visualization method[J]. Power System Protection and Control, 2014, 42(13): 129-134.
[2] 高振興, 郭創(chuàng)新, 俞斌, 等. 基于多源信息融合的電網(wǎng)故障診斷方法研究[J]. 電力系統(tǒng)保護(hù)與控制, 2011, 39(6): 17-23.
GAO Zhenxing, GUO Chuangxin, YU Bin, et al. Study of a fault diagnosis approach for power grid with information fusion based on multi-data resources[J]. Power System Protection and Control, 2011, 39(6): 17-23.
[3] 謝善益, 楊強(qiáng), 梁成輝, 等. 輸變電設(shè)備遠(yuǎn)程診斷信息平臺中的統(tǒng)一狀態(tài)監(jiān)測模型研究[J]. 電力系統(tǒng)保護(hù)與控制, 2014, 42(11): 86-91.
XIE Shanyi, YANG Qiang, LIANG Chenghui, et al. Research of unified condition monitoring information model in data platform of power transmission equipment remote monitoring and diagnosis[J]. Power System Protection and Control, 2014, 42(11): 86-91.
[4] 程學(xué)珍, 陳強(qiáng), 于永進(jìn), 等. 基于最大似然譯碼字的Petri網(wǎng)電網(wǎng)故障診斷方法[J]. 電工技術(shù)學(xué)報(bào), 2015, 30(15): 46-52.
CHENG Xuezhen, CHEN Qiang, YU Yongjin, et al. A fault diagnosis approach of power networks based on maximum likelihood decoding Peteri net models[J]. Transactions of China Electrotechnical Society, 2015, 30(15): 46-52.
[5] 荀挺, 張珂珩, 薛浩然, 等. 電網(wǎng)調(diào)控?cái)?shù)據(jù)綜合智能分析決策架構(gòu)設(shè)計(jì)[J]. 電力系統(tǒng)保護(hù)與控制, 2015, 43(11): 121-127.
XUN Ting, ZHANG Keheng, XUE Haoran, et al. Framework design of the analysis decision system about the power grid data[J]. Power System Protection and Control, 2015, 43(11): 121-127.
[6] 宋亞奇, 周國亮, 朱永利. 智能電網(wǎng)大數(shù)據(jù)處理技術(shù)現(xiàn)狀與挑戰(zhàn)[J]. 電網(wǎng)技術(shù), 2013, 37(4): 927-935.
SONG Yaqi, ZHOU Guoliang, ZHU Yongli. Present status and challenges of big data processing in smart grid[J]. Power System Technology, 2013, 37(4): 927-935.
[7] AZARKHAIL M, PETER W. Uncertainty management in model-based imputation for missing data[C] // Reliability and Maintainability Symposium (RAMS), 2013 Proceedings-Annual: IEEE, 2013: 1-7.
[8] 陳志奎, 呂愛玲, 張清辰. 基于屬性重要性的不完備數(shù)據(jù)填充算法[J]. 微電子學(xué)與計(jì)算機(jī), 2013, 30(7): 167-176.
CHEN Zhikui, Lü Ailing, ZHANG Qingchen. A new algorithm for imputing missing data based on distinguishing the importance of attributes[J]. Microelectronics & Computer, 2013, 30(7): 167-176.
[9] ZHU Xiaofeng, ZHANG Shichao. Missing value estimation for mixed-attribute data set[J]. IEEE Transactions on Knowledge and Data Engineering, 2011, 23(1): 110-121.
[10] ENDERS C K. Applied missing data analysis[M]. United States: The Guilford Press, 2010: 22-50.
[11] LITTLE R J A, RUBIN D B. Statistical analysis with missing data[M]. United States: John Wiley & Sons, Inc., 2002: 127-169.
[12] 史峰, 王輝, 胡斐, 等. MATLAB智能算法30個(gè)案例分析[M]. 北京: 北京航空航天大學(xué)出版社, 2011.
(編輯 周金梅)
A missing data filling algorithm for dispatching and control system based on genetic optimization
WANG Yirong1, WANG Ruijie2, CHEN Wengang3, WU Runze2
(1. Beijing GuoDianTong Network Technology Company Limited, Beijing 100070, China; 2. School of Electrical & Electronic Engineering, North China Electric Power University, Beijing 102206, China; 3. Jincheng Branch of Shanxi Power Corporation under State Grid, Jincheng 048000, China)
The problem of data loss is an important research topic in the grid dispatching and control system. A new method based on genetic optimization for dealing with missing data is proposed to ensure the data integrity and accuracy. The proposed method can estimate incomplete data parameters by genetic optimization algorithm. According to the optimal parameters, the Markov Chain Monte Carlo algorithm is used to estimate the missing data. Through filling the incomplete data in the grid dispatching and control system, it is discovered that the proposed method can find more missing data within the same time duration and improve the accuracy of estimated values which guarantee the data integrity and accuracy.
grid dispatching and control system; missing data; genetic optimization method; optimal parameters; filling algorithm
2015-10-22;
2015-12-21
王一蓉(1979-),女,高級工程師,研究方向?yàn)殡娏ο到y(tǒng)信息通信技術(shù);E-mail: wangyirong@sgitg.sgcc.com.cn
王瑞杰(1991-),男,通信作者,碩士研究生,研究方向?yàn)殡娏?shù)據(jù)處理及信息化建設(shè);E-mail: wang_ruijie2015@ 163.com
陳文剛(1971-),男,高級工程師,研究方向?yàn)樽詣?dòng)化維護(hù)及網(wǎng)絡(luò)管理。E-mail: jcchenwangang@163.com
10.7667/PSPC151867