李堅(jiān), 楊峰, 吳佳, 李平舟, 陳樂(lè)然, 付金鳳
(國(guó)網(wǎng)冀北電力有限公司,北京 100052; 北京博望華科科技有限公司,北京 100045)
電力調(diào)度系統(tǒng)中存在大量多源異構(gòu)數(shù)據(jù),其數(shù)據(jù)來(lái)源復(fù)雜且過(guò)于分散,導(dǎo)致數(shù)據(jù)共享度低、數(shù)據(jù)集成和融合性較差,無(wú)法對(duì)整體數(shù)據(jù)進(jìn)行調(diào)控。同時(shí),在電力調(diào)度控制系統(tǒng)進(jìn)行數(shù)據(jù)采集時(shí),受到環(huán)境、噪聲等外部因素的干擾,使得數(shù)據(jù)出現(xiàn)缺失,嚴(yán)重影響后期調(diào)度效果。因此,對(duì)多源異構(gòu)數(shù)據(jù)進(jìn)行缺失填補(bǔ),往往是保證電力正常運(yùn)行的基本要求。陳娜等[1]采用跨模態(tài)聚合算法對(duì)該系統(tǒng)中的多源異構(gòu)數(shù)據(jù)進(jìn)行缺失數(shù)據(jù)填補(bǔ),此方法只針對(duì)單一數(shù)據(jù)進(jìn)行處理,但整體性較弱;張人上等[2]基于改進(jìn)混沌系統(tǒng)的加密算法對(duì)通信中的多源異構(gòu)數(shù)據(jù)進(jìn)行擴(kuò)頻,在一定程度上提升了數(shù)據(jù)融合效果;王維嘉等[3]提出了FCM算法和MCMC算法等多種數(shù)據(jù)處理算法,然后利用多目標(biāo)優(yōu)化方法對(duì)多源異構(gòu)數(shù)據(jù)進(jìn)行識(shí)別和最優(yōu)目標(biāo)提取,以此完成多源數(shù)據(jù)的分類。但多源異構(gòu)數(shù)據(jù)缺失仍是影響異構(gòu)數(shù)據(jù)預(yù)處理的難題,且FCM算法本身也存在問(wèn)題。因此,本研究嘗試對(duì)缺失數(shù)據(jù)進(jìn)行估計(jì),通過(guò)FCM算法對(duì)數(shù)據(jù)進(jìn)行去噪,以更好地實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)的快速收斂,提升多源異構(gòu)數(shù)據(jù)全局調(diào)控能力。
由于多源異構(gòu)數(shù)據(jù)缺失嚴(yán)重影響了數(shù)據(jù)的完整性和穩(wěn)定性,不利于后續(xù)關(guān)鍵數(shù)據(jù)的分析利用,因此,分別采用改進(jìn)的混沌遺傳算法(CGA)和馬爾科夫蒙特卡羅(MCMC)算法估計(jì)多源異構(gòu)數(shù)據(jù)中不完整數(shù)據(jù)集參數(shù)和缺失數(shù)據(jù),加快更新速度,實(shí)現(xiàn)快速收斂,并提高參數(shù)估計(jì)精度,減小誤差[4]。
1.1.1 數(shù)據(jù)參數(shù)估計(jì)
(1) 優(yōu)化估計(jì)參數(shù)模型
若多源異構(gòu)缺失數(shù)據(jù)集Y中含有k個(gè)屬性,且Y=(Yobs,Ymis);參數(shù)φ=(μ,Σ)為不確定參數(shù),μ、Σ分別表示數(shù)據(jù)集Y的均值向量和協(xié)方差矩陣。為更好地估計(jì)數(shù)據(jù)集參數(shù),將采用極大似然估計(jì)算法和正態(tài)分別規(guī)律特性,構(gòu)建包括μ和Σ的對(duì)數(shù)似然函數(shù)[5]:
(1)
式(1)中,μ=(μ1,μ2,…,μk)表示均值向量,為隸屬數(shù)據(jù)各屬性的均值,Σ=(σij)為屬性(X1,X2,…,Xk)的協(xié)方差矩陣,表示數(shù)據(jù)各屬性間的相關(guān)性,μ、Σ初始值取決于數(shù)據(jù)集Yobs[6],xi為數(shù)據(jù)記錄i(i=1,2,…,n)對(duì)應(yīng)屬性的向量,缺失值數(shù)據(jù)用估計(jì)相應(yīng)均值取代,n表示數(shù)據(jù)記錄個(gè)數(shù)。
在估計(jì)數(shù)據(jù)集參數(shù)過(guò)程中,f(φ)的函數(shù)值越大,所估計(jì)的參數(shù)φ越準(zhǔn)確[7]。基于此,可對(duì)估計(jì)函數(shù)值進(jìn)行優(yōu)化處理,確定缺失數(shù)據(jù)的目標(biāo)函數(shù),具體表示為
(2)
式(2)中,參數(shù)φ的適應(yīng)函數(shù)為f(φ),其迭代過(guò)程中尋優(yōu)概率取決于參數(shù)適應(yīng)函數(shù)大小[8]。
(2) 參數(shù)迭代尋優(yōu)
在參數(shù)種群中,可能存在大量的參數(shù),通常選用遺傳算法對(duì)參數(shù)進(jìn)化尋優(yōu),但此方法存在局部最優(yōu)問(wèn)題,無(wú)法滿足全局優(yōu)化需求。為解決此問(wèn)題,通過(guò)CGA算法加快收斂,進(jìn)行混沌干擾操作,以快速找出最優(yōu)解,實(shí)現(xiàn)全局最優(yōu)。
(3)
(4)
式(4)中,ε主要通過(guò)尋優(yōu)參數(shù)精度得到,表示為標(biāo)準(zhǔn)參數(shù)值。
1.1.2 缺失值估計(jì)方法
完成數(shù)據(jù)參數(shù)估計(jì)后,采用改進(jìn)的MCMC方法縮小估計(jì)值誤差值,具體步驟如下。
(1) 對(duì)參數(shù)φ(0)進(jìn)行初始化處理。
(2) 對(duì)采集數(shù)據(jù)進(jìn)行多次迭代,并利用MCMC對(duì)缺失數(shù)據(jù)進(jìn)行估計(jì),通過(guò)對(duì)數(shù)據(jù)進(jìn)行隨機(jī)抽樣和缺失值填補(bǔ)后求得參數(shù)φ(t+1)。
(3) 迭代完成后,得到一條MCMC鏈,根據(jù)迭代結(jié)束條件將此鏈大小設(shè)置在合理區(qū)間內(nèi)。
(4) 最后從該鏈中選出一個(gè)擴(kuò)充鏈,利用該鏈擴(kuò)充缺失值,從而獲得多個(gè)估計(jì)參數(shù)值。之后為選出誤差最小的估計(jì)值,選用均值方法對(duì)多個(gè)參數(shù)值進(jìn)行擬合,從而實(shí)現(xiàn)缺失值估計(jì)。
模糊C均值聚類算法(FCM),屬于一種柔性的模糊劃分算法,在數(shù)據(jù)處理、圖像識(shí)別分類等方面均取得較好的應(yīng)用效果。算法流程如圖1所示。
圖1 FCM算法流程圖
FCM算法受人為干預(yù)的影響較小,該算法在數(shù)據(jù)集過(guò)大或過(guò)多時(shí),算法計(jì)算過(guò)程復(fù)雜,實(shí)時(shí)性較差。因此,為提高FCM算法的聚類準(zhǔn)確性和實(shí)時(shí)性,對(duì)該算法進(jìn)行改進(jìn)。
相似性度量的基本原理判別2個(gè)數(shù)據(jù)間的相似性,常用方法為歐氏距離、余弦相似度、相關(guān)系數(shù)法等[9]。
其中,歐氏距離通過(guò)設(shè)置一個(gè)距離閾值,如式(5),并將此閾值作為評(píng)價(jià)標(biāo)準(zhǔn)進(jìn)行評(píng)估:
(5)
余弦相似度在相似性度量中應(yīng)用較多,其通過(guò)樣本間的余弦值作為評(píng)判標(biāo)準(zhǔn),以判別相似度大小,表達(dá)式為
(6)
該參數(shù)的區(qū)間為[-1,1],通過(guò)余弦值大小對(duì)相似度進(jìn)行判斷,兩者呈反比關(guān)系。
(7)
得到改進(jìn)算法為
(8)
若存在一個(gè)歐氏距離r,并將其設(shè)置為閾值,r取簇內(nèi)全部樣本點(diǎn)到聚類中心的加權(quán)歐氏距離的均勻值l,目標(biāo)去噪數(shù)據(jù)完成聚類后,當(dāng)dv(xt,vj)>r時(shí)表明此樣本點(diǎn)是噪聲點(diǎn)并進(jìn)行刪除,dv(xt,vj) 針對(duì)聚類中心個(gè)數(shù)k的取值,通常采用肘部法則(Elbow Method)進(jìn)行表示。k與代價(jià)函數(shù)呈反比關(guān)系,代價(jià)函數(shù)隨著k的增大而不斷減小。兩者的關(guān)系如圖2所示。 圖2 肘部法則 根據(jù)以上改進(jìn),得到改進(jìn)后的FCM步驟如圖3所示。 圖3 去噪算法流程 當(dāng)FCM進(jìn)行計(jì)算時(shí),數(shù)據(jù)量的增加可能增加計(jì)算量,使得計(jì)算過(guò)程更為復(fù)雜,為簡(jiǎn)化計(jì)算步驟,可對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。具體方法為通過(guò)K-均值聚類分割數(shù)據(jù),并將其作為算法的初始聚類中心,從而實(shí)現(xiàn)快速收斂,迭代數(shù)和計(jì)算量減少,進(jìn)一步提升實(shí)時(shí)性。 3.1.1 實(shí)驗(yàn)環(huán)境和數(shù)據(jù)來(lái)源 為驗(yàn)證以上方案,在MATLAB和SAS環(huán)境下進(jìn)行仿真實(shí)驗(yàn),從配網(wǎng)調(diào)控系統(tǒng)數(shù)據(jù)庫(kù)中選擇多源異構(gòu)數(shù)據(jù)報(bào)表作為實(shí)驗(yàn)數(shù)據(jù)。配網(wǎng)調(diào)控系統(tǒng)數(shù)據(jù)采集時(shí)存在大量干擾信息,導(dǎo)致數(shù)據(jù)缺失嚴(yán)重,采用本文填補(bǔ)方法對(duì)缺失數(shù)據(jù)進(jìn)行填補(bǔ)。 3.1.2 實(shí)驗(yàn)對(duì)比結(jié)果 為驗(yàn)證提出的CGA數(shù)據(jù)填補(bǔ)方法的有效性,將CGA填補(bǔ)方法與最大期望算法(EM)和遺傳算法(GA)進(jìn)行對(duì)比實(shí)驗(yàn),得到3種算法的參數(shù)估計(jì)過(guò)程如圖4所示。 圖4 3種算法參數(shù)估計(jì)過(guò)程 從圖4可以看出,3種算法迭代在15時(shí)取得了目標(biāo)函數(shù),但CGA算法的目標(biāo)函數(shù)最大,且提出的算法迭代次數(shù)更快,迭代至37時(shí)實(shí)現(xiàn)最優(yōu)解,而EM算法和GA算法在120和80時(shí)才達(dá)到最優(yōu),由此說(shuō)明本算法性能更為優(yōu)越。 為進(jìn)一步驗(yàn)證CGA算法對(duì)參數(shù)估計(jì)的準(zhǔn)確性,將3種算法估計(jì)的絕對(duì)誤差和相對(duì)誤差進(jìn)行對(duì)比,得到估計(jì)過(guò)程如圖5所示。 圖5 3種算法參數(shù)估計(jì)誤差曲線 由圖5可知,3種算法中,本文算法的誤差最小,GA算法的誤差最大,EM算法的誤差位居第二。由此說(shuō)明,本文算法對(duì)多源異構(gòu)數(shù)據(jù)的估計(jì)準(zhǔn)確率更高,明顯優(yōu)于另外2種算法。 以上述多源異構(gòu)缺失數(shù)據(jù)為實(shí)驗(yàn)參數(shù),將本文算法與EM算法和GA算法進(jìn)行估計(jì)正確性對(duì)比,得到對(duì)比結(jié)果如圖6所示。 圖6 3種算法所得估計(jì)值誤差曲線 從圖6可以看出,本文算法的誤差值均低于另外2種算法,特別在缺失數(shù)據(jù)5、6和8處的誤差最大,說(shuō)明采用本算法能夠完成對(duì)估計(jì)值誤差進(jìn)行精準(zhǔn)估計(jì)。 為了驗(yàn)證本算法在缺失率為10%、20%和30%下的性能,將其與EM算法和GA算法的均方根誤差進(jìn)行對(duì)比,結(jié)果如表1所示。 表1 3種缺失率下3種算法的填充數(shù)據(jù)精度對(duì)比 從表1可以看出,在不同的缺失率下,本文算法的估計(jì)缺失值誤差依舊為最小,均優(yōu)于另外2種算法,說(shuō)明本算法對(duì)多源異構(gòu)數(shù)據(jù)處理具有一定的有效性和穩(wěn)定性。 3.2.1 實(shí)驗(yàn)數(shù)據(jù)和參數(shù)設(shè)置 同樣選擇電力調(diào)控系統(tǒng)中的700條數(shù)據(jù)進(jìn)行驗(yàn)證,其中正常數(shù)據(jù)500條、異常數(shù)據(jù)200條,異常數(shù)據(jù)中的噪聲數(shù)據(jù)30條。數(shù)據(jù)集中的kmin=10,kmax=30。 3.3.2 實(shí)驗(yàn)結(jié)果與分析 為驗(yàn)證改進(jìn)的FCM算法的優(yōu)越性,將該算法與經(jīng)典FCM算法、K-均值算法和自組織映射算法(SOM)進(jìn)行檢出率和運(yùn)行時(shí)間對(duì)比,結(jié)果如表2、圖7所示。 表2 BCW數(shù)據(jù)集上的運(yùn)行時(shí)間 圖7 BCW數(shù)據(jù)集檢出率對(duì)比 綜合表2和圖7得出,在聚類中心為30時(shí),改進(jìn)FCM算法的檢出均高于另外3種算法,最高為94.51%,且運(yùn)行時(shí)間均低于其他算法,說(shuō)明改進(jìn)的FCM算法具有較好的去噪效果,算法性能更佳。 綜上,本文提出的數(shù)據(jù)融合方法具備可行性和有效性,可實(shí)現(xiàn)對(duì)多源異構(gòu)數(shù)據(jù)的有效處理,數(shù)據(jù)可靠性和穩(wěn)定性顯著提升,且采用的改進(jìn)FCM去噪算法和CGA和CMCM填補(bǔ)方法均能取得較好的數(shù)據(jù)處理效果。實(shí)驗(yàn)結(jié)果表明:本文提出的缺失值數(shù)據(jù)填補(bǔ)方法對(duì)多源異構(gòu)數(shù)據(jù)的填補(bǔ)效果較好,參數(shù)估計(jì)誤差較小;改進(jìn)的FCM算法在BCW數(shù)據(jù)集中的檢出率最高為94.51%,算法性能優(yōu)越。綜上,以上方法可實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)的有效處理。3 實(shí)驗(yàn)驗(yàn)證與分析
3.1 數(shù)據(jù)填補(bǔ)實(shí)驗(yàn)
3.2 數(shù)據(jù)去噪驗(yàn)證
4 總結(jié)