楊 晶,妥建軍,李 昊,廖 翯,馬雅蓉
(國網(wǎng)甘肅省電力公司發(fā)展事業(yè)部(經(jīng)濟(jì)技術(shù)研究院),甘肅 蘭州 730046)
隨著智能電網(wǎng)的持續(xù)發(fā)展,電力數(shù)據(jù)量不斷增加。電網(wǎng)大數(shù)據(jù)主要包括公共安全數(shù)據(jù)、在線監(jiān)測數(shù)據(jù)[1-3]、調(diào)度運(yùn)行數(shù)據(jù)和生產(chǎn)管理數(shù)據(jù)等。然而,由于這些基本數(shù)據(jù)的建模標(biāo)準(zhǔn)來源不同,導(dǎo)致數(shù)據(jù)類型存在差異,并且信息共享度較低,數(shù)據(jù)之間缺乏足夠的交互。這一問題導(dǎo)致電網(wǎng)數(shù)據(jù)具有高度異構(gòu)和多源等特征,給數(shù)據(jù)的管理和應(yīng)用帶來了巨大挑戰(zhàn)[4-6]。為了有效監(jiān)測和管理電網(wǎng),有必要對電網(wǎng)多源異構(gòu)數(shù)據(jù)進(jìn)行整合。首先,數(shù)據(jù)的異構(gòu)性導(dǎo)致數(shù)據(jù)結(jié)構(gòu)和格式存在差異,需要作統(tǒng)一處理和標(biāo)準(zhǔn)化,以便數(shù)據(jù)的集成和分析。其次,不同數(shù)據(jù)源之間的信息共享度低導(dǎo)致數(shù)據(jù)的冗余存儲和浪費(fèi),因而需要建立有效的數(shù)據(jù)交換和共享機(jī)制。此外,多源數(shù)據(jù)的整合還需解決數(shù)據(jù)質(zhì)量和一致性的問題,包括數(shù)據(jù)異常值的檢測和清洗,以及數(shù)據(jù)間關(guān)聯(lián)性的建立和驗(yàn)證。為了解決上述問題,研究人員提出了包括數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和人工智能等的一系列電網(wǎng)多源異構(gòu)數(shù)據(jù)整合方法。這些方法可以通過對數(shù)據(jù)的預(yù)處理、特征提取和數(shù)據(jù)融合等步驟,實(shí)現(xiàn)對電網(wǎng)多源異構(gòu)數(shù)據(jù)的整合分析和管理。同時,還需要考慮數(shù)據(jù)安全和隱私保護(hù)的問題,確保整合后的數(shù)據(jù)在使用和傳輸過程中不會泄漏敏感信息。電網(wǎng)多源異構(gòu)數(shù)據(jù)的整合是實(shí)現(xiàn)電網(wǎng)智能化管理的重要步驟,需要綜合運(yùn)用各種技術(shù)手段解決數(shù)據(jù)的異構(gòu)性、冗余性和安全性等問題。通過有效的整合和分析,可以更好地實(shí)現(xiàn)對電網(wǎng)的監(jiān)測和管理,提高電力系統(tǒng)的可靠性、安全性和經(jīng)濟(jì)性。
近年來,很多學(xué)者針對多源異構(gòu)數(shù)據(jù)進(jìn)行了研究。莫慧凌等[7]根據(jù)張量Tucker分解理論,在無交互條件下建立高階張量算法。該算法具有異構(gòu)空間維度特性,可以提取數(shù)據(jù)的高維特征,故以此為依據(jù)可實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)的整合。但是該算法無法消除多源異構(gòu)數(shù)據(jù)中存在的噪聲,且存在數(shù)據(jù)處理效果差的問題。趙春霞等[8]提出了一種基于極大元法和關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘方法,通過建立相異度數(shù)據(jù)結(jié)構(gòu)矩陣來挖掘數(shù)據(jù)集中的最大頻繁項(xiàng)。該方法利用平均加權(quán)法計(jì)算異構(gòu)數(shù)據(jù)的特征,并通過高維相空間重構(gòu)和時間反轉(zhuǎn)處理,以實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)的整合。然而,該方法在整合缺失數(shù)據(jù)時存在精度低的問題。張騰飛等[9]提出了一種基于粗糙模糊的K-means聚類算法。該算法考慮了類簇規(guī)模的不均衡程度,并引入自適應(yīng)度量。通過對人工數(shù)據(jù)集和加州大學(xué)歐文分校(University of California Irrine,UCI)標(biāo)準(zhǔn)數(shù)據(jù)集的驗(yàn)證,證明了該算法的有效性。然而,該算法在數(shù)據(jù)處理方面可能存在誤差。郭方方等[10]提出了一種基于有監(jiān)督判別投影的網(wǎng)絡(luò)安全數(shù)據(jù)降維算法。該算法利用近鄰矩陣和類別標(biāo)簽信息構(gòu)建有監(jiān)督判別矩陣,并通過尋找最大全局散度矩陣和最小局部散度矩陣的低維投影子空間來實(shí)現(xiàn)降維。然而,該方法可能存在判別精度低的問題。
基于上述文獻(xiàn),本文提出一種針對電網(wǎng)多源異構(gòu)缺失數(shù)據(jù)的最優(yōu)投影整合算法。該算法創(chuàng)新性地引入拉格朗日差值方法填充缺失值,采用經(jīng)驗(yàn)?zāi)B(tài)分解方法消除噪聲,并建立投影指標(biāo)函數(shù)將高維數(shù)據(jù)轉(zhuǎn)換為一維投影值。該算法通過數(shù)據(jù)填充和去噪來提高電網(wǎng)多源異構(gòu)數(shù)據(jù)的完整性和準(zhǔn)確性,并利用混沌文化差分進(jìn)化算法尋找最優(yōu)投影方向,從而完成缺失數(shù)據(jù)的整合。該算法不僅具有較好的數(shù)據(jù)去噪效果,并且能夠提高數(shù)據(jù)的整合精度和穩(wěn)定性,有助于提升電網(wǎng)多源異構(gòu)數(shù)據(jù)的質(zhì)量和管理水平。
傳感器在電網(wǎng)中具有不同的采樣周期,導(dǎo)致電網(wǎng)數(shù)據(jù)的時間存在不匹配的情況。網(wǎng)絡(luò)延遲會對數(shù)據(jù)采集產(chǎn)生影響,導(dǎo)致整合中心與電網(wǎng)傳感器之間的數(shù)據(jù)采集周期存在差異。為了提高數(shù)據(jù)整合的精度,需要對不同步的數(shù)據(jù)開展時間配準(zhǔn)。在對電網(wǎng)多源異構(gòu)數(shù)據(jù)開展配準(zhǔn)之前,需要對數(shù)據(jù)中存在的野值進(jìn)行檢測。本文對閾值和修正值檢測數(shù)據(jù)中存在的野值進(jìn)行修正。修正后的結(jié)果v(k)為:
(1)
式中:rnew(k)為電網(wǎng)數(shù)據(jù);C為野值判斷參數(shù);X(k)為第k個指標(biāo)對應(yīng)的修正值。
真實(shí)估計(jì)值對應(yīng)的權(quán)重μ(k)可在v(k)的基礎(chǔ)上通過加權(quán)函數(shù)獲得。
μ(k)=el(k)v(k)
(2)
式中:l(k)為第k個指標(biāo)加權(quán)函數(shù);e為自然對數(shù)。
xi=Xn+TXn(i-n)+bi
(3)
式中:Xn為第n個測量序列;bi為電網(wǎng)多源異構(gòu)數(shù)據(jù)中存在的噪聲,dB。
傳感器B采集的數(shù)據(jù)構(gòu)成的測量向量En為:
(4)
式中:T′為數(shù)據(jù)整合時間,s。
通過上述過程完成電網(wǎng)數(shù)據(jù)的配準(zhǔn),獲得高精度的電網(wǎng)多源異構(gòu)數(shù)據(jù)。
為了確保電網(wǎng)多源數(shù)據(jù)密度的一致性,本文采用拉格朗日差值方法[13-14]填充電網(wǎng)時序數(shù)據(jù),并采用拉格朗日差值函數(shù)F(t)填補(bǔ)電網(wǎng)時序數(shù)據(jù)tj。
(5)
式中:zj(t)為第j個差值基函數(shù);ts為時序數(shù)據(jù)s對應(yīng)的時間,s。
本文以修正與填充后的電網(wǎng)多源異構(gòu)數(shù)據(jù)為基礎(chǔ)。為了提高后續(xù)的集中整合質(zhì)量,本文采用經(jīng)驗(yàn)?zāi)B(tài)分解方法對多源異構(gòu)數(shù)據(jù)作去噪處理。信號c(t)在電網(wǎng)多源異構(gòu)數(shù)據(jù)中的功率Ax為:
(6)
式中:N為信號的數(shù)量,個。
(7)
采用經(jīng)驗(yàn)?zāi)B(tài)分解方法對電網(wǎng)多源異構(gòu)數(shù)據(jù)進(jìn)行去噪的具體過程如下。
①采用經(jīng)驗(yàn)?zāi)B(tài)分解方法對含噪的電網(wǎng)多源異構(gòu)數(shù)據(jù)信號c(t)展開分解,獲得q個IMF分量。
對完成濾波處理的電網(wǎng)多源異構(gòu)數(shù)據(jù)開展集中整合的具體過程如下。
①采用式(8)標(biāo)準(zhǔn)化處理預(yù)處理后的電網(wǎng)多源異構(gòu)數(shù)據(jù)Cj={c1j,c2j,…,cMj}。
(8)
式中:cimax、cimin為數(shù)據(jù)i對應(yīng)的最大值和最小值;rij為標(biāo)準(zhǔn)化處理后的數(shù)據(jù)。
②建立投影指標(biāo)函數(shù)WF(a)。
(9)
式中:F(y)為兩個樣本點(diǎn)在每扇窗內(nèi)的距離;D(y)為樣本投影值對應(yīng)的標(biāo)準(zhǔn)差;R(y)為單位階躍函數(shù)。
根據(jù)投影指標(biāo)函數(shù)WF(a),即可建立電網(wǎng)多源異構(gòu)數(shù)據(jù)的聚類中心。
③高維電網(wǎng)多源異構(gòu)數(shù)據(jù)經(jīng)過投影處理后轉(zhuǎn)變?yōu)橐痪S的投影值。此時,維度M=1,存在權(quán)重w=1。電網(wǎng)多源異構(gòu)數(shù)據(jù)的聚類中心dh和隸屬度uhj為:
(10)
式中:rj為數(shù)據(jù)對應(yīng)的特征值;c為電網(wǎng)多源異構(gòu)數(shù)據(jù)種類的數(shù)量,個。
④模糊聚類迭代適應(yīng)度G(uhj,dh)為:
(11)
如果適應(yīng)度符合min{G(uhj,dh)}條件,則執(zhí)行步驟⑤;否則,采用混沌文化差分進(jìn)化算法搜索電網(wǎng)多源異構(gòu)數(shù)據(jù)的最優(yōu)聚類中心,并返回步驟③。
⑤利用混沌文化差分進(jìn)化算法尋找電網(wǎng)多源異構(gòu)數(shù)據(jù)的最優(yōu)投影方向。
⑥通過式(12)計(jì)算電網(wǎng)多源異構(gòu)數(shù)據(jù)的連續(xù)性類別特征值V(j):
(12)
式中:h為電網(wǎng)多源異構(gòu)數(shù)據(jù)的類別。
根據(jù)式(12)計(jì)算結(jié)果對電網(wǎng)多源異構(gòu)數(shù)據(jù)排序,獲得數(shù)據(jù)的聚類結(jié)果,從而完成電網(wǎng)多源異構(gòu)數(shù)據(jù)的整合。
采用迭代模糊聚類算法集中整合的電網(wǎng)多源異構(gòu)缺失數(shù)據(jù)最優(yōu)投影整合算法流程如圖1所示。
圖1 電網(wǎng)多源異構(gòu)缺失數(shù)據(jù)最優(yōu)投影整合算法流程圖
為了驗(yàn)證本文算法的整體有效性,需要對該算法進(jìn)行測試。電網(wǎng)多源異構(gòu)數(shù)據(jù)在采集過程中受多種因素的影響,導(dǎo)致數(shù)據(jù)中存在噪聲,影響數(shù)據(jù)的整合效果。
含噪電網(wǎng)多源異構(gòu)數(shù)據(jù)如圖2所示。
圖2 含噪電網(wǎng)多源異構(gòu)數(shù)據(jù)
本文采用本文算法、張量Tucker分解整合算法(文獻(xiàn)[7]算法)、平均加權(quán)整合算法(文獻(xiàn)[8]算法)對圖2所示的含噪電網(wǎng)多源異構(gòu)數(shù)據(jù)作去噪處理。
本文算法的降噪處理結(jié)果如圖3所示。
圖3 本文算法的降噪處理結(jié)果
文獻(xiàn)[7]算法的降噪處理結(jié)果如圖4所示。
圖4 文獻(xiàn)[7]算法的降噪處理結(jié)果
文獻(xiàn)[8]算法的降噪處理結(jié)果如圖5所示。
圖5 文獻(xiàn)[8]算法的降噪處理結(jié)果
由圖3~圖5可知,采用本文算法進(jìn)行去噪處理后,含噪數(shù)據(jù)的波動頻率明顯降低,而文獻(xiàn)[7]算法與文獻(xiàn)[8]算法經(jīng)降噪處理后,含噪數(shù)據(jù)的波動頻率仍然保持較高的水平。這說明本文算法去噪效果較好。觀察三種算法去噪后的數(shù)據(jù)頻譜可以看出,相較于原始頻譜,文獻(xiàn)[7]算法與文獻(xiàn)[8]算法去噪后數(shù)據(jù)頻譜與原始頻譜相差較大。這說明兩種對比算法的降噪處理出現(xiàn)了一定程度的失真。而本文算法的去噪頻譜與原始頻率基本一致,說明本文算法并不會出現(xiàn)失真的情況,可以確保電網(wǎng)數(shù)據(jù)的完整性。
電網(wǎng)多源異構(gòu)數(shù)據(jù)量較為龐大,對算法的時間復(fù)雜度提出了更高的要求,即要求整合算法能夠在較短的時間內(nèi)處理大量的缺失數(shù)據(jù)。因此,本文以時間復(fù)雜度為指標(biāo),將本文算法、文獻(xiàn)[7]算法、文獻(xiàn)[8]算法進(jìn)行對比驗(yàn)證。
不同算法的時間復(fù)雜度對比結(jié)果如表1所示。
表1 不同算法的時間復(fù)雜度對比結(jié)果
由表1可知,隨著試驗(yàn)次數(shù)的增加,三種算法的時間復(fù)雜度出現(xiàn)了明顯的差距。其中:本文算法的時間復(fù)雜度最高未超過10 s;文獻(xiàn)[7]算法的時間復(fù)雜度是三種算法中最高的,達(dá)到28.45 s;文獻(xiàn)[8]算法的時間復(fù)雜度也高于本文算法,基本在18 s左右。這說明本文算法的時間復(fù)雜度明顯下降,數(shù)據(jù)整合的效率提高。
算法在開展數(shù)據(jù)整合的過程中,其穩(wěn)定性不可忽略。穩(wěn)定性越強(qiáng),則實(shí)際應(yīng)用的可靠性越高。
不同算法的整合精度結(jié)果如圖6所示。
圖6 不同算法的整合精度結(jié)果
由圖6可知,三種算法中,本文算法的數(shù)據(jù)整合精度最高,且隨著試驗(yàn)次數(shù)的增加,并未出現(xiàn)明顯的波動。這說明該算法可以在提高數(shù)據(jù)整合精度的同時,確保自身運(yùn)算的穩(wěn)定性。觀察兩種對比算法可以看出,兩種對比算法的數(shù)據(jù)整合精度最高均未超過80%,并且波動范圍較大。這說明兩種對比算法的穩(wěn)定性略低于本文算法。
算法的收斂性指算法能否在迭代時間趨于無窮的假設(shè)下,找到問題的全局最優(yōu)解。收斂性作為算法能否使用的關(guān)鍵性能,直觀地體現(xiàn)了算法的可用性。因此,本文對三種算法的收斂性進(jìn)行驗(yàn)證。
不同算法的收斂性結(jié)果如圖7所示。
圖7 不同算法的收斂性結(jié)果
由圖7可知,本文算法在三種算法中收斂速度最快,且最優(yōu)適應(yīng)度值最低。文獻(xiàn)[8]算法的前期雖然收斂較快,但是最優(yōu)適應(yīng)度值較高。由此說明本文算法的收斂性較好。
針對目前電網(wǎng)多源異構(gòu)數(shù)據(jù)整合方法中存在的數(shù)據(jù)處理效果差、整合精度低的問題,本文提出針對電網(wǎng)多源異構(gòu)缺失數(shù)據(jù)的最優(yōu)投影整合算法。該算法對數(shù)據(jù)開展了修正、填補(bǔ)和去噪處理,并在此基礎(chǔ)上通過迭代模糊聚類算法實(shí)現(xiàn)電網(wǎng)多源異構(gòu)數(shù)據(jù)的集中整合。測試結(jié)果表明,本文算法可有效消除數(shù)據(jù)中存在的噪聲,并且可以確保去噪后電網(wǎng)多源異構(gòu)數(shù)據(jù)的質(zhì)量,以避免出現(xiàn)失真情況。本文算法的整合精度、穩(wěn)定性以及收斂性均優(yōu)于其他對比算法,整合精度始終穩(wěn)定在95%左右。