王孝慈,董樹鋒,劉育權(quán),王莉,李俊格
(1. 浙江大學(xué) 電氣工程學(xué)院,杭州 310027; 2. 廣州供電局有限公司,廣州 510620)
隨著數(shù)據(jù)挖掘技術(shù)在工業(yè)用電領(lǐng)域的逐漸應(yīng)用,準(zhǔn)確的負(fù)荷數(shù)據(jù)變得至關(guān)重要。對于工廠來說,準(zhǔn)確的負(fù)荷數(shù)據(jù)可以支持其負(fù)荷預(yù)測、需求響應(yīng)等多種高級應(yīng)用,從而提升用能的經(jīng)濟性。另一方面,對于電力企業(yè),準(zhǔn)確的用戶用電數(shù)據(jù)可以降低其參與售電市場的風(fēng)險,并避免用戶竊電帶來的經(jīng)濟損失[1-2]。然而,由于設(shè)備停運、儀表故障、通信線路異常等原因,導(dǎo)致工廠負(fù)荷數(shù)據(jù)中存在大量壞數(shù)據(jù),影響工廠和電力企業(yè)的正確決策[3]。因此,在對負(fù)荷數(shù)據(jù)挖掘之前,進行壞數(shù)據(jù)的辨識與修正非常重要。
目前,壞數(shù)據(jù)辨識與修正方法的研究主要針對系統(tǒng)負(fù)荷或母線負(fù)荷,主要方法有狀態(tài)估計法、橫向縱向比較法、聚類法。傳統(tǒng)的基于加權(quán)殘差或標(biāo)準(zhǔn)殘差的狀態(tài)估計法,容易出現(xiàn)殘差污染和殘差淹沒現(xiàn)象,造成壞數(shù)據(jù)的漏檢和誤檢[4-5]。橫向縱向?qū)Ρ确ǜ鶕?jù)歷史負(fù)荷數(shù)據(jù)值確定正常數(shù)據(jù)范圍,對相鄰時刻的負(fù)荷數(shù)據(jù)值非常依賴,因此在一定程度上無法處理連續(xù)丟失或突變的壞數(shù)據(jù)[6-7]。聚類法通過提取用戶典型用電模式,確定每種用電模式下負(fù)荷數(shù)據(jù)的合理范圍完成負(fù)荷辨識,取得了不錯的效果[8-10]。文獻[8]利用快速爬山法改善模糊C均值(fuzzy C-means, FCM)聚類算法,改善了聚類數(shù)難以選擇,初始聚類中心隨機選擇等缺點,并根據(jù)每個用電模式中歷史負(fù)荷的最大最小值確定正常數(shù)據(jù)可行域完成壞數(shù)據(jù)辨識。文獻[9]利用極限學(xué)習(xí)機提取數(shù)據(jù)特征,并利用空間核密度聚類分析特征識別不良數(shù)據(jù)。但是,上述聚類的特征向量全部為負(fù)荷用電數(shù)據(jù),在聚類向量中本身包含壞數(shù)據(jù)的情況下,聚類結(jié)果無法準(zhǔn)確反映待測日的用電模式特征,會對數(shù)據(jù)辨識與修正造成影響。文獻[10]為了解決上述問題,提出了一種利用灰色關(guān)聯(lián)分析引入非負(fù)荷數(shù)據(jù)信息,改善FCM聚類的壞數(shù)據(jù)辨識與修正模型,實驗結(jié)果表明在聚類中引入非負(fù)荷數(shù)據(jù)特征值,可以提高模型的準(zhǔn)確性和實用性。
文獻[11]指出在進行負(fù)荷模式提取時,不存在一種聚類方法普遍優(yōu)于其他聚類方法。并且對于工業(yè)負(fù)荷模式提取,直接移植現(xiàn)有的聚類方法效果不佳,需要更有針對性的研究。文獻[12]采用統(tǒng)計模糊矩陣分類法對工業(yè)負(fù)荷進行分類,并通過非參數(shù)回歸分析方法提取中心負(fù)荷向量,進而構(gòu)造異常數(shù)據(jù)域,完成負(fù)荷辨識。但該方法在落地時,需要海量數(shù)據(jù),現(xiàn)有大部分工廠無法滿足其對數(shù)據(jù)存儲的要求。
針對上述不足,提出了一種基于改進式k-prototypes聚類的壞數(shù)據(jù)辨識與修正方法。主要貢獻在于:
(1)構(gòu)建聚類特征向量時,考慮工廠用電特點,引入非負(fù)荷數(shù)據(jù),削弱負(fù)荷數(shù)據(jù)中壞數(shù)據(jù)對聚類結(jié)果的影響;
(2)對標(biāo)準(zhǔn)k-prototypes算法進行改進,增加了多組初值并行擇優(yōu),改善了其容易陷入局部最優(yōu)的缺點,并對聚類數(shù)進行自適應(yīng)處理,解決了主觀選擇聚類數(shù)量的問題;
(3)結(jié)合聚類結(jié)果,提出了負(fù)荷可行域的計算方法,并基于質(zhì)心曲線置換對壞數(shù)據(jù)進行修正。
算例分析表明,所提改進式k-prototypes聚類算法較FCM聚類算法在工廠用電模式提取的效果更好,應(yīng)用到壞數(shù)據(jù)辨識與修復(fù)中,識別的召回率和修復(fù)的準(zhǔn)確率都有所提高;較簡單置信區(qū)間壞數(shù)據(jù)識別、線性插值壞數(shù)據(jù)修復(fù),效果提升顯著。
利用負(fù)荷聚類算法進行壞數(shù)據(jù)辨識與修正的本質(zhì)是提取用戶用電的行為模式,將不符合其行為模式的數(shù)據(jù)找到,并進行修正。然而用于聚類的工廠負(fù)荷曲線本身就包含壞數(shù)據(jù),如果在聚類時,僅考慮負(fù)荷數(shù)據(jù),會帶來兩個問題:
(1)聚類時,結(jié)果受負(fù)荷壞數(shù)據(jù)的影響大,無法對用戶用電的行為模式進行精確提取,從而影響負(fù)荷辨識與修正結(jié)果;
(2)修正時,對于某些用電數(shù)據(jù)嚴(yán)重缺失的時段,無法通過其他信息輔助對其進行填補。
基于上述原因,需要在特征向量中引入工廠的其他用電特征,修正工廠負(fù)荷時序值的聚類結(jié)果。工廠用電與其生產(chǎn)計劃、生產(chǎn)模式強相關(guān)。對于有規(guī)律性生產(chǎn)模式的大多數(shù)工廠,其生產(chǎn)活動一般按周開展,并受節(jié)假日影響。因此,需在特征向量中引入“工作日屬性”與“節(jié)假日屬性”。另外,部分工廠除生產(chǎn)用電外,空調(diào)用電占比最大,如輪胎工廠的空調(diào)用電可達其總用電量的20%~30%,空調(diào)用電量與氣溫強相。故在考慮溫度敏感度大的季度、空調(diào)負(fù)荷占比高的工廠時,需要增加“氣溫”特征維度。聚類特征選取結(jié)果如表1所示。
表1 聚類特征選取Tab.1 Clustering feature selection
對于混合類型數(shù)據(jù)向量,同時包括數(shù)值型與非數(shù)值型數(shù)據(jù)。傳統(tǒng)的聚類算法會將非數(shù)值型數(shù)據(jù)數(shù)值化,在計算聚類損失函數(shù)時仍然使用歐式距離。這樣不但使非數(shù)值型數(shù)據(jù)脫離了本身的物理含義,還在聚類中引入了干擾因素。針對上述情況,選擇k-prototypes算法,在計算聚類損失函數(shù)時對數(shù)值型、非數(shù)值型數(shù)據(jù)分別進行考慮。
對含有n個向量的集合X={x1,x2,…,xn},其第j個向量由一組特征值組成,可表示為:
(1)
式中xj,m為xj的第m個特征值;上標(biāo)r表示數(shù)值型特征;上標(biāo)c表示非數(shù)值型特征;mr為數(shù)值型特征的總數(shù);mc為非數(shù)值型特征的總數(shù)。
通過k-prototypes算法將所有向量分為k類,則向量集合X可表示為:
(2)
式中Xi(i= 1, 2, …,k)為向量聚類后的第i類向量的集合。
向量聚類中,數(shù)值屬性的相似距離為歐式距離,非數(shù)值型屬性的相似距離為分類屬性距離[13],則xj到其類心的距離可表示為:
(3)
式中xj所屬類Xi的中心向量為:
(4)
式中γ為非數(shù)值型變量的權(quán)重,可在數(shù)值數(shù)據(jù)分布距離標(biāo)準(zhǔn)差的1/3~2/3之間進行選擇[14]。
在聚類過程中,定義各個向量到所屬類中心的總距離為聚類損失函數(shù),聚類的目標(biāo)為使聚類損失函數(shù)最小,可表示為:
(5)
式中ni集合Xi中向量的數(shù)量。
為了克服標(biāo)準(zhǔn)k-prototypes容易陷入局部最優(yōu),聚類數(shù)量難以選擇等缺點,對k-prototypes算法進行了如下改進:
(1)聚類過程中,隨機選取多組聚類中心初值,并行計算,選取代價函數(shù)值最小的作為聚類結(jié)果,解決陷入局部最優(yōu)的問題;
(2)提取聚類效果關(guān)鍵指標(biāo),設(shè)定閾值,對聚類數(shù)量進行自適應(yīng)處理,克服類別數(shù)選擇的主觀性;
(3)將向量數(shù)量較少的類拆散,向量合并到距離最小的其他類,避免算法將壞數(shù)據(jù)單獨分類,無法進行識別。
改進后的k-prototypes聚類主要過程如圖1所示。
圖1 改進式k-prototypes聚類流程圖Fig.1 Flow chart of improved k-prototypes clustering algorithm
對于其輸入?yún)?shù)進行如下說明:
k0為類數(shù)的初始值,由于算法對類數(shù)有自適應(yīng)調(diào)整的過程,所以k0的選擇不會影響聚類的最終結(jié)果。但k0越靠近最終的聚類類數(shù),算法的迭代步驟越少,運算速度越快;
Smax為每一類向量距離分布的最大標(biāo)準(zhǔn)差,若某類的距離分布標(biāo)準(zhǔn)差超過Smax,說明該類內(nèi)部相似度較低,應(yīng)進行拆分。Smax的選取可以根據(jù)聚類數(shù)據(jù)的標(biāo)準(zhǔn)差選取其5%~20%,其選值越小,類內(nèi)越緊湊;
Dmin為不同聚類中心的最小距離,若兩類距離小于Dmin,則需進行合并。Dmin的選取可以根據(jù)聚類數(shù)據(jù)的平均距離選取其10%~20%,其選值越大,類間分隔越明顯;
Nmin為每一類最少的向量數(shù)目,若少于此數(shù),則不能作為一個獨立的類。Nmin的選取可以根據(jù)聚類數(shù)據(jù)集的長度選擇其5% ~ 10%的數(shù)量,如果Nmin= 1則不對每類最少向量數(shù)目進行約束。Nmin的限制可以避免將包含大量壞數(shù)據(jù)的向量單獨分類,使其無法被辨識與修正;
llim為算法最大迭代次數(shù)。
根據(jù)聚類結(jié)果,提取每類集合中每個向量的負(fù)荷數(shù)據(jù)。對于采樣點數(shù)量為s的負(fù)荷數(shù)據(jù)(若采樣間隔為15 min,則s=96),向量xj的提取結(jié)果可表示為:
(6)
聚類中心向量vi的提取結(jié)果為:
(7)
數(shù)據(jù)提取后,對應(yīng)分類關(guān)系不變,即若xj∈Xi,則pj∈Pi。
每類的負(fù)荷曲線具有相似性,即曲線形狀大致相似,且?guī)讉€峰谷時刻基本相同,可認(rèn)為同一類型負(fù)荷曲線以vi*為中心成正態(tài)分布[15-16]。根據(jù)正態(tài)分布理論計算每類負(fù)荷功率的可行域,具體步驟如下:
步驟1:針對每一類負(fù)荷Pj,計算正態(tài)分布參數(shù):
(8)
步驟2:利用步驟1獲得的參數(shù),計算負(fù)荷曲線可行域的上下限:
(9)
步驟3:形成負(fù)荷分類的可行域矩陣,對于第i類負(fù)荷其可行域矩陣為:
(10)
基于負(fù)荷曲線相似的性質(zhì),提出一種基于類心曲線置換的壞數(shù)據(jù)修正方法,其原理為用待修正數(shù)據(jù)曲線所屬的聚類中心負(fù)荷曲線的相應(yīng)部分,根據(jù)待修正數(shù)據(jù)部分首尾差值等比伸縮,置換待修正的數(shù)據(jù)。如圖2所示。
圖2 數(shù)據(jù)修正示意圖Fig.2 Schematic diagram of bad data correction
(11)
那么,修復(fù)后的數(shù)據(jù)可表示為:
(12)
基于改進式k-prototypes聚類的壞數(shù)據(jù)辨識與修正方法如圖3所示。在進行壞數(shù)據(jù)的辨識與修復(fù)時,含有缺失數(shù)據(jù)的向量直接標(biāo)記為待修復(fù)數(shù)據(jù),不參與聚類,減小壞數(shù)據(jù)對聚類結(jié)果的影響。
圖3 方法應(yīng)用流程圖Fig.3 Flow chart of method application
算例數(shù)據(jù)集包括負(fù)荷用電數(shù)據(jù)、天氣數(shù)據(jù)、節(jié)假日數(shù)據(jù)。用電數(shù)據(jù)為廣州某工業(yè)園現(xiàn)場采集的3個工廠從2018年7月1日~2018年10月24日的負(fù)荷96點功率數(shù)據(jù)(去除光伏)。3個工廠在數(shù)據(jù)采集期間,以周為單位從事規(guī)律性的生產(chǎn)活動,并根據(jù)國家法定節(jié)假日調(diào)整生產(chǎn)模式。天氣數(shù)據(jù)為廣州市同期的平均氣溫,節(jié)假日數(shù)據(jù)來源于國家法定節(jié)假日。對負(fù)荷數(shù)據(jù)進行處理:
(1)制造空白數(shù)據(jù):每個工廠隨機選擇10條日負(fù)荷曲線,將每條曲線的部分?jǐn)?shù)據(jù)刪除,刪除數(shù)據(jù)部分連續(xù),長度隨機且不超過整條曲線的40%;
(2)制造壞數(shù)據(jù):每個工廠隨機選擇10條日負(fù)荷曲線,每條曲線隨機選擇3~20個點,升高或降低60%~70%。
根據(jù)1.3章節(jié)所述,選取改進式k-prototypes的算法參數(shù),并結(jié)合具體工廠數(shù)據(jù)微調(diào),如表2所示。
表2 改進式k-prototypes算例參數(shù)Tab.2 Example parameters of improved k-prototypes
為測試隨機初值,并行擇優(yōu)對k-prototypes算法陷入局部最優(yōu)值的改善效果,對3個工廠進行仿真:選取不同的聚類數(shù),從1逐漸增加并行分支數(shù),記錄代價函數(shù)值的變化,并重復(fù)多次。
圖4為對空調(diào)廠聚類(k=5),并行分支數(shù)從0增至50,重復(fù)實驗50次的效果圖。圖中每條曲線為一次實驗結(jié)果,較粗的曲線為多次實驗的平均值,數(shù)據(jù)點在底部形成的平行線為全局最優(yōu)解。可見,隨著并行分支數(shù)量的增加,平均代價函數(shù)值逐漸趨于全局最優(yōu)解;并且對于單次運行結(jié)果,隨著并行分支數(shù)量的增加,其代價函數(shù)值圍繞全局最優(yōu)解的波動幅度越來越小。
圖4 優(yōu)化后對陷入局部最優(yōu)的改善Fig.4 Improvement of trapped local optima
利用改進式k-prototypes對工廠數(shù)據(jù)進行聚類,并選擇FCM聚類算法進行對比。FCM聚類算法在壞數(shù)據(jù)辨識與修正的研究中應(yīng)用廣泛,較傳統(tǒng)硬聚類算法效果更好。空調(diào)廠的聚類結(jié)果如圖5所示,每條曲線為一條日負(fù)荷向量,較粗的曲線為聚類中心向量。由圖5可見,當(dāng)聚類數(shù)相同時,此聚類算法由于引入非負(fù)荷數(shù)據(jù)削弱壞數(shù)據(jù)的影響,聚類效果更好:
圖5 改進式k-prototypes與FCM聚類結(jié)果對比Fig.5 Comparison between the improved k-prototypes and the FCM clustering result
(1)每類向量數(shù)量更均勻,類內(nèi)更緊致,不受異常數(shù)據(jù)影響單獨分類;
(2)不同類間分隔更明顯,聚類的類心向量有明顯區(qū)分,而FCM的類Ⅱ和類Ⅲ的中心向量比較相似。
不同的聚類結(jié)果會對壞數(shù)據(jù)的辨識效果產(chǎn)生影響[17]。圖6為空調(diào)廠某個壞數(shù)據(jù)的辨識結(jié)果,圖中虛線為計算的可行域。在文中算法中,壞數(shù)據(jù)所屬向量被分到類Ⅲ,由于其越出可行域,被成功識別出來;而在FCM聚類算法中,壞數(shù)據(jù)所屬向量被分到類Ⅰ,在該類可行域里,沒有被正確識別;如果不進行聚類,雖然壞數(shù)據(jù)可以識別出來,但是識別結(jié)果在置信區(qū)間邊緣,識別結(jié)果不穩(wěn)定。
圖6 聚類結(jié)果對壞數(shù)據(jù)辨識的影響Fig.6 Influence of clustering results on bad data identification
對3個工廠的壞數(shù)據(jù)辨識結(jié)果進行統(tǒng)計,壞數(shù)據(jù)的召回率與辨識的準(zhǔn)確率如表3所示。與FCM聚類算法相比,文中算法在準(zhǔn)確率保持不變的情況下,能辨識出更多的壞數(shù)據(jù),顯著提高了壞數(shù)據(jù)的召回率。相比于置信區(qū)間法,壞數(shù)據(jù)的召回率與準(zhǔn)確率都有顯著提升。
表3 壞數(shù)據(jù)辨識結(jié)果Tab.3 Bad data identification results
利用所提的類心置換法對壞數(shù)據(jù)進行修正,通過與FCM+類心置換法比較,分析聚類對類心置換法修正準(zhǔn)確率的影響;同時,對比線性插值法,分析所提基于聚類算法的類心置換法與直接插值法的修正準(zhǔn)確率的區(qū)別。
如表4所示。對比基于FCM聚類的類心置換修正法,文中方法的修正準(zhǔn)確率在空調(diào)廠、冷機場有少量的提高,在漆包線廠與其持平,可見聚類算法對修正準(zhǔn)確率有一定影響。相比于線性插值法,所提類心置換法在修正數(shù)據(jù)時,由于考慮了數(shù)據(jù)變化趨勢,對壞數(shù)據(jù)修正的準(zhǔn)確率有顯著提高。
表4 壞數(shù)據(jù)修正結(jié)果Tab.4 Bad data correction results
基于工業(yè)場景中混合數(shù)據(jù)集的聚類分析,提出了一種有效的壞數(shù)據(jù)辨識與修正方法。聚類過程中引入隨機選擇多組初值,并行聚類擇優(yōu),克服傳統(tǒng)k-prototypes算法容易陷入局部最優(yōu)解的缺陷。并通過對聚類數(shù)的自適應(yīng)處理,解決主觀選擇聚類數(shù)的問題。由于引入了非負(fù)荷數(shù)據(jù),削弱了本身存在的壞數(shù)據(jù)對聚類結(jié)果的影響,使壞數(shù)據(jù)辨識的召回率和壞數(shù)據(jù)修正的準(zhǔn)確率有所提高。
文中算法適用于大多數(shù)存在規(guī)律性生產(chǎn)模式的工廠,在實際生產(chǎn)過程中,一些小型工廠可能會根據(jù)需求缺口調(diào)整靈活的調(diào)整生產(chǎn)活動。后續(xù)的研究中,可進一步挖掘影響工廠生產(chǎn)活動的因素及其表征方法,應(yīng)用到壞數(shù)據(jù)的辨識與修正的研究中。