梁京章 黃星舒 吳麗娟 熊小萍
(1.廣西大學(xué)電氣工程學(xué)院,廣西南寧530004;2.廣西大學(xué)信息網(wǎng)絡(luò)中心,廣西南寧530004)
電力大數(shù)據(jù)是能源變革中電力工業(yè)技術(shù)的核心之一,涉及電力系統(tǒng)在大數(shù)據(jù)時(shí)代下管理體制、技術(shù)路線和發(fā)展規(guī)劃等方面的重大變革,是新一代智能化電力系統(tǒng)的基石[1]。隨著現(xiàn)代電力網(wǎng)絡(luò)向著規(guī)?;⒅悄芑l(fā)展,電力負(fù)荷數(shù)據(jù)呈指數(shù)級(jí)增長的同時(shí)也向著高維化發(fā)展,如何從海量、高維的電力負(fù)荷數(shù)據(jù)中提取有價(jià)值的信息是目前電力系統(tǒng)面臨的重要難題[2]。因此,研究科學(xué)、有效的電力負(fù)荷數(shù)據(jù)處理技術(shù)具有重要意義。
電力負(fù)荷曲線聚類是配用電數(shù)據(jù)挖掘的基礎(chǔ),在供需側(cè)能效管理、異常用戶檢測、用電客戶精細(xì)分類等多方面具有重要作用[3]。聚類算法主要包括劃分聚類算法、層次聚類算法以及基于密度、基于模型、基于網(wǎng)格的聚類算法等[4]。由于基于模型的聚類算法需要對(duì)數(shù)據(jù)大范圍迭代求解,對(duì)大規(guī)模數(shù)據(jù)處理速度緩慢,基于網(wǎng)格的聚類算法常用于空間數(shù)據(jù)處理,對(duì)電力負(fù)荷曲線這種時(shí)間序列數(shù)據(jù)不適用[5],因此本文主要研究劃分聚類、層次聚類以及基于密度聚類這3種算法,其代表性算法分別為 K-means、BIRCH 和 DBSCAN[6]。降維算法分為線性降維算法和非線性降維算法,線性降維算法以主成分分析 (PCA)為代表,非線性降維算法主要包括局部線性嵌入 (LLE)、多維尺度變換(MDS)、等距映射 (ISOMAP)、核主成分分析(KPCA)等[7]。目前,國內(nèi)外已有許多專家、學(xué)者開展了電力負(fù)荷數(shù)據(jù)降維聚類相關(guān)方面的研究。文獻(xiàn) [8]提出一種基于改進(jìn)K-means算法的電力負(fù)荷聚類方法,可實(shí)現(xiàn)對(duì)大量用戶負(fù)荷數(shù)據(jù)進(jìn)行有效分析,但沒有結(jié)合降維技術(shù)進(jìn)行探究;文獻(xiàn)[3]提出結(jié)合降維技術(shù)的電力負(fù)荷曲線集成聚類算法,有效結(jié)合降維技術(shù)減少聚類運(yùn)算的時(shí)、空復(fù)雜度,但選用的降維算法PCA適用于線性降維,而電力負(fù)荷曲線主要呈非線性;文獻(xiàn) [9]提出分別采用KPCA和Kernel K-means對(duì)用戶負(fù)荷數(shù)據(jù)進(jìn)行降維和聚類,該方法有效提高了負(fù)荷曲線聚類的準(zhǔn)確性,但缺少對(duì)降維、聚類算法性能的對(duì)比分析。
針對(duì)以往研究多疏于探究降維和聚類方法相結(jié)合以提升電力負(fù)荷曲線聚類效果的問題,同時(shí)考慮到電力負(fù)荷曲線主要呈非線性的特點(diǎn),本文提出聚類精度更高的DK-means(融合密度思想的 K-means)算法,結(jié)合非線性降維算法中降維速度較快的KPCA算法,在保證計(jì)算效率的基礎(chǔ)上實(shí)現(xiàn)更加準(zhǔn)確的電力負(fù)荷曲線聚類工作。
1.1.1 K-means算法
K-means聚類算法可以闡述為:先從樣本集中隨機(jī)選取K個(gè)樣本作為類簇中心,計(jì)算所有樣本與這K個(gè)類簇中心的距離,并將其劃分到與它們距離最近的類簇中心所在的類別中,所有數(shù)據(jù)分完算一個(gè)迭代步驟完成,隨后將每個(gè)類簇均值作為新的類簇中心循環(huán)上述步驟,直至劃分結(jié)果不變或達(dá)到最大迭代次數(shù)為止[10-11]。
1.1.2 DK-means算法
傳統(tǒng)劃分聚類算法K-means的缺點(diǎn)如下:①聚類超參數(shù)K難以確定;②對(duì)噪聲和異常點(diǎn)敏感;③對(duì)非凸數(shù)據(jù)集的聚類效果不佳;④算法易受數(shù)據(jù)分布影響,穩(wěn)定性不強(qiáng);⑤依賴初始聚類中心的選取,算法易收斂到局部最優(yōu)解等。針對(duì)以上問題,本文在K-means算法基礎(chǔ)上引入密度聚類算法思想,提出融合密度思想的 K-means算法 (DK-means算法)。DK-means算法首先通過對(duì)比分析聚類有效性評(píng)價(jià)指標(biāo)來確定全局最佳聚類數(shù)K′,以解決缺點(diǎn)①。
其次,DK-means算法采用式 (1)作為數(shù)據(jù)間距離的計(jì)算公式:
式中,D(i)和D(j)分別表示中心點(diǎn)xi(i=1,2,…,n)及xj(j=1,2,…,n)和最鄰近N個(gè)數(shù)據(jù)點(diǎn)距離的平均值。D(i)和參數(shù)N在DK-means中近似鄰域樣本閾值參數(shù)MinPts和鄰域距離閾值參數(shù)∈在密度聚類算法中的思想,用于衡量中心點(diǎn)周圍的密度條件,中心點(diǎn)鄰近距離參數(shù)N根據(jù)算法環(huán)境調(diào)整。式 (1)針對(duì)上述缺點(diǎn)②和③,在距離度量時(shí)充分考慮中心點(diǎn)周邊密度情況,汲取密度聚類算法對(duì)噪聲點(diǎn)不敏感以及能對(duì)任意形狀數(shù)據(jù)集聚類的優(yōu)點(diǎn),讓DK-means加強(qiáng)對(duì)異常點(diǎn)的抗干擾能力,同時(shí)增加對(duì)非凸數(shù)據(jù)集的處理能力;針對(duì)缺點(diǎn)④,式 (1)將稠密區(qū)域的樣本點(diǎn)間距增大,將稀疏區(qū)域的樣本點(diǎn)間距減小,使數(shù)據(jù)整體分布趨于均勻化,降低數(shù)據(jù)分布對(duì)聚類效果的影響,以此提高整體聚類精度。
針對(duì)傳統(tǒng)K-means算法在聚類數(shù)目確定后,隨機(jī)選取初始聚類中心進(jìn)入迭代,易導(dǎo)致聚類劃分結(jié)果不穩(wěn)定、迭代步長波動(dòng)較大、算法陷入局部最優(yōu)解等問題,即上述缺點(diǎn)⑤,DK-means算法設(shè)定初始聚類中心選取規(guī)則:首先選取全局密度最大的數(shù)據(jù)點(diǎn)G,即在N值范圍內(nèi)D(G)最小的點(diǎn),作為首個(gè)初始聚類中心點(diǎn),之后選取距離已定聚類中心累積距離最遠(yuǎn)并且滿足密度條件的數(shù)據(jù)點(diǎn)成為后續(xù)初始聚類中心點(diǎn)。
DK-means算法初始聚類中心的選取步驟如下。
設(shè)數(shù)據(jù)為X={xii=1,2,…,n},K為聚類數(shù),G點(diǎn) (全局密度最大的數(shù)據(jù)點(diǎn))為首個(gè)初始聚類中心點(diǎn),C={Ckk=1,2,…,K-1},為后續(xù)初始聚類中心,S為迭代中按順序選取的聚類中心候選點(diǎn),D為每次迭代的計(jì)算距離,M為累積距離。α、β為參數(shù)值,本文設(shè)α=0.25,β=0.33。后續(xù)初始聚類中心選取步驟描述如下:
(1)設(shè)C=?,S=?,M= [],計(jì)算所有樣本X和G點(diǎn)的距離:D=d(X,G);
(2)定義鄰域樣本數(shù):Qmin=αn/K,指定最大距離取值點(diǎn):Dmax=argmax(D),設(shè)定鄰域Rd=βDmax;
(3)令h=1,開始記錄初始聚類中心迭代次數(shù);
(4)令M=M+D;
(5)選擇A=xargmax(M)作為第h+1個(gè)聚類中心候選點(diǎn),令S=S∪A;
(6)將D更新為所有樣本X和A之間的距離,令M(A)=0,設(shè)P為滿足D≤Rd的數(shù)據(jù)點(diǎn)數(shù);
(7)假如P<Qmin,則該候選點(diǎn)不符合密度條件,返回步驟 (5)重新選取聚類中心候選點(diǎn);假如P≥Qmin,則令D(S)=0,轉(zhuǎn)入步驟 (8);
(8)令C=C∪A,h=h+1;
(9)假如h≤K-1,則返回步驟 (4);否則迭代結(jié)束,輸出C。
核主成分分析算法KPCA[12]是一種非線性主成分評(píng)價(jià)模型,廣泛應(yīng)用于數(shù)據(jù)降維研究中[13]。假設(shè)原始低維空間 L中有 n個(gè)樣本 X={x1,x2,…,xn},經(jīng)Φ:L→F完成向更高維度F空間的投射,設(shè)F空間映射數(shù)據(jù)滿足中心化要求,則特征空間F中的數(shù)據(jù)協(xié)方差矩陣可以表示為
對(duì)CF做特征向量分析,設(shè)其特征值為、特征向量為ν,則有:ν=CFν。因?yàn)樘卣飨蛄喀臀挥讦?x1),φ(x2)…,φ(xn)張成的空間,所以在CF向量分析式等號(hào)兩邊同時(shí)左乘φ(xi)構(gòu)成新的等價(jià)式:
存在系數(shù) αj(j=1,2,…,n),使得代入式 (3)得到:
定義n×n維的矩陣 [Kij]n×n使其可通過核函數(shù)來計(jì)算:Kij=(φ(xi)φ(xj)),將矩陣K代入式 (4),化簡為
將核函數(shù)進(jìn)行內(nèi)積替換,有:
以上分析是基于F空間的映射數(shù)據(jù)滿足中心化的情況下,但通常這一情況難以成立。如若不成立,需將核函數(shù)K進(jìn)行如下變換,產(chǎn)生聚集度更高的核函數(shù)ˉK以滿足條件:
式中,In是n×n維的矩陣,同時(shí)
聚類有效性評(píng)價(jià)指標(biāo)是評(píng)價(jià)數(shù)據(jù)聚類能力的一種測量標(biāo)準(zhǔn)[14],典型的聚類有效性評(píng)價(jià)指標(biāo)有誤差平方和 (SSE)、Calinski-Harabasz指標(biāo)CHI、戴維森堡丁指數(shù) (DBI)等[15]。
誤差平方和用所有子類點(diǎn)到所在類別聚類中心的距離平方和ISSE表示:
式中:x表示樣本數(shù)據(jù);ck代表類簇Xk的聚類中心;d(ck,x)為樣本數(shù)據(jù)和聚類中心間的歐式距離。ISSE越小代表聚類效果越好。
CHI(ICHI)以類間離散度 (B)和類內(nèi)密集度 (W)的比值形式來綜合度量聚類質(zhì)量,其公式為ICHI越大表明數(shù)據(jù)類間離散度越高,類內(nèi)密集性越強(qiáng),聚類效果越好。其中:
式中:ˉx代表所有數(shù)據(jù)的均值;wk,i代表第i個(gè)數(shù)據(jù)點(diǎn)對(duì)第k個(gè)類簇的從屬關(guān)系,可以表示為
DBI指標(biāo)IDBI綜合考慮不同類別間的分散性和同一類別內(nèi)的緊湊性,計(jì)算公式為
式中,
其中,d(Xk)和d(Xi)分別表示Xk和Xi兩個(gè)類別類內(nèi)數(shù)據(jù)到所在類簇中心的平均距離;d(ck,ci)為類別間聚類中心距離,IDBI越小表示聚類效果越好。
實(shí)驗(yàn)數(shù)據(jù)取自美國開放能源信息網(wǎng)站 (OpenEI),本文選取美國東部某城市2010年居民住宅用戶1768條年度電力負(fù)荷曲線建立原始數(shù)據(jù)庫。經(jīng)數(shù)據(jù)清洗,保留1701條有效負(fù)荷曲線,每條負(fù)荷曲線維度為12,建立實(shí)驗(yàn)數(shù)據(jù)集,歸一化后的電力負(fù)荷曲線總體情況如圖1所示。
圖1 電力負(fù)荷曲線總體分布情況Fig.1 Overall distribution of power load profiles
由圖1可知,實(shí)驗(yàn)數(shù)據(jù)集中的電力負(fù)荷曲線基本呈非線性,且無明顯規(guī)律。
對(duì)實(shí)驗(yàn)數(shù)據(jù)集做聚類評(píng)價(jià)指標(biāo)分析,DBI和CHI兩種聚類評(píng)價(jià)指標(biāo)和聚類數(shù)的關(guān)系如圖2所示。
圖2 聚類評(píng)價(jià)指標(biāo)和聚類數(shù)的關(guān)系Fig.2 Relationship between clustering evaluation indexes andclustering numbers
由圖2可知,聚類數(shù)K=2時(shí)DBI取得極小值、CHI取得極大值,因此確定K′=2為本實(shí)驗(yàn)數(shù)據(jù)集的最佳聚類數(shù)。同時(shí),由圖2可以觀察到DBI指標(biāo)相較于CHI變化范圍更小、數(shù)據(jù)敏感度更高,因此DBI比CHI更適于作為本實(shí)驗(yàn)數(shù)據(jù)集的聚類評(píng)價(jià)指標(biāo)。
分析DK-means算法中心點(diǎn)鄰近距離參數(shù)N,用DK-means算法將實(shí)驗(yàn)數(shù)據(jù)集聚類至最佳聚類數(shù)K′=2輸出,N值對(duì)聚類效果的影響如圖3所示,圖中每組數(shù)據(jù)均為算法運(yùn)行10次的平均值。
圖3 參數(shù)N對(duì)聚類效果的影響Fig.3 Influence of parameter N on clustering effect
由圖3可知,N值變化時(shí)SSE基本保持穩(wěn)定,這說明:①DK-means算法具有較強(qiáng)的穩(wěn)定性;②算法結(jié)果處于最優(yōu)狀態(tài) (結(jié)合圖2分析可知處于全局最優(yōu)狀態(tài))。當(dāng)N=8時(shí),平均迭代步長和SSE均取得極小值,此時(shí)實(shí)驗(yàn)數(shù)據(jù)集取得最佳聚類效果,確定DK-means算法的參數(shù)N在本實(shí)驗(yàn)集上最佳取值為N′=8。同等條件下,SSE指標(biāo)值遠(yuǎn)大于DBI,數(shù)據(jù)波動(dòng)范圍較大,比較不便于應(yīng)用,結(jié)合圖2分析確定DBI為本實(shí)驗(yàn)數(shù)據(jù)集有效性聚類的主要評(píng)價(jià)指標(biāo)。
本文選取劃分聚類代表算法K-means、層次聚類代表算法 BIRCH、基于密度聚類代表算法DBSCAN、集成聚類算法 EnsClust[3]以及本文提出的DK-means算法共5種聚類算法,對(duì)比分析其在實(shí)驗(yàn)數(shù)據(jù)集上的聚類效果,DBI指標(biāo)同數(shù)據(jù)集規(guī)模的關(guān)系如圖4所示。
由圖4可知,K-means在實(shí)驗(yàn)數(shù)據(jù)集上表現(xiàn)出了較好的聚類穩(wěn)定性,DBSCAN則在整體聚類精度上表現(xiàn)更佳,DK-means融合了K-means和DBSCAN的優(yōu)點(diǎn),在保持算法穩(wěn)定的同時(shí)擁有較高的聚類精度;同DK-means聚類表現(xiàn)最接近的是EnsClust,相比而言,EnsClust的穩(wěn)定性更強(qiáng),而DK-means則是整體聚類精度更高;在不同數(shù)據(jù)集規(guī)模下,DK-means的聚類精度高于K-means,展現(xiàn)出其對(duì)不同數(shù)據(jù)集規(guī)模和聚類形狀更強(qiáng)的適應(yīng)能力。
圖4 5種聚類算法的DBI指標(biāo)和數(shù)據(jù)集規(guī)模的關(guān)系Fig.4 Relationship between DBI indexes and data set sizes of five clustering algorithms
在運(yùn)算效率上相比,5種算法中K-means的計(jì)算速度最快,DK-means與之存在差距,其主要原因是因?yàn)镈K-means增加了計(jì)算復(fù)雜度。
綜上分析,DK-means具有較高的聚類精度和穩(wěn)定性,這對(duì)電力負(fù)荷曲線精確聚類、準(zhǔn)確提取用戶用電行為模式具有重要應(yīng)用價(jià)值,但在運(yùn)算速度上還有待提高。
用DK-means將實(shí)驗(yàn)數(shù)據(jù)集精確聚類至最佳聚類數(shù)K′=2,結(jié)果如圖5所示。
圖5 DK-means對(duì)實(shí)驗(yàn)數(shù)據(jù)集的聚類結(jié)果Fig.5 Clustering result on experimental data set by DK-means
由圖5可知,實(shí)驗(yàn)數(shù)據(jù)集聚成的兩類用戶在用電量上雖相差2~4倍,但在用電行為習(xí)慣上相似,都是在6-9月以及1月前后出現(xiàn)用電高峰,屬于典型的迎峰度夏、迎峰度冬類型,不過Ⅰ類用戶電力負(fù)荷曲線波動(dòng)范圍較大,說明其用電行為受季節(jié)因素影響較明顯。
當(dāng)數(shù)據(jù)規(guī)模較大時(shí),采用降維算法不僅可以減少數(shù)據(jù)的存儲(chǔ)空間,而且還能有效提高計(jì)算效率。
KPCA算法形式多樣,常見的有線性核函數(shù)(Linear核函數(shù))、Sigmoid核函數(shù)、徑向基核函數(shù)(RBF核函數(shù))、多項(xiàng)式核函數(shù) (Poly核函數(shù))等。針對(duì)電力負(fù)荷曲線呈非線性的特點(diǎn),實(shí)驗(yàn)對(duì)比上述4種形式核函數(shù)的非線性數(shù)據(jù)處理能力。取3類非線性數(shù)據(jù),每類樣本1 000個(gè),構(gòu)成原始數(shù)據(jù)集。如圖6所示,原始數(shù)據(jù)集展示形式為在空間中相互嵌套的3類球形樣本點(diǎn),圖中X′、Y′、Z′構(gòu)成一組空間直角坐標(biāo)系。
圖6 原始空間中相互嵌套的球形數(shù)據(jù)Fig.6 Spherical data nested within each other in the original space
分別用Linear、Sigmoid、RBF、Poly 4種KPCA核函數(shù)對(duì)原始數(shù)據(jù)集進(jìn)行降維處理,結(jié)果如圖7所示,圖中 (X′1,Y′1)、 (X′2,Y′2)、 (X′3,Y′3)、(X′4,Y′4)分別代表平面中4組直角坐標(biāo)系。
從圖7可以看出,由Linear核函數(shù)降維后的數(shù)據(jù)在形狀和坐標(biāo)尺寸間隔上都同原始數(shù)據(jù)相似,因此認(rèn)定它只是將原始數(shù)據(jù)做投影;RBF核函數(shù)找到合適的投影方向?qū)⒃紨?shù)據(jù)從三維降至二維并實(shí)現(xiàn)良好聚類,比其他3種算法表現(xiàn)出了更好的降維能力。因此本文選用徑向基核函數(shù)代表KPCA參與后續(xù)實(shí)驗(yàn),其算式為
式中:x和y為空間中任意兩點(diǎn),σ為調(diào)整函數(shù)徑向作用范圍的寬度參數(shù)。
本文選取KPCA、LLE、MDS、ISOMAP 4種常用非線性降維算法同基礎(chǔ)K-means算法結(jié)合,在電力負(fù)荷曲線實(shí)驗(yàn)集上進(jìn)行降維聚類效果對(duì)比分析,在設(shè)定聚類數(shù)為K′=2的條件下,得到維度和DBI的關(guān)系如圖8所示。
圖7 各類型KPCA核函數(shù)的降維效果Fig.7 Dimensionality reduction effect of various types of KPCA kernel functions
由圖8可以看出,LLE對(duì)應(yīng)的DBI值波動(dòng)較大,算法穩(wěn)定性不強(qiáng)。KPCA、MDS和 ISOMAP 3種算法對(duì)應(yīng)的DBI數(shù)值較小且曲線穩(wěn)定,表現(xiàn)出了良好的降維能力;同時(shí),這3種算法在維度為2時(shí)DBI都取得極小值,因此確定實(shí)驗(yàn)數(shù)據(jù)集的最佳輸出維度為2。
KPCA、LLE、MDS、ISOMAP 4種算法的降維運(yùn)算時(shí)間如表1所示。
圖8 4種降維算法維度和DBI指標(biāo)的關(guān)系Fig.8 Relationship between dimensions and DBI indexes of four dimensionality reduction algorithms
表1 4種降維算法的運(yùn)算時(shí)間Table 1 Computing time of four dimensionality reduction algorithms
由表1可知,KPCA計(jì)算速度最快,其平均速度約是ISOMAP的5.2倍,MDS的計(jì)算時(shí)間遠(yuǎn)長于其他3種算法。
綜上在降維聚類精度和降維速度兩方面的對(duì)比分析,得出:LLE穩(wěn)定性不高,MDS計(jì)算耗時(shí)長,KPCA對(duì)實(shí)驗(yàn)數(shù)據(jù)集的綜合降維效果較佳。
由3.3和3.4節(jié)分析可知,DK-means算法的聚類精度高,KPCA算法的降維速度快,因此先用KPCA將實(shí)驗(yàn)數(shù)據(jù)集降維至最佳輸出維度2,此時(shí)恰好可以平面可視化,接著用DK-means聚類至最佳聚類數(shù)K′=2,結(jié)果如圖9所示,圖中X′和Y′構(gòu)成平面中一組直角坐標(biāo)系。
由圖9可以看出,實(shí)驗(yàn)數(shù)據(jù)集的二維展示形態(tài)為類心形,且為非凸數(shù)據(jù)集,結(jié)合3.3節(jié)DK-means在該數(shù)據(jù)集的聚類精度優(yōu)于K-means,論證得到DK-means對(duì)非凸數(shù)據(jù)集的處理能力強(qiáng)于K-means。
圖9 KPCA+DK-means組合算法的降維聚類結(jié)果Fig.9 Dimensional reduction and clustering result of KPCA+DK-means combination algorithm
KPCA+DK-means組合算法和DK-means算法的聚類精度對(duì)比如圖10所示。
圖10 KPCA+DK-means和DK-means算法的聚類精度對(duì)比Fig.10 KPCA+DK-means and DK-means clustering accuracy comparison
由圖10可知,KPCA+DK-means組合算法的整體聚類精度高于DK-means。同時(shí),在聚類速度對(duì)比方面,KPCA+DK-means相較DK-means的聚類效率大幅提升,同KPCA結(jié)合在一定程度上彌補(bǔ)了DK-means運(yùn)算速度不足的缺點(diǎn)。
本文針對(duì)電力負(fù)荷曲線的精確聚類問題,提出基于KPCA和改進(jìn)K-means的電力負(fù)荷曲線聚類方法,通過對(duì)比分析得出:
(1)DBI聚類評(píng)價(jià)能力優(yōu)于CHI和SSE,并能借助它高效、準(zhǔn)確地找出全局最佳聚類數(shù)和最佳輸出維度。
(2)DK-means在K-means基礎(chǔ)上融入密度算法思想,提高了算法聚類精度,聚類精度優(yōu)于K-means、BIRCH、DBSCAN和EnsClust,同時(shí)拓寬了聚類適用范圍。
(3)KPCA幾種形式中,徑向基核函數(shù)比線性核函數(shù)、多項(xiàng)式核函數(shù)、Sigmoid核函數(shù)對(duì)非線性數(shù)據(jù)的降維效果好;以徑向基核函數(shù) (RBF)為代表的KPCA算法的綜合降維能力優(yōu)于LLE、MDS和ISOMAP。
(4)KPCA+DK-means較DK-means在聚類精度和聚類效率上均有提升。
DK-means算法的復(fù)雜度較高、計(jì)算時(shí)間較長,對(duì)DK-means進(jìn)一步改進(jìn)和創(chuàng)新將是下一步研究的重點(diǎn)。