程江洲,何 艷,鮑 剛,潘 飛
(三峽大學(xué)電氣與新能源學(xué)院,湖北 宜昌 443000)
隨著我國(guó)電力市場(chǎng)的進(jìn)一步改革,許多電力公司都想研究消費(fèi)者的需求行為,提高服務(wù)質(zhì)量。掌握用戶用電行為的信息,快速響應(yīng)市場(chǎng)變化、客戶多樣化及個(gè)性化用戶需求,可為實(shí)時(shí)或現(xiàn)貨市場(chǎng)的參與者提供準(zhǔn)確的需求側(cè)管理算法[1]。本文旨在通過(guò)兩種無(wú)監(jiān)督學(xué)習(xí)方法的結(jié)合,并利用最大加權(quán)乘積法改進(jìn)閾值不確定的問(wèn)題,總結(jié)用戶用電負(fù)荷曲線的特征,并計(jì)算代表每個(gè)聚類組的基線負(fù)荷[2]。
現(xiàn)代電力系統(tǒng)正朝著更可持續(xù)的方向發(fā)展,導(dǎo)致電網(wǎng)側(cè)積累了海量數(shù)據(jù),由于現(xiàn)有聚類分析技術(shù)算法單一不可避免地降低了數(shù)據(jù)的利用率[3]。文獻(xiàn)[4]提出一種基于聚類結(jié)果的評(píng)價(jià)指標(biāo)及復(fù)雜程度的來(lái)確定K-means算法的初始中心及聚類數(shù)目的方法。文獻(xiàn)[5]提出一種新的分布式聚類方法,基于自適應(yīng)K-means算法對(duì)海量用戶的用電特性進(jìn)行感知分析。文獻(xiàn)[6]提出一種改進(jìn)的K均值算法,引入Kl指數(shù)來(lái)確定最優(yōu)聚類中心點(diǎn)來(lái)完成聚類分析,提取出典型用戶用電負(fù)荷曲線。文獻(xiàn)[7]提出了一種數(shù)據(jù)采樣和K均值預(yù)聚類的方法,首先通過(guò)多次數(shù)據(jù)采樣并采用K均值算法生成聚類結(jié)果,其次計(jì)算聚類結(jié)果的交集來(lái)構(gòu)造加權(quán)連通圖,最后得到聚類中心。然而,該方法缺乏對(duì)數(shù)據(jù)集總體樣本分布的考慮,具有一定的局限性和不穩(wěn)定性。文獻(xiàn)[8]提出用AP算法確定聚類數(shù)K上限的方法,但沒(méi)有給出確定最佳K值的具體方法。文獻(xiàn)[9]中提出用K-means-u*算法來(lái)改進(jìn)K-means++算法的局限性,但算法變得更復(fù)雜且不適用數(shù)據(jù)量過(guò)大的領(lǐng)域。K-means算法作為一種常用的聚類算法,其因操作簡(jiǎn)單、原理易懂,廣泛被應(yīng)用于聚類分析領(lǐng)域[10]。但其也存在以下問(wèn)題:必須事先明確聚類數(shù)K值的大小、對(duì)初始聚類中心的選取要求高、容易收斂到局部最優(yōu)解,導(dǎo)致錯(cuò)過(guò)全局最優(yōu)解。
綜上,為了克服上述問(wèn)題,國(guó)內(nèi)外學(xué)者將多種聚類算法進(jìn)行結(jié)合,做到互補(bǔ)互助揚(yáng)長(zhǎng)避短[11]。本文首先對(duì)樣本密度的K-means聚類方法進(jìn)行基本描述,較改進(jìn)前算法分析對(duì)比可知數(shù)據(jù)集的最優(yōu)值K和初始聚類中心由密度冠層算法獲得,可作為K均值算法的輸入?yún)?shù),解決了K值的確定和初始聚類中心的選擇這兩個(gè)難題;最后為了驗(yàn)證該模型,選取江西某地的216名用戶為期一個(gè)月的負(fù)荷數(shù)據(jù)進(jìn)行仿真,通過(guò)與兩種典型的聚類方法進(jìn)行比較,并用不同的有效性指標(biāo)來(lái)評(píng)價(jià)它們的聚類性能,實(shí)驗(yàn)結(jié)果證明,改進(jìn)后的新算法在準(zhǔn)確性、穩(wěn)定性和有效性方面都優(yōu)于其它算法。
Canopy算法作為一種無(wú)監(jiān)督的預(yù)聚類算法,常被用作K-means算法或?qū)哟尉垲愃惴ǖ念A(yù)處理步驟[12],具體步驟如下:
步驟1:給出數(shù)據(jù)集D={X1,X2,….,Xn},設(shè)置閾值T1和T2,其中T1>T2
步驟2:從數(shù)據(jù)集D中提出樣本點(diǎn)S,分別計(jì)算剩余樣本點(diǎn)與點(diǎn)S之間的歐氏距離d。如果d 步驟3:完成計(jì)算出的d與T2的比較。如果d 步驟4:重復(fù)步驟2和步驟3,直到D為空。 但由于算法中T1和T2的閾值難以確定,閾值的大小對(duì)聚類結(jié)果影響很大[13]。因此,本文考慮引入密度參數(shù)來(lái)解決這個(gè)問(wèn)題。 2.2.1 基礎(chǔ)概念 對(duì)于給定的數(shù)據(jù)集D={X1,X2,….,Xn},則D中的樣本元素m記為Xm={Xm1,Xm2,…,Xmr},1≤m≤n,其中r為Xm的屬性數(shù),d(Xp,Xq)表示兩個(gè)元素Xp={Xp1,Xp2,…,Xpr}和Xq={Xq1,Xq2,…,Xqr}; 1)計(jì)算D中元素集的平均距離 (1) 2)計(jì)算D中元素i的密度 (2) 3)ρ(i)滿足上式(2)條件的元素個(gè)數(shù)。將符合條件的元素歸為一個(gè)集合,計(jì)算集合內(nèi)元素的平均距離為a(i) (3) 4)S(i)為簇距離,其表示元素i(密度值較大點(diǎn))與其它元素j的距離。若ρ(j)<ρ(i),則S(i)為max{d(i,j)};若有ρ(j)>ρ(i),則定義為min{d(i,j)},即 (4) 5)若D被分成k組,其中聚類的中心是Cj(j≤k)。聚類結(jié)果的平方誤差之和E表示簇集中的樣本點(diǎn)與其聚類中心的距離平方差之和,即 (5) (6) 如果ρ(i)值越大,表示i點(diǎn)附近聚集的樣本點(diǎn)越多、樣本點(diǎn)的分布更密集;a(i)值越小,1/a(i)的值就越大,這代表簇中的樣本點(diǎn)就越緊密;S(i)值越大,兩個(gè)聚類的相異程度越大。 2.2.2 算法流程 傳統(tǒng)Canopy算法因閾值是隨機(jī)選定導(dǎo)致聚類結(jié)果存在不穩(wěn)定[14],因此本文提出最大加權(quán)乘積法來(lái)確定最優(yōu)劃分中的最佳聚類數(shù)以提高負(fù)荷聚類精度,其具體步驟如下: 步驟1:在給定數(shù)據(jù)集的情況下,參照式(2)計(jì)算所有樣本的密度。選擇密度最大的樣本C1作為第一聚類中心,將中心C1加到集合C中,即C={C1}。同時(shí),將所有滿足剩余樣本與第一聚類中心距離小于MeanDis(D)條件的樣本從數(shù)據(jù)集中剔除; 步驟2:計(jì)算剩余數(shù)據(jù)集中樣本的ρ(i)、a(i)和s(i),根據(jù)最大加權(quán)乘積法確定第二聚類中心C2,并將該中心加到集合C中,從而C={C1,C2}。同樣,所有滿足規(guī)定條件的樣本都將從數(shù)據(jù)集中移除;最大加權(quán)乘積法求最優(yōu)聚類中心的示意圖如圖1所示。 圖1 最佳聚類中心的示意圖 步驟3:重復(fù)步驟2,等D中無(wú)樣本點(diǎn)后結(jié)束。 最后,數(shù)據(jù)集D被分成成K個(gè)簇集,若選取簇集中所有樣本點(diǎn)距離的平均值作為聚類中心,可得到最優(yōu)區(qū)分內(nèi)的最佳中心數(shù)。 本文采用一種基于密度Canopy的k-means算法,本文稱之為Ck-means算法。利用算法對(duì)數(shù)據(jù)集D進(jìn)行初始預(yù)處理,可得到最優(yōu)簇集K和最優(yōu)聚類中心點(diǎn),將其代入K-means算法中可提取出典型的用戶用電負(fù)荷模式。改進(jìn)后的CK-means算法可改善傳統(tǒng)K-means算法存在的對(duì)初始聚類中心敏感、需要預(yù)先給定K值、彌補(bǔ)因閾值不確定造成結(jié)果不穩(wěn)定的問(wèn)題。 如圖2所示,CK-means算法的執(zhí)行流程如下: 圖2 CK-means算法流程圖 步驟1:引入樣本點(diǎn)的密度參數(shù),通過(guò)對(duì)Canopy算法的優(yōu)化,可得到了最優(yōu)的K值和初始聚類中心并將其作為K-means算法的輸入; 步驟2:計(jì)算剩余數(shù)據(jù)集D中的樣本點(diǎn)與初始聚類中心之間的歐幾里得距離,并根據(jù)最小距離原則將負(fù)荷數(shù)據(jù)添加到相應(yīng)聚類中心的簇集中; 步驟3:計(jì)算簇中元素的平均距離,并將該點(diǎn)取為新的聚類中心; 步驟4:將更新后的聚類中心與原聚類中心進(jìn)行比較,若聚類中心點(diǎn)不再變化,則算法運(yùn)行完畢,得到最終的聚類結(jié)果,否則返回步驟2。 本文以江西某地區(qū)的一個(gè)月用電數(shù)據(jù)進(jìn)行仿真測(cè)試,選取該地區(qū)216名用戶在2015-7-01至2015-8-01之間每日的96點(diǎn)負(fù)荷數(shù)據(jù)。數(shù)據(jù)集有646981條數(shù)據(jù)記錄,每條包含3個(gè)數(shù)值型字段。 1)數(shù)據(jù)獲取 刪除空缺值,保證后期數(shù)據(jù)的運(yùn)算。 2)數(shù)據(jù)歸一化 鑒于每個(gè)用戶一天中的最大負(fù)荷不同,對(duì)用戶用電負(fù)荷數(shù)據(jù)進(jìn)行歸一化處理,得到進(jìn)行聚類分析的數(shù)據(jù)集合。數(shù)據(jù)歸一化的公式如下所示 (7) 其中:X代表用戶的負(fù)荷數(shù)據(jù),下標(biāo)i代表用戶的編號(hào)數(shù)、j代表0-23之間的數(shù),代表了一天的96個(gè)節(jié)點(diǎn)時(shí)間;min和max分別某用戶每日符合的最小值、最大值。 經(jīng)過(guò)上述數(shù)據(jù)預(yù)處理,可繪制出當(dāng)日不同時(shí)間不同用戶的用電特征曲線,隨機(jī)選取某用戶在7月10日的負(fù)荷曲線圖如圖3所示。 圖3 用戶負(fù)荷曲線圖 未經(jīng)過(guò)聚類處理的數(shù)據(jù)比較雜亂,完全看不出規(guī)律,下面將當(dāng)前獲得的數(shù)據(jù)用傳統(tǒng)的k-means算法與改進(jìn)的CK-means算法分別進(jìn)行聚類。其中為了更好地展示出聚類效果,選取了以下的評(píng)價(jià)指標(biāo):聚類分析時(shí)間T、聚類結(jié)果的誤差平方差之和E以及衡量聚類有效性的三個(gè)參數(shù):Rand指數(shù)、Jaccard系數(shù)和聚類精度。在表1中比較了k-means算法、Ck-means算法在數(shù)據(jù)集上的聚類結(jié)果的平方差E和聚類時(shí)間T(s)。 根據(jù)上表所示,可得出以下結(jié)論: 1)K-means算法完成數(shù)據(jù)聚類的時(shí)間較長(zhǎng)。由于其初始中心點(diǎn)是隨機(jī)選取的,那么算法就需要經(jīng)過(guò)多次迭代后結(jié)果才能穩(wěn)定,因此執(zhí)行的時(shí)間會(huì)比較長(zhǎng);基于Canopy的k-means算法因閾值不確定導(dǎo)致結(jié)果存在不穩(wěn)定性;新改進(jìn)的算法可提前確定K值和初始聚類中心,并將其作為k-means的輸入?yún)?shù)從而完成對(duì)數(shù)據(jù)集的聚類。新算法迭代次數(shù)少,故會(huì)比傳統(tǒng)算法效率更高。 2)從誤差平方和E來(lái)看,Ck-means算法的聚類效果最好。由于K-means算法的初始聚類中心是隨機(jī)選取的,基于Canopy的k-means算法的聚類結(jié)果存在不穩(wěn)定性,因此上述兩種算法計(jì)算出的E較大且聚類結(jié)果也不理想。 3)聚類質(zhì)量評(píng)價(jià)指標(biāo) 本文將添加六組模擬的數(shù)據(jù)集進(jìn)行訓(xùn)練,用于測(cè)試改進(jìn)算法對(duì)較大數(shù)據(jù)集聚的類效果,測(cè)量聚類結(jié)果的評(píng)價(jià)指標(biāo)(聚類精度Accuracy、Rand指數(shù)和Jaccard系數(shù))對(duì)比圖如圖4-圖6所示。 圖4 聚類精度 圖5 Rand 指數(shù) 圖6 Jaccard系數(shù) 對(duì)比圖4-6的參數(shù)對(duì)比圖可知,改進(jìn)算法的三個(gè)參數(shù)都是最優(yōu)且準(zhǔn)確率最高[15]。此外,該算法的聚類精度比傳統(tǒng)K均值算法高31.6%,比基于Canopy的K均值算法高6.2%。 本文所提出的CK-means算法首先是把數(shù)據(jù)集D的密度算出來(lái),找到數(shù)據(jù)集中最緊湊的聚類,利用最大乘積加權(quán)來(lái)確定初始聚類中心,從而確定最優(yōu)值K=4。綜上所述,新算法的聚類結(jié)果更準(zhǔn)確、收斂速度更快,可實(shí)現(xiàn)聚類結(jié)果全局最優(yōu)化[16]。 3.4.1 負(fù)荷曲線分析 基于CK-means算法的負(fù)荷數(shù)據(jù)聚類分析中,模型將用戶分為四個(gè)類別,其中第一類中含26個(gè)用戶、第二類中含82個(gè)用戶、第三類中含97個(gè)、第四類中含10個(gè)用戶。第一類用戶屬于典型的雙高峰用戶,這意味著其大部分功率在高峰時(shí)間內(nèi)消耗。圖7、圖8的曲線趨勢(shì)類似,明顯屬于高峰時(shí)間內(nèi)的消耗行為,但不同的是,與前圖相比,圖8中的最小負(fù)載峰均比有所提高。 圖7 第一類用戶 圖8 第二類用戶 圖9 第三類用戶 圖10 第四類用戶 由圖9可知,第三類用戶屬于白天高峰用電型。由于其兩峰值之間的谷值負(fù)載基本被填充,表明部分負(fù)載已由高峰期轉(zhuǎn)移到其它時(shí)間。第四類用戶屬于典型的夜間用電型,其非高峰時(shí)段為3AM-12 AM和3PM-5 PM,這表明其用戶可能有很大的潛力遵循需求側(cè)管理策略來(lái)避免高峰期的用電行為。 3.4.2 聚類用戶特征總結(jié) 由表2可知,第一類用戶的負(fù)載系數(shù)最低、負(fù)荷比最小以及最高峰值與最小值的比值最大;第一、二類用戶有著相似的雙峰值負(fù)載,但第二類用戶負(fù)載峰值與最小值的比值較小,這表明與第一類用戶相比,其需求側(cè)管理的潛力較小。而第三類與之前兩種曲線對(duì)比的話相對(duì)更平滑,因其負(fù)載曲線的趨勢(shì)不同,最高峰值時(shí)間和最低峰值時(shí)間與前者也有所不同。第四類用戶的峰值時(shí)間不同,這表明與其它類用戶相比,更有利于解決不同用戶之間的需求側(cè)管理。 表2 聚類用戶特征總結(jié) 本文提出一種基于CK-means算法的用戶用電負(fù)荷聚類分析方法。首先使用密度Canopy算法對(duì)用戶用電數(shù)據(jù)進(jìn)行預(yù)處理,可得到最優(yōu)簇集值K與最佳初始聚類中心,然后將其代入K-means算法中可提取出典型的用戶用電負(fù)荷模式,研究結(jié)果如下所示: 1)CK-means算法同時(shí)保持了Canopy的特點(diǎn)及傳統(tǒng)K-means算法精確高效的特點(diǎn); 2)采用最大加權(quán)法可顯著提高聚類結(jié)果的精確度; 3)該算法可以彌補(bǔ)Canopy因閾值T1、T2不確定造成的網(wǎng)絡(luò)收斂時(shí)間過(guò)長(zhǎng); 4)該算法解決了傳統(tǒng)的K-means算法因初始聚類中心選取不當(dāng)將導(dǎo)致聚類效果不佳的問(wèn)題。 綜上所述,該算法解決了傳統(tǒng)算法存在的聚類時(shí)間過(guò)長(zhǎng)、準(zhǔn)確率過(guò)低的問(wèn)題,可提高用戶分類的可靠性和有效性?;诰垲惤Y(jié)果,可為負(fù)荷預(yù)測(cè)、電力營(yíng)銷策略、用戶篩選識(shí)別等提供有效的參考。2.2 基于密度的Canopy算法
2.3 CK-means算法
3 實(shí)例驗(yàn)證分析
3.1 數(shù)據(jù)集
3.2 數(shù)據(jù)預(yù)處理
3.3 聚類算法對(duì)比分析
3.4 特征分析
4 結(jié)論