曾四鳴, 李鐵成, 李順, 梁紀峰, 范輝, 楊軍, 吳賦章
(1.國網(wǎng)河北省電力有限公司電力科學(xué)研究院, 石家莊 050001; 2.武漢大學(xué)電氣與自動化學(xué)院, 武漢 430072; 3.國網(wǎng)河北省電力有限公司, 石家莊 050021)
隨著新能源接入比例的不斷增加,電網(wǎng)的安全經(jīng)濟運行對需求側(cè)響應(yīng)提出了更高要求[1],面對海量異質(zhì)靈活資源參與系統(tǒng)運行調(diào)節(jié),精準制定負荷標簽數(shù)據(jù)庫和構(gòu)建用戶畫像是提高需求側(cè)響應(yīng)措施實施有效性的基礎(chǔ)[2]。而在制定負荷標簽數(shù)據(jù)庫和構(gòu)建用戶畫像中,首先需要對用戶用電特性進行可靠、精簡的分析,且用戶用電特性由用戶日負荷曲線體現(xiàn)。此時,制定一個高質(zhì)量的標簽數(shù)據(jù)庫與構(gòu)建精準用戶畫像的關(guān)鍵在于如何從海量用戶用電數(shù)據(jù)中提取出有價值的信息以反映用戶用電特性[3]。電力日負荷曲線聚類是一種依據(jù)同類用戶負荷曲線的相似性將負荷曲線劃分到不同類別中以提取同類群體用戶的用電特性的方法[4]。因此,提高電力日負荷曲線聚類質(zhì)量是進行精準用戶畫像的保障,進一步支撐需求側(cè)響應(yīng)策略的有效實施[5]、電力負荷的準確預(yù)測[6]以及分時電價的合理制定[7]等,在新能源高比例接入與海量異質(zhì)靈活資源參與系統(tǒng)運行調(diào)節(jié)背景下具有十分重要的應(yīng)用價值。
在電力負荷聚類分析方面國內(nèi)外已經(jīng)展開了一些研究工作,其算法可分為兩類:直接法和間接法。直接法是直接將原始數(shù)據(jù)作為聚類輸入,但隨著智能電網(wǎng)的建設(shè),數(shù)據(jù)規(guī)模和維數(shù)不斷攀升,其計算效率面臨巨大挑戰(zhàn),如文獻[8]采用動態(tài)時間彎曲距離來量度負荷曲線相似性,提高了分類可靠性,但距離計算較為復(fù)雜,算法效率較低;文獻[9]提出基于云模型確定聚類算法的初始聚類中心和最佳聚類數(shù),但仍然以原始數(shù)據(jù)作為聚類輸入,數(shù)據(jù)維數(shù)過高導(dǎo)致計算過程復(fù)雜,不能滿足實時聚類的需求。間接法是將原始數(shù)據(jù)先進行降維處理后,再進行聚類,但存在信息丟失嚴重的問題,如文獻[10]通過提取原始電量特征(如最大負荷利用小時數(shù)、日負荷率等)對功率曲線進行降維處理,明顯提升了計算效率,然而所提取特征不完善,難以最大限度保證負荷曲線的整體、局部形態(tài)特征;文獻[11-14]分別采用不同的降維技術(shù)對原始功率曲線進行降維處理,能夠很好地提高聚類效率,卻帶來曲線失真等新的問題;文獻[15]提出增加特征指標進行日負荷曲線聚類能更加精細化描述負荷曲線?;趧澐?、基于層次、基于密度的傳統(tǒng)聚類算法存在質(zhì)量不佳、計算效率低、曲線失真等缺陷,其主要原因有:①初始聚類中心選取隨機,最佳聚類數(shù)難以確定;②數(shù)據(jù)規(guī)模和數(shù)據(jù)復(fù)雜度較大,導(dǎo)致計算效率低;③算法對參數(shù)選取敏感帶來結(jié)果魯棒性差。以上這些研究工作,對傳統(tǒng)聚類算法存在的不足有改善作用,但仍然存在,亟待進一步提升聚類質(zhì)量。
密度峰值聚類算法不僅能夠快速自適應(yīng)確定聚類中心,還保留了傳統(tǒng)聚類算法計算簡單、快速的優(yōu)勢[16],但仍然存在以下兩點不足:一是針對離聚類中心遠近不同的數(shù)據(jù)點采取一步劃簇方法容易導(dǎo)致誤差擴大且結(jié)果不可靠;二是對截斷距離敏感。為改進密度峰值聚類算法第一點不足,設(shè)計了兩步劃簇方法[17],解決了離聚類中心遠近不同的數(shù)據(jù)點密度測量不均勻和誤差擴大的問題。為改進第二點不足,提出了利用信息熵[18]、基尼不純度[19]等方法確定截斷距離的改進密度峰值聚類算法,進一步地提出了基于K近鄰、模糊加權(quán)K近鄰的方法避免計算截斷距離。
現(xiàn)首先采用所提特征指標選取方法選取指標;其次,采用熵權(quán)法給每種指標賦予合理權(quán)重;再次,將實際電力負荷數(shù)據(jù)輸入改進的聚類算法中驗證該聚類算法的聚類準確率;最后,將各類模擬的電力負荷數(shù)據(jù)輸入改進的聚類算法中驗證該算法的魯棒性。以期通過仿真達到特征提取方法選取指標夠滿足實際工程需要,聚類算法能夠自適應(yīng)地確定鄰域參數(shù)和初始聚類中心,克服傳統(tǒng)聚類算法的缺陷,體現(xiàn)聚類算法在聚類質(zhì)量、魯棒性方面的顯著優(yōu)勢。
電力用戶用電特性可以用功率曲線表征,也可從功率曲線獲取特征指標來描述。現(xiàn)有研究通過增加特征指標提升聚類效果,而增加特征指標并不能保證聚類質(zhì)量的提升,因為若增加的特征指標存在冗余,將會給聚類效果帶來負面影響。在原始電量特征集中提取了能夠反映用戶用電特性的完備特征指標進行特征指標完善,最大限度地保證各類負荷曲線形態(tài)特征,且特征指標不產(chǎn)生冗余效應(yīng)以提升算法效率。原始電量特征集包含參數(shù)有:日用電量、日最大負荷、日最小負荷、日平均負荷、日谷峰差、谷電系數(shù)、日負荷率、峰時耗電率、日最大負荷利用小時數(shù)、峰期負荷率、谷期負荷率、平期負荷率等。其中,日最大負荷利用小時數(shù)可由日負荷率表示,日平均負荷可由日用電量獲得,日谷峰差和日峰谷差率可由日最大負荷和最小負荷計算,日負荷率可由日用電量和日最大負荷描述等。據(jù)此,從原始電量特征集所提的完備的特征指標及物理意義如表1所示。
表1 各類特征指標及物理意義Table 1 Characteristic indexes and physical significance
隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展,聚類這種無監(jiān)督學(xué)習(xí)的數(shù)據(jù)挖掘方法出現(xiàn)了較多經(jīng)典算法,如K均值聚類[20]、基于密度的聚類算法(density-based spatial clustering of applications with noise,DBSCAN)[21]等,而這些傳統(tǒng)的聚類算法均需要人為設(shè)置鄰域參數(shù)。雖然這些算法由于簡單、快捷得到了廣泛的應(yīng)用,但均因存在對參數(shù)敏感的缺陷,限制了在數(shù)據(jù)更高維、規(guī)模更大場合的應(yīng)用。針對傳統(tǒng)算法缺陷同時傳承傳統(tǒng)算法簡單、快捷的優(yōu)點,采用改進型密度峰值算法進行聚類分析。該算法為了自適應(yīng)確定鄰域參數(shù)和初始聚類中心,采用一種新的鄰域概念—自適應(yīng)最近鄰[22],其根據(jù)數(shù)據(jù)自身特性自適應(yīng)地確定鄰域參數(shù),結(jié)合改進的密度峰值算法的優(yōu)勢進行電力負荷聚類。
根據(jù)商業(yè)負荷用電一般規(guī)律,選擇峰時段為:9:00—12:00,18:00—21:00;谷期時段為:22:00—6:00;平期為:6:00—9:00,12:00—18:00,21:00—22:00。
自適應(yīng)最近鄰是一種不同于傳統(tǒng)近鄰的新定義,其最大的優(yōu)勢在于無需提前確定任何參數(shù),其參數(shù)由數(shù)據(jù)自身結(jié)構(gòu)特點決定。它的核心思想為:若樣本點i出現(xiàn)在點j的r鄰域內(nèi),則點j為點i的自適應(yīng)最近鄰。為了便于描述尋找自適應(yīng)最近鄰的搜索算法,給出如下定義。
定義1(自適應(yīng)最近鄰居)對于數(shù)據(jù)點x,稱數(shù)據(jù)點y為數(shù)據(jù)點x的自適應(yīng)最近鄰居,若x在y的r鄰域內(nèi),且對數(shù)據(jù)集合中任何一點z,都至少存在一個數(shù)據(jù)點的r鄰域包含z。
定義2(特征值sk)數(shù)據(jù)集的sk為使得任意數(shù)據(jù)點x都至少被另外一個數(shù)據(jù)點y(y≠x)的r鄰域包含的最小r值,其數(shù)學(xué)表達式如式(1)所示。
sk=min{r|?x∈X, ?y∈X,y≠x,
stx∈nnr(y)}
(1)
式(1)中:nnr(y)為數(shù)據(jù)點的r鄰域,即距離點y最近的r個點的集合;sk也被稱為平均自適應(yīng)鄰居數(shù)。
根據(jù)自適應(yīng)最近鄰居的定義可知,密集區(qū)域的樣本點往往具有更多的自適應(yīng)最近鄰居;反之,稀疏區(qū)域的樣本點具有較少的自適應(yīng)最近鄰居,符合數(shù)據(jù)分布特點。根據(jù)特征值的定義可知,鄰域值的確定不需要人為提前設(shè)置,從數(shù)據(jù)自身結(jié)構(gòu)特點出發(fā),總能找到一個合適的鄰域參數(shù),便于后續(xù)高質(zhì)量聚類。
在自適應(yīng)地確定每一個電力負荷樣本數(shù)據(jù)點的特征值和自適應(yīng)最近鄰居以及自適應(yīng)最近鄰包含數(shù)量的過程中,由于存在離群點時特征值會過大,從而導(dǎo)致計算復(fù)雜度增加,甚至后續(xù)樣本點合理劃簇失敗。為了識別并剔除離群點,采用了一種改進型自適應(yīng)最近鄰搜索算法,其優(yōu)化思想為:隨著r鄰域?qū)?yīng)參數(shù)值的不斷增加,若自適應(yīng)最近鄰居為零的樣本點個數(shù)持續(xù)不變,則停止繼續(xù)搜尋,輸出結(jié)果。算法流程如表2所示。
表2 改進型自適應(yīng)最近鄰搜索的算法流程Table 2 Flow of improved natural nearest neighbor search algorithm
通過2.1節(jié)的改進,能夠在后續(xù)聚類過程中針對傳統(tǒng)聚類算法對參數(shù)敏感以及初始聚類中心難以確定等問題進行優(yōu)化,以此來改進整個算法。改進型密度峰值算法能夠更加準確地獲取每個樣本點的自適應(yīng)最近鄰居。據(jù)此計算每個樣本點i的局部密度ρi和其與較高密度點的最近距離δi,以局部密度做橫軸,以距離做縱軸,繪制決策圖。在決策圖中選擇最近距離和局部密度均較大的數(shù)據(jù)點作為初始聚類中心。進一步地,給出如下定義。
定義3(數(shù)據(jù)點的局部密度)結(jié)合定義1,將局部密度定義為
(2)
式(2)中:k(i)=min{sk,nb(i)},nb(i)為點i的自適應(yīng)最近鄰居數(shù);dij為點i、j之間的歐氏距離;ANN(i)為點i的自適應(yīng)最近鄰域。
定義4(與較高密度最近距離)點i與較高密度點的最近距離δi定義為
(3)
定義5(離群點)由于離群點距離正常點較遠,難以被其他數(shù)據(jù)點識別為自然最近鄰居,因此由自適應(yīng)最近鄰居搜索算法和自適應(yīng)最近鄰的定義可知,離群點的自適應(yīng)最近鄰居數(shù)為0,即nb(i)=0的數(shù)據(jù)點可以認為是離群點。
定義6(樣本相似度)對于兩個不同的非離群點i和j,兩者相似性定義為
(4)
式(4)中:avedi為數(shù)據(jù)點i與其自適應(yīng)最近鄰的平均距離;αij為縮放系數(shù);inter(i,j)為數(shù)據(jù)點i和j的自適應(yīng)最近鄰集合的交集;這里常數(shù)設(shè)置為1的目的是避免沒有自適應(yīng)最近鄰交集的兩點相似度為零,增強相似性度量的穩(wěn)健性。
定義7(隸屬度)將數(shù)據(jù)點i對簇C的隸屬度定義為
(5)
式(5)中:ω(i,j)為權(quán)重;yj為數(shù)據(jù)點j的簇標記。
定義9(簇核心區(qū))對于一個未被分配聚類中心的數(shù)據(jù)點i,其自適應(yīng)最近鄰為ANN(i),將點i、ANN(i)以及從ANN(i)出發(fā)、相似可達概念經(jīng)過的點統(tǒng)稱為該簇的簇核心區(qū)。
定義10(簇間相似度)若有兩簇Cp和Cq,兩個簇中互為自適應(yīng)最近鄰居的點對數(shù)量為DN(Cp,Cq),這兩個簇的所有數(shù)據(jù)點的平均自適應(yīng)最近鄰數(shù)分別為mnb(Cp)和mnb(Cq),兩簇間的相似度定義為
(6)
式(6)中:p1=|Cp|/(|Cp|+|Cq|);|Cp|和|Cq|分別為兩個簇的樣本數(shù);當S(Cp,Cq)≥1時,合并兩簇。
利用表2算法和決策圖確定初始簇中心后,進行兩步分配策略,其核心思想如下。
(1)將初始聚類中心密度按降序排列,不斷挑選出剩余未分配的聚類中心,分配簇標簽,并確定對應(yīng)的簇核心區(qū)域。
(2)按照隸屬度定義(見定義7)將未分配的非離群點分配給隸屬度最高的簇。
具體地,可進行兩次分配,第一次分配:賦予從未被訪問過的聚類中心中挑選局部密度最大的點以及該點的自適應(yīng)最近鄰居以簇標簽,并標記已訪問;然后,對該被賦予標簽的集合(除了該聚類中心以外)的每個點,尋找其最相似的自適應(yīng)最近鄰,如果被認為是最相似的自適應(yīng)最近鄰在被標記集合的范圍之外,則將該點歸到該標簽下,直到所有的點均被遍歷為止;再繼續(xù)對剩余的未被訪問過的聚類中心重復(fù)上述步驟,最終確定每一個初始聚類中心的簇核心區(qū)。第二次分配:經(jīng)過上述步驟后,對仍然未被訪問過的點計算每個點對每個簇核心區(qū)的隸屬度,并將點歸于對應(yīng)隸屬度最大的簇;重復(fù)此過程,直到余下的點都被訪問。最后,計算簇間距離,若此距離不小于1,則合并相應(yīng)的兩簇,并返回聚類結(jié)果。算法流程如圖1所示。
聚類質(zhì)量的好壞需要通過可靠的檢驗指標來衡量。高質(zhì)量的聚類結(jié)果要求簇內(nèi)樣本間具有較高的相似性,簇間的樣本具有較高的差異性[23]。評價聚類有效性指標眾多,其中輪廓系數(shù)[24](Silhouette coefficient, SC)、戴維森堡丁指數(shù)[25](Davies-Bouldin index,DBI)能夠同時考慮類間距離和內(nèi)距離,均能全面體現(xiàn)聚類結(jié)果的有效性。因此,上述兩項指標適用于對電力負荷數(shù)據(jù)的聚類質(zhì)量的檢驗。
在聚類準確率檢測方面,曲線聚類后的歸屬類別與聚類之前的歸屬類別一致,則認為聚類準確。將聚類準確率定義為
(7)
式(7)中:Lc,all為聚類準確的日負荷曲線總條數(shù);Lall為日負荷曲線總數(shù)。
為驗證本文方法的有效性以及優(yōu)越性,算例分析設(shè)置如下。
(1)以實際日負荷曲線數(shù)據(jù)為基礎(chǔ),分別采用傳統(tǒng)聚類算法(K-means)、僅選取典型特征指標的聚類算法、特征指標選取完善后的聚類算法(本文算法)進行用戶負荷聚類,并進行對比分析。
(2)選取典型負荷曲線構(gòu)造模擬數(shù)據(jù)并加入一定比例的擾動,驗證本文算法的魯棒性。
(3)分析特征指標選取差異以及權(quán)重配置變化對本文算法魯棒性的影響。本文算法流程如圖1所示。
圖1 自適應(yīng)最近鄰密度峰值聚類算法流程Fig.1 Natural nearest neighbor density peak clustering algorithm flow
3.1.1 數(shù)據(jù)來源
以某市2018年某日實測312個典型電力用戶的日負荷曲線為研究對象,數(shù)據(jù)細粒度為1 h/點,每條曲線共計24個功率點。經(jīng)數(shù)據(jù)預(yù)處理后,算例共有305條有效日負荷曲線(輕工企業(yè)80條、重工業(yè)108條、市政居民117條,分別定義為第一、二、三類負荷曲線)。
3.1.2 聚類結(jié)果及對比分析
計算每條負荷曲線的9個特征指標值,得到305個9維數(shù)值向量,采用熵權(quán)法得到權(quán)重向量W=[0.056, 0.108, 0.142, 0.121, 0.166, 0.152, 0.200, 0.021, 0.034];然后,將特征指標數(shù)值向量每一維分別乘以對應(yīng)的權(quán)重系數(shù)得到的新向量,作為聚類輸入;利用傳統(tǒng)聚類算法、基于典型特征指標的聚類算法、本文算法對該305條日負荷曲線進行分類,并在聚類質(zhì)量、聚類效率方面進行對比分析。聚類結(jié)果分別如圖2~圖4所示,傳統(tǒng)聚類算法的聚類結(jié)果中歸于一、二、三類的曲線數(shù)依次為96、108、101,基于典型特征指標的聚類算法的聚類結(jié)果中歸于一、二、三類的曲線數(shù)依次為94、108、103,本文算法的聚類結(jié)果中歸于一、二、三類的曲線數(shù)依次為85、108、112。由于第二類曲線與其他兩類曲線的負荷水平以及形態(tài)相差較大,所以三種聚類算法都能將其準確區(qū)分;而第一類和第三類負荷水平曲線存在較大的相似性,容易產(chǎn)生誤分情況。
圖2 基于傳統(tǒng)聚類算法的日負荷曲線聚類結(jié)果Fig.2 Clustering results of daily load curve based on traditional clustering algorithm
圖3 基于典型特征指標聚類算法的日負荷曲線聚類結(jié)果Fig.3 Clustering results of daily load curve based on typical characteristic index clustering algorithm
對各簇的形態(tài)特性分析為:第一類為單峰型,曲線所反映的特性比較符合事業(yè)單位、輕工業(yè)電力用戶的用電行為,僅白天負荷水平高;第二類為平峰型,比較符合重工業(yè)電力用戶的用電行為,負荷形態(tài)比較平穩(wěn),持續(xù)保持較高負荷水平;第三類為三峰型,曲線所反映的特性比較符合市政居民用電行為,早、中、晚分別會出現(xiàn)對應(yīng)的小高峰、次高峰、最高峰。
對三種方法的聚類準確率進行計算,傳統(tǒng)聚類算法、基于典型特征指標的聚類算法、本文算法的聚類準確率分別為94.7%、95.4%、98.4%。傳統(tǒng)聚類算法、基于典型特征指標的聚類算法的聚類準確率和聚類結(jié)果高度相似,說明在用戶用電特性分析中可采用特征指標代替功率向量作為聚類輸入,且能夠滿足實際工程的需要;通過本文算法所得的聚類準確率與前兩種算法對比可知,采用完備的特征指標作為輸入,聚類準確率明顯提升。
進一步對3種算法聚類結(jié)果性能進行對比,如表3所示,可知在聚類結(jié)果相似的情況下,傳統(tǒng)聚類算法和選取典型特征指標的聚類算法在聚類有效性指標方面較為接近,在完善特征指標選取后,聚類有效性指標方面表現(xiàn)比前兩者更優(yōu)。
為了驗證本文算法相比于傳統(tǒng)算法具有優(yōu)良的魯棒性,分別選取單峰型、雙峰型、平峰型、三峰型、避峰型五類典型的日負荷曲線,在每一類典型日負荷曲線上的每一個功率點處添加比例為r的隨機干擾,通過仿真模擬得到五類日負荷曲線(每一類100條,總計500條)。由于各點擾動比例相同,所以在負荷水平較高時波動較大,在負荷水平較低時波動較小。
表3 三種算法聚類結(jié)果性能對比Table 3 Performance comparison of three clustering algorithms
從模擬數(shù)據(jù)中提取特征指標,并得到聚類結(jié)果。改變隨機干擾比例,分別采用三種算法進行用電負荷聚類分析,利用聚類質(zhì)量檢驗指標大小、聚類準確率共3個指標檢驗新算法的魯棒性,如表4所示。
圖4 基于本文算法的日負荷曲線聚類結(jié)果Fig.4 Clustering results of daily load curve based on clustering algorithm
由表4可知,隨著擾動比例的增加,DBI指標數(shù)值增大,SC指標數(shù)值減小,分類準確率降低。對于3種不同算法,當隨機擾動比例增加時,各項指標值和聚類準確率都呈現(xiàn)變差的趨勢。具體地,對于傳統(tǒng)算法,當隨機擾動超過10%時,各項指標已經(jīng)開始出現(xiàn)偏差,聚類準確率也出現(xiàn)波動,因此該算法受隨機擾動影響大,魯棒性差;對于基于典型特征指標算法,當隨機擾動比例超過25%時對于聚類質(zhì)量開始明顯下降;對于本文算法,當隨機擾動比例超過35%時,各項指標和聚類準確率才會出現(xiàn)明顯偏差。因此,本文算法的魯棒性相比傳統(tǒng)聚類算法有明顯提升,且隨著特征指標的完善,魯棒性更優(yōu)。
特征指標完善前聚類準確率等各方面的檢驗指標表現(xiàn)均較差,主要原因為選取典型特征指標難以表達原始負荷曲線的局部、整體特征,容易導(dǎo)致誤分類,同時魯棒性較差,且隨著擾動增加,上述情況會愈加明顯;隨著特征指標的完善,上述情況都會得到明顯改善。在3.1.2節(jié)中,采用基于典型特征指標算法和本文算法對實際日負荷曲線聚類的分析亦可得出相同的結(jié)論。在此特別強調(diào),相比于選取典型特征指標時,雖完善特征指標會增加聚類數(shù)據(jù)的維數(shù),影響聚類效率,但相比于原始數(shù)據(jù)維數(shù)已經(jīng)大大降低,而且還能顯著提升聚類質(zhì)量和魯棒性。因此,完善特征指標不但滿足精細化聚類的要求,還提升聚類綜合效果。
以從實際負荷數(shù)據(jù)得到的9類特征指標數(shù)據(jù)為基礎(chǔ),分別在等權(quán)重、經(jīng)驗權(quán)重[26]、熵權(quán)法3種方式下,采用本文算法分別計算各種指標和聚類準確率,結(jié)果如表5所示。
由表5可知,聚類效果會受到權(quán)重配置的影響,雖然經(jīng)驗配置權(quán)重方法較為主觀,但能夠一定程度上體現(xiàn)各指標的貢獻度,通過配置權(quán)重可以減弱干擾對聚類結(jié)果的影響,在一定程度上提升聚類效果;通過經(jīng)驗權(quán)重和熵權(quán)法的聚類效果對比可知,合理配置權(quán)重可進一步提高聚類質(zhì)量和抗干擾的能力。
表4 3種算法魯棒性比較Table 4 Robustness comparison of three algorithms
表5 不同權(quán)重配置方式下聚類效果對比Table 5 Comparison of clustering effect under different weight configurations
在海量異質(zhì)靈活資源參與高比例新能源接入系統(tǒng)運行調(diào)節(jié)背景下,針對現(xiàn)有用戶用電行為特性分析方法魯棒性差、效率低的問題,采用了一種基于特征指標完善和改進型密度峰值算法的日負荷聚類分析方法。通過仿真分析可得到如下結(jié)論。
(1)采用特征指標描述電力用戶用電特性能夠滿足實際工程需要,而且特征指標的完善,不但可以更加精細地反映用戶的用電特性,還能更好地區(qū)分曲線差異。
(2)改進的密度峰值算法能夠自適應(yīng)地確定鄰域參數(shù)和初始聚類中心,能克服傳統(tǒng)聚類算法的缺陷。
(3)相比于傳統(tǒng)K-means聚類算法和基于典型特征指標的聚類算法,本文算法在聚類質(zhì)量、魯棒性方面具有顯著優(yōu)勢,雖然在計算時長上略大于傳統(tǒng)K-means聚類算法和基于典型特征指標的聚類算法,但其足以滿足電網(wǎng)優(yōu)化運行與調(diào)度對計算快速性的要求。
在用戶用電特征分析中樣本密度近似且距離較近是造成聚類分析不準確的因素之一,在自然最近鄰居定義的基礎(chǔ)上如何定義更加準確可靠的簇間相似度以及合并條件將是下一步研究工作的重點。此外,將本文方法的聚類結(jié)果服務(wù)于建立電力用戶畫像模型,聚類準確性是關(guān)注重點,而不同場景中所關(guān)注的重點不同,因此本文方法是否能夠應(yīng)用于其他場景也是后續(xù)研究重點。