李仲恒, 劉蓉暉
(上海電力學(xué)院 電氣工程學(xué)院, 上海 200090)
電力系統(tǒng)的負(fù)荷波動十分頻繁,負(fù)荷種類多種多樣,不同地理位置、時(shí)段、種類的負(fù)荷都對應(yīng)著不同的負(fù)荷曲線,負(fù)荷曲線具有連續(xù)性和周期性的特征。按照行業(yè)負(fù)荷分類的慣例,傳統(tǒng)負(fù)荷主要被分為工業(yè)、農(nóng)業(yè)、商業(yè)、城鄉(xiāng)居民及其他負(fù)荷,不同類別的日負(fù)荷曲線區(qū)分明顯。但是隨著電力系統(tǒng)的發(fā)展,一些新興產(chǎn)業(yè)的興起,傳統(tǒng)的劃分方式過于粗糙,已經(jīng)不能滿足人們的需求,更加細(xì)致、準(zhǔn)確、實(shí)用的數(shù)據(jù)挖掘技術(shù)不斷地被提出和應(yīng)用。掌握電力系統(tǒng)的負(fù)荷特性和負(fù)荷組成,建立結(jié)構(gòu)合理、參數(shù)準(zhǔn)確的綜合負(fù)荷模型,對電力系統(tǒng)平穩(wěn)、安全的運(yùn)行具有重大意義。
隨著大數(shù)據(jù)時(shí)代的來臨,越來越多的數(shù)據(jù)挖掘技術(shù)應(yīng)用到各行各業(yè)中,數(shù)據(jù)挖掘技術(shù)是人工智能和數(shù)據(jù)庫技術(shù)相結(jié)合的產(chǎn)物,聚類方法是數(shù)據(jù)挖掘技術(shù)的一個(gè)重要分支[1]。聚類方法是用各類算法將樣本數(shù)據(jù)根據(jù)某一相似的特性進(jìn)行區(qū)分,同一類中保證數(shù)據(jù)的相似性,不同類之間保證數(shù)據(jù)的差異性。電力負(fù)荷曲線聚類的研究是配電網(wǎng)大數(shù)據(jù)的基石,負(fù)荷數(shù)據(jù)預(yù)處理、異常用電行為分析、需求側(cè)管理、用電用戶劃分等多種數(shù)據(jù)挖掘技術(shù)都需要用到這一技術(shù)。因此,有必要對電力負(fù)荷曲線聚類進(jìn)行研究。
聚類方法有很多種,一是劃分法,如K-means算法。文獻(xiàn)[2]主要針對K-means算法的缺陷進(jìn)行了研究和改良,綜合提出了最適合電力負(fù)荷數(shù)據(jù)特征的優(yōu)化方法,而不是將單一的方法進(jìn)行疊加。這種方法簡單、時(shí)間復(fù)雜度和空間復(fù)雜度較低,但是聚類結(jié)果受到隨機(jī)初始化中心點(diǎn)的影響很大。二是層次法,是將樣本數(shù)據(jù)進(jìn)行逐層分解。文獻(xiàn)[3]基于Ward層次聚類算法,提出了C-Ward算法,省略了對數(shù)據(jù)樣本點(diǎn)進(jìn)行預(yù)先劃分的步驟。這類算法可解釋性好,但是時(shí)間復(fù)雜度高。 三是基于密度的方法,其核心思想是只要鄰近區(qū)域內(nèi)的樣本密度超過某個(gè)閾值,就會不停地聚類,最典型的的算法是DBSCAN算法。文獻(xiàn)[4]利用密度梯度算法進(jìn)行負(fù)荷分類的研究,選取不同類的邊界點(diǎn)的分布情況作為特征。這類算法對噪聲的抵抗性較強(qiáng),可以解決各種形狀的聚類問題,但處理高維樣本數(shù)據(jù)的能力比較薄弱。 四是基于模型的方法,即尋找數(shù)據(jù)對既定模型的最佳擬合模型,使同一類的數(shù)據(jù)隸屬于同一種概率分布,最典型的是神經(jīng)網(wǎng)絡(luò)法。文獻(xiàn)[5]以負(fù)荷的組成情況為依據(jù)來進(jìn)行分類,同時(shí)應(yīng)用神經(jīng)網(wǎng)絡(luò)和C-均值聚類算法,將獲得的聚類數(shù)目和各類中心點(diǎn)作為C-均值算法的初始值進(jìn)一步聚類,具有較強(qiáng)的實(shí)用性和有效性。
為了解決大多數(shù)聚類算法對初始聚類個(gè)數(shù)的設(shè)置難問題和對初始聚類中心選取過于敏感的問題,本文探討了迭代自組織數(shù)據(jù)分析算法(Iterative Self-organizing Data Analysis Algorithm,ISODATA)在負(fù)荷分類中的應(yīng)用,主要研究該算法與以上主流聚類算法在負(fù)荷分類應(yīng)用方面相比的優(yōu)缺點(diǎn)。
ISODATA作為一種軟性聚類的方法,是在樣本對象初始特征不明顯的情況下,在迭代的過程中逐漸逼近事物最本質(zhì)的特征。這種機(jī)器學(xué)習(xí)的過程與人類認(rèn)知事物的方式類似,聚類方法相對科學(xué)。其關(guān)鍵步驟在于聚類的合并和分裂運(yùn)算,通過多個(gè)閾值進(jìn)行限制,類間距離過小將其合并,同類樣本距離過大將其分裂,從而達(dá)到預(yù)期的聚類效果。
由于在很多情況下,各種聚類算法的參數(shù)無法準(zhǔn)確設(shè)定,就使得 ISODATA在參數(shù)調(diào)試完成前往往得不到理想的結(jié)果,因此對該算法控制參數(shù)的調(diào)試過程比較繁瑣[6-10]。但是,當(dāng)參數(shù)調(diào)整準(zhǔn)確以后,得到的結(jié)果往往優(yōu)于傳統(tǒng)的聚類方法。這是因?yàn)樵撍惴尤肓巳说南敕ㄗ鳛橄拗茥l件,從而使得聚類結(jié)果更加“人性化”。對于某一類的數(shù)據(jù),例如針對負(fù)荷曲線的聚類,調(diào)試參數(shù)的過程只需一次,之后對于同一類型的其他樣本可以直接適用,同樣簡單、快捷。因此,ISODATA在負(fù)荷曲線分類中的實(shí)用性很強(qiáng)[11-14]。
ISODATA在運(yùn)行前需要輸入的參數(shù)主要有:預(yù)估的聚成類別數(shù)K;每個(gè)聚類樣本含有最少的樣本數(shù)量θN;每個(gè)聚類中樣本標(biāo)準(zhǔn)差的閾值θS,即分裂系數(shù),如果大于此數(shù),此聚類需進(jìn)行分裂;各聚類中心之間距離的閾值θC,即合并系數(shù),如果小于此數(shù),兩個(gè)聚類進(jìn)行合并;進(jìn)行迭代的總次數(shù)I。
在對上述參數(shù)進(jìn)行設(shè)置后,ISODATA大體分為以下7個(gè)步驟。
步驟1 輸入N個(gè)樣本數(shù)據(jù){xi=1,2,3,…,N},隨機(jī)選出NC個(gè)初始聚類中心{z1,z2,z3,…,zNC}。
步驟3 如果Sj中的樣本數(shù)目Sj<θN,則取消該樣本子集。
步驟4 修正各聚類中心Zj,修正公式為
(1)
步驟5 判斷是否進(jìn)行分裂運(yùn)算,一般以下3種情況需要進(jìn)行分裂處理。NC≤K/2,即最終聚類數(shù)小于當(dāng)時(shí)給定值的1/2;同時(shí)不滿足迭代運(yùn)算次數(shù)是偶數(shù)次或NC≥2K;一個(gè)聚類中樣本距離標(biāo)準(zhǔn)差向量最大值σjmax>θS。每次分裂形成的新的聚類中心表達(dá)式為
Z1=Zi+factor×σjmax
(3)
Z2=Zi-factor×σjmax
(4)
步驟6 判斷合并運(yùn)算,計(jì)算各類之間的距離Dij,若Dij<θC,或者某類中樣本個(gè)數(shù)小于規(guī)定θN,則進(jìn)行合并操作。新的聚類中心為
(5)
步驟7 重復(fù)迭代,直至達(dá)到迭代次數(shù)。
通常從兩個(gè)方面評價(jià)一個(gè)非監(jiān)督聚類算法的有效性:一是緊密度,即每類中的樣本數(shù)據(jù)應(yīng)盡可能地相似;二是分離度,即不同聚類之間數(shù)據(jù)的差異性應(yīng)盡可能地大。常用的評價(jià)方法有外部評價(jià)法、內(nèi)部評價(jià)法和相對評價(jià)法。本次實(shí)驗(yàn)采用聚類完成時(shí)得到的各聚類中心向量,計(jì)算內(nèi)平方和WSS和外平方和BSS作為聚類效果的評價(jià)指標(biāo)。對于有m條樣本,n個(gè)特征點(diǎn)的負(fù)荷組成情況,WSS和BSS的表達(dá)式為
(6)
(7)
(8)
式中:pi——聚類i的中心向量,pi=(pi1,pi2,pi3,…,pin);
Zk——第k聚類中樣本的個(gè)數(shù);
Q——所有樣本數(shù)據(jù)中心的特征向量,Q=(Q1,Q2,Q3,…,Qn);
qk——第k類樣本中心的特征向量,qk=(qk1,qk2,qk3,…,qkn)。
WSS和BSS分別體現(xiàn)了同一聚類中數(shù)據(jù)的相似程度和不同聚類之間數(shù)據(jù)的差異程度。顯然,WSS的值越小,同一類中數(shù)據(jù)的相似度越高;BSS的值越大,不同類之間數(shù)據(jù)的差異性越大??傊?CHI指數(shù)越大,聚類效果越好。
根據(jù)系統(tǒng)測量到的用戶負(fù)荷數(shù)據(jù),選取電網(wǎng)中437個(gè)用戶的日負(fù)荷曲線(即用戶有功功率的使用情況)作為待分類樣本,取一天當(dāng)中24個(gè)時(shí)刻點(diǎn)的負(fù)荷情況作為一條負(fù)荷曲線的特征點(diǎn)。在對數(shù)據(jù)進(jìn)行歸一化處理的基礎(chǔ)上進(jìn)行分類,以抵消數(shù)值差別過大帶來的影響。記第i時(shí)刻的負(fù)荷為Ph(h=1,2,3,…24),負(fù)荷最大值為Pmax,Xh=Ph/Pmax,Xh即為歸一化后的負(fù)荷曲線在h時(shí)刻的值。
采用ISODATA(M1)對以上樣本曲線進(jìn)行聚類,并與當(dāng)前主流聚類算法進(jìn)行比較,驗(yàn)證其在負(fù)荷分類中的可行性。參與對比的算法分別有傳統(tǒng)的K-means算法(M2)、層次聚類算法(M3)、模糊C-均值算法(M4)、自組織映射神經(jīng)網(wǎng)絡(luò)算法(M5)等。本次實(shí)驗(yàn)將主要從聚類效果、聚類數(shù)目的取值影響和初始中心向量的選取影響來對比ISODATA和各聚類算法。
本次聚類仿真在MATLAB軟件中進(jìn)行,經(jīng)過多次調(diào)試,效果較為理想的參數(shù)如下:迭代次數(shù)為100次;預(yù)期聚類數(shù)為8個(gè);類與類之間的最小距離為0.2;每個(gè)聚類中最小樣本數(shù)為10個(gè);最大樣本距離分布的標(biāo)準(zhǔn)差為0.1。聚類結(jié)果如圖1所示。
圖1中的曲線為日負(fù)荷曲線,即當(dāng)天該負(fù)荷的有功功率消耗情況。日負(fù)荷曲線樣本被分為8類,各類樣本數(shù)量分別為34,78,19,83,73,30,52,68。聚類效果較好,不同類之間區(qū)別分明,具有很好的參考價(jià)值。除了第3類和第7類比較特殊外,大多數(shù)負(fù)荷曲線都在中午12時(shí)達(dá)到頂峰;第1和第2類是學(xué)校、辦公室等場所,白天辦公時(shí)間用電負(fù)荷較高,晚上逐漸降低;第4和第5類屬于醫(yī)院等負(fù)荷,負(fù)荷曲線較為平緩,波動較小;第6類一般屬于晝夜不停運(yùn)作的大型工廠負(fù)荷,機(jī)器一天24 h高強(qiáng)度運(yùn)作,幾乎沒有波動;第7類屬于KTV等夜間娛樂行業(yè),在晚上8時(shí)左右達(dá)到用電高峰。了解負(fù)荷特性的變化規(guī)律,對于電力部門進(jìn)行負(fù)荷分類、預(yù)測、調(diào)度,以及制定電價(jià)有很好的借鑒意義。
圖1 ISODATA聚類結(jié)果
采用相同的數(shù)據(jù)樣本,在同樣聚成8類的情況下,根據(jù)式(6)、式(7)、式(8)得到5種算法的聚類評價(jià)指標(biāo),如表1所示。
表1 5種聚類算法的評價(jià)指標(biāo)結(jié)果
由表1可以看出,5種聚類算法的聚類效果比較接近。其中,ISODATA的聚類效果比層次聚類算法、模糊C-均值算法以及自組織映射神經(jīng)網(wǎng)絡(luò)算法要好。但是,ISODATA的3項(xiàng)評價(jià)指標(biāo)均不及傳統(tǒng)K-means算法。這是因?yàn)镵-means算法完全是以類間距離最小為準(zhǔn)則而編寫的,并沒有其他限制性因素,而ISODATA考慮了人的“想法”,按照人們的預(yù)期添加了多種限制條件。雖然ISODATA的評價(jià)指數(shù)不及K-means算法,但它得到了更符合人們要求的聚類結(jié)果。例如,用戶不希望聚成的某一類中樣本數(shù)量過少,又不希望其中樣本差異過大,就可以通過聚類前的輸入?yún)?shù)進(jìn)行限制,從而更具有實(shí)用價(jià)值。
若保持437條日負(fù)荷曲線數(shù)據(jù)樣本不變,設(shè)定目標(biāo)聚類數(shù)K(K=2,3,4…,10),觀察目標(biāo)聚類數(shù)K對各聚類算法最終聚類數(shù)K′的影響。實(shí)驗(yàn)結(jié)果如表2所示。
表2 預(yù)定聚類數(shù)對各算法最終聚類數(shù)的影響
從表2可以看出,ISODATA和自組織神經(jīng)網(wǎng)絡(luò)算法的最終聚類數(shù)與初始聚類數(shù)不同,傳統(tǒng)K-means算法的最終聚類數(shù)沒有發(fā)生改變。經(jīng)過多次實(shí)驗(yàn),針對此次樣本數(shù)據(jù),所有聚類算法的最優(yōu)類別數(shù)普遍為7,8,9。ISODATA在K=2時(shí),就能自動聚成7類;在K>9時(shí),能夠自動聚成9類,魯棒性極強(qiáng),具有自動調(diào)節(jié)最優(yōu)類別數(shù)的能力。神經(jīng)網(wǎng)絡(luò)法在K≥8時(shí),全部聚成7類,對初始聚類數(shù)也有一定的調(diào)節(jié)能力;但在K≤7時(shí),調(diào)節(jié)能力不明顯。傳統(tǒng)K-means算法則是完全依據(jù)初始聚類數(shù)進(jìn)行聚類。對于聚類數(shù)不明的復(fù)雜電力大數(shù)據(jù)樣本來說,ISODATA具有很好的改良聚類效果的能力。
大多數(shù)聚類算法的初始聚類中心都是隨機(jī)生成或者隨機(jī)選取的,這就導(dǎo)致了有的算法可能會因?yàn)槌跏季垲愔行倪x擇不當(dāng)而陷入局部最優(yōu)。為了驗(yàn)證初始聚類中心的選擇是否會對ISODATA造成影響,在樣本數(shù)據(jù)和所有參數(shù)都不變的情況下,每次在437條數(shù)據(jù)樣本中隨機(jī)選取8條作為初始聚類中心,實(shí)驗(yàn)10次,以觀察聚類結(jié)果是否會發(fā)生變化,并與其他聚類算法相比較。比較結(jié)果如表3所示。
表3 初始聚類中心變化時(shí)各種聚類算法的CHI指標(biāo)對比情況
從表3可以看出,初始聚類中心的變化對模糊C-均值算法的影響較大。模糊C-均值算法的CHI值波動范圍很大,最低只有22.71,最高為30.62,僅次于傳統(tǒng)K-means算法的30.86;而ISODATA幾乎完全不受初始聚類中心的影響,不用考慮陷入局部最優(yōu)帶來的誤差,算法穩(wěn)定性較高。
根據(jù)以上對比實(shí)驗(yàn)可以得出以下結(jié)論:傳統(tǒng)K-means聚類算法的初始點(diǎn)選擇不穩(wěn)定,引起了聚類結(jié)果的不穩(wěn)定;層次聚類算法雖然不需要確定分類數(shù),但是一旦進(jìn)行分裂或者合并,就不能修正,聚類質(zhì)量受到限制;模糊C-均值算法對初始聚類中心比較敏感,需要人為確定聚類數(shù),容易陷入局部最優(yōu)解;自組織映射神經(jīng)網(wǎng)絡(luò)算法與實(shí)際大腦處理有很強(qiáng)的理論聯(lián)系,但處理時(shí)間較長,需要進(jìn)一步研究使其適應(yīng)大型數(shù)據(jù)庫;ISODATA不受初始聚類中心的影響,運(yùn)算時(shí)間遠(yuǎn)小于自組織映射神經(jīng)網(wǎng)絡(luò)算法,經(jīng)過多次合并分裂后,聚類準(zhǔn)確率也處于較高水平,完全適用于電力負(fù)荷曲線的分類研究。
在大數(shù)據(jù)時(shí)代的背景下,面對海量的電能質(zhì)量監(jiān)測數(shù)據(jù),準(zhǔn)確、快捷的數(shù)據(jù)挖掘技術(shù)成為處理數(shù)據(jù)的有效手段。本文介紹了ISODATA的原理和實(shí)現(xiàn)步驟,并將此算法應(yīng)用到日負(fù)荷曲線的分類中,聚類結(jié)果較為理想。與當(dāng)前主流的聚類算法進(jìn)行對比,得到了不同算法的聚類效果對比情況、聚類數(shù)K值和初始聚類中心的選取等方面對聚類結(jié)果產(chǎn)生的影響。此算法在聚類之前需要對各種參數(shù)進(jìn)行設(shè)置,在傳統(tǒng)算法上新增了分裂和合并兩個(gè)步驟,從而大大減少了聚類算法的盲目性,但也使得算法更加復(fù)雜。盡管參數(shù)的選擇需要多次嘗試,但是當(dāng)參數(shù)調(diào)整好后,就完全能夠應(yīng)用于處理同類的樣本分類問題,同時(shí)解決了未知樣本聚類數(shù)取值難的問題。今后,ISODATA的主要研究方向?yàn)槿绾慰焖?、?zhǔn)確地進(jìn)行參數(shù)設(shè)置,以節(jié)約時(shí)間成本。