王同文,管 霖
(1.安徽電力調(diào)度通信中心,合肥 230022;2.華南理工大學(xué)電力學(xué)院,廣州 510640)
智能電網(wǎng)被認(rèn)為是當(dāng)今世界電力系統(tǒng)發(fā)展變革的新制高點,也是未來電網(wǎng)發(fā)展的大趨勢。智能電網(wǎng)的自愈性強(qiáng)調(diào)對電網(wǎng)運(yùn)行狀態(tài)實現(xiàn)連續(xù)在線自我評估與預(yù)防控制,及故障后的快速自我恢復(fù)[1]。這對電網(wǎng)安全穩(wěn)定評估提出更高要求,主要體現(xiàn)在供穩(wěn)定評估利用的信息是電網(wǎng)實時信息,評估方法需滿足連續(xù)在線評估的要求。因而,研究基于廣域信息的電網(wǎng)在線穩(wěn)定評估方法漸成趨勢[2]。
在利用電網(wǎng)實時信息實現(xiàn)系統(tǒng)穩(wěn)定評估方面,人工智能技術(shù)因具有學(xué)習(xí)能力強(qiáng)、評估速度快、提供潛在有價值信息等特點,被認(rèn)為是一個有發(fā)展前景的電網(wǎng)穩(wěn)定在線評估研究方向[3,4]。
基于人工智能技術(shù)的電網(wǎng)安全評估模型通過學(xué)習(xí)大量訓(xùn)練樣本中包含的潛在數(shù)據(jù)結(jié)構(gòu)信息,而后利用這些信息實現(xiàn)未知樣本穩(wěn)定水平的判別。該類型算法往往由于訓(xùn)練樣本的局限性而導(dǎo)致模型的推廣性差。盡管增加訓(xùn)練樣本規(guī)??商岣咚惴ㄐ阅埽珮?gòu)造足夠多的計及各種運(yùn)行方式的訓(xùn)練樣本幾無可能,而采取樣本庫逐步擴(kuò)充的思路又由于大多數(shù)智能學(xué)習(xí)模型在面對增量式數(shù)據(jù)集時需對所有樣本重新學(xué)習(xí)致使算法學(xué)習(xí)效率下降。
對此,提出一種基于子空間擴(kuò)展的聚類算法,并基于該算法提出一種電網(wǎng)安全評估新思路。算法以樣本為基礎(chǔ),構(gòu)造一個最小子空間,逐步擴(kuò)展該子空間,直到獲取一個包含樣本分布結(jié)構(gòu)的最優(yōu)子空間;通過這些子空間的歸并獲得樣本聚類結(jié)果。算法所需先驗知識少,聚類結(jié)果可解釋性強(qiáng),其自下而上的擴(kuò)展策略保證算法對增量式數(shù)據(jù)挖掘具有良好的適應(yīng)性。在IEEE兩個測試系統(tǒng)上的應(yīng)用結(jié)果驗證所提電網(wǎng)安全評估思路的有效性。
聚類包含兩個關(guān)鍵問題[5]:接近度的度量和類簇的分組。接近度的度量主要評估兩個實體的相似程度,以決定是否屬于同一簇;類簇的分組即是指劃分簇的策略。樣本相似度度量指標(biāo)較多[5~9]。常用的有距離指標(biāo),如k均值算法;頻率或密度指標(biāo),頻率越高或密度越大的區(qū)域包含聚類的可能性越大;信息墑指標(biāo),認(rèn)為由相近樣本形成的區(qū)域與由相離樣本構(gòu)成的區(qū)域相比具有的信息墑更??;此外,還有諸如“cohesion”指標(biāo)、留數(shù)指標(biāo)等。
類簇的分組方式大體有劃分型、層次型及混合型3種[5~9]。劃分型即是將訓(xùn)練樣本或樣本空間劃分為n個子集或子空間,分析這n個子集或子空間類簇的信息。層次型方法通過分解所給定的數(shù)據(jù)對象集來創(chuàng)建一個層次,包含分裂和凝聚兩種方式。該類型方法的困難在于類簇劃分或合并的選擇,選擇不適宜將導(dǎo)致低質(zhì)量的聚類結(jié)果?;旌闲图词莿澐中团c層次型的結(jié)合。為提高算法對增量式數(shù)據(jù)集的挖掘性能,算法為每一個可能需要構(gòu)造最大子空間的樣本構(gòu)造一包含數(shù)據(jù)結(jié)構(gòu)分布信息的最優(yōu)子空間,依據(jù)最優(yōu)子空間的連通關(guān)系獲得聚類結(jié)果,可理解為廣義的層次型聚類。樣本相近度的度量指標(biāo)則采用留數(shù)指標(biāo)[9],其潛在含義是,從統(tǒng)計學(xué)角度看,包含訓(xùn)練樣本越多的子空間越能反映樣本集在特征空間中的分布知識。
文獻(xiàn)[9]提出的留數(shù)指標(biāo)定義一種從統(tǒng)計學(xué)的角度定量衡量空間內(nèi)樣本密集程度,能排除隨機(jī)干擾樣本對結(jié)果的影響,如式(1)所示。
式中:ci=0.5×mi×(1-mi/N),N 為樣本規(guī)模;mi=0.5×(ni+n*i),ni為區(qū)域i內(nèi)樣本數(shù)目;而n*i為隨機(jī)分布對應(yīng)的樣本數(shù)目,且n*=v×N,體積v為該子空間的體積。
由式(1)可知,空間i的留數(shù)ri越大,該空間內(nèi)樣本分布與隨機(jī)樣本分布差別越大,也即包含數(shù)據(jù)結(jié)構(gòu)信息越多。文中定義若空間i的留數(shù)ri≥1.96則視為包含聚類信息,否則視為隨機(jī)分布。
其思路是:從一個隨機(jī)樣本出發(fā),構(gòu)造一個最小的超矩形空間,并逐步擴(kuò)展,直到滿足約束條件為止;計算該子空間的留數(shù),根據(jù)留數(shù)大小確定是否包含聚類信息;如包含,則運(yùn)用最外層樣本作為下一步構(gòu)造類似子空間的起點,如不包含,則選擇另一個樣本為起點;如此循環(huán),直至所有樣本分析完為止;最后,根據(jù)包含聚類信息的子空間連通關(guān)系,獲得訓(xùn)練集聚類結(jié)果。
該思路包含幾個關(guān)鍵問題:最小超矩形空間如何定義、子空間如何擴(kuò)展、終止條件及下一個擴(kuò)展起點如何選擇等。以一二維平面數(shù)據(jù)集為例闡述以上4個問題。
如圖1所示。首先隨機(jī)選擇樣本x1作為起點,構(gòu)造一個最小矩形空間,如圖中粗線框所示。最小子空間是頻率n為2的子空間,即除該樣本外,只有一個樣本落入該空間。
然后不斷向外擴(kuò)展該子空間,擴(kuò)展速度則根據(jù)下式確定。
對于一個密集區(qū)域,在擴(kuò)展初期,由于其聚集特性,留數(shù)呈增加趨勢;隨著擴(kuò)展的繼續(xù),其稀疏特性表現(xiàn)越明顯,故而留數(shù)呈降低趨勢。據(jù)此,文中定義式(3)開始減小作為子空間擴(kuò)展的終止準(zhǔn)則。
為最大程度降低計算負(fù)擔(dān),定義最大子空間及最優(yōu)子空間兩個概念。最大子空間即為擴(kuò)展過程中的最外層超矩形空間,最優(yōu)子空間定義為最大子空間的前一次擴(kuò)展空間,如圖1所示。
圖1 最優(yōu)子空間搜索示例Fig.1 Example of searching for an optimal subspace
從樣本密集的角度看,最優(yōu)子空間內(nèi)樣本分布較密集,已無對空間內(nèi)其它樣本構(gòu)造類似子空間的必要;且介于最大子空間與最優(yōu)子空間兩空間之間的樣本近似描述了最優(yōu)子空間形狀。故選擇這些樣本作為構(gòu)造最小子空間的新起點。如圖2所示x2和x3。
按上述思路,以此類推,直到所有樣本分析完為止。
圖2 空間擴(kuò)展過程示例Fig.2 Example of the extension process
基于子空間擴(kuò)展的聚類算法步驟如下:
步驟1 記訓(xùn)練樣本集為T;
步驟2 定義當(dāng)前需要擴(kuò)展最大子空間的樣本集D為空集,并記所有可能需要構(gòu)造最大子空間的樣本集為擴(kuò)展集E,初始時E等于樣本集T;
步驟3 從擴(kuò)展集E中隨機(jī)選擇一個樣本作為起點,構(gòu)造一最小子空間,同時從擴(kuò)展集E中刪除該樣本;
步驟4 按式(2)不斷擴(kuò)展該子空間,以式(3)為終止條件;
步驟5 若按步驟4獲得一個最大子空間,則將最優(yōu)子空間內(nèi)的樣本集從擴(kuò)展集E中剔除,將屬于E集中的位于最大子空間與最優(yōu)子空間之間的樣本歸入D集,同時將這些樣本從E集中刪除,以更新擴(kuò)展集E,轉(zhuǎn)入步驟6;否則,標(biāo)記該樣本所屬類別,從擴(kuò)展集E中剔除該最小子空間內(nèi)包含的樣本,轉(zhuǎn)入步驟6;
步驟6 判斷D是否為空集,如是,則轉(zhuǎn)入步驟7;否則,從D集中選擇下一個起始樣本,并轉(zhuǎn)入步驟4;
步驟7 判斷擴(kuò)展集E是否為空集,如是,則轉(zhuǎn)入步驟8;否則,轉(zhuǎn)入步驟3;
步驟8 算法結(jié)束,輸出聚類結(jié)果。
為顯示基于子空間擴(kuò)展的聚類算法性能和應(yīng)用過程,構(gòu)造2組二維數(shù)據(jù)集進(jìn)行測試,圖中帶有圓框的樣本為算法識別出代表聚類形狀的邊界樣本。
圖3顯示算法準(zhǔn)確地識別出樣本數(shù)量較少的聚類。
圖3 聚類結(jié)果展示Fig.3 Clustering result of the test data set
對于大多數(shù)智能學(xué)習(xí)模型,處理新增樣本時,需對所有樣本重新學(xué)習(xí)。而文中所提算法僅需對新增樣本構(gòu)造最優(yōu)子空間,大大提高算法學(xué)習(xí)效率。圖4和圖5展示了算法處理增量式數(shù)據(jù)集聚類結(jié)果,證實了算法的性能。
圖4 聚類結(jié)果展示Fig.4 Clustering result of the test data set
圖5 聚類結(jié)果展示Fig.5 Clustering result of the test data set
首先構(gòu)造大量訓(xùn)練樣本,通過特征裁減技術(shù)提取穩(wěn)定評估關(guān)鍵穩(wěn)態(tài)狀態(tài)量,而后應(yīng)用所提聚類算法挖掘訓(xùn)練樣本中包含的聚類知識,以描述聚類邊界的訓(xùn)練樣本為參考樣本,采用常規(guī)k近鄰法完成未知樣本穩(wěn)定水平的識別。在構(gòu)造訓(xùn)練樣本時,調(diào)整負(fù)荷水平及分布,相應(yīng)改變發(fā)電機(jī)出力,在每種潮流方式下,采用BPA仿真工具獲得不同故障位置下CCT值。故障類型為三相瞬時性故障。
根據(jù)相關(guān)文獻(xiàn)[9,10],選擇系統(tǒng)穩(wěn)態(tài)量構(gòu)成初始輸入集,這些量包括發(fā)電機(jī)的有功、無功出力();系統(tǒng)中支路的有功、無功潮流(、);系統(tǒng) 中支路的有功損耗、無功損耗(、)等狀態(tài)量。由于穩(wěn)態(tài)運(yùn)行信息與系統(tǒng)規(guī)模成比例增長,須采用特征選擇技術(shù)進(jìn)行特征屬性約減。文中采用基于遺傳算法的嵌入式特征選擇算法實現(xiàn)特征空間的有效裁減[10]。
以IEEE兩個測試系統(tǒng)為例展示所提電網(wǎng)安全評估思路的應(yīng)用結(jié)果。
測試系統(tǒng)結(jié)構(gòu)如圖6所示。訓(xùn)練集和測試集規(guī)模分別為300和60。
圖6 IEEE9節(jié)點測試系統(tǒng)Fig.6 IEEE 9-bus testing system
運(yùn)用文獻(xiàn)[10]的特征選擇算法,對母線7故障提取的穩(wěn)定評估關(guān)鍵穩(wěn)態(tài)特征集包括P1G、P2G、、等4個狀態(tài)量。
應(yīng)用所提聚類算法,對300個測試樣本進(jìn)行分析,共發(fā)現(xiàn)6個簇類,約有51.3%的訓(xùn)練樣本被算法識別為類別邊界樣本??紤]電網(wǎng)評估需求,根據(jù)簇類間連通關(guān)系,將這6個簇類聚合歸并為低、中、高穩(wěn)定水平類。
以這些類別邊界樣本為已知類別樣本,運(yùn)用k階近鄰法(取k=5)對測試集進(jìn)行分類,與按樣本CCT分類相比,準(zhǔn)確率約為86.7%。
測試系統(tǒng)如圖7所示。測試集和訓(xùn)練集規(guī)模分別為500和100。
圖7 IEEE新英格蘭測試系統(tǒng)Fig.7 IEEE New-England test system
運(yùn)用文獻(xiàn)[10]的特征選擇算法,對母線26故障提取的穩(wěn)定評估關(guān)鍵穩(wěn)態(tài)特征集包括、P17-27、Q2-25、等5個狀態(tài)量。
與IEEE9節(jié)點測試系統(tǒng)類似,算法共識別出10個簇類,約有60.6%的訓(xùn)練樣本被識別為邊界樣本。根據(jù)簇類間的連通關(guān)系將這10個簇類歸并為3大類,以60.6%的訓(xùn)練樣本為已知類別樣本,對測試集的分類正確率為91%。
在IEEE兩個測試系統(tǒng)的應(yīng)用結(jié)果驗證所提基于無監(jiān)督聚類算法的電網(wǎng)安全評估新思路的有效性。進(jìn)一步分析可知,依據(jù)類別邊界樣本,可方便地從中獲取豐富的預(yù)防控制所需信息。
從算例分析看,針對指定位置故障,所提電網(wǎng)安全評估思路只需監(jiān)測少數(shù)幾個從EMS系統(tǒng)獲取的穩(wěn)態(tài)運(yùn)行變量即可粗略實現(xiàn)穩(wěn)定水平評估。此外,計及到聚類算法特點,可方便地將日常運(yùn)行方式數(shù)據(jù)補(bǔ)充進(jìn)樣本庫供算法學(xué)習(xí),以提高算法性能。對于一個實際系統(tǒng)而言,只需針對若干穩(wěn)定薄弱點設(shè)計類似評估模型,即可有效地掌握全系統(tǒng)的穩(wěn)定水平。然而,考慮到電網(wǎng)拓?fù)浣Y(jié)構(gòu)變化較頻繁,而文中分析并未涉及這一問題,因此實現(xiàn)算法在線應(yīng)用仍需更進(jìn)一步研究。
從測試結(jié)果看,文中所提電網(wǎng)安全評估思路的推廣能力一般。一方面是因測試集規(guī)模較小,與有導(dǎo)師的學(xué)習(xí)算法相比,無監(jiān)督聚類算法在樣本規(guī)模較小時很難挖掘出足夠多的知識。二是因CCT值的連續(xù)性,在簇類歸并過程中,低、中、高穩(wěn)定水平類中的簇類具有一定的重疊性,按連通緊密程度的族類合并過程影響了后續(xù)穩(wěn)定水平識別的準(zhǔn)確率。今后將在這兩方面開展研究,以提高算法性能。
1)提出一種基于無監(jiān)督聚類算法的電網(wǎng)安全評估新思路,在IEEE兩個測試系統(tǒng)的應(yīng)用結(jié)果證實了思路的有效性。
2)提出的基于子空間擴(kuò)展的無監(jiān)督聚類學(xué)習(xí)算法具有可解釋性強(qiáng)、適合處理增量式數(shù)據(jù)集、所需先驗知識少、對數(shù)據(jù)形狀適應(yīng)性強(qiáng)等特點。
[1]姚建國,賴業(yè)寧(Yao Jianguo,Lai Yening).智能電網(wǎng)的本質(zhì)動因和技術(shù)需求(The essential cause and technical requirements of the smart grid)[J].電力系統(tǒng)自動化(Automation of Electric Power Systems),2010,34(2):1-4,28.
[2]盧芳,于繼來(Lu Fang,Yu Jilai).基于廣域相量測量的暫態(tài)穩(wěn)定快速評估方法(WAMS based power system transient stability assessment)[J].電力系統(tǒng)自動化(Automation of Electric Power Systems),2010,34(8):24-28.
[3]王同文,管霖,張堯(Wang Tongwen,Guan Lin,Zhang Yao).人工智能技術(shù)在電網(wǎng)穩(wěn)定評估中的應(yīng)用綜述(A survey on application of artificial intelligence technology in power system stability assessment)[J].電網(wǎng)技術(shù)(Power System Technology),2009,33(12):60-65.
[4]湯必強(qiáng),陳允平,鄧長虹(Tang Biqiang,Chen Yunping,Deng Changhong).基于遺傳算法優(yōu)化的復(fù)合神經(jīng)網(wǎng)絡(luò)在穩(wěn)定評估中的應(yīng)用研究(Application of compound neural network based genetic algorithm optimizing for power system transient stability assessment)[J].電力系統(tǒng)及其自動化學(xué)報(Proceedings of the CSU-EPSA),2004,16(1):6-10,18.
[5]朱玉全,楊鶴標(biāo),孫蕾.數(shù)據(jù)挖掘技術(shù)[M].南京:東南大學(xué)出版社,2006.
[6]Jing Liping,Ng Michael K,Huang Joshua Zhexue.An entropy weighting k-means algorithm for subspace clustering of high-dimensional sparse data[J].IEEE Trans on Knowledge and Data Engineering,2007,19(8):1026-1041.
[7]Yip Andy M,Ding Chris,Chan Tony F.Dynamic cluster formation using level set methods[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2006,28(6):877-889.
[8]Lin Cheng-Ru,Chen Ming-Syan.Combining partitional and hierarchical algorithms for robust and efficient data clustering with cohesion self-merging[J].IEEE Trans on Knowledge and Data Engineering,2005,17(2):145-159.
[9]王同文,管霖,張堯(Wang Tongwen,Guan Lin,Zhang Yao).基于留數(shù)分析的模式發(fā)現(xiàn)算法的改進(jìn)及其應(yīng)用(Modified pattern discovery algorithm based on residual analysis and its application)[J].華南理工大學(xué)學(xué)報:自然科學(xué)版(Journal of South China University of Technology:Natural Science Edition),2009,37(7):100-105.
[10]管霖,王同文,唐宗順(Guan Lin,Wang Tongwen,Tang Zongshun).電網(wǎng)安全監(jiān)測的智能化關(guān)鍵特征識別及穩(wěn)定分區(qū)算法(Intelligent algorithm for kernel feature identification and stability-based system division in power grid security monitoring)[J].電力系統(tǒng)自動化(Automation of Electric Power Systems),2006,30(21):22-27.