陳旭,安源,孫正龍,韓智剛,趙慶賀,陳立銘,陳師
(1. 國網(wǎng)冀北電力有限公司張家口供電公司,河北 張家口 075300;2. 西安理工大學 電氣工程學院,陜西 西安 710048;3.東北電力大學 電氣工程學院,吉林 吉林 132012;4. 東北農(nóng)業(yè)大學 電氣與信息學院,黑龍江 哈爾濱 150030;5. 國網(wǎng)吉林省電力有限公司長春供電公司,吉林 長春 130021)
據(jù)中國電力企業(yè)聯(lián)合會發(fā)布的《2020年上半年全國電力供需形勢分析預測報告》中數(shù)據(jù),2020年底預計全國非化石能源發(fā)電裝機容量將達930 GW左右,占總裝機容量比例上升至43.6%,比2019年底提高約1.6%,而新能源節(jié)點的大量出現(xiàn)將給電力系統(tǒng)結構帶來諸多新問題。
分布式智能電網(wǎng)(decentralized smart grid,DSG)基于頻率以供需平衡的方式運行。通過對電網(wǎng)頻率進行合理采樣,帶有新能源節(jié)點的智能電網(wǎng)可以有效增強整體運行的經(jīng)濟性。隨著電力系統(tǒng)中以光伏、太陽能等為代表的新能源技術不斷成熟,如何將這些彈性節(jié)點整合到電網(wǎng)和電力市場中,并實時有效地保持系統(tǒng)的穩(wěn)定性逐漸成為當前的熱點問題[1-3]。
目前電力系統(tǒng)中已經(jīng)開始采用機器學習的思路,針對電力系統(tǒng)穩(wěn)定性進行研究。文獻[4]采用了神經(jīng)網(wǎng)絡模型分析電力系統(tǒng)穩(wěn)定性問題,并針對傳統(tǒng)大型電力系統(tǒng)的系統(tǒng)行為進行了研究,但由于采用了傳統(tǒng)微分方程建立系統(tǒng),并未對不同輸入的情況進行總覽性評價。文獻[5]對39節(jié)點和470節(jié)點的中小型系統(tǒng)進行了穩(wěn)定性分析,在利用多項式級數(shù)完成輸入的化簡后,采用了嶺回歸算法進行穩(wěn)定性判斷建模。文獻[6]利用支持向量機和神經(jīng)網(wǎng)絡進行模型分析,側重于對網(wǎng)絡輸入的特征工程合理性進行分析,得到了維規(guī)約對于電力系統(tǒng)穩(wěn)定性判斷的影響,但并未對規(guī)約意義進行說明。文獻[7]中采用了決策樹算法分析了伊朗電網(wǎng)的穩(wěn)定性,并與人工神經(jīng)網(wǎng)絡和支持向量機進行比較,證明決策樹算法具有較高的穩(wěn)定性,但結論僅通過準確度反映,不能全方位地進行模型評價。
本文以加州大學爾灣分校提供的DSG運行數(shù)據(jù)集作為研究對象,完成了系統(tǒng)狀態(tài)模型的建立工作,并對4節(jié)點系統(tǒng)中的10 000組樣本進行了穩(wěn)定性分析。在分析過程中,針對電力系統(tǒng)的安全性、穩(wěn)定性和經(jīng)濟性的權衡,本文采用了6種機器學習分類模型完成了多指標的可行性預測。最終,得到了能滿足準確性的支持向量機模型,以及能滿足實時性的決策樹模型。相比已有研究,本文更側重考慮實時性因素,以完成運行過程中的失穩(wěn)預警。
DSG是針對智能電網(wǎng)動態(tài)電價提出的一類新技術。傳統(tǒng)智能電網(wǎng)的理想電價策略是進行周期為15 min的電價拍賣,而DSG通過捆綁電價和頻率,可在不對基礎架構進行大范圍改造的前提下實現(xiàn)動態(tài)的需求響應[3]。
智能電網(wǎng)對系統(tǒng)的穩(wěn)定運行有一定要求,DSG系統(tǒng)中同樣存在彈性節(jié)點對系統(tǒng)穩(wěn)定性的影響問題。
利用傳統(tǒng)的微分方程組描述DSG系統(tǒng)時,由于建模約束過多,穩(wěn)定性問題的研究存在諸多局限性,比如考慮單一變換造成的固定輸入問題和過于理想化造成的同等機會問題,因此可以采用sys方程組描述DSG系統(tǒng),sys模型
〈τ,P,γ,α,K,T〉
(1)
是由反應時間τ、機械功率P、經(jīng)濟彈性參數(shù)γ、電機損耗參數(shù)α、傳輸參數(shù)K和系統(tǒng)運行時間T共同決定的。
sys模型將系統(tǒng)中旋轉電機的物理模型和能源費用的經(jīng)濟模型進行結合[8],具體推導如下:
消費者節(jié)點和供應商節(jié)點均可視為旋轉電機,遵循能量守恒定律,即
(2)
式中:Ps為電機輸入功率;Pa為轉子機械功率;Pd為電機損耗功率;Pt為系統(tǒng)負載功率。
代入對應的物理機械方程得到
∑kPj,k,maxsin(δk-δj).
(3)
式中:下標j、k表示系統(tǒng)中節(jié)點的編號,下同;r為電機(視為剛體)的轉動質點到軸的距離;M為轉動慣量;μ為摩擦系數(shù);Pj,k,max為節(jié)點j和節(jié)點k之間的傳輸功率;δ為相位角。
當相位角速度遠小于工頻周期相角,且相位角加速度遠小于摩擦轉動勢時,得到
(4)
DSG將電費和頻率捆綁,配置彈性比例因子cp,讓節(jié)點可以通過電價的改變調整自己的負載狀態(tài)[1],共4種應對狀態(tài),得到:
(5)
(6)
將式(4)—(6)結合化簡得到
(7)
定義經(jīng)濟彈性參數(shù)γj=cpcj,得到
(8)
按照既定方案配置系統(tǒng)節(jié)點參數(shù)后,得到DSG系統(tǒng)的方程式(8),完成對式(1)的描述。
采用局部線性穩(wěn)定性判據(jù)分析系統(tǒng)穩(wěn)定性,系統(tǒng)特征方程式(1)的根實部取值SR代表了系統(tǒng)是否失穩(wěn):當SR>0,系統(tǒng)失穩(wěn);當SR<0,系統(tǒng)保持穩(wěn)定;當SR=0,則為臨界狀態(tài)[9]。
綜上所述,通過改變系統(tǒng)方程的不同輸入狀態(tài),得到一系列運行數(shù)據(jù)及網(wǎng)絡穩(wěn)定性。此處采用UCI數(shù)據(jù)集參數(shù)[3](見表1),系統(tǒng)穩(wěn)定性數(shù)據(jù)仿真模型采用4節(jié)點星型電網(wǎng)(如圖1所示)。
圖1 星型智能分布式電網(wǎng)結構Fig.1 Simulation structure of DSG with 4 nodes
表1 DSG系統(tǒng)參數(shù)描述Tab.1 Description of DSG System parameters
根據(jù)SR數(shù)值得到數(shù)據(jù)標簽,最終得到10 000組帶有輸出標簽的系統(tǒng)狀態(tài)矢量,其中失去穩(wěn)定的正樣本3 620組,保持穩(wěn)定的負樣本6 380組,具體分布見表2,后續(xù)將以此作為訓練數(shù)據(jù)進行數(shù)據(jù)分析和模型評價。
表2 DSG穩(wěn)定性數(shù)據(jù)集Tab.2 Stability dataset of DSG
電力系統(tǒng)穩(wěn)定性不同于一般數(shù)據(jù)集,根據(jù)系統(tǒng)的拓撲結構和運行狀態(tài),數(shù)據(jù)集中樣本的平衡差異較大,在本文的DSG系統(tǒng)中,正負樣本比例約為3:7,由于電力系統(tǒng)對于安全性的重視,預測對于失穩(wěn)狀態(tài)十分關注。本文擬采用線性判別分類(linear discriminant,LD)、高斯樸素貝葉斯分類(Gaussian naive Bayes,GNB)、k最近鄰分類(k-nearest neighbor,kNN)、CART決策樹分類(decision tree,DT)、adaboost分類(adaptive boosting,ADA)、高斯核函數(shù)支持向量機分類(radial basis function kernel support vector machine,RBF SVM)這6種算法,基本涵蓋目前主流的、泛化能力強的機器學習算法,通過超參數(shù)優(yōu)化達到以準確度為目標的模型最優(yōu)狀態(tài),并通過多指標對算法性能進行綜合評價[10-11]。
預測結果和真實情況可以表達為混淆矩陣
(9)
此處配置系統(tǒng)失去穩(wěn)定的樣本作為正樣本,式(9)各參數(shù)含義見表3。
表3 混淆矩陣元素Tab.3 Elements of confusion matrix
2.2.1 決策準確性指標—準確性
2.2.1.1 準確率
準確性是最基本的模型評價方法,準確率(定義量符號為bACC)是描述模型準確性的最基本指標,計算方法為
(10)
準確率的合法范圍為[0,1],數(shù)值越高代表模型的準確性越好。
2.2.1.2 一致性Cohen Kappa指標[12]
在二分類中問題中可以利用Cohen Kappa指標完成算法準確性評估,相比于準確率,Cohen Kappa系數(shù)(定義量符號為bKappa)能完成不對稱樣本數(shù)據(jù)集的準確性評價,計算方法為
(11)
式中Pe=(TN+FP)(TN+FN)+(TP+FN)(TP+FP),Cohen Kappa系數(shù)的合法范圍為[-1, 1],數(shù)值越高代表二分類準確性越好。
2.2.1.3 ROC及其AUC
受試者操作(receiver operating characteristic,ROC)陽性率和假陽性率繪制的曲線,可以將曲線下面積量化為線下面積(area under curve,AUC)指標。AUC指標是范圍為[0, 1]的相對面積,AUC較高的分類模型準確性更好。
2.2.2 決策傾向性指標—敏感性和特異性
2.2.2.1 查全率和查準率
敏感性與特異性是用來衡量決策偏向性的概念,可分別用查全率(定義量符號為bR)和查準率(定義量符號為bP)來衡量,
(12)
敏感性和特異性代表了模型決策結果的嚴格程度,高敏感性可被量化為高查全率,此時模型傾向于將測試數(shù)據(jù)決策為正樣本;高特異性可量化為高查準率,此時模型對正樣本的決策較為謹慎。
2.2.2.2Fβ度量
Fβ度量是將查全率和查準率進行加權調和平均的指標,β即權重,通常是查全率的權重,計算公式為
(13)
當β=1時,F(xiàn)β度量認為查全率和查準率同樣重要,此時二者調和平均;當β>1時,F(xiàn)β度量認為查全率更關鍵,此時從高敏感性的需求評價模型的決策偏向性;當0<β<1時,F(xiàn)β度量認為查準率更關鍵,此時從高特異性的需求評價模型的決策傾向性[13]。
將數(shù)據(jù)集按照7∶3的比例劃分為訓練集和測試集,利用訓練集的交叉驗證進行模型超參數(shù)訓練,配置為5折交叉。
尋優(yōu)評價指標為準確率,具體方式為2步搜索,先利用隨機搜索法在極大的范圍內尋找粗糙的高性能參數(shù),再利用網(wǎng)格搜索法尋找精確的最優(yōu)參數(shù)。各模型尋優(yōu)(超)參數(shù)、網(wǎng)格尋優(yōu)范圍和(超)參數(shù)最優(yōu)值見表4。
表4 (超)參數(shù)尋優(yōu)及最優(yōu)值Tab.4 (Hyper) parameter optimizing and the optimal values
分別完成超參數(shù)尋優(yōu)后,將事先分割出的獨立測試集數(shù)據(jù)代入分類模型,以9類度量作為評價指標,見表5。
根據(jù)測試集的預測數(shù)據(jù)完成各模型的混淆矩陣,如圖2所示。
圖2 各模型測試集混淆矩陣Fig.2 Test dataset confusion matrices of models
混淆矩陣不僅是多項參數(shù)相關的重要計算依據(jù),也是ROC曲線的制圖數(shù)據(jù)來源,依據(jù)混淆矩陣計算得到表5的若干多角度評價指標,各模型ROC曲線及AUC值如圖3所示。
以應用于測試集的算法準確性作為度量標準,6種經(jīng)過參數(shù)調整的分類模型表現(xiàn)性能見表5中的準確度及AUC值,能更清晰地對比出各模型分類準確度的差距。
表5 各模型測試集評價指標Tab.5 Test dataset evaluation indicators of models
在6種模型中性能最優(yōu)異的是RBF SVM模型,準確度約為97%,其ROC圖像也最趨近于合理的高性能模式,AUC接近于1。
其他5種模型準確度均在80%以上,其中LD模型的準確度最低(80.47%),但對于實際情況而言,LD模型的準確度仍然合格。
另一方面,本文和文獻[3]同樣采用了DT模型,但本文針對DT模型的最大深度限制為30,并且葉子節(jié)點最少樣本數(shù)選擇了相對較大的10,有效改善了模型的泛化性能,得到了相比文獻[3]更好的結果,準確度僅次于RBF SVM模型。
6種模型的一致性表現(xiàn)對比見表5中的Cohen Kappa系數(shù)。
依據(jù)文獻[12],LD、GNB這2種模型的穩(wěn)定性判斷結果最多只能表達為“適度正確”(moderate agreement),kNN、DT和ADA這3種模型在Cohen Kappa系數(shù)上均能表現(xiàn)出穩(wěn)定性判斷的“實質可行”(substantial agreement),SVM是幾類機器學習模型中表現(xiàn)最為優(yōu)秀的,可以達到“幾乎完美的論斷”(almost perfect agreement)。
綜合準確性與一致性的評價指標可知:①6種模型均表現(xiàn)出了合格的分類準確性,對于分類決策的一致性,除LD模型外,均具有合格的表現(xiàn);②RBF SVM模型具有最優(yōu)秀的性能,其余5種模型中,DT模型兼具高一致性和準確性,但其他模型相互之間的性能差距并不大[13-17]。
由于模型訓練時將失穩(wěn)狀態(tài)配置為正樣本,因
此高的查全率代表著系統(tǒng)更關注失去穩(wěn)定的正樣本,即系統(tǒng)更傾向于將模糊不清的狀態(tài)決策為不穩(wěn)定,此時分類模型表現(xiàn)出強的敏感性;反之,高的查準率代表更關注特異性,即分類模型傾向于將具有爭議的狀態(tài)決策為穩(wěn)定,從而減少犯錯的錯誤預警傾向。
根據(jù)圖2的混淆矩陣,可以得到測試數(shù)據(jù)中模型對應查全率和查準率的指標,見表5的查全率和查準率數(shù)據(jù)。
RBF SVM模型由于極佳的準確性,其查全率和查準率均表現(xiàn)良好且大抵相當。查準率較高、更傾向決策為正樣本的分類模型包括DT模型和ADA模型;而GNB模型和kNN模型則具有較高的查全率,更傾向于減少對不穩(wěn)定的誤報。
對于查全率和查準率的更深入分析需要采用Fβ度量進行判斷[13],結果見表5的Fβ度量。
當β=1.0時,查全率和查準率的調和平均即為Fβ(即通常意義上的F1度量),除RBF SVM模型外,DT模型的Fβ最高(0.882),表現(xiàn)最差的為LD模型(0.849)。
β=0.5時,指標傾向于決策為不穩(wěn)定的分類模型,此時DT模型和ADA模型具有較好的性能。
而β=2.0時,指標偏向于少進行預警的模型,此時GNB模型和kNN模型表現(xiàn)較好,但相比于β=0.5,除最差的LD模型(0.854)和最優(yōu)秀的RBF SVM模型(0.975),其余模型區(qū)別相對較小。
綜合特異性與敏感性指標的分析結果:①RBF SVM模型仍然是最優(yōu)秀的模型;②DT模型和ADA模型傾向于更安全運行狀態(tài),盡可能地對系統(tǒng)失穩(wěn)進行預報;③GNB模型和kNN模型表現(xiàn)為高的敏感性,盡可能地減少對系統(tǒng)的干預;④LD模型性能不佳。
各模型建模和預測的計算時間對比見表6。
表6 各模型建模和預測的計算時間對比Tab.6 Calculation time comparisons of modeling and forecasting of different models
可以看出,RBF SVM模型的優(yōu)秀表現(xiàn)是以極大的計算力代價作為補償?shù)摹=r間方面,ADA模型、RBF SVM模型和其他4類模型表現(xiàn)的差距明顯,均需要1 s以上;預測時間方面,ADA模型、RBF SVM模型同樣需要更長時間。更長的計算時間代表著需要更多的計算力去實現(xiàn)既定目標,因此,具有極佳性能的RBF SVM模型實際上反而可能不如GNB模型或DT模型更實用,這是由于電力系統(tǒng)穩(wěn)定性的預測過程往往需要在1 s內完成,笨重的分類模型可能無法滿足實際的時效性需求。
在DSG中需要探討究竟是敏感性還是特異性更重要。如前文所述,敏感性更高的分類模型傾向于“每次失穩(wěn)警告都正確發(fā)布”,特異性更高的分類模型傾向于“失穩(wěn)警告都盡可能全部發(fā)布”。
電力系統(tǒng)的3個特性——安全性、穩(wěn)定性和經(jīng)濟性——實際上是存在層次關系的,實際的系統(tǒng)中安全性永遠是第一位。安全的前提下系統(tǒng)的穩(wěn)定性不能被經(jīng)濟性順位取替,即使是智能電網(wǎng)也要按照正確的順序去考慮響應的系統(tǒng)問題[18-25]。
因此,DSG系統(tǒng)的穩(wěn)定性預測仍然需要在滿足精度的同時更注重敏感性的分類模型,即更多考慮Fβ,尤其是β=2.0乃至β>2.0時對分類模型的評價指標,此時可能DT、ADA、RBF SVM等更敏感的模型更具進一步研究的可行性。
RBF SVM性能強大但實際情況中可能無法滿足系統(tǒng)的需求,本質原因是高維度數(shù)據(jù)未進行維規(guī)約造成的“組合爆炸”[10,14,16]。
根據(jù)上述的對比,在實際應用過程中,可能GNB模型或DT模型更具有適用性;而在數(shù)據(jù)分析中,RBF SVM模型和ADA模型可能更具有適用性。
本文通過對DSG系統(tǒng)穩(wěn)定性數(shù)據(jù)進行分析,結合電力系統(tǒng)安全、穩(wěn)定、經(jīng)濟的需求,訓練尋優(yōu)得到了6種預測模型,并提出各模型對系統(tǒng)穩(wěn)定性預測的多角度評價指標。
RBF SVM模型適用于數(shù)據(jù)分析,其精度可達97.10%;DT模型適用于電力系統(tǒng)實時預報,其準確度可達84.90%。二者均采用高敏感性策略來確保DSG系統(tǒng)的安全性。在計算性能方面,DT模型更加優(yōu)異,其建模和預測的計算時間分別僅為RBF SVM模型的0.98%和1.59%,具有更高的實時性。