余佶成 周 峰 王江儲(chǔ) 謝從珍* 岳長(zhǎng)喜 朱 凱 楊建華
1(中國(guó)電力科學(xué)研究院有限公司 湖北 武漢 430074) 2(華南理工大學(xué)電力學(xué)院 廣東 廣州 510641) 3(國(guó)家電網(wǎng)公司華中分部 湖北 武漢 430077)
線損率綜合反映了電網(wǎng)的規(guī)劃、生產(chǎn)和管理水平,是考核電力部門(mén)的重要標(biāo)準(zhǔn)[1]。然而理論線損率計(jì)算的誤差會(huì)導(dǎo)致報(bào)表不準(zhǔn),難以反映實(shí)際線損情況,給線損管理帶來(lái)極大障礙。隨著線損精細(xì)化管理工作的推進(jìn),亟需精準(zhǔn)的線損率計(jì)算方法。
目前理論線損率計(jì)算方法[2-4]主要應(yīng)用電流法,包括最大負(fù)荷損耗時(shí)間法、損失因數(shù)法、代表日均方根電流法、電量法、負(fù)荷曲線特征系數(shù)法、等值電阻法、電壓損失法和改進(jìn)潮流法等。但由于輸電線路的運(yùn)行方式、桿塔參數(shù)及位置都不同,僅考慮電流、電壓等參數(shù)的理論線損率計(jì)算方法對(duì)于不同線路的泛用性有待研究。
近年來(lái),隨著智能電網(wǎng)的不斷發(fā)展,理論線損率計(jì)算方法對(duì)元件參數(shù)、運(yùn)行數(shù)據(jù)的精細(xì)化要求使其不再適應(yīng)智能電網(wǎng)下線損率計(jì)算快速性、泛用性的特點(diǎn),基于統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)的新方法,例如回歸分析、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等開(kāi)始受到關(guān)注,并得到了一些應(yīng)用。
文獻(xiàn)[5]基于改進(jìn)極限學(xué)習(xí)機(jī)算法構(gòu)建線損計(jì)算模型,通過(guò)蟻群算法對(duì)極限學(xué)習(xí)機(jī)模型進(jìn)行優(yōu)化構(gòu)建多維參量數(shù)據(jù)與線損的擬合模型,但該方法沒(méi)有克服蟻群算法可能造成的局部性問(wèn)題。文獻(xiàn)[6]考慮到不同線路網(wǎng)架結(jié)構(gòu)之間的關(guān)聯(lián)知識(shí),采用聚類(lèi)算法對(duì)線路進(jìn)行分類(lèi)提取線路類(lèi)別特征,并根據(jù)類(lèi)別的不同分別構(gòu)建神經(jīng)網(wǎng)絡(luò)模型,但經(jīng)過(guò)聚類(lèi)后單個(gè)聚類(lèi)模型訓(xùn)練數(shù)據(jù)的數(shù)量減少,得到的模型泛化性降低。文獻(xiàn)[7]通過(guò)層次分析算法選取部分強(qiáng)關(guān)聯(lián)因素,采用多灰色模型擬合關(guān)聯(lián)因素與線損率的關(guān)系,但層次分析法為主觀賦權(quán)的數(shù)據(jù)融合方式,難免存在一定的主觀局限性。以上方法通過(guò)分析供電量、線路長(zhǎng)度等理論線損率計(jì)算參量對(duì)線損率的影響構(gòu)建了回歸模型,但缺少對(duì)于歷史線損率、電壓等時(shí)序數(shù)據(jù)趨勢(shì)變化以及桿塔信息等多維信息的深度挖掘,模型學(xué)習(xí)的數(shù)據(jù)知識(shí)不完備,模型計(jì)算精度存在提升空間。
針對(duì)目前線損率計(jì)算方法存在的問(wèn)題,本文提出一種基于多維特征和GBDT模型的輸電線路線損率預(yù)測(cè)方法。針對(duì)線損率計(jì)算中存在的線損率信息、電壓電流等時(shí)序信息及線路本體信息,通過(guò)特征工程構(gòu)建能夠細(xì)致描述線路狀態(tài)的多維特征;然后通過(guò)GBDT模型擬合特征與線損率的關(guān)聯(lián)關(guān)系,建立輸電線路線損率預(yù)測(cè)模型,最后利用某省500 kV輸電線路實(shí)際數(shù)據(jù)驗(yàn)證該方法的有效性。
本文采用數(shù)據(jù)為某省31條500 kV以上輸電線路的實(shí)際線損相關(guān)信息,主要包括電能計(jì)量數(shù)據(jù)、氣象數(shù)據(jù)、潮流數(shù)據(jù)及線路本體數(shù)據(jù)四類(lèi)。其中電能計(jì)量數(shù)據(jù)包括數(shù)據(jù)采集日期、供電量和線損等電能表計(jì)量關(guān)聯(lián)數(shù)據(jù);氣象數(shù)據(jù)包括始末電站的小時(shí)內(nèi)降水量、溫濕度、風(fēng)速風(fēng)向和氣壓數(shù)據(jù);潮流數(shù)據(jù)包括母線端的電壓、電流、有功功率和無(wú)功功率數(shù)據(jù);線路本體數(shù)據(jù)包括投運(yùn)時(shí)間、電壓等級(jí)、線路總長(zhǎng)度、桿塔呼稱(chēng)高、桿塔檔距以及桿塔相序等。數(shù)據(jù)采集日期為2017年9月—2019年4月,總計(jì)10 200條數(shù)據(jù)。部分?jǐn)?shù)據(jù)樣本如圖1所示。
圖1 數(shù)據(jù)樣例
線路數(shù)據(jù)按式(1)計(jì)算線損率并用以替換線損數(shù)據(jù),得到原始數(shù)據(jù)。
(1)
指數(shù)加權(quán)移動(dòng)平均(Exponential Weighted Moving Average,EWMA)方法[8]通常用于計(jì)算中短期時(shí)間序列的發(fā)展趨勢(shì),其在考慮高權(quán)重的近期數(shù)據(jù)的同時(shí),通過(guò)逐漸減小數(shù)據(jù)的權(quán)重,補(bǔ)充遠(yuǎn)期數(shù)據(jù)反映的整體性趨勢(shì)。
考慮線損率信息的EWMA特征構(gòu)建流程如下:
對(duì)于某條線路的日線損率序列L=[l0,l1,…,ln],n為線損率序列樣本數(shù),第i天線損率的EWMA特征ei由式(2)計(jì)算。
(2)
式中:α為平滑參數(shù),α取值范圍為(0,1]。采用差分進(jìn)化法[9]最小化目標(biāo)函數(shù)以得到最優(yōu)α值,目標(biāo)函數(shù)θ計(jì)算如下:
(3)
由式(2)可知,若日線損率序列按日期順序排序,第n+1天后的EWMA特征將不變,難以描述3天以后的線損率情況。
考慮到線損率與供電量峰谷的時(shí)間分布的相關(guān)性,將線損率序列數(shù)據(jù)按星期情況拆分為星期一、星期二、星期三、星期四、星期五與周末六類(lèi),每類(lèi)數(shù)據(jù)按式(2)計(jì)算,得到六類(lèi)EWMA特征,再次按日期順序拼接六類(lèi)EWMA特征,得到變化的計(jì)算日后7天內(nèi)的EWMA特征[en+1,en+2…,en+7]。
氣象、電壓和電流等信息為時(shí)序數(shù)據(jù),挖掘時(shí)序數(shù)據(jù)在一定時(shí)窗內(nèi)的統(tǒng)計(jì)量特征能夠細(xì)化描述當(dāng)時(shí)線路的實(shí)際線損情況。
(4)
(5)
每類(lèi)影響量拓展為4類(lèi)統(tǒng)計(jì)量特征,圖2為電流拓展的統(tǒng)計(jì)量特征。
圖2 統(tǒng)計(jì)量特征樣例
線路本體信息是多類(lèi)異構(gòu)數(shù)據(jù)的集合,其中線路信息如電壓等級(jí)、投運(yùn)時(shí)間等為固定參數(shù),能夠直接作為線路特征描述線路狀況,而線路桿塔信息則存在數(shù)值型信息如呼稱(chēng)高、檔距等,以及類(lèi)別型信息如相序、桿塔地形地質(zhì)等,且線路中每基桿塔的信息不完全一樣,無(wú)法直接作為線路特征。
對(duì)于數(shù)字型信息,提取平均值作為線路特征,例如線路呼稱(chēng)高特征為線路內(nèi)所有基桿塔呼稱(chēng)高的平均值。
對(duì)于類(lèi)別型信息,采用獨(dú)熱編碼[10]構(gòu)造線路特征。獨(dú)熱編碼采用不同位的狀態(tài)寄存器來(lái)對(duì)多個(gè)狀態(tài)進(jìn)行編碼,任意時(shí)刻只有一位有效。對(duì)于類(lèi)別型信息K,K存在NK個(gè)狀態(tài),K參數(shù)處于l狀態(tài)的第i條線路的第j基桿塔在經(jīng)過(guò)獨(dú)熱編碼后得到序列Kij如下:
(6)
將線路每條桿塔的狀態(tài)位對(duì)應(yīng)加和,得到線路特征Ki,如式(7)所示,其中Ntower為線路桿塔數(shù)。
(7)
例如,相序信息總計(jì)包含“ABC”“BCA”“CAB”“ACB”“BAC”和“CAB”總計(jì)6類(lèi)狀態(tài),則對(duì)于有4基桿塔的線路的相序線路特征如表1所示。
表1 4基桿塔線路的相序線路特征構(gòu)建
由于上文中構(gòu)建的多維特征不僅有電壓、電流等數(shù)值型數(shù)據(jù),也存在如桿塔類(lèi)型、相序等類(lèi)別型數(shù)據(jù)。本文采用能夠靈活處理各種類(lèi)型數(shù)據(jù)的GBDT模型作為機(jī)器學(xué)習(xí)擬合模型,GBDT模型[11]是一種融合多個(gè)樹(shù)模型計(jì)算結(jié)果,不斷減少模型在訓(xùn)練過(guò)程中產(chǎn)生的殘差以實(shí)現(xiàn)數(shù)據(jù)的分類(lèi)或回歸的集成模型。相比于依賴(lài)數(shù)值型數(shù)據(jù),優(yōu)化高維特征空間距離的常見(jiàn)機(jī)器學(xué)習(xí)算法,GBDT模型每次對(duì)一個(gè)特征進(jìn)行劃分,對(duì)于類(lèi)別型數(shù)據(jù)也有很好的擬合效果。
對(duì)于給定線損率預(yù)測(cè)數(shù)據(jù)D=[ZT,yT],N為樣本數(shù)量,Z=[Z1,Z2,…,Zi,…,ZN]為輸入的多維信息特征,i=1,2,…,N,y=[y1,y2,…,yN]為輸出線損率值。GBDT預(yù)測(cè)模型的構(gòu)建流程如下:
(1) 初始化模型。估計(jì)使損失函數(shù)L(yi,γ)最小的模型參數(shù)γ,將其作為初始模型f0(Zi),即:
(8)
(2) 設(shè)T為迭代次數(shù),對(duì)于第t次迭代,t=1,2,…,T,執(zhí)行以下步驟①-步驟④。
① 按下式計(jì)算當(dāng)前模型損失函數(shù)與模型的負(fù)梯度rit,即殘差:
(9)
② 將rit作為樣本Zi新的標(biāo)簽,得到新的樣本數(shù)據(jù)集[(Zi,rit),i=1,2,…,N],將其作為新的訓(xùn)練數(shù)據(jù),擬合得到下一棵回歸樹(shù)模型,新的樹(shù)模型由葉子節(jié)點(diǎn)Rjt(j=1,2,…,J)組成。J為回歸樹(shù)模型的葉子節(jié)點(diǎn)數(shù)。
③ 對(duì)每個(gè)葉子節(jié)點(diǎn)Rjt,計(jì)算樣本的最佳擬合值γjt。
(10)
④ 更新第t次迭代的模型:
(11)
式中:I(Zi∈Rjt)為指示函數(shù),當(dāng)樣本Zi屬于葉子節(jié)點(diǎn)Rjt時(shí),該函數(shù)值為1,否則為0。
(3) 輸出最終模型fT(Zi)。
(12)
如圖3所示,通過(guò)T棵樹(shù)的迭代、組合,得到最終的GBDT回歸模型。
圖3 GBDT模型示意圖
基于多維特征和GBDT模型的輸電線路線損率預(yù)測(cè)模型建模流程如圖4所示。
圖4 輸電線路線損率預(yù)測(cè)建模流程
數(shù)據(jù)預(yù)處理首先對(duì)31條輸電線路原始數(shù)據(jù)去除異常值。根據(jù)線損理論,設(shè)置線損率在[-10%,10%]為正常值。去除異常值后對(duì)數(shù)據(jù)集劃分訓(xùn)練集及測(cè)試集,對(duì)每條線路數(shù)據(jù)按時(shí)間提取2019年3月后的數(shù)據(jù)作為測(cè)試集,剩余為訓(xùn)練集,訓(xùn)練集總計(jì)9 434條,測(cè)試集總計(jì)677條。記錄測(cè)試集的線損率數(shù)據(jù)作為模型驗(yàn)證依據(jù),將其統(tǒng)一賦值為0用于測(cè)試。
按2.1節(jié)-2.3節(jié)所述統(tǒng)一對(duì)訓(xùn)練集和測(cè)試集計(jì)算EWMA特征、統(tǒng)計(jì)量特征及線路特征,形成模型的訓(xùn)練數(shù)據(jù)及測(cè)試數(shù)據(jù)。
本文基于lightgbm[12]庫(kù)構(gòu)建GBDT線損率預(yù)測(cè)模型。針對(duì)模型的過(guò)擬合問(wèn)題,本文通過(guò)控制訓(xùn)練參數(shù)實(shí)現(xiàn),包括回歸樹(shù)的最大深度、葉子節(jié)點(diǎn)數(shù)等。其次,在建模訓(xùn)練過(guò)程中采用31條不同的輸電線路數(shù)據(jù)進(jìn)行訓(xùn)練,引入多條不同環(huán)境工況特征的輸電線路數(shù)據(jù)相當(dāng)于實(shí)現(xiàn)數(shù)據(jù)增強(qiáng),減小過(guò)擬合的情況。相應(yīng)的訓(xùn)練參數(shù)如下:回歸樹(shù)最大深度為5;回歸樹(shù)的葉子節(jié)點(diǎn)數(shù)量為31;學(xué)習(xí)率為0.05;采用均方根誤差(RMSE)作為損失函數(shù)。
采用第3.2節(jié)得到的測(cè)試數(shù)據(jù)作為算例驗(yàn)證。采用均方根誤差ERMSE作為驗(yàn)證誤差指標(biāo),計(jì)算公式如下:
(13)
式中:Vobservedi為第i個(gè)樣本的實(shí)際值;Vpredictedi為預(yù)測(cè)的線損率;N為樣本總數(shù)。
為了驗(yàn)證模型有效性,構(gòu)建以下模型作為對(duì)比:
(1) 不考慮多維特征的支持向量機(jī)模型,訓(xùn)練參數(shù)如下:采用徑向基核函數(shù)訓(xùn)練,懲罰因子C設(shè)為100,r為0.1。輸入為原始電能計(jì)量數(shù)據(jù)、氣象和潮流數(shù)據(jù),輸出為線損率,簡(jiǎn)稱(chēng)支持向量機(jī)模型。
(2) 不考慮多維特征的GBDT模型,訓(xùn)練過(guò)程如3.3節(jié)所述,輸入為原始電能計(jì)量數(shù)據(jù)、氣象和潮流數(shù)據(jù),輸出為線損率,簡(jiǎn)稱(chēng)原始GBDT模型。
驗(yàn)證結(jié)果如表2所示,模型在部分驗(yàn)證數(shù)據(jù)的計(jì)算情況如圖5所示。
表2 模型驗(yàn)證測(cè)試結(jié)果
圖5 模型驗(yàn)證結(jié)果
根據(jù)表2和圖5可知,GBDT模型相較于傳統(tǒng)的支持向量機(jī)在模型擬合上有較大優(yōu)勢(shì)。而相比于原始GBDT模型,采用了多維特征的本文模型在模型精度上有了進(jìn)一步的提升,線損率誤差指標(biāo)下降15.1%,線損率誤差降至0.703%,而相對(duì)于支持向量機(jī)模型,線損率誤差減少84.5%,能夠滿(mǎn)足實(shí)際業(yè)務(wù)計(jì)算需求,驗(yàn)證了本文方法的有效性。
多維信息的高效利用是線損率計(jì)算模型精度的提升的關(guān)鍵,本文利用特征工程方法,構(gòu)建輸電線路線損率信息的多維特征,并利用GBDT模型構(gòu)建輸電線路線損率預(yù)測(cè)模型。主要結(jié)論如下:
(1) 提出了一種針對(duì)輸電線路多維特征構(gòu)建方法。該方法對(duì)多維信息進(jìn)行挖掘,構(gòu)建線損率EWMA特征、時(shí)序數(shù)據(jù)統(tǒng)計(jì)量特征以及線路本體的線路特征,從更精確、更細(xì)致的角度描述輸電線路的實(shí)際工況及線損率的趨勢(shì)情況。
(2) 結(jié)合特征工程挖掘的多維特征,通過(guò)GBDT模型對(duì)輸電線路線損率進(jìn)行模型擬合,構(gòu)建輸電線路線損率預(yù)測(cè)模型。
(3) 以某省31條500 kV輸電線路實(shí)際數(shù)據(jù)為例,構(gòu)建輸電線路線損率預(yù)測(cè)模型。結(jié)果表明,該預(yù)測(cè)模型的線損率誤差為0.703%,相比于支持向量機(jī)模型,均方根誤差下降84.5%,相比于無(wú)多維特征的GBDT模型,均方根誤差下降15.1%。