雷振華,李小云,陳屹東,陳芃起,李雯樂
(湖南省電力有限公司經(jīng)濟(jì)技術(shù)研究院,湖南 長(zhǎng)沙 410007)
隨著大數(shù)據(jù)時(shí)代的來臨,各行業(yè)的數(shù)據(jù)量均在急劇增加。為了促進(jìn)雙碳目標(biāo)的實(shí)現(xiàn),電網(wǎng)的建設(shè)速度持續(xù)加快且項(xiàng)目種類愈加豐富,導(dǎo)致電力工程數(shù)據(jù)的規(guī)模越來越大、類型也更為復(fù)雜。由于傳統(tǒng)的數(shù)據(jù)管理方法已無法滿足當(dāng)前電力工程的需求,亟需一種新的方法來實(shí)現(xiàn)對(duì)相關(guān)數(shù)據(jù)的分類和處理[1-2]。目前常用的數(shù)據(jù)分析管理算法主要有聚類和分類兩種,包含K-means聚類、K-Medodis聚類、樸素貝葉斯(naive Bayes,NB)分類以及K最近鄰(K-nearest neighbor,KNN)分類算法等[3-6]。文獻(xiàn)[7]利用K-means算法對(duì)電力工程數(shù)據(jù)進(jìn)行了聚類分析研究。該算法能夠有效提高數(shù)據(jù)分類的效率。但傳統(tǒng)K-means聚類的K值選取存在不確定性,同時(shí)電力數(shù)據(jù)與簇中心點(diǎn)的相關(guān)性也偏弱。這會(huì)導(dǎo)致分類結(jié)果出現(xiàn)較大誤差,從而影響數(shù)據(jù)分類結(jié)果的準(zhǔn)確性。
為了解決上述問題,本文提出了1種基于改進(jìn)K-means聚類算法和長(zhǎng)短期記憶(long short-term memory,LSTM)神經(jīng)網(wǎng)絡(luò)的電力工程數(shù)據(jù)自動(dòng)分類提取與分析技術(shù)。首先,本文基于閾值判定來選擇K值,即將每個(gè)應(yīng)用場(chǎng)景聚類所設(shè)置的閾值進(jìn)行對(duì)比,選擇出理想的K值,并使其與電力工程的數(shù)據(jù)相匹配。其次,本文采用屬性加權(quán)法對(duì)空間距離進(jìn)行優(yōu)化,并通過對(duì)數(shù)據(jù)點(diǎn)間的距離賦予附加權(quán)值來進(jìn)一步凸顯數(shù)據(jù)之間的關(guān)聯(lián)程度。最后,本文利用LSTM神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)間的特征進(jìn)行自適應(yīng)學(xué)習(xí),從而實(shí)現(xiàn)工程數(shù)據(jù)的分析與預(yù)測(cè)。
K-means是1種基于劃分思想的典型聚類算法。其主要原理是將原始數(shù)據(jù)集劃分為若干個(gè)簇,進(jìn)而令待分類數(shù)據(jù)集內(nèi)具有較高相似度的簇互相分離[8-9]。該算法具有收斂性能良好、分類過程簡(jiǎn)便且速度較快的優(yōu)勢(shì)。K-means聚類算法的計(jì)算流程如圖1所示。
圖1 K-means聚類算法的計(jì)算流程圖
K-means聚類算法在計(jì)算時(shí)所使用的K值均是隨機(jī)選取的。這會(huì)導(dǎo)致分類結(jié)果有所不同,存在一定的不穩(wěn)定性。同時(shí),對(duì)于不同場(chǎng)景和類型的數(shù)據(jù)而言,其分類結(jié)果也不盡相同。在應(yīng)用中通常采用反推逆向法來解決這一問題。反推逆向法即根據(jù)不同的K值得出其相應(yīng)的分類結(jié)果,并依據(jù)該結(jié)果選擇最佳的K值。這種方法在絕大多數(shù)的應(yīng)用中均能解決問題。然而,電力工程數(shù)據(jù)龐大且種類繁雜,使用此種方法不僅效率低下,而且效果不理想。
針對(duì)上述問題,本文提出了1種基于閾值判定的K值選取方法。在電力工程的各類數(shù)據(jù)中,同一類型、同一級(jí)別區(qū)域的數(shù)據(jù)均會(huì)集中在一定的范圍內(nèi),因此可以給該范圍內(nèi)的數(shù)據(jù)設(shè)定1個(gè)距離閾值,并計(jì)算每個(gè)簇中的數(shù)據(jù)到該簇聚類中心的距離。若該距離小于設(shè)定的閾值,說明該聚類中心可以代表該簇;反之,則表示該聚類中心無法完全代表該簇,即K值選取不合理,需要重新選擇。
K值選取的具體步驟如下。
①選取待分類電力工程數(shù)據(jù)集D′={l1,l2,…,lp-1,lp},并設(shè)聚類數(shù)值為K。
②計(jì)算任意2個(gè)樣本間的空間距離d(li,lj)與每個(gè)樣本聚類中心的空間距離d(lm,lk)。
(1)
式中:x和y為2個(gè)樣本點(diǎn)的坐標(biāo);d(x,y)為兩個(gè)樣本點(diǎn)間的歐氏距離。
③計(jì)算任意2個(gè)樣本間的平均空間距離d。
(2)
④計(jì)算當(dāng)前數(shù)據(jù)集中的閾值q:
q=∑|d-d(li,lj)|
(3)
⑤比較所有d(lm,lk)及q的大小。當(dāng)大多數(shù)的d(lm,lk)大于閾值時(shí),說明當(dāng)前聚類中心能夠代表該簇,且K值的選擇也是合理的;否則,K值加1,并重復(fù)步驟②~步驟④,直至滿足條件。
在常規(guī)的應(yīng)用場(chǎng)景中,采用歐幾里得式可計(jì)算出2個(gè)數(shù)據(jù)點(diǎn)的空間距離,進(jìn)而衡量前2個(gè)數(shù)據(jù)間的關(guān)系。這種方法可行[10]。但隨著電力系統(tǒng)中的能源種類越來越多,相關(guān)工程數(shù)據(jù)也愈加復(fù)雜。若僅依靠簡(jiǎn)單的歐幾里得式,會(huì)導(dǎo)致電力數(shù)據(jù)的分類結(jié)果存在較大的偏差,難以正確體現(xiàn)出數(shù)據(jù)的真實(shí)特性。例如,在電力工程造價(jià)數(shù)據(jù)中就存在天氣、地形、負(fù)荷需求等不確定因素。當(dāng)數(shù)據(jù)點(diǎn)與簇中的聚集中心較遠(yuǎn)時(shí),通過歐幾里得式計(jì)算出的結(jié)果會(huì)存在距離過大以及相關(guān)性偏弱的問題。但實(shí)際上,該數(shù)據(jù)點(diǎn)與簇中心的相關(guān)性較強(qiáng)。針對(duì)上述問題,本文提出了1種屬性加權(quán)優(yōu)化空間距離算法,通過附加權(quán)重突出數(shù)據(jù)點(diǎn)與簇中心的相關(guān)性。以地形因素為例,其權(quán)重值Wp可定義為:
(4)
式中:D″為地形數(shù)據(jù);g為地形系數(shù),代表不同地形的情況,且地形越復(fù)雜,g值越大。
經(jīng)過優(yōu)化后的空間距離dij可以表示為:
(5)
通過給不同數(shù)據(jù)賦予不同的權(quán)重,可以突顯出數(shù)據(jù)間的相關(guān)性。
電力系統(tǒng)的智能設(shè)備在采集數(shù)據(jù)時(shí)偶爾會(huì)出現(xiàn)故障,使得所采集的數(shù)據(jù)存在缺失、異常等問題,從而在對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)和處理時(shí)產(chǎn)生不良影響。因此,有必要對(duì)異常數(shù)據(jù)進(jìn)行清理,即剔除重復(fù)性數(shù)據(jù)、利用差值法填充缺失數(shù)據(jù),并對(duì)含有噪聲的數(shù)據(jù)進(jìn)行降噪和去噪處理。
電力工程數(shù)據(jù)的數(shù)量眾多、類型繁雜且數(shù)值較大。為了提高算法的迭代速度并實(shí)現(xiàn)模型的快速收斂,需要對(duì)原始數(shù)據(jù)進(jìn)行歸一化處理,并將其縮小到(0,1]范圍之內(nèi)。本文采用最大最小值歸一化式對(duì)數(shù)據(jù)進(jìn)行處理。
(6)
式中:xr為經(jīng)歸一化處理后的數(shù)據(jù);xmax、xmin分別為原始電力數(shù)據(jù)中的最大值與最小值。
在數(shù)據(jù)分類中,通常采用準(zhǔn)確率和容錯(cuò)率對(duì)算法的分類效果進(jìn)行評(píng)價(jià)。本文也使用了這2個(gè)評(píng)價(jià)指標(biāo)。
在數(shù)據(jù)分類完成之后,本文利用麻雀搜索算法(sparrow search algorithm,SSA)[11-12]優(yōu)化了參數(shù)設(shè)置的LSTM神經(jīng)網(wǎng)絡(luò),以實(shí)現(xiàn)對(duì)電力工程數(shù)據(jù)的預(yù)測(cè)功能。對(duì)于預(yù)測(cè)結(jié)果則采用平均絕對(duì)誤差(mean absolute error,MAE)、均方根誤差(root mean square error,RMSE)及決定系數(shù)(R2)進(jìn)行評(píng)價(jià)。
(7)
(8)
式中:RMSE為RMSE值。
(9)
本文通過算例試驗(yàn),驗(yàn)證所提改進(jìn)K-means聚類算法是否能夠快速、準(zhǔn)確地對(duì)電力工程數(shù)據(jù)進(jìn)行分類,并有效預(yù)測(cè)出相應(yīng)的工程數(shù)據(jù)。算例分析試驗(yàn)所采用的數(shù)據(jù)集為澳大利亞某地區(qū)2017—2020年的相關(guān)真實(shí)數(shù)據(jù)。這些公開數(shù)據(jù)集記錄了電力系統(tǒng)輸電、配電等工程的歷史造價(jià)、環(huán)境和評(píng)估指標(biāo)。數(shù)據(jù)主要包括電壓等級(jí)、土地面積、建筑工程、設(shè)備配置、生產(chǎn)過程、天氣狀況和地形條件等信息。
試驗(yàn)硬件平臺(tái)為Intel Core i7-4500M CPU/16 GB RAM GPU/NVIDIA GT880M;軟件平臺(tái)為Windows 11操作系統(tǒng)常用的Jupyter Notebook編輯器。試驗(yàn)采用Python語言基于Tensorflow2.1 GPU進(jìn)行算法搭建。
為了驗(yàn)證所提改進(jìn)K-means聚類算法分類的有效性,本文將其與傳統(tǒng)的K-means聚類、K-Medodis聚類、模糊聚類、NB分類以及KNN分類算法進(jìn)行對(duì)比。為了避免隨機(jī)性,每個(gè)聚類模型均進(jìn)行20次的仿真試驗(yàn)。各算法的分類結(jié)果對(duì)比如表1所示。
表1 各算法的分類結(jié)果對(duì)比
由表1可知,與傳統(tǒng)K-means聚類算法相比,改進(jìn)的K-means聚類算法準(zhǔn)確性及容錯(cuò)率分別提高了13.5%及18%。其原因在于K值的選取對(duì)K-means聚類算法的分類結(jié)果會(huì)有較大影響。雖然改進(jìn)后的算法在自動(dòng)化選取K值時(shí)多花費(fèi)了0.9 s,但整體耗費(fèi)時(shí)間對(duì)運(yùn)算的影響較小,故犧牲少量的時(shí)間成本來獲得準(zhǔn)確性更高的分類性能是值得的。綜合對(duì)比,改進(jìn)算法的分類效果在所有對(duì)比算法中最佳。
基于改進(jìn)K-means聚類算法的數(shù)據(jù)分類結(jié)果,本文首先利用LSTM神經(jīng)網(wǎng)絡(luò)構(gòu)建了工程數(shù)據(jù)的預(yù)測(cè)算法,然后利用SSA對(duì)LSTM神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)參數(shù)設(shè)置加以優(yōu)化。為了驗(yàn)證所提SSA-LSTM算法能夠滿足實(shí)際的應(yīng)用,本文將其與LSTM、遺傳算法(genetic alginthm,GA)-LSTM、粒子群優(yōu)化(particle swarm optimization,PSO)-LSTM及蝙蝠算法(bat algorithm,BA)-LSTM進(jìn)行了對(duì)比測(cè)試。在本文所用造價(jià)數(shù)據(jù)集上進(jìn)行的各算法的數(shù)據(jù)預(yù)測(cè)結(jié)果對(duì)比如表2所示。
表2 各算法的數(shù)據(jù)預(yù)測(cè)結(jié)果對(duì)比
由表2可知,與常用的預(yù)測(cè)算法相比,所提SSA-LSTM算法的平均誤差最小,RMSE與MAE至少分別降低了186元和302元,而R2則至少提高了6%。由此可得,所提SSA-LSTM算法可以快速、有效地實(shí)現(xiàn)電力工程數(shù)據(jù)的分類,且能夠高精度、自動(dòng)地預(yù)測(cè)出相關(guān)的工程數(shù)據(jù)。
為了能夠充分利用電力工程的信息數(shù)據(jù)庫(kù)并得到高精度的工程數(shù)據(jù)預(yù)測(cè)結(jié)果,進(jìn)而為電力工程的精細(xì)化管理提供數(shù)據(jù)支撐,本文設(shè)計(jì)了1種基于改進(jìn)K-means聚類算法與LSTM神經(jīng)網(wǎng)絡(luò)的電力工程數(shù)據(jù)自動(dòng)分類提取與分析技術(shù)。經(jīng)過理論設(shè)計(jì)與測(cè)試分析可知,所提基于閾值判定的K值選取方法通過自動(dòng)化選取最優(yōu)K值,解決了傳統(tǒng)K-means聚類算法因K值的不確定性而導(dǎo)致的最終分類結(jié)果不穩(wěn)定的問題。本文采用屬性加權(quán)的思想對(duì)空間距離的計(jì)算方法進(jìn)行優(yōu)化,通過對(duì)不同類型的數(shù)據(jù)賦予不同權(quán)重,突出簇中樣本數(shù)據(jù)與聚類中心的相關(guān)性,進(jìn)一步提高了分類算法的準(zhǔn)確性及容錯(cuò)性。同時(shí),本文還在高準(zhǔn)確性分類結(jié)果的基礎(chǔ)上,構(gòu)建了基于SSA改進(jìn)的LSTM工程造價(jià)預(yù)測(cè)算法。該算法對(duì)LSTM的參數(shù)結(jié)構(gòu)進(jìn)行優(yōu)化后,預(yù)測(cè)精度得到了顯著提高,能夠滿足目前對(duì)電力工程造價(jià)數(shù)據(jù)進(jìn)行處理的需求。
后續(xù)研究可以在本文基礎(chǔ)上增加超參數(shù)的數(shù)量和復(fù)雜度,以進(jìn)一步提高預(yù)測(cè)精度。