楊文生,葉寶玉,周文奇,師瀟然,宦曉超
(1.內(nèi)蒙古電力經(jīng)濟(jì)技術(shù)研究院,內(nèi)蒙古 呼和浩特 010090;2.內(nèi)蒙古電力(集團(tuán))有限責(zé)任公司,內(nèi)蒙古呼和浩特 010090)
近年來,隨著大數(shù)據(jù)、云計(jì)算等技術(shù)的發(fā)展,數(shù)據(jù)分析模型在電力工程數(shù)據(jù)的應(yīng)用中發(fā)揮著重要作用。通過對電力工程數(shù)據(jù)采用聚類、分類、回歸等模型進(jìn)行處理,可以有效提取其中蘊(yùn)含的各類信息,從而結(jié)合電力工程建設(shè)的實(shí)際個性化特點(diǎn),實(shí)現(xiàn)對其造價分析[1]、評審、控制[2]、建設(shè)監(jiān)督[3]等方面的一系列應(yīng)用,為電力工程建設(shè)提供科學(xué)的數(shù)據(jù)依據(jù)與客觀的評價標(biāo)準(zhǔn),提高工程效益,促進(jìn)精益化、集約化管理。
在電力工程的一系列數(shù)據(jù)分析模型中,聚類分析是一項(xiàng)重要而基礎(chǔ)的模型[4]?;诰垲惸P停梢詫Υ罅繑?shù)據(jù)的潛在規(guī)律進(jìn)行挖掘,或從無規(guī)律的原始數(shù)據(jù)中提取信息,為進(jìn)一步的數(shù)據(jù)分析提供基礎(chǔ)。為了構(gòu)建有效的電力工程數(shù)據(jù)聚類模型,文獻(xiàn)[5]采用粒子群算法對聚類模型的數(shù)據(jù)噪聲處理能力進(jìn)行提升,提高模型的擬合精度;為解決聚類過程中的數(shù)據(jù)缺失問題,文獻(xiàn)[6]提出了基于密度聚類算法的數(shù)據(jù)模型,提高了針對數(shù)據(jù)完整度較低情況下的聚類處理能力;文獻(xiàn)[7]提出了基于DBSCAN 聚類算法的數(shù)據(jù)分析模型,實(shí)現(xiàn)對缺失數(shù)據(jù)的快速查找與形態(tài)分析。
然而隨著數(shù)據(jù)采集技術(shù)的發(fā)展,數(shù)據(jù)采集范圍不斷擴(kuò)展,電力工程數(shù)據(jù)的維度也隨之提高[8],導(dǎo)致數(shù)據(jù)集的規(guī)模日趨龐大[9]。傳統(tǒng)聚類模型受“維數(shù)災(zāi)難”問題的影響,難以實(shí)現(xiàn)高維電力工程數(shù)據(jù)的有效分析處理。為此,基于深度神經(jīng)網(wǎng)絡(luò)技術(shù)提出了一種電力工程數(shù)據(jù)聚類模型。該模型應(yīng)用深度受限玻爾茲曼機(jī)神經(jīng)網(wǎng)絡(luò),將原始的高維電力工程數(shù)據(jù)映射到低維空間,在保留原始數(shù)據(jù)信息的同時,有效提高了聚類模型的處理能力。
電力工程數(shù)據(jù)的聚類是指按照電力工程數(shù)據(jù)集合中每條數(shù)據(jù)的特征,例如電力工程的電壓等級、容量、建設(shè)面積、地理信息等維度的信息,將具備相近特征的數(shù)據(jù)劃分為一個集合的過程。給定一個電力工程數(shù)據(jù)集X,其包含n條數(shù)據(jù),通過設(shè)計(jì)合理的聚類模型,對輸入輸出進(jìn)行計(jì)算,將X劃分為c個子集合,使相同子集合的數(shù)據(jù)包含相近的特征[10]。
為解決高維電力工程數(shù)據(jù)的聚類問題,該文利用深度神經(jīng)網(wǎng)絡(luò)技術(shù)設(shè)計(jì)了一種電力工程數(shù)據(jù)聚類模型,該模型的主要步驟如下:
1)數(shù)據(jù)預(yù)處理:對高維電力工程數(shù)據(jù)進(jìn)行預(yù)處理,對于非數(shù)字化特征,通過規(guī)則轉(zhuǎn)化為數(shù)字化特征,并將所有的特征轉(zhuǎn)化到[0,1]范圍內(nèi),從而實(shí)現(xiàn)數(shù)據(jù)的標(biāo)準(zhǔn)化與歸一化;
2)深度神經(jīng)網(wǎng)絡(luò)計(jì)算:應(yīng)用深度受限玻爾茲曼機(jī)神經(jīng)網(wǎng)絡(luò)進(jìn)行無監(jiān)督學(xué)習(xí),從而將原始高維的電力工程數(shù)據(jù)特征轉(zhuǎn)化為低維數(shù)據(jù)特征;
3)模糊聚類:在轉(zhuǎn)化后的低維數(shù)據(jù)集上,應(yīng)用模糊聚類算法對數(shù)據(jù)集進(jìn)行迭代計(jì)算,從而得到新數(shù)據(jù)集上的聚類結(jié)果;
4)輸出聚類結(jié)果:因?yàn)樵趹?yīng)用深度神經(jīng)網(wǎng)絡(luò)的過程中,數(shù)據(jù)樣本未發(fā)生變化,因此根據(jù)在低維空間上得到的聚類結(jié)果,即可直接得到原始數(shù)據(jù)的聚類結(jié)果。模型的流程圖,如圖1 所示。
為解決高維電力工程數(shù)據(jù)聚類過程中面臨的“維數(shù)災(zāi)難”問題,需要對高維數(shù)據(jù)進(jìn)行降維處理。在降維過程中,需要盡可能多地保留原始數(shù)據(jù)中包含的信息。因此需要在降維時對數(shù)據(jù)進(jìn)行非線性轉(zhuǎn)化,通過非線性映射保留數(shù)據(jù)中的原始信息,并轉(zhuǎn)化為低維數(shù)據(jù)。
為滿足以上要求,在建立聚類模型的過程中,使用深度受限玻爾茲曼機(jī)神經(jīng)網(wǎng)絡(luò)對原始數(shù)據(jù)進(jìn)行無監(jiān)督學(xué)習(xí),從而將原始高維數(shù)據(jù)轉(zhuǎn)化為低維數(shù)據(jù)。
深度受限玻爾茲曼機(jī)[11]是一種基于隨機(jī)理論的深度神經(jīng)網(wǎng)絡(luò),由多層受限玻爾茲曼機(jī)構(gòu)成。通過增加神經(jīng)網(wǎng)絡(luò)的層數(shù),使神經(jīng)網(wǎng)絡(luò)中包含了大量的神經(jīng)單元、參數(shù),從而可以用來近似表達(dá)任意的復(fù)雜非線性映射,通過對數(shù)據(jù)集的學(xué)習(xí)來記憶這一映射關(guān)系[12]。
深度受限玻爾茲曼機(jī)在訓(xùn)練的過程中,需要進(jìn)行數(shù)據(jù)的輸入和輸出運(yùn)算,才能得到高維數(shù)據(jù)與低維數(shù)據(jù)的映射關(guān)系。為此,在建立模型的過程中,需要構(gòu)建神經(jīng)網(wǎng)絡(luò)優(yōu)化的目標(biāo)函數(shù)進(jìn)行迭代學(xué)習(xí)和優(yōu)化。目標(biāo)函數(shù)優(yōu)化的過程中,達(dá)到高維數(shù)據(jù)與低維數(shù)據(jù)之間的結(jié)構(gòu)和關(guān)系盡可能相似的目的。為此,引入條件概率的概念,通過對高維數(shù)據(jù)和低維數(shù)據(jù)條件概率的計(jì)算,對數(shù)據(jù)之間的結(jié)構(gòu)和關(guān)系進(jìn)行衡量。從而在高維數(shù)據(jù)和低維數(shù)據(jù)的非線性轉(zhuǎn)換過程中,保持原始數(shù)據(jù)中的信息。
在引入條件概率進(jìn)行的計(jì)算時,為了測量各個數(shù)據(jù)之間的相似性,使用高斯分布來進(jìn)行測量。通過高斯分布的計(jì)算,數(shù)據(jù)之間的歐式距離轉(zhuǎn)換成為了概率分布。兩個數(shù)據(jù)樣本之間的條件概率可以通過式(1)計(jì)算得到:
其中,||·||為數(shù)據(jù)之間的歐式距離,σ為標(biāo)準(zhǔn)差。
通過以上由高斯分布計(jì)算得到的條件概率可知,經(jīng)過高維數(shù)據(jù)和低維數(shù)據(jù)的非線性轉(zhuǎn)換后,原本在高維數(shù)據(jù)中相似的數(shù)據(jù)之間,轉(zhuǎn)化為低維數(shù)據(jù)后其相互之間的距離也應(yīng)該更近;而原本在高維數(shù)據(jù)中不相似的數(shù)據(jù)之間,轉(zhuǎn)化為低維數(shù)據(jù)后其相互之間的距離也應(yīng)該較大。此時,原始數(shù)據(jù)中的信息得到了保留。
深度受限玻爾茲曼機(jī)在訓(xùn)練的過程中,以高維數(shù)據(jù)與低維數(shù)據(jù)之間的相似程度最大為訓(xùn)練目標(biāo),不斷進(jìn)行迭代學(xué)習(xí)。通過大量的神經(jīng)單元和參數(shù)實(shí)現(xiàn)了復(fù)雜的非線性映射,從而將原始高維數(shù)據(jù)轉(zhuǎn)化為低維數(shù)據(jù)并保留數(shù)據(jù)中的信息。
深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練流程圖,如圖2 所示。
經(jīng)過深度神經(jīng)網(wǎng)絡(luò)的非線性映射,實(shí)現(xiàn)了原始高維數(shù)據(jù)到低維數(shù)據(jù)的轉(zhuǎn)化,并保留數(shù)據(jù)中的信息。在低維數(shù)據(jù)中應(yīng)用模糊聚類算法,可以得到有效的聚類結(jié)果。
模糊聚類算法是一種應(yīng)用廣泛的迭代計(jì)算數(shù)據(jù)聚類算法[13]。在該算法中,引入了模糊理論中的隸屬度函數(shù),從而使得一個數(shù)據(jù)樣本可以同時從屬于幾個不同的聚類,并通過隸屬度對屬于各個聚類的程度進(jìn)行衡量[14]。與K 均值聚類算法相比,模糊聚類算法通過引入隸屬度函數(shù),將聚類迭代計(jì)算過程中的目標(biāo)函數(shù)和約束條件的取值范圍轉(zhuǎn)變?yōu)檫B續(xù)數(shù)值。從而簡化了迭代計(jì)算的過程,使聚類的總體流程更加簡便、快捷。
對于一個給定的數(shù)據(jù)集,模糊聚類算法的目標(biāo)函數(shù)如式(2)所示:
其中,U為各條數(shù)據(jù)對于各個聚類的隸屬度矩陣,V為各個聚類中心位置的集合,m為模糊加權(quán)指數(shù),||·||為歐式距離。
以上模糊聚類的目標(biāo)函數(shù)為有約束條件的優(yōu)化問題。為了便于迭代求解,引入拉格朗日乘子可以快速地將上述有約束優(yōu)化問題轉(zhuǎn)換為無約束優(yōu)化問題。這樣一來,模糊聚類算法就可以采用牛頓迭代法進(jìn)行不斷地迭代計(jì)算,逐漸實(shí)現(xiàn)目標(biāo)函數(shù)的最小化。當(dāng)停止對目標(biāo)函數(shù)的迭代計(jì)算時,此時得到的結(jié)果為數(shù)據(jù)樣本隸屬于各個聚類的程度。通過選取隸屬度最高的聚類為該數(shù)據(jù)樣本的聚類,從而得到低維數(shù)據(jù)的聚類結(jié)果。由于在應(yīng)用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行非線性轉(zhuǎn)換時,只對單條數(shù)據(jù)樣本之間的各個特征值進(jìn)行了非線性轉(zhuǎn)換,而并未進(jìn)行數(shù)據(jù)樣本之間的轉(zhuǎn)換,故數(shù)據(jù)樣本之間的關(guān)系未發(fā)生變化。因此根據(jù)在低維空間上得到的聚類結(jié)果,即可直接得到原始數(shù)據(jù)的聚類結(jié)果。
為了驗(yàn)證以上基于深度神經(jīng)網(wǎng)絡(luò)的電力工程數(shù)據(jù)聚類模型的有效性,該文基于某省2010-2020 年間積累的電力輸、配電等工程歷史數(shù)據(jù)進(jìn)行了模型仿真。歷史整體數(shù)據(jù)總共包含10 073 個數(shù)據(jù)樣本,每個數(shù)據(jù)樣本包括電壓等級、設(shè)備配置情況、土地面積、建筑面積、建筑工程、主輔生產(chǎn)工程、地理信息等類別的共計(jì)232 個技術(shù)參數(shù)。
仿真環(huán)境采用Intel Core i7 CPU,內(nèi)存為16 GB,Windows 10 操作系統(tǒng),Python 編程語言的臺式計(jì)算機(jī)進(jìn)行搭建。
為了衡量聚類模型的有效性,與采用K 均值聚類[15]、模糊聚類、線性降維聚類[16(]PCA-K 均值)的模型進(jìn)行對比。采用聚類有效性指標(biāo)對結(jié)果進(jìn)行衡量,該指標(biāo)的計(jì)算過程中,通過對實(shí)際樣本所屬的實(shí)際類別與聚類結(jié)果之間的相似程度進(jìn)行計(jì)算,從而確定聚類的質(zhì)量。其計(jì)算公式如式(3)所示:
其中,n為所需衡量的樣本數(shù)量,yi為數(shù)據(jù)樣本實(shí)際所隸屬的類別標(biāo)簽,ci為聚類模型得到的計(jì)算結(jié)果,map(·)為將聚類結(jié)果轉(zhuǎn)換為樣本所隸屬類別的映射函數(shù),δ(·) 為示性函數(shù)。當(dāng)yi=map(ci) 時,δ(yi,map(ci))取值為1;否則,其值為0。
因?yàn)樯疃壬窠?jīng)網(wǎng)絡(luò)、K 均值聚類算法模型等在建模過程中均包含一定的隨機(jī)性,為了避免隨機(jī)因素對仿真結(jié)果的影響,每個聚類模型均進(jìn)行30 次仿真驗(yàn)證,并對仿真結(jié)果的平均值、標(biāo)準(zhǔn)差進(jìn)行統(tǒng)計(jì)分析。對比結(jié)果,如表1 所示。
表1 總體數(shù)據(jù)集聚類結(jié)果對比
為了進(jìn)一步驗(yàn)證算法的魯棒性,該文對包含10 073 個數(shù)據(jù)樣本的歷史整體數(shù)據(jù)進(jìn)行了有放回采樣。每次采樣的數(shù)據(jù)集中包括了80%的數(shù)據(jù)樣本,重復(fù)采樣20次,共生成了20個新的數(shù)據(jù)集。在這20個新數(shù)據(jù)集上,應(yīng)用該文模型、K 均值聚類、模糊聚類、線性降維聚類再次進(jìn)行了仿真。其中,每個聚類模型在每個數(shù)據(jù)集上均進(jìn)行了30 次仿真驗(yàn)證,并對每個模型的仿真結(jié)果平均值、標(biāo)準(zhǔn)差進(jìn)行了統(tǒng)計(jì)分析。對比結(jié)果如表2 所示。
表2 20個新數(shù)據(jù)集聚類結(jié)果對比
由該結(jié)果可見,與K 均值聚類、模糊聚類、線性降維聚類(PCA-K 均值)等聚類模型相比,該文所提出的深度神經(jīng)網(wǎng)絡(luò)的電力工程數(shù)據(jù)聚類模型具有更高的聚類有效性和魯棒性。
通過對結(jié)果分析可得,高維的電力工程數(shù)據(jù)在聚類過程中,K 均值聚類、模糊聚類等模型無法提取有效的信息,得到的聚類結(jié)果基本不具備參考價值。這是因?yàn)楦呔S數(shù)據(jù)在聚類過程中出現(xiàn)了“維數(shù)災(zāi)難”問題而造成的。而采用線性降維對數(shù)據(jù)進(jìn)行處理后,可以略微提高聚類結(jié)果的有效性。但由于高維數(shù)據(jù)中的原始信息在線性轉(zhuǎn)換的過程中產(chǎn)生了缺失,導(dǎo)致聚類結(jié)果的有效性較低。而通過該文提出的基于深度受限玻爾茲曼機(jī)神經(jīng)網(wǎng)絡(luò)的聚類模型,先將高維的原始電力工程數(shù)據(jù)進(jìn)行非線性化處理,然后再映射到低維空間,從而在保留原始數(shù)據(jù)信息的同時有效提高聚類模型的處理能力,進(jìn)而得到了較為理想的聚類結(jié)果。
該文針對高維電力工程數(shù)據(jù)難以實(shí)現(xiàn)有效聚類分析的問題,設(shè)計(jì)了基于深度神經(jīng)網(wǎng)絡(luò)的電力工程數(shù)據(jù)聚類模型。通過對實(shí)際電力工程數(shù)據(jù)的聚類模型搭建和仿真,得出了以下結(jié)論:
1)在高維電力工程數(shù)據(jù)的聚類分析過程中,因?yàn)椤熬S數(shù)災(zāi)難”問題的影響,傳統(tǒng)的聚類模型無法實(shí)現(xiàn)有效的聚類分析;
2)通過采用深度神經(jīng)網(wǎng)絡(luò)模型,可以有效地將高維原始電力工程數(shù)據(jù)進(jìn)行非線性化處理,實(shí)現(xiàn)數(shù)據(jù)的降維并在降維后仍保留原始數(shù)據(jù)中蘊(yùn)含的信息,從而大幅度提高聚類結(jié)果的有效性。
下一步,將應(yīng)用深度神經(jīng)網(wǎng)絡(luò)對電力工程數(shù)據(jù)聚類分析進(jìn)行更大范圍的數(shù)據(jù)分析模型設(shè)計(jì),實(shí)現(xiàn)對高維電力工程數(shù)據(jù)更為有效的分類、造價預(yù)測、通用造價分析等應(yīng)用,挖掘更多高維數(shù)據(jù)對電力工程的價值。