黃龍山
(福建榕能電業(yè)集團(tuán)有限公司,福建 福州 350108)
當(dāng)電網(wǎng)需要采購電力物資時(shí),首先由計(jì)劃部門確定采購的數(shù)目以及價(jià)格,然后電網(wǎng)公司會(huì)利用這個(gè)價(jià)格安排融資,并最終進(jìn)行公開競爭招標(biāo)。由于招標(biāo)過程的時(shí)間較長,會(huì)導(dǎo)致招標(biāo)價(jià)格與申報(bào)價(jià)格相差很大。這些差異增加了不必要的高額貸款利息和設(shè)備采購成本。為了規(guī)避這種情況,需要對(duì)電網(wǎng)物資價(jià)格進(jìn)行預(yù)測,并且使預(yù)測價(jià)格盡量與實(shí)際招標(biāo)價(jià)格一致,這樣可以降低采購成本[1]。
當(dāng)前背景常用預(yù)測方法有灰色理論、時(shí)間序列法以及貝葉斯理論等,在電力負(fù)荷預(yù)測、石油價(jià)格預(yù)測、鐵礦石、有色金屬價(jià)格預(yù)測以及農(nóng)產(chǎn)品價(jià)格預(yù)測等多個(gè)領(lǐng)域中得到廣泛應(yīng)用?,F(xiàn)有的研究大多是建立在價(jià)格為平穩(wěn)序列的假設(shè)下進(jìn)行的,這一假設(shè)僅適用于價(jià)格形成機(jī)理簡單,影響因素單一的產(chǎn)品價(jià)格預(yù)測[2]。
但是電網(wǎng)物資價(jià)格受多種影響因素的共同作用,其價(jià)格形成機(jī)理十分復(fù)雜,因此電網(wǎng)物資價(jià)格表現(xiàn)為非平穩(wěn)、非線性的時(shí)間序列[3]。傳統(tǒng)預(yù)測方法不能滿足電網(wǎng)物資的預(yù)測需求,經(jīng)過對(duì)大量相關(guān)文獻(xiàn)的分析,最終決定采用支持向量機(jī)方法來預(yù)測電網(wǎng)關(guān)鍵物資價(jià)格,并與BP 神經(jīng)網(wǎng)絡(luò)模型預(yù)測效果進(jìn)行對(duì)比。
使用皮爾遜系數(shù)評(píng)估特征與價(jià)格之間的相關(guān)性,并篩選出相關(guān)性較高的特征。將原材料價(jià)格和關(guān)鍵特征結(jié)合形成訓(xùn)練數(shù)據(jù)集。將訓(xùn)練數(shù)據(jù)集分為兩個(gè)部分,分別為測試集和訓(xùn)練集,然后基于支持向量機(jī)算法和BP 神經(jīng)網(wǎng)絡(luò)算法分別對(duì)其進(jìn)行預(yù)測。使用測試集來檢查預(yù)測結(jié)果的準(zhǔn)確性。最終通過預(yù)測效果評(píng)價(jià)指標(biāo)來評(píng)估預(yù)測效果,評(píng)價(jià)指標(biāo)選用均方誤差(MSE)和校正相對(duì)系數(shù)(R2)[4]。
支持向量機(jī)(SVM)[5-7]本質(zhì)上是一種新穎的機(jī)器學(xué)習(xí)方法,它是基于統(tǒng)計(jì)學(xué)習(xí)理論和優(yōu)化理論發(fā)展而來。常用于模式識(shí)別、分類和回歸分析等領(lǐng)域。其重要之處在于維理論以及結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,可用于解決線性和非線性分類問題。支持向量機(jī)的主要思想是找到最佳的超平面,將不同類型的數(shù)據(jù)點(diǎn)劃分到不同的區(qū)域??傊ㄟ^尋找模型復(fù)雜度和學(xué)習(xí)能力之間的最佳平衡點(diǎn),支持向量機(jī)可以取得很好的效果。使用有限的樣本信息來獲得最好的推廣能力。為了解決那些在低維空間中無法通過線性方式分開的數(shù)據(jù)樣本,采用一個(gè)叫做非線性映射的方法,將這些樣本映射到高維空間中。支持向量機(jī)具備簡單的結(jié)構(gòu)、較強(qiáng)的全局優(yōu)化和泛化能力,能有效地解決高維和非線性問題?;旧?,支持向量機(jī)就是通過間隔來確定置信風(fēng)險(xiǎn)的,同時(shí)通過參數(shù)來在經(jīng)驗(yàn)風(fēng)險(xiǎn)和置信風(fēng)險(xiǎn)之間進(jìn)行權(quán)衡。這樣,它能夠得出少數(shù)支持向量決定的最佳分類超平面,并且還具有稀疏性。支持向量機(jī)的模型類型為凸二次規(guī)劃模型,不易陷入局部最優(yōu)解的問題,具有非常強(qiáng)大的非線性處理能力。
在高維特征空間中,可以建立一個(gè)線性回歸函數(shù):f(x)=ωΦ(x)+b。
其中,Φ(x)為非線性映射函數(shù),定義ε線性不敏感損失函數(shù)。
在回歸函數(shù)中,f(x)代表函數(shù)返回的預(yù)測值,而y為表示對(duì)應(yīng)的實(shí)際值。
式中:C為懲罰因子,C越大表示對(duì)訓(xùn)練誤差大于ε的樣本懲罰越大,ε規(guī)定了回歸函數(shù)的誤差要求,ε越小表示回歸函數(shù)的誤差。
這里引入Laragange 函數(shù),并將上式轉(zhuǎn)換為對(duì)偶形式,轉(zhuǎn)換如公式(2)所示。
可以通過設(shè)置最優(yōu)解為α=[α1,α2,…αl],則有公式(3)和公式(4)。
可以通過MATLAB 軟件來對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步分析和處理,結(jié)果會(huì)返回兩個(gè)參數(shù),第一個(gè)參數(shù)就是所得的預(yù)測值,第二個(gè)參數(shù)包括均方誤差以及R2[8],可以通過這2 個(gè)系數(shù)來確定預(yù)測值的精度,其計(jì)算如公式(5)所示。
電力系統(tǒng)的關(guān)鍵物資比較多,選用某電力公司變壓器物資的價(jià)格進(jìn)行預(yù)測,并將預(yù)測價(jià)格與實(shí)際招標(biāo)價(jià)格進(jìn)行比較,檢驗(yàn)該文所提的支持向量機(jī)模型價(jià)格預(yù)測結(jié)果的可靠性。
在該文中采集的數(shù)據(jù)包括缺失值、奇異值、字符型數(shù)據(jù)等,因此需要對(duì)這些數(shù)據(jù)進(jìn)行預(yù)處理。對(duì)缺失值、奇異值而言,預(yù)處理方法是去掉奇異值變?yōu)槿笔е?,奇異值包括招?biāo)價(jià)格和申報(bào)價(jià)格的奇異值,如招標(biāo)價(jià)格為 0、申報(bào)價(jià)格是實(shí)際價(jià)格的5 倍或更大等均為奇異值,然后使用中位數(shù)對(duì)缺失值進(jìn)行填充,可以有效避免極端值對(duì)預(yù)測的影響。對(duì)字符型數(shù)據(jù)進(jìn)行拆分、編碼等,轉(zhuǎn)化為數(shù)值型數(shù)據(jù)。
影響變壓器價(jià)格的因素有很多,例如安裝方式、絕緣方式、中標(biāo)單價(jià)以及額定容量等。部分因素對(duì)價(jià)格的影響并不是很大,為了避免關(guān)注過多的因素從而導(dǎo)致計(jì)算難度增大且可能產(chǎn)生不必要的干擾,該文決定僅考慮對(duì)價(jià)格影響程度較大的因素。
皮爾遜相關(guān)系數(shù)的作用是衡量兩個(gè)影響因素之間的相關(guān)程度,其相關(guān)程度由兩個(gè)影響因素的協(xié)方差和標(biāo)準(zhǔn)差的商表示。若通過計(jì)算得到兩個(gè)影響因素的相關(guān)系數(shù)越接近于0,則說明這兩個(gè)影響因素的相關(guān)程度就越低,反之,若得到的數(shù)越接近于1,則說明這兩個(gè)影響因素的關(guān)聯(lián)程度越大。皮爾遜相關(guān)系數(shù)的表達(dá)式如公式(6)所示。
式中:X,Y是2 個(gè)數(shù)據(jù)組,其中X(x1,x2,x3……),Y(y1,y2,y3……);cov(X,Y)表示X,Y兩組數(shù)據(jù)的協(xié)方差,用以表征X,Y兩組數(shù)據(jù)彼此之間相互影響的程度,協(xié)方差絕對(duì)值越大,表示兩者對(duì)彼此的影響越大,反之,越小。E表示均值,E(X)表示X組數(shù)據(jù)的均值,E(Y)表示Y組數(shù)據(jù)的均值。σX表示X組數(shù)據(jù)的樣本標(biāo)準(zhǔn)差,σY表示Y組數(shù)據(jù)的樣本標(biāo)準(zhǔn)差。
該文通過大量試驗(yàn)得出,當(dāng)某一影響因素的皮爾遜相關(guān)系數(shù)達(dá)到0.35 時(shí),該影響因素對(duì)預(yù)測價(jià)格的影響程度達(dá)到要求,因此根據(jù)相關(guān)經(jīng)驗(yàn),該研究設(shè)置3 個(gè)過濾常數(shù),依次為0.35、0.37 和0.38,當(dāng)某一影響因素與待預(yù)測價(jià)格之間的皮爾遜相關(guān)系數(shù)低于0.35 時(shí),則將次影響因素過濾掉。然后對(duì)皮爾遜相關(guān)系數(shù)大于0.35 的影響因素繼續(xù)重復(fù)上述操作,兩兩進(jìn)行皮爾遜線性相關(guān)性的評(píng)估。
采用Pearson 相關(guān)系數(shù)法和行業(yè)專家的實(shí)際經(jīng)驗(yàn)對(duì)影響變壓器的多個(gè)因素進(jìn)行分析,篩選出額定容量、鐵芯材質(zhì)、絕緣方式、安裝方式和采購單價(jià)5 個(gè)主要因素來作為最終的影響因素。該文使用獨(dú)熱編碼方法,將字符型數(shù)據(jù)轉(zhuǎn)化為數(shù)值型數(shù)據(jù)。將表1 的樣本數(shù)據(jù)轉(zhuǎn)化為表2 的數(shù)值型數(shù)據(jù),數(shù)據(jù)來自某電力公司,表1 和表2并未顯示所有數(shù)據(jù),僅列出了部分?jǐn)?shù)據(jù),以展示樣本數(shù)據(jù)的轉(zhuǎn)化。
表1 原始數(shù)據(jù)
表2 轉(zhuǎn)換后的數(shù)據(jù)
由于變壓器的3年數(shù)據(jù)并沒有非常大,因此,為了保證預(yù)測的準(zhǔn)確性,對(duì)所有數(shù)據(jù)進(jìn)行訓(xùn)練,支持向量機(jī)采用默認(rèn)的RBF 核函數(shù),利用交叉驗(yàn)證方法確定最佳的懲罰因子c和RBF 核函數(shù)方差g參數(shù),然后用這些參數(shù)來訓(xùn)練模型。其訓(xùn)練情況如圖1所示。
圖1 訓(xùn)練集情況
通過均方誤差核決定系數(shù)的數(shù)值來看,整體的訓(xùn)練結(jié)果還是較為良好。為了得到變壓器最終價(jià)格的預(yù)測情況,且為了不失一般性,采用了四組支持向量機(jī)模型預(yù)測,每組通過隨機(jī)選擇10 個(gè)數(shù)據(jù)進(jìn)行預(yù)測。具體情況如圖2所示。
圖2 支持向量機(jī)預(yù)測情況
數(shù)據(jù)預(yù)處理的方式同支持向量機(jī)模型數(shù)據(jù)預(yù)處理方式,數(shù)據(jù)每組為7 維,第一維到第六維為變壓器價(jià)格的影響因數(shù),第七維是變壓器的中標(biāo)單價(jià)。由于數(shù)據(jù)量并不多且工作量不大,可以采用對(duì)整體數(shù)據(jù)進(jìn)行訓(xùn)練,也可避免數(shù)據(jù)的分布不均衡對(duì)預(yù)測產(chǎn)生較大的影響。
對(duì)BP 神經(jīng)網(wǎng)絡(luò)的預(yù)測[9-10],采取與支持向量機(jī)相同的預(yù)測方式。為了得到變壓器最終價(jià)格的預(yù)測情況,且為了不失一般性,采用了四組BP 神經(jīng)網(wǎng)絡(luò)模型預(yù)測,每組通過隨機(jī)選擇10 個(gè)數(shù)據(jù)進(jìn)行預(yù)測。具體情況如圖3所示。
圖3 BP 神經(jīng)網(wǎng)絡(luò)預(yù)測情況
通過表3 的直觀對(duì)比,支持向量機(jī)價(jià)格預(yù)測模型的均方誤差均值為0.0064634,小于BP 神經(jīng)網(wǎng)絡(luò)價(jià)格預(yù)測模型的0.01130202,支持向量機(jī)預(yù)測模型的校正系數(shù)均值為0.9462825,大于BP 神經(jīng)網(wǎng)絡(luò)預(yù)測模型的0.9124275,很明顯,在變壓器的價(jià)格預(yù)測中,還是支持向量機(jī)的預(yù)測精度要更精確一些,但在整體上誤差并不是很大。此外在計(jì)算過程中發(fā)現(xiàn)支持向量機(jī)模型的速度比BP 神經(jīng)網(wǎng)絡(luò)預(yù)測模型更快。
表3 預(yù)測誤差對(duì)比情況
正確預(yù)測電網(wǎng)物資的價(jià)格對(duì)電網(wǎng)企業(yè)來說非常重要,因?yàn)轭A(yù)測價(jià)格的高低會(huì)直接影響到物資成本和損失。該文選取電網(wǎng)關(guān)鍵物資變壓器作為預(yù)測對(duì)象,通過數(shù)據(jù)預(yù)處理來篩選出有用數(shù)據(jù),并利用歷史數(shù)據(jù)中的皮爾遜系數(shù)確定了影響電網(wǎng)物資價(jià)格的關(guān)鍵特征,篩選出額定容量、鐵芯材質(zhì)、絕緣方式、安裝方式和采購單價(jià)5 個(gè)主要因素。分別采用BP 神經(jīng)網(wǎng)絡(luò)與SVM 兩種模型,利用預(yù)測評(píng)價(jià)指標(biāo)均方誤差和校正相對(duì)系數(shù)來評(píng)估預(yù)測結(jié)果,對(duì)同一目標(biāo)的不同預(yù)測模型的結(jié)果進(jìn)行比較,提高變壓器價(jià)格預(yù)測時(shí)結(jié)果的準(zhǔn)確性,減少誤差。得到了支持向量機(jī)預(yù)測模型、BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型的均方誤差分別為0.65%、1.13%,校正相對(duì)系數(shù)分別為0.9462825 與0.9124275,結(jié)果表明支持向量機(jī)模型的預(yù)測精度更好,可獲得較為理想的結(jié)果。此外,在預(yù)測過程中支持向量機(jī)模型的預(yù)測速度比BP 神經(jīng)網(wǎng)絡(luò)模型快。該研究結(jié)果可為電網(wǎng)企業(yè)的物資價(jià)格預(yù)測提供參考。