胡亞楠 王鐵錚 蔣訢曄 鞏曉昕
[摘 要]電力物資配套采購數(shù)量預(yù)測是指,在電力物資采購中,根據(jù)已有的部分物資采購數(shù)量,預(yù)測相對應(yīng)的配套物資的可能的采購數(shù)量。線性回歸在預(yù)測問題中是一種常見而有效的方法。在物資采購問題中,采購數(shù)量一般具有線性關(guān)系的特點,線性模型更適合用于物資采購問題的預(yù)測。由于輸入數(shù)據(jù)常常多于輸入的維度數(shù)量,預(yù)測值和實際值無法完全相等,因此在線性回歸中引入了損失函數(shù)的概念,通過損失函數(shù)來衡量預(yù)測值和實際值之間的差距。本文將基于傳統(tǒng)的線性回歸模型,根據(jù)歷史數(shù)據(jù)進(jìn)行預(yù)測,在此基礎(chǔ)上,使用添加正則項之后的損失函數(shù)作為新的評價指標(biāo),進(jìn)行預(yù)測,并與原來的預(yù)測結(jié)果相比較。
[關(guān)鍵詞]物資配套;線性回歸分析法;采購數(shù)量
[中圖分類號]F274 [文獻(xiàn)標(biāo)識碼]A
電力物資采購時,多種物資采購的數(shù)量可能存在著一定的相關(guān)性,例如采購水泥柱的數(shù)量與電纜的數(shù)量有較強的相關(guān)性。實際情況中,某些物資的數(shù)量可以較為準(zhǔn)確地估計,而對于一些配套的物資,數(shù)量較難估計,而且對于不同類型的項目,采購的物資數(shù)量關(guān)系也有區(qū)別,人為較難進(jìn)行估計。因此,需要一個能夠根據(jù)現(xiàn)有的較為準(zhǔn)確的物資采購數(shù)量來預(yù)測其他相關(guān)的物資數(shù)量的方法。線性回歸、決策樹回歸、前饋神經(jīng)網(wǎng)絡(luò)等都可以用來進(jìn)行回歸分析。但在小樣本的情況下,線性回歸有著更好的擬合性,神經(jīng)網(wǎng)絡(luò)和決策樹回歸需要大量樣本,不然容易出現(xiàn)過擬合。除了簡單的線性回歸外,線性回歸還有其他的改進(jìn)方式,嶺回歸是通過添加正則項的方式來改進(jìn)損失函數(shù)。而通過回歸分析,可以較為準(zhǔn)確地估計配套物資,比基于經(jīng)驗的估計更為準(zhǔn)確,從而減少倉儲成本和采購成本。
1 線性回歸
線性回歸主要用于對多變量,多維度輸入擬合單輸出的情況。簡單的線性回歸的公式見公式(1)。
其中y表示估計的輸出的變量、x表示輸入的變量向量,w為權(quán)重向量,b為標(biāo)量表示偏置。
為了衡量估計值與真實值之間的差距,需要用損失函數(shù)來對其進(jìn)行衡量。假設(shè)輸入的x向量有n個維度,一共有樣本m個數(shù)據(jù),則損失函數(shù)如公式(2)所示。
其中yi表示第i個樣本的真實值,yi表示第i個樣本根據(jù)輸入、權(quán)重和偏置的值所得的估計值。公式中的中的分母中的m用來補償樣本數(shù)量帶來的影響,2用來補償求導(dǎo)后的系數(shù)2。
若將偏置b與x合并,則公式(1)變形為公式(3)的形式:
損失函數(shù)衡量了真實值與估值之間的差距,因此當(dāng)損失函數(shù)值越小,二者差距越小,目標(biāo)是求損失函數(shù)的最小值。
為了求二者之間的最小值,考慮到損失函數(shù)是關(guān)于w的二次函數(shù),因此對損失函數(shù)進(jìn)行求導(dǎo),令導(dǎo)數(shù)等于0,即可求得最小值。
公式(5)中,若X為滿秩的情況時,即m=n時,存在w使得損失函數(shù)為0,而當(dāng)m>n時,一般而言,很難使得損失函數(shù)為0,除非樣本中存著重復(fù)樣本的情況。簡單的最小二乘法的另一個缺點是,當(dāng)出現(xiàn)多重共線性的情況時,公式(5)不穩(wěn)定,甚至無法求解逆矩陣。多重共線性是指樣本中,輸入變量中某些參數(shù)存在著線性關(guān)系。
為了解決這一問題,可以對公式(5)進(jìn)行更新,從中添加對角矩陣:
公式(7)表示的損失函數(shù)所對應(yīng)的線性回歸叫做嶺回歸,新添加的項叫做正則項,其含義為:在原有的損失函數(shù)的基礎(chǔ)上,還需考慮各個權(quán)重的大小乘以系數(shù)λ的情況,這個系數(shù)是人為指定的,稱之為超參數(shù)。一般而言,超參數(shù)的值需要人為設(shè)定,根據(jù)實驗結(jié)果進(jìn)行不斷改進(jìn)。
2 實驗結(jié)果
為了方便展示回歸擬合的結(jié)果,本文選擇了2維輸入變量和1維輸出變量,輸入變量表示“交流盤形懸式瓷絕緣子”和“錐形水泥桿”,輸出變量為“架空絕緣導(dǎo)線”。本文所使用的數(shù)據(jù)為某省某電力公司的數(shù)據(jù)。
表 1所示為實驗樣本中的前4條樣例,其中絕緣子的數(shù)量單位為個,水泥柱數(shù)量單位為個,絕緣導(dǎo)線的數(shù)量單位為千米。
首先使用簡單的線性回歸模型,對所有輸入的樣本進(jìn)行回歸分析,并將得到的結(jié)果做可視化。
圖中左側(cè)圖為簡單線性回歸,右側(cè)為嶺回歸,由于二者模型的系數(shù)差異不大,無法直觀地看出差距。
為了衡量二者之間的差距,本文隨機選取了樣本中的6條樣本作為對結(jié)果的評價,并且為了公平起見,這些樣本在訓(xùn)練權(quán)重參數(shù)時不放入訓(xùn)練樣本中。若放入訓(xùn)練樣本,則無法體現(xiàn)模型泛化的能力。樣本數(shù)據(jù)見表2。
表格4中的數(shù)據(jù)是兩種模型對于測試樣本的偏差比較結(jié)果,其中的數(shù)據(jù)根據(jù)表 2、表格3中的數(shù)據(jù)進(jìn)行計算。偏差和偏差比率計算公式為:
從比較結(jié)果中可以明顯看出,嶺回歸的偏差要比簡單線性回歸模型要好,第3條數(shù)據(jù)二者都無法正確評估可能是因為第3條數(shù)據(jù)是離群點,即異常值,因此兩種模型的估計值與實際值之間的差距較大。
3 總結(jié)
電力物資采購時存在著數(shù)量上的相關(guān)關(guān)系,而線性回歸是一種很好的用于擬合已知采購數(shù)量和目標(biāo)數(shù)量的分析方法。本文首先介紹了簡單的線性回歸模型,以及其的不足,并且針對其不足之處,介紹了能夠一定程度上解決不足的嶺回歸。本文隨后采用了簡單線性回歸模型和嶺回歸模型,分別進(jìn)行了采購物資數(shù)量的分析,發(fā)現(xiàn)嶺回歸相比于簡單線性回歸,確實能夠減少測試樣本的總誤差。
[參考文獻(xiàn)]
[1] (美)利昂(Leon,S.,J.)著,張文博,張麗靜譯.線性代數(shù)(原書第7版)[M].機械工業(yè)出版社,2008.
[2] (美)韓家煒(Han,J.)等著.數(shù)據(jù)挖掘:概念與技術(shù)(原書第3版)[M].機械工業(yè)出版社,2012.