謝志煒 馮鴻懷 許銳埼 李慧夫
摘? 要:隨著國(guó)家電力基礎(chǔ)設(shè)施規(guī)劃發(fā)展要求不斷提升,國(guó)家相關(guān)單位對(duì)電網(wǎng)基建項(xiàng)目的投資規(guī)模與數(shù)量愈來(lái)愈大。為了確保項(xiàng)目能夠按照計(jì)劃開展與完成,對(duì)施工力量的預(yù)測(cè)顯得尤為重要,進(jìn)而提前為所需配備足夠的施工力量提供參考。同時(shí),施工人次是對(duì)一段時(shí)間內(nèi)施工力量投入的描述量。但由于現(xiàn)場(chǎng)對(duì)于施工人次的統(tǒng)計(jì)通常存在一定的異常值,會(huì)對(duì)預(yù)測(cè)結(jié)果造成直接影響。因此,針對(duì)這些問(wèn)題,本文提出了一種基于線性回歸的基建項(xiàng)目施工人次預(yù)測(cè)方法,首先利用殘差分析法對(duì)現(xiàn)場(chǎng)數(shù)據(jù)進(jìn)行預(yù)處理,隨后通過(guò)建立線性回歸的預(yù)測(cè)模型進(jìn)行預(yù)測(cè),并和BP神經(jīng)網(wǎng)絡(luò)算法進(jìn)行比較,以證明本文的可行性與精確性。
關(guān)鍵詞:基建項(xiàng)目;線性回歸;殘差分析法;施工人次預(yù)測(cè)
中圖分類號(hào):TP183? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2019)19-0113-05
Abstract:With the continuous improvement of the national power infrastructure planning and development requirements,the scale and quantity of investment by the national power apartment for power grid infrastructure projects is increasing. In order to ensure that the project can be carried out and completed according to a plan,the prediction of the construction force is particularly significant,and then provide reference for the necessary construction strength in advance. At the same time,the number of attendance of constructors is the description of the labor resource input for a period of time. However,as there are usually a certain number of statistics outliers for the constructors from the site,which will have a direct impact on the result of prediction. Therefore,in response to these problems,the paper proposes a method to forecast the attendance of the constructors for infrastructure projects based on linear regression. With the data pre-treated on residual analysis at first,then using the linear regression method to make the prediction by the forecast model which at the same time compare with BP neural network algorithm to prove the feasibility and accuracy of this paper.
Keywords:infrastructure project;linear regression;residual analysis method;attendance of constructors prediction
0? 引? 言
隨著國(guó)家持續(xù)加大對(duì)電力基礎(chǔ)設(shè)施的投資強(qiáng)度,該類項(xiàng)目的規(guī)模與數(shù)量與日俱增。相關(guān)數(shù)據(jù)顯示,某供電局2017年年初計(jì)劃投資的項(xiàng)目共有5408項(xiàng),計(jì)劃投資金額為30.5億元。2018年年初計(jì)劃投資的項(xiàng)目增加至7215項(xiàng),投資金額達(dá)到43億元,投資的金額比2017年增加了約41%。在這種電網(wǎng)基建項(xiàng)目投資不斷擴(kuò)大的環(huán)境下,為每個(gè)項(xiàng)目提前配備足夠施工力量以便確?;?xiàng)目順利的開展與完成就顯得尤為重要。同時(shí),作為衡量施工能力的重要指標(biāo)之一,參與施工的人數(shù)規(guī)模相對(duì)而言是對(duì)項(xiàng)目工程能力最為直接的描述。而作為施工人數(shù)規(guī)模的研究對(duì)象,施工人次能夠較為完整地體現(xiàn)該施工人數(shù)規(guī)模的特征。又由于實(shí)際中對(duì)施工人次的統(tǒng)計(jì)通常會(huì)出現(xiàn)異常值,故而需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理以便減少異常值對(duì)于預(yù)測(cè)結(jié)果的影響。
近段時(shí)間以來(lái),線性回歸預(yù)測(cè)領(lǐng)域已涌現(xiàn)出較多成果,并已被應(yīng)用于電力物資采購(gòu)數(shù)量[1]、在校大學(xué)生人數(shù)[2]、農(nóng)產(chǎn)品物流需求[3]以及交通管制[4]等多方面的預(yù)測(cè)與分析。文獻(xiàn)[5]提出了使用線性回歸的分析方法對(duì)企業(yè)所需工人數(shù)量進(jìn)行估算,并指出了以工時(shí)為該分析方法的切入要素對(duì)實(shí)際估算所具有的可行性,但卻沒(méi)有提及異常數(shù)據(jù)的處理問(wèn)題;文獻(xiàn)[6]提出了一種基于多元線性回歸的模型,通過(guò)預(yù)測(cè)人員配置情況從而達(dá)到輔助相關(guān)部門構(gòu)建的效果,但該方法較為局限于企業(yè)歷史人數(shù)的數(shù)據(jù),且對(duì)數(shù)據(jù)質(zhì)量要求過(guò)高,因此在實(shí)際工程中的適應(yīng)性有限;文獻(xiàn)[7]提出了一種基于加權(quán)線性回歸的模型用以預(yù)測(cè)事故死亡人數(shù),雖然該方法更具有顯著性,擬合度也更高,但該模型在具有一定周期性的數(shù)據(jù)下才能表現(xiàn)出良好的適應(yīng)性,因而并不符合基建項(xiàng)目施工人次預(yù)測(cè)的工程實(shí)際。同時(shí),近年來(lái)學(xué)術(shù)界對(duì)異常數(shù)據(jù)處理的研究也有了一定的成就。其中,有基于距離[8]、密度[9]以及模型[10,11]的異常數(shù)據(jù)值核查方法等。也有相關(guān)文獻(xiàn)提出利用殘差分析法對(duì)回歸曲線進(jìn)行分析進(jìn)而得到所需研究結(jié)果的觀點(diǎn)[12];文獻(xiàn)[13]提出以最小二乘法與殘差分析法分離出多項(xiàng)式進(jìn)而對(duì)隨機(jī)誤差進(jìn)行處理的方法,雖然此法在應(yīng)用方面體現(xiàn)出了可行性,但其所面對(duì)的研究對(duì)象為外測(cè)型數(shù)據(jù),與此文背景下的統(tǒng)計(jì)型數(shù)據(jù)存在一定的差別。
基于以上背景,為解決基建項(xiàng)目施工人員配備以及現(xiàn)場(chǎng)數(shù)據(jù)異常的問(wèn)題,本論文提出了一種首先利用殘差分析法對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,保存每個(gè)項(xiàng)目類別中具有代表性的數(shù)據(jù)樣本,隨后采用線性回歸的施工人次預(yù)測(cè)模型與方法,通過(guò)對(duì)電網(wǎng)基建項(xiàng)目施工力量的預(yù)測(cè)實(shí)現(xiàn)對(duì)其的決策與配備,進(jìn)而為該項(xiàng)目的順利開展與完成提供重要保障。最后與BP神經(jīng)網(wǎng)絡(luò)算法對(duì)比,通過(guò)結(jié)果驗(yàn)明本文的有效性與精確性。
1? 基礎(chǔ)理論
1.1? 殘差分析法
殘差分析法(Residual Analysis)是一種通過(guò)實(shí)際觀測(cè)值與擬合值的差的方式去對(duì)兩組變量之間的線性擬合關(guān)系,輔助判斷所建立的線性模型是否能夠滿足某種關(guān)系,進(jìn)而分析出觀察數(shù)據(jù)的某些特征與規(guī)律,以驗(yàn)證其數(shù)據(jù)的周期性、偏差性及可靠性。其內(nèi)容通常包含以下幾個(gè)方面,分別是相關(guān)性檢驗(yàn)、方差齊性檢驗(yàn)、誤差的正態(tài)性檢驗(yàn),以及相伴隨的方差穩(wěn)定化變換和本文所涉及的異常值檢測(cè)等。
在本文背景下,殘差為施工人次與其所擬合的線性回歸模型估計(jì)值之間的差值。每一組觀測(cè)數(shù)據(jù)均對(duì)應(yīng)一組殘差值,同時(shí)這種差值附帶了該模型的重要假設(shè)信息,故在該信息的基礎(chǔ)上可對(duì)所有觀察數(shù)據(jù)進(jìn)行合理性的考核,最終達(dá)到異常值檢測(cè)的效果。假定本文殘差以δ表示,則殘差δ服從正態(tài)分布。以δ*表示標(biāo)準(zhǔn)化殘差,則δ*遵從標(biāo)準(zhǔn)正態(tài)分布N(0,1)。因此可知,如果有觀測(cè)點(diǎn)的δ*在(-2,2)區(qū)間以外,便可認(rèn)為在95%的把握下將其確定為錯(cuò)誤實(shí)驗(yàn)點(diǎn),即不可計(jì)入回歸的擬合直線。現(xiàn)以某項(xiàng)目為例,圖1所示是該項(xiàng)目每個(gè)觀測(cè)點(diǎn)的殘差情況,圖2是其標(biāo)準(zhǔn)化殘差的分布情況,不難看出,(-2,2)區(qū)間外的異常點(diǎn)個(gè)數(shù)為4個(gè)。
1.2? 線性回歸
線性回歸(Linear Regression)是用線性回歸方程對(duì)一組變量之間關(guān)系進(jìn)行建模的一種分析。由于線性對(duì)于一組不明確關(guān)系變量之間的擬合比非線性下顯得更為簡(jiǎn)易,線性回歸是回歸分析中較為經(jīng)典且在實(shí)際應(yīng)用中得到廣泛使用的類型,更為重要的是,其產(chǎn)生的擬合統(tǒng)計(jì)特性相對(duì)而言也更為容易確定。
在一元線性回歸中分析一組變量的相互關(guān)系,通常使用散點(diǎn)圖來(lái)觀察,如圖3所示。如果兩者存在某種相關(guān)關(guān)系(線性相關(guān)),如隨著x增大(變小),y會(huì)增大(變小)的趨勢(shì),則兩者可能存在某種共線關(guān)系。用數(shù)學(xué)上的方法,可以通過(guò)建立方程擬合出一條直線,讓直線盡可能地穿過(guò)這些數(shù)據(jù)點(diǎn)。這條擬合的直線模型,即是該組變量擬合的回歸模型。
從理論上說(shuō),所擬合的直線應(yīng)該盡可能多地穿過(guò)這些數(shù)據(jù)點(diǎn),但實(shí)際問(wèn)題中這些點(diǎn)一般不是直接落在這些直線上的,擬合線有可能只穿過(guò)部分的散點(diǎn)。如圖4所示,通過(guò)不同的方法找到的穿過(guò)這些點(diǎn)的擬合線就會(huì)有很多條。
線性回歸中通常使用最小二乘法去不斷地逼近所擬合的直線方程。最小二乘法的主要思想是:找到每個(gè)實(shí)際點(diǎn)和擬合值之間的殘差值(如圖5所示),對(duì)所有的點(diǎn)求殘差平方和,找出殘差平方和最小的那條線,便是最能代表這部分樣本的擬合線,如圖6所示便是這部分樣本的最小二乘法最佳擬合線。本文中的建模方法便是基于最小二乘法的線性回歸。
2? 數(shù)據(jù)預(yù)處理與預(yù)測(cè)流程
論文將從工程項(xiàng)目類型、投資金額和現(xiàn)場(chǎng)工人簽到狀況三個(gè)方面進(jìn)行數(shù)據(jù)統(tǒng)計(jì)與處理,具體步驟如下:
(1)由項(xiàng)目類型對(duì)原始數(shù)據(jù)進(jìn)行分類。不同類別項(xiàng)目之間的項(xiàng)目特征有明顯的不同。
(2)以類型為單位,計(jì)算單個(gè)項(xiàng)目的投資金額與施工人次比值,該值為該項(xiàng)目每人次的效率值[14],單位為元/人次。效率值反映的是一個(gè)項(xiàng)目工程的完成投資金額狀況與施工人次之間的關(guān)系。效率值過(guò)低和過(guò)高的數(shù)據(jù)都被認(rèn)定為不能代表該類型施工力量樣本的數(shù)據(jù),將會(huì)在后續(xù)的數(shù)據(jù)預(yù)處理環(huán)節(jié)被識(shí)別為異常數(shù)據(jù)進(jìn)行剔除。
(3)使用殘差分析法對(duì)效率值進(jìn)行預(yù)處理,剔除所有的過(guò)低或過(guò)高的數(shù)據(jù)。
(4)使用處理過(guò)后的數(shù)據(jù)集進(jìn)行回歸分析。
(5)計(jì)算精確度并與BP神經(jīng)網(wǎng)絡(luò)算法進(jìn)行對(duì)比。
3? 實(shí)例與結(jié)果分析
3.1? 實(shí)驗(yàn)數(shù)據(jù)構(gòu)成
由某供電局所提供的數(shù)據(jù),列入2018年年初投資計(jì)劃的項(xiàng)目增加為7215項(xiàng),投資金額達(dá)到43億元。其中可將項(xiàng)目類型主要分成9類,其中投資金額主要集中在解決中低壓線路設(shè)備重過(guò)載問(wèn)題、新建變電站或線路滿足負(fù)荷增長(zhǎng)、業(yè)擴(kuò)投資界面延伸和一戶一表這4個(gè)類型上,分別約占總投資的30%、22%、13%和14%。如圖7所示,其中,項(xiàng)目類型A、B、C、D、E、F、G、H、I、J、K和L分別對(duì)應(yīng)解決安全隱患、配電自動(dòng)化、低電壓治理、殘舊線路設(shè)備改造、解決中低壓線路設(shè)備重過(guò)載問(wèn)題、新建變電站或線路滿足負(fù)荷增長(zhǎng)、業(yè)擴(kuò)投資界面延伸、一戶一表、其他(充電樁)、其他(配電網(wǎng)通信)、其他(完善網(wǎng)架)以及其他(預(yù)留金)共12個(gè)類型。同時(shí),圖中項(xiàng)目類型括號(hào)中的數(shù)字代表著該類型項(xiàng)目的數(shù)量情況。
3.2? 數(shù)據(jù)預(yù)處理
仍以殘舊線路改造類型項(xiàng)目為例,如圖8所示,黑色擬合線是未經(jīng)過(guò)殘差分析排除離群點(diǎn)的擬合線,灰色擬合線是經(jīng)過(guò)殘差分析排除離群點(diǎn)的擬合線,是更符合大部分樣本的一條擬合線。分別使用兩條擬合線預(yù)測(cè)2018年該類型施工人次,未去除異常實(shí)驗(yàn)點(diǎn)時(shí),預(yù)測(cè)值為18987人次,去除異常實(shí)驗(yàn)點(diǎn)后,預(yù)測(cè)值為16133人次,4個(gè)殘差較大的離群點(diǎn)讓預(yù)測(cè)結(jié)果提高了近2500施工人次??梢?jiàn)異常點(diǎn)對(duì)預(yù)測(cè)結(jié)果有一定的影響,因此排除這類離群的異常點(diǎn)可以留下可靠性更高的樣本。
3.3? 預(yù)測(cè)結(jié)果對(duì)比與分析
在以上經(jīng)過(guò)數(shù)據(jù)預(yù)處理之后的基礎(chǔ)上,可通過(guò)建立一個(gè)以完成投資金額為輸入量,施工人次作為輸出量的預(yù)測(cè)模型。利用學(xué)習(xí)樣本對(duì)模型進(jìn)行訓(xùn)練后,以2018年計(jì)劃投資的金額作為模型的輸入,便可預(yù)測(cè)2018年所需要的施工人次數(shù)量。在確定了輸入量與輸出量后,以線性回歸與BP神經(jīng)網(wǎng)絡(luò)分別作為線性同非線性的預(yù)測(cè)方法代表對(duì)模型進(jìn)行測(cè)試,如圖9所示,以業(yè)擴(kuò)配套類型項(xiàng)目為例,做出對(duì)比實(shí)驗(yàn)。
由此不難看出,當(dāng)利用BP神經(jīng)網(wǎng)絡(luò)算法開展預(yù)測(cè)時(shí),容易出現(xiàn)以下問(wèn)題:
(1)在數(shù)據(jù)樣本點(diǎn)較少的區(qū)間(如完成投資在600萬(wàn)元以上的區(qū)間),曲線高度擬合了樣本,出現(xiàn)了過(guò)擬合現(xiàn)象,這條擬合線雖然在訓(xùn)練數(shù)據(jù)中表達(dá)能力非常強(qiáng),但實(shí)際上在擬合的過(guò)程中,曲線的描述能力并非越強(qiáng)越好,這是由于過(guò)強(qiáng)的描述能力容易導(dǎo)致過(guò)擬合現(xiàn)象的發(fā)生。
(2)受到強(qiáng)影響點(diǎn)的影響,在某些區(qū)間出現(xiàn)金額增加而施工人次下降的預(yù)測(cè)情況。
為了對(duì)比線性回歸和BP神經(jīng)網(wǎng)絡(luò)在各類型中的精度情況,隨機(jī)選取每類所有數(shù)據(jù)樣本中的80%樣本進(jìn)行訓(xùn)練,20%的樣本作為測(cè)試。圖中精度為每種類型各進(jìn)行50次實(shí)驗(yàn)后,取得的平均精度。具體如圖10所示。
顯而易見(jiàn),兩種預(yù)測(cè)方法在樣本較充足的幾個(gè)類型中的精度都非常出色,可以達(dá)到80%以上。不過(guò)當(dāng)樣本類型的樣本比較少時(shí),兩者的精度都有所下降,但線性回歸在樣本較少時(shí)精度仍然略高于BP神經(jīng)網(wǎng)絡(luò),并且穩(wěn)定性更好。故選取線性回歸分析法作為此背景下的預(yù)測(cè)方法更為合適。
4? 結(jié)? 論
為了確保電網(wǎng)基建項(xiàng)目的順利開展與完成,對(duì)其項(xiàng)目施工力量的決策與配備便顯得尤為重要。同時(shí),由于所預(yù)測(cè)施工人次的準(zhǔn)確性會(huì)對(duì)該項(xiàng)目的決策與管理造成直接影響,且現(xiàn)場(chǎng)統(tǒng)計(jì)的數(shù)據(jù)通常有一定的異常值,故有必要對(duì)現(xiàn)場(chǎng)數(shù)據(jù)進(jìn)行檢測(cè)以便獲得更為精確的預(yù)測(cè)模型,從而得到更為精準(zhǔn)的結(jié)果,進(jìn)而從理論上更為可靠、有效地支持相關(guān)部門的管理與決策。由此本文提出了一種首先利用殘差分析法對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,隨后采用線性回歸的施工人次預(yù)測(cè)模型與方法,仿真實(shí)驗(yàn)證明該方法具有一定的可行性,雖然該方法在樣本容量較少時(shí)具有一定的局限性,但在樣本容量較多時(shí)與BP神經(jīng)網(wǎng)絡(luò)算法進(jìn)行對(duì)比,表現(xiàn)出了更為優(yōu)異的準(zhǔn)確性與更為廣泛的適用性。一定程度上體現(xiàn)了輔助工程管理與決策的科學(xué)性,為將來(lái)深度開展相關(guān)領(lǐng)域的后續(xù)研究提供了借鑒的價(jià)值。
參考文獻(xiàn):
[1] 胡亞楠,王鐵錚,蔣訢曄,等.基于線性回歸的電力物資配套采購(gòu)數(shù)量的預(yù)測(cè)分析 [J].農(nóng)村經(jīng)濟(jì)與科技,2019,30(2):138-139.
[2] 鐘麗燕.基于多元線性回歸分析的在校大學(xué)生人數(shù)預(yù)測(cè) [J].經(jīng)貿(mào)實(shí)踐,2018(23):293-294.
[3] 梁艷,楊慧慧,蘇輝輝.基于多元線性回歸的天津市農(nóng)產(chǎn)品冷鏈物流需求預(yù)測(cè)分析 [J].南方農(nóng)機(jī),2018,49(18):230-231.
[4] 陳斌,朱國(guó)蕾,靳慧斌.基于多元線性回歸分析的空中交通管制疲勞預(yù)測(cè)模型 [J].科學(xué)技術(shù)與工程,2018,18(25):300-304.
[5] 張少堅(jiān).一元線性回歸分析方法與工人需求量的預(yù)測(cè)[J].管理觀察,2017(7):60-63.
[6] 程曉榮,吳紫薇.基于多元線性回歸分析的人力資源需求預(yù)測(cè)研究 [J].電腦迷,2016(6):81-82.
[7] 彭東,羅周全,秦亞光,等.基于加權(quán)線性回歸模型組的湖北省工礦事故死亡人數(shù)分析預(yù)測(cè) [J].中國(guó)安全生產(chǎn)科學(xué)技術(shù),2015,11(11):167-173.
[8] Knorr E M,Ng R T.Algorithms for Mining Distance-Based Outliers in Large Datasets [C]// Proceedings of the 24rd International Conference on Very Large Data Bases.Morgan Kaufmann Publishers Inc. San Francisco,CA,USA,1998:392-403.
[9] J?rg Sander. LOF:Identifying Density-Based Local Outliers [J]. Acm Sigmod Record,2000,29(2):93-104.
[10] HE Z Y,XU X F,DENG S C. Discovering cluster-based local outliers [J]. Pattern Recognition Letters,2003,24(9-10):1641-1650.
[11] ROUSSEEUW P J,VAN D K. Fast algorithm for the minimum covariance determinant estimator [J]. Technometrics,1999,41(3):212-223.
[12] 伍藏原.殘差分析法在利用MDT判斷注氣重力超覆中的應(yīng)用與實(shí)踐 [C]//2018油氣田勘探與開發(fā)國(guó)際會(huì)議(IFEDC 2018)論文集:西安石油大學(xué)、陜西省石油學(xué)會(huì):西安華線網(wǎng)絡(luò)信息服務(wù)有限公司,2018:10.
[13] 徐希寶,鄧育民,段方振.測(cè)量數(shù)據(jù)的殘差分析法 [J].科技與創(chuàng)新,2015(19):80.
[14] 謝志煒,溫銳剛,孟安波,等.基于箱形圖和隔離森林的施工人次數(shù)據(jù)處理與預(yù)測(cè)研究 [J].工程管理學(xué)報(bào),2018,32(5):92-96.
作者簡(jiǎn)介:謝志煒(1984-),男,漢族,廣東廣州人,工程師,碩士,主要研究方向:配電網(wǎng)工程管理、配電網(wǎng)工程造價(jià)管理、配電網(wǎng)規(guī)劃;馮鴻懷(1981-),男,漢族,廣東恩平人,信息系統(tǒng)項(xiàng)目管理師,主要研究方向:電力行業(yè)信息化、大數(shù)據(jù)分析;許銳埼(1995-),男,漢族,廣東潮陽(yáng)人,碩士研究生,主要研究方向:電力數(shù)據(jù)挖掘分析;通訊作者:李慧夫(1994-),男,漢族,湖北咸寧人,碩士研究生,主要研究方向:電力數(shù)據(jù)挖掘分析。