李謨興,何永秀,柳 洋,陳威君,李存斌
(華北電力大學(xué),北京 102206)
配電網(wǎng)工程是國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展的重要公共基礎(chǔ)設(shè)施,具有建設(shè)規(guī)模大、點(diǎn)多、面廣、設(shè)備種類繁多等特點(diǎn)[1-2],加之配電網(wǎng)工程階段多、控制對(duì)象廣,建設(shè)過(guò)程中產(chǎn)生海量的電力數(shù)據(jù),且數(shù)據(jù)變化快,關(guān)系復(fù)雜,導(dǎo)致配電網(wǎng)工程項(xiàng)目造價(jià)管控難度大,造價(jià)預(yù)測(cè)難度大大增加[3-4]。因此,分析和篩選出配電網(wǎng)工程造價(jià)的重要影響因素,尋找合適的預(yù)測(cè)方法進(jìn)行造價(jià)預(yù)測(cè),對(duì)于推動(dòng)配電網(wǎng)造價(jià)精益化管控向更優(yōu)、更強(qiáng)、更精、更準(zhǔn)的方向發(fā)展具有重要意義。
文獻(xiàn)[5]利用人工蜂群算法對(duì)支持向量機(jī)參數(shù)進(jìn)行了參數(shù)優(yōu)化,但沒(méi)有在造價(jià)大數(shù)據(jù)中篩選出重要造價(jià)影響因素;文獻(xiàn)[6]結(jié)合建筑工程項(xiàng)目分析了模糊綜合評(píng)價(jià)方法在土建工程造價(jià)預(yù)測(cè)中具體應(yīng)用,但沒(méi)有建立合理的預(yù)測(cè)模型;文獻(xiàn)[7]根據(jù)道路施工需求,基于最小二乘支持向量機(jī)算法提出一種新的道路工程施工階段造價(jià)預(yù)測(cè)方法,但同樣缺少在造價(jià)大數(shù)據(jù)中篩選出重要造價(jià)影響因素;文獻(xiàn)[8]選取支持向量機(jī)算法構(gòu)建住宅工程造價(jià)預(yù)測(cè)模型,但沒(méi)有對(duì)模型的關(guān)鍵參數(shù)進(jìn)行尋優(yōu);文獻(xiàn)[9-14]提出了利用人工神經(jīng)網(wǎng)絡(luò)、遺傳算法等構(gòu)建輸電線路工程造價(jià)預(yù)測(cè)模型,但同樣缺少對(duì)重要造價(jià)影響因素的篩選;其他學(xué)者提出的造價(jià)預(yù)測(cè)方法中,也同樣存在預(yù)測(cè)模型和方法待完善等問(wèn)題[15-20]。上述研究結(jié)果表明,多數(shù)文獻(xiàn)作者所提出的工程造價(jià)分析方法和預(yù)測(cè)模型不夠完善,且缺乏對(duì)重要造價(jià)影響因素的提取,在大數(shù)據(jù)技術(shù)和人工智能學(xué)習(xí)算法快速發(fā)展的背景下,其預(yù)測(cè)方法和模型還有待完善。
針對(duì)配電網(wǎng)工程造價(jià)預(yù)測(cè)精度不高的問(wèn)題,提出一種基于大數(shù)據(jù)與機(jī)器學(xué)習(xí)算法的配電網(wǎng)電纜線路工程造價(jià)組合預(yù)測(cè)模型,該方法首先基于灰色關(guān)聯(lián)分析法從造價(jià)大數(shù)據(jù)中選取重要造價(jià)影響因素,其次基于交叉驗(yàn)證與網(wǎng)格搜索算法對(duì)最小二乘向量機(jī)算法進(jìn)行關(guān)鍵參數(shù)尋優(yōu),最后利用尋優(yōu)之后的最小二乘支持向量機(jī)算法進(jìn)行造價(jià)預(yù)測(cè),將預(yù)測(cè)結(jié)果與造價(jià)實(shí)際值對(duì)比可知,本文提出的預(yù)測(cè)方法與實(shí)際工程造價(jià)費(fèi)用的偏差較小,能有效提升配電網(wǎng)電纜線路工程造價(jià)的預(yù)測(cè)精度,有利于實(shí)現(xiàn)配電網(wǎng)造價(jià)精益化管控。
配電網(wǎng)工程項(xiàng)目數(shù)量龐大、種類各異,工程建設(shè)過(guò)程中產(chǎn)生海量的造價(jià)數(shù)據(jù),從這些數(shù)據(jù)中選取重要工程造價(jià)影響因子有利于提高工程造價(jià)估算的準(zhǔn)確性。根據(jù)數(shù)據(jù)資料統(tǒng)計(jì),初步確定配電網(wǎng)電纜線路工程相關(guān)造價(jià)影響因素,包括電壓等級(jí)、建設(shè)性質(zhì)、電纜材質(zhì)、電纜芯截面積、電纜敷設(shè)總長(zhǎng)度、電纜綜合價(jià)格、電纜終端頭數(shù)量、電纜中間接頭數(shù)量、人力運(yùn)距總量、汽車運(yùn)距總量、電纜橋架數(shù)量、基礎(chǔ)鋼筋數(shù)量、電纜溝敷設(shè)長(zhǎng)度、頂管敷設(shè)長(zhǎng)度、排管敷設(shè)長(zhǎng)度、地形條件、地質(zhì)類型、土石方總量和建設(shè)場(chǎng)地征用及清理費(fèi)等19 個(gè)造價(jià)影響因素。電壓等級(jí)越高、線路越長(zhǎng),其對(duì)應(yīng)的技術(shù)水平和施工要求越高,實(shí)際造價(jià)值也越大;鋁質(zhì)電纜造價(jià)水平低于銅質(zhì)電纜;電纜芯截面積越大,其造價(jià)成本越高;電纜敷設(shè)長(zhǎng)度與電纜綜合價(jià)格和造價(jià)水平成正相關(guān)關(guān)系;電纜終端頭數(shù)量、電纜中間接頭數(shù)量、電纜橋架數(shù)量和基礎(chǔ)鋼筋數(shù)量越多,實(shí)際造價(jià)值越大;人力運(yùn)距、汽車運(yùn)距和土石方的總量也會(huì)影響造價(jià)水平高低;電纜溝敷設(shè)長(zhǎng)度、頂管敷設(shè)長(zhǎng)度和排管敷設(shè)長(zhǎng)度會(huì)影響實(shí)際工程中人工、材料和機(jī)械的成本,進(jìn)而影響工程造價(jià)成本;不同地形的工程造價(jià)成本不同(如工程施工途經(jīng)山地、平原、高山、丘陵等不同地形),不同的地質(zhì)條件(如工程施工途經(jīng)凍土、普通土、堅(jiān)土、松砂石等不同地質(zhì)),造成線路施工中人材機(jī)等費(fèi)用不同,造價(jià)水平也會(huì)受到影響;工程實(shí)際造價(jià)值也會(huì)受到建設(shè)場(chǎng)地征用及清理費(fèi)的影響,線路施工補(bǔ)償?shù)荣M(fèi)用越高,電纜線路工程造價(jià)水平就越高。
灰色關(guān)聯(lián)分析(Grey Relational Analysis,GRA)可以計(jì)算不同的造價(jià)影響因素和工程實(shí)際造價(jià)值之間的關(guān)聯(lián)系數(shù),來(lái)反映二者的關(guān)聯(lián)程度,通常用于分析各個(gè)影響因素對(duì)結(jié)果的影響程度,通過(guò)灰關(guān)聯(lián)分析篩選出最主要的造價(jià)影響因素,其分析如下。
1)確定比較序列和參考序列。
比較序列和參考序列如式(1)所示。
式中:Xi為比較序列,在本文中為第i個(gè)配電網(wǎng)電纜線路工程中的造價(jià)影響因素;Xi(j)為第i個(gè)配電網(wǎng)電纜線路工程中第j個(gè)造價(jià)影響因素;Yi為參考序列,在本文中為第i個(gè)配電網(wǎng)電纜線路工程實(shí)際造價(jià)值;Yi(j)為第i個(gè)配電網(wǎng)電纜線路工程中第j個(gè)項(xiàng)目的實(shí)際造價(jià)值;m為配電網(wǎng)電纜線路工程總數(shù);n為造價(jià)影響因素總數(shù)。
2)序列無(wú)量綱化處理。
由于序列中不同影響因素量綱差異較大,無(wú)法準(zhǔn)確比較,因此,在進(jìn)行造價(jià)影響因素的灰色關(guān)聯(lián)分析時(shí),須進(jìn)行無(wú)量綱化處理,如式(2)所示。
式中:X′i(j)為無(wú)量綱化之后的比較序列的值;Y′i(j)為無(wú)量綱化之后的參考序列的值。
3)計(jì)算參考序列與比較序列的差值。
計(jì)算參考序列與比較序列的差值如式(3)所示。
式中:k為結(jié)構(gòu)風(fēng)險(xiǎn)系數(shù);Δij(k)為參考序列與比較序列的差值,i=1,2,…,m,j=1,2,…,n;G為兩序列極差最大值;H為兩序列極差最小值。
4)計(jì)算灰色關(guān)聯(lián)系數(shù)。灰色關(guān)聯(lián)系數(shù)為
式中:εij為灰色關(guān)聯(lián)系數(shù);δ為分辨系數(shù),本文取0.5。
5)計(jì)算灰色關(guān)聯(lián)度。
灰色關(guān)聯(lián)度為
最小二乘支持向量機(jī)(Least Squares Support Vector Machine,LSSVM)是對(duì)標(biāo)準(zhǔn)支持向量機(jī)的一種重要改進(jìn),其通過(guò)將支持向量機(jī)中的不等式約束改為等式約束,避免了求解復(fù)雜的二次規(guī)劃問(wèn)題,在計(jì)算過(guò)程中能加快預(yù)測(cè)模型的訓(xùn)練速度和提高預(yù)測(cè)精度,具體實(shí)現(xiàn)過(guò)程如下。
首先在高維特征空間中,將變量(xi,yi),通過(guò)非線性映射函數(shù)ζ(x)進(jìn)行轉(zhuǎn)換,其中xi為第i個(gè)配電網(wǎng)電纜線路工程的造價(jià)影響因素,即模型的輸入向量,yi為第i個(gè)配電網(wǎng)電纜線路工程實(shí)際造價(jià)值,即模型的輸出向量;建立線性回歸函數(shù)為
式中:ζ(x)為非線性映射函數(shù);λ為權(quán)值向量;w為偏置項(xiàng)。
其次根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,選擇損失函數(shù)為誤差的二次項(xiàng),LSSVM問(wèn)題可表示為:
式中:β和b為算法參數(shù);C為懲罰因子;ei為第i個(gè)樣本預(yù)測(cè)值與真實(shí)值間的誤差。
然后對(duì)目標(biāo)函數(shù)建立拉格朗日等式如式(9)所示。
式中:θ為拉格朗日乘子,θ∈R。
最后對(duì)LSSVM 函數(shù)中的各變量求偏導(dǎo),從而得到配電網(wǎng)電纜線路工程造價(jià)LSSVM 預(yù)測(cè)函數(shù)如式(10)所示。
式中:h(x)為配電網(wǎng)電纜線路工程造價(jià)LSSVM 預(yù)測(cè)函數(shù);K(x,xi)為核函數(shù);φ為徑向基核函數(shù)參數(shù);x為工程造價(jià)影響因素。
2.3.1 交叉驗(yàn)證
交叉驗(yàn)證(Cross Validation,CV)是一種驗(yàn)證分類器性能的統(tǒng)計(jì)分析方法。本文運(yùn)用s折十字交叉驗(yàn)證法(s-fold Cross Validation)進(jìn)行參數(shù)優(yōu)化,下文將s折十字交叉驗(yàn)證法簡(jiǎn)寫為s-fold-CV,其基本原理是將配電網(wǎng)電纜線路工程造價(jià)數(shù)據(jù)先均勻分割成s份,選其中s-1 份為訓(xùn)練數(shù)據(jù)去建立模型,留下最后一份數(shù)據(jù)做測(cè)試,可得到一個(gè)分類準(zhǔn)確率。重復(fù)上述步驟可得到s個(gè)模型,依次將s份不同的測(cè)試數(shù)據(jù)輸入模型可得到s個(gè)分類準(zhǔn)確率,將s個(gè)分類準(zhǔn)確率取平均數(shù)作為最終的分類準(zhǔn)確率。
2.3.2 網(wǎng)格搜索算法
網(wǎng)格搜索可以在特定的空間范圍內(nèi)將最小二乘支持向量機(jī)模型中的懲罰因子C和核函數(shù)寬度g構(gòu)成的參數(shù)空間劃分為若干長(zhǎng)短相同的網(wǎng)格,網(wǎng)格中每個(gè)點(diǎn)都代表一對(duì)參數(shù),依次遍歷網(wǎng)格中的每一個(gè)點(diǎn)并計(jì)算其對(duì)應(yīng)模型的均方誤差值,最后通過(guò)對(duì)比找出最優(yōu)參數(shù)組合。
本文運(yùn)用網(wǎng)格搜索和交叉驗(yàn)證算法進(jìn)行最小二乘支持向量機(jī)模型自學(xué)習(xí)參數(shù)尋優(yōu),在特定的網(wǎng)格范圍內(nèi)使(C,g)遍歷所有取值,并用s-fold-CV 求每組參數(shù)對(duì)應(yīng)的分類準(zhǔn)確率,將最高數(shù)值作為(C,g)取值,最終獲得網(wǎng)格中全局最優(yōu)解。具體步驟如下:
1)網(wǎng)格搜索參數(shù)組取值。對(duì)于初始搜索區(qū)間(a,b),取網(wǎng)格點(diǎn)為參數(shù)對(duì)[C,g],其中C=ea,g=eb。
2)利用s-fold 劃分?jǐn)?shù)據(jù)集。將配電網(wǎng)電纜線路工程造價(jià)數(shù)據(jù)訓(xùn)練集等分成s個(gè)子集,每次以任意一個(gè)子集作為測(cè)試數(shù)據(jù),其余s-1份作為訓(xùn)練數(shù)據(jù)。
3)確定最優(yōu)參數(shù)組。遍歷網(wǎng)格搜索得到的所有參數(shù)組,運(yùn)用s-fold-CV 計(jì)算訓(xùn)練模型的均方誤差并對(duì)比,取使均方誤差最小的參數(shù)組取值為最優(yōu)參數(shù)并更新最小二乘支持向量機(jī)預(yù)測(cè)模型。
本研究將GRA算法優(yōu)化選擇重要造價(jià)影響因素的能力、CV和網(wǎng)格搜索算法對(duì)LSSVM中參數(shù)C和g的全局尋優(yōu)能力、LSSVM解決小樣本及非線性等問(wèn)題的優(yōu)勢(shì)結(jié)合在一起,構(gòu)建GRA-CV-LSSVM配電網(wǎng)電纜線路工程造價(jià)預(yù)測(cè)模型,構(gòu)建流程如下圖1所示。
圖1 基于GRA-CV-LSSVM 的配電網(wǎng)電纜線路工程造價(jià)組合預(yù)測(cè)模型
為了驗(yàn)證GRA-CV-LSSVM 模型的預(yù)測(cè)效果,本文運(yùn)用均方根誤差(Root Mean Square Error,RMSE)和平均絕對(duì)百分比誤差(Mean Absolute Percentage Error,MAPE)兩個(gè)評(píng)價(jià)指標(biāo)對(duì)各造價(jià)預(yù)測(cè)模型的優(yōu)劣性進(jìn)行評(píng)價(jià),如式(11)、式(12)所示。
式中:zi為配電網(wǎng)電纜線路工程造價(jià)實(shí)際值;z′i為造價(jià)預(yù)測(cè)值;v為配電網(wǎng)電纜線路工程總數(shù)。
從某電力公司近年來(lái)已完工項(xiàng)目中隨機(jī)選取400 組配電網(wǎng)電纜線路工程造價(jià)數(shù)據(jù)對(duì)造價(jià)預(yù)測(cè)模型進(jìn)行訓(xùn)練和測(cè)試,其中定性指標(biāo)數(shù)據(jù)有2 400 條,其余5 200 條數(shù)據(jù)為定量指標(biāo)數(shù)據(jù),用320 組工程數(shù)據(jù)進(jìn)行訓(xùn)練,其余80 組工程數(shù)據(jù)進(jìn)行測(cè)試。首先對(duì)定性指標(biāo)進(jìn)行量化處理:如電壓等級(jí)、電纜材質(zhì)、建設(shè)性質(zhì)、地形類型、地質(zhì)類型等,利用數(shù)字標(biāo)識(shí)進(jìn)行代替,如在電壓等級(jí)10 kV取值為1,0.4 kV取值為2;其他定性變量同理進(jìn)行處理。對(duì)于工程中若有同一變量不同類別的數(shù)據(jù),則采取加權(quán)平均的方式進(jìn)行取值,轉(zhuǎn)化過(guò)的樣本數(shù)據(jù)如表1所示。
表1 配電網(wǎng)電纜線路工程樣本數(shù)據(jù)1
結(jié)合現(xiàn)有文獻(xiàn)中針對(duì)灰色關(guān)聯(lián)度閾值的研究,并考慮配電網(wǎng)電纜線路工程的造價(jià)影響因素的特點(diǎn),初步設(shè)定將灰色關(guān)聯(lián)度在0.75 以上的13 個(gè)配電網(wǎng)電纜線路工程造價(jià)影響因素確定為造價(jià)主要影響因素,并作為CV-LSSVM 預(yù)測(cè)模型的輸入變量,根據(jù)式(1)—式(5)計(jì)算灰關(guān)聯(lián)度的結(jié)果如圖2所示。
圖2 造價(jià)影響因素灰關(guān)聯(lián)分析
由圖2 可以看出,灰色關(guān)聯(lián)度在0.75 以上的配電網(wǎng)電纜線路工程造價(jià)影響因素有電纜敷設(shè)總長(zhǎng)度、電纜材質(zhì)、電纜綜合價(jià)格、電纜終端頭數(shù)量、電壓等級(jí)、基礎(chǔ)鋼筋數(shù)量、地形條件、地質(zhì)類型、電纜中間接頭數(shù)量、汽車運(yùn)距總量、電纜橋架數(shù)量、建設(shè)性質(zhì)、建設(shè)場(chǎng)地征用及清理費(fèi)等13 個(gè)重要造價(jià)影響因素,本文在LSSVM 模型中選取這13 個(gè)造價(jià)影響因素作為預(yù)測(cè)模型的輸入變量。
采用網(wǎng)格搜索和交叉驗(yàn)證法對(duì)(C,g)參數(shù)進(jìn)行尋優(yōu)。設(shè)定C和g的范圍,令C∈[2-8,28],g∈[2-10,210],C和g都選取0.05 作為其步長(zhǎng),取k=10 代入k-fold-CV 中進(jìn)行十字交叉驗(yàn)證。LSSVM 參數(shù)尋優(yōu)的結(jié)果見圖3 所示,由圖3 可以得出最佳參數(shù)組合C=128.18,g=0.156 73。
圖3 LSSVM參數(shù)選擇的三維視圖
將最優(yōu)參數(shù)組合C=128.18,g=0.156 73 代入到LSSVM 模型中,對(duì)訓(xùn)練樣本中的工程造價(jià)進(jìn)行預(yù)測(cè),達(dá)到預(yù)測(cè)精度之后,再對(duì)模型的預(yù)測(cè)擬合結(jié)果進(jìn)行檢驗(yàn),通過(guò)可視化繪圖輸出訓(xùn)練樣本和測(cè)試樣本的擬合結(jié)果如圖4所示。
圖4 訓(xùn)練樣本及測(cè)試樣本擬合預(yù)測(cè)結(jié)果
由圖4 可知,在灰關(guān)聯(lián)分析篩選出重要造價(jià)影響因素后,利用網(wǎng)格搜索和交叉驗(yàn)證進(jìn)行尋優(yōu),對(duì)LSSVM 建模來(lái)訓(xùn)練樣本,工程造價(jià)預(yù)測(cè)值與實(shí)測(cè)值貼近,訓(xùn)練和測(cè)試效果理想。
為進(jìn)一步測(cè)試GRA-CV-LSSVM 模型的預(yù)測(cè)效果,分別進(jìn)行兩種不同情景下的造價(jià)預(yù)測(cè)效果的對(duì)比。情景1:利用相同的測(cè)試樣本數(shù)據(jù)分別對(duì)未經(jīng)過(guò)GRA 選取重要造價(jià)影響因素,未利用網(wǎng)格搜索與交叉驗(yàn)證CV 算法進(jìn)行參數(shù)尋優(yōu)的LSSVM 模型進(jìn)行預(yù)測(cè)。情景2:同樣利用相同的測(cè)試樣本數(shù)據(jù)分別與主成分分析法(Principal Component Analysis,PCA)、遺傳算法(Genetic Algorithm,GA)、人工神經(jīng)網(wǎng)絡(luò)算法(Bank Propagation,BP)以及粒子群算法(Particle Swarm Optimization,PSO)構(gòu)成的GRA-BP-LSSVM 模型、PCA-BP-LSSVM模型等其他組合造價(jià)模型進(jìn)行對(duì)比。兩情景下的預(yù)測(cè)效果如圖5(a)和圖5(b)所示,RMSE和MAPE的對(duì)比結(jié)果分別如圖5(c)和圖5(d)所示。
圖5 兩種不同情景下各模型預(yù)測(cè)結(jié)果曲線及評(píng)價(jià)結(jié)果對(duì)比
由圖5(a)和(b)可知,情景1 中各預(yù)測(cè)模型優(yōu)劣效果依次為:GRA-CV-LSSVM 模型>CV-LSSVM 模型>GRA-LSSVM 模型>LSSVM 模型;情景2 中各模型的優(yōu)劣順序依次為:GRA-CV-LSSVM 模型>PCA-PSO-LSSVM模型>PCA-BP-LSSVM模型>GRA-BP-LSSVM模型。兩種情景下RF-CV-LSSVM 模型的預(yù)測(cè)效果均為最優(yōu)。
由圖5(c)和(d)可知:兩種不同情景下GRA-CVLSSVM 造價(jià)預(yù)測(cè)模型的RMSE 為87 965,MAPE 計(jì)算結(jié)果為5.68%,相比其他預(yù)測(cè)模型誤差最低。說(shuō)明本文設(shè)計(jì)的GRA-CV-LSSVM造價(jià)預(yù)測(cè)模型相較其他預(yù)測(cè)模型算法可以更有效提升配電網(wǎng)電纜線路工程造價(jià)預(yù)測(cè)的準(zhǔn)確性,為配電網(wǎng)電纜線路造價(jià)精益化管控提供方法參考。
針對(duì)配電網(wǎng)電纜線路工程造價(jià)影響因素眾多、預(yù)測(cè)精度不高等問(wèn)題,提出一種基于大數(shù)據(jù)與機(jī)器學(xué)習(xí)的配電網(wǎng)電纜線路工程造價(jià)組合預(yù)測(cè)模型。
通過(guò)GRA 算法提取重要造價(jià)影響因素來(lái)作為L(zhǎng)SSVM 造價(jià)預(yù)測(cè)模型的輸入變量,能夠篩選出預(yù)測(cè)模型中最重要的造價(jià)影響因素,提高了預(yù)測(cè)模型的訓(xùn)練速度。
通過(guò)運(yùn)用交叉驗(yàn)證和網(wǎng)格搜索算法優(yōu)化LSSVM模型中的參數(shù)C和g,提高了LSSVM 模型預(yù)測(cè)的精度,能得到具有泛化能力好、適應(yīng)范圍廣、預(yù)測(cè)精度高的配電網(wǎng)電纜線路工程造價(jià)預(yù)測(cè)模型。
基于大數(shù)據(jù)與機(jī)器學(xué)習(xí)的配電網(wǎng)電纜線路工程造價(jià)預(yù)測(cè)模型,相較于其他造價(jià)預(yù)測(cè)模型的預(yù)測(cè)結(jié)果更接近實(shí)際值,將為配電網(wǎng)電纜線路工程造價(jià)精益化管控提供一種重要手段。