肖立華,張 博,胡 偉,陳繼軍,韓智忠
(1. 清華大學(xué) 電機(jī)工程系,北京 100084; 2. 國(guó)網(wǎng)湖南省電力有限公司 建設(shè)部,長(zhǎng)沙 410004; 3. 湖南電力工程咨詢(xún)有限公司,長(zhǎng)沙 410116; 4. 湖南華杰工程咨詢(xún)有限公司,長(zhǎng)沙 410000)
《電力建設(shè)工程工程量清單計(jì)價(jià)規(guī)范》是電網(wǎng)工程建設(shè)的經(jīng)濟(jì)標(biāo)準(zhǔn),并進(jìn)一步規(guī)范了電網(wǎng)工程的招投標(biāo)計(jì)價(jià)行為,促進(jìn)了電網(wǎng)建設(shè)招投標(biāo)市場(chǎng)健康有序協(xié)調(diào)發(fā)展[1].工程量清單[2-3]是目前國(guó)際上通用的一種招投標(biāo)方式,招標(biāo)人在投標(biāo)前根據(jù)項(xiàng)目情況提供工程量清單,投標(biāo)人根據(jù)工程量清單及相關(guān)要求計(jì)算綜合單價(jià).采用工程量清單模式招投標(biāo),能充分體現(xiàn)量?jī)r(jià)分離、風(fēng)險(xiǎn)共擔(dān)的原則,逐步放開(kāi)價(jià)格,形成市場(chǎng)競(jìng)爭(zhēng)機(jī)制.招標(biāo)人承擔(dān)工程量變更的風(fēng)險(xiǎn),投標(biāo)人承擔(dān)價(jià)格風(fēng)險(xiǎn),因此綜合單價(jià)[4-5]的確定是工程量清單計(jì)價(jià)的核心內(nèi)容,是投標(biāo)人能否中標(biāo)、盈利的關(guān)鍵.
胡丹萍[6]利用層次分析法建立了基于風(fēng)險(xiǎn)動(dòng)態(tài)量化的綜合單價(jià)預(yù)測(cè)模型,以工程項(xiàng)目施工階段為劃分,計(jì)算每一階段的綜合單價(jià)風(fēng)險(xiǎn)系數(shù);王維方等[7]分析了綜合單價(jià)的風(fēng)險(xiǎn)因素,將三角模糊數(shù)引入構(gòu)建風(fēng)險(xiǎn)因素的判斷矩陣,計(jì)算出風(fēng)險(xiǎn)因素的權(quán)重,利用模糊綜合評(píng)價(jià)法結(jié)合投標(biāo)人的預(yù)期利潤(rùn)率得到綜合單價(jià)的綜合風(fēng)險(xiǎn)系數(shù);劉必君[8]分析了工程施工成本的主要影響因素及控制因素,通過(guò)構(gòu)建影響因素指標(biāo)體系明確影響施工成本的各個(gè)組成部分,選取棧式降噪自動(dòng)編碼器算法進(jìn)行成本預(yù)測(cè).
工程量清單計(jì)價(jià)規(guī)則是目前電網(wǎng)工程項(xiàng)目招投標(biāo)普遍推廣的一種計(jì)價(jià)方式.招標(biāo)人根據(jù)電網(wǎng)工程招投標(biāo)文件的要求和工程圖紙,按照電力行業(yè)統(tǒng)一的工程量計(jì)算規(guī)則及工程項(xiàng)目劃分,為投標(biāo)人提供電網(wǎng)工程項(xiàng)目的實(shí)體工程量清單和技術(shù)措施;投標(biāo)人根據(jù)招標(biāo)人提供的工程量清單及施工組織方案,并結(jié)合工程情況且考慮企業(yè)自身管理水平、技術(shù)水平、設(shè)備水平,綜合各種風(fēng)險(xiǎn)因素,以自主報(bào)價(jià)的方式填報(bào)規(guī)定計(jì)量單位項(xiàng)目的綜合單價(jià),以此作為工程結(jié)算時(shí)價(jià)格調(diào)整的依據(jù).
工程量清單計(jì)價(jià)實(shí)施搜集的資料包括完整的工程施工圖紙、工程計(jì)價(jià)依據(jù)、市場(chǎng)價(jià)格信息、人工費(fèi)調(diào)整文件等.工程量的計(jì)算是最終工程造價(jià)計(jì)算的基礎(chǔ),其工作量龐大且繁瑣,因此,應(yīng)在計(jì)算過(guò)程中添加層次、位置、軸線等標(biāo)注,以便清晰地按照順序逐項(xiàng)計(jì)算,防止復(fù)算和漏算.
工程造價(jià)包括分部/分項(xiàng)工程費(fèi)、措施項(xiàng)目費(fèi)、其他項(xiàng)目費(fèi)、零星項(xiàng)目費(fèi)、規(guī)費(fèi)項(xiàng)目費(fèi)以及稅金的計(jì)算,最后,對(duì)工程造價(jià)款進(jìn)行復(fù)核并編制相關(guān)情況說(shuō)明,包括但不限于工程量清單的編制依據(jù)、工程圖紙編號(hào)、計(jì)價(jià)規(guī)則依據(jù)等.
綜合單價(jià)[9-10]指完成一個(gè)單位清單項(xiàng)目需要的人工費(fèi)、材料和工程設(shè)備費(fèi)、施工機(jī)具使用費(fèi)、企業(yè)管理費(fèi)、利潤(rùn)以及可能存在的風(fēng)險(xiǎn)費(fèi).人工費(fèi)主要受日工價(jià)格影響;材料和工程設(shè)備費(fèi)隨著所有清單項(xiàng)目中材料和設(shè)備的價(jià)格變化而變化,并且波動(dòng)性較大,風(fēng)險(xiǎn)性較高;施工機(jī)具使用費(fèi)同樣受材料價(jià)格的影響,主要包括水電費(fèi)、油價(jià)的波動(dòng);企業(yè)管理費(fèi)和利潤(rùn)無(wú)論采用何種綜合單價(jià)計(jì)算方式,均是在人工費(fèi)、材料和工程設(shè)備費(fèi)、施工機(jī)具使用費(fèi)三者之間的組合基礎(chǔ)上乘以對(duì)應(yīng)的費(fèi)率(利率)來(lái)進(jìn)行計(jì)算的.因此,人工費(fèi)、材料和工程設(shè)備費(fèi)、施工機(jī)具使用費(fèi)是綜合單價(jià)的重要組成部分及影響因素.
機(jī)器學(xué)習(xí)[11-12]是一門(mén)集計(jì)算機(jī)學(xué)、統(tǒng)計(jì)學(xué)、概率學(xué)、經(jīng)濟(jì)學(xué)等多領(lǐng)域?qū)W科為一體的綜合交叉學(xué)科.本質(zhì)上屬于算法范疇,通過(guò)確定一個(gè)目標(biāo)函數(shù)f,使輸入變量X到輸出變量Y可以形成最優(yōu)映射.
根據(jù)算法的功能和形式的類(lèi)似性,機(jī)器學(xué)習(xí)常見(jiàn)算法包括回歸類(lèi)的最小二乘法、以決策樹(shù)為基礎(chǔ)的集成算法、基于概率論的樸素貝葉斯及適用于推薦關(guān)聯(lián)規(guī)則的人工神經(jīng)網(wǎng)絡(luò)等.綜合單價(jià)預(yù)測(cè)模型屬于有監(jiān)督學(xué)習(xí),需要標(biāo)識(shí)數(shù)據(jù),回歸類(lèi)、決策樹(shù)類(lèi)、貝葉斯類(lèi)、人工神經(jīng)網(wǎng)絡(luò)類(lèi)算法均可適用于預(yù)測(cè)模型.綜合單價(jià)的主要影響因素均屬于典型的時(shí)間序列[13-15],且樣本數(shù)據(jù)集較小,因此,選擇決策樹(shù)類(lèi)中隨機(jī)森林算法進(jìn)行預(yù)測(cè).
電網(wǎng)工程項(xiàng)目中,綜合單價(jià)相關(guān)的信息數(shù)據(jù)基本由人工進(jìn)行采集,存在一定的缺失及異常值.數(shù)據(jù)建模的前提是要保證數(shù)據(jù)的準(zhǔn)確性及完整性,因此需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理.本文采用箱線圖方法進(jìn)行異常值的判定,采用線性填充法進(jìn)行缺失值的處理.圖1為某地混凝土C30從2016年1月到2019年12月的月均價(jià)格,明顯可以看到2017年5月,混凝土C30的價(jià)格為520元/m3,遠(yuǎn)高于其余月均價(jià)格,屬于異常值.
圖1 混凝土C30價(jià)格Fig.1 Concrete C30 price
采用箱線圖的方式對(duì)該異常判定進(jìn)行量化,即
R=U-L
(1)
Ulim=U+1.5R
(2)
Llim=L-1.5R
(3)
式中:U為該組數(shù)據(jù)的上四分位數(shù);L為該組數(shù)據(jù)的下四分位數(shù);Ulim為上界值;Llim為下界值.計(jì)算該組數(shù)據(jù)的中位數(shù)及均值,繪制箱線圖如圖2所示.其中“×”表示均值,高于上界值或低于下界值均判定為異常值.異常值可視為缺失值處理,采用線性方式對(duì)缺失值進(jìn)行填充.2017年5月的混凝土C30價(jià)格填充為2017年4月與2017年6月的均值353.8元/m3.
圖2 混凝土C30價(jià)格箱線圖Fig.2 Boxplot of concrete C30 price
隨機(jī)森林是一種以決策樹(shù)為基礎(chǔ)的評(píng)估器袋裝式集成算法,隨機(jī)森林模型的構(gòu)建流程如圖3所示.輸入容量為N、特征為M的樣本,隨機(jī)且有放回地抽取N次,每次抽取一個(gè)樣本,作為一棵決策樹(shù)跟節(jié)點(diǎn)處樣本;隨機(jī)選擇m個(gè)特征(m≤M),由于綜合單價(jià)的預(yù)測(cè)屬于回歸問(wèn)題,通常采取方差或最小二乘擬合法進(jìn)行節(jié)點(diǎn)分裂,直到節(jié)點(diǎn)不能繼續(xù)分裂形成一棵決策樹(shù);當(dāng)決策樹(shù)的棵樹(shù)小于設(shè)定值,重復(fù)以上步驟繼續(xù)建立決策樹(shù),直至達(dá)到設(shè)定值,形成森林.
圖3 隨機(jī)森林模型構(gòu)建流程Fig.3 Construction process of random forest model
當(dāng)用于綜合單價(jià)預(yù)測(cè)時(shí),輸入新的樣本數(shù)據(jù),森林中的每一棵決策樹(shù)分別進(jìn)行預(yù)測(cè),所有決策樹(shù)的預(yù)測(cè)均值將作為隨機(jī)森林模型的輸出預(yù)測(cè)結(jié)果.當(dāng)模型表現(xiàn)效果較差時(shí),說(shuō)明模型的泛化程度不足,泛化誤差大.泛化誤差受到模型的結(jié)構(gòu)復(fù)雜度影響,模型結(jié)構(gòu)過(guò)于復(fù)雜或者簡(jiǎn)單均使泛化誤差增大,故需要通過(guò)模型調(diào)參確定最優(yōu)模型復(fù)雜度.
對(duì)于隨機(jī)森林中的單棵決策樹(shù)而言,節(jié)點(diǎn)分裂次數(shù)越多則深度越深,樹(shù)的模型越復(fù)雜.默認(rèn)的決策樹(shù)參數(shù)可以讓樹(shù)無(wú)限生長(zhǎng)下去直到滿足停止條件,因此決策樹(shù)一般容易過(guò)擬合.調(diào)參時(shí)需要注意減少模型復(fù)雜度,本文使用的重要影響參數(shù)如表1所示.
選取100個(gè)電網(wǎng)工程項(xiàng)目的現(xiàn)澆基礎(chǔ)清單項(xiàng)進(jìn)行兩組對(duì)比實(shí)驗(yàn),一組不考慮特征價(jià)格隨時(shí)間的波動(dòng)性,一組考慮市場(chǎng)價(jià)格的波動(dòng)性.根據(jù)綜合單價(jià)影響因素分析,綜合單價(jià)中人工費(fèi)、材料和工程設(shè)備費(fèi)以及施工機(jī)具使用費(fèi)的主要影響因素包括:人工、板方材、混凝土C30、汽車(chē)起重機(jī)、載重汽車(chē)等,收集相關(guān)數(shù)據(jù)并進(jìn)行預(yù)處理,結(jié)果如表2所示.樣本容量N為100,特征M為5,綜合單價(jià)為模型的預(yù)測(cè)目標(biāo).
采用Python開(kāi)發(fā)工具將前70個(gè)樣本數(shù)據(jù)作為訓(xùn)練集構(gòu)建綜合單價(jià)預(yù)測(cè)模型(使用默認(rèn)參數(shù)),后30個(gè)樣本作為測(cè)試集驗(yàn)證模型的預(yù)測(cè)效果,結(jié)果如圖4所示.訓(xùn)練集中,真實(shí)值與預(yù)測(cè)值的平均絕對(duì)誤差(MAE)等于9.83,平均絕對(duì)誤差率(MAPE)為1.51%,說(shuō)明訓(xùn)練集的模型擬合效果較好;測(cè)試集中,MAE為24.59,MAPE為3.86%,則說(shuō)明預(yù)測(cè)模型存在過(guò)擬合的情況,泛化誤差大.除了模型參數(shù)影響外,經(jīng)分析影響綜合單價(jià)的因素均受市場(chǎng)價(jià)格波動(dòng)的影響,因此在建立模型時(shí)應(yīng)考慮時(shí)間特征.
表1 隨機(jī)森林模型重要參數(shù)Tab.1 Important parameters of random forest model
表2 現(xiàn)澆基礎(chǔ)清單項(xiàng)相關(guān)數(shù)據(jù)Tab.2 Relevant data of cast-in-place foundation bills
圖4 隨機(jī)森林模型預(yù)測(cè)結(jié)果Fig.4 Forecasting results of random forest model
收集所有工程前12個(gè)月的特征價(jià)格信息,與綜合單價(jià)進(jìn)行皮爾遜相關(guān)性分析,即
(4)
通過(guò)學(xué)習(xí)曲線方法確定最優(yōu)參數(shù),以n_estimators參數(shù)為例,考慮模型的運(yùn)行效率,經(jīng)驗(yàn)上n_estimators參數(shù)從1開(kāi)始每隔10取1個(gè)數(shù),直到取到201,保持其余參數(shù)不變,測(cè)試每一次模型訓(xùn)練集的得分,得分越接近1表示模型訓(xùn)練效果越好,其學(xué)習(xí)曲線如圖6所示.當(dāng)n_estimators參數(shù)等于81時(shí),得分最高為0.97,因此從82開(kāi)始每隔1取1個(gè)數(shù),直到取到90,訓(xùn)練集得分最高為0.975.按照此方法依次對(duì)其余參數(shù)進(jìn)行調(diào)優(yōu),最后結(jié)果max_depth=3,min_samples_leaf=2,min_samples_split=2,max_feature=5.測(cè)試集中真實(shí)值、優(yōu)化前預(yù)測(cè)值、優(yōu)化后預(yù)測(cè)值的對(duì)比如圖7所示.優(yōu)化后MAE值為9.67,MAPE為1.55%,明顯預(yù)測(cè)效果優(yōu)于優(yōu)化前的預(yù)測(cè)模型.
圖5 前12個(gè)月特征價(jià)格與綜合單價(jià)的相關(guān)系數(shù)Fig.5 Correlation coefficient between characteristic price and comprehensive unit price in first 12 months
圖6 學(xué)習(xí)曲線(n_estimators參數(shù))Fig.6 Learning curve (n_estimators parameter)
圖7 優(yōu)化前后測(cè)試集預(yù)測(cè)效果對(duì)比Fig.7 Comparison of forecasting effect of test set before and after optimization
工程量清單計(jì)價(jià)的核心為綜合單價(jià)的確定,綜合單價(jià)的確定主要受人工費(fèi)、材料和工程設(shè)備費(fèi)及施工機(jī)具使用費(fèi)的影響.考慮市場(chǎng)價(jià)格波動(dòng)的影響,選取機(jī)器學(xué)習(xí)中回歸預(yù)測(cè)效果較好的隨機(jī)森林算法,加入各項(xiàng)影響因素的時(shí)間特征進(jìn)行建模.與優(yōu)化前相比,優(yōu)化后的綜合單價(jià)預(yù)測(cè)結(jié)果MAE減小了14.92,MAPE降低了2.31%,由此驗(yàn)證了所提模型的精確性和可行性.但本文只收集了電網(wǎng)工程項(xiàng)目中現(xiàn)基礎(chǔ)清單項(xiàng)的數(shù)據(jù)進(jìn)行綜合單價(jià)預(yù)測(cè),后期將收集一個(gè)項(xiàng)目完整的清單項(xiàng)數(shù)據(jù)建立綜合單價(jià)預(yù)測(cè)模型,研究如何進(jìn)一步提高測(cè)試集上的預(yù)測(cè)精度.