劉士李,周遠科,施曉敏,高 象
(1.國網(wǎng)安徽省電力有限公司經(jīng)濟技術(shù)研究院,安徽合肥 230601;2.國網(wǎng)安徽省電力有限公司,安徽合肥 230061)
隨著我國電網(wǎng)建設(shè)工程需求的持續(xù)增長,當前電力基礎(chǔ)設(shè)施建設(shè)工程的竣工結(jié)算管理狀況已難以滿足實際需要。低壓配電網(wǎng)中電力設(shè)備數(shù)量較多,所產(chǎn)生的海量數(shù)據(jù)信息通常需要編制人員不斷重復開展數(shù)據(jù)統(tǒng)計、處理與審核工作,進而嚴重縮減了電網(wǎng)主業(yè)員工進行低壓配電網(wǎng)故障分析、架構(gòu)規(guī)劃及項目實施的有效時間,且在一定程度上影響了低壓配電網(wǎng)建設(shè)及改造工程的最終結(jié)果。此外,低壓配電網(wǎng)自身的復雜結(jié)構(gòu)使得其建設(shè)工程也較為繁雜,大幅增加了竣工結(jié)算的難度[1-3]。
在當前低壓配電網(wǎng)的結(jié)算管理過程中,施工單位主要承擔結(jié)算文件編制的工作,而業(yè)主項目部則承擔結(jié)算審核工作。但從實際結(jié)算工作來看,主要存在以下問題:1)施工單位缺少高水平配電網(wǎng)技經(jīng)人員,且業(yè)主項目部的相關(guān)人員也較為緊缺,故無法滿足各區(qū)縣配電網(wǎng)工程編制及審核的需求。因此,容易出現(xiàn)配電網(wǎng)結(jié)算工程量與實際工程量不遵從、一級線下表格不統(tǒng)一的現(xiàn)象;2)低壓配電網(wǎng)建設(shè)工程較為復雜,編制文件涵蓋的內(nèi)容也較多。在工程計量過程中會由于精度不統(tǒng)一而造成一定的偏差,并產(chǎn)生異常數(shù)據(jù)。若未及時發(fā)現(xiàn)異常會導致結(jié)算誤差嚴重,從而不利于低壓配電網(wǎng)工程項目的建設(shè);3)當前編制低壓配電網(wǎng)結(jié)算文件所必需的數(shù)據(jù)收集、審核校驗、統(tǒng)計計算與進度管理主要通過人工手動完成,難以適應當前電網(wǎng)建設(shè)的長短期發(fā)展規(guī)劃需求。因此,有必要在低壓配電網(wǎng)結(jié)算管理過程中開展對工程信息識別技術(shù)的研究。該文針對這一問題通過改進隨機森林算法,經(jīng)過特征提取及特征識別完成對工程信息的有效識別,從而甄別出工程信息中的異常數(shù)據(jù),避免誤差的產(chǎn)生;同時還改善了傳統(tǒng)人工方式的低效性,提升了低壓配電網(wǎng)建設(shè)的質(zhì)量。
低壓配電網(wǎng)的工程信息主要包括項目運營信息、施工監(jiān)管信息、施工進度信息、合同信息、安全監(jiān)管信息、物料設(shè)備信息及預結(jié)算編制信息等[4-7]。
項目運營信息是對低壓配電網(wǎng)建設(shè)項目集中整合管理所獲取的信息,主要包括計劃編制、項目存儲與項目資金計劃下發(fā)等內(nèi)容;施工監(jiān)管通常是對施工前的準備工作開展統(tǒng)一管理,所涵蓋的信息包含施工期間的日常監(jiān)管記錄、準備材料和結(jié)束后的竣工驗收材料等內(nèi)容;施工進度信息主要追蹤工程進展,通常包含總工程計劃起始日期、實際起始日期、責任部門、責任人及分包子工程的相關(guān)信息;合同信息的主要作用是保障甲乙雙方及法人的合法權(quán)益,并協(xié)商達成書面合同資料,通常包含合同編號、名稱、類型及總金額等;安全監(jiān)管信息通常涵蓋低壓配電網(wǎng)建設(shè)工程施工期間的安全標準、防護手段與處理措施,主要包括安全資料臺賬、安全管理條例、工作票信息等;物料設(shè)備信息主要確保施工期間設(shè)備材料的充足,涵蓋物料設(shè)備的倉儲信息、出入庫信息、物資采購計劃、領(lǐng)料與報廢信息,其核心是物料定額關(guān)系;預結(jié)算編制信息通常用于對工程造價開展評估,并概算出低壓配電網(wǎng)建設(shè)工程的基本預算,主要包括施工預算信息、工程勞務結(jié)算信息、施工決算信息與工程毛利潤等。
根據(jù)以上分析可以看出,低壓配電網(wǎng)建設(shè)工程信息較為復雜且數(shù)據(jù)量龐大,僅憑借人工記錄易出現(xiàn)誤差。而所記錄的數(shù)據(jù)由于類目過多,通常難以進行核驗。故需提取工程信息的主要特征,并通過特征分類識別信息的異常情況。因此,該文引入核主成分分析(Kernel Principal Components Analysis,KPCA)算法進行特征提取。
KPCA 是一種在主成分分析算法基礎(chǔ)上變遷而來的非線性特征降維方法,主要利用非線性映射函數(shù)對原始數(shù)據(jù)開展變換并提取主要成分實現(xiàn)數(shù)據(jù)的充分降維。設(shè)低壓配電網(wǎng)工程信息的數(shù)據(jù)訓練集為X={x1,x2,…,xM},?表示非線性映射函數(shù)并滿足,則定義協(xié)方差矩陣為:
對協(xié)方差矩陣實行特征分解可得:
其中,V={?(x1),?(x2),···,?(xM)} 表示數(shù)據(jù)的特征向量,且μ>0,則可將式(2)改寫為:
因Vr可視為?(x)的線性組合,因此可得到:
對r維協(xié)方差矩陣實行歸一化,使得則映射的投影為:
令G(x)表示非線性的主成分,則可獲得投影向量為:
通過KPCA能夠有效提取低壓配電網(wǎng)工程信息的特征,將其組成特征向量并用于分類識別能夠發(fā)現(xiàn)工程信息中的異常數(shù)據(jù)。該文采用隨機森林作為基礎(chǔ)的分類模型,對所獲取的工程信息特征向量進行分類識別。
隨機森林(Random Forest,RF)算法是在引導聚集算法Bagging(Bootstrap aggregating,Bagging)的基礎(chǔ)上延伸而來。該算法同時具備對所訓練樣本實行有放回的抽選及針對不同屬性實行無放回的抽選兩種功能,從而有效提升了全局搜索性能并獲得較高的分類準確率。RF 算法所應用的弱分類器即為決策樹,每個決策樹均應用Bagging 算法完成訓練樣本的采樣工作,同時還可基于隨機子空間算法完成屬性的采樣。此外,由于RF 中任一決策樹均獨立且各不相同,因此對于訓練樣本具有較強的適應性[8-11]。
RF 算法流程如圖1 所示,具體流程如下:
圖1 RF算法流程
步驟1:設(shè)定RF 完成訓練的初始參數(shù)、訓練集的樣本及決策樹的數(shù)量N,隨機化屬性并設(shè)定數(shù)量為I,確定決策樹在訓練過程中的剪枝閾值;
步驟2:針對訓練集中的樣本進行有放回的抽選,直至選出與訓練集樣本容量一致的集合并將其作為單個決策樹訓練過程中的使用樣本;
步驟3:針對屬性集實行無放回的抽選,當選夠I個屬性后,僅留存I個屬性并將其對應的數(shù)據(jù)劃分為訓練所用的樣本;
步驟4:將步驟2-3 所產(chǎn)生的訓練樣本輸入至單個決策樹中進行訓練;
步驟5:基于剪枝的閾值對完成訓練的決策樹實行剪枝;
步驟6:若完成訓練的決策樹數(shù)目低于N,則回到步驟2 繼續(xù)迭代;反之,則基于投票原則將N個決策樹進行級聯(lián)以構(gòu)成RF。
RF 算法中基于投票原則將多個決策樹的分類結(jié)果進行歸類,并選擇其中的眾數(shù)輸出為RF 的分類結(jié)果,其數(shù)學表達式為:
式中,F(xiàn)RF(x) 表示樣本經(jīng)RF 計算后的分類結(jié)果,A(·)表示符合式(9)的數(shù)目,=χ表示第n個決策樹經(jīng)運算后的分類結(jié)果為χ。c表示RF 的類目數(shù)量,其中χ隸屬于c中的一類。
在傳統(tǒng)的RF 投票原則中,各決策樹可自行為自身分類結(jié)果投票。這導致性能存在差異的決策樹具有相同的投票權(quán)重,進而對最終的分類結(jié)果產(chǎn)生不利影響,且若產(chǎn)生票數(shù)相等的情況則難以進行抉擇。因此該文為了改進RF 算法,采用精準加權(quán)對投票過程進行賦權(quán),從而提升RF 算法的分類準確率。
該文依據(jù)各決策樹的分類性能來設(shè)置相應權(quán)重,該理論的核心在于一部分訓練集的樣本仍應用于傳統(tǒng)RF,并對全部決策樹進行訓練,其余部分則作為分類預測的試驗樣本。當該部分訓練完畢后再對全部決策樹加以測試,并輸出分類準確率。整個流程的數(shù)學表達式為:
將ω設(shè)定為相應決策樹的權(quán)重,RF 中各決策樹在投票時需加以賦權(quán),則RF的輸出可由式(10)改寫為:
將RF 的投票過程進行精準加權(quán)便能避免不平衡,也無需進行平衡性調(diào)整。因此可直接將各決策樹對于預測試驗樣本的分類準確率作為權(quán)重,從而提升運算效率。
在RF 算法中,其基本參數(shù)的設(shè)置對于最終的輸出結(jié)果具有較大影響。但RF參數(shù)通常是基于人工經(jīng)驗選取,故容易導致最終分類結(jié)果產(chǎn)生誤差。因此為了獲取全局最優(yōu)參數(shù),該文將決策樹的剪枝閾值、決策樹數(shù)量與預測的試驗樣本選取概率組成目標向量。并將其設(shè)定為粒子群(Particle Swarm Optimization,PSO)算法中的單個粒子,再通過算法實現(xiàn)全局尋優(yōu)獲取最優(yōu)粒子,從而得到最適宜的RF參數(shù)[12-13]。
粒子群算法優(yōu)化RF 流程如圖2 所示,具體步驟如下:
圖2 粒子群算法優(yōu)化RF流程
步驟1:初始化RF 參數(shù),隨機化目標向量元素值,并設(shè)定屬性數(shù)目的初始值為log2(L+1)[14-16];
步驟2:基于Bagging算法對待分類樣本實行采樣,隨機產(chǎn)生N個訓練集并選取用于預測試的試驗樣本;
步驟3:將各訓練集的剩余樣本用于生成N個決策樹,并從屬性集合中篩選M個屬性作為節(jié)點屬性;
步驟4:當節(jié)點樣本個數(shù)低于剪枝閾值時,則將此節(jié)點作為葉節(jié)點并傳遞回所求屬性的眾數(shù),當作該樹的分類結(jié)果,反之則返回步驟1;
步驟5:生成全部決策樹后,開展預測試并保存正確率數(shù)據(jù);
步驟6:應用式(9)計算RF 分類結(jié)果;
步驟7:計算步驟6中的分類結(jié)果以得到準確率,應用粒子群算法實現(xiàn)RF 參數(shù)尋優(yōu)并確定最優(yōu)參數(shù),從而生成最終的RF 模型。
通過粒子群改進后的RF 對經(jīng)過KPCA 所提取的低壓配電網(wǎng)工程信息特征向量進行分類,能夠有效識別異常數(shù)據(jù),從而避免了人工核驗的困難。
該文實驗部分主要通過Matlab 2018B 編程來實現(xiàn)改進隨機森林算法,并對某省2018—2020 年低壓配電網(wǎng)工程信息進行了識別。實驗室的計算環(huán)境配置如表1 所示。
表1 實驗室的計算環(huán)境
實驗數(shù)據(jù)中有關(guān)低壓配電網(wǎng)工程信息的內(nèi)容主要包括項目運營信息、施工監(jiān)管信息、施工進度信息、合同信息、安全監(jiān)管信息、物料設(shè)備信息及預結(jié)算編制信息,如表2 所示。
表2 數(shù)據(jù)集信息
將該文提出的改進RF 算法應用于低壓配電網(wǎng)工程信息,從而實現(xiàn)對異常信息的識別。并與BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)、SVM(Support Vector Machine)、RBF(Radial Basis Function)神經(jīng)網(wǎng)絡(luò)算法及用PSO 優(yōu)化后的算法進行對比,所得的識別結(jié)果如表3 所示。
表3 識別結(jié)果
從表3 中可以看出,相比于其他算法,RF 算法對于屬性與類別較多的低壓配電網(wǎng)工程信息能夠?qū)崿F(xiàn)更為準確的識別,且其訓練集和測試集的識別準確率分別達到90.2%和86.5%。相比于其他算法具有較大的優(yōu)勢,但仍難以滿足實際工程的需要。當采用PSO 優(yōu)化以上分類算法時,各分類算法的分類準確率均得到顯著提升。其中,PSO-RF 算法訓練集與測試集識別準確率分別達到93.8%和91.0%,能夠滿足實際工程中的識別要求。盡管其他算法也在優(yōu)化后得到提升,但仍與PSO-RF 算法存在一定差距。因此,說明了該文提出的改進RF 算法可有效識別低壓配電網(wǎng)工程信息,并實現(xiàn)對異常信息的發(fā)掘。該算法在一定程度上有效避免了人工核驗的繁瑣,有助于推動低壓配電網(wǎng)的建設(shè)與改造。
文中針對當前低壓配電網(wǎng)工程建設(shè)過程中信息管理面臨的繁雜問題,在改進隨機森林算法的基礎(chǔ)上,設(shè)計了一套低壓配電網(wǎng)工程信息識別技術(shù)方案。利用KPCA 算法提取了工程信息的特征,并將隨機森林作為基礎(chǔ)分類模型完成對特征的識別。為了有效提升分類識別準確率,采用精準加權(quán)改進投票原則,并利用粒子群算法完成隨機森林的參數(shù)尋優(yōu),從而得到改進的隨機森林模型。所提出的方法相比于其他方法具有較高的識別準確率,可精確地完成低壓配電網(wǎng)工程信息的識別,具有較好的工程實用價值。