方 明,胡 龍
(廣東電網(wǎng)有限責任公司廣州供電局,廣東廣州 510600)
電網(wǎng)工程是指電力系統(tǒng)的發(fā)、輸、配、變環(huán)節(jié)的建設工程[1-4]。在智能電網(wǎng)建設過程中,電網(wǎng)公司對電網(wǎng)工程項目的管理粗獷、形式單一,急需向智能高效、精益化的電網(wǎng)工程項目管理的方向轉(zhuǎn)變[5-6]。
電網(wǎng)工程的可行性研究、初設、施工圖等各階段蘊含豐富的數(shù)據(jù)信息。電網(wǎng)公司掌握了豐富的電網(wǎng)工程項目技經(jīng)數(shù)據(jù),但未深入挖掘數(shù)據(jù)的價值[7-9]。如何深層次挖掘數(shù)據(jù)價值,提升電網(wǎng)工程造價分析和預測水平,提高電網(wǎng)公司投資決策能力是有待研究的重要方向。因此,文中基于電網(wǎng)工程投資造價智能評估分析系統(tǒng),結(jié)合模糊C均值聚類(Fuzzy C-Means,F(xiàn)CM)與最小二乘支持向量機(Least Squares Support Vector Machine,LSSVM)算法,開展電網(wǎng)工程數(shù)據(jù)智能分析與評價方法研究。
電網(wǎng)工程投資造價智能評估分析系統(tǒng)架構(gòu)如圖1 所示。其主要包括首頁展示、項目管理、輔助評審、評審意見&質(zhì)量評分、統(tǒng)計分析、造價控制指標測算、定額管理、造價分析、資源管理、現(xiàn)場輔助評審工具等共10 個模塊,部分模塊實現(xiàn)的主要功能如下。
圖1 電網(wǎng)工程投資造價評估分析系統(tǒng)架構(gòu)
1)首頁展示。實現(xiàn)未評審和已歸檔主/配網(wǎng)項目的匯總統(tǒng)計及情況展示,展示維度包括橫向與縱向維度,橫向維度為可研、初設和施工圖預算;縱向維度為不同工程類型、不同項目類型或不同項目版本等。
2)項目管理。對主/配網(wǎng)項目進行分類管理,包括可研、初設、預算等階段,實現(xiàn)項目數(shù)據(jù)同步、智能檢測、列表/詳情展示、資料歸檔等功能,并幫助專家實現(xiàn)便捷的檢索瀏覽。
3)輔助評審。提供未評審項目的展示列表和鏈接接口,自動根據(jù)評審資料及評審規(guī)則完成合規(guī)性的對比檢查,統(tǒng)計評審結(jié)果數(shù)據(jù)并提供便捷查詢。
基于電網(wǎng)工程投資造價評估分析系統(tǒng),該文開展了電網(wǎng)工程數(shù)據(jù)的智能分析與評價方法研究。將系統(tǒng)平臺的項目工程數(shù)據(jù)作為輸入,采用FCM 對大量電網(wǎng)工程數(shù)據(jù)進行聚類;然后將聚類后的結(jié)果作為LSSVM 進行回歸分析,實現(xiàn)電網(wǎng)工程的造價預估。文中所提基于FCM 與LSSVM 的電網(wǎng)工程數(shù)據(jù)智能分析和評價方法步驟如圖2 所示。
圖2 數(shù)據(jù)智能分析與評價方法
模糊集理論在聚類分析中的應用較為廣泛,其中模糊C 均值聚類使用方便、收斂迅速,能夠適應高維度、數(shù)據(jù)量大的場景[10-11]。
FCM 的核心思想是:首先隨機選取若干個數(shù)據(jù)作為初始聚類中心;然后所有的數(shù)據(jù)樣本均具有與聚類中心相關(guān)的模糊隸屬度;最終以最小化所有數(shù)據(jù)樣本到聚類中心的距離與模糊隸屬度的綜合值為目標,不斷進行迭代,更新聚類中心。當達到最大迭代次數(shù)或滿足精度要求時,結(jié)束迭代,輸出最優(yōu)的聚類中心。
式中,X為數(shù)據(jù)樣本矩陣,其規(guī)格為n×m,其每一行為一個數(shù)據(jù)樣本,共有n個數(shù)據(jù)樣本,每個數(shù)據(jù)樣本共有m個特征值。
FCM 方法將樣本總數(shù)為n的數(shù)據(jù)集分為c類,假設c個聚類中心為:
式中,第i個聚類中心為:
在FCM 中,對于任意數(shù)據(jù)樣本xk,其并不是嚴格地屬于某一分類,而是具有一定的隸屬度值屬于某一聚類中心代表的分類,該隸屬度值滿足以下關(guān)系:
式中,uik為k個數(shù)據(jù)樣本屬于i個分類的隸屬度。
迭代過程中的目標函數(shù)為:
式中,U=(uik)c×n表示隸屬度矩陣,dik為k個數(shù)據(jù)樣本與i個分類的聚類中心歐式距離,F(xiàn)(U,V)表征所有數(shù)據(jù)樣本到聚類中心的平方距離加權(quán)和,權(quán)重系數(shù)是k個數(shù)據(jù)樣本屬于i個分類的隸屬度h次方。
dik的計算方式如下:
式中,‖ ‖· 表示二范數(shù)運算;xkj為第k個數(shù)據(jù)樣本的第j個特征值;vij為第i個聚類中心的第j個特征值。
FCM 聚類的基本思路是求取U、V,使得式(6)中F(U,V)取最小值,其具體實現(xiàn)流程如圖3 所示,主要步驟如下:
圖3 模糊C均值聚類算法流程
1)輸入FCM 算法參數(shù),包括聚類中心個數(shù)c,最大迭代次數(shù)Lmax,冪指數(shù)h,最小精度ε。
3)根據(jù)下式計算第l次迭代的聚類中心V(l):
4)更新第l次迭代的隸屬度矩陣U(l),并計算出第l次迭代的目標函數(shù)值J(l):
5)判斷是否滿足精度要求或達到最大迭代次數(shù),即|J(l)-J(l-1)|<ε或l>Lmax。若是,則停止迭代;否則,令l=l+1,轉(zhuǎn)至步驟3)。
經(jīng)過FCM 的迭代計算,可以得到滿足精度要求的隸屬度矩陣和聚類中心,并使得目標函數(shù)值達到最小。進一步根據(jù)每個數(shù)據(jù)樣本屬于某類的隸屬度大小,將數(shù)據(jù)樣本歸類于隸屬度值最大的類,即當時,數(shù)據(jù)樣本xk歸屬于第j類。
對于數(shù)據(jù)(x1,y1),(x2,y2),…,(xl,yl),通過非線性映射:φ(·)將數(shù)據(jù)樣本映射到高維特征空間,并尋找最優(yōu)決策函數(shù)y(x)=wφ(x)+b,從而實現(xiàn)將非線性擬合函數(shù)轉(zhuǎn)換為高維空間的線性擬合函數(shù)[12-14]。
最小二乘支持向量機的目標是優(yōu)化誤差的二次項,優(yōu)化問題為:
其中,γ為懲罰因子;ξi為松弛因子。
用Lagrange 法求解原優(yōu)化問題轉(zhuǎn)化[15-16]:
其中,αi為拉格朗日乘子。
L分別對變量w、b、ξk、αk求偏導,并令其等于0,得到下式:
消除上式中的w和ξi可得到:
采用核函數(shù)代替高維空間的內(nèi)積計算:
通過最小二乘法求取α、b,從而得到基于最小二乘向量機的回歸分析結(jié)果:
為驗證該文所提方法的正確性和有效性,采用電網(wǎng)工程投資造價評估分析系統(tǒng)的數(shù)據(jù)。電網(wǎng)工程數(shù)據(jù)共計413 條,來源于南方電網(wǎng)某供電局。以架空線路工程為例,影響其造價的主要因素如表1 所示。
表1 架空線路造價影響因素
為評估FCM 聚類的效果,以Xie-Beni 指數(shù)作為有效性指標,其計算方法如下:
ηXB的取值越小,F(xiàn)CM 聚類效果越好。
將電網(wǎng)工程數(shù)據(jù)集作為FCM 輸入,令聚類數(shù)c在2~14 范圍內(nèi)變化,得到Xie-Beni 指數(shù)變化情況,如圖4 所示。由此可知,當聚類數(shù)c=6 時,Xie-Beni指數(shù)最小,因此最佳聚類數(shù)為6。
圖4 Xie-Beni指數(shù)變化情況
為驗證該文所提基于FCM-LSSVM 算法的電網(wǎng)工程造價智能評估算法的性能,設置以下兩種方案:
方案1:電網(wǎng)工程數(shù)據(jù)不經(jīng)過聚類分析,直接作為LSSVM 算法的輸入;
方案2:使用文中所提算法,電網(wǎng)工程數(shù)據(jù)經(jīng)FCM 聚類后,將聚類結(jié)果作為LSSVM 算法的輸入。
算法的計算時長如表2 所示,以10 個實際的電網(wǎng)工程數(shù)據(jù)測試該文所設計算法的準確性,計算結(jié)果如表3 所示。
表2 算法計算時長
表3 算法的準確性對比
由表2可知,在計算時長方面,方案1大于方案2。這是因為方案1 輸入數(shù)據(jù)規(guī)模較大,增加了算法的計算時長;而方案2 雖然FCM 算法耗費一定的計算時間,但通過將具有相似特征的數(shù)據(jù)樣本進行聚類分析,將聚類結(jié)果作為LSSVM 算法輸入,大幅度提高了算法的計算速度。
由表3 可知,在準確性方面,對于10 個測試例來說,方案2 的誤差均小于方案1。這是因為方案2 中經(jīng)過FCM 的聚類分析,實現(xiàn)了數(shù)據(jù)樣本的特征提取,減少了次要因素的影響干擾,使得LSSVM 算法能夠充分挖掘電網(wǎng)工程造價與數(shù)據(jù)樣本特征的關(guān)系,提高了電網(wǎng)工程造價評估的準確性。
文中基于電網(wǎng)工程投資造價評估分析系統(tǒng),結(jié)合FCM 與LSSVM 算法,開展電網(wǎng)工程造價評估研究。通過算例分析表明,文中所提算法經(jīng)過FCM 算法,實現(xiàn)特征相似的電網(wǎng)工程數(shù)據(jù)聚類,減少了LSSVM 算法處理數(shù)據(jù)的規(guī)模,大幅縮短了計算時長。同時FCM 算法實現(xiàn)了特征的提取,提高了電網(wǎng)工程造價評估的準確性。