靳書棟,李 彥,劉宏志,康 方
(國網(wǎng)山東電力經(jīng)濟技術(shù)研究院,山東濟南 250021)
隨著數(shù)字化與信息化技術(shù)的發(fā)展,全球的數(shù)據(jù)信息資源正在迅速增長,這也推進(jìn)了各個領(lǐng)域的數(shù)字化進(jìn)程。與此同時,我國電網(wǎng)的建設(shè)投資正逐年增加。故對電網(wǎng)工程造價數(shù)據(jù)加以監(jiān)測,在保障工程質(zhì)量、提高工程建設(shè)的智能程度等方面均具有重要意義[1-4]。電網(wǎng)工程異常數(shù)據(jù)的檢測問題,本質(zhì)上就是數(shù)據(jù)的分類問題。對于該問題而言,擁有足夠數(shù)量的標(biāo)記數(shù)據(jù)是獲得滿意學(xué)習(xí)性能的前提。在眾多的實際應(yīng)用中通常較易獲得大量未標(biāo)記的樣本,而對其進(jìn)行標(biāo)記則需要較大的成本開銷,所以主動學(xué)習(xí)更適用于此類應(yīng)用場景。目前的研究中已提出了諸多主動學(xué)習(xí)的方法,包括單模式及批處理模式。在單模式主動學(xué)習(xí)中,分類器選擇單個樣本并在每一輪學(xué)習(xí)中查詢其標(biāo)簽。而對于單模式主動學(xué)習(xí)而言,每次選擇和標(biāo)記新樣本時均要重新訓(xùn)練分類模型,這是一項復(fù)雜的工作。
該文針對工程造價的異常數(shù)據(jù)檢測這一應(yīng)用場景,提出了一種基于改進(jìn)SVM 的主動學(xué)習(xí)方法??紤]到數(shù)據(jù)的不確定性、多樣性及代表性,且無需交換節(jié)點間的信息,該方法引入了隨機預(yù)選的策略,并根據(jù)基于BIM 模型(Building Information Modeling)的建筑數(shù)據(jù)進(jìn)行了分析驗證。
圖1 為該文設(shè)計的基于BIM 的數(shù)據(jù)估算系統(tǒng)。
圖1 基于BIM的數(shù)據(jù)估算系統(tǒng)
該系統(tǒng)具有以下功能:
1)模型信息與基于BIM 的項目估計原型相連接,進(jìn)而可以從資源庫服務(wù)器中提取項目大綱與BIM 模型的基本信息。
2)具有性能成本、參考數(shù)據(jù)的數(shù)據(jù)庫以及成本估計算法。
3)根據(jù)現(xiàn)場工程數(shù)據(jù)的基本信息,可通過系統(tǒng)聯(lián)動,建立與數(shù)據(jù)庫的連接。
4)估算相似的成本與標(biāo)準(zhǔn)數(shù)據(jù),并將其應(yīng)用于算法以實現(xiàn)基于BIM 的初步估算系統(tǒng)。與現(xiàn)有基于BIM 的估算方法不同,該系統(tǒng)根據(jù)設(shè)計提出的備選方案及估算的總施工成本,通過初始設(shè)計階段的質(zhì)量模型來支持決策[5]。
數(shù)據(jù)庫的結(jié)構(gòu)與內(nèi)容包括用于相似性能數(shù)據(jù)匹配的項目基本信息、實際工程造價及初步估算的建設(shè)成本指數(shù)。其中,實際數(shù)據(jù)包含了建筑、機械、電力、通信、土木工程和各明細(xì)類型的造價[6-7]。此外,數(shù)據(jù)庫還包括根據(jù)詳細(xì)的工作類型建立長期的維修計劃,以預(yù)測全生命周期成本的標(biāo)準(zhǔn)以及廢物處理、產(chǎn)品與實際折現(xiàn)率等成本的估算標(biāo)準(zhǔn)。為了利用這類數(shù)據(jù),該文使用最常見且最為可靠的數(shù)據(jù)庫管理系統(tǒng)Oracle SQL Developer 來進(jìn)行構(gòu)建。
基于BIM 的估算系統(tǒng)應(yīng)首先分析工程的需求,然后將需求應(yīng)用到BIM 模型中[8-9]。而所生成的模型將被保存至存儲服務(wù)器中,估計所需的數(shù)據(jù)則會被解析并交付給原型系統(tǒng),再通過數(shù)據(jù)庫中的算法引用交付的數(shù)據(jù)和設(shè)計替代輸入的數(shù)據(jù)。
整個系統(tǒng)的處理流程如圖2 所示。工程估計人員根據(jù)工程需求與BIM 模型信息,生成每個工程項目的基本信息及備選方案。系統(tǒng)選定的設(shè)計內(nèi)容與數(shù)據(jù)庫鏈接得到類似的性能數(shù)據(jù);然后將派生數(shù)據(jù)分配到現(xiàn)值中,使過去成本數(shù)據(jù)轉(zhuǎn)換為當(dāng)前成本;最終,將實際建筑成本和標(biāo)準(zhǔn)化數(shù)據(jù)轉(zhuǎn)變?yōu)槿芷诔杀镜墓浪阒怠?/p>
圖2 系統(tǒng)處理流程
通過實施基于BIM 的項目估算系統(tǒng),設(shè)計建設(shè)項目早期的決策過程如下[10]:首先根據(jù)項目需求設(shè)定總成本,并確定項目目標(biāo)、樓層數(shù)、面積、區(qū)域與結(jié)構(gòu)等基本要素;然后結(jié)合數(shù)據(jù)庫提取相似項目的建設(shè)成本,并應(yīng)用估算算法得出總建設(shè)成本;隨后再通過估算及適當(dāng)?shù)某杀颈容^來進(jìn)行審查。若成本估算超過合理的建設(shè)成本或數(shù)據(jù)出現(xiàn)異常,則應(yīng)告警提示采取限制措施。
在建立建筑成本數(shù)據(jù)庫的基礎(chǔ)上,該節(jié)對于工程造價數(shù)據(jù)中的異常數(shù)據(jù)分類方法進(jìn)行了研究。由于工程數(shù)據(jù)具有多維屬性,因此基于概率分類器,可獲得條件概率為p(y∣xj,n)。通過多類邏輯回歸對條件概率進(jìn)行建模[11],如下所示:
定義W={wk} 是需估計的模型參數(shù)?;谶壿嫽貧w模型的分類器通常用于主動學(xué)習(xí)。模型參數(shù)可通過最小化所有標(biāo)記樣本的正則化對數(shù)似然來估計:
式中,yj,n是樣本xj,n的標(biāo)簽;λ≥0 且為權(quán)重系數(shù)[12]。由于目標(biāo)函數(shù)依賴于不同節(jié)點的標(biāo)注數(shù)據(jù),所以在分布式情況下無法直接在單個節(jié)點進(jìn)行計算。但其可分散為:
式(4)是僅依賴于節(jié)點j的局部標(biāo)記數(shù)據(jù)的局部目標(biāo)函數(shù)[13]。對于式(3)的目標(biāo)函數(shù),使用以下兩步迭代來獲得分布式優(yōu)化解,具體為:
其中,I(yj,n=k)是指標(biāo)函數(shù)。當(dāng)yj,n=k時,其值等于1;而當(dāng)yj,n≠k時,其值等于0。需要注意,梯度只能根據(jù)節(jié)點j的局部標(biāo)注數(shù)據(jù)計算。式(6)中,每個節(jié)點融合其相鄰節(jié)點的中間估計以獲得第i次迭代的最終估計。在此過程中,每個節(jié)點需要在開始融合之前向所有相鄰節(jié)點發(fā)送其中間估計。每個節(jié)點重復(fù)以上兩步,直到估計收斂,這樣就可以使不同節(jié)點的估計漸近收斂到目標(biāo)函數(shù)的一致最小值。因此,該文算法提供了一個完全去中心化的場數(shù)據(jù)分類思路。通過該方法,每個節(jié)點可在不傳輸原始數(shù)據(jù)的情況下,在全局意義上訓(xùn)練一個分類模型。將分布式樣本選擇策略與分布式分類算法相結(jié)合,得到該文設(shè)計的分布式主動學(xué)習(xí)方法過程,如圖3所示[14]。
圖3 主動式分類學(xué)習(xí)過程
該文基于改進(jìn)SVM 方法的輸變電工程異常數(shù)據(jù)檢測算法,以軟件形式進(jìn)行集成[15-16]。設(shè)計實驗從兩方面對軟件進(jìn)行驗證:一方面是對于軟件算法的性能進(jìn)行測試,并與常用算法進(jìn)行對比;另一方面是進(jìn)行工程數(shù)據(jù)檢測。
該文研究了基于分布式SVM 的異常數(shù)據(jù)分析方法的性能。實驗所使用的數(shù)據(jù)集為基于真實工程數(shù)據(jù)建模的BIM 數(shù)據(jù)集。在算法驗證時,隨機選擇每個數(shù)據(jù)集80%的未標(biāo)記數(shù)據(jù)用于訓(xùn)練,使用剩下20%的數(shù)據(jù)作為測試數(shù)據(jù)。為了模擬分布式情況,未標(biāo)記的數(shù)據(jù)通過網(wǎng)絡(luò)均勻隨機分配到不同節(jié)點。
算法驗證的場景包括10 個節(jié)點(即獨立建筑項目)組成的網(wǎng)絡(luò),每個節(jié)點連接到最近的4 個節(jié)點,然后以0.1 的概率隨機添加節(jié)點進(jìn)行連接。該文選取了以下4 種方法以及SVM 算法,與所提的改進(jìn)SVM 算法進(jìn)行比較:
1)隨機算法。每一輪數(shù)據(jù)遍歷中,每個節(jié)點隨機選擇一個未標(biāo)記的樣本進(jìn)行異常數(shù)據(jù)分析。
2)分布式BvSB 算法。每一輪數(shù)據(jù)遍歷中,每個節(jié)點選擇一個具有最高BvSB 值的本地樣本進(jìn)行異常數(shù)據(jù)分析。
3)集中式BvSB 算法。假設(shè)所有數(shù)據(jù)均收集在一起,集中式數(shù)據(jù)分析器在每個學(xué)習(xí)輪中選擇n個具有最高BvSB 值的樣本進(jìn)行異常數(shù)據(jù)分析。
4)集中式All 算法。通過查詢所有未標(biāo)記樣本的標(biāo)簽,然后使用所有已標(biāo)異常數(shù)據(jù)樣本訓(xùn)練SVM分類器。
圖4 基于數(shù)據(jù)集1的算法對比結(jié)果
圖5 基于數(shù)據(jù)集2的算法對比結(jié)果
對于每種算法,該文在每個數(shù)據(jù)集上運行了多次重復(fù)實驗。從圖4 和圖5 中可以觀察到,改進(jìn)SVM算法相比其他異常數(shù)據(jù)分類算法的性能優(yōu)勢是顯而易見的。盡管優(yōu)勢程度因不同數(shù)據(jù)集而異,但總體上改進(jìn)SVM 算法優(yōu)于其他異常數(shù)據(jù)分析算法。
該文使用基于BIM 數(shù)據(jù)的異常數(shù)據(jù)檢測方法進(jìn)行驗證。表1 為工程施工方案的成本預(yù)測。
表1 工程施工成本預(yù)測
每種設(shè)計方案的成本預(yù)測與實際對比情況表明,建筑成本占設(shè)計方案1 總生命周期的84%以上,維護和拆卸成本的比例較小,即15.57%。設(shè)計方案2的建筑成本約占生命總周期成本的10.10%,其余大部分為維護、拆卸成本。兩種方案代表了實際工程中的典型情況,該方法對于不同方案的工程成本預(yù)測準(zhǔn)確率能達(dá)到約95%,說明可以保證對不同方案、不同工程內(nèi)容的造價數(shù)據(jù)進(jìn)行準(zhǔn)確檢測,并能夠精確定位不同工程項目的造價信息,從而為造價異常數(shù)據(jù)的甄別提供有力保障。
為解決電網(wǎng)建設(shè)過程中異常造價數(shù)據(jù)的檢測問題,該文使用BIM 模型建立基于模板數(shù)據(jù)與實際建設(shè)數(shù)據(jù)的建筑數(shù)據(jù)庫,并基于改進(jìn)SVM 模型進(jìn)行了異常數(shù)據(jù)的建設(shè)。實驗結(jié)果證明了該文方法的有效性。在實際工程建設(shè)中,隨著實際情況的不斷變化,工程建設(shè)及成本數(shù)據(jù)可能會有所波動。因此,在后續(xù)將側(cè)重于動態(tài)工程異常造價數(shù)據(jù)的檢測。