劉俊宇,陳 輝,張福峰,曲永強(qiáng),趙鐵英
(國(guó)網(wǎng)撫順供電公司,遼寧 撫順 113008)
電力行業(yè)是國(guó)民經(jīng)濟(jì)發(fā)展的基礎(chǔ),確保電力企業(yè)的健康發(fā)展對(duì)促進(jìn)國(guó)民經(jīng)濟(jì)快速發(fā)展具有至關(guān)重要的意義[1]。電力企業(yè)數(shù)量的快速增加使得電力企業(yè)之間的競(jìng)爭(zhēng)越來(lái)越激烈,通過(guò)建立電力企業(yè)市場(chǎng)競(jìng)爭(zhēng)力預(yù)測(cè)模型可以更加科學(xué)地了解影響電力企業(yè)市場(chǎng)競(jìng)爭(zhēng)力的因素,對(duì)電力企業(yè)的市場(chǎng)競(jìng)爭(zhēng)力做出客觀的評(píng)價(jià)。高曉紅等[2]采用時(shí)序人工神經(jīng)網(wǎng)絡(luò)和因果人工神經(jīng)網(wǎng)絡(luò)建立了企業(yè)競(jìng)爭(zhēng)力的預(yù)測(cè)模型,決策者可以根據(jù)技術(shù)創(chuàng)新、管理創(chuàng)新、營(yíng)銷創(chuàng)新、知識(shí)創(chuàng)新等各項(xiàng)指標(biāo),借助所搭建的預(yù)測(cè)模型來(lái)預(yù)測(cè)企業(yè)的競(jìng)爭(zhēng)力。鄧蓉暉等[3]基于神經(jīng)網(wǎng)絡(luò)對(duì)建筑企業(yè)競(jìng)爭(zhēng)力評(píng)估方法進(jìn)行了研究,所搭建的神經(jīng)網(wǎng)絡(luò)可以實(shí)現(xiàn)二級(jí)指標(biāo)和綜合指標(biāo)的非線性映射,避免了指標(biāo)權(quán)重確定的人為因素和隨機(jī)因素干擾,采用所搭建的神經(jīng)網(wǎng)絡(luò)模型可以預(yù)測(cè)建筑企業(yè)的競(jìng)爭(zhēng)力。電力企業(yè)市場(chǎng)競(jìng)爭(zhēng)力預(yù)測(cè)是一件十分復(fù)雜的事情,隨機(jī)森林算法是利用多棵樹(shù)對(duì)樣本進(jìn)行訓(xùn)練并預(yù)測(cè)的分類器,在解決復(fù)雜問(wèn)題方面具有十分廣泛的應(yīng)用。基于此,本文在對(duì)隨機(jī)森林算法分析的基礎(chǔ)上給出了改進(jìn)的隨機(jī)森林算法,并將其應(yīng)用于電力企業(yè)市場(chǎng)競(jìng)爭(zhēng)力預(yù)測(cè)中。
隨機(jī)森林算法是采用隨機(jī)方法構(gòu)建一個(gè)森林,所構(gòu)建的森林由無(wú)關(guān)聯(lián)的多顆決策樹(shù)所組成,其主要被應(yīng)用于分類和回歸問(wèn)題的分析中[4]。采用重采樣技術(shù)從原始數(shù)據(jù)中抽取一定數(shù)量的樣本,對(duì)抽取的樣本進(jìn)行決策樹(shù)建模,生成多棵決策樹(shù),最終得到回歸預(yù)測(cè)值。圖1為隨機(jī)森林回歸預(yù)測(cè)模型圖。
圖1 隨機(jī)森林回歸預(yù)測(cè)模型
設(shè)X為原始輸入數(shù)據(jù),Y為原始輸出數(shù)據(jù),由原始輸入數(shù)據(jù)X和原始輸出數(shù)據(jù)Y構(gòu)成原始數(shù)據(jù)集合S=(X,Y)。由圖1可知,隨機(jī)森林回歸預(yù)測(cè)是從原始數(shù)據(jù)集合S中隨機(jī)抽樣,取k個(gè)數(shù)據(jù)組成訓(xùn)練樣本集合,通過(guò)訓(xùn)練樣本集合產(chǎn)生k棵決策樹(shù)。每一棵決策樹(shù)都會(huì)產(chǎn)生一個(gè)預(yù)測(cè)值,對(duì)k個(gè)預(yù)測(cè)值求平均值最終得到回歸預(yù)測(cè)結(jié)果。在隨機(jī)森林中,每一棵樹(shù)均為二叉樹(shù)。二叉樹(shù)的生成遵循自上向下的遞歸分裂原則[4]。在隨機(jī)森林的根節(jié)點(diǎn)中包含有全部的訓(xùn)練數(shù)據(jù),其被分裂為左節(jié)點(diǎn)與右節(jié)點(diǎn)。分裂按照節(jié)點(diǎn)不純度最小原則進(jìn)行,直到滿足停止規(guī)則。在隨機(jī)森林算法中常常采用基尼指數(shù)來(lái)衡量不純度,基尼指數(shù)GH的計(jì)算公式為[5]:
(1)
式中:m為數(shù)據(jù)集H中包含的類別數(shù);pj為j類元素出現(xiàn)的頻率。
采用隨機(jī)森林算法對(duì)電力企業(yè)市場(chǎng)競(jìng)爭(zhēng)力進(jìn)行預(yù)測(cè),隨機(jī)森林樹(shù)的數(shù)量ntree和葉節(jié)點(diǎn)mtry對(duì)預(yù)測(cè)的結(jié)果影響比較大[6]。一般而言,隨機(jī)森林樹(shù)的數(shù)量ntree比較大時(shí),才能夠確保模型的誤差趨于穩(wěn)定,但是樹(shù)的數(shù)量ntree不能夠過(guò)大,因?yàn)檫^(guò)大會(huì)導(dǎo)致過(guò)擬合,反而使得誤差比較大。葉節(jié)點(diǎn)mtry是從所有的特征集中隨機(jī)選擇幾個(gè)特征作為分裂的變量個(gè)數(shù),一般取特征變量總數(shù)的1/3或者通過(guò)計(jì)算袋外數(shù)據(jù)(OOB)誤差來(lái)確定。
(2)
(3)
定義果蠅種群氣味濃度變化率R為[8]:
(4)
由氣味濃度變化率R來(lái)更新算法尋優(yōu)步長(zhǎng)的權(quán)重α,權(quán)重α和氣味濃度變化率R之間的關(guān)系由試驗(yàn)得到,具體為:
(5)
依據(jù)尋優(yōu)步長(zhǎng)的權(quán)重α來(lái)不斷地更新果蠅個(gè)體的尋優(yōu)路徑,最終達(dá)到優(yōu)化參數(shù)的目的,果蠅個(gè)體尋優(yōu)路徑更新的公式為[9]:
(6)
式中:RV為隨機(jī)值;(Xaxis,Yaxis)為果蠅群體初始化坐標(biāo);(Xi,Yi)為果蠅群體更新后坐標(biāo)。
基于果蠅優(yōu)化算法的隨機(jī)森林模型通過(guò)五折交叉驗(yàn)證來(lái)對(duì)隨機(jī)森林參數(shù)進(jìn)行動(dòng)態(tài)調(diào)整,從而達(dá)到對(duì)隨機(jī)森林算法進(jìn)行改進(jìn)的目的。圖2給出了改進(jìn)的隨機(jī)森林預(yù)測(cè)模型。
圖2 改進(jìn)隨機(jī)森林預(yù)測(cè)模型
為了更好地驗(yàn)證改進(jìn)隨機(jī)森林算法對(duì)電力企業(yè)市場(chǎng)競(jìng)爭(zhēng)力預(yù)測(cè)的效果,本文選擇50家電力企業(yè)作為研究對(duì)象,分別定量描述影響企業(yè)市場(chǎng)競(jìng)爭(zhēng)力的各因素和市場(chǎng)競(jìng)爭(zhēng)力狀況,將其作為原始數(shù)據(jù)。影響電力企業(yè)市場(chǎng)競(jìng)爭(zhēng)力的因素是多方面的,本文從財(cái)務(wù)維度、客戶維度、內(nèi)部運(yùn)營(yíng)維度以及外部競(jìng)爭(zhēng)維度4個(gè)方面來(lái)對(duì)電力企業(yè)市場(chǎng)競(jìng)爭(zhēng)力進(jìn)行評(píng)價(jià)[10],評(píng)價(jià)指標(biāo)體系如圖3所示。
由圖3可知,反映電力企業(yè)市場(chǎng)競(jìng)爭(zhēng)力的評(píng)價(jià)指標(biāo)共包含11個(gè),這11個(gè)指標(biāo)反映了不同的屬性,為了更好地采用改進(jìn)的隨機(jī)森林算法對(duì)電力企業(yè)市場(chǎng)競(jìng)爭(zhēng)力進(jìn)行預(yù)測(cè),對(duì)11個(gè)指標(biāo)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行歸一化處理。本文采用極差化方法對(duì)數(shù)據(jù)進(jìn)行歸一化處理,使得各個(gè)指標(biāo)數(shù)據(jù)均在區(qū)間[0,1]內(nèi),歸一化處理公式為:
圖3 電力企業(yè)市場(chǎng)競(jìng)爭(zhēng)力評(píng)價(jià)指標(biāo)體系
(7)
將歸一化處理后的11個(gè)指標(biāo)作為輸入數(shù)據(jù),通過(guò)專家評(píng)價(jià)系統(tǒng)得到的電力企業(yè)市場(chǎng)競(jìng)爭(zhēng)力得分作為輸出數(shù)據(jù),11個(gè)指標(biāo)和專家評(píng)分作為原始數(shù)據(jù)。將原始數(shù)據(jù)劃分為兩類,一類為訓(xùn)練集合數(shù)據(jù),一類為測(cè)試集合數(shù)據(jù)。分別采用隨機(jī)森林算法和改進(jìn)隨機(jī)森林算法進(jìn)行電力企業(yè)市場(chǎng)競(jìng)爭(zhēng)力預(yù)測(cè)。
為了對(duì)比隨機(jī)森林算法和改進(jìn)隨機(jī)森林算法在電力企業(yè)市場(chǎng)競(jìng)爭(zhēng)力預(yù)測(cè)中的性能,采用分類精度、精準(zhǔn)率、召回率進(jìn)行評(píng)價(jià),其計(jì)算公式為:
(8)
式中:TP為真正類;TN為真負(fù)類;FN為假負(fù)類;FP為假正類。
分類精度反映的是電力企業(yè)市場(chǎng)競(jìng)爭(zhēng)力預(yù)測(cè)的總體分類精度,精準(zhǔn)率反映的是被正確預(yù)測(cè)為正類樣本和所有被預(yù)測(cè)為正類樣本的比值,召回率是被正確預(yù)測(cè)為正類樣本和實(shí)際為正類樣本的比值。圖4為隨機(jī)森林算法和改進(jìn)隨機(jī)森林算法模型預(yù)測(cè)結(jié)果比較。
由圖4可知,相對(duì)于傳統(tǒng)的隨機(jī)森林預(yù)測(cè)模型,基于果蠅算法的隨機(jī)森林預(yù)測(cè)模型在分類精度、精準(zhǔn)率和召回率指標(biāo)上均有所提升。由此可見(jiàn),采用果蠅優(yōu)化算法對(duì)隨機(jī)森林預(yù)測(cè)模型的參數(shù)進(jìn)行優(yōu)化可以取得更好的預(yù)測(cè)效果。為了進(jìn)一步評(píng)估隨機(jī)森林算法和改進(jìn)隨機(jī)森林算法的性能,結(jié)合兩個(gè)預(yù)測(cè)模型的分類結(jié)果繪制ROC曲線,如圖5所示。ROC曲線可以反映敏感度和特異度綜合指標(biāo)。
圖4 模型預(yù)測(cè)結(jié)果比較
圖5 ROC曲線結(jié)果對(duì)比
AUC(area under curve)為ROC曲線下的面積,常常作為衡量預(yù)測(cè)模型優(yōu)劣的指標(biāo)。由圖5可知,改進(jìn)的隨機(jī)森林算法AUC值大于傳統(tǒng)的隨機(jī)森林算法,即改進(jìn)的隨機(jī)森林算法可以更好地對(duì)電力企業(yè)市場(chǎng)競(jìng)爭(zhēng)力進(jìn)行預(yù)測(cè)。
本文對(duì)電力企業(yè)市場(chǎng)競(jìng)爭(zhēng)力預(yù)測(cè)進(jìn)行研究,在對(duì)傳統(tǒng)隨機(jī)森林算法分析的基礎(chǔ)上指出森林樹(shù)數(shù)量和葉節(jié)點(diǎn)數(shù)量對(duì)企業(yè)市場(chǎng)競(jìng)爭(zhēng)力預(yù)測(cè)精度影響比較大,采用果蠅優(yōu)化算法對(duì)森林樹(shù)數(shù)量和葉節(jié)點(diǎn)數(shù)量進(jìn)行優(yōu)化,得到了改進(jìn)的電力企業(yè)市場(chǎng)競(jìng)爭(zhēng)力預(yù)測(cè)模型,并將該模型應(yīng)用于實(shí)際的電力企業(yè)市場(chǎng)競(jìng)爭(zhēng)力預(yù)測(cè)中,預(yù)測(cè)精度得到大大提升。本文的研究對(duì)其他企業(yè)市場(chǎng)競(jìng)爭(zhēng)力預(yù)測(cè)有一定的參考價(jià)值。