文耀寬,王獻(xiàn)軍,王 峻,蘇 沛
(國家電網(wǎng)河南省電力公司電力科學(xué)研究院,河南 鄭州 450000)
目前,隨著電力系統(tǒng)應(yīng)用的增多,智能電能表發(fā)揮著至關(guān)重要的作用。智能電能表、傳感器、信息系統(tǒng)能夠產(chǎn)生海量的數(shù)據(jù),這些大數(shù)據(jù)蘊(yùn)含著龐大的社會(huì)經(jīng)濟(jì)和科學(xué)價(jià)值。隨著云計(jì)算、大數(shù)據(jù)技術(shù)的不斷發(fā)展,逐步出現(xiàn)了基于大數(shù)據(jù)的云計(jì)算,比如平臺(tái)即服務(wù)(PasS)、基礎(chǔ)設(shè)施即服務(wù)(IasS)、虛擬化(Virtualization)的軟件類型來實(shí)現(xiàn)大數(shù)據(jù)處理[1]。用戶通過云計(jì)算能夠快速、準(zhǔn)確地搜索、使用電能計(jì)量裝置中的大數(shù)據(jù)[2]。由于電能計(jì)量裝置中產(chǎn)生的數(shù)據(jù)量大,類型繁多,用戶使用起來極為不便[3],就需要一種新型計(jì)算方法來處理這些問題。該研究采用隨機(jī)森林算法的方式實(shí)現(xiàn)電能計(jì)量裝置的統(tǒng)一管理、智能存儲(chǔ)、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)可視化等應(yīng)用,通過采用隨機(jī)森林算法能夠?qū)崿F(xiàn)隨機(jī)抽取電力數(shù)據(jù)樣本的分析,用戶能夠從電力數(shù)據(jù)庫中精確地獲取屬性不同的數(shù)據(jù),提高用戶對(duì)電能計(jì)量裝置大數(shù)據(jù)的處理能力[4]。
在設(shè)計(jì)的大數(shù)據(jù)平臺(tái)構(gòu)架中,將云計(jì)算、物聯(lián)網(wǎng)和數(shù)據(jù)挖掘算法融合在一起,實(shí)現(xiàn)電力計(jì)量大數(shù)據(jù)的分析、處理和管理。使用戶在面對(duì)浩瀚的電力計(jì)量大數(shù)據(jù)時(shí)能夠妥善地管理、使用,節(jié)約數(shù)據(jù)處理的時(shí)間[5]。在該設(shè)計(jì)中,通過在計(jì)算機(jī)(PC機(jī))上安裝云計(jì)算軟件實(shí)現(xiàn)數(shù)據(jù)的采集、存儲(chǔ)、計(jì)算、分析和應(yīng)用。設(shè)計(jì)的云計(jì)算平臺(tái)為云端智能電網(wǎng)大數(shù)據(jù)處理平臺(tái)SP-DPP[6],包括數(shù)據(jù)采集層、云存儲(chǔ)單元、云計(jì)算單元和數(shù)據(jù)應(yīng)用層,架構(gòu)示意圖如圖1所示。
圖1 云計(jì)算架構(gòu)設(shè)計(jì)示意圖
在該系統(tǒng)設(shè)計(jì)中,數(shù)據(jù)采集層主要用于采集電能計(jì)量裝置中的各種數(shù)據(jù),電能計(jì)量裝置用于測量、記錄、發(fā)送發(fā)電量、供電量、廠用電量、線損電量和用戶用電量,以實(shí)現(xiàn)電能計(jì)量的輸出,滿足用戶需求。采用的計(jì)量設(shè)備諸如大型專變終端、中小型專變終端、單/三相檢定設(shè)備、居民用戶設(shè)備、公用配變考核設(shè)備等。通過數(shù)據(jù)采集,能夠獲取底層數(shù)據(jù),數(shù)據(jù)采集層還可以包括各種傳感器設(shè)備[7]。在云存儲(chǔ)單元中,存儲(chǔ)單元主要負(fù)責(zé)存儲(chǔ)電能計(jì)量裝置中的各種電力數(shù)據(jù)信息。云存儲(chǔ)單元擁有多個(gè)數(shù)據(jù)服務(wù)器,云存儲(chǔ)類型包括個(gè)人云存儲(chǔ)、私有云存儲(chǔ)、公有云存儲(chǔ)和混合云存儲(chǔ)[8]。各種云存儲(chǔ)都具有較大的容量。在使用個(gè)人云存儲(chǔ)單元時(shí),通過網(wǎng)絡(luò)連接電力設(shè)備,以使其處于正常的工作狀態(tài),這樣能夠使用戶存儲(chǔ)類型各異的個(gè)人數(shù)據(jù)。諸如WORD、文本、圖案、照片、視頻和音樂。用戶通過攜帶該云設(shè)備,可以隨時(shí)擁有數(shù)據(jù)并控制設(shè)備,進(jìn)而訪問云數(shù)據(jù)。在私有云存儲(chǔ)單元中,其通過本地局域網(wǎng)絡(luò)控制的云存儲(chǔ)服務(wù)器,充分地利用虛擬機(jī)的性能特點(diǎn),存儲(chǔ)電能計(jì)量裝置大數(shù)據(jù)。在公有云存儲(chǔ)單元中,公有云存儲(chǔ)單元能夠使提供商擁有、管理、構(gòu)架和維護(hù)電力信息營銷管理系統(tǒng)數(shù)據(jù)?;旌显拼鎯?chǔ)單元是上述各種云存儲(chǔ)單元和數(shù)據(jù)中心的適當(dāng)組合。這種方式具有彈性、可擴(kuò)展的成本優(yōu)勢(shì)。在云計(jì)算單元中,通過數(shù)據(jù)挖掘算法對(duì)接收到的數(shù)據(jù)按照不同的定義屬性進(jìn)行分類、計(jì)算[9]。該研究通過隨機(jī)森林算法從原始電力計(jì)量樣本數(shù)據(jù)中隨機(jī)抽取部分?jǐn)?shù)據(jù)樣本,從而產(chǎn)生新的電力數(shù)據(jù)樣本集合,對(duì)電力數(shù)據(jù)樣本集合繼續(xù)學(xué)習(xí),據(jù)此產(chǎn)生多個(gè)樣本集合,每個(gè)電力數(shù)據(jù)樣本集合后,都會(huì)產(chǎn)生新型的決策樹。通過這種方式,能夠從雜亂無章的數(shù)據(jù)庫中更精確地分析出電力計(jì)量數(shù)據(jù)的實(shí)質(zhì),滿足用戶分析電力數(shù)據(jù)的需要。
由于云計(jì)算平臺(tái)SP-DPP具有存儲(chǔ)電能計(jì)量裝置大數(shù)據(jù)的穩(wěn)定、可靠的中心節(jié)點(diǎn),因此該研究采用SP-DPP云平臺(tái)進(jìn)行云計(jì)算。SP-DPP平臺(tái)在處理、分配電力營銷大數(shù)據(jù)處理任務(wù)時(shí),能夠調(diào)度、運(yùn)行營銷管理大數(shù)據(jù)中心節(jié)點(diǎn),比如參數(shù)文件、配置文件、代碼文件等[10]。云計(jì)算平臺(tái)SP-DPP在邏輯上包括大數(shù)據(jù)存儲(chǔ)與管理模塊、任務(wù)分配與調(diào)度模塊、大數(shù)據(jù)執(zhí)行模塊和客戶端模塊。云計(jì)算平臺(tái)SP-DPP能夠?qū)崿F(xiàn)電能計(jì)量裝置海量數(shù)據(jù)處理的需求,實(shí)現(xiàn)電能計(jì)量裝置的運(yùn)行狀態(tài),更好地獲取相關(guān)數(shù)據(jù)[11]。其架構(gòu)如圖2所示。
圖2 SP-DPP平臺(tái)架構(gòu)示意圖
在大數(shù)據(jù)的存儲(chǔ)與管理模塊中,設(shè)置有分布式文件系統(tǒng)DFS(distribute file system),主要存儲(chǔ)等待處理的大數(shù)據(jù)。DFS能夠自動(dòng)為電能計(jì)量裝置管理這些TB到PB級(jí)的海量電力數(shù)據(jù),在使用時(shí),DFS能夠自動(dòng)獲取電能計(jì)量裝置的/dfs/tmp/filel的數(shù)據(jù)[7]。在任務(wù)分配與調(diào)度模塊中,能夠?qū)?shù)據(jù)處理的任務(wù)以及子任務(wù)調(diào)配到空閑工作機(jī)上。在劃分?jǐn)?shù)據(jù)時(shí),可以根據(jù)用戶的需求選擇合適的數(shù)據(jù)屬性和特點(diǎn),這樣能夠提高數(shù)據(jù)調(diào)度的效率[12]。在調(diào)度時(shí),需要綜合考慮工作機(jī)的硬件配置和軟件信息情況,硬件配置包含CPU主頻、內(nèi)存、磁盤等,軟件信息包括CPU利用程度、網(wǎng)絡(luò)通暢程度、數(shù)據(jù)傳播速度、可靠性等。使工作單元在各個(gè)物理節(jié)點(diǎn)之間進(jìn)行遷移時(shí)比較自由和靈活。在大數(shù)據(jù)執(zhí)行模塊中,由SP-DPP云平臺(tái)為基于虛擬化技術(shù)而實(shí)現(xiàn)各種操作,使得SP-DPP云平臺(tái)中的電能計(jì)量裝置處理、計(jì)算處理均在虛擬機(jī)上運(yùn)行[13]。在客戶端,用戶能夠通過互聯(lián)網(wǎng)訪問SP-DPP云平臺(tái),客戶端可以按照服務(wù)等級(jí)協(xié)議(service level agreements,SLA),采用按時(shí)付費(fèi)(pay-per-use,PPU)的模式來管理。在使用上述SP-DPP云平臺(tái)時(shí),用戶還需要使用Apache的開源的云計(jì)算平臺(tái)Hadoop中的MapReduce規(guī)范,以加快數(shù)據(jù)的處理速度[14]。
隨機(jī)森林是一種特殊的bagging方法,是處理電力大數(shù)據(jù)的一種方法,是用于訓(xùn)練base estimator數(shù)據(jù)的重要步驟之一,更確切地說,bagging算法+decision trees算法便得到了隨機(jī)森林算法[15]。具體地說,采用隨機(jī)森林算法時(shí),需要建立森林模型。其過程實(shí)質(zhì)是采用隨機(jī)的方式建立起來的,隨機(jī)建立起來的森林里具有多種不同的決策樹,在隨機(jī)森林算法模型中的每一棵決策樹中,彼此之間并沒有聯(lián)系。在建立好森林模型之后,每當(dāng)出現(xiàn)新的電力數(shù)據(jù)輸入樣本時(shí),森林模型中的每一棵決策樹便各自獨(dú)立進(jìn)行判斷,判斷該電力數(shù)據(jù)樣本應(yīng)該屬于哪種類型,出現(xiàn)概率較多的一類則被作為最終的數(shù)據(jù)分析選擇結(jié)果[16]。其分析方法示意圖如圖3所示。
圖3 隨機(jī)森林算法的分析示意圖
(1)數(shù)據(jù)選擇:在電力計(jì)量裝置采集層生成的大量計(jì)量數(shù)據(jù)中,根據(jù)用戶需求選取電力數(shù)據(jù)樣本數(shù)據(jù)集。
(2)預(yù)處理:由于電力計(jì)量數(shù)據(jù)集具有很多粗糙的數(shù)據(jù)信息,并且含有大量的影響數(shù)據(jù)誤差分析結(jié)果的數(shù)據(jù)噪聲,在分析這些數(shù)據(jù)時(shí),就需要剔除不平滑、不準(zhǔn)確的電力數(shù)據(jù)信息,或者剔除與用戶無關(guān)的噪音數(shù)據(jù)。將不便于識(shí)別的電力信息數(shù)據(jù)轉(zhuǎn)化為使用戶容易識(shí)別較為純凈的數(shù)據(jù)信息。在進(jìn)行電力數(shù)據(jù)預(yù)處理時(shí),借助于bagging集成學(xué)習(xí)方法實(shí)現(xiàn)對(duì)電力數(shù)據(jù)集的訓(xùn)練、學(xué)習(xí),其中bagging集成學(xué)習(xí)方法如圖4所示。
圖4 bagging集成學(xué)習(xí)方法示意圖
在機(jī)械學(xué)習(xí)訓(xùn)練時(shí),從電力計(jì)量數(shù)據(jù)庫中的原始電力樣本訓(xùn)練數(shù)據(jù)集合中,隨機(jī)抽取一定的電力數(shù)據(jù)樣本。假設(shè)輸入的數(shù)據(jù)樣本集記作D={(x1,y1),(x2,y2),…,(xm,ym)},第一次輸出是通過弱學(xué)習(xí)器算法的輸出,然后將多個(gè)弱分類器進(jìn)行多次迭代計(jì)算,最終輸出較強(qiáng)的強(qiáng)分類器[17-18]。更具體地說,在采集數(shù)據(jù)樣本時(shí),每采集一個(gè)數(shù)據(jù)樣本則放回一個(gè)數(shù)據(jù)樣本,假設(shè)采集N個(gè)電力數(shù)據(jù)樣本訓(xùn)練集,隨機(jī)采樣次數(shù)為T次,根據(jù)隨機(jī)采樣的特點(diǎn),進(jìn)行T次電力數(shù)據(jù)采樣的結(jié)果不會(huì)相同,則將每次采樣的電力數(shù)據(jù)結(jié)果輸出頻率較高的數(shù)據(jù)樣本作為最終的電力樣本數(shù)據(jù)模型,此時(shí),該點(diǎn)被設(shè)置為最終決策樹的葉子節(jié)點(diǎn)[19-20]。
(3)隨機(jī)森林算法模型的建立:利用步驟(2)訓(xùn)練出的強(qiáng)分類器來建立隨機(jī)森林算法模型,流程如圖5所示。在建立隨機(jī)森林模型時(shí),其實(shí)質(zhì)是決策樹算法的進(jìn)一步升級(jí),在生成隨機(jī)森林模型時(shí),通過上述方法可以確定多個(gè)決策樹的產(chǎn)生。在確定決策樹的分支節(jié)點(diǎn)時(shí),采用分支節(jié)點(diǎn)逐漸遞歸分支的方式,在遞歸分支時(shí),需要從其他的數(shù)據(jù)特征中抽取,該抽取方式仍舊采用隨機(jī)抽取部分特征,再次確定子分支。利用上述方法確定了節(jié)點(diǎn)、分節(jié)點(diǎn)后,一棵決策樹模型便建立起來了[21]。然后采用上述方法對(duì)每個(gè)數(shù)據(jù)樣本集合進(jìn)行訓(xùn)練,從而建立起多個(gè)不同的決策樹。當(dāng)決策樹逐步增多,則可存儲(chǔ)構(gòu)建的決策樹。最后看構(gòu)建出的決策樹數(shù)量能否滿足用戶的要求,如果沒有滿足,則需要按照上述方法重新訓(xùn)練、學(xué)習(xí),并且按照投票法原則(少數(shù)服從多數(shù))重新確定新輸入樣本的類別。當(dāng)滿足了用戶要求時(shí),則生成隨機(jī)森林模型[22]。
圖5 建立隨機(jī)森林算法模型的流程圖
當(dāng)上述隨機(jī)森林模型建立起來之后,則可以利用建立起來的大數(shù)據(jù)模型對(duì)電力大數(shù)據(jù)進(jìn)行分析。在分析數(shù)據(jù)時(shí),計(jì)算出訓(xùn)練樣本數(shù)據(jù)中不同決策樹的特征變量的加權(quán)信息增益率和隨機(jī)森林決策樹特征變量的加權(quán)信息增益值[23],再計(jì)算出二者計(jì)算特征的特征重要性,通俗地說,指的是特征變量的信息增益率占全部特征變量的信息增益率的百分比。即假設(shè)電力樣本數(shù)據(jù)集為十萬個(gè)不同的電力數(shù)據(jù),對(duì)各個(gè)電力樣本集的特征變量的重要性值進(jìn)行降序排列,假設(shè)將Y降低到y(tǒng)維(Y>y),則可以選擇前n個(gè)重要性電力數(shù)值的最大特征變量,然后從剩下的Y-y個(gè)技術(shù)特征中隨機(jī)挑選(Y-k)個(gè)不同特征[21-22]。共同組成x個(gè)特征,從而將電力計(jì)量大數(shù)據(jù)的高維數(shù)據(jù)從X維降低為x維,有利于用戶識(shí)別、分析計(jì)量數(shù)據(jù)。
在試驗(yàn)時(shí),選擇具有良好的吞吐量和加速比的SP-DPP云平臺(tái)。其中云服務(wù)器主機(jī)的硬件配置為:Intel Xeon E3-1220v53.0 GHz四核,內(nèi)存:8GDDR4, 硬盤:1*Intel企業(yè)級(jí)SSD,1*SATA 1T,網(wǎng)卡:2*千兆網(wǎng)口;工作機(jī)節(jié)點(diǎn)的硬件配置為:CPU型號(hào)Intel Xeon E53.0 GHz,內(nèi)存為8 GB,硬盤容量為1 TB。在試驗(yàn)時(shí),將這些節(jié)點(diǎn)通過局域網(wǎng)內(nèi)的1臺(tái)千兆交換機(jī)相聯(lián)[23]。其中云服務(wù)器主機(jī)的軟件配置為:將9臺(tái)PC機(jī)都安裝RedHatLinux操作系統(tǒng),Hadoop版本為1.0.4,JRE環(huán)境為1.6,用戶只要繼承MapReduce-Base,分別實(shí)現(xiàn)Map和Reduce的兩個(gè)類,即可編寫Map和Reduce的程序。其中通過PC機(jī)組成的SP-DPP平臺(tái)的節(jié)點(diǎn)配置信息為:節(jié)點(diǎn)IP地址分別為172.16.0.1、172.16.0.2、172.16.0.3、172.16.0.4和172.16.0.5,角色分別為Master和Slave兩種類型,操作系統(tǒng)為Linux,運(yùn)行的進(jìn)程分別為Namenode,JobTracker和DataNode,TaskTracker。
下面以電能表計(jì)量裝置為例,選擇3種不同的電能表計(jì)量裝置作為示例,在每個(gè)電能表檢測裝置中選取5組測試數(shù)據(jù)進(jìn)行分析,選取500個(gè)樣本,測試時(shí)間為1秒,數(shù)據(jù)樣本如表1所示。
表1 電能表檢測裝置測試樣本
表2為任意電能檢定裝置檢測的項(xiàng)目N(i,j),其表示檢定裝置中電能表為i,同時(shí)在隨機(jī)森林模型算法中估計(jì)值為j的樣本個(gè)數(shù)。
表2 檢定裝置分類問題的混淆矩陣
然后利用以下公式進(jìn)行評(píng)價(jià)、計(jì)算。其中參數(shù)真正(TPi)的評(píng)價(jià)公式為:
TPi=N(i,j)
(1)
參數(shù)假負(fù)(FNi)的評(píng)價(jià)公式為:
(2)
假正(FPi)的評(píng)價(jià)公式為:
(3)
在上述公式中,真正(TPi)表示為通過分類模型正確預(yù)測的樣本數(shù)i的值,假負(fù)(FNi)表示為通過分類模型未正確預(yù)測的樣本數(shù)i的值,假正(FPi)為上述裝置外的樣本被預(yù)測為真正(TPi)和假負(fù)(FNi)的樣本數(shù)。用以下公式來評(píng)價(jià)隨機(jī)森林模型應(yīng)用情況。其中對(duì)類召回率(Ri)的評(píng)價(jià)公式為:
(4)
對(duì)參數(shù)類正確率(Pri)的評(píng)價(jià)公式為:
(5)
對(duì)參數(shù)整體正確率(OA)的評(píng)價(jià)公式為:
(6)
通過上述公式,得出如表3和表4所示的數(shù)值。
表3 檢定裝置分類問題的混淆矩陣計(jì)算值
表4 檢定裝置中樣本的評(píng)估結(jié)果 %
根據(jù)上述計(jì)算結(jié)果,選取的3個(gè)檢定裝置中,召回率分別為90.32%、91.01%和91.21%,1#檢定裝置召回率最高。將這3個(gè)檢定裝置的樣本信息經(jīng)過上述公式運(yùn)算可得,預(yù)測的正確率分別為90.32%、90.45%和91.32%,整個(gè)模型的準(zhǔn)確率在90%以上,可見該模型估計(jì)的準(zhǔn)確率高。
該研究通過建立SP-DPP云平臺(tái)進(jìn)行云計(jì)算,在SP-DPP平臺(tái)處理、分配電力營銷大數(shù)據(jù)處理任務(wù)時(shí),能夠把數(shù)據(jù)在電能管理大數(shù)據(jù)中心節(jié)點(diǎn)上調(diào)度,大大提高了數(shù)據(jù)的處理能力,同時(shí)采用物聯(lián)網(wǎng)技術(shù),實(shí)現(xiàn)底層設(shè)備到上層數(shù)據(jù)的傳遞。在軟件平臺(tái)設(shè)計(jì)中,又采用隨機(jī)森林算法實(shí)現(xiàn)數(shù)據(jù)的更精確學(xué)習(xí)和評(píng)估。該研究融合了“大數(shù)據(jù)+隨機(jī)森林算法”的深度學(xué)習(xí)算法,使得電能計(jì)量裝置中非結(jié)構(gòu)化、模式多變的電力大數(shù)據(jù)群中的數(shù)據(jù)得到了有效分析,提高了用戶對(duì)大數(shù)據(jù)的分析精度,擴(kuò)大了用戶對(duì)電力計(jì)算大數(shù)據(jù)的使用范圍。