高 志 ,樊銳軼 ,耿少博 ,王偉力
(1.國網(wǎng)河北省電力有限公司,河北 石家莊 050000;2.國網(wǎng)天津市電力公司,天津 300019)
在大數(shù)據(jù)時代,大多數(shù)應用都是由數(shù)據(jù)驅(qū)動的。如果能提高數(shù)據(jù)質(zhì)量,大數(shù)據(jù)應用的有效性和可靠性也能得到提高[1-3]。在電力行業(yè)中,不斷積累的電力數(shù)據(jù)越來越多,并在此基礎上開發(fā)了許多電力應用[4-7]。在我國,電力大數(shù)據(jù)在規(guī)模、結構、格式、評估要求等方面都具有一定的特殊性,傳統(tǒng)的大數(shù)據(jù)評估框架無法直接應用[8-9]。
因此,大數(shù)據(jù)質(zhì)量評估技術已成為研究熱點。文獻[10]設計了一個基于決策樹和多維模型的大數(shù)據(jù)質(zhì)量評估框架。但主要關注大數(shù)據(jù)評估的維度,沒有考慮不同領域的特點。文獻[11]討論了一種基于大數(shù)據(jù)采樣策略的高效數(shù)據(jù)質(zhì)量評估方案,雖然被證明是可行的,但是評估對象并不是整個數(shù)據(jù)集。
除了數(shù)據(jù)評估技術外,電力大數(shù)據(jù)評估還需要數(shù)據(jù)采集技術和數(shù)據(jù)存儲技術。近年來,針對海量數(shù)據(jù)采集和存儲提出了許多分布式技術,但都不能直接應用于電力大數(shù)據(jù)[12]。綜上所述,本文提出了一個電力數(shù)據(jù)質(zhì)量評估的大數(shù)據(jù)框架。該框架增加基于灰色理論的量化評價模塊,并給出一般性的數(shù)據(jù)指標質(zhì)量計算公式。本框架可以同時積累實時數(shù)據(jù)和歷史數(shù)據(jù),為電力大數(shù)據(jù)評估提供集成計算環(huán)境,支持不同類型數(shù)據(jù)的存儲。本文的研究結果為其他具有相似特征的大數(shù)據(jù)應用亦提供了一個有價值的框架。
由于大數(shù)據(jù)在多樣性、可變性和準確性等方面的特殊性,當下大數(shù)據(jù)的處理和存儲問題往往超出了傳統(tǒng)信息技術的能力。電力大數(shù)據(jù)在中國國家電網(wǎng)中的主要特點如下。
圖1 中國電力大數(shù)據(jù)特點
多層結構:電網(wǎng)是多層次的,有總部、省電網(wǎng)、地電網(wǎng)、市電網(wǎng)等。從總部來看,電網(wǎng)分為總部和省級電網(wǎng)兩個層次。
多源數(shù)據(jù):不同類型的數(shù)據(jù)以不同的方式產(chǎn)生?;緮?shù)據(jù)是手動輸入的。實時數(shù)據(jù)由傳感器設備連續(xù)生成。歷史數(shù)據(jù)來自傳感器設備。
多數(shù)據(jù)類型:電力數(shù)據(jù)主要有三種類型,包括基礎數(shù)據(jù)、歷史數(shù)據(jù)和實時數(shù)據(jù)?;A數(shù)據(jù)用于描述傳感器設備、指標等。歷史數(shù)據(jù)為包含傳感器設備歷史運行狀態(tài)的波形數(shù)據(jù)和文件。實時數(shù)據(jù)是指傳感器設備連續(xù)產(chǎn)生的數(shù)據(jù)。
信息獨立:由于每個省級電網(wǎng)都部署了傳感器設備,數(shù)據(jù)沒有整合,無法從整體角度進行深入分析。
不同的處理要求:根據(jù)不同電力應用的需求,完成數(shù)據(jù)處理的時間從分鐘到小時不等。
大規(guī)模:智能電網(wǎng)中廣泛部署的大規(guī)模電力傳感器不斷產(chǎn)生數(shù)據(jù),這些數(shù)據(jù)的規(guī)模急劇增大。例如,當2 000 個監(jiān)測點產(chǎn)生諧波數(shù)據(jù)時,每個監(jiān)測點包含2 000 個指標,中國一個省的諧波檢測數(shù)據(jù)的數(shù)據(jù)容量將達到6 TB。
針對以上特點,本文設計了一個電力大數(shù)據(jù)框架代替標準的大數(shù)據(jù)框架,并在框架中加入了基于灰色理論的客觀數(shù)據(jù)評估模塊,以提高電力數(shù)據(jù)的質(zhì)量。
圖2 設計了一個用于電力數(shù)據(jù)質(zhì)量評估的大數(shù)據(jù)框架。在功能方面,包括數(shù)據(jù)采集、數(shù)據(jù)存儲和數(shù)據(jù)計算三個部分。在組織結構方面,分為總部和省電網(wǎng)兩部分。
圖2 電力大數(shù)據(jù)評估框架
首先,數(shù)據(jù)采集幾乎是每個大數(shù)據(jù)系統(tǒng)的重要組成部分。如圖2 所示,數(shù)據(jù)獲取包括四個主要模塊。細節(jié)如下。
(1)設備數(shù)據(jù)采集模塊:該模塊位于省級電網(wǎng)。收集大量傳感器設備的運行數(shù)據(jù)。
(2)實時數(shù)據(jù)積累模塊:該模塊負責收集省級電網(wǎng)的實時數(shù)據(jù)。實時數(shù)據(jù)積累過程如圖所示??偛渴紫葟氖‰娋W(wǎng)獲取Kafka 的配置和主題。其次,數(shù)據(jù)被多個線程接收。最后,將實時數(shù)據(jù)保存在HBase 中,并將累積的日志記錄下來。
(3)歷史數(shù)據(jù)積累模塊:負責從省級電網(wǎng)獲取歷史數(shù)據(jù)。歷史數(shù)據(jù)積累過程如圖所示??偛颗c省電網(wǎng)首次建立了插座連接。其次,總部獲取部署在省電網(wǎng)的ftp 服務器的賬號和密碼。再次,獲取歷史數(shù)據(jù)的文件名。然后,下載并解壓縮包含歷史數(shù)據(jù)的zip 文件。最后,將歷史數(shù)據(jù)保存在HBase 和HDFS 中,并記錄相應的日志。
(4)采集任務調(diào)度與監(jiān)控模塊:由于歷史數(shù)據(jù)的規(guī)模和頻率不相同,因此該模塊用于根據(jù)監(jiān)控數(shù)據(jù)對任務進行調(diào)度。
此外,為了存儲不同類型的數(shù)據(jù),設計了一個集成的存儲環(huán)境,包括關系數(shù)據(jù)庫Oracle、NoSQL 數(shù)據(jù)庫HBase 和分布式文件系統(tǒng)HDFS。使用Oracle 保存結構化數(shù)據(jù),包括基礎數(shù)據(jù)和評估結果,使用HDFS 接收歷史數(shù)據(jù),使用HBase 保存實時數(shù)據(jù)和從歷史數(shù)據(jù)中提取的信息。
最后是數(shù)據(jù)評估模塊,該模塊負責使用各種數(shù)據(jù)質(zhì)量評估方法對電力大數(shù)據(jù)質(zhì)量進行檢查和評估。
如圖2 所示,所有數(shù)據(jù)質(zhì)量評估方法都由一個大數(shù)據(jù)平臺支持,該平臺涉及各種大數(shù)據(jù)技術,如Sqoop、Hive、Hbase、HDFS、MapReduce(MR)和Spark。
數(shù)據(jù)質(zhì)量是一個多維的概念。主觀數(shù)據(jù)質(zhì)量評價和客觀數(shù)據(jù)質(zhì)量評價是兩種主要類型。主觀數(shù)據(jù)質(zhì)量評估是基于利益相關者的經(jīng)驗而實現(xiàn)的??陀^的數(shù)據(jù)質(zhì)量評價主要取決于數(shù)據(jù)的狀態(tài)??紤]到客觀數(shù)據(jù)質(zhì)量評估和主觀數(shù)據(jù)質(zhì)量評估,框架中應用的數(shù)據(jù)質(zhì)量評估過程如圖3 所示。
如圖3 所示,輸入包括實時數(shù)據(jù)、歷史數(shù)據(jù)和基礎數(shù)據(jù),輸出為數(shù)據(jù)質(zhì)量評價結果和高質(zhì)量數(shù)據(jù)。由于數(shù)據(jù)的結構可能不適合后續(xù)的評估,因此首先采用預處理來調(diào)整實時數(shù)據(jù)或歷史數(shù)據(jù)的結構。例如,刪除多余的空白行和空白。其次,確定了數(shù)據(jù)質(zhì)量評價的類型。對于無法通過客觀數(shù)據(jù)質(zhì)量評價方法進行評價的數(shù)據(jù),采用主觀數(shù)據(jù)質(zhì)量評價方法。再次,對數(shù)據(jù)質(zhì)量評估的結果進行評估,以確定輸入數(shù)據(jù)是否需要清洗。如果輸入數(shù)據(jù)的質(zhì)量較低,則采用數(shù)據(jù)清洗方法,如基于閾值的離群點檢測方法和基于k均值的離群點檢測方法。
圖3 電力大數(shù)據(jù)評估流程
為實現(xiàn)電力數(shù)據(jù)質(zhì)量評價指標的科學合理性,本文在評價模塊提出了基于灰色理論的客觀綜合評價方法,具體實現(xiàn)如下:
首先應確定具體指標評價算法。針對中國電力大數(shù)據(jù)現(xiàn)狀,選取待評價數(shù)據(jù)集的正確性、一致性、及時性、完整性、冗余性進行度量[13]。具體算法如下。其中,P1,P2a,P2b,P3,P4,和P5分別為正確性度量,記錄完整率,數(shù)據(jù)完整率,一致性度量,及時性度量和冗余性度量。
式中:Dq為問題數(shù)據(jù)數(shù),Cs為缺少數(shù)據(jù)項數(shù),Ra為記錄數(shù),Ca為數(shù)據(jù)項數(shù)。
式中:Rs為缺少記錄數(shù)。
式中:Cq為問題數(shù)據(jù)項數(shù)。
式中:To為數(shù)據(jù)出庫時間,Ti為數(shù)據(jù)發(fā)生時間,Ri為數(shù)據(jù)記錄時間,m為發(fā)生次數(shù)。
式中:Cr為冗余數(shù)據(jù)項數(shù),Rr為冗余記錄數(shù),Rfr為非冗余記錄數(shù)。
此外,本步驟也可根據(jù)實際情況選出需計算指標[14],對于不適合客觀評價的指標,亦可選取專家評價法。
在獲取每項指標的評價值后,本文提出依據(jù)灰色理論對數(shù)據(jù)進行綜合定量評價法。
(1)獲取指標評價數(shù)據(jù)
最優(yōu)化指標數(shù)列為Y={y(k)|k=1,2,…,n};待評價指標數(shù)列為Xi={xi(k)|k=1,2,…,n},i=1,2,…,m。
(2)待評價指標與最優(yōu)化指標關聯(lián)系數(shù)計算
最優(yōu)化指標Y與待評價指標Xi的關聯(lián)系數(shù)計算公式如(7)所示。
式中:ρ∈(0,∞)。一 般ρ取值為(0,1),當ρ≤0.546 3 時,分辨力最好,本文取ρ=0.5。ξi(k)是指標矩陣xi的第k個元素與最優(yōu)化指標矩陣Y的第k個元素之間的關聯(lián)系數(shù)。
(3)綜合數(shù)據(jù)質(zhì)量量化值計算
待評價指標與最優(yōu)化指標關聯(lián)系數(shù)是其在各個時刻或條件下的關聯(lián)程度值,數(shù)值不止一個,因此信息過于分散不便于進行整體性比較。作為待評價指標與最優(yōu)化指標關聯(lián)程度的數(shù)量表示,本文以求平均值為例,綜合數(shù)據(jù)質(zhì)量量化值ri計算公式如下:
本文最后提出數(shù)據(jù)框架應用場景,如圖4 所示。本框架實現(xiàn)了對中國電網(wǎng)電力大數(shù)據(jù)評估的支持,由于本文主要內(nèi)容為一種耦合灰色理論和數(shù)據(jù)框架的新思路,因此本節(jié)僅對應用架構場景進行概述。
(1)總部系統(tǒng):主要分為四個部分。應用接口服務器與省電網(wǎng)系統(tǒng)的業(yè)務服務器進行通信。Web服務器用于支持不同的應用程序。存儲服務器包含評估結果的關系數(shù)據(jù)和基礎數(shù)據(jù)。大數(shù)據(jù)平臺用于保存實時數(shù)據(jù)和歷史數(shù)據(jù),支持數(shù)據(jù)質(zhì)量評估方法。
(2)省級電網(wǎng)系統(tǒng):主要分為五個部分。接口服務器負責實現(xiàn)總部系統(tǒng)與省電網(wǎng)系統(tǒng)的通信。部署Web 服務器以支持本地電力相關應用程序。省級數(shù)據(jù)中心負責基礎數(shù)據(jù)和歷史數(shù)據(jù)的保存。業(yè)務服務器集群是一組用于獲取、分析和緩存數(shù)據(jù)的服務器。前端處理器集群是一組前端處理器。前端處理器是對從傳感器設備收集到的數(shù)據(jù)進行預處理的設備。此外,熱備份技術可以避免單點故障。
本文提出了一個電力數(shù)據(jù)質(zhì)量評估的大數(shù)據(jù)框架。在功能方面,包括數(shù)據(jù)采集、數(shù)據(jù)存儲和數(shù)據(jù)計算三個部分。在組織結構方面,分為總部和省電網(wǎng)兩部分。
該框架增加了基于灰色理論的量化評價模塊,并給出一般性的數(shù)據(jù)指標質(zhì)量計算公式。本框架可以同時積累實時數(shù)據(jù)和歷史數(shù)據(jù),為電力大數(shù)據(jù)評估提供集成計算環(huán)境,支持不同類型數(shù)據(jù)的存儲。
其研究結果為其他具有相似特征的大數(shù)據(jù)應用亦提供了一個有價值的框架。