葛賢軍, 艾明浩, 李志宏, 汪 旭, 陳乃仕
(中國電力科學(xué)研究院,北京 100192)
基于CEP引擎的配電網(wǎng)運(yùn)行監(jiān)控信號大數(shù)據(jù)ETL方法
葛賢軍, 艾明浩, 李志宏, 汪 旭, 陳乃仕
(中國電力科學(xué)研究院,北京 100192)
電力系統(tǒng)規(guī)模在不斷擴(kuò)大,配電網(wǎng)電氣設(shè)備數(shù)量急劇增長且趨于精細(xì)化。大量且散亂的運(yùn)行監(jiān)控數(shù)據(jù)使得主動配電網(wǎng)各應(yīng)用無法快速有效地提取有用信息以形成決策支持。本文利用復(fù)雜事件處理(CEP)引擎作為運(yùn)行監(jiān)控信號處理核心,通過Apriori機(jī)器學(xué)習(xí)算法定義和完善規(guī)則庫,通過核心算法庫對信號數(shù)據(jù)流進(jìn)行規(guī)范化處理。整體采用ETL(Extract-Transform-Load)框架,將主動配電網(wǎng)中分散、零亂、標(biāo)準(zhǔn)不統(tǒng)一的信號數(shù)據(jù)整合、清洗后加載到數(shù)據(jù)倉庫,并以多種數(shù)據(jù)接口輸出至不同介質(zhì),供不同應(yīng)用調(diào)用。基于CEP引擎的大數(shù)據(jù)ETL方法,可對運(yùn)行監(jiān)控信號進(jìn)行快速、精確、有效的規(guī)范化處理,實(shí)現(xiàn)多數(shù)據(jù)源集成與輸出,為主動配電網(wǎng)設(shè)備仿真、故障分析、狀態(tài)估計(jì)等多種重要應(yīng)用提供數(shù)據(jù)準(zhǔn)備。
CEP引擎; 運(yùn)行監(jiān)控; 大數(shù)據(jù); ETL; 主動配電網(wǎng); 規(guī)范化
我國電力產(chǎn)業(yè)的迅速發(fā)展,主動配電網(wǎng)及全球能源互聯(lián)網(wǎng)等建設(shè)進(jìn)程的加快,電氣設(shè)備運(yùn)行監(jiān)控信號作為構(gòu)建各類電力自動化系統(tǒng)的基礎(chǔ),其應(yīng)用和地位越來越重要。由于各地電網(wǎng)采用不同廠家、不同類型的電氣設(shè)備,各種設(shè)備產(chǎn)生的運(yùn)行監(jiān)控信號格式和命名方式種類繁多且數(shù)量巨大,因此,目前電氣設(shè)備運(yùn)行監(jiān)控信號數(shù)據(jù)具有海量化、多樣化、復(fù)雜化特點(diǎn),呈大數(shù)據(jù)趨勢[1]。這給各類以信號為基礎(chǔ)的電力系統(tǒng)應(yīng)用和信息系統(tǒng)集成造成很大困難,包括電網(wǎng)狀態(tài)估計(jì)、情景決策和仿真培訓(xùn)等實(shí)際需求,尤其是基于實(shí)際信號的電氣二次設(shè)備信號的仿真應(yīng)用。另外,目前不存在電網(wǎng)設(shè)備及系統(tǒng)運(yùn)行監(jiān)控信號格式和命名方式的行業(yè)標(biāo)準(zhǔn),無法將雜亂的信號進(jìn)行統(tǒng)一命名作為基礎(chǔ)數(shù)據(jù)儲備。
林欣慰等提出一套電網(wǎng)運(yùn)行信號和設(shè)備信號分類管理方法[2];吳曉燕在文獻(xiàn)[3]中引入一體化監(jiān)控信號管理的相關(guān)規(guī)范,對運(yùn)行監(jiān)控信號監(jiān)控的工作進(jìn)行類別劃分;藺慧在分析電力系統(tǒng)監(jiān)控信號傳統(tǒng)集控管理方式已經(jīng)無法滿足現(xiàn)階段的發(fā)展需求的基礎(chǔ)上,提出一種基于信息化的調(diào)控一體化監(jiān)控信號管理方法[4]。但目前對于電氣設(shè)備運(yùn)行監(jiān)控信號的規(guī)范化研究僅停留在管理角度和簡單的規(guī)則化處理方式,不存在信息技術(shù)層面的系統(tǒng)的處理方法,更缺少基于原始信號、采用機(jī)器自學(xué)習(xí)方式的規(guī)范化算法,缺少信號規(guī)范化處理的實(shí)際案例。
ETL(Extract-Transform-Load)是將業(yè)務(wù)系統(tǒng)的數(shù)據(jù)經(jīng)過抽取、清洗轉(zhuǎn)換之后加載到數(shù)據(jù)倉庫的過程,目的是將分散、零亂、標(biāo)準(zhǔn)不統(tǒng)一的數(shù)據(jù)整合到一起,為后續(xù)應(yīng)用提供數(shù)據(jù)準(zhǔn)備[5]。
CEP(Complex Event Processing,復(fù)雜事件處理)是一種數(shù)據(jù)智能化流處理技術(shù),將數(shù)據(jù)看作一種數(shù)據(jù)流,基于規(guī)則引擎對業(yè)務(wù)過程中持續(xù)產(chǎn)生的各種事件進(jìn)行復(fù)雜處理,能夠?qū)崿F(xiàn)對連續(xù)數(shù)據(jù)的快速分析處理[6]。CEP引擎解決了事務(wù)型數(shù)據(jù)處理的效率問題和傳統(tǒng)MQ方式難以處理復(fù)雜事務(wù)的問題,特別適用于采用規(guī)則庫和智能學(xué)習(xí)算法等方式的大數(shù)據(jù)處理需求。S4(Simple Scalable Streaming System)是一個開源通用、分布式、可擴(kuò)展、部分容錯、具備可插拔功能的CEP流計(jì)算平臺。
針對電氣設(shè)備運(yùn)行監(jiān)控信號數(shù)據(jù)的規(guī)范化工作,本文介紹一種基于大數(shù)據(jù)機(jī)器自學(xué)習(xí)算法的ETL方法。利用S4開源平臺,將制定好的信號處理規(guī)則庫及可插拔式智能算法庫,集成到CEP引擎中進(jìn)行處理,可實(shí)現(xiàn)運(yùn)行監(jiān)控信號數(shù)據(jù)連續(xù)流化的復(fù)雜處理。
3.1配電網(wǎng)運(yùn)行監(jiān)控信號存儲方式
目前的各配電網(wǎng)自動化系統(tǒng)中,設(shè)備運(yùn)行監(jiān)控信號主要以四種形式存儲:實(shí)時數(shù)據(jù)庫、歷史數(shù)據(jù)庫、通用交換文件、NoSQL數(shù)據(jù)庫[7]。
存儲于實(shí)時數(shù)據(jù)庫和歷史數(shù)據(jù)庫的信號數(shù)據(jù)采用傳統(tǒng)關(guān)系數(shù)據(jù)庫管理方式,區(qū)別是物理上分別存儲于內(nèi)存和外存,存取效率和持久化程度不同,從而應(yīng)用于實(shí)時性和數(shù)據(jù)量不同的場景。表1為此種方式下運(yùn)行監(jiān)控信號表的主要內(nèi)容。
表1 關(guān)系數(shù)據(jù)庫信號存儲格式Tab.1 Signal storage format in relational database
為了方便運(yùn)行監(jiān)控信號的遷移、轉(zhuǎn)換及數(shù)據(jù)訪問通用性,部分應(yīng)用采用通用交換文件形式存取配電網(wǎng)運(yùn)行監(jiān)控信號數(shù)據(jù)。XML格式是國際上通用的數(shù)據(jù)交換格式,具有兼容性強(qiáng)、靈活可擴(kuò)展等優(yōu)點(diǎn)?;赬ML標(biāo)準(zhǔn),根據(jù)其擴(kuò)展性強(qiáng)的特點(diǎn),針對電力系統(tǒng)特征,國家電網(wǎng)公司提出CIM/E標(biāo)準(zhǔn),專門用于調(diào)度控制中心各應(yīng)用系統(tǒng)間電網(wǎng)模型等數(shù)據(jù)的在線交換[8]。監(jiān)控信號數(shù)據(jù)采用的CIME文件存儲格式如下:
@id name vl_id pnt_type pri_flags …
#122160141620511071過流二段壓板 0001 1 3
隨著配電網(wǎng)規(guī)模的不斷擴(kuò)大和精細(xì)程度的日趨提升,運(yùn)行監(jiān)控信號數(shù)據(jù)量成指數(shù)級上漲,采用傳統(tǒng)的結(jié)構(gòu)化及關(guān)系數(shù)據(jù)庫存儲方式在存儲容量及查找效率上已經(jīng)無法滿足各系統(tǒng)使用需求[9]。例如,某地區(qū)電氣設(shè)備及運(yùn)行監(jiān)控信號模型數(shù)據(jù)需要每天生成一次,約1G大小,保留多年的歷史拉鏈數(shù)據(jù)供離線系統(tǒng)做系統(tǒng)仿真及故障預(yù)測分析用,采用傳統(tǒng)存儲方式必將導(dǎo)致存儲空間擴(kuò)展困難、讀取效率低下問題,從而影響數(shù)據(jù)分析效果,甚至出現(xiàn)生成一個預(yù)測報表需要等待幾個小時的現(xiàn)象。因此目前電網(wǎng)模型及運(yùn)行監(jiān)控數(shù)據(jù)的存儲、傳輸及處理普遍采用大數(shù)據(jù)的解決方法——分布式存儲、并行傳輸及處理。對于存取不太頻繁的較大文件,一般采用HDFS存儲;對于經(jīng)常進(jìn)行數(shù)據(jù)分析的、存取頻繁的數(shù)據(jù),采用Hive數(shù)據(jù)倉庫進(jìn)行存儲[10]。目前福建省一省九地的運(yùn)行監(jiān)控信號數(shù)據(jù)分布式存儲于DTS-FJ(省調(diào))、DTS-QZ(泉州)、DTS-LY(龍巖)等10個數(shù)據(jù)服務(wù)中心,相互的數(shù)據(jù)操作不受干擾。這雖然保證了數(shù)據(jù)的獨(dú)立性和安全性,但是給全局的數(shù)據(jù)抽取與分析造成了困難。
3.2運(yùn)行監(jiān)控信號的按需抽取
為了實(shí)現(xiàn)定向、定制的信號分析服務(wù),需要分別按字段、區(qū)域、變電站、電壓等級等條件對運(yùn)行監(jiān)控信號數(shù)據(jù)進(jìn)行篩選和抽取。通過對配電網(wǎng)運(yùn)行監(jiān)控信號數(shù)據(jù)存儲情況的分析,可知實(shí)現(xiàn)信號數(shù)據(jù)的按需抽取將面臨兩類問題:
(1)多格式數(shù)據(jù)源問題。目前信號數(shù)據(jù)存儲方式多樣,無法直接通過統(tǒng)一的數(shù)據(jù)接口進(jìn)行數(shù)據(jù)抽取。
(2)數(shù)據(jù)分布存儲問題。各地信號數(shù)據(jù)采用分布式獨(dú)立存儲方式,這使得ETL工具難以按需對數(shù)據(jù)進(jìn)行靈活的抽取操作和集中數(shù)據(jù)處理。
針對多格式數(shù)據(jù)源和分布式存儲問題,分別采用多數(shù)據(jù)源接口和守護(hù)進(jìn)程的解決方案,如圖1和圖2所示。
圖1 多數(shù)據(jù)源接口數(shù)據(jù)抽取方式Fig.1 Multi-source data interface data extraction
圖2 分布式存儲守護(hù)進(jìn)程數(shù)據(jù)抽取方式Fig.2 Distributed storage daemon data extraction
圖1中,針對實(shí)時庫、歷史庫和CIME文件等數(shù)據(jù)源,分別開發(fā)數(shù)據(jù)訪問接口,組成數(shù)據(jù)總線。用戶通過數(shù)據(jù)選擇抽取程序選擇數(shù)據(jù)源,程序調(diào)用數(shù)據(jù)總線訪問該數(shù)據(jù)源接口,抽取數(shù)據(jù)到本地內(nèi)存中的數(shù)據(jù)緩沖池,數(shù)據(jù)處理引擎從緩沖池中取得流化數(shù)據(jù)進(jìn)行規(guī)范化處理,將結(jié)果存入本地結(jié)果數(shù)據(jù)庫。
圖2中,針對各地獨(dú)立存儲的數(shù)據(jù),開發(fā)守護(hù)進(jìn)程植入各地數(shù)據(jù)服務(wù)器。守護(hù)進(jìn)程隨操作系統(tǒng)啟動,常駐內(nèi)存,其唯一任務(wù)是接收遠(yuǎn)方指令,調(diào)用本地數(shù)據(jù)訪問接口。將數(shù)據(jù)抽取條件分為2級篩選條件,遠(yuǎn)程數(shù)據(jù)抽取程序根據(jù)第1級條件,即區(qū)域和廠站條件,發(fā)送收取指令給各服務(wù)器守護(hù)進(jìn)程,守護(hù)進(jìn)程調(diào)用數(shù)據(jù)服務(wù)器本地數(shù)據(jù)訪問接口,傳輸數(shù)據(jù)到數(shù)據(jù)緩存隊(duì)列;數(shù)據(jù)處理引擎根據(jù)第2級條件,即間隔和信號類型條件,從緩存隊(duì)列中取得數(shù)據(jù)進(jìn)行處理。這樣既提升了數(shù)據(jù)抽取的效率,又防止了數(shù)據(jù)緩存隊(duì)列過大,同時保證了系統(tǒng)的時間復(fù)雜度和空間復(fù)雜度。
4.1基于CEP引擎的運(yùn)行監(jiān)控信號大數(shù)據(jù)處理架構(gòu)
CEP引擎對復(fù)雜事務(wù)型數(shù)據(jù)處理具有良好的效果,所以本文采用CEP引擎對運(yùn)行監(jiān)控信號數(shù)據(jù)進(jìn)行規(guī)范化清洗。圖3為基于數(shù)據(jù)處理引擎架構(gòu)。
圖3 運(yùn)行監(jiān)控信號數(shù)據(jù)CEP引擎架構(gòu)Fig.3 CEP engine architecture of operation monitoring and controlling signal data
運(yùn)行監(jiān)控信號數(shù)據(jù)處理引擎架構(gòu)主要包括輸入輸出模塊、CEP引擎內(nèi)核、規(guī)則庫和算法庫部分。根據(jù)信號數(shù)據(jù)存儲特點(diǎn),輸入適配器將各服務(wù)器中各格式源數(shù)據(jù)抽取到引擎中。引擎內(nèi)核是一個容器,提供輸入輸出接口、信號處理框架、規(guī)則庫和算法庫接口。清洗規(guī)則庫為XML文件或INI配置文件格式,主要用來定義信號規(guī)范化過程中的關(guān)鍵詞提取,文本替換、清除等清洗規(guī)則。算法庫集成在RelaySighWash類的processEvent()接口中,主要定義并實(shí)現(xiàn)裝置和信號清洗、詞頻分析、模式匹配等智能算法接口。規(guī)則庫和算法庫為處理引擎的核心部分,設(shè)計(jì)為可插拔方式,便于維護(hù)和擴(kuò)展。
4.2數(shù)據(jù)清洗規(guī)則庫
信號數(shù)據(jù)清洗規(guī)則庫用來定義數(shù)據(jù)流進(jìn)入處理CEP引擎后,處理邏輯進(jìn)行規(guī)范化處理所依照的各種規(guī)則,應(yīng)當(dāng)具有通用性、直觀性、易讀取性、易維護(hù)性等特征。本文主要采用XML通用交換格式定義規(guī)則庫。
4.2.1 裝置清洗規(guī)則庫
對信號的清洗首先需要對信號所屬電氣裝置名稱進(jìn)行清洗,裝置清洗的所有規(guī)則定義于一個XML文件中,包括對基礎(chǔ)裝置名稱的提取規(guī)則和典型裝置型號的匹配規(guī)則,其格式如下:
CSC;CSR;ISA;CSI;PCS;WCB;WCH;UDL;FCK;DF;CAS;iPACS;CSL
a-zA-Z0-9/
\s-_
裝置名稱清洗規(guī)則中包含根標(biāo)簽root和兩種規(guī)則標(biāo)簽devclean和devname。devclean標(biāo)簽內(nèi)定義裝置名稱中所有基礎(chǔ)裝置名稱,清洗時遇到此規(guī)則中的關(guān)鍵詞,直接剔除掉前面的無關(guān)內(nèi)容。如“非電量RCS9661”經(jīng)過此規(guī)則,提取出“RCS”,剔除無關(guān)信息“非電量”,變?yōu)椤癛CS9661”。character標(biāo)簽內(nèi)定義所有需要匹配的裝置型號,采用正則表達(dá)式定義法,代表所有數(shù)字、大小寫字母和正斜線。excess標(biāo)簽內(nèi)定義多余的字符,包括劃線和各類空格,仍然采用正則表達(dá)式定義法,其中“\〗s”表示所有空格,包括制表符和多個空格,雙反斜線為轉(zhuǎn)義字符。依照此規(guī)則,裝置原始名稱 “32/ARCS-9705C測控”可被智能化處理為“ARCS9705C”的規(guī)范名稱。處理算法將在4.3節(jié)詳細(xì)闡述。
4.2.2 信號清洗規(guī)則庫
設(shè)備運(yùn)行監(jiān)控信號的規(guī)范化清洗規(guī)則庫包括信號內(nèi)關(guān)鍵詞替換規(guī)則、信號內(nèi)裝置名稱剔除規(guī)則和信號模式識別規(guī)則,其格式定義如下:
第一套;第二套;第Ⅰ套;第Ⅱ套
信號的清洗主要分為三個過程,分別利用規(guī)則庫中delete標(biāo)簽、replace標(biāo)簽和combine標(biāo)簽內(nèi)定義的規(guī)則。delete標(biāo)簽定義剔除規(guī)則,其內(nèi)容是信號中待剔除的無關(guān)詞條。replace標(biāo)簽定義信號替換規(guī)則,包含兩個子標(biāo)簽,其中,value子標(biāo)簽內(nèi)存放需要替換的各關(guān)鍵詞,以分號隔開;key子標(biāo)簽內(nèi)存放關(guān)鍵詞替換結(jié)果。combine標(biāo)簽定義信號模式匹配規(guī)則,包含兩個子標(biāo)簽,其中,mode子標(biāo)簽內(nèi)存放表示相同含義的各個關(guān)鍵詞組合,也稱模式,result子標(biāo)簽內(nèi)存放模式匹配后的結(jié)果,即標(biāo)準(zhǔn)信號表達(dá)方式。
4.3數(shù)據(jù)清洗算法庫
4.3.1 規(guī)則庫生成算法
信號清洗規(guī)則庫以專家經(jīng)驗(yàn)庫為基礎(chǔ),利用Apriori算法對信號名稱分詞頻繁模式進(jìn)行挖掘,產(chǎn)生信號名稱模式識別關(guān)聯(lián)規(guī)則,從而生成規(guī)則庫[11]。算法首先利用ElasticSearch對所有信號詞條進(jìn)行分詞和詞頻統(tǒng)計(jì),生成原始項(xiàng)集;然后執(zhí)行Apriori算法找出頻繁項(xiàng)集,設(shè)最小支持度數(shù),從候選1項(xiàng)集開始進(jìn)行迭代,每次迭代進(jìn)行連接和剪枝,直至出現(xiàn)空項(xiàng)集;最后,通過最小置信度閾值判斷,對找出的所有頻繁項(xiàng)集及子集進(jìn)行置信度驗(yàn)證,產(chǎn)生運(yùn)行監(jiān)控數(shù)據(jù)名稱識別強(qiáng)關(guān)聯(lián)規(guī)則,生成規(guī)則庫。算法詳細(xì)流程如圖4所示。
圖4 基于Apriori算法規(guī)則庫生成算法流程Fig.4 Rules library generating process based on Apriori
4.3.2 數(shù)據(jù)清洗算法庫
信號數(shù)據(jù)清洗算法庫是利用生成的規(guī)則庫對信號進(jìn)行清洗,供CEP引擎調(diào)用,而又可獨(dú)立于引擎調(diào)用的算法集合。圖5為信號數(shù)據(jù)清洗算法庫執(zhí)行流程。
圖5 算法庫執(zhí)行流程Fig.5 Algorithm library execution process
首先對流入CEP引擎內(nèi)存的數(shù)據(jù)進(jìn)行分區(qū),采用并行計(jì)算技術(shù),對每塊內(nèi)存分區(qū)數(shù)據(jù)執(zhí)行算法庫流程,如此可成倍提升數(shù)據(jù)處理速度。根據(jù)內(nèi)存分區(qū)的數(shù)量M配置并行的計(jì)算線程數(shù)量N,盡量使M是N的整數(shù)倍,這樣每個計(jì)算線程執(zhí)行M/N次,時間復(fù)雜度是串行方法的1/N。針對每塊內(nèi)存分區(qū),逐條遍歷每個運(yùn)行監(jiān)控信號,先后執(zhí)行裝置信息清洗和信號命名清洗。采用分區(qū)數(shù)據(jù)處理的方式,不僅可降低算法時間復(fù)雜度,還可實(shí)現(xiàn)數(shù)據(jù)分批流入內(nèi)存,降低算法空間復(fù)雜度。主要算法包括關(guān)鍵詞提取、剔除與替換,噪聲清除,模糊模式識別等。
關(guān)鍵詞提取、剔除與替換是一種文本挖掘與字符串處理技術(shù)結(jié)合的算法。首先通過正則表達(dá)式(1)和式(2)從訓(xùn)練文本中按特征抽取裝置名稱關(guān)鍵詞,而后可通過正則表達(dá)式(3)去除無關(guān)的字符,即可獲得具體電氣裝置名稱。
RegExp1=[a-zA-Z]
(1)
RegExp2=[^a-zA-Z]
(2)
RegExp3=[^a-zA-Z0-9/]
(3)
式中,RegExp表示正則表達(dá)式。
通過此類文本挖掘方法獲取的關(guān)鍵詞集合,經(jīng)過確認(rèn)后即可存入規(guī)則庫,作為豐富規(guī)則庫的一種方式。算法再根據(jù)此類規(guī)則庫,對待處理文本進(jìn)行關(guān)鍵詞外的文本剔除與替換處理,使命名規(guī)范化。
4.4數(shù)據(jù)清洗示例
“32/RCS-9705C測控”這一原始電氣二次裝置名稱,可通過正則表達(dá)式(1)和式(2),截取第一個英文字母開始,到非英文字母結(jié)束的子串,即“RCS”。顯然,此關(guān)鍵詞是一種電氣裝置類型名稱,具有廠家特征。進(jìn)一步地,可通過正則表達(dá)式(3)去除后面無關(guān)的漢字,提取出“9705C”,即為具體電氣裝置名稱。經(jīng)過兩步的抽取和剔除,最后形成的規(guī)范化名稱為:“RCS9705C”。
5.1多數(shù)據(jù)格式輸出
規(guī)范化處理后的電網(wǎng)運(yùn)行監(jiān)控數(shù)據(jù),不僅可應(yīng)用于各類傳統(tǒng)的配電網(wǎng)自動化系統(tǒng),還可應(yīng)用于主動配電網(wǎng)中各類以運(yùn)行監(jiān)控數(shù)據(jù)為基礎(chǔ)的大數(shù)據(jù)應(yīng)用。因此,規(guī)范化處理后的數(shù)據(jù)應(yīng)支持多種輸出方式,包括各類關(guān)系型數(shù)據(jù)庫、內(nèi)存實(shí)時數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫等。例如,適配調(diào)度自動化系統(tǒng)的實(shí)時數(shù)據(jù)庫,適配大數(shù)據(jù)分析的HBase等數(shù)據(jù)庫。除此之外,還應(yīng)支持各類數(shù)據(jù)交換文件格式,如電網(wǎng)數(shù)據(jù)交換通用文件格式CIME及國際通用數(shù)據(jù)交換格式XML等。針對不同數(shù)據(jù)輸出格式,應(yīng)開發(fā)各類輸出適配器。
5.2通用數(shù)據(jù)接口
針對多種數(shù)據(jù)格式的輸出而開發(fā)的多個適配器可組成數(shù)據(jù)總線結(jié)構(gòu)??偩€定義一種通用數(shù)據(jù)輸出方式,利用反射機(jī)制針對不同應(yīng)用動態(tài)調(diào)用不同適配器。這樣即可實(shí)現(xiàn)“一次輸出,多處應(yīng)用”的效果,簡化基礎(chǔ)數(shù)據(jù)與應(yīng)用之間的接口,又提升了調(diào)用的時間和空間復(fù)雜度??偩€型通用數(shù)據(jù)輸出結(jié)構(gòu)如圖6所示。
圖6 輸出數(shù)據(jù)總線結(jié)構(gòu)Fig.6 Output data bus structure
本文主要介紹了一種針對配電網(wǎng)運(yùn)行監(jiān)控應(yīng)用,集成了CEP引擎的大數(shù)據(jù)ETL方法。通過分析信號數(shù)據(jù)存儲現(xiàn)狀提出信號的多源分布式按需抽取方案,采用適配器模式和守護(hù)進(jìn)程的方式解決數(shù)據(jù)抽取中格式不統(tǒng)一和獨(dú)立存儲問題;根據(jù)信號特征制定CEP引擎中可插拔的清洗規(guī)則庫和智能算法庫,運(yùn)用嵌套查詢、組合操作和模式匹配等方式確定規(guī)則庫,將數(shù)據(jù)分區(qū)、并行處理、詞頻統(tǒng)計(jì)、關(guān)鍵詞識別與剔除等算法打包成算法庫;最后,利用總線型結(jié)構(gòu)實(shí)現(xiàn)數(shù)據(jù)格式按需輸出,根據(jù)電力系統(tǒng)仿真需求制定運(yùn)行監(jiān)控信號加載模式,以驅(qū)動設(shè)備仿真邏輯運(yùn)行?;贑EP引擎的運(yùn)行監(jiān)控信號數(shù)據(jù)處理方法能夠?qū)崿F(xiàn)信號的快速準(zhǔn)確清洗,從而為以信號為基礎(chǔ)的各個電力系統(tǒng)應(yīng)用提供有效的數(shù)據(jù)服務(wù)。
目前的配電網(wǎng)運(yùn)行監(jiān)控信號數(shù)據(jù)規(guī)范化處理還有以下兩方面工作有待深入研究:
(1)清洗規(guī)則庫多采用羅列枚舉等方式,少數(shù)利用機(jī)器自學(xué)習(xí)方法,不易于規(guī)則庫的維護(hù),清洗效果有待提升。
(2)當(dāng)前架構(gòu)和算法流程缺少信號處理效果的反饋,通過反饋機(jī)制對算法庫進(jìn)行修正,實(shí)現(xiàn)規(guī)則庫的自學(xué)習(xí)化是未來的一個改進(jìn)方向。
[1] 齊林海,艾明浩 (Qi Linhai, Ai Minghao).一種基于云計(jì)算的電壓暫降并行計(jì)算方法 (A voltage sag parallel calculation method based on cloud computing)[J].中國電機(jī)工程學(xué)報 (Proceedings of the CSEE),2014,34(31): 5493-5499.
[2] 林欣慰,鄭涵 (Lin Xinwei, Zheng Han).電網(wǎng)監(jiān)控信號管理模式探討 (Discussion of power grid monitoring signal manage)[J].大眾用電 (Popular Utilization of Electricity), 2012, (1):20-21.
[3] 吳曉燕 (Wu Xiaoyan).一體化監(jiān)控信號管理在電力系統(tǒng)監(jiān)控中的應(yīng)用(Application of integrated monitoring signal management in power system monitoring)[J].科技資訊 (Science & Technology Information),2014, (32):70.
[4] 藺慧 (Lin Hui).基于電力系統(tǒng)調(diào)控一體化監(jiān)控信號管理探討 (Discussion on monitoring signal management based on power system dispatch and control integration)[J]. 科技創(chuàng)新與應(yīng)用 (Technology Innovation and Application),2013,(17):162.
[5] Matt Casters, Roland Bouman, Jos van Dongen. Pentaho Kettle解決方案:使用PDI構(gòu)建開源ETL解決方案 (Building open source ETL solutions with Pentaho data integration)[M]. 初建軍,譯(Chu Jianjun, Translated).北京: 電子工業(yè)出版社(Beijing: Publishing House of Electronics Industry),2014. 82-91.
[6] 祖向榮,白焰,陽建坤 (Zu Xiangrong,Bai Yan,Yang Jiankun).基于復(fù)雜事件處理的用戶需求響應(yīng)性能實(shí)時監(jiān)測分析 (Real-time monitoring analysis of customer demand response performance based on complex event processing)[J].電網(wǎng)技術(shù)(Power System Technology),2016,40(10):3220-3228.
[7] 蒲天驕,王曉輝,李志宏,等 (Pu Tianjiao,Wang Xiaohui,Li Zhihong, et al.). 基于云計(jì)算的電網(wǎng)培訓(xùn)仿真系統(tǒng)架構(gòu)及關(guān)鍵技術(shù)(Architecture and key technology of power grid dispatch training simulation based on cloud computing)[J].電網(wǎng)技術(shù)(Power System Technology),2016,40(8):2533-2540.
[8] 錢靜,施毅斌,崔立忠,等(Qian Jing, Shi Yibin, Cui Lizhong, et al.). 智能配電網(wǎng)模型信息集成技術(shù)研究(Research on model information integration technology for smart distribution network)[J]. 電網(wǎng)技術(shù)(Power System Technology),2013,37(12):3534-3540.
[9] 趙騰,張焰,張東霞(Zhao Teng,Zhang Yan, Zhang Dongxia). 智能配電網(wǎng)大數(shù)據(jù)應(yīng)用技術(shù)與前景分析(Application technology of big data in smart distribution grid and its prospect analysis)[J]. 電網(wǎng)技術(shù)(Power System Technology),2014,38(12):3305-3312.
[10] 齊林海,艾明浩,王金浩(Qi Linhai, Ai Minghao, Wang Jinhao). 基于Hadoop架構(gòu)的電能質(zhì)量監(jiān)測云模型研究(Study of Hadoop based power quality monitoring cloud model)[J].電力信息與通信技術(shù)(Electric Power Information and Communication Technology),2014,12(2):10-14.
[11] 曲朝陽,熊澤宇,顏佳,等(Qu Zhaoyang,Xiong Zeyu,Yan Jia,et al.). 基于Spark的電力設(shè)備在線監(jiān)測數(shù)據(jù)可視化方法(Visualization method of electrical equipment online monitoring data based on Spark)[J]. 電工電能新技術(shù)(Advanced Technology of Electrical Engineering and Energy),2016,35(11):72-80.
ACEPenginebasedETLmethodofdistributionnetworkoperationalmonitoringandcontrollingsignalbigdata
GE Xian-jun, AI Ming-hao, LI Zhi-hong, WANG Xu, CHEN Nai-shi
(China Electric Power Research Institute, Beijing 100192, China)
The scale of power system becomes larger and larger, and the number of electrical equipment in distribution network increases sharply and becomes further precise. Massive and random operation monitoring and controlling data cause various applications in active distribution network unable to extract useful information quickly and efficiently so as difficult to form decision support. The article uses CEP engine as the operational monitoring and controlling signal processing core, defines and perfects rules library with Apriori machine learning algorithm, and does standardized treatment to signal data stream with core algorithms library. On the whole, ETL (Extract-Transform-Load) framework is used to integrate, clean and load the distributed and disordered signal data in active distribution network into the data warehouse, and output data to different media by different data interface to satisfy different applications. The CEP engine based Big Data ETL solution can implement the fast, accurate and effective standardization processing, and multi-source data integration and output of operation monitoring and controlling signal, and can provide accurate data preparation for fast simulation, fault analysis, state estimation and other important application in active distribution network.
CEP engine; operation monitoring and controlling; big data; ETL; active distribution network; standardization
2017-04-18
國家高技術(shù)研究發(fā)展計(jì)劃(863計(jì)劃)項(xiàng)目(2014AA051901)
葛賢軍 (1978-), 男, 湖北籍, 高級工程師, 碩士, 研究方向?yàn)殡娏ο到y(tǒng)自動化、 電力系統(tǒng)仿真與控制、 主動配電網(wǎng)技術(shù); 艾明浩 (1989-), 男, 天津籍, 工程師, 碩士, 研究方向?yàn)殡娏ο到y(tǒng)大數(shù)據(jù)分析、 電力系統(tǒng)仿真與控制。
10.12067/ATEEE1704052
: 1003-3076(2017)09-0036-07
: TM769