文 星
(中國(guó)南方電網(wǎng)超高壓輸電公司,廣東 廣州 550000)
在大數(shù)據(jù)時(shí)代背景下,社會(huì)對(duì)于數(shù)據(jù)處理的需求逐漸提升,特別表現(xiàn)在電力企業(yè)。電力系統(tǒng)信息化水平提升,相應(yīng)擴(kuò)大了數(shù)據(jù)處理量,導(dǎo)致企業(yè)無法高效獲取信息,不僅會(huì)延緩業(yè)務(wù)應(yīng)用系統(tǒng),降低生產(chǎn)效率,還會(huì)降低海量數(shù)據(jù)統(tǒng)計(jì)分析性能,同時(shí)無法及時(shí)掌握業(yè)務(wù)生產(chǎn),也不滿足決策層需求[1]。在現(xiàn)有技術(shù)上,電力系統(tǒng)無法開發(fā)出多覆蓋數(shù)據(jù)、智能分析以及輔助決策支持處理,不能滿足決策層與管理層的快速智能分析要求,所以必須科學(xué)分析電力信息系統(tǒng)大數(shù)據(jù)處理方法。
大數(shù)據(jù)處理分為聯(lián)機(jī)分析處理和聯(lián)機(jī)事務(wù)處理。其中,聯(lián)機(jī)事務(wù)處理為基于交易的處理系統(tǒng),特征在于將客戶原始數(shù)據(jù)傳輸?shù)接?jì)算中心處理,在短時(shí)間內(nèi)給出處理結(jié)果,可以處理同時(shí)發(fā)生的事務(wù),用戶為操作人員和底層管理人員。聯(lián)機(jī)分析處理為數(shù)據(jù)庫(kù)系統(tǒng)應(yīng)用,能夠進(jìn)行復(fù)雜分析操作,比較關(guān)注決策支持,提供有效查詢結(jié)果,還可以確保用戶快速存取歷史數(shù)據(jù),深入了解數(shù)據(jù),面向高級(jí)管理人員和決策人員[2]。
在信息系統(tǒng)內(nèi),統(tǒng)計(jì)業(yè)務(wù)需求不同,屬于混合應(yīng)用場(chǎng)所。例如,在企業(yè)管理系統(tǒng)中,財(cái)務(wù)信息平臺(tái)可以實(shí)時(shí)查詢和統(tǒng)計(jì)財(cái)務(wù)流程監(jiān)控、會(huì)計(jì)憑證以及財(cái)務(wù)主數(shù)據(jù)等,屬于聯(lián)機(jī)事務(wù)處理應(yīng)用場(chǎng)景,工程生產(chǎn)管理系統(tǒng)中,狀態(tài)檢修評(píng)價(jià)平臺(tái)能夠按照設(shè)備運(yùn)行數(shù)據(jù)和錄音專家?guī)煸u(píng)分機(jī)制評(píng)估設(shè)備狀態(tài),屬于聯(lián)機(jī)分析處理應(yīng)用場(chǎng)景。
在電力信息系統(tǒng)大數(shù)據(jù)處理中,應(yīng)用分布式技術(shù),建設(shè)分布式存儲(chǔ)、并行計(jì)算以及多維索引技術(shù),同時(shí)分析電力信息系統(tǒng)的相關(guān)特點(diǎn),對(duì)系統(tǒng)問題予以處理。
為實(shí)現(xiàn)分布式存儲(chǔ)的效益,在大量數(shù)據(jù)資源處理中應(yīng)用分布式文件系統(tǒng)能夠提供分布式、擴(kuò)容擴(kuò)展文件系統(tǒng),通過該系統(tǒng)能夠解決數(shù)據(jù)訪問問題,同時(shí)在將分布式文件系統(tǒng)添加到電力信息系統(tǒng)內(nèi),提升電力信息系統(tǒng)的數(shù)據(jù)處理能力,且滿足存儲(chǔ)需求[3]。系統(tǒng)組成包括主設(shè)備與從設(shè)備,主設(shè)備主要是存儲(chǔ)元數(shù)據(jù)信息,從設(shè)備負(fù)責(zé)數(shù)據(jù)信息存儲(chǔ),通過主、從設(shè)備結(jié)構(gòu)合理部署分布式文件系統(tǒng),能夠提升系統(tǒng)功能,擴(kuò)展系統(tǒng)性能。分布式文件系統(tǒng)在出現(xiàn)故障時(shí),利用文件副本能夠?qū)崿F(xiàn)對(duì)數(shù)據(jù)信息快速恢復(fù)的目的。
分布式平臺(tái)搭建時(shí),通過Map Reduce軟件可以以大并行方式科學(xué)計(jì)算數(shù)據(jù)。通過Map Reduce軟件框架能夠?qū)⑷蝿?wù)發(fā)送至多個(gè)機(jī)器內(nèi),通過并行方式,同時(shí)處理大數(shù)據(jù)集,還可以確保結(jié)構(gòu)化查詢語言逐漸過渡到Map Reduce軟件,簡(jiǎn)化結(jié)構(gòu)化查詢語言的處理流程,還可以縮短數(shù)據(jù)分析時(shí)間。結(jié)構(gòu)示意如圖1所示。
圖1 Map Reduce軟件結(jié)構(gòu)示意圖
通過圖1可知,Map和Reduce屬于獨(dú)立性的計(jì)算節(jié)點(diǎn),能夠同時(shí)運(yùn)算,相應(yīng)提升大數(shù)據(jù)運(yùn)算和處理效率,同時(shí)將計(jì)算節(jié)點(diǎn)逐漸轉(zhuǎn)化為存儲(chǔ)節(jié)點(diǎn),計(jì)算本地?cái)?shù)據(jù),以免由于大量數(shù)據(jù)傳輸所致網(wǎng)絡(luò)堵塞問題[4]。
此外,分布式技術(shù)系統(tǒng)中,基于計(jì)算機(jī)服務(wù)器可以準(zhǔn)確分解任務(wù),同時(shí)匯總計(jì)算與結(jié)果,將業(yè)務(wù)運(yùn)算分配至計(jì)算集群中以此實(shí)現(xiàn)并行計(jì)算。盡管單臺(tái)計(jì)算機(jī)的內(nèi)存優(yōu)先,但應(yīng)用Hadoop思維方式可以由多臺(tái)計(jì)算機(jī)組成集群,所有內(nèi)存運(yùn)行一個(gè)任務(wù),可以借助大存儲(chǔ)量分布存儲(chǔ)數(shù)據(jù)。在每個(gè)計(jì)算機(jī)內(nèi)存內(nèi)可以并行完成任務(wù),高效完成任務(wù)。
利用分布式存儲(chǔ)與計(jì)算可以滿足計(jì)算集群橫向擴(kuò)展性,同時(shí)降低系統(tǒng)成本。該框架組成包括對(duì)象管理服務(wù)器、客戶端代理以及對(duì)象服務(wù)器等??蛻舳舜砜梢越邮沼脩羧蝿?wù),訪問對(duì)象管理服務(wù)器,確保任務(wù)分配的合理性[5]。對(duì)象管理服務(wù)器可以利用任務(wù)服務(wù)器索引表,合理分配任務(wù),同時(shí)監(jiān)控對(duì)象服務(wù)器,而對(duì)象服務(wù)器完成計(jì)算后,對(duì)象管理服務(wù)器可以接收計(jì)算結(jié)果,同時(shí)為用戶提供結(jié)果。
基于大數(shù)據(jù)的多維索引主要包括以下幾點(diǎn)。利用Filter階段可以初步過濾大數(shù)據(jù)候選集,通過Refinement階段能夠確保數(shù)據(jù)信息的詳細(xì)化收集,同時(shí)確保信息數(shù)據(jù)的完整性,將所需數(shù)據(jù)信息輸出去,利用索引技術(shù)能夠提升大數(shù)據(jù)信息查詢和分析的效率。此外,通過分布式平臺(tái)轉(zhuǎn)變傳統(tǒng)Hadoop,落實(shí)單列索引和多列索引,提升信息查詢效率。為了全面提升應(yīng)用支持效果,必須注重分布式平臺(tái)建設(shè),以此支持二級(jí)和互補(bǔ)等多種索引,提升索引效果。
按照數(shù)據(jù)緩存技術(shù),以對(duì)象方式將業(yè)務(wù)系統(tǒng)數(shù)據(jù)緩存至內(nèi)存內(nèi),提供高效索引與訪問,此種方案可以消除關(guān)系庫(kù)內(nèi)的輸入輸出性能和數(shù)據(jù)查詢時(shí)間的困境,而利用內(nèi)存計(jì)算技術(shù),可以提升業(yè)務(wù)需求數(shù)據(jù)讀取速度,以此提升計(jì)算效率。
在設(shè)計(jì)過程中應(yīng)當(dāng)提升數(shù)據(jù)檢索與存取速度,在檢索內(nèi)存數(shù)據(jù)中嘗試簡(jiǎn)化分布式查詢的描述,定義如下數(shù)據(jù)塊。按照用戶需求與業(yè)務(wù)應(yīng)用,用戶會(huì)多次調(diào)用查詢結(jié)果,返回給用戶的數(shù)據(jù)多為數(shù)據(jù)序列集合的數(shù)據(jù)塊,由用戶設(shè)置數(shù)據(jù)塊數(shù)量。在分布式查詢中,基于本地?cái)?shù)據(jù)查詢的數(shù)據(jù)被稱為基礎(chǔ)數(shù)據(jù)塊,返回給用戶的被稱為結(jié)果數(shù)據(jù)塊[6]。為了獲取結(jié)果數(shù)據(jù)塊,需要多次調(diào)用基本數(shù)據(jù)塊。
為了確保插入件位置中序列定位的準(zhǔn)確性,需要應(yīng)用二分法搜素明確二進(jìn)制位置,在此種方法支持下,插入位置可以準(zhǔn)確定位。在處理數(shù)據(jù)時(shí),具體的數(shù)據(jù)處理方法分為本地查詢和樹合并,過程如下。
本地查詢按照用戶查詢條件,在本地?cái)?shù)據(jù)遍歷后將滿足條件數(shù)據(jù)添加至BD,BD為有序序列,新添數(shù)據(jù)為改進(jìn)二分法排序,能夠確保插入位置搜索的準(zhǔn)確性,同時(shí)將其插入到BD中。當(dāng)BD數(shù)據(jù)大量超過N時(shí),則必須移除首尾元素,以此獲得局部結(jié)果。樹合并是按照業(yè)務(wù)設(shè)置多級(jí)合并,在不同層次下,不同收集器節(jié)點(diǎn)可以收集不同下屬BD,不會(huì)出現(xiàn)收集交叉問題,因此必須由一個(gè)收集器節(jié)點(diǎn)收集BD,將數(shù)據(jù)順序插入至ID。在插入操作時(shí),應(yīng)用改進(jìn)二分法查找位置,準(zhǔn)確搜索插入位置,同時(shí)將其插入到ID序列中,然后判斷ID大小是否大于N,如果大于則刪除首尾元素。
基于多種處理方法搭建的分布式平臺(tái),在滿足電力信息系統(tǒng)穩(wěn)定性提升的同時(shí),海量數(shù)據(jù)的存儲(chǔ)效果也能得到滿足,加大復(fù)雜計(jì)算和高效查詢,應(yīng)用框架如圖2所示。
圖2 分布式平臺(tái)應(yīng)用框架圖
通過分析分布式平臺(tái)應(yīng)用框架圖可知,該平臺(tái)能夠接收終端信息,采集檔案、關(guān)系以及設(shè)備信息等數(shù)據(jù)。通過業(yè)務(wù)算法可以并行計(jì)算大數(shù)據(jù),利用業(yè)務(wù)應(yīng)用服務(wù)接口可以及時(shí)反饋相關(guān)結(jié)果,通過業(yè)務(wù)應(yīng)用系統(tǒng)可以傳輸標(biāo)準(zhǔn)化指令。
在存儲(chǔ)環(huán)境方面,通過該系統(tǒng)在Hadoop架構(gòu)上進(jìn)行存儲(chǔ),不但能夠接收采集信息,而且能夠同時(shí)并行ETL設(shè)備,同時(shí)針對(duì)關(guān)系型數(shù)據(jù)庫(kù)能夠獲取綜合化分析數(shù)據(jù)和檔案數(shù)據(jù)[7]。通過開發(fā)工具集可以從業(yè)務(wù)應(yīng)用邏輯逐漸轉(zhuǎn)變到分布式平臺(tái),提供多種功能,如庫(kù)表結(jié)構(gòu)和索引定義等,同時(shí)能夠?qū)λ峁┑母黜?xiàng)功能實(shí)現(xiàn)相應(yīng)的管理。基于Map Reduce實(shí)行并行計(jì)算,可以高效處理數(shù)據(jù),并且實(shí)現(xiàn)計(jì)算。監(jiān)控工具可以監(jiān)控系統(tǒng)運(yùn)行狀態(tài),使工作者做好檢修與養(yǎng)護(hù),促使管理系統(tǒng)始終處于安全穩(wěn)定的運(yùn)行狀態(tài)。運(yùn)行調(diào)度工具利用MapReduce任務(wù),遵循運(yùn)行業(yè)務(wù)和任務(wù)規(guī)劃,使任務(wù)關(guān)聯(lián)性和依賴性持續(xù)提升,確保任務(wù)執(zhí)行準(zhǔn)確性。業(yè)務(wù)應(yīng)用服務(wù)接口可提供數(shù)據(jù)結(jié)構(gòu),滿足外部服務(wù)系統(tǒng)的運(yùn)行,并且可滿足業(yè)務(wù)標(biāo)準(zhǔn)化運(yùn)行水平,如并行計(jì)算和數(shù)據(jù)查詢等均可在外部服務(wù)系統(tǒng)運(yùn)行。
通過調(diào)研某地區(qū)電力企業(yè)的生產(chǎn)運(yùn)營(yíng)數(shù)據(jù),涉及到7.28×108條數(shù)據(jù)信息,通過Oracle數(shù)據(jù)庫(kù)平臺(tái)和分布式并列計(jì)算平臺(tái)可以統(tǒng)計(jì)終端通信流量、低壓數(shù)據(jù)完整率、用戶負(fù)荷查詢以及表底電量計(jì)算等。比較用電信息采集業(yè)務(wù)效果如圖3所示。由圖3可知,該系統(tǒng)平臺(tái)能夠加強(qiáng)系統(tǒng)大數(shù)據(jù)處理性能,比原有性能高出7倍以上。
圖3 數(shù)據(jù)庫(kù)平臺(tái)和分布式并行計(jì)算平臺(tái)對(duì)比分析
在現(xiàn)代經(jīng)濟(jì)發(fā)展過程中,電力資源需求量的增加,使得產(chǎn)生的用電數(shù)據(jù)量持續(xù)增加,加劇了電力信息系統(tǒng)的數(shù)據(jù)分析難度。此次研究在電力信息系統(tǒng)平臺(tái)搭建中應(yīng)用分布式技術(shù),通過構(gòu)建算法和模型,處理電力大數(shù)據(jù)存儲(chǔ)、計(jì)算以及查詢難題。技術(shù)人員必須深入分析和研究大數(shù)據(jù)技術(shù),合理應(yīng)用現(xiàn)代化技術(shù),以挖掘大數(shù)據(jù)內(nèi)在價(jià)值信息,加強(qiáng)電力企業(yè)數(shù)據(jù)應(yīng)用和決策水平,實(shí)現(xiàn)電力行業(yè)的長(zhǎng)久穩(wěn)定發(fā)展。