林宇照
(廣東電網有限責任公司茂名供電局,廣東 茂名 525000)
隨著大數據時代的到來,各行各業(yè)在數據處理方面的需求越來越大,電力企業(yè)亦是如此。電力系統(tǒng)信息化水平的提高,使得數據處理量逐步增加,進而導致企業(yè)無法合理、高效地獲取信息。如此一來,既降低了業(yè)務應用系統(tǒng)的工作效率,導致海量數據統(tǒng)計分析性能下降,同時不能實時掌握業(yè)務生產動態(tài),無法滿足決策層需求。鑒于此,當前應重點做好大數據高效處理方法的深入研究,有效解決電力信息系統(tǒng)當前存在的各類問題。
總體而言,可以將電力信息系統(tǒng)的大數據處理分為兩種類型,即聯(lián)機事務處理與聯(lián)機分析處理。一方面,對于聯(lián)機事務處理而言,主要是針對交易的處理系統(tǒng)。具體應用期間,需要把相關客戶的原始數據傳輸到計算中心,經過計算后得到相應結果,用戶大多是管理人員或者是操作人員,可根據需求快速存取歷史數據。高級管理人員或決策人員還可深入了解數據信息情況,便于管理、決策工作的開展。對于信息系統(tǒng)而言,其內部有著各種類型的統(tǒng)計業(yè)務需求,屬混合應用場所。對于企業(yè)管理系統(tǒng)而言,操作人員可利用財務信息平臺,開展實時查詢、統(tǒng)計等工作,并且可借助財務流程監(jiān)控系統(tǒng)實現對數據的監(jiān)控。另一方面,利用生產管理系統(tǒng)中的狀態(tài)檢修評價平臺,能夠根據設備運行數據對設備運行狀態(tài)做出評估,這屬于第二種類型的應用場景。
信息系統(tǒng)大數據的高效處理遵循如下原則。
(1)業(yè)務使用效率高。在開展大數據算法更新工作期間,應當滿足現階段電力系統(tǒng)業(yè)務發(fā)展需要,同時還應盡可能改善數據統(tǒng)計分析的性能。
(2)減少改造工作量。加強對現有系統(tǒng)的利用,盡量減少現有系統(tǒng)改造期間的工作量,并制定性價比較高的處理方案[1]。
(3)橫向擴展能力強。隨著電力行業(yè)的快速發(fā)展,電力信息系統(tǒng)涉及到的數據越來越多,因而在數據計算處理方面的需求越來越復雜。鑒于此,在開展電力信息系統(tǒng)大數據處理工作期間,應當考慮到用戶需求與數據量的實際情況,提高橫向擴展能力,并為系統(tǒng)的后期維護、升級提供幫助。
以某電力企業(yè)電能質量在線監(jiān)測系統(tǒng)作為分析案例,對系統(tǒng)普遍存在的問題進行分析。
(1)系統(tǒng)運行相對較慢。當系統(tǒng)登陸之后,數據刷新速度較慢。同時,集成數據的確認、匯總明細查詢等操作速度緩慢。
(2)用戶體驗差。在計算請求提交之后,需要等待幾十分鐘。在進行歡迎頁面的刷新時,需要全頁面同步加載,進而拉低了用戶體驗。系統(tǒng)應用期間,還經常出現月度分析報表導出失敗等問題。
(3)應用服務宕機頻繁。該系統(tǒng)的整體可靠性較差,并且數據庫內存的使用率相對較高。其四,存在集成數據接入延遲等方面問題。
上文中提到,大數據問題總體可以分為兩種類型,即聯(lián)機事務處理(On-Line Transaction Processing,OLTP)以及聯(lián)機分析處理(On-Line Analytical Processing,OLAP)。首先,OLTP通常被稱為面向交易的處理系統(tǒng)。通過該系統(tǒng)的應用,能夠處理大量、簡單并且規(guī)模小的相關日常事務,例如在12306火車票訂購系統(tǒng)中就有相應的應用。該系統(tǒng)應用期間,有著較快的響應速度與較低的錯誤率。其次,OLAP可進行相對復雜的分析操作,查詢過程更加直觀、易懂[2]。此外,通過OLAP技術的合理使用,可以從不同的角度針對大量歷史數據開展快速、交互存取等工作,進而對數據信息開展深層次的應用。對于電力信息系統(tǒng)而言,應當結合實際的數據統(tǒng)計業(yè)務需求,做好OLTP以及OLAP的混合應用OLTP與OLAP的關系如圖1所示。
圖1 OLTP與OLAP的關系
針對大數據處理工作的實際需求和特點,將某電力企業(yè)電能質量在線監(jiān)測系統(tǒng)作為案例,在開展高性能處理工作期間,主要用到分布式技術等,下面結合實際情況做出分析。
為滿足分布式存儲等方面的要求,在開展數據資源處理工作期間,應重點做好分布式文件系統(tǒng)的研究與應用,并提供分布式以及擴容擴展文件系統(tǒng)。該系統(tǒng)的合理應用既能有效處理好數據訪問等方面的問題,并且需要合理應用分布式文件系統(tǒng),進而顯著提高大數據處理水平和效率。同時,還可滿足存儲方面的需求。系統(tǒng)主要由主設備、從設備構成,其中主設備的功能是開展元數據信息的存儲,從設備的功能主要以存儲數據信息為主。利用主設備、從設備結構,可以實現對分布式文件系統(tǒng)的科學有效部署,使得系統(tǒng)功能得以改善,同時還能改善擴展系統(tǒng)的性能。當分布式文件系統(tǒng)發(fā)生故障時,應當借助文件副本進行相關數據、信息的快速恢復。
(1)搭建分布式平臺的過程中,利用Map Reduce等一系列軟件,能夠以大并行的方式,實現數據的快速、科學梳理。通過Map Reduce軟件框架的合理使用,可以把任務發(fā)送到多個機器內,借助并行方式,同時開展大數據集的處理。(2)并行計算期間需要結合實際需求,簡化處理流程,進而有效縮短數據的處理與分析時間。(3)Map以及Reduce均屬獨立性計算節(jié)點,可以達到同時運算的目的,進而改善大數據運算與處理工作的效率。(4)將計算節(jié)點進一步轉化為存儲節(jié)點,能夠有效避免數據傳輸期間出現網絡堵塞等各類問題。(5)分布式技術系統(tǒng)主要利用計算機服務器,實現對各類任務的準確分解,并實現計算結果的匯總。(6)單臺計算機有著內存優(yōu)先的特點,通過Hadoop思維方式的合理應用,能夠將多臺計算機組成集群,進而提高了任務完成過程中的效率。(7)采用分布式存儲和計算,還能滿足計算集群橫向擴展性方面的要求,并且減少系統(tǒng)的成本。該框架主要由對象管理服務器組成,同時還包括客戶端代理、對象服務器等相關設備??蛻舳舜砜梢詫崟r地接收到不同用戶的任務,之后借助管理服務器,提高任務分配期間的科學性。就對象管理服務器而言,需要合理應用任務服務器索引表,最終對各類任務進行合理的分配[3]。(8)在利用監(jiān)控對象服務器的過程中,當計算工作完成之后,可以及時接收相應的計算結果,進而將計算結果提供給用戶。
基于大數據的多維索引,總體上囊括了以下幾個不同的方面。(1)合理利用Filter階段,可以對大數據候選集進行初步的過濾。(2)借助Refinement階段能夠確保相關的數據、信息得到更加詳細化、全面化收集。(3)能保證信息數據有著良好的完整性。(4)把所需要的數據信息傳輸出去。通過索引技術的使用,可顯著提升大數據信息查詢的效率,并且能夠改善分析工作的質量。除此之外,加之分布式平臺轉變傳統(tǒng)Hadoop的合理應用,可顯著提升信息查詢過程的效率。另外,為全面改善應用支持效果,應積極做好分布式平臺的建設工作,更好地支持二級索引和互補索引等,最終可以明顯地提升索引效果。
內存優(yōu)化工作包括:(1)通過數據緩存技術的合理利用,既能夠提升索引和訪問效率,同時還能有效解決輸入輸出性能問題,并減少數據查詢的時間。(2)通過內存計算技術的合理使用,可以在一定程度上提高數據讀取的速率,進而改善計算期間的效率。
設計期間,要著力提高數據檢索和存取的速度[4]。在檢索內存數據的過程中,應當對分布式查詢的描述進行簡化,并做好數據塊的定義。這一過程中,由于用戶的需求與業(yè)務應用存在差異,用戶可能需要多次的調用、查詢結果。因此,應當根據用戶的實際情況合理設置數據塊的數量。在開展分布式查詢工作時,結合本地數據查詢的相關數據,通常將其稱之為基礎數據塊;對于反饋給用戶的相關數據,可以將其稱之為結果數據塊。為了可以在短時間內查找結果數據塊,需要對基本數據塊進行多次調用。為保證序列定位有著一定的準確性效果,設計人員應當采用二分法搜索明確二進制位置。除此之外,還應當在這一方法的支持下,插入位置能夠準確的定位。在進行數據處理期間,應當結合具體情況,選用適宜的數據處理方法。對于本地查詢方法而言,可以根據用戶的查詢條件,把滿足要求的相關數據添加到BD,BD是有序序列,新添數據采用改進二分法排序。如此一來,便能顯著提升插入位置搜索的準確性效果。同時,還可以將其插入到BD中。需要注意的是,一旦BD數據大于N時,那么要及時地對首尾元素進行清除,以便獲得局部結果。在插入操作過程中,可以采用改進二分法,對相關位置進行準確的查找。
在進行分布式平臺的搭建時,應當注重多種處理方法的應用,進而提高電力信息系統(tǒng)的穩(wěn)定性效果,并滿足海量數據存儲要求。平臺搭建期間還要考慮到復雜計算以及高效查詢等方面的要求。圖3為分布式并行計算平臺應用框架示意圖。
圖3 分布式并行計算平臺應用框架示意
從圖3分布式平臺應用框架示意圖可以看出,這一平臺的應用,既能夠實現終端信息的接收,同時還能實現檔案、關系、設備信息等數據的采集。首先,合理利用業(yè)務算法,能夠滿足大數據并行計算方面的要求[5]。借助業(yè)務應用服務接口,還能對相關結果進行及時的反饋。除此之外,合理使用業(yè)務應用系統(tǒng),可以及時進行標準化指令的傳輸。對于存儲環(huán)境來說,該系統(tǒng)能夠在Hadoop架構上進行存儲。除此之外,利用關系型數據庫,及時獲取相關的檔案數據。此外,對開發(fā)工具集的合理使用,能夠提供多種不同的服務功能,該系統(tǒng)還能完成相應的管理工作。借助Map Reduce開展相應的并行計算工作,進而提升數據的處理效率,并進行數據的快速計算。另外,監(jiān)控工具的使用可實現對系統(tǒng)運行狀態(tài)的監(jiān)控,并為后期的檢修、養(yǎng)護工作提供幫助,使得系統(tǒng)運行期間的安全性、穩(wěn)定性大大提升。最后,運行調度工具利用Map Reduce任務,能夠有效提升任務關聯(lián)性、依賴性水平,進而保證了任務執(zhí)行期間的準確效果。借助于業(yè)務應用服務接口,可以提供完善的數據結構。如此一來,既能夠提高外部服務系統(tǒng)日常運行的效率,同時還可以改善運行效果與水平。
通過對某地區(qū)電力企業(yè)開展調研等工作可以發(fā)現,該企業(yè)生產運營數據量達到了7.28×108條。通過Oracle數據庫平臺的合理利用,實現終端通信流量的統(tǒng)計以及低壓數據表底電量計算等工作。通過對統(tǒng)計與計算結果的對比,發(fā)現該系統(tǒng)平臺的應用,可以顯著改善大數據的處理性能,與系統(tǒng)原有性能相比,效率至少提高了7倍以上。
國內經濟社會的迅猛發(fā)展使得居民在生產、生活期間對于電力資源的需求量急劇增大,同時使得用電數據量不斷增加,進而增大了電力信息系統(tǒng)數據處理與分析工作的難度。在本文的研究中,開展電力信息系統(tǒng)平臺搭建工作期間,首先應當合理利用分布式技術,并借助構建算法與模型的方式使得大數據存儲、計算、查詢等方面的難題得到了有效的解決。對于技術人員而言,日常工作中應重點加強對大數據技術的研究與應用,同時還要對其內在價值信息做出全面和深度的挖掘,進而有效改善數據應用水平,促進該行業(yè)的長遠穩(wěn)定發(fā)展。