任紅英
摘要:新一代信息技術(shù)與制造業(yè)深度融合,正在引發(fā)影響深遠的產(chǎn)業(yè)變革,形成新的生產(chǎn)方式、產(chǎn)業(yè)形態(tài)、商業(yè)模式和經(jīng)濟增長點,大數(shù)據(jù)分析、人工智能等新技術(shù)與能源行業(yè)的結(jié)合應(yīng)用越來越緊密。本文對基于大數(shù)據(jù)的電力環(huán)保數(shù)據(jù)平臺建設(shè)進行探討。
關(guān)鍵詞:大數(shù)據(jù);電力;環(huán)保;平臺建設(shè)
1數(shù)據(jù)整理
平臺數(shù)據(jù)來源眾多,數(shù)據(jù)質(zhì)量參差不齊。為了提升數(shù)據(jù)可靠性,保證后續(xù)應(yīng)用的順利開發(fā)與數(shù)據(jù)挖掘的準確性,必須在數(shù)據(jù)流轉(zhuǎn)過程中對數(shù)據(jù)進行轉(zhuǎn)換、過濾、清洗等數(shù)據(jù)處理操作。ETL過程處于承上啟下的重要環(huán)節(jié),是保證數(shù)據(jù)質(zhì)量的重要手段。數(shù)據(jù)處理具體包括數(shù)據(jù)檢查、數(shù)據(jù)標準化處理、匯總、清洗、庫內(nèi)處理等功能。數(shù)據(jù)標準化處理強調(diào)對不同格式的數(shù)據(jù)進行統(tǒng)一數(shù)據(jù)格式轉(zhuǎn)換、統(tǒng)一映射、統(tǒng)一編碼。數(shù)據(jù)加工功能,提供數(shù)據(jù)加工規(guī)則管理,支持不同形態(tài)數(shù)據(jù)加工管理。數(shù)據(jù)清洗功能,包括數(shù)據(jù)清洗環(huán)節(jié)管理、數(shù)據(jù)清洗規(guī)則管理、數(shù)據(jù)清洗監(jiān)控、數(shù)據(jù)清洗預覽等功能。SIS系統(tǒng)的數(shù)據(jù)包括1/4的開關(guān)量以及3/4的模擬量數(shù)據(jù),每個機組設(shè)備點數(shù)、點名不一致,即使同一指標點名也是各異的,同時數(shù)據(jù)質(zhì)量不高,經(jīng)常會出現(xiàn)數(shù)據(jù)過高、歸0、亂跳等各種異常情況,甚至一些數(shù)據(jù)錯誤模式常常出現(xiàn)變化。針對以上這些問題,需要提供規(guī)則可靈活配置的接口,對每個數(shù)據(jù)點進行精確加工和清洗,使ETL過程實現(xiàn)數(shù)據(jù)的全量管理。首先要建立元數(shù)據(jù)加工模型,在此模型中,對每一個機組設(shè)備相同點進行統(tǒng)一映射,不同的點進行擴展映射。對每一個點單獨配置轉(zhuǎn)換規(guī)則,轉(zhuǎn)換為統(tǒng)一的數(shù)據(jù)單位。對那些不能通過其他指標直接轉(zhuǎn)換的點,配置計算規(guī)則,盡量補全缺失數(shù)據(jù)。平臺采用AI、神經(jīng)網(wǎng)絡(luò)等普適性算法,通過分析大量歷史數(shù)據(jù),建立機器學習體系,實現(xiàn)對數(shù)據(jù)進行清洗的自適應(yīng)智能算法。如基于PauTa準則的異常數(shù)據(jù)清洗算法與基于Hermite多項式插值的數(shù)據(jù)補齊方法。為了避免數(shù)據(jù)個體差異引起的誤判,系統(tǒng)AI將采集到的數(shù)據(jù)進行歸一化處理后,基于PauTa準則對數(shù)據(jù)進行自動檢測后,判定異常數(shù)據(jù)點,并對其進行清洗。剔除異常數(shù)據(jù)后,采用Hermite多項式插值技術(shù)補齊采樣點的數(shù)據(jù)。
2數(shù)據(jù)存儲
環(huán)保數(shù)據(jù)平臺數(shù)據(jù)不僅要保證業(yè)務(wù)數(shù)據(jù)快速、安全地落地存儲,還要提供高效的在線查詢功能。此外,存儲的數(shù)據(jù)還要便于未來的數(shù)據(jù)挖掘,助力環(huán)保智慧應(yīng)用場景。前期可以投入較少硬件,未來能夠靈活進行存儲、計算資源的擴容。通過數(shù)據(jù)壓縮、多級數(shù)據(jù)存儲,提高訪問效率,降低存儲成本。SIS數(shù)據(jù)為非結(jié)構(gòu)數(shù)據(jù),無法提前完整預建表的元數(shù)據(jù)結(jié)構(gòu)。測點眾多、采集頻率高需要支持并行入庫能力,數(shù)據(jù)存儲結(jié)構(gòu)還要能支持通過時間范圍、設(shè)備名、測點名等條件高效查詢原始數(shù)據(jù)。針對工程管理等業(yè)務(wù)系統(tǒng),需要能夠支持全量、增量、實時等數(shù)據(jù)入庫模式,文檔數(shù)據(jù)也要快速存儲、靈活檢索使用。針對這一特殊場景,構(gòu)建了以列式數(shù)據(jù)庫、數(shù)據(jù)倉庫、搜索引擎互補的三位一體持久存儲體系。通過增量抽取列式數(shù)據(jù)庫,整合全局數(shù)據(jù),構(gòu)建以基礎(chǔ)數(shù)據(jù)層、匯總加工層和集市層多層互補的數(shù)據(jù)倉庫體系。數(shù)據(jù)倉庫依照分析需求、分析維度、分析指標設(shè)計的數(shù)據(jù)集合,通過數(shù)據(jù)倉庫可以進行大規(guī)模的數(shù)據(jù)挖掘用于支持決策,為后續(xù)統(tǒng)計報表、OLAP多維分析、數(shù)據(jù)挖掘、預測分析提供數(shù)據(jù)源及分布式計算能力。平臺對原始數(shù)據(jù)查詢以及數(shù)據(jù)倉庫分析支持的同時,對文本文件、數(shù)據(jù)倉庫分析結(jié)果等提供查詢支持?;诘剐蛩饕?,支持十億以上級別數(shù)據(jù)的秒級結(jié)構(gòu)化檢索、全文檢索,同時作為列式數(shù)據(jù)庫的二級索引方案,顯著提高列式數(shù)據(jù)庫的條件搜索性能。支持中文字符集,實現(xiàn)中文分詞功能,支持結(jié)構(gòu)化數(shù)據(jù)和半/非結(jié)構(gòu)化數(shù)據(jù)聯(lián)合查詢,支持預定義維度數(shù)據(jù)查詢,支持簡單查詢、組合查詢、模糊查詢等?;诃h(huán)保數(shù)據(jù)模型驅(qū)動多類型數(shù)據(jù)引擎融合,不同的數(shù)據(jù)引擎存貯管理不同類型的業(yè)務(wù)數(shù)據(jù),以實現(xiàn)最佳性能。平臺可以根據(jù)數(shù)據(jù)類型配置存儲時長,可設(shè)為永不刪除或者用戶設(shè)定保存時長,超出保存周期的數(shù)據(jù)平臺自動壓縮歸檔,并通過一個統(tǒng)一的全生命周期數(shù)據(jù)模型,對各類數(shù)據(jù)進行管理,降低數(shù)據(jù)理解和獲取成本,平臺使用先進的大數(shù)據(jù)技術(shù),數(shù)據(jù)多副本存儲,單一節(jié)點損壞不影響數(shù)據(jù)的可用性和完整性。數(shù)據(jù)存儲結(jié)構(gòu)圖如圖1所示。
3數(shù)據(jù)挖掘
智慧環(huán)保大數(shù)據(jù)平臺要真正實現(xiàn)其智慧性,必須能夠?qū)λ械臉I(yè)務(wù)數(shù)據(jù)進行深度挖掘。通過數(shù)據(jù)分析與挖掘技術(shù),從海量數(shù)據(jù)中,提取有價值的信息,為企業(yè)決策提供重要依據(jù)。該平臺提供了統(tǒng)一的分布式數(shù)據(jù)運算架構(gòu)體系,使相關(guān)人員僅需關(guān)注業(yè)務(wù)算法,輕松實現(xiàn)海量數(shù)據(jù)的大規(guī)模并行分析。平臺基于統(tǒng)一的數(shù)據(jù)倉庫,提供分布式實時、離線計算引擎,使數(shù)據(jù)分析人員能夠進行機器學習算法、分布式圖計算、交互式SQL近實時查詢,實現(xiàn)全面的數(shù)據(jù)分析和數(shù)據(jù)挖掘能力。平臺探索各類數(shù)據(jù)特性,統(tǒng)一編碼,制定符合挖掘的數(shù)據(jù)結(jié)構(gòu),保證挖掘性能,同時完整實現(xiàn)權(quán)限管理、資源管控等功能。一般OLAP的多維分析是基于鉆取、上卷、切片、切塊以及旋轉(zhuǎn)等操作,讓數(shù)據(jù)的展示更加直觀。數(shù)據(jù)挖掘常常通過關(guān)聯(lián)分析、聚類、分類等機器學習算法,甚至深度學習來挖掘數(shù)據(jù)隱藏的價值。平臺在基于數(shù)據(jù)立方、機器學習技術(shù)的基礎(chǔ)上,充分結(jié)合環(huán)保設(shè)備在生產(chǎn)運行中面臨的特殊場景,通過建立設(shè)備節(jié)能降耗分析、催化劑壽命預警、等多個數(shù)學模型,不斷對模型進行自學習與修正,解決生產(chǎn)環(huán)節(jié)中面臨的實際問題。與此同時,平臺通過故障庫對故障處理的操作等方面知識進行沉淀,幫助現(xiàn)場進行運維知識留存,實現(xiàn)設(shè)備智能運維,閉環(huán)運維的目標。平臺支持多種數(shù)據(jù)計算框架,例如實時流計算框架、批處理計算框架,內(nèi)存計算框架,支持企業(yè)在大數(shù)據(jù)平臺上運行多種類型的復雜任務(wù)。支持并行計算及并發(fā)處理功能,支持多服務(wù)器、多CPU、多進程并行及并發(fā)處理數(shù)據(jù)的機制。數(shù)據(jù)分析與挖掘架構(gòu)圖如圖2所示。
4數(shù)據(jù)應(yīng)用
4.1應(yīng)用軟件
基于SIS系統(tǒng)機組設(shè)備數(shù)據(jù),能夠開發(fā)出高性能智慧環(huán)保系統(tǒng),系統(tǒng)支持大型脫硫脫硝設(shè)備智能監(jiān)測分析,能夠?qū)λ邪l(fā)電企業(yè)各類機組進行實時監(jiān)控展示、性能分析。系統(tǒng)通過對各方數(shù)據(jù)采集、綜合管理等平臺的數(shù)據(jù)資源整合,基于自主搭建的大數(shù)據(jù)智能分析平臺,實現(xiàn)設(shè)備實時監(jiān)測、參數(shù)報警、故障處理方式推薦、設(shè)備節(jié)能降耗智能分析等功能,并通過移動端APP及PCWEB端進行可視化效果展示。
4.2API接口
智慧環(huán)保平臺是一個開放的平臺,可為任何第三方提供準確可靠的數(shù)據(jù)訪問服務(wù),API接口可為用戶提供具有海量查詢能力支持的RestfulAPI、JavaAPI、Thrift等多類接口,方便任何第三方業(yè)務(wù)系統(tǒng)從平臺中獲取統(tǒng)一的信息。同時提供了統(tǒng)一的權(quán)限校驗,不同的部門只允許查詢本部門的數(shù)據(jù),不同角色的人員只允許查詢指定授權(quán)的數(shù)據(jù)。傳輸過程中,提供了數(shù)據(jù)加密、認證措施,防止數(shù)據(jù)被盜取、惡意篡改,造成數(shù)據(jù)丟失以及財產(chǎn)損失。通過開放API接口,其他業(yè)務(wù)系統(tǒng)能夠共享環(huán)保大數(shù)據(jù)成果。
4.3專家工具
該平臺作為智慧大數(shù)據(jù)平臺,需要不斷發(fā)展智能分析模塊,需要相關(guān)業(yè)務(wù)人員利用平臺已有的數(shù)據(jù)進行深度的分析和研究,為了便于業(yè)務(wù)人員能夠更加輕松地完成整個分析過程,平臺提供了自助式OLAP分析功能,業(yè)務(wù)人員無須寫代碼就能進行分析操作,進一步降低了數(shù)據(jù)分析的使用門檻,用戶只需要拖拽分析的維度和指標,不需要考慮底層復雜的并行計算框架與機制,就能呈現(xiàn)一個完整的數(shù)據(jù)報告。例如針對SIS系統(tǒng)數(shù)據(jù),選取按月、按分公司,選定需要查詢的時間范圍等條件,指定需要查詢?nèi)肟赟O2濃度、原煙氣流量等指標以及是取平均值、最大值等,即可進行海量數(shù)據(jù)聚合分析工作。專家工具使業(yè)務(wù)人員更專注于數(shù)據(jù),更加輕松完成智能分析模塊的搭建,對提升整個平臺的智能化提供強大的動力支持。
結(jié)束語
環(huán)保數(shù)據(jù)平臺借助大數(shù)據(jù)分析、人工智能等信息技術(shù),將北京國電龍源環(huán)保工程有限公司海量的脫硫脫硝等環(huán)保數(shù)據(jù)全部納入管理,深層挖掘數(shù)據(jù)實用價值。數(shù)據(jù)平臺對所有SIS系統(tǒng)的數(shù)據(jù)通過自適應(yīng)智能清洗算法處理后,形成唯一可信的原始數(shù)據(jù)源。
參考文獻
[1]杜若,謝川,吳群艷.電力環(huán)保大數(shù)據(jù)平臺開發(fā)及智能運用[J].電力大數(shù)據(jù),2017,20(08):64-67.
[3]劉世成,張東霞,朱朝陽,等.能源互聯(lián)網(wǎng)中大數(shù)據(jù)技術(shù)思考[J].電力系統(tǒng)自動化,2016,40(08):14-21+56.