呂傳波 趙金娥
(山東精誠電子科技有限公司,山東 濟(jì)南 250000)
近年來,煤炭行業(yè)迅速發(fā)展,信息化程度不斷提高,煤礦建設(shè)了多種形式的信息化系統(tǒng),包括安全監(jiān)測監(jiān)控系統(tǒng)、井下人員定位系統(tǒng)、重大設(shè)備監(jiān)測系統(tǒng)等。但是由于各廠家數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一,各系統(tǒng)之間難以打通,造成信息孤島現(xiàn)象嚴(yán)重,因此建設(shè)綜合性的大數(shù)據(jù)分析平臺(tái)迫在眉睫。
崔亞仲(2019)[1]等提出了煤礦大數(shù)據(jù)應(yīng)從安全管理、生產(chǎn)執(zhí)行、經(jīng)營管理等領(lǐng)域研究。毛開江(2019)[2]研究了煤礦安全監(jiān)測監(jiān)控?cái)?shù)據(jù)聯(lián)網(wǎng)采集的方式,為大數(shù)據(jù)分析提供了數(shù)據(jù)支撐。本文從數(shù)據(jù)采集、存儲(chǔ)、計(jì)算、治理、上傳等方面對大數(shù)據(jù)平臺(tái)進(jìn)行構(gòu)建研究。
我國煤礦分布較散,政府部門對煤礦企業(yè)基礎(chǔ)數(shù)據(jù)采集困難,數(shù)據(jù)利用率較低,需要利用新一代信息技術(shù),以大數(shù)據(jù)中心平臺(tái)為紐帶,將企業(yè)基礎(chǔ)數(shù)據(jù)有效融合在一起,通過數(shù)據(jù)分析實(shí)現(xiàn)應(yīng)用創(chuàng)新。
青龍煤礦位于黔西縣東南部,當(dāng)前信息化建設(shè)較為完備,主要有安全監(jiān)控系統(tǒng)、人員定位系統(tǒng)、供電監(jiān)控系統(tǒng)、視頻監(jiān)控系統(tǒng)、提升系統(tǒng)、瓦斯抽放系統(tǒng)、排水系統(tǒng)、通風(fēng)系統(tǒng)、壓風(fēng)系統(tǒng)、礦壓監(jiān)測系統(tǒng)、頂板監(jiān)測系統(tǒng)、膠帶運(yùn)輸系統(tǒng)和輔助運(yùn)輸系統(tǒng)等。
青龍煤礦根據(jù)國家要求,已經(jīng)建設(shè)了相對完善的監(jiān)測監(jiān)控及自動(dòng)化系統(tǒng),但是未實(shí)現(xiàn)各系統(tǒng)數(shù)據(jù)的融合分析利用及共享,工業(yè)大數(shù)據(jù)平臺(tái)尚未建立,需要將已經(jīng)建設(shè)的系統(tǒng)進(jìn)行數(shù)據(jù)接入、分類、清洗,通過數(shù)采平臺(tái)完成現(xiàn)有系統(tǒng)的接入,完成多源異構(gòu)數(shù)據(jù)的歸一化和邊緣集成,利用協(xié)議轉(zhuǎn)化,開展平臺(tái)邊緣側(cè)數(shù)據(jù)預(yù)處理、存儲(chǔ)以及智能分析,實(shí)現(xiàn)多工業(yè)通信協(xié)議兼容及數(shù)據(jù)間互通。
青龍煤礦利用云計(jì)算、物聯(lián)網(wǎng)、大數(shù)據(jù)等新興技術(shù),將煤礦企業(yè)安全生產(chǎn)中產(chǎn)生的數(shù)據(jù)進(jìn)行有效的采集應(yīng)用,通過大數(shù)據(jù)分析平臺(tái),實(shí)現(xiàn)安全生產(chǎn)及時(shí)預(yù)測、預(yù)警、預(yù)報(bào),搭建可以對外提供支撐服務(wù)的大數(shù)據(jù)中心,支撐政府對企業(yè)的服務(wù),支撐煤礦企業(yè)安全發(fā)展。
青龍煤礦數(shù)據(jù)平臺(tái)架構(gòu)圖如圖1。
圖1 青龍煤礦大數(shù)據(jù)分析平臺(tái)架構(gòu)圖
青龍煤礦建立了高可用的數(shù)據(jù)采集系統(tǒng),采用分布式、可靠、高效的實(shí)時(shí)數(shù)據(jù)抽取工具,以交換文件、數(shù)據(jù)庫、OPC 服務(wù)器、PLC 等多種方式,自定義配置數(shù)據(jù)采集任務(wù),支持多類工業(yè)協(xié)議解析、數(shù)據(jù)規(guī)范、清洗。
系統(tǒng)對青龍煤礦現(xiàn)有多個(gè)系統(tǒng)的數(shù)據(jù)進(jìn)行接入,部分系統(tǒng)接入情況如下:
(1)抽取、清洗安全監(jiān)控系統(tǒng)、井下人員定位系統(tǒng)、煤礦產(chǎn)量信息聯(lián)網(wǎng)系統(tǒng)、重大設(shè)備監(jiān)控系統(tǒng)、煤礦視頻監(jiān)控系統(tǒng)等系統(tǒng)的實(shí)時(shí)數(shù)據(jù);
(2)系統(tǒng)接入煤礦安全監(jiān)控系統(tǒng)數(shù)據(jù),重點(diǎn)提取煤礦安全監(jiān)控系統(tǒng)中報(bào)警不處理、數(shù)據(jù)未正常上傳、傳感器配置不規(guī)范、傳感器未按時(shí)調(diào)校、系統(tǒng)維護(hù)不及時(shí)、信息系統(tǒng)未按規(guī)定備份、設(shè)備安裝覆蓋率小于《煤礦安全規(guī)程》要求、數(shù)據(jù)巡檢周期過長等數(shù)據(jù);
(3)系統(tǒng)接入煤礦井下人員定位系統(tǒng)數(shù)據(jù),重點(diǎn)抽取煤礦井下作業(yè)人員定位系統(tǒng)中煤礦超員超時(shí)情況、瓦斯超限人員不撤離、領(lǐng)導(dǎo)未按規(guī)定帶班下井情況、人員違規(guī)(越界)作業(yè)、人員交接班異常、特種作業(yè)人員應(yīng)到地點(diǎn)異常、崗位人員脫崗等數(shù)據(jù);
(4)系統(tǒng)接入煤礦產(chǎn)量數(shù)據(jù),提取煤礦核定產(chǎn)能、月度年度生產(chǎn)計(jì)劃和實(shí)時(shí)產(chǎn)量數(shù)據(jù);
(5)系統(tǒng)接入重大設(shè)備中主風(fēng)機(jī)、空壓機(jī)、提升機(jī)、水泵、主皮帶、架空人車、供電系統(tǒng)、輔助運(yùn)輸系統(tǒng)等重大設(shè)備監(jiān)測監(jiān)控?cái)?shù)據(jù);
(6)建立煤礦視頻監(jiān)控聯(lián)網(wǎng),以讀取硬盤錄像機(jī)接口或IP 攝像頭的方式,獲取實(shí)時(shí)監(jiān)控視頻數(shù)據(jù)。
(7)對現(xiàn)階段尚未建立系統(tǒng)的或者非實(shí)時(shí)監(jiān)測的安全管理系統(tǒng)數(shù)據(jù),可實(shí)現(xiàn)對固定格式的文件數(shù)據(jù)進(jìn)行導(dǎo)入。
基于大數(shù)據(jù)中心的Hadoop 以及MPP 資源池提供大數(shù)據(jù)分布式計(jì)算與存儲(chǔ)組件,并利用服務(wù)管理平臺(tái)實(shí)現(xiàn)對各大數(shù)據(jù)組件的服務(wù)化。
(1)Hadoop 大數(shù)據(jù)平臺(tái):采用分布式存儲(chǔ)和集中式存儲(chǔ)相結(jié)合的結(jié)構(gòu),具備海量數(shù)據(jù)存儲(chǔ)處理能力。將數(shù)據(jù)采集層采集到的數(shù)據(jù),通過統(tǒng)一時(shí)標(biāo)、描述、分類處理后存儲(chǔ)在大數(shù)據(jù)平臺(tái)的實(shí)時(shí)數(shù)據(jù)庫、關(guān)系型數(shù)據(jù)庫及數(shù)據(jù)倉庫系統(tǒng)。在大數(shù)據(jù)平臺(tái)上運(yùn)行Hadoop、Spark、HBase、Kafka 等大數(shù)據(jù)組件。支持多種數(shù)據(jù)庫,包括工業(yè)實(shí)時(shí)數(shù)據(jù)庫、關(guān)系型數(shù)據(jù)庫、地理數(shù)據(jù)庫、分布式數(shù)據(jù)庫、非關(guān)系型數(shù)據(jù)庫、內(nèi)存數(shù)據(jù)庫等。
(2)關(guān)系型數(shù)據(jù)倉庫:可擴(kuò)展到PB 級別的MPP 架構(gòu)數(shù)據(jù)倉庫。業(yè)界領(lǐng)先的MPP 查詢引擎、列式存儲(chǔ)、智能索引、向量執(zhí)行;高度兼容SQL標(biāo)準(zhǔn),并提供庫內(nèi)分析、窗口函數(shù)等高級分析功能。數(shù)據(jù)倉庫性能卓越,針對PB 級數(shù)據(jù)查詢,毫秒級響應(yīng),同時(shí)兼容MySQL 協(xié)議,可與OBIEE、Tableau、Saiku 等BI 工具對接。
(3)時(shí)序數(shù)據(jù)庫:存儲(chǔ)時(shí)間序列數(shù)據(jù)的高性能數(shù)據(jù)庫,需擁有極高的數(shù)據(jù)壓縮能力、極優(yōu)的查詢性能,特別適用于物聯(lián)網(wǎng)場景。數(shù)據(jù)庫基于負(fù)載均衡和分布式存儲(chǔ)架構(gòu),提供極速的數(shù)據(jù)處理能力、按需的海量數(shù)據(jù)存儲(chǔ)能力、優(yōu)于傳統(tǒng)關(guān)系型數(shù)據(jù)庫數(shù)百倍的時(shí)序數(shù)據(jù)壓縮能力,大大節(jié)約存儲(chǔ)空間。
(4)空間數(shù)據(jù)庫:用來保存地理空間信息。
(5)數(shù)據(jù)基本上為結(jié)構(gòu)化數(shù)據(jù),保存在關(guān)系型數(shù)據(jù)庫中,方便使用SQL 進(jìn)行關(guān)聯(lián)查詢;煤礦采集信息的監(jiān)測監(jiān)控信息為按時(shí)間排序的監(jiān)控監(jiān)測數(shù)據(jù),保存到時(shí)序數(shù)據(jù)庫中;地圖等地理空間數(shù)據(jù)保存到空間數(shù)據(jù)庫中。
青龍煤礦大數(shù)據(jù)分析平臺(tái)選取Flink 流式計(jì)算方法,將定義好的計(jì)算部署到分布式節(jié)點(diǎn)上,實(shí)現(xiàn)數(shù)據(jù)實(shí)時(shí)同步和協(xié)同。Flink 以數(shù)據(jù)并行和流水線方式執(zhí)行任意批處理和流數(shù)據(jù)程序??勺远x監(jiān)測窗口設(shè)定規(guī)則,包括時(shí)間窗口、事件窗口、多種類型多個(gè)維度的窗口等,通過規(guī)則捕獲數(shù)據(jù)進(jìn)行計(jì)算,并將結(jié)果推送至Kafka 存儲(chǔ),實(shí)時(shí)刷新系統(tǒng)前端界面查看最新數(shù)據(jù)信息,數(shù)據(jù)可以解析到后臺(tái)服務(wù),后臺(tái)可將計(jì)算結(jié)果推送至postgres 關(guān)系型數(shù)據(jù)庫存儲(chǔ)。
青龍煤礦大數(shù)據(jù)平臺(tái)的數(shù)據(jù)治理是通過flume抽取源數(shù)據(jù)推送到kafka,通過解析器將數(shù)據(jù)存到hbase(phenix)、pgsql。首先在數(shù)采平臺(tái)配置采集任務(wù),通過Flume 數(shù)據(jù)采集數(shù)據(jù)到Kafka 中;在新建抽取任務(wù)中輸入自定義任務(wù)名稱,選擇抽取方式、依據(jù)標(biāo)準(zhǔn)、目標(biāo)系統(tǒng),源數(shù)據(jù)服務(wù)器IP 輸入需要抽取的文件所在服務(wù)器IP 地址,文件路徑輸入需要抽取文件所在的路徑,然后連接測試是否能連通,如果成功下一步可以查看抽取的源數(shù)據(jù)。
結(jié)果預(yù)覽可以查看數(shù)據(jù)創(chuàng)建時(shí)間、創(chuàng)建人、任務(wù)名稱、抽取目錄、目標(biāo)系統(tǒng)、狀態(tài),數(shù)據(jù)抽取到kafka 中,解析器解析kafka 中的數(shù)據(jù),將數(shù)據(jù)通過相應(yīng)的代碼邏輯分別存入到phenix,同步到hbase、pgsql、redis 中。
通過FTP 服務(wù)的方式,交換文件進(jìn)行數(shù)據(jù)上報(bào)。首先在數(shù)采平臺(tái)配置采集任務(wù),通過Flume 數(shù)據(jù)采集數(shù)據(jù)到Kafka 中,在數(shù)據(jù)共享中配置數(shù)據(jù)上報(bào)任務(wù),數(shù)據(jù)來源為數(shù)采平臺(tái)的采集配置選項(xiàng),選擇上級單位接收的文件類型:支持XML、TXT,維護(hù)上級單位提供的FTP 的服務(wù)器地址、端口、目標(biāo)路徑、用戶名、密碼,手動(dòng)測試是否可以連通,保存配置任務(wù)。
在上報(bào)任務(wù)管理列表中,可消費(fèi)Kafka 中的消息,系統(tǒng)根據(jù)配置的接收類型生成對應(yīng)的上級規(guī)定的文件規(guī)范的相關(guān)文件,通過FTP 把生成的文件上傳至上級單位指定的FTP 目錄。
青龍煤礦大數(shù)據(jù)分析平臺(tái)實(shí)現(xiàn)了煤礦基礎(chǔ)數(shù)據(jù)、安全管理數(shù)據(jù)、監(jiān)測監(jiān)控?cái)?shù)據(jù)、設(shè)備工況數(shù)據(jù)的全面采集,目前已集成21 套系統(tǒng),并實(shí)現(xiàn)與上級部門的聯(lián)網(wǎng)對接。通過數(shù)據(jù)采集平臺(tái)解決了各類系統(tǒng)數(shù)據(jù)零散、煙囪式運(yùn)行的問題,實(shí)現(xiàn)了從零散數(shù)據(jù)向多數(shù)據(jù)融合分析的跨越。
平臺(tái)采用先進(jìn)的數(shù)據(jù)融合技術(shù),通過對各生產(chǎn)子系統(tǒng)數(shù)據(jù)的采集、傳輸、綜合、過濾、相關(guān)及合成,對數(shù)據(jù)進(jìn)行融合分析,由傳統(tǒng)關(guān)系數(shù)據(jù)庫轉(zhuǎn)換為非關(guān)系數(shù)據(jù)庫,實(shí)現(xiàn)多應(yīng)用系統(tǒng)異構(gòu)數(shù)據(jù)的接入、數(shù)據(jù)打通、建立數(shù)據(jù)標(biāo)準(zhǔn),完成數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)準(zhǔn)管理、數(shù)據(jù)質(zhì)量管理。