楊 波,吳 寧
(陜西陜煤黃陵礦業(yè)有限公司,陜西 延安 727307)
煤礦綜采自動化技術(shù)對實現(xiàn)煤炭安全、高效的回采具有非常重要的意義,是國家經(jīng)濟發(fā)展所需煤炭供應的先決條件。國家“十五”“十一五”期間以來,我國煤炭開采技術(shù)及裝備取得重大進步,推動了煤礦安全高效綠色開采技術(shù)的發(fā)展,建成了一大批綜合機械化和高自動化程度的現(xiàn)代化礦井,生產(chǎn)效率、安全指標和煤炭產(chǎn)量大幅度提高[1-4]。國內(nèi)煤礦企業(yè)也在積極探索綜采自動化技術(shù)的研究,并進行了多方面的嘗試,取得了顯著進步。但由于綜采工作面復雜的生產(chǎn)過程,龐大的綜采設備系統(tǒng),各設備作業(yè)條件協(xié)同復雜,動作繁多,且對動作的邏輯順序、準確性、響應速度要求高,所以針對其監(jiān)控和管理面臨著各設備控制方式分散、無法實現(xiàn)快速、準確的協(xié)作,不能充分發(fā)揮設備性能,生產(chǎn)效率較低[5-8]。而且綜采工作面自動化系統(tǒng)以過程化控制為核心,與生產(chǎn)管理過程脫節(jié),未進行高效實時的實現(xiàn)信息的集成和互通,不能有效的對綜采關鍵設備進行管理,無法為生產(chǎn)管理者提供決策和建議。因此,綜采自動化系統(tǒng)的統(tǒng)一管理平臺應運而生,但對于智能化綜采管理平臺中多源異構(gòu)數(shù)據(jù)的處理仍需進一步探究。
現(xiàn)有的安全生產(chǎn)監(jiān)測監(jiān)控系統(tǒng),多是局部性、少量指標的檢測[9-11]。同時,因為生產(chǎn)廠商以及系統(tǒng)建設兩者在時期上存在差異,所有子系統(tǒng)在通信協(xié)議和接入技術(shù)上不能夠?qū)崿F(xiàn)統(tǒng)一,子系統(tǒng)之間存在較大的數(shù)據(jù)結(jié)構(gòu)差異,同時具有多源性和異構(gòu)性的特點。煤礦井下設備(包含各裝備、機器、儀器等電子設施)的數(shù)據(jù)采集均通過監(jiān)控系統(tǒng)直接從設備上采集。設備廠商對不同專業(yè)設備開發(fā)對應的監(jiān)控系統(tǒng)從設備上實時獲取數(shù)據(jù)。對煤礦而言,數(shù)據(jù)只能在監(jiān)控系統(tǒng)中查看,不能在其它系統(tǒng)中實時使用;對開發(fā)商來講,每個監(jiān)控系統(tǒng)既要負責數(shù)據(jù)的采集,又要負責數(shù)據(jù)的校驗、傳輸、共享,大部分功能重復開發(fā),造成系統(tǒng)臃腫,改動困難。而現(xiàn)有設備數(shù)據(jù)采集沒有統(tǒng)一的數(shù)據(jù)標準、采集標準,在使用采集數(shù)據(jù)時,需要根據(jù)每種提供的格式進行解析、轉(zhuǎn)換,增加了出錯機率與重復工作量。并且,現(xiàn)有設備所生成的數(shù)據(jù)格式多樣,包含結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。因此,多源異構(gòu)數(shù)據(jù)的處理就成為智能化綜采管理平臺運轉(zhuǎn)的核心引擎。
數(shù)據(jù)處理系統(tǒng)架構(gòu):智能化綜采管理平臺中數(shù)據(jù)來源十分廣泛,例如,運輸三機、采煤機等各種生產(chǎn)器械、電液控制等器械系統(tǒng)、各種傳感器的安全監(jiān)測數(shù)據(jù)、用戶操作行為數(shù)據(jù)、故障及報警數(shù)據(jù)等[12-14]。這些數(shù)據(jù)通過各自本身的監(jiān)控系統(tǒng)及各種終端設備直接傳輸?shù)皆贫?,由于各設備的生產(chǎn)廠商不同,且暫無統(tǒng)一的數(shù)據(jù)標準,所以采集的數(shù)據(jù)格式多樣,存在結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),形成多源異構(gòu)數(shù)據(jù),并存在重復數(shù)據(jù)的可能[15-17]。多源異構(gòu)數(shù)據(jù)處理系統(tǒng)架構(gòu),如圖1所示。
ETL:全名Extract-Transform-Load,是用來描述將數(shù)據(jù)從來源端經(jīng)過抽取(extract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程,同時也是構(gòu)建數(shù)據(jù)倉庫至關重要的一個環(huán)節(jié),用戶通過數(shù)據(jù)源抽取出自己需要的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終將數(shù)據(jù)按照預先定義好的數(shù)據(jù)倉庫模型加載到數(shù)據(jù)倉庫中去。其中數(shù)據(jù)清洗包含:①對不精確數(shù)據(jù)的清洗。首先就是要識別出數(shù)據(jù)中的異常。在識別數(shù)據(jù)中的異常時,最常用的方法就是統(tǒng)計學的方法。給每個屬性賦予對應的權(quán)重是它的核心思想,對每個屬性字段值的平均值和標準差進行統(tǒng)計,依據(jù)此為每一個屬性建立一個置信區(qū)間,通過查看屬性值是否在置信區(qū)間內(nèi)來判斷屬性是否異常;②重復數(shù)據(jù)的清洗。在數(shù)據(jù)倉庫中,最常見的數(shù)據(jù)質(zhì)量問題就包括相似重復數(shù)據(jù),不同系統(tǒng)的集成一般會導致大量重復記錄生成,因此需要判斷兩條數(shù)據(jù)是否相似或相同,從而對相似重復數(shù)據(jù)進行集中的清洗。
圖1 多源異構(gòu)數(shù)據(jù)處理系統(tǒng)架構(gòu)
根據(jù)數(shù)據(jù)集不同的特點和用途,采用不同的數(shù)據(jù)庫進行存儲操作。
Gbase/Oracle:Gbase和Oracle兩者都是SQL數(shù)據(jù)庫,都遵從SQL語句,語法也差不多。最大的區(qū)別是表結(jié)構(gòu)不同,Oracle是傳統(tǒng)行列式,小庫比較快,大庫靠索引提高效率。Gbase是分布式,數(shù)據(jù)不是按行列來排列而是按區(qū)塊分布的,所以小庫的速度一般般,但是大庫比如TB級,效率驚人,數(shù)據(jù)庫越大Gbase優(yōu)勢越明顯。因此采用Gbase和Oracle對高價值密度數(shù)據(jù)進行存儲及處理。
SQL on Hadoop:在SQL on Hadoop系統(tǒng)中,有兩種架構(gòu),一種是基于某個運行時,框架構(gòu)建出查詢引擎,典型案例是Hive;另一種是模仿過去關系數(shù)據(jù)庫的MPP架構(gòu),就是依據(jù)過去的MPP數(shù)據(jù)庫架構(gòu)創(chuàng)建一個專門的系統(tǒng),于是就有了Impala,Presto等等。Hive具有高擴展性的特點,能夠?qū)⒓旱囊?guī)模自由擴展,一般不需要重啟服務;還具有高延展性,支持用戶自定義函數(shù),用戶可以根據(jù)需求來實現(xiàn)自己的函數(shù);同時還具備高容錯性,SQL在節(jié)點出現(xiàn)差錯時仍可完成執(zhí)行;將復雜MR任務編寫為SQL語句,提高開發(fā)效率;靈活的數(shù)據(jù)存儲等。但是也存在非常明顯的缺點,具有延遲性,性能還有待提升;索引功能還不夠完善,效率較低;不支持事務類操作。因此將其作為低價值密度數(shù)據(jù)的數(shù)據(jù)倉庫。
MapReduce:MapReduce是一種編程模型,主要用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算。概念“Map(映射)”和“Reduce(歸約)”,是它們的主要思想,它具有從函數(shù)式編程語言以及從矢量編程語言里借來的特性。MapReduce對不會分布式并行編程情況下的程序人員提供了極大的便利,并能在分布式系統(tǒng)上運行自己的程序,是面向大數(shù)據(jù)并行處理的計算模型、框架和平臺。利用其并行計算的特點對低價值密度數(shù)據(jù)進行批量處理分析。
系統(tǒng)對于數(shù)據(jù)的處理分為高價值密度數(shù)據(jù)和低價值密度數(shù)據(jù)兩個部分。
低價值密度數(shù)據(jù)處理:數(shù)據(jù)的價值密度與數(shù)據(jù)量成反比,數(shù)據(jù)量越龐大,其價值密度越低。因此對于低價值密度的龐大數(shù)據(jù),利用MapReduce對大數(shù)據(jù)并行計算的能力,采用分布式隊列流式計算方法,進行數(shù)據(jù)管理和分析挖掘。低價值密度數(shù)據(jù)的數(shù)據(jù)管理包括Hadoop集群配置管理、應用管理、資源監(jiān)控、安全管理、告警管理等。分析挖掘則是利用分析挖掘算法庫中的自然語言、分類算法、推薦算法、聚類算法、關聯(lián)分析等算法對數(shù)據(jù)進行統(tǒng)計分析、效果監(jiān)控、反饋學習和系統(tǒng)監(jiān)控。
高價值密度數(shù)據(jù)處理:對于高價值密度數(shù)據(jù),由于其數(shù)據(jù)量相對較小可以進行更詳細的數(shù)據(jù)定義、數(shù)據(jù)篩選、分析定制和算法管理工作。
多源異構(gòu)數(shù)據(jù)處理系統(tǒng)目前已在智能化綜采管理平臺實現(xiàn)運行。通過持續(xù)數(shù)據(jù)采集,實現(xiàn)對生產(chǎn)設備的預警預判;通過數(shù)據(jù)的交叉分析,實現(xiàn)對各綜采自動化生產(chǎn)過程中的事件關聯(lián)性分析決策。通過數(shù)據(jù)的積累,豐富企業(yè)決策依據(jù);實現(xiàn)數(shù)據(jù)的保護以及數(shù)據(jù)存儲,讓生產(chǎn)數(shù)據(jù)具有繼承傳遞性。
多源異構(gòu)數(shù)據(jù)處理系統(tǒng)針對煤礦生產(chǎn)的數(shù)據(jù)特性,可實現(xiàn)各類多源異構(gòu)數(shù)據(jù)的高效傳輸,快速處理分析。此外,可以消除信息孤島,建立統(tǒng)一的數(shù)據(jù)傳輸網(wǎng)絡與數(shù)據(jù)處理中心;針對煤礦綜采的各個環(huán)節(jié)的數(shù)據(jù)采集,結(jié)合專家經(jīng)驗進行開采的安全性預判,進而對設備持續(xù)開采的周期壽命進行預警預判和自動分析。