張 朝,馮 鋒
(寧夏大學(xué) 信息工程學(xué)院,寧夏 銀川 750021)
近年來,隨著我國科學(xué)技術(shù)的高速發(fā)展,煤礦生產(chǎn)百萬噸死亡率有了明顯下降,但與歐美發(fā)達(dá)國家相比,我國的煤礦管理水平還存在較大差距。在煤礦生產(chǎn)事故中,瓦斯事故所造成的傷亡占比是最高的,因此,眾多學(xué)者針對該領(lǐng)域開展了相關(guān)研究。劉浩等[1]給出了大數(shù)據(jù)背景下礦井水害案例庫系統(tǒng)建設(shè)方法,提高了煤礦水害防治的信息化水平;趙延超等[2]將大數(shù)據(jù)可視化分析引擎應(yīng)用到煤礦水害監(jiān)測預(yù)警系統(tǒng)中,在很大程度上滿足了水害數(shù)據(jù)監(jiān)控的展示需求;張洪亮[3]提出了基于大數(shù)據(jù)的煤礦違規(guī)行為識別系統(tǒng),以此助力煤礦企業(yè)在生產(chǎn)過程中及時消除安全隱患;張儉讓等[4]提出了基于云計(jì)算的礦井瓦斯監(jiān)測預(yù)警系統(tǒng),并且利用監(jiān)測數(shù)據(jù)特征進(jìn)行了瓦斯?jié)舛阮A(yù)警研究。此外,目前關(guān)于煤礦瓦斯的檢測研究也取得了不少成果。崔蘭超等[5]提出了基于無線傳感網(wǎng)絡(luò)的煤礦瓦斯監(jiān)測系統(tǒng),其可以實(shí)現(xiàn)遠(yuǎn)程預(yù)警;俎全江[6]提出了基于MCU 的煤礦瓦斯監(jiān)測系統(tǒng),該系統(tǒng)主要利用微處理器來實(shí)現(xiàn)井下數(shù)據(jù)的處理與分析,從而提高了煤礦安全生產(chǎn)的可靠性;賈佳等[7]提出了基于多元信息簇融技術(shù)的煤礦瓦斯監(jiān)測系統(tǒng)。綜上所述,已有研究主要是基于單一技術(shù)來實(shí)現(xiàn)對煤礦瓦斯數(shù)據(jù)的監(jiān)測,并且監(jiān)測數(shù)據(jù)的存儲和挖掘工作存在一定的局限性,因此,本文將物聯(lián)網(wǎng)、云計(jì)算和大數(shù)據(jù)技術(shù)相結(jié)合,構(gòu)建了新的煤礦瓦斯監(jiān)測預(yù)警模型,以期能夠彌補(bǔ)單一煤礦瓦斯監(jiān)測方法存在的弊端。
物聯(lián)網(wǎng)起源于媒體領(lǐng)域,被稱為信息技術(shù)產(chǎn)業(yè)的第三次革命。物聯(lián)網(wǎng)的主要作用是通過互聯(lián)網(wǎng)和傳感器將人與人、人與物、物與物按照約定協(xié)議連接起來,其主要包括傳感技術(shù)、RFID 技術(shù)、嵌入式系統(tǒng)、智能技術(shù)和納米技術(shù)等。在人們?nèi)粘Ia(chǎn)生活中,人與人、物與物之間時刻在產(chǎn)生數(shù)據(jù),這些數(shù)據(jù)又組成了大數(shù)據(jù)。物聯(lián)網(wǎng)技術(shù)處在數(shù)據(jù)時代的最前端,可以將現(xiàn)實(shí)世界與數(shù)字世界連接起來,其體系框架如圖1 所示。
圖1 物聯(lián)網(wǎng)技術(shù)體系框架圖
目前為止,大數(shù)據(jù)沒有統(tǒng)一的概念。麥肯錫全球研究所曾這樣定義:大數(shù)據(jù)是一種數(shù)據(jù)的集合,其獲取、管理、存儲和分析的能力遠(yuǎn)遠(yuǎn)超過傳統(tǒng)數(shù)據(jù)庫的規(guī)模[8]。大容量(large volumes)、多樣性(variety)、快速性(velocity)和準(zhǔn)確性(veracity)構(gòu)成了大數(shù)據(jù)的4V 特征。數(shù)據(jù)的可變性、復(fù)雜性和價(jià)值性又是大數(shù)據(jù)技術(shù)的主要特征。大數(shù)據(jù)技術(shù)鏈接著物聯(lián)網(wǎng)技術(shù)和云計(jì)算技術(shù),物聯(lián)網(wǎng)技術(shù)用于產(chǎn)生數(shù)據(jù),組成數(shù)據(jù)集合;云計(jì)算技術(shù)則負(fù)責(zé)分析、處理、挖掘大數(shù)據(jù)的規(guī)律和價(jià)值。
從狹義上講,云計(jì)算是一種提供分散資源的網(wǎng)絡(luò),“云”就是鏈接這些資源的網(wǎng)絡(luò);從廣義上講,云計(jì)算是一種網(wǎng)絡(luò)服務(wù),其將許多計(jì)算資源收集起來并組成一個資源集合,然后通過軟件來實(shí)現(xiàn)資源的調(diào)動與分配。云計(jì)算具有可虛擬化、動態(tài)可擴(kuò)展、靈活度高、可靠性高等特點(diǎn),其服務(wù)類型可分為基礎(chǔ)設(shè)施即分類、平臺即服務(wù)和軟件即服務(wù)[9]。云計(jì)算的技術(shù)框架如圖2 所示。
圖2 云計(jì)算技術(shù)框架圖
在煤礦生產(chǎn)過程中,工作人員會監(jiān)測到不同類型的數(shù)據(jù)。以寧夏寧東某煤礦為例,煤礦瓦斯監(jiān)測數(shù)據(jù)表現(xiàn)出以下特點(diǎn)。
(1)數(shù)據(jù)監(jiān)測點(diǎn)多。如該煤礦二號生產(chǎn)井的瓦斯監(jiān)測點(diǎn)多達(dá)138 處。
(2)數(shù)據(jù)整體穩(wěn)定。在安全生產(chǎn)過程中,各瓦斯監(jiān)測點(diǎn)的數(shù)據(jù)差異不大,較為穩(wěn)定。
(3)數(shù)據(jù)具有突變性。在生產(chǎn)過程中,煤礦瓦斯監(jiān)測數(shù)據(jù)整體呈穩(wěn)定狀態(tài);而當(dāng)開采面有瓦斯噴出時,監(jiān)測數(shù)據(jù)會發(fā)生突變。
2.2.1 數(shù)據(jù)預(yù)處理 瓦斯數(shù)據(jù)由礦井底部的傳感器采集而來。在數(shù)據(jù)采集過程中,環(huán)境及設(shè)備使用情況不確定等因素會造成一些臟數(shù)據(jù),而這些數(shù)據(jù)會進(jìn)入礦井采集數(shù)據(jù)集合。為了提高數(shù)據(jù)質(zhì)量,減少不必要的數(shù)據(jù)誤差,在數(shù)據(jù)送至云端之前,首先要對其進(jìn)行預(yù)處理。常用的數(shù)據(jù)預(yù)處理方法有數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)消減。具體如下。
(1)數(shù)據(jù)清洗。數(shù)據(jù)清洗主要面向3 種數(shù)據(jù):缺失數(shù)據(jù)、噪聲數(shù)據(jù)和不一致數(shù)據(jù)。在數(shù)據(jù)清洗過程中,對于缺失數(shù)據(jù),一般采用忽略記錄、手動補(bǔ)全、默認(rèn)值填補(bǔ)、均值填補(bǔ)等方式進(jìn)行處理;對于噪聲數(shù)據(jù),常用的數(shù)據(jù)處理方法有聚類分析法、回歸法、人機(jī)結(jié)合等;對于不一致數(shù)據(jù),通常情況下人們會利用數(shù)據(jù)與外部存在的某些聯(lián)系加以解決。
(2)數(shù)據(jù)集成。為了便于進(jìn)行數(shù)據(jù)的后續(xù)處理以及為數(shù)據(jù)處理工作提供完整的數(shù)據(jù)基礎(chǔ),系統(tǒng)需要將多個數(shù)據(jù)源數(shù)據(jù)組合成數(shù)據(jù)集合。然而在數(shù)據(jù)集成過程中,可能會出現(xiàn)數(shù)據(jù)模式集成、數(shù)據(jù)沖突檢測與消除、數(shù)據(jù)冗余等問題。
(3)數(shù)據(jù)轉(zhuǎn)換。采集或收集的數(shù)據(jù)往往會出現(xiàn)形式不規(guī)范等問題,因此,需要對這些數(shù)據(jù)進(jìn)行歸并以得到便于進(jìn)行數(shù)據(jù)處理的合法形式,這就是數(shù)據(jù)轉(zhuǎn)換。常見的數(shù)據(jù)轉(zhuǎn)換策略包括數(shù)據(jù)規(guī)格化處理、數(shù)據(jù)屬性構(gòu)造處理、數(shù)據(jù)離散化處理和數(shù)據(jù)泛化處理。
(4)數(shù)據(jù)消減。大規(guī)模數(shù)據(jù)處理會耗費(fèi)很多計(jì)算資源和時間,這種數(shù)據(jù)處理方式不宜用于需要及時得到分析結(jié)果的場景。數(shù)據(jù)消減就是對數(shù)據(jù)進(jìn)行“瘦身”的一種技術(shù),該技術(shù)可以對原有數(shù)據(jù)集進(jìn)行凝練,得到一個擁有原數(shù)據(jù)特征的精簡數(shù)據(jù)集,這樣不僅能夠提高數(shù)據(jù)挖掘效率,還能保證分析結(jié)果與原數(shù)據(jù)集基本相同。常見的數(shù)據(jù)消減方法有數(shù)據(jù)聚合、位數(shù)消減、數(shù)據(jù)壓縮和數(shù)據(jù)塊消減。
2.2.2 Hadoop 分布式計(jì)算平臺 Hadoop 分布式計(jì)算平臺具有高可靠性、高效性、高擴(kuò)展性、高容錯性及低成本等特點(diǎn),其可以合理調(diào)用計(jì)算資源,運(yùn)行大規(guī)模集群計(jì)算平臺[10]。分布式文件存儲系統(tǒng)(HDFS)和分布式離線計(jì)算框架(MapReduce)是Hadoop 分布式計(jì)算平臺的核心功能組件。其中,HDFS 具有能夠處理大數(shù)據(jù)、實(shí)現(xiàn)流式處理、在商用服務(wù)器上運(yùn)行等優(yōu)點(diǎn)[11]。在訪問應(yīng)用程序數(shù)據(jù)時,HDFS 具有較高的吞吐量,因此對于底層數(shù)據(jù)存儲系統(tǒng)來說,HDFS 是很好的選擇。MapReduce 可用于大規(guī)模數(shù)據(jù)集的并行操作,其核心思想是將輸入數(shù)據(jù)集切割成多個數(shù)據(jù)塊并將其分配給主節(jié)點(diǎn)下的各子節(jié)點(diǎn),然后完成數(shù)據(jù)的計(jì)算和處理,最后對各子節(jié)點(diǎn)的計(jì)算結(jié)果進(jìn)行積分以得到最終結(jié)果。Hadoop 平臺的生態(tài)系統(tǒng)如圖3 所示。
圖3 Hadoop平臺生態(tài)系統(tǒng)圖
本文提出的瓦斯預(yù)警模型采用了將麻雀搜索算法(SSA)和支持向量機(jī)(SVM)相結(jié)合的SSA-SVM預(yù)測算法,并且利用SSA 確定了支持向量機(jī)的懲罰因子c和核參數(shù)g。
2020 年,J.K.Xue 等[12]根據(jù)麻雀覓食習(xí)慣行為提出了麻雀搜索算法。該算法根據(jù)麻雀種群的特點(diǎn),將系統(tǒng)種群分為發(fā)現(xiàn)者、警惕者和探索者,其能夠搜尋到最適合模型的c和g,具有穩(wěn)定性好、搜索速度快等優(yōu)點(diǎn)。
支持向量機(jī)主要應(yīng)用于分類場景,最常見的是二分類問題,其最重要的參數(shù)是c和g。若參數(shù)選取不合適,會影響分類效果,而SSA-SVM 算法是基于SSA 良好的性能來確定c和g的。
SSA-SVM 算法流程圖見圖4,執(zhí)行步驟如下。
圖4 SSA-SVM算法流程圖
(1)根據(jù)采集數(shù)據(jù),選擇煤礦瓦斯預(yù)警模型的訓(xùn)練集和測試集并對數(shù)據(jù)進(jìn)行歸一化處理。
(2)設(shè)置SSA 初始參數(shù):最大迭代次數(shù)T、麻雀種群數(shù)量M。
(3)設(shè)置SVM 參數(shù)c和g的尋優(yōu)范圍。
(4)初始化麻雀種群并計(jì)算種群適應(yīng)度。
(5)迭代開始,更新c和g,計(jì)算適應(yīng)度值并記錄當(dāng)前最佳位置和最優(yōu)值。
(6)在給定的尋優(yōu)范圍內(nèi)判斷c和g是否尋優(yōu)完畢。若尋優(yōu)完畢,執(zhí)行步驟7;否則,執(zhí)行步驟5。
(7)當(dāng)系統(tǒng)達(dá)到最大迭代次數(shù)T時,尋優(yōu)結(jié)束,此時可以確定SSA-SVM 算法所需的最優(yōu)參數(shù);否則,返回步驟5,繼續(xù)迭代。
(8)算法結(jié)束。
本文提出的煤礦瓦斯預(yù)警模型主要由數(shù)據(jù)采集模塊、數(shù)據(jù)存儲和處理模塊、用戶模塊3 部分組成。
2.4.1 數(shù)據(jù)采集模塊 數(shù)據(jù)采集模塊主要由傳感器和通信網(wǎng)絡(luò)組成。通常情況下,各個礦井都要接入瓦斯?jié)舛?、溫度、濕度等傳感器,并且系統(tǒng)會通過通信傳輸網(wǎng)絡(luò)將傳感器采集的數(shù)據(jù)傳送至云處理服務(wù)器。以寧東某礦井為例,該礦井使用的數(shù)據(jù)傳感器多達(dá)138 組,每組包含甲烷(CH4)、二氧化碳(CO2)、一氧化碳(CO)、硫化氫(H2S)和溫度5 種傳感器,每次采集的數(shù)據(jù)量為690 個。若每分鐘記錄1 次采集數(shù)據(jù),每天將產(chǎn)生496 800 個數(shù)據(jù)。數(shù)據(jù)采集模塊示意圖如圖5 所示。表1 列舉了5 種傳感器在某一時間段內(nèi)所采集的部分監(jiān)測點(diǎn)數(shù)據(jù)。此外,為了保證數(shù)據(jù)的可靠性和生產(chǎn)安全性,值班人員會定期在監(jiān)測點(diǎn)進(jìn)行手工抄表并檢查設(shè)備的運(yùn)轉(zhuǎn)情況。
表1 部分采集數(shù)據(jù)
圖5 數(shù)據(jù)采集示意圖
煤礦瓦斯預(yù)警模型采用ZigBee 技術(shù)將采集到的數(shù)據(jù)傳輸?shù)降孛?。ZigBee 具有自組網(wǎng)能力強(qiáng)、自恢復(fù)能力強(qiáng)等特點(diǎn),可以用于礦井定位、追蹤、追溯等領(lǐng)域,其主要包括以下兩部分功能。
(1)網(wǎng)絡(luò)初始化:確定網(wǎng)絡(luò)協(xié)調(diào)器;信道掃描;設(shè)置網(wǎng)絡(luò)ID。
(2)節(jié)點(diǎn)加入:查找協(xié)調(diào)器;發(fā)送關(guān)聯(lián)請求命令;協(xié)調(diào)器處理;發(fā)送數(shù)據(jù)請求命令;回復(fù)確認(rèn)。
2.4.2 數(shù)據(jù)處理與存儲模塊 數(shù)據(jù)采集模塊從礦井中采集到大量數(shù)據(jù),系統(tǒng)需要對這些數(shù)據(jù)進(jìn)行處理和存儲。首先,系統(tǒng)將數(shù)據(jù)上傳至本地?cái)?shù)據(jù)庫,再對其進(jìn)行清理、整合、轉(zhuǎn)換和縮減操作;處理后的數(shù)據(jù)通過以太網(wǎng)傳輸?shù)皆破脚_,由Hadoop 平臺對這部分?jǐn)?shù)據(jù)進(jìn)行挖掘和分析;最后再將數(shù)據(jù)存儲在云端,并且系統(tǒng)會定時清理存儲數(shù)據(jù)。數(shù)據(jù)存儲和處理示意圖如圖6 所示。
圖6 數(shù)據(jù)存儲與處理示意圖
2.4.3 用戶模塊 用戶模塊是煤礦瓦斯預(yù)警模型的重要組成部分,煤礦安全生產(chǎn)狀態(tài)都是由該模塊呈現(xiàn)給用戶的。用戶模塊采用B/C 模式,具體包括登錄模塊、用戶管理模塊、環(huán)境預(yù)警模塊和環(huán)境監(jiān)測模塊(圖7)。其中,登錄模塊基于信息庫對訪問者進(jìn)行信息確認(rèn),判斷訪問者是否有權(quán)限進(jìn)入系統(tǒng),訪問者登錄成功后可以查看權(quán)限范圍內(nèi)的生產(chǎn)狀況;用戶管理模塊主要負(fù)責(zé)用戶權(quán)限下發(fā)和日常用戶信息維護(hù)等內(nèi)容,其中管理員擁有最高管理權(quán)限;環(huán)境預(yù)警模塊會根據(jù)監(jiān)測數(shù)據(jù)發(fā)出報(bào)警,并且其設(shè)有誤報(bào)警人為消除功能;環(huán)境監(jiān)測模塊的主要功能是通過傳感器對井下數(shù)據(jù)進(jìn)行采集并給出正常的參數(shù)范圍,該模塊采集的數(shù)據(jù)在經(jīng)過預(yù)處理后被傳至云端,用作數(shù)據(jù)挖掘與分析。用戶模塊操作流程圖如圖8所示。此外,本文提出的SSA-SVM 模型不但設(shè)有PC 端管理界面,而且還具有移動端管理程序,以便于管理人員隨時了解煤礦安全信息。
圖7 功能模塊圖
圖8 用戶操作流程圖
根據(jù)《煤礦安全規(guī)程》及礦井所測數(shù)據(jù),本文將預(yù)警等級分為4 級,如表2 所示。本實(shí)驗(yàn)共采用4 120 組數(shù)據(jù),其中訓(xùn)練集數(shù)據(jù)為4 000 組,每個預(yù)警等級的訓(xùn)練集數(shù)據(jù)為1 000 組;測試集數(shù)據(jù)為120 組,每個預(yù)警等級的測試集數(shù)據(jù)為30 組。
表2 模型預(yù)警等級
本次實(shí)驗(yàn)設(shè)置:M=20,T=20;g和c的尋優(yōu)范圍為2-5~25,并且得到最優(yōu)值c=28.236 1,g=32。實(shí)驗(yàn)結(jié)果如圖9 所示,SSA 適應(yīng)度曲線如圖10 所示。由圖9 和圖10 可知:SSA-SVM 算法對于邊界的數(shù)據(jù)分類存在一定的改進(jìn)空間;對于數(shù)據(jù)區(qū)分明顯的類別,該算法的預(yù)測準(zhǔn)確率達(dá)到91.667%,說明其性能良好。
圖9 實(shí)驗(yàn)結(jié)果
圖10 SSA適應(yīng)度曲線
本文基于物聯(lián)網(wǎng)、大數(shù)據(jù)和云計(jì)算技術(shù),提出了SSA-SVM 煤礦瓦斯預(yù)警模型。該模型的主要功能:對采集到的煤礦生產(chǎn)數(shù)據(jù)進(jìn)行預(yù)處理;將預(yù)處理后的數(shù)據(jù)傳輸至云端并對其進(jìn)行數(shù)據(jù)挖掘和分析;對實(shí)時數(shù)據(jù)進(jìn)行監(jiān)測,判定當(dāng)前生產(chǎn)環(huán)境下的煤礦瓦斯安全等級。本文提出的SSA-SVM 模型雖然具有較高的準(zhǔn)確率,但依然存在部分需要改進(jìn)的地方。如在SSA 中,初始值設(shè)置和群體數(shù)量是影響尋優(yōu)的關(guān)鍵環(huán)節(jié),如何保證參數(shù)的合理性是后續(xù)研究中值得思考的問題。此外,在煤礦生產(chǎn)中,一旦發(fā)生安全事故,首先要確定生產(chǎn)者的具體位置以便于幫助其快速逃生,而目前很多關(guān)于井下定位的研究只是對定位算法進(jìn)行了加權(quán)處理,沒有將環(huán)境因素對定位的影響考慮在內(nèi),因此存在不同程度的定位誤差,需要進(jìn)一步展開相關(guān)研究。