霍 文,欒博鈺,周 偉,陸 翔,王春麗,周永利,趙彬宇
(1. 神華準(zhǔn)格爾能源有限責(zé)任公司 信息中心,內(nèi)蒙古 鄂爾多斯 010300;2. 中國礦業(yè)大學(xué) 礦業(yè)工程學(xué)院,江蘇 徐州 221116;3. 神華準(zhǔn)格爾能源有限責(zé)任公司 科學(xué)技術(shù)研究院,內(nèi)蒙古 鄂爾多斯 010300)
隨著環(huán)保要求的提高,國內(nèi)諸多露天煤礦裝備了環(huán)境監(jiān)測系統(tǒng),主要用于監(jiān)測PM2.5、PM10、TSP等環(huán)境指標(biāo).風(fēng)速等是影響粉塵質(zhì)量濃度的主要環(huán)境影響因素[1-2],但是單純監(jiān)測無法得到未來某環(huán)境因素影響下的粉塵質(zhì)量濃度,難以準(zhǔn)確通過增加灑水量等作業(yè)調(diào)節(jié)方式及時抑制高濃度粉塵.
機器學(xué)習(xí)算法是人工智能技術(shù)的核心技術(shù)之一,如神經(jīng)網(wǎng)絡(luò)、支持向量機、隨機森林等算法,挖掘潛藏在大數(shù)據(jù)之中的邏輯關(guān)系以實現(xiàn)對數(shù)據(jù)預(yù)測、圖像識別、自然語言處理等功能.李慧民[3]等提出一種基于隨機森林算法的采空區(qū)煤自燃預(yù)測模型,能夠可靠地預(yù)測采空區(qū)煤自燃溫度.鄧軍[4]等提出一種基于粒子群算法和BP神經(jīng)網(wǎng)絡(luò)的沖擊危險評估方法,用于評價沖擊礦壓危險程度. DAS S K[5]等通過神經(jīng)網(wǎng)絡(luò)建立了露天礦邊坡穩(wěn)定性預(yù)測模型,用于預(yù)測邊坡穩(wěn)定性系數(shù).黃婕[6]等基于卷積神經(jīng)網(wǎng)絡(luò)-循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN-CNN)深度學(xué)習(xí)網(wǎng)絡(luò)建立了PM2.5濃度預(yù)測模型,用以預(yù)測粉塵質(zhì)量濃度.李冬[7]等利用支持向量機算法建立了瓦斯含量預(yù)測模型,通過概率神經(jīng)網(wǎng)絡(luò)(PNN)反演算法得到了構(gòu)造煤分布情況.溫廷新[8]等基于遺傳算法-極限學(xué)習(xí)機(GA-ELM)算法建立了拋擲爆破預(yù)測模型預(yù)測拋擲爆破爆堆曲線.吳財芳[9]等采用BP神經(jīng)網(wǎng)絡(luò)建立了煤層氣井產(chǎn)能預(yù)測模型,預(yù)測煤層氣井產(chǎn)能.劉光偉[10]等將生物激勵神經(jīng)網(wǎng)絡(luò)運用到基于選線道路費用成本最優(yōu)化數(shù)值計算模型中,提高了運輸系統(tǒng)道路選線效果.
同種算法不同背景下的數(shù)據(jù)集無法使用相同參數(shù)建立同等有效的預(yù)測模型,必須通過參數(shù)調(diào)節(jié)等方法建立適用于目標(biāo)數(shù)據(jù)集的預(yù)測模型.本文以哈爾烏素露天煤礦環(huán)境監(jiān)測數(shù)據(jù)作為研究數(shù)據(jù)集,利用隨機森立算法建立適用于哈爾烏素露天煤礦的粉塵質(zhì)量濃度預(yù)測模型,并分析不同特征變量對粉塵質(zhì)量濃度的影響,為控制粉塵濃度提供理論基礎(chǔ).
研究數(shù)據(jù)來源于神華哈爾烏素露天煤礦舊觀禮臺粉塵監(jiān)測系統(tǒng),該監(jiān)測設(shè)備每間隔5 min同步監(jiān)測一次環(huán)境數(shù)據(jù),包含空氣溫度、空氣相對濕度、風(fēng)力、風(fēng)速、風(fēng)向、PM2.5、PM10、TSP等.推測噪聲一定程度上代表露天礦作業(yè)設(shè)備的出動情況,因此將噪聲作為預(yù)測模型特征變量之一,以便可以提高預(yù)測準(zhǔn)確性.
本研究選取2018年11月8日至2018年11月30日的數(shù)據(jù)作為研究數(shù)據(jù),總計6 336組.圖1為PM2.5、PM10、TSP隨時間變化曲線,3個曲線變化基本一致,具有較強相關(guān)性,數(shù)據(jù)具有一定浮動,但對整體變化趨勢影響較小.
圖1 粉塵質(zhì)量濃度變化 Fig.1 variation of dust mass concentration
為觀察數(shù)據(jù)之間的相關(guān)性,將PM2.5與其他特征變量繪制成圖2和圖3,不同特征變量與粉塵質(zhì)量濃度之間散點較為聚集,數(shù)據(jù)中離散數(shù)據(jù)相對較少,表現(xiàn)出良好的相關(guān)性,可以用于機器學(xué)習(xí)算法.
圖2 特征變量散點 Fig.2 scatter plot of characteristic variable
圖3 風(fēng)向統(tǒng)計 Fig.3 wind statistics
隨機森林算法是決策樹算法的一種集成學(xué)習(xí)算法,屬于非參數(shù)學(xué)習(xí)算法,具有良好的噪聲容忍度.決策樹是一種樹形結(jié)構(gòu)的決策算法,每一個葉節(jié)點代表一種決策條件,每一條分支代表一種決策結(jié)果.隨機森林算法能夠有效地在n個隨機子集上尋找最優(yōu)劃分特征的決策樹,通過加權(quán)投票方式克服決策樹對個別數(shù)據(jù)敏感度高與過擬合部分?jǐn)?shù)據(jù)集的缺點.隨機森林算法示意見圖4.
圖4 隨機森林算法示意 Fig.4 schematic of random forest algorithm
從圖2可知粉塵質(zhì)量濃度數(shù)據(jù)噪點較大,整體變化趨勢明顯,但局部數(shù)據(jù)浮動程度高,少數(shù)數(shù)據(jù)出現(xiàn)較大突變,理想中的粉塵質(zhì)量濃度變化應(yīng)當(dāng)是連續(xù)的曲線.因此為提高預(yù)測效果,對粉塵質(zhì)量濃度數(shù)據(jù)進(jìn)行降噪處理.
除兩端點以外的點與鄰近左右兩點的平均值做均值化,即
式中,i>1;Ci為第i個點降噪后粉塵質(zhì)量濃度,μg/m3;ci為第i個點降噪前粉塵質(zhì)量濃度,μg/m3.
為檢驗?zāi)P皖A(yù)測準(zhǔn)確度,將2018年11月8日至2018年11月24日之間的4 608組數(shù)據(jù)作為訓(xùn)練集,2018年11月24日至2018年11月30日之間1 728組數(shù)據(jù)作為測試集.
對訓(xùn)練集進(jìn)行降噪處理過程中,由于原始數(shù)據(jù)波動性較強,單次降噪后效果不明顯,需要多次迭代降噪.以100為單位對原始數(shù)據(jù)進(jìn)行迭代測試,以預(yù)測效果為評判標(biāo)準(zhǔn),當(dāng)?shù)螖?shù)為2 000時降噪效果最佳.降噪后效果見圖5,降噪后曲線可以很好地貼合原有數(shù)據(jù)的變化趨勢,達(dá)到了降噪的目的.
圖5 降噪數(shù)據(jù)對比 Fig.5 data comparison of noise reduction
采用網(wǎng)格搜索的方法對隨機森林模型進(jìn)行參數(shù)調(diào)整,對決策樹最大深度、節(jié)點最少樣本數(shù)、節(jié)點可分最小樣本數(shù)均在0~20進(jìn)行搜索,得出最優(yōu)超參數(shù),結(jié)果見表1.
表1 最優(yōu)超參數(shù) Tab.1 optimal hyperparameters
將測試集代入基于訓(xùn)練集建立的隨機森林預(yù)測模型進(jìn)行粉塵質(zhì)量濃度預(yù)測.預(yù)測模型評價指標(biāo)的均方根誤差為
式中,σ為均方根誤差;m為數(shù)據(jù)數(shù)量;p(xi)為預(yù)測值,μg/m3;yi為實測值,μg/m3.
表2為預(yù)測結(jié)果的RMSE.從表2結(jié)果來看,降噪后不同粉塵類型的預(yù)測準(zhǔn)確率均有所提高.
表2 預(yù)測結(jié)果 Tab.2 forecast results
隨機森林算法在建立不同決策樹時采取隨機且有放回的抽取方式,因此每一顆決策樹不會用到全部的訓(xùn)練數(shù)據(jù),未被使用的數(shù)據(jù)被稱為袋外數(shù)據(jù).特征變量重要性計算原理見式(3).
式中,F(xiàn)為特征變量重要性;E1i為第i棵決策樹袋外數(shù)據(jù)預(yù)測誤差,μg/m3;E2i為第i棵決策樹袋外數(shù)據(jù)噪聲化后預(yù)測誤差,μg/m3;ntree為決策樹數(shù)量.
圖6為粉塵質(zhì)量濃度預(yù)測結(jié)果,降噪后的曲線在降噪前預(yù)測結(jié)果偏離較大的位置得到了改善,主要體現(xiàn)在真實值局部數(shù)據(jù)突變的噪點,部分預(yù)測數(shù)據(jù)曲線更為穩(wěn)定,浮動較小,改善因局部數(shù)據(jù)噪點而導(dǎo)致的模型失真.降噪后除2018年11月24日以外的天數(shù)預(yù)測效果均有提高,2018年11月24日預(yù)測效果反而降低,主要原因在于隨機森林算法對數(shù)據(jù)的敏感性較高.
圖6 3種粉塵顆粒質(zhì)量濃度預(yù)測結(jié)果 Fig.6 prediction results of mass concentration of three dust particles
該計算原理是基于數(shù)據(jù)對預(yù)測準(zhǔn)確率的敏感性,若某一特征變量數(shù)據(jù)在加入噪聲后數(shù)據(jù)預(yù)測準(zhǔn)確率下降幅度較大,則認(rèn)為該特征變量重要性較強.
本研究特征變量重要性計算結(jié)果見圖7.這3種粉塵顆粒的影響因素整體趨勢相同,相對濕度最重要,且重要性遠(yuǎn)高于其他特征變量.風(fēng)向由于包括8種不同風(fēng)向,因此風(fēng)向重要性最低.
圖7 特征重要性 Fig.7 feature importance
比較3種粉塵顆粒特征重要性,PM10與TSP結(jié)果相近,比較之下相對濕度對PM2.5重要性相對更高,噪聲對PM2.5重要性相對較低.主要原因分析如下.
(1)相對濕度即空氣中的水含量,水霧可以有效的捕捉10~20 μm的粉塵顆粒,但1~10 μm的粉塵顆粒水霧難以捕捉[11],因此PM2.5對相對濕度敏感性高于PM10和TSP[1].
(2)噪音在一定程度上可以代表開采強度,PM2.5相較于PM10與TSP更容易逸散出礦坑[12],因此噪音對舊觀禮臺(礦坑邊緣)監(jiān)測得到的PM10與TSP影響更大.
基于環(huán)境數(shù)據(jù)通過隨機森林算法對哈爾烏素露天煤礦監(jiān)測點粉塵質(zhì)量濃度進(jìn)行預(yù)測研究,主要得出以下結(jié)論:
(1)哈爾烏素露天煤礦舊觀禮臺粉塵監(jiān)測點環(huán)境數(shù)據(jù),隨機森林方法可以對粉塵質(zhì)量濃度做出良好預(yù)測.
(2)對粉塵質(zhì)量濃度數(shù)據(jù)降噪處理可以提高整體模型預(yù)測準(zhǔn)確性.
(3)環(huán)境影響因素中的相對濕度是對預(yù)測效果影響最大的特征變量,其次是溫度、噪聲,風(fēng)速、風(fēng)力、風(fēng)向影響較小.