陳攀, 馬鑫民, 向俊杰, 陳莉影, 梁廳皓
(1. 中國礦業(yè)大學(xué)(北京) 力學(xué)與土木工程學(xué)院,北京 100083;2. 云南省水利水電勘測設(shè)計(jì)院有限公司,云南 昆明 650021)
巷道是煤礦井工開采的脈絡(luò),科學(xué)合理的煤巷圍巖穩(wěn)定性控制是保障煤礦安全高效開采的關(guān)鍵[1]。錨桿支護(hù)自1956年引入我國至今,得到了廣泛的應(yīng)用,已成為最主要的煤礦巷道支護(hù)方式[2]。隨著煤礦開采深度、范圍和強(qiáng)度的不斷增加,巷道支護(hù)面臨的條件逐漸復(fù)雜化,巷道支護(hù)設(shè)計(jì)繁瑣、效果差等問題日益突出[3]。
近年來,越來越多的專家學(xué)者將計(jì)算機(jī)智能設(shè)計(jì)方法應(yīng)用到煤巷支護(hù)領(lǐng)域,利用智能算法來實(shí)現(xiàn)巷道支護(hù)的合理、科學(xué)設(shè)計(jì)[4]。謝廣祥等[5]提出了通過構(gòu)建多級人工神經(jīng)網(wǎng)絡(luò)來確定錨桿支護(hù)的方式,優(yōu)化了支護(hù)參數(shù)。王茂源[6]采用模糊聚類對圍巖穩(wěn)定性進(jìn)行分類,采用神經(jīng)網(wǎng)絡(luò)算法實(shí)現(xiàn)了錨桿支護(hù)參數(shù)設(shè)計(jì)。王哲哲等[7]結(jié)合模糊理論與人工神經(jīng)網(wǎng)絡(luò)構(gòu)建評價(jià)模型,對圍巖穩(wěn)定性進(jìn)行分級,從而進(jìn)行巷道支護(hù)方案優(yōu)選。Xu Qingyun等[8]基于人工神經(jīng)網(wǎng)絡(luò)預(yù)測模型對圍巖進(jìn)行分類,構(gòu)建了決策系統(tǒng)的支持網(wǎng)絡(luò)模型,通過數(shù)值模擬和現(xiàn)場測試驗(yàn)證了該模型的可行性。Ren Heng等[9]為了評價(jià)神東礦區(qū)的圍巖穩(wěn)定性,添加動量項(xiàng)來修正BP神經(jīng)網(wǎng)絡(luò)的權(quán)值,進(jìn)一步提升了模型精度。Zhang Xiliang等[10]提出粒子群優(yōu)化(Particle Swarm Optimization,PSO)算法與人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)相結(jié)合的PSO-ANN模型來評價(jià)和預(yù)測巷道穩(wěn)定性,評價(jià)結(jié)果表明PSO-ANN模型可準(zhǔn)確評估巷道的穩(wěn)定性。
通過查閱大量參考文獻(xiàn),發(fā)現(xiàn)目前支持向量機(jī)(Support Vector Machine, SVM)、隨機(jī)森林(Random Forest, RF)等算法在巖土工程領(lǐng)域取得了很好的應(yīng)用效果[11-14],但在煤礦巷道支護(hù)領(lǐng)域應(yīng)用較少。為了全面研究不同的機(jī)器學(xué)習(xí)模型進(jìn)行支護(hù)參數(shù)設(shè)計(jì)的適用性,筆者建立了煤巷支護(hù)智能預(yù)測數(shù)據(jù)庫,將SVM、ANN、RF、AdaBoost(ADA)和樸素貝葉斯分類器(Naive Bayes Classififier,NBC)5種機(jī)器學(xué)習(xí)方法引入煤巷錨桿支護(hù)參數(shù)預(yù)測中,建立評價(jià)體系對模型的性能進(jìn)行評價(jià),驗(yàn)證機(jī)器學(xué)習(xí)方法在煤巷錨桿支護(hù)參數(shù)預(yù)測方面的可行性。
SVM是一種針對小樣本數(shù)據(jù)的機(jī)器學(xué)習(xí)模型[15]。以風(fēng)險(xiǎn)最小化原則將誤差風(fēng)險(xiǎn)控制到最小,通過核函數(shù)將在低維線性不可分的數(shù)據(jù)映射到高維空間,使線性內(nèi)積運(yùn)算非線性化,從而在高維空間尋找最優(yōu)分類超平面實(shí)現(xiàn)數(shù)據(jù)線性可分[16]。SVM尋找最優(yōu)超平面的過程實(shí)際上就是支持向量到超平面的間隔D最大化問題。
式中:ω為特征空間中的權(quán)向量;c為懲罰系數(shù);i為樣本個(gè)數(shù),i=1,2,…,n,n為樣本總個(gè)數(shù);ξi為損失函數(shù)。
SVM通過核函數(shù)將數(shù)據(jù)從低維空間轉(zhuǎn)換至高維空間,高斯核函數(shù)為空間中任一點(diǎn)xi到某一中心xj(j=1,2,…,n,j≠i)之間歐氏距離的單調(diào)函數(shù),可記作K(xi,xj),常被用于高維度、線性不可分的數(shù)據(jù)。
式中g(shù)為高斯核函數(shù)參數(shù)。
懲罰系數(shù)c表征對離群點(diǎn)的重視程度,即模型對錯(cuò)誤分類樣本的懲罰力度,c越大,懲罰力度越大,容易使模型過擬合;c取值太小,會使模型過于簡化,對錯(cuò)誤分類的樣本學(xué)習(xí)訓(xùn)練不夠,導(dǎo)致模型欠擬合。高斯核函數(shù)參數(shù)g決定了數(shù)據(jù)映射到新特征空間后的分布,通過函數(shù)的徑向范圍影響模型的計(jì)算速度。因此,懲罰系數(shù)c和高斯核函數(shù)參數(shù)g決定了高斯核SVM模型的整體性能。
傳統(tǒng)的SVM只能通過經(jīng)驗(yàn)或試錯(cuò)法來進(jìn)行懲罰系數(shù)c和高斯核函數(shù)參數(shù)g的選擇,只能尋找到局部最優(yōu)參數(shù),不能完全將SVM的性能體現(xiàn)出來。遺傳算法(Genetic Algorithm, GA)是通過計(jì)算機(jī)模擬自然界生物進(jìn)化過程的一種隨機(jī)化搜索算法,通過對群體中具有某種特征的個(gè)體進(jìn)行選擇、交叉和變異操作,生成新的群體,逐漸逼近最優(yōu)解[17]。
采用GA對SVM的懲罰系數(shù)c和高斯核函數(shù)參數(shù)g進(jìn)行全局尋優(yōu)。優(yōu)化的主要流程如圖1所示。GA先對懲罰系數(shù)c和高斯核函數(shù)參數(shù)g進(jìn)行編碼,解空間向編碼空間映射;生成初始種群,定義適應(yīng)度函數(shù)并計(jì)算個(gè)體初始適應(yīng)度;進(jìn)行選擇、交叉和變異操作,形成新的個(gè)體,并計(jì)算個(gè)體適應(yīng)度,重復(fù)進(jìn)行這一操作直到滿足終止條件;完成解碼,獲取最佳參數(shù)cbest和gbest。
圖1 GA對SVM超參數(shù)尋優(yōu)流程Fig. 1 GA optimization process for super parameters of SVM
根據(jù)巷道支護(hù)設(shè)計(jì)的需要,選擇頂板錨桿和幫部錨桿的直徑、長度、間距、排距和數(shù)量,將頂板錨索的直徑、長度、數(shù)量和布置方式作為輸出參數(shù),其中布置方式是錨索排距對頂板錨桿排距的倍數(shù)。煤礦巷道錨桿支護(hù)的影響參數(shù)涉及廣泛且復(fù)雜,將所有的參數(shù)都輸入到機(jī)器學(xué)習(xí)模型中容易加大模型的復(fù)雜度,導(dǎo)致模型過度擬合而失去泛化性,因此,對機(jī)器學(xué)習(xí)模型的輸入?yún)?shù)進(jìn)行精選十分必要。選擇影響參數(shù)時(shí)遵循獲取方便、可量化、物理意義明確、獨(dú)立性、普適性等要求,綜合我國目前的煤巷生產(chǎn)情況和錨桿支護(hù)理論,從圍巖參數(shù)、圍巖節(jié)理裂隙發(fā)育程度和巷道埋深及斷面尺寸3個(gè)方面選出12個(gè)參數(shù)作為機(jī)器學(xué)習(xí)的輸入?yún)?shù)。
1) 圍巖參數(shù)。對煤礦巷道進(jìn)行支護(hù)的根本目的是保持巷道暢通和圍巖穩(wěn)定,降低圍巖移動量,改善圍巖力學(xué)性質(zhì)。由此可見,圍巖參數(shù)對巷道變形與破壞的影響十分顯著。本文選擇煤層、基本頂、直接頂及直接底的厚度和強(qiáng)度表征巷道圍巖特性。
2) 圍巖節(jié)理裂隙發(fā)育程度。在圍巖內(nèi)部存在的節(jié)理、裂隙、層理等構(gòu)造對巖體的整體強(qiáng)度存在不同程度的影響,一般情況下,節(jié)理、裂隙多的巖體完整性較差,錨桿、錨索對巖體穩(wěn)定性的影響很大。
3) 巷道埋深及斷面尺寸。巷道埋深和斷面尺寸對圍巖支護(hù)有重要影響。垂直應(yīng)力隨著巷道開采深度的增加而逐漸增大,高地應(yīng)力情況下圍巖更易發(fā)生塑性破壞,保持圍巖穩(wěn)定性更加困難。另外,巷道的寬度和高度對圍巖穩(wěn)定性的影響也不可忽視。
1) 數(shù)據(jù)采集。為了保證煤巷支護(hù)數(shù)據(jù)的豐富性和數(shù)據(jù)來源的可靠性,采用現(xiàn)場調(diào)研、問卷調(diào)查和文獻(xiàn)檢索等方式收集2010—2022年的典型煤巷支護(hù)數(shù)據(jù),共157條。
2) 缺失值填補(bǔ)。在數(shù)據(jù)收集的過程中,無可避免地形成少量的數(shù)據(jù)缺失,在進(jìn)行數(shù)據(jù)分析前參照相同礦場類似的巷道對缺失值進(jìn)行填補(bǔ)。
3) 離群點(diǎn)處理。為了讓樣本滿足機(jī)器學(xué)習(xí)模型訓(xùn)練和測試要求,需統(tǒng)一數(shù)據(jù)的整體分布。通過數(shù)據(jù)箱形圖找出在樣本中出現(xiàn)明顯偏離大多數(shù)觀測值的個(gè)別值,如圖2所示。上四分位數(shù)加上1.5倍的四分位距為上限,下四分位數(shù)減去1.5倍的四分位距為下限,在上下限之外的點(diǎn)判定為離群點(diǎn),采用三角形將離群點(diǎn)標(biāo)出來,并采用極值化處理離群點(diǎn):偏大值修改為箱形圖極大值,偏小值修改為箱形圖極小值。
圖2 原始數(shù)據(jù)的箱形圖Fig. 2 Box diagram of the original data
4)異常樣本剔除。采用局部異常因子(Local Outlier Factor,LOF)對數(shù)據(jù)離群樣本進(jìn)行檢測[18]。LOF是一種基于樣本局部密度檢測識別離群樣本的經(jīng)典算法,通過計(jì)算樣本點(diǎn)的局部密度量化每一個(gè)樣本點(diǎn)的異常程度,樣本點(diǎn)的異常程度取決于樣本點(diǎn)與周圍點(diǎn)的局部密度比較。LOF算法步驟:① 計(jì)算樣本點(diǎn)p的第k距離領(lǐng)域,即與點(diǎn)p相距最近的k個(gè)點(diǎn)的集合。② 計(jì)算點(diǎn)p與點(diǎn)p的第k距離領(lǐng)域內(nèi)各點(diǎn)的可達(dá)距離,其中,點(diǎn)p到點(diǎn)o的可達(dá)距離為點(diǎn)o的k鄰近距離和點(diǎn)p與點(diǎn)o之間的直接距離的最大值。③ 計(jì)算點(diǎn)p的局部可達(dá)密度,即樣本點(diǎn)p與它的第k距離領(lǐng)域內(nèi)各點(diǎn)的平均可達(dá)距離的倒數(shù)。④ 對每個(gè)點(diǎn)的第k局部可達(dá)密度進(jìn)行比較并排序。樣本點(diǎn)的第k局部可達(dá)密度越大,表明它的異常程度越小,反之,異常程度越大。
在不同k值下使用LOF算法進(jìn)行7次檢測,取每個(gè)k值下異常程度最高的10個(gè)樣本,結(jié)果見表1。7次檢測中出現(xiàn)次數(shù)不少于4的樣本被確定為異常樣本??煽闯?0個(gè)異常樣本為33,84,105,124,151,75,14,129,25,109,將10個(gè)異常樣本被剔除,剩余147個(gè)樣本組成煤巷支護(hù)智能設(shè)計(jì)數(shù)據(jù)庫。
表1 基于LOF的異常樣本檢測結(jié)果Table 1 Test results of abnormal samples based on local outlier factor(LOF)
為便于模型的學(xué)習(xí)訓(xùn)練和測試,從數(shù)據(jù)庫中隨機(jī)抽取80%(117組)的數(shù)據(jù)作為訓(xùn)練集,剩余20%(30組)的數(shù)據(jù)作為測試集。訓(xùn)練集中各支護(hù)參數(shù)的頻數(shù)統(tǒng)計(jì)結(jié)果見表2、表3和表4,各輸入?yún)?shù)的分布統(tǒng)計(jì)情況如圖3所示。
表2 頂板錨桿支護(hù)參數(shù)統(tǒng)計(jì)Table 2 Statistics of roof anchor bolt support parameters
表4 幫部支護(hù)參數(shù)統(tǒng)計(jì)Table 4 Side support parameter statistics
圖3 訓(xùn)練集輸入?yún)?shù)分布統(tǒng)計(jì)Fig. 3 Distribution statistics of input parameters of training set
由表2、表3和表4可知,支護(hù)參數(shù)是不均衡的類分布,存在某一類或某幾類樣本數(shù)量顯著少于其他類別的情況,這會降低模型對少數(shù)樣本的擬合。采用SMOTE對數(shù)據(jù)進(jìn)行類平衡處理。SMOTE是基于隨機(jī)過采樣算法的一種改進(jìn)方案,若2個(gè)同類樣本間的歐氏距離足夠近,則SMOTE假設(shè)這2個(gè)樣本之間的樣本與這2個(gè)樣本同類[19]。SMOTE平衡樣本流程如圖4所示。根據(jù)樣本不平衡比例確定采樣倍率b;隨機(jī)選取一個(gè)少數(shù)類樣本X,計(jì)算與其他樣本間的歐氏距離,并找出樣本X的k個(gè)同類近鄰樣本;在每個(gè)少數(shù)類樣本X的k個(gè)同類近鄰樣本中隨機(jī)選取一個(gè)樣本m;在m和X之間的連線上隨機(jī)選取一個(gè)點(diǎn)作為新的少數(shù)類樣本X′,重復(fù)以上步驟,直到少數(shù)類樣本滿足采樣倍率b,輸出最終的數(shù)據(jù)集。
圖4 SMOTE平衡樣本流程Fig. 4 Sample balancing flow by SMOTE
式中r(·)為隨機(jī)函數(shù)。
最終訓(xùn)練集中的各個(gè)特征向量具有不同的量綱和單位,采用Z-score標(biāo)準(zhǔn)化方法將數(shù)據(jù)轉(zhuǎn)換為均值為0、標(biāo)準(zhǔn)差為1的數(shù)據(jù)。采用式(4)對最終訓(xùn)練集進(jìn)行處理。
式中:y為標(biāo)準(zhǔn)化后的值;ai為特征值;為特征均值。
煤巷支護(hù)數(shù)據(jù)庫的整體流程如圖5所示。首先通過現(xiàn)場調(diào)研、問卷調(diào)查和文獻(xiàn)檢索等方式收集煤巷支護(hù)技術(shù)資料;然后采用缺失值填補(bǔ)、離群點(diǎn)處理及異常樣本剔除等方式對數(shù)據(jù)進(jìn)行清洗處理,建立煤巷支護(hù)數(shù)據(jù)庫;最后按照8∶2的比例將數(shù)據(jù)庫中的數(shù)據(jù)分成訓(xùn)練集與測試集,并采用SMOTE平衡訓(xùn)練樣本,經(jīng)標(biāo)準(zhǔn)化處理后即可用來訓(xùn)練和測試模型。
圖5 煤巷支護(hù)數(shù)據(jù)庫的整體構(gòu)建流程Fig. 5 The overall building process of the coal roadway support database
選用GA算法對SVM參數(shù)進(jìn)行全局尋優(yōu)[20]。GA參數(shù)設(shè)置:種群規(guī)模為50,直接復(fù)制到下一代的染色體數(shù)量為20%,交叉概率為0.8,變異概率為0.01,繁殖次數(shù)為300,采用精確度作為模型適應(yīng)度函數(shù)。設(shè)置懲罰系數(shù)c和高斯核函數(shù)參數(shù)g的尋優(yōu)范圍分別為[0,10]和[0,200]。GA生成初始群體并計(jì)算初始適應(yīng)度,然后通過選擇、交叉、變異等操作,經(jīng)過設(shè)定繁殖次數(shù)或個(gè)體適應(yīng)度滿足要求后終止計(jì)算,將得到的最大適應(yīng)度作為全局最優(yōu)解輸出。通過GA優(yōu)化后,確定各模型的最佳超參數(shù)組合cbest和gbest,結(jié)果見表5。
表5 GA全局尋優(yōu)結(jié)果Table 5 Global optimization results of GA
SMOTE-GA-SVM支護(hù)參數(shù)預(yù)測模型建立流程如圖6所示。
圖6 SMOTE-GA-SVM支護(hù)參數(shù)預(yù)測模型建立流程Fig. 6 SMOTE-GA-SVM supporting parameter prediction model establishment process
首先建立煤巷錨桿支護(hù)數(shù)據(jù)庫;然后通過SMOTE平衡樣本、數(shù)據(jù)標(biāo)準(zhǔn)化和GA超參數(shù)尋優(yōu)等步驟優(yōu)化改進(jìn)SVM支護(hù)參數(shù)預(yù)測模型的性能;最后經(jīng)過模型訓(xùn)練和測試建立滿足精度要求的SMOTEGA-SVM支護(hù)參數(shù)預(yù)測模型。
RF是一種集成學(xué)習(xí)算法,因其優(yōu)越的性能成為一種流行的分類算法[21]。RF的樹構(gòu)建過程允許特征之間的交互作用和高度相關(guān)性,可量化輸入變量對于模型的重要程度。各指標(biāo)對支護(hù)設(shè)計(jì)的重要程度排序如圖7所示。可看出裂隙發(fā)育程度是最重要的指標(biāo),直接底厚度對模型的貢獻(xiàn)度最小,這為支護(hù)設(shè)計(jì)時(shí)的變量選擇提供了參考。
圖7 輸入變量在支護(hù)參數(shù)預(yù)測模型上的重要性Fig. 7 Importance of input variables in support parameter prediction model
ANN是應(yīng)用最為廣泛的機(jī)器學(xué)習(xí)算法之一,輸入層、隱藏層和輸出層共同組成了ANN結(jié)構(gòu),其中,輸入層和輸出層的結(jié)構(gòu)由模型的輸入?yún)?shù)和輸出參數(shù)決定,不可改變,調(diào)整隱藏層的結(jié)構(gòu)能顯著改變模型的性能。通過試錯(cuò)法確定了隱藏層結(jié)構(gòu)為9-7時(shí)模型性能最好。為了提高網(wǎng)絡(luò)性能,采用GA對ANN的權(quán)重和偏差進(jìn)行優(yōu)化。其中,GA參數(shù)設(shè)置與SMOTE-GA-SVM模型一致。另外,ANN模型采用支持回溯的彈性反向傳播算法,設(shè)置誤差學(xué)習(xí)率為0.01,以Sigmoid函數(shù)作為激活函數(shù),模型最大迭代次數(shù)為1 000。同時(shí),對模型進(jìn)行10倍交叉驗(yàn)證,每次模型的初始權(quán)重都不一樣,一定程度上避免出現(xiàn)局部最優(yōu)解。構(gòu)建的頂板錨桿間距GA-ANN預(yù)測模型的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)如圖8所示,其中,I1-I12為輸入指標(biāo),H1-H9為隱藏層神經(jīng)元,O為輸出層,B為偏差,線條顏色和粗細(xì)分別代表不同的權(quán)值和偏差。
ADA是在Boosting基礎(chǔ)上的一種優(yōu)化算法。ADA在面對多分類問題時(shí),通過不斷調(diào)整錯(cuò)誤樣本的權(quán)重迭代升級,一定程度上避免了模型過擬合。
NBC算法是一種采用最大似然估計(jì)對樣本進(jìn)行概率分類的算法,通過求解樣本在各個(gè)類別下的概率進(jìn)行求解。
采用分類精度來評價(jià)支護(hù)參數(shù)預(yù)測模型在測試集上的性能,分類精度為模型在測試集上正確分類樣本數(shù)與總樣本數(shù)的比值。建立的所有機(jī)器學(xué)習(xí)模型在測試集上的分類精度見表6??煽闯鯯MOTEGA-SVM模型的表現(xiàn)最佳,每一個(gè)支護(hù)參數(shù)的分類精度均超過75%,模型平均分類精度達(dá)到83.8%。ADA模型在預(yù)測幫部錨桿間距時(shí)表現(xiàn)最差,分類精度只有37.6%;SMOTE-GA-SVM模型預(yù)測錨索長度時(shí)表現(xiàn)最佳,分類精度達(dá)到93.5%。SMOTE-GA-SVM模型在處理樣本類不均衡數(shù)據(jù)集的問題上性能更加強(qiáng)大,平均分類精度較傳統(tǒng)的SVM模型提高了21.8%。在SMOTE和GA的優(yōu)化改進(jìn)下,SVM模型整體性能有了較大提高??梢?,SMOTE方法可作為處理樣本類不均衡的有效方法,GA對SVM模型的超參數(shù)有很好的全局尋優(yōu)能力。且SMOTE-GA-SVM模型優(yōu)于其他模型,平均分類精度達(dá)83.8%;ADA在測試集上的性能最低,精度為60.5%。預(yù)測模型分類精度排序?yàn)镾MOTE-GA-SVM、RF、GA-ANN、SVM、NBC、ADA,6種模型的平均分類精度達(dá)69.9%。
表6 機(jī)器學(xué)習(xí)模型在測試集上的分類精度Table 6 Classification precision of machine learning model on test set%
為了驗(yàn)證基于SMOTE-GA-SVM的煤巷支護(hù)參數(shù)預(yù)測模型在工程實(shí)踐中的適用性和可靠性,在山西霍寶干河煤礦的4條巷道進(jìn)行了實(shí)際工程驗(yàn)證,巷道的特征參數(shù)見表7。對巷道特征參數(shù)進(jìn)行Z-score標(biāo)準(zhǔn)化,并將其輸入已經(jīng)建立好的基于SMOTEGA-SVM的煤巷支護(hù)參數(shù)預(yù)測模型中,通過模型計(jì)算得到巷道的錨桿、錨索支護(hù)參數(shù),結(jié)果見表8。
表7 霍州礦區(qū)干河煤礦的特征參數(shù)Table 7 Characteristic parameters of Ganhe Coal Mine in Huozhou Mining area
表8 SMOTE-GA-SVM模型應(yīng)用結(jié)果Table 8 Application result of SMOTE-GA-SVM model
由表8可知,2-1261巷實(shí)際采用的錨桿、錨索支護(hù)參數(shù)與SMOTE-GA-SVM模型計(jì)算結(jié)果一致,2-1161巷和2-1021巷都有2個(gè)參數(shù)預(yù)測錯(cuò)誤,三采區(qū)輔助運(yùn)輸巷有3個(gè)參數(shù)預(yù)測錯(cuò)誤,4條巷道的56個(gè)支護(hù)參數(shù)中預(yù)測結(jié)果與真實(shí)值相同的有49個(gè),模型預(yù)測的正確率為87.5%。其中,SMOTE-GASVM模型錯(cuò)誤預(yù)測的7個(gè)參數(shù)都被預(yù)測為相鄰類別的參數(shù),相對誤差較小。由此可見,SMOTE-GASVM模型能夠很好地掌握巷道特征參數(shù)到錨桿、錨索支護(hù)參數(shù)的非線性映射能力,具有較強(qiáng)的適用性和可靠性,對煤巷錨桿、錨索支護(hù)參數(shù)設(shè)計(jì)具有一定的參考價(jià)值。
1) 建立了煤巷支護(hù)智能預(yù)測數(shù)據(jù)庫。采用現(xiàn)場調(diào)研、問卷調(diào)查和文獻(xiàn)檢索等方式收集煤礦巷道樣本;采用缺失值填補(bǔ)、箱形圖修改離群點(diǎn)和LOF剔除異常樣本等方式對數(shù)據(jù)進(jìn)行處理后,建立煤巷支護(hù)智能預(yù)測數(shù)據(jù)庫。
2) 提出一種基于SMOTE-GA-SVM的煤巷支護(hù)參數(shù)預(yù)測模型,該模型在訓(xùn)練前采用SMOTE方法平衡訓(xùn)練集中類別不平衡的樣本,提高模型對少數(shù)類樣本的擬合能力;訓(xùn)練過程中使用GA對超參數(shù)進(jìn)行全局尋優(yōu),進(jìn)一步提高了模型整體性能。測試結(jié)果表明,基于SMOTE-GA-SVM的煤巷支護(hù)參數(shù)預(yù)測模型的分類精度達(dá)83.8%,比傳統(tǒng)的SVM模型提高了21.8%。
3) 將ANN、RF、ADA和NBC引入煤巷支護(hù)參數(shù)預(yù)測中,建立對應(yīng)的支護(hù)參數(shù)預(yù)測模型。結(jié)果顯示,從最優(yōu)到最差的預(yù)測模型排名分別為SMOTEGA-SVM、RF、GA-ANN、SVM、NBC和ADA,驗(yàn)證了機(jī)器學(xué)習(xí)方法在煤巷支護(hù)參數(shù)預(yù)測方面的可行性。
4) 在山西霍寶干河煤礦的4條巷道對SMOTEGA-SVM模型進(jìn)行了應(yīng)用,模型預(yù)測準(zhǔn)確率達(dá)到87.5%,具有較強(qiáng)的適用性和可靠性。