程 勇, 王 琛, 劉夏臨, 3, 劉繼國, 3, 陳世紀, 黃 勝
(1. 中交第二公路勘察設(shè)計研究院有限公司, 湖北 武漢 430056; 2. 中國交建總承包經(jīng)營分公司, 北京 100088; 3. 中國交建隧道與地下空間工程技術(shù)研發(fā)中心, 湖北 武漢 430056; 4. 中山大學(xué)土木工程學(xué)院, 廣東 珠海 519082)
隨著我國西部大開發(fā)發(fā)展戰(zhàn)略的不斷推進,西部各類基礎(chǔ)設(shè)施也在不斷改進[1]。然而,西部地區(qū)地質(zhì)情況復(fù)雜,工程建設(shè)和安全面臨著較大的挑戰(zhàn)[2-3],例如: 在隧道建設(shè)中,新疆某些地區(qū)的地應(yīng)力高、溫度低、地震烈度高、海拔高和斷裂帶多等特征給施工帶來了極大的困難[4]。因此,隧道建設(shè)前期的勘察工作尤為關(guān)鍵。目前,常用的勘察手段主要是垂直孔勘察。然而這一方法有一定的局限性,水平定向鉆探作為新的勘察手段可在一定程度上彌補垂直孔勘察的不足[5-6],同時,水平定向鉆探施工工作量少,且可以更加真實地反映隧道內(nèi)的地質(zhì)情況[7]。
隨鉆測量 (measurement while drilling,MWD)是水平定向鉆鉆進中應(yīng)用鉆孔過程監(jiān)測技術(shù)獲取鉆機工作參數(shù)(如推進壓力、轉(zhuǎn)速、轉(zhuǎn)矩、鉆進速率等)的測量技術(shù),在多參數(shù)自動獲取方面具有巨大優(yōu)勢。自20世紀六七十年代以來,研究人員就開始了鉆進參數(shù)與巖石可鉆性指標之間的相關(guān)性研究[8-9],目前已有大量研究成果。對于長距離水平定向鉆,主要依靠取芯或巖屑試驗來判別圍巖巖性,但這2種方法效率低、成本高。
機器學(xué)習(xí)方法是目前人工智能學(xué)習(xí)研究的熱點課題,它的目標在于使機器在大量數(shù)據(jù)中學(xué)習(xí)規(guī)律,以便對新任務(wù)具有分析和解決的能力。很多研究致力于使用各種鉆進參數(shù)來預(yù)測圍巖相關(guān)信息。李哲等[10]使用水平鉆孔進行隧道的超前地質(zhì)預(yù)報,通過轉(zhuǎn)矩、轉(zhuǎn)速、推進壓力、鉆進速度4個物理量提出鉆進功速比概念,并證明了鉆進功速比與隧道圍巖巖性、結(jié)構(gòu)面有很好的響應(yīng)特征。Schunnesson[11]通過監(jiān)測采集到了沖擊鉆進過程中的鉆速、轉(zhuǎn)速、推進力和轉(zhuǎn)矩,有效預(yù)報了巖體的圍巖類別及其結(jié)構(gòu)特征。Mostofi等[12]通過現(xiàn)場測試得到的鉆頭轉(zhuǎn)矩、轉(zhuǎn)速、進尺速率、鉆頭質(zhì)量對地層單軸抗壓強度、彈性模量、剪切模量進行預(yù)測,并采用K-Means聚類算法對地層進行劃分。王琦等[13]使用自主研發(fā)的巖石鉆探系統(tǒng)開展了不同強度完整巖石的數(shù)字鉆探試驗,通過鉆探試驗結(jié)果建立了鉆進參數(shù)與巖石單軸抗壓強度的定量關(guān)系模型,該模型與單軸壓縮試驗結(jié)果的差異率平均值小于10%,證明了該模型的科學(xué)性。房昱緯等[14]使用神經(jīng)網(wǎng)絡(luò)對楚大公路九頂山隧道超前鉆探測試數(shù)據(jù)進行識別,涉及到的特征值為水平定向鉆參數(shù)(鉆速、轉(zhuǎn)矩、推進力和轉(zhuǎn)速),結(jié)果證明了采用神經(jīng)網(wǎng)絡(luò)模型進行地層識別的科學(xué)性和有效性。陳湘生等[15]指出,機器學(xué)習(xí)具有分析數(shù)據(jù)能力強、無需依靠先驗的理論公式和專家知識等優(yōu)勢,可以通過收集盾構(gòu)工程的相關(guān)參數(shù)來對圍巖信息進行反演。然而,盾構(gòu)施工相關(guān)數(shù)據(jù)是在工程施工階段收集的,反演的圍巖信息不能用于設(shè)計階段,存在數(shù)據(jù)應(yīng)用滯后的問題。王玉杰等[16]基于數(shù)字鉆進技術(shù)建立了鉆進參數(shù)與巖塊單軸抗壓強度之間的定量關(guān)系,可以準確且快速地測量巖塊單軸抗壓強度。由于圍巖的巖性與其硬度等相關(guān),因此鉆進參數(shù)與硬度也存在一定的關(guān)系,所以本文采用水平定向鉆鉆進相關(guān)參數(shù)預(yù)測圍巖巖性。
針對目前基于水平定向鉆鉆進參數(shù)進行巖性識別研究的不足,本文依托新疆某隧道工程勘察項目,選取232組鉆探數(shù)據(jù)并進行預(yù)處理,基于KNN(k-nearest neighbor)[17-18]和隨機森林算法(random forests,RF)[19]2種監(jiān)督學(xué)習(xí)算法,構(gòu)建適用于水平定向鉆鉆進數(shù)據(jù)的機器學(xué)習(xí)模型,最終形成隧道圍巖判別評價方法,以期為隧道地質(zhì)勘察與圍巖分類評價提供一種新的思路。
某公路隧道是烏尉高速公路的重要一環(huán),是連接烏魯木齊和尉犁的縱向大通道,也是新疆南北貿(mào)易往來的通道。隧道全長22.69 km,最大埋深為1 112.66 m。隧道施工面臨高地應(yīng)力、高寒、高地震烈度、高海拔和多斷裂帶等問題,施工過程中發(fā)生巖爆的可能性極高,且?guī)r爆最大的破壞力可達到中級地震的程度。因此,對隧道沿線工程地質(zhì)進行準確、詳細的勘察非常必要。隧道區(qū)位圖如圖1所示。
圖1 隧道區(qū)位圖
隧道進口處至1 593 m鉆孔內(nèi)巖屑均為凝灰質(zhì)砂巖,灰綠色,礦物成分以石英、長石、云母為主,巖性無較大的變化;1 594~1 750 m鉆孔內(nèi)巖屑為凝灰質(zhì)砂巖與花崗閃長巖混合;1 751~2 024 m鉆孔內(nèi)巖屑中開始出現(xiàn)碳質(zhì)板巖顆粒,返漿池漿液顏色由土黃色變?yōu)楹谏?2 025~2 063 m鉆孔內(nèi)巖屑中石英與片狀巖屑含量增多;2 064~2 271 m鉆孔內(nèi)巖屑中石英與長石含量逐漸增多。簡化后的勘察成果圖如圖2所示,隧道巖性分布如表1所示。
表1 隧道巖性分布
(a) 俯視圖
水平定向鉆進技術(shù)用于隧道地質(zhì)勘察時,隨鉆測量系統(tǒng)一般可以測量鉆頭深度、鉆進速度、鉆進壓力、泥漿流量和泥漿壓力等參數(shù)。鉆進時鉆桿推力和轉(zhuǎn)矩提供鉆頭破巖動力,同時帶壓循環(huán)泥漿為鉆頭旋轉(zhuǎn)提供動力。根據(jù)工作原理分析可知,鉆進壓力、鉆進速度、泥漿壓力和進漿流量均與鉆頭破碎圍巖的過程相關(guān)。這些鉆進參數(shù)可以反映圍巖的相關(guān)硬度、節(jié)理裂隙等信息。
將水平定向鉆用于地質(zhì)勘察時,因為在鉆頭處安裝傳感器可能會影響到鉆進的效率,所以水平定向鉆施工中收集到的參數(shù)多數(shù)為地面處測量的數(shù)據(jù)。由于鉆孔設(shè)計軌跡是彎曲的,且鉆桿與孔壁、鉆桿與鉆井液存在摩擦,鉆孔底部處的壓強與地面的實測鉆壓會有一定的差異。因此,在采用機器學(xué)習(xí)識別圍巖巖性之前需要計算出鉆孔底部處的壓強,使用鉆孔底部的壓強可以更準確地反映鉆孔底部的實際情況。綜上分析,選用鉆孔底部壓強、鉆進速度、泥漿壓力和進漿流量作為機器學(xué)習(xí)的特征值。
水平定向鉆機為GD3500-L型鉆機,鉆機的具體設(shè)計參數(shù)如表2所示。
表2 GD3500-L型水平定向鉆機參數(shù)
當起下鉆時,除旋轉(zhuǎn)管柱的質(zhì)量外,阻力是一種負載。在鉆進過程中,旋轉(zhuǎn)管柱會損失轉(zhuǎn)矩,因此鉆頭用于破壞巖石的功率大大低于旋轉(zhuǎn)平臺的功率。阻力和轉(zhuǎn)矩損失的原因有很多,包括壓差卡鉆、井眼不穩(wěn)定、井眼清潔不良以及與鉆柱側(cè)力相關(guān)的摩擦相互作用。目前已有Johancsik等[20]、Sheppard等[21]、Faghih[22]提出了3種摩擦力計算模型進行鉆孔底部壓強的校準。
該工程水平定向鉆進總距離為2 270.8 m,距離較長,且從水平定向鉆勘察的縱斷面圖(圖2(b))可知,縱斷面中鉆進軌跡較為筆直,因此假定鉆進過程中軌跡傾角θ恒定;在俯視圖(圖2(a))中,鉆進軌跡近似于圓弧,故將偏轉(zhuǎn)的方位角β變化量視為恒定值。從水平定向鉆勘察俯視圖(圖2(a))中可知,鉆進高程隨著鉆進距離的增加緩慢變大,所以將鉆井液從泥漿池運送到鉆孔底部的沿程損失較大,且鉆井液沖打在鉆孔底部上也會損失一部分能量;此外,鉆桿的橫截面積較小,所以最終由環(huán)空壓力產(chǎn)生的作用在鉆桿橫截面上的力較小。因此,本次分析中忽略鉆孔底部環(huán)空壓力對鉆桿橫截面上的作用力。綜上所述,選用Sheppard模型[21]對鉆孔底部的壓強進行校正,壓強隨著鉆進深度的變化率為
(1)
(2)
式(1)—(2)中:σs為測量鉆進壓強,Pa;s為鉆進深度,m;Wb為單位長度鉆桿壓強,Pa/m;θ為縱斷面鉆進軌跡傾角,(°);k為基于鉆機推力的摩擦因數(shù);?θ/?s為縱斷面鉆進軌跡傾角變化率,(°)/m,此處為0;β為俯視圖中鉆進軌跡偏角,(°);σ為鉆孔底部的壓強,Pa。
鉆桿自重
ω=Aρg。
(3)
縱斷面鉆進軌跡傾角
(4)
式(3)—(4)中:A為鉆桿的橫截面積,m2;ρ為鉆桿密度,kg/m3;g為重力加速度,m/s2;H為進尺高度,m,最終為37.92 m;D為進尺距離,m,最終為2 271 m。
Sheppard等[21]提出的模型中,平面內(nèi)的摩擦力被簡化。對于簡化條件下的阻力計算,使用的摩擦因數(shù)為0.2~0.4,平均值為0.3,故本次計算取摩擦因數(shù)為0.3。進尺在0~1 000 m時采用的鉆桿直徑D1為0.14 m,橫截面積對應(yīng)表3中的A1;進尺在1 001~2 270 m時采用的鉆桿直徑D2為0.168 m,橫截面積對應(yīng)表3中的A2。鉆桿壁厚均為0.009 m,長度l為9.6 m。
表3 鉆桿參數(shù)
校正后的鉆孔底部壓強和鉆進速度隨鉆進深度的變化曲線如圖3所示,泥漿壓力和進漿流量隨鉆進深度的變化曲線如圖4所示。機器學(xué)習(xí)校正后的輸入樣本如表4所示。
表4 機器學(xué)習(xí)校正后的輸入樣本
圖3 鉆孔底部壓強和鉆進速度隨鉆進深度的變化曲線
圖4 泥漿壓力和進漿流量隨鉆進深度的變化曲線
機器學(xué)習(xí)大致可分為監(jiān)督學(xué)習(xí)(supervised learning)、非監(jiān)督學(xué)習(xí)(unsupervised learning)和半監(jiān)督學(xué)習(xí)(semi-supervised learning)3類,它們最主要的區(qū)別是訓(xùn)練數(shù)據(jù)中是否帶有標簽。對于鉆孔圍巖分類問題,一般是已知圍巖巖性而進行的訓(xùn)練與測試,故屬于監(jiān)督學(xué)習(xí)問題。對于分類問題,每個樣本都具有特征值和目標值等屬性值,本文中鉆進速度、鉆孔底部壓強、泥漿壓力和進漿流量為特征值,地層巖性為目標值。
常見的分類算法有ANN(artificial neural network)、樸素貝葉斯、KNN、決策樹、支持向量機和隨機森林[23]。本文采用常規(guī)算法和集成算法進行案例分析。KNN算法模型較為簡單,對數(shù)據(jù)的分布無要求,適用于數(shù)據(jù)量較小、數(shù)據(jù)分布均衡的場景中;隨機森林算法是一種集成分類算法,不需對數(shù)據(jù)進行過多處理,它由多個組合分類的決策樹模型構(gòu)成,每一棵決策樹都有投票權(quán)來選擇最優(yōu)的分類結(jié)果。目前已有研究表明,在對121個UCI(University of California, Irvine)數(shù)據(jù)集分類時,隨機森林算法在179種分類算法中分類性能最優(yōu)秀[24]。因此,本研究采用KNN算法和隨機森林算法進行巖性識別。機器學(xué)習(xí)分析流程如圖5所示。
圖5 機器學(xué)習(xí)分析流程圖
由圖5中步驟1獲取特征參數(shù)和目標參數(shù),由表1可看出不同圍巖巖性樣本數(shù)量差別很大。在分類問題中,各類別有均衡的樣本數(shù)量是很重要的。如果各類別樣本數(shù)量差別很大,在模型訓(xùn)練時的預(yù)測結(jié)果可能會偏向樣本數(shù)量大的樣本,導(dǎo)致模型分析不準確。因此,有必要采用重采樣的方法來避免模型出現(xiàn)偏差。本研究中,使用Smote算法[25]對花崗閃長巖、碳質(zhì)板巖、石英片巖和片麻狀花崗巖4類數(shù)據(jù)進行過采樣處理,處理后各類別均有162個樣本,5個類別共810個樣本。過采樣后樣本與原樣本相比未出現(xiàn)大偏差,基本達到了平衡樣本的需求。
在進行算法分析之前,通常需要對不同量綱和數(shù)量級的特征值數(shù)據(jù)進行歸一化處理,按照最大值和最小值將樣本值映射到 [0,1] 區(qū)間,避免樣本中的極端值對分析結(jié)果產(chǎn)生影響。歸一化的公式為
(5)
式中:x為歸一化處理前的數(shù)值;xmin、xmax分別為樣本中的最小值和最大值;x1為歸一化后的數(shù)值。
本研究分析的圍巖有5種巖性,是一個五分類問題。為了方便分析和評估模型,將問題轉(zhuǎn)化為5個二分類問題,因此需要對目標值進行處理,處理流程如圖6所示。以凝灰質(zhì)砂巖為例,預(yù)測凝灰質(zhì)砂巖時為正例,其他巖性圍巖時為反例,其混淆矩陣見圖7。
圖6 分類問題轉(zhuǎn)化流程圖
圖7 二分類混淆矩陣(以凝灰質(zhì)砂巖為例)
分類模型會出現(xiàn)欠擬合和過擬合2類問題。若機器學(xué)習(xí)模型沒有從訓(xùn)練數(shù)據(jù)中得到充分的學(xué)習(xí),模型的學(xué)習(xí)效率不高,就會出現(xiàn)欠擬合問題;若模型從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)過度,導(dǎo)致訓(xùn)練時錯誤率低,而測試集的準確率比訓(xùn)練集低得多,就會出現(xiàn)過擬合問題。不同的方法估計分類模型有不同的誤差,出現(xiàn)這些問題與訓(xùn)練集和測試集模型的樣本選擇有關(guān)。
本研究810個樣本中,70%用于訓(xùn)練,30%用于測試模型。在KNN和隨機森林2種算法中,設(shè)置取值相同的超參數(shù)對模型進行對比評估。KNN算法的超參數(shù)是K值,隨機森林算法的超參數(shù)為樹的數(shù)量N,超參數(shù)的取值為區(qū)間[3,50]中的整數(shù)。在這48個模型中,選取測試集準確率最高的模型進行分析和評估。
按照3.3節(jié)中訓(xùn)練集和測試集的比例,設(shè)置不同的超參數(shù)進行訓(xùn)練,訓(xùn)練后用于驗證測試集,記錄測試集準確率最高時對應(yīng)的超參數(shù),結(jié)果如表5所示。
表5 最佳模型超參數(shù)表
圖8和圖9示出不同超參數(shù)下KNN算法和隨機森林算法的準確率。當K取值為3時,KNN算法的測試集準確率最高,為90.53%。48個模型訓(xùn)練集和測試集準確率平均值分別為83.78%和83.28%,但不同的模型準確率差別較大,隨著K值增大,測試集和訓(xùn)練集的準確率均在降低,這是由KNN算法的原理決定的——距離K個學(xué)習(xí)樣本的歐氏距離決定該樣本的屬性,在有限的樣本中當K值越來越大時,會出現(xiàn)其他樣本的數(shù)值,從而導(dǎo)致準確率逐漸降低。所以在實際使用KNN模型時,K值不應(yīng)該取得很大。
圖8 不同超參數(shù)下KNN算法的準確率
圖9 不同超參數(shù)下隨機森林算法的準確率
在48個不同超參數(shù)取值中,隨機森林算法的訓(xùn)練集和測試集平均準確率分別為99.59%和93.04%。當N為32時,測試集準確率最高,為93.83%。從圖8和圖9中可知,相較于KNN算法,隨機森林算法的準確率較為穩(wěn)定。
對于每個算法的48個模型,比較訓(xùn)練集和測試集是為了檢查模型是否過擬合或欠擬合。KNN算法測試集與訓(xùn)練集的結(jié)果相差不大,而隨機森林算法測試集與訓(xùn)練集的結(jié)果平均相差7.00%左右,2個算法模型都沒有出現(xiàn)欠擬合和過擬合的情況。
除了準確率(Ac)之外,還引入了精確率(Pr)、召回率(Re)和F1值對模型進一步評估。4個評價指標中,準確率用于衡量模型正確預(yù)測樣本的能力;精確率和召回率分別用于衡量模型所有預(yù)測為正的樣本中實際為正樣本的概率和實際為正的樣本中被預(yù)測為正樣本的概率;F1值是一個綜合性的指標,同時考慮了精度和召回率。精確率、召回率和F1值越接近1,模型的性能就越好。4個評價指標的計算見式(6)—(9),其中,TP、FP、FN和TN的含義見圖7。
(6)
(7)
(8)
(9)
選取表5最佳超參數(shù)對應(yīng)的2個模型進行評估。圖10和圖11分別示出KNN算法最佳模型和隨機森林算法最佳模型的4個評價指標。圖中1、2、3、4、5分別代表凝灰質(zhì)砂巖、花崗閃長巖、碳質(zhì)板巖、石英片巖和片麻狀花崗巖。從算法的角度分析可知,隨機森林算法的4個評價指標均高于KNN算法。對凝灰質(zhì)砂巖(1)和花崗閃長巖(2)的識別中,隨機森林算法4個評價指標數(shù)值為95.00%左右,而KNN算法的4個評價指標數(shù)值為90.00%~95.00%;對碳質(zhì)板巖(3)、石英片巖(4)和片麻狀花崗巖(5)的識別中,2種算法的4個評價指標均值相差不大,但是隨機森林算法的偏差更小、更穩(wěn)定。從不同圍巖巖性的角度出發(fā),石英片巖(4)的4個評價指標值都很大,機器學(xué)習(xí)的效果最好??傮w上看,2種算法的評價指標都比較理想,但隨機森林算法要優(yōu)于KNN算法。
圖10 KNN算法最佳模型評價指標數(shù)值
圖11 隨機森林算法最佳模型評價指標數(shù)值
評價模型的另一個重要指標是受試者工作特征(receiver operating characteristic,ROC)曲線。ROC曲線是一種分類模型效果評價方法,通過其曲線下面積(area under curve, AUC)、敏感度、特異性和最佳分界點等關(guān)鍵參數(shù),可確定巖性識別模型的閾值。ROC曲線主要根據(jù)圖7中的混淆矩陣繪制。在ROC曲線中,曲線下面積(AUC)越大、越接近于1,模型的性能越好;越接近于0.5,模型的性能越差。
KNN算法和隨機森林算法的ROC曲線以及AUC值分別如圖12和圖13所示。真陽率表示正確的預(yù)測為正的數(shù)量與原本為正的數(shù)量之比;假陽率表示錯誤的預(yù)測為正的數(shù)量與原本為負的數(shù)量之比。無論是從算法角度還是從不同巖性的角度,KNN算法和隨機森林算法AUC值都趨近于1,表明模型分類性能良好,模型的魯棒性較強、泛化能力較好。同時,隨機森林算法在不同超參數(shù)下測試集的準確率較高且較穩(wěn)定。
圖12 KNN算法ROC曲線及AUC值
圖13 隨機森林算法ROC曲線及AUC值
由于隨機森林算法的準確率、精確率、召回率和F1值總體比KNN算法更高、更穩(wěn)定。因此,在本案例選取的常規(guī)算法和集成算法中,隨機森林算法的效果較好。
進行巖性識別之前,使用Smote算法對不平衡的樣本數(shù)據(jù)進行擴充,每一個類別數(shù)據(jù)量都增添到162組,得到了一個平衡的數(shù)據(jù)集。
按照3.3節(jié)中訓(xùn)練集和測試集的比例,設(shè)置不同的超參數(shù)對未采用Smote的數(shù)據(jù)集進行訓(xùn)練。未使用Smote算法進行數(shù)據(jù)過采樣的圍巖巖性識別準確率如圖14所示。在48個不同超參數(shù)模型中,KNN算法的訓(xùn)練集和測試集的平均準確率分別為79.67%和77.74%,與經(jīng)過Smote過采樣后的模型準確率相差不大。當K取4時,測試集準確率最高,為81.43%。
圖14 未使用Smote算法進行數(shù)據(jù)過采樣的圍巖巖性識別準確率
48個模型中,隨機森林算法訓(xùn)練集準確率很高,接近于100.00%,而測試集準確率接近80.00%。訓(xùn)練集和測試集準確率相差很大,訓(xùn)練的隨機森林模型存在過擬合現(xiàn)象。48個模型中,采用Smote過采樣后隨機森林測試集的平均準確率為93.04%,比未過采樣的模型準確率高,且沒有出現(xiàn)過擬合現(xiàn)象。當N取4時,測試集準確率最高,為80.00%。
未使用Smote算法的最佳測試模型的預(yù)測結(jié)果如表6所示。雖然2種算法總體的測試結(jié)果較高,但由于樣本數(shù)量非常不均衡,樣本數(shù)量少的巖性類別得不到充分的訓(xùn)練和驗證。
表6 未使用Smote算法的最佳測試模型的預(yù)測結(jié)果
在232個樣本中,凝灰質(zhì)砂巖數(shù)量162個,其余類別圍巖樣本數(shù)量過少。訓(xùn)練集和測試集也存在著樣本不平衡的問題,樣本數(shù)量少的類別得不到很好的機器學(xué)習(xí)訓(xùn)練。在70個測試樣本中,5個圍巖類別的數(shù)量分別為51、4、9、1、5,后4個圍巖類別的巖性識別準確率變化幅度大,個別案例難以代表整體,模型結(jié)果說服力不強。所以,在樣本不平衡的情況下采用Smote算法進行過采樣是必要的,進行過采樣后的模型數(shù)據(jù)量大且均勻、魯棒性好、泛化能力強,沒有出現(xiàn)過擬合或者欠擬合等問題。
1)分別對KNN算法和隨機森林算法的48個不同超參數(shù)模型進行比較,2種算法測試集平均準確率分別為83.28%和93.04%,隨機森林算法比KNN算法準確率高且更穩(wěn)定。
2)將巖性識別的五分類問題轉(zhuǎn)化為5個二分類問題進行分析,采用每一類別巖性的準確率、精確率、召回率、F1值、ROC曲線和AUC值對模型進行評估。隨機森林算法的4個評價指標總體上優(yōu)于KNN算法??傮w的評價結(jié)果表明,隨機森林算法的圍巖巖性識別效果更好。
3)原始數(shù)據(jù)量少且各類別的數(shù)據(jù)差異大,機器學(xué)習(xí)算法模型的結(jié)果不符合大數(shù)據(jù)分析要求,說服力不強;而采用Smote算法處理后的數(shù)據(jù)集很平衡,訓(xùn)練模型的魯棒性好、泛化能力強,沒有出現(xiàn)過擬合或者欠擬合等問題,在樣本不平衡時建議使用此方法對數(shù)據(jù)進行處理。
1)本文使用理論分析方法對鉆孔底部壓強進行求解,但理論分析和實際有偏差。目前已有鉆進技術(shù)可以直接測量鉆孔底部壓強,但是在本案例中未使用此技術(shù),在今后的研究中應(yīng)考慮采用此技術(shù)進行測量,以更真實地反映鉆孔底部壓強。
2)本文研究中案例樣本數(shù)量有限,且涉及的圍巖巖性類別僅有5種,由于自然界的圍巖類別較多,故本方法尚不能應(yīng)用于實際勘察中。今后的研究應(yīng)該注重對于不同類別巖性的數(shù)據(jù)收集,形成一個龐大的數(shù)據(jù)庫,為機器學(xué)習(xí)提供強有力的支撐。
3)本文研究只選取了有代表性的常規(guī)分類算法和集成分類算法對巖性識別進行初步的探討和分析,在數(shù)據(jù)庫豐富的基礎(chǔ)上仍需要對各種算法進行細致調(diào)參、相互比較和篩選。此外,機器學(xué)習(xí)算法注重教學(xué)模型分析而淡化工程中出現(xiàn)的物理問題,如何解釋機器學(xué)習(xí)方法的可行性和說服力是目前需要解決的問題。