李文斌,馮文凱,胡云鵬,周永健,陳 凱,劉 云
(1.地質(zhì)災(zāi)害防治與地質(zhì)環(huán)境保護(hù)國家重點實驗室(成都理工大學(xué)), 四川 成都 610059;2.河南新華五岳抽水蓄能發(fā)電有限公司, 河南 信陽 465450)
巖體是由巖石和結(jié)構(gòu)面組成的復(fù)雜不連續(xù)介質(zhì),結(jié)構(gòu)面的存在破壞了巖體的完整性,導(dǎo)致巖體結(jié)構(gòu)變得復(fù)雜,控制著巖體的力學(xué)性質(zhì)。巖體的變形破壞大多為沿結(jié)構(gòu)面發(fā)生的剪切破壞,因此快速準(zhǔn)確確定結(jié)構(gòu)面抗剪強(qiáng)度在巖土工程領(lǐng)域具有重要的研究意義。Barton[1]1973年提出巖體結(jié)構(gòu)面的表面形態(tài)極大程度上影響著巖體的強(qiáng)度,通過研究一系列表面形態(tài)不同的結(jié)構(gòu)面,提出結(jié)構(gòu)面粗糙度系數(shù)(joint roughness coefficient,JRC)的概念,推導(dǎo)出 JRC-JCS(joint compression strength,JCS)模型,給出結(jié)構(gòu)面抗剪強(qiáng)度經(jīng)驗公式;并于1977年在一系列直剪試驗的基礎(chǔ)上,選擇出10條粗糙度位于0~20之間的曲線作為標(biāo)準(zhǔn)輪廓曲線,對比標(biāo)準(zhǔn)輪廓曲線可以評估結(jié)構(gòu)面的粗糙度[2]。對比評估得到的結(jié)果用于JRC-JSC模型,可快速確定結(jié)構(gòu)面的峰值抗剪強(qiáng)度,國際巖石力學(xué)學(xué)會收錄并推廣了這種方法[3]。
實際結(jié)構(gòu)面輪廓曲線對比標(biāo)準(zhǔn)輪廓曲線得到的JRC,其結(jié)果受影響較多,極大程度上取決于實際結(jié)構(gòu)面曲線量測精度以及對比者的經(jīng)驗,精度難以保障。JRC估算誤差較大,對確定結(jié)構(gòu)面峰值抗剪強(qiáng)度有很大的影響[4]。因此大量學(xué)者對JRC進(jìn)行了許多研究,定量研究成果主要集中在統(tǒng)計參數(shù)法[5?12]、分形維數(shù)法[13?14]及直邊圖解法[14?15]。其中通過統(tǒng)計粗糙度參數(shù)確定結(jié)構(gòu)面粗糙度的方法操作簡潔,人為主觀因素干擾最少。研究學(xué)者從統(tǒng)計結(jié)構(gòu)面輪廓曲線粗糙度參數(shù)入手,取得大量研究成果,結(jié)構(gòu)面輪廓曲線粗糙度描述參數(shù)主要包括起伏幅度、起伏角及跡長長度。Tse等[5]、Yang等[6]定量確定10條標(biāo)準(zhǔn)輪廓曲線的粗糙度描述參數(shù),建立標(biāo)準(zhǔn)輪廓曲線坡度均方根、結(jié)構(gòu)參數(shù)與JRC的關(guān)系公式;Yu等[7]、孫輔庭等[8]采用不同間距統(tǒng)計標(biāo)準(zhǔn)輪廓曲線的粗糙度參數(shù),建立不同采樣間距下JRC與標(biāo)準(zhǔn)輪廓曲線坡度均方根、結(jié)構(gòu)參數(shù)的關(guān)系式;Zhang等[9]、吉鋒[10]綜合標(biāo)準(zhǔn)輪廓曲線標(biāo)準(zhǔn)輪廓曲線坡度均方根、結(jié)構(gòu)參數(shù)、相對起伏度和伸長率等統(tǒng)計參數(shù)共同表征標(biāo)準(zhǔn)輪廓曲線JRC。然而由于結(jié)構(gòu)面輪廓曲線天然發(fā)育的復(fù)雜性,單一參數(shù)或少量參數(shù)不能完全反映結(jié)構(gòu)面粗糙度的全部特性,且各類參數(shù)在量化表征中的相互關(guān)系也比較復(fù)雜,采用傳統(tǒng)線性回歸方法,選取一個統(tǒng)計參數(shù)或少量統(tǒng)計參數(shù)進(jìn)行回歸分析,得到的結(jié)果具有一定的片面性。
近年興起的機(jī)器學(xué)習(xí),可以從數(shù)據(jù)中學(xué)習(xí)數(shù)據(jù)規(guī)律[16]。隨機(jī)森林模型是一種基于決策樹的學(xué)習(xí)模型[17?18],其核心算法是通過重復(fù)抽樣的方法減少變量共線性帶來的預(yù)測誤差,且訓(xùn)練過程中能夠生成變量重要性評分,對變量進(jìn)行特征選擇,確定影響結(jié)果的主要特征變量。隨機(jī)森林模型具有計算速度快、結(jié)果準(zhǔn)確等特點,在小運(yùn)算量的情況下有著較高的預(yù)測精度,模型準(zhǔn)確率相較于其他一般線性回歸方法往往更高,在解決結(jié)構(gòu)面JRC與統(tǒng)計參數(shù)之間的多元非線性問題上具有優(yōu)勢。但目前鮮有學(xué)者針對結(jié)構(gòu)面輪廓曲線量化表征方法方面開展研究,也缺少相應(yīng)的適用性驗證。
本文選取已知JRC的結(jié)構(gòu)面輪廓曲線,統(tǒng)計多項參數(shù)。選取結(jié)構(gòu)面粗糙度量化表征中關(guān)鍵統(tǒng)計參數(shù),建立隨機(jī)森林模型,預(yù)測結(jié)構(gòu)面輪廓曲線JRC,探索隨機(jī)森林模型量化結(jié)構(gòu)面輪廓曲線JRC的可行性,在量化表征結(jié)構(gòu)面JRC研究上提供新的可行方法。
隨機(jī)森林算法是一種基于決策樹的集成學(xué)習(xí)算法,集合特征隨機(jī)選取思想及集成思想,以決策樹為基礎(chǔ)的組合分類器[19],采取自助法進(jìn)行有放回抽樣并生成訓(xùn)練子集,保證N次隨機(jī)抽樣生成N個大小一致的訓(xùn)練子集。
每個訓(xùn)練子集單獨(dú)構(gòu)建各自的決策樹,決策樹的構(gòu)建包括節(jié)點分割以及隨機(jī)特征變量的隨機(jī)選取兩個過程。節(jié)點分割基于分裂規(guī)則比較信息屬性,選擇最優(yōu)比較結(jié)果的信息屬性生成子樹,實現(xiàn)決策樹的生長。隨機(jī)特征變量產(chǎn)生常用隨機(jī)選擇輸入變量方法,隨機(jī)選取信息屬性進(jìn)行節(jié)點分割。訓(xùn)練子集的隨機(jī)選取以及節(jié)點屬性的隨機(jī)選取保證隨機(jī)森林的隨機(jī)性,避免模型陷入過擬合及局部過優(yōu)的困境,最終選取N個決策樹回歸預(yù)測結(jié)果的平均值作為最終預(yù)測值。
1.2.1 描述參數(shù)
巖體結(jié)構(gòu)面形態(tài)復(fù)雜多變。大量研究結(jié)果表明,巖體結(jié)構(gòu)面剪切強(qiáng)度參數(shù)隨結(jié)構(gòu)面起伏角的增大而增大[20?21],若只選取結(jié)構(gòu)面起伏角作為變量與粗糙度值建立回歸關(guān)系,那么回歸關(guān)系無法區(qū)分圖1中具有相同起伏角的輪廓曲線1、2;Zhang等[9]的研究指出僅考慮輪廓曲線起伏角無法解決這個問題,還需考慮結(jié)構(gòu)面起伏度的影響;僅考慮結(jié)構(gòu)面起伏度影響,又無法區(qū)分輪廓曲線2、3。陳世江等[22]研究認(rèn)為結(jié)構(gòu)面起伏度、起伏角主要表征一階起伏體的影響,結(jié)構(gòu)面粗糙度的表征還需考慮二階起伏體的影響,輪廓曲線跡線長度可表征結(jié)構(gòu)面二階起伏體的影響,同時考慮一階、二階起伏體的影響可更加全面表征結(jié)構(gòu)面粗糙度。
圖1 不同特征結(jié)構(gòu)面輪廓曲線Fig.1 Profile curves of different feature structure faces
為定量表征結(jié)構(gòu)面粗糙度值,基于結(jié)構(gòu)面起伏角、起伏度及跡線長度3個方面選取8個結(jié)構(gòu)面描述參數(shù),相應(yīng)計算公式如下:
(1)起伏角(iave)
式中:L——結(jié)構(gòu)面輪廓曲線直線長度/m;
yi——結(jié)構(gòu)面離散點縱坐標(biāo);
N——數(shù)據(jù)點個數(shù)。
(2)起伏角標(biāo)準(zhǔn)差(SDi)
式中:xi——結(jié)構(gòu)面輪廓曲線離散點橫坐標(biāo)。
(3)坡度均方根(Z2)
式中:?x——離散點間距/m。
(4)結(jié)構(gòu)函數(shù)(SF)
(5)平均相對起伏度(Rave)
(6)起伏高度標(biāo)準(zhǔn)偏差(SDh)
式中:have——離散點yi的平均值。
(7)最大起伏度(Rmax)
式中:ymax——結(jié)構(gòu)面輪廓曲線離散數(shù)據(jù)y坐標(biāo)最大值;
ymin——結(jié)構(gòu)面輪廓曲線離散數(shù)據(jù)y坐標(biāo)最小值。
(8)粗糙度剖面指數(shù)(Rp)
1.2.2 數(shù)據(jù)來源
為進(jìn)行結(jié)構(gòu)面粗糙度量化表征,收集已知JRC的結(jié)構(gòu)面輪廓曲線數(shù)據(jù)進(jìn)行模型訓(xùn)練。文獻(xiàn)[23]正文提供了102條已知粗糙度值的結(jié)構(gòu)面輪廓曲線離散數(shù)據(jù),離散數(shù)據(jù)采樣間距為0.4 mm,并對Barton提出的10條標(biāo)準(zhǔn)輪廓曲線以0.4 mm采樣間距數(shù)字化,共收集112條已知粗糙度值輪廓曲線?;?12條輪廓曲線離散數(shù)據(jù),統(tǒng)計上文中提到的8個粗糙度描述參數(shù)值,建立隨機(jī)森林模型數(shù)據(jù)庫,進(jìn)行下一步的模型訓(xùn)練和預(yù)測,樣本輪廓曲線粗糙度見圖2。
圖2 樣本輪廓曲線JRCFig.2 JRC value of the sample profile curve
1.2.3 數(shù)據(jù)預(yù)處理
不同粗糙度描述參數(shù)取值范圍和量綱都不相同。為加快訓(xùn)練速度,采用歸一化處理方式進(jìn)行預(yù)處理,處理后可縮小每個參數(shù)之間的數(shù)量級差別,確保參數(shù)取值范圍為[0,1],并可減小計算誤差,提高模型訓(xùn)練速度。最大最小法是歸一化處理中最實用的方法,因此本研究選用該方法:
式中:x'——?dú)w一化后數(shù)據(jù);
x——原始數(shù)據(jù);
max(x)——每個參數(shù)的最大值;
min(x)——每個參數(shù)的最小值。
采用最大最小法將粗糙度描述參數(shù)進(jìn)行歸一化,結(jié)果見圖3。
圖3 歸一化后統(tǒng)計參數(shù)分布圖Fig.3 Distribution of statistical parameters after normalization
結(jié)構(gòu)面粗糙度量化表征共選取8個統(tǒng)計參數(shù),統(tǒng)計參數(shù)與粗糙度相互關(guān)系不明確,參數(shù)之間可能存在共線性,造成模型精度降低,誤差變大。因此對輸入變量進(jìn)行重要程度刻畫,采用交叉驗證估計輸入變量的重要性,通過打亂樣本中某一特征的特征值順序,計算特征對模型準(zhǔn)確率的影響。特征重要程度越高對模型準(zhǔn)確率影響越大,特征重要性由精度下降程度進(jìn)行度量,以此得到表1各變量重要性評分。
表1 結(jié)構(gòu)面粗糙度統(tǒng)計參數(shù)重要性評分Table 1 The importance score of the discontinuity roughness statistical parameters
由表1可看出8個統(tǒng)計參數(shù)重要性依次為Rmax、SDh、iave、SDi、Rave、Rp、SF及Z2。其中Rp、SF及Z2三個變量重要性均小于0.05,說明三者對模型預(yù)測影響程度極低,而Rmax、SDh、iave、SDi及Rave等變量重要性之和僅為0.888,未能在極大程度上解釋結(jié)構(gòu)面粗糙度。因此按照特征變量重要程度,依次選取不同數(shù)量特征變量,進(jìn)行特征變量數(shù)目尋優(yōu),結(jié)果見圖4。
圖4 不同數(shù)量特征變量對擬合系數(shù)的影響Fig.4 Effect of different quantitative feature variables on the fitting coefficients
由圖4可知,按特征變量重要程度,選取6個特征變量進(jìn)行反演時,擬合系數(shù)趨于穩(wěn)定。若選用7個變量參與模型回歸,將增加模型運(yùn)算量,降低模型運(yùn)算速度。因此選擇Rmax、SDh、iave、SDi、Rave、Rp作為模型回歸的輸入變量進(jìn)行回歸反演。
原始數(shù)據(jù)集包含112條結(jié)構(gòu)面輪廓曲線。輪廓曲線長度從72 mm至119.6 mm不等,為保證隨機(jī)性,將原始數(shù)據(jù)集按照0.7∶0.3的比例隨機(jī)分為訓(xùn)練數(shù)據(jù)集(80個)與預(yù)測數(shù)據(jù)集(32個)兩部分,訓(xùn)練集用于訓(xùn)練回歸模型,預(yù)測集用于模型精度驗證。
機(jī)器學(xué)習(xí)超參數(shù)為模型外部變量設(shè)置。隨機(jī)森林模型超參數(shù)包括構(gòu)成森林的決策樹數(shù)目(ntree)及參與節(jié)點分割的數(shù)目(mtry)。ntree值增加,隨機(jī)森林模型誤差隨之減小,減小至固定值,但決策樹數(shù)量過多,會耗費(fèi)大量時間,浪費(fèi)模型運(yùn)行時間,因此進(jìn)行決策樹數(shù)目ntree的尋優(yōu)?;貧w分析中mtry值通常默認(rèn)為輸入特征數(shù)目的1/3,因此本文研究中mtry值取2。基于python語言編程,建立隨機(jī)森林模型,分別設(shè)定ntree值為50,100,200,400,分析得到不同ntree數(shù)量時擬合系數(shù)值R2。由圖5可知,ntree值在200~300范圍內(nèi),擬合系數(shù)R2仍有較大波動;ntree在300~400范圍時,擬合系數(shù)R2趨于穩(wěn)定,無較大波動出現(xiàn);因此綜合考慮設(shè)定模型ntree值為 400。
圖5 不同ntree時值時擬合系數(shù)變化Fig.5 Changes in fitting coefficients with different ntree values
選取關(guān)鍵特征變量SDh、Rmax、iave、SDi、Rp、Rave作為輸入變量。模型超參數(shù)ntree值設(shè)置為400,mtry值為2,隨機(jī)森林模型預(yù)測結(jié)果如圖6所示。
圖6 隨機(jī)森林模型預(yù)測結(jié)果Fig.6 Random forest model predictions
由圖6預(yù)測結(jié)果可知,預(yù)測樣本與實際值誤差大多小于1,只有個別預(yù)測誤差較大,誤差值小于1的預(yù)測樣本占比為93.75%。預(yù)測誤差較大的2組樣本分別為第12條和第64條輪廓曲線,其真實值分別為17,14.9。而在訓(xùn)練集中JRC大于14.9的樣本僅占比10%,訓(xùn)練樣本量較小,因此,隨機(jī)森林模型預(yù)測結(jié)果發(fā)生較大誤差。而在JRC小于14.9的預(yù)測集中,隨機(jī)森林預(yù)測結(jié)果誤差均小于1。
隨機(jī)森林模型隨機(jī)劃分訓(xùn)練集和預(yù)測集,112條原始樣本中JRC小于14.9的樣本占比達(dá)90%。隨機(jī)抽取的訓(xùn)練集中小JRC樣本較多,大JRC樣本較少。因此隨機(jī)森林模型在JRC小于15的預(yù)測集中預(yù)測效果良好,在JRC大于15預(yù)測樣本中效果較差。
為評價模型預(yù)測誤差及精度,采用均方根誤差(RMSE)、均方誤差(MSE)及擬合優(yōu)度(R2)對模型預(yù)測結(jié)果評價,三者計算定義如下:
式中:yi——數(shù)據(jù)測試集真實值;
為驗證隨機(jī)森林構(gòu)建模型精度,對比傳統(tǒng)線性回歸方法所構(gòu)建模型,選取Z2、SF、Rp等統(tǒng)計參數(shù),參考Xu等[7]研究結(jié)果中線性回歸方程對隨機(jī)森林預(yù)測集進(jìn)行回歸反演,預(yù)測結(jié)果如圖7所示。
圖7 各模型預(yù)測結(jié)果Fig.7 Predictions for each model
對不同模型預(yù)測結(jié)果進(jìn)行誤差分析,結(jié)果見表2。從擬合優(yōu)度來看,隨機(jī)森林(RF)、SF、Rp及Z2精度呈現(xiàn)遞減趨勢,均方根誤差、均方誤差呈現(xiàn)遞增趨勢,表明隨機(jī)森林模型預(yù)測精度遠(yuǎn)高于傳統(tǒng)線性回歸方程,更適用于結(jié)構(gòu)面粗糙度預(yù)測。
表2 各模型預(yù)測精度Table 2 Predictive accuracy for each mode
從預(yù)測結(jié)果來看,Xu等[7]研究成果基于10條標(biāo)準(zhǔn)輪廓曲線,具有一定的局限性。應(yīng)用于隨機(jī)森林預(yù)測集選取的輪廓曲線時存在預(yù)測結(jié)果較差,個別預(yù)測結(jié)果超出JRC取值范圍的問題,適用性較小,應(yīng)用效果較差。
(1)從結(jié)構(gòu)面起伏角、起伏度及跡線長度3個方面出發(fā),共統(tǒng)計8種結(jié)構(gòu)面輪廓曲線統(tǒng)計參數(shù)?;陔S機(jī)森林模型對8種統(tǒng)計參數(shù)進(jìn)行重要性評分,結(jié)合不同數(shù)量下特征變量擬合系數(shù)的變化規(guī)律,挑選出Rmax、SDh、iave、SDi、Rave和Rp等 6 個關(guān)鍵特征變量進(jìn)行隨機(jī)森林模型構(gòu)建,提高模型計算精度及運(yùn)算速度。
(2)采取交叉驗證的方法,以擬合系數(shù)為評估標(biāo)準(zhǔn)。當(dāng)隨機(jī)森林模型ntree數(shù)值在300~400之間時,擬合系數(shù)趨于穩(wěn)定,確定隨機(jī)森林模型進(jìn)行粗糙度值反演時,ntree可取400做為模型計算最優(yōu)超參數(shù)。
(3)隨機(jī)森林模型回歸結(jié)果表明,進(jìn)行特征變量選擇,ntree數(shù)值為400時,模型最佳擬合優(yōu)度可達(dá)0.981。進(jìn)行特征變量選擇后的隨機(jī)森林回歸模型對比傳統(tǒng)線性回歸模型,模型均方根誤差、均方誤差均有降低,擬合優(yōu)度更高,隨機(jī)森林算法更適用于結(jié)構(gòu)面粗糙度預(yù)測,估算結(jié)構(gòu)面峰值抗剪強(qiáng)度。