王香帥,黃 銘
(合肥工業(yè)大學 土木與水利工程學院,合肥 230009)
邊坡是一個復雜的系統(tǒng),其穩(wěn)定性和工程安全息息相關(guān)?;伦鳛槿蛐缘刭|(zhì)災害各災種中頻率最高、損失最大的地質(zhì)災害類型,在人類工程活動頻繁的山嶺地區(qū)幾乎都有發(fā)生[1]。統(tǒng)計顯示,我國每年有超過200億元的直接經(jīng)濟損失是由崩塌、滑坡、泥石流等災害所導致的[2]。因此,加強邊坡監(jiān)控、確保其安全性具有十分重要的意義。坡體滲壓是影響邊坡穩(wěn)定的一個重要因素,是對邊坡進行監(jiān)測分析的重要內(nèi)容。如今對滲透壓力進行監(jiān)測的方式已十分科學,采用的儀器設(shè)備也更加先進,大量的傳感設(shè)備以及較為先進的通信技術(shù)在此過程中得到普遍應(yīng)用,已能夠?qū)崿F(xiàn)監(jiān)測設(shè)備的深度埋設(shè)、傳感數(shù)據(jù)的高頻率自動收集以及傳感數(shù)據(jù)的實時傳輸[3]。
滲壓與各影響因素之間具有明顯的非線性和不確定性關(guān)系[4],目前已有學者在滲壓預測模型中引入逐步回歸[5]、人工神經(jīng)網(wǎng)絡(luò)[6]、支持向量機[7]等分析方法,取得比較好的效果。但是這些方法也存在一些不足,如支持向量機對數(shù)據(jù)完整性要求較高,對非線性問題求解時限制較多[8];人工神經(jīng)網(wǎng)絡(luò)計算量大,并且需要大量參數(shù)支持[9];逐步回歸分析法計算時外部驅(qū)動因子影響被忽略,擬合短時間序列數(shù)據(jù)時效果不佳[10]。而且這些模型的實際擬合和預測精度還有提升的空間。
RF算法[11]是一種深度機器學習算法,由Breiman L于2001年提出,該算法結(jié)合Bagging[12]集成學習理論和隨機子空間[13]在算法方面優(yōu)勢之處,對噪聲數(shù)據(jù)和異常值能夠更為包容,具有較高的預測精度,且不易出現(xiàn)過度擬合的現(xiàn)象[14]。RF算法以原始數(shù)據(jù)樣本為基礎(chǔ),利用Bootstrap方法重新抽取多個樣本,之后對每個樣本分別進行決策樹建模,再對各個決策樹進行組合預測。近年來,該算法被廣泛應(yīng)用于醫(yī)學、管理學、經(jīng)濟學等[15-17]眾多領(lǐng)域,但在邊坡滲壓預測方面對RF還缺乏應(yīng)用和研究。
本文以R語言為主要工具,以邊坡滲壓實測資料為基礎(chǔ),根據(jù)邊坡滲壓影響因素,構(gòu)建基于RF算法的滲壓預測模型,并與逐步回歸模型和BPNN模型進行對比,對比驗證該模型的可行性和有效性,以期為掌握滲壓的實際動態(tài),預測其發(fā)展趨勢,保障邊坡安全提供更有力的技術(shù)支撐。
決策樹是一種樹狀分類結(jié)構(gòu)模型。該模型是通過拆分相關(guān)變量值設(shè)定分類規(guī)則,并利用樹形圖分割形成概念路徑的數(shù)據(jù)分析技術(shù),包含兩個關(guān)鍵部分:第一,選擇變量和變量值。依據(jù)為特征空間按變量對分類效果影響的大?。坏诙?,將數(shù)據(jù)區(qū)域按照選出的變量和變量值進行劃分,并通過比較模型復雜性以及效果來選擇最為合適的劃分區(qū)間。
CART決策樹[18]由Breiman L等人于1984年提出,其基礎(chǔ)思想為信息熵。該算法先將不同的分割變量劃分,進而得到兩個子集,再利用二分遞歸將訓練集也劃分為兩個子集,得到兩個分支的子樹。在選取分割變量時,借助的是最小Gini指數(shù)的變量,此為CART算法的分割基礎(chǔ)。Gini指數(shù)主要用以描述節(jié)點的不純度。假定數(shù)據(jù)集合T{X,Y}由m個類別的樣本組成,則其Gini指數(shù)定義為:
(1)
式中:p(j|t)為類別j在節(jié)點t處的概率。假設(shè)樣本集合劃分為q個部分,則其Gini指數(shù)為:
(2)
式中:q和n分別為子節(jié)點數(shù)和母節(jié)點的樣本數(shù)目;ni為子節(jié)點i處的樣本數(shù)。
以Gini指數(shù)最小的變量作為此處節(jié)點的分割變量,并根據(jù)變量值建立相應(yīng)分支。依此規(guī)則由上至下不斷分割,直至整棵決策樹生長完成。
集成學習的原理在于將多個弱分類器通過某種方式進行組合,從而得到強分類器。故此,可借助不同的分類器進行集合來共同協(xié)作,處理某一特定問題。其精度相對于單個的分類模型更為精準,且穩(wěn)定性也得到了保障。但是,在確保集成學習有效可行時,必須保證每一個單獨的分類器的學習能力是符合要求的,即其精度要高于隨機選擇,且不同的分類器之間應(yīng)具有不同程度的差異性。如果差異性不符合要求,則需要通過采用不同的訓練樣本或者不同的訓練方法來達到目標。
RF算法是一種集成學習算法,是由一組CART決策樹{h(x,Θi),i=1,2,…,N}構(gòu)成的組合模型,其中x表示自變量,N表示CART決策樹的個數(shù)。這里的{Θi,i=1,2,…,N}表示為隨機變量序列,由以下兩個隨機化思想得出:
1) Bagging思想:以隨機抽取方式,從總訓練集D中有放回地選擇N個樣本,進而得到子樣本集{Di,i=1,2,…,N},其大小與原樣本集相同,每個子樣本集Di構(gòu)造一棵對應(yīng)的決策樹。
2) 在構(gòu)建決策樹時,不同節(jié)點的候選變量集是以隨機方式從總的特征空間中選取的變量子集m,并在分裂時選取最佳變量。以此法能夠確保不同樹之間的獨立性和多樣性,增強RF節(jié)點分割的隨機性。RF模型的預測是否準確,主要取決于變量個數(shù)m以及決策樹的數(shù)量N。
訓練隨機森林的過程就是訓練各個決策樹的過程,鑒于不同樹之間具有相對獨立的特點,訓練不同決策樹時可以同步進行。單棵決策樹訓練過程見圖1。
圖1 RF中單個決策樹訓練過程Fig.1 Single decision tree training process in RF
隨機森林是由經(jīng)過相同訓練得到的數(shù)量為N的決策樹組合而成的。在處理回歸問題時,對取得的所有預測值經(jīng)過權(quán)重計算取得相應(yīng)的平均值,進而獲得最終的預測結(jié)果;在處理分類問題時,由所有決策樹的輸出結(jié)果投票得到最終的預測結(jié)果。其具體算法流程圖見圖2。
圖2 RF算法流程圖Fig.2 Flow chart of RF algorithm
本文以南水北調(diào)中線某一渠道邊坡作為分析對象,依據(jù)實測資料建立基于RF算法的邊坡滲壓預測模型。本文使用R語言中的randonForest包來實現(xiàn)RF模型的建立,使用的主要函數(shù)有:randomForest,plot,predict等。將2014年9月至2015年7月的88組滲壓、時效、水位、降雨量的實測數(shù)據(jù)進行建模訓練。
建立邊坡滲壓RF預測模型的整體思路是:先確定模型的輸入變量,將訓練樣本投入RF算法中,然后分析OOB誤差,確定RF模型參數(shù)的最優(yōu)組合,從而獲得最終模型。
根據(jù)該渠道邊坡過水運行特點,其滲壓影響因素主要包含水位、時效、降雨等因素[19]:
Pi=PH+PT+PR
(3)
式中:Pi為邊坡滲壓;PH為水位引起的滲壓分量;PT為時效分量;PR為降雨引起的滲壓分量。
滲壓與水位及水位的更高次方有一定相關(guān)性[20],建模時水位因子選用H,H2,H3。降雨對邊坡滲壓產(chǎn)生的影響往往不是立刻顯現(xiàn)的,具有延后性,在選擇降雨因子時,常選擇前期平均雨量或者前期雨量和[21]。本文RF模型中采用前期雨量和,具體為:前3天雨量和R3、前7天雨量和R7、前15天雨量和R15、前30天雨量和R30。限于對邊坡時效機制認識尚存在不足之處,參考類似工程,選取時間函數(shù)為時效因子,分別為T,lnT。
綜上分析可知,邊坡滲壓RF預測模型的輸入變量選為H,H2,H3,R3,R7,R15,R30,T,lnT。
決策樹的數(shù)量N和變量數(shù)m是影響RF模型預測能力的兩個主要參數(shù)。RF算法通常通過計算每一個決策樹的OOB誤差,之后取其均值以得到RF模型的泛化誤差[22]。Breiman利用大量實驗數(shù)據(jù)證實OOB誤差為一種無偏估計[23]。
圖3 OOB誤差隨決策樹數(shù)量N變化情況Fig.3 OOB Error changes with the number of decision trees N
圖4 OOB誤差隨變量選擇個數(shù)m變化情況Fig.4 OOB error changes with the number of variables selected m
為了驗證邊坡滲壓RF預測模型效果,基于同樣的樣本訓練集,分別基于逐步回歸和BPNN建立邊坡滲壓預測模型。其中,BPNN模型網(wǎng)絡(luò)結(jié)構(gòu)為9-19-1,隱含層采用Sigmoid函數(shù);逐步回歸因子集與RF模型相同,為H,H2,H3,R3,R7,R15,R30,T,lnT。將逐步回歸模型、BPNN模型結(jié)果與RF模型進行比較,本文采用平均絕對誤差(MMAE)和平均相對誤差(MMAPE)兩個指標衡量擬合和預測性能,具體計算式為:
(4)
(5)
式中:L為樣本數(shù)。
3種模型擬合效果對比見表1。
以所建的3種邊坡滲壓預測模型,分別對后期2015年8月至10月的12組實測滲壓數(shù)據(jù)進行預測,3種模型預測結(jié)果對比見表2和圖5。
表1 3種模型擬合性能比較Tab.1 Comparison of fitting performance of three models
表2 3種模型預測性能比較Tab.2 Comparison of prediction performance of three models
圖5 3種模型滲壓預測效果圖Fig.5 Effect chart of seepage pressure prediction of three models
由表1可見,3種模型訓練樣本擬合效果均較好,尤以RF模型擬合效果最佳。表2中,使用RF模型、BPNN模型、逐步回歸模型,預測結(jié)果的平均絕對誤差分別為3.61%,7.02%和11.07%??梢?,RF模型的預測精度較高,且有較明顯改善,用于邊坡滲壓預測效果很好,是一種有效的邊坡滲壓預測方法。由圖5可以看出,3種模型預測值的變化趨勢與實際值大致相同,而RF算法滲壓預測模型預測值曲線更加貼近實際值曲線,有較高的預測精度,誤差值較小且變化比較均勻,穩(wěn)定性好,能更好地滿足滲壓變化預測的要求。
本文將RF算法應(yīng)用到邊坡滲壓預測領(lǐng)域,研究表明,所建立的邊坡滲壓RF預測模型能夠準確反映滲壓與影響因素之間的不確定性和非線性關(guān)系,能夠進行高精度擬合,進而實現(xiàn)對滲壓的準確預測,且具有較好的穩(wěn)定性,為邊坡滲壓預測問題提供了有效方法。