黃 思 嵐,楊 杰,屈 旭 東
(1.西安理工大學 水利水電學院,陜西 西安 710048; 2.西安理工大學 西北旱區(qū)生態(tài)水利工程國家重點實驗室培育基地,陜西 西安 710048)
對混凝土壩變形監(jiān)測數(shù)據(jù)進行分析是壩體及壩基安全性態(tài)評價的重要內(nèi)容[1-2],而通過各種數(shù)學、力學、有限元等方法對監(jiān)測數(shù)據(jù)建立監(jiān)測模型是了解大壩安全的重要定量分析方法。目前,應用較多的混凝土壩安全監(jiān)測模型有統(tǒng)計模型、確定性模型、混合型模型和組合模型等[3],不同的模型具有不同的優(yōu)缺點[4-6],有的具有較強的非線性擬合能力[7],有的具有自學習能力[8]。但多數(shù)監(jiān)測模型對監(jiān)測數(shù)據(jù)在完整性、代表性、有效性等方面的要求較高,對于非穩(wěn)定性數(shù)據(jù)序列則常會表現(xiàn)出模型預測精度不高、泛化性較差、受訓練樣本分布影響較大問題,影響了模型的可靠性和實用性。因此,如何合理選取影響大壩變形的影響因子,并對其監(jiān)測數(shù)據(jù)進行預處理,從而保證數(shù)據(jù)的可靠性,最終提高監(jiān)測模型的精確性、穩(wěn)定性及泛化性是目前安全監(jiān)測研究的熱點問題之一[9-10]。
針對上述問題,本文引入鄰域粗糙集理論(Neighborhood Rough Set,NRS)和隨機森林算法(Random Forest,RF)。鄰域粗糙集理論[11]可對影響混凝土壩變形的影響因子進行約簡,消除冗余信息,能有效處理復雜變量間的多重共線性問題,從而提高監(jiān)測模型的解釋能力。隨機森林算法[12-14]適用于非穩(wěn)定性數(shù)據(jù),且不易出現(xiàn)過擬合現(xiàn)象,預測精度較高?;谏鲜鰞煞N方法,建立NRS-RF安全監(jiān)測模型,從而實現(xiàn)對混凝土壩變形的高精準預測。
經(jīng)典粗糙集理論是由Pawlak教授提出[15],核心理論是其不需要提供與相關問題數(shù)據(jù)集合之外的任何先驗信息,并經(jīng)過屬性約簡來找出數(shù)據(jù)內(nèi)的隱藏信息。但經(jīng)典粗糙集理論在對連續(xù)型數(shù)據(jù)進行處理時有一定的局限性,需要先用離散化方法將連續(xù)型屬性轉化為符號性數(shù)據(jù)[16],由于這一處理過程改變了數(shù)據(jù)初始的屬性性質,會造成數(shù)據(jù)原始的信息損失,導致結果分析的不精確[17]。為了解決經(jīng)典粗糙集方法的這一不足,Lin[18]提出了鄰域系統(tǒng),在此基礎上胡清華[19]等進一步提出了鄰域粗糙集理論。鄰域粗糙集不僅能對離散型數(shù)據(jù)和連續(xù)型數(shù)據(jù)進行處理與約簡,還保留了數(shù)據(jù)的原始信息。
對于論域中的任一xi∈U,B?C,xi的鄰域表達式為
δB(xi)=xj|xj∈U,ΔB(xi,xj)≤δ
(1)
式中:Δ為距離函數(shù),δ為鄰域大小。
(2)
由此,可定義決策屬性D對條件屬性B的依賴度,其表達式為
γB(D)=POSB(D)/U
(3)
式中:γB(D)反映了條件屬性B逼近于決策屬性D的能力,其中,0≤γB(D)≤1。正域越大,說明決策屬性D對條件屬性B的依賴度越大,如果γB(D)的值越趨近于1,則決策屬性D越依賴于條件屬性B。γB(D)是單調(diào)的,假設B1?B2?…?C,則γB1(D)≤γB2(D)≤…≤γC(D)。
在鄰域決策系統(tǒng)中,B?C,a∈B,則可將屬性a相對于B的重要度定義為
Sig(a,B,D)=γB(D)-γB-a(D)
(4)
如果B滿足:① ?a∈B,γB-a(D)<γB(D),②γB(D)=γA(D)這兩個條件,則稱B?C是A的一個約簡。為了找到合適的屬性約簡方法,胡清華[19]等提出了基于鄰域模型的前向貪心數(shù)值屬性約簡,此算法是根據(jù)屬性集合重要度為指標構造出貪心式屬性約簡算法。算法的核心思想是以空集為起點,計算全部剩余屬性的重要度,然后選擇最大重要度值的屬性加入約簡集合中,直到所有剩余屬性的重要度為0,之后加入新的屬性,系統(tǒng)的依賴性函數(shù)值不再發(fā)生變化。輸入:鄰域決策系統(tǒng)〈U,C∪D,V,f〉和鄰域半徑集合;輸出:約簡red。算法的過程如下:
(1) 計算出每個屬性ai的決策正域,找到最大正域;
(2) 對每個ai∈C-red,計算Sig(ak,red,D)=γred∪ai(D)-γred(D),在此定義γφ(D)=0;
(3) 選擇滿足Sig(ak,B,D)=maxi{Sig(ai,red,B)}的屬性ak。
(4) If Sig(ak,red,D)>0,
red∪ak→red
go to step 2
else
returnred
(5) end。
隨機森林是一種統(tǒng)計學習理論,已在很多領域有了一定的應用[20-22]。其算法是由Breiman[23]提出的一種由多個決策樹組成的分類回歸模型。選取Bootstrap重抽樣抽樣方法從訓練集中隨機抽取樣本集,隨機森林的決策樹是基于CART算法進行節(jié)點分裂,依照規(guī)則,對樣本集進行一分為二的分割,以二分遞歸方式來形成決策樹。采用袋裝法和隨機子空間法進行訓練樣本的抽樣和決策樹的生成,每棵決策樹在生長過程中不進行剪枝,盡最大可能生長,將生成的多棵決策樹組成隨機森林分類器,使用該分類器對數(shù)據(jù)進行分類,對于得出的結果采用投票方式?jīng)Q定新樣本的類別,來進行數(shù)據(jù)的預測。
(1) 訓練集中有M個樣本,利用Bootstrap隨機且可放回地重復抽取n個不同的樣本集作為訓練集來構建決策樹,每次未被抽中的數(shù)據(jù)組成n組袋外數(shù)據(jù)(out-of-bag,OOB)。
(2)n個樣本集生成相對應的n棵決策樹,每棵決策樹的葉節(jié)點從訓練集的p個變量中任意抽取mtry個變量,從中選擇最優(yōu)屬性進行分裂生長。
(3) 每棵決策樹自然生長不剪枝。
(4) 利用測試樣本對隨機森林模型進行測試,n個決策樹產(chǎn)生n個結果,最后的預測結果由服從多數(shù)決定原則的投票策略來預測。
隨機森林模型參數(shù)包含ntree和mtry,這兩個參數(shù)對模型預測的精度和穩(wěn)定性有重要的影響。ntree是指隨機森林模型中產(chǎn)生的決策樹的個數(shù),一般不少于100。mtry是指決策樹分裂時產(chǎn)生的節(jié)點個數(shù),影響著決策樹之間的聯(lián)系性、算法的強度及模型的精確度,根據(jù)文獻[24]得到:
mtry=log2s
(5)
(6)
式中:s為模型輸入變量個數(shù),[·]表示向下取整。隨機森林模型使用自舉法Bootstrap得到不同參數(shù)下的OOB誤差,選取誤差最小的參數(shù)值為最優(yōu)參數(shù)。
根據(jù)混凝土壩結構性態(tài)的一般規(guī)律可知,壩體在水壓力、泥沙壓力、溫度、地震荷載等影響因素作用下,會產(chǎn)生變形、應力、應變、滑動力、裂縫開度、滲流等效應量[2]。而這些效應量呈現(xiàn)出非線性發(fā)展的趨勢,因此采用一般的多元線性回歸難以解決混凝土壩安全性態(tài)的預測問題,本文提出用鄰域粗糙集和隨機森林方法來對混凝土壩變形進行預測。同時,為了準確獲取核心影響因子,減輕隨機森林模型的運算量,采用鄰域粗糙集對初始數(shù)據(jù)進行屬性約簡,以消除冗余信息來提高隨機森林算法的預測精度?;诖?,本文構建基于NRS-RF的混凝土壩變形監(jiān)測模型,其建模流程如下(見圖1)。
圖1 基于NRS-RF的混凝土壩變形監(jiān)測模型Fig.1 Concrete dam deformation monitoring model based on NRS-RF
(1) 采用統(tǒng)計學方法對混凝土壩監(jiān)測數(shù)據(jù)進行粗差處理,確保監(jiān)測數(shù)據(jù)的可靠性,同時將數(shù)據(jù)集劃分為訓練集和測試集。
(2) 采用鄰域粗糙集對影響混凝土壩變形的影響因素進行屬性約簡,得到核心影響因素。
(3) 將核心影響因素作為隨機森林模型的輸入變量。
(4) 通過訓練集進行模型訓練,利用Bootstrap抽樣方法進行隨機抽樣,獲得隨機訓練樣本,通過分析OOB誤差與參數(shù)ntree的關系曲線,確定模型最優(yōu)參數(shù)。
(5) 將測試集核心影響因素輸入到訓練好的最優(yōu)參數(shù)預測模型,獲得相應的變形預測結果。
周寧水電站位于福建省境內(nèi),總裝機容量250 MW,水庫總庫容為4 700萬m3,設計洪水位633.00 m。電站樞紐攔河壩為碾壓混凝土重力壩,建基面高程562.00 m,最大壩高73.40 m。該混凝土壩壩頂水平位移監(jiān)測采用引張線法,共布置11個測點,其中工作測點9個,分設于每個壩段頂部;校核基點2個,分設于引張線左、右兩端,以校測引張線端點位移(見圖2)。
圖2 大壩壩頂引張線測點平面布置Fig.2 Plane of monitoring and measuring points for extension line at the dam top
按照模型因子選取準則,選定該工程壩頂引張線2010年1月1日至2011年8月25日EX1測點水平位移數(shù)據(jù)(向下游為正,反之為負)為模型因變量樣本,庫區(qū)壩前水深(以建基面高程562.00 m為基準水深)、氣溫及其衍生變量數(shù)據(jù)(水壓分量取2008年1月1日為基準日,壩前水深為68.81 m)為模型自變量(共計10個)樣本,共計602個樣本。對原始樣本數(shù)據(jù)進行預處理(粗差剔除和自變量數(shù)據(jù)標準化處理),訓練樣本個數(shù)為571,測試樣本個數(shù)為31,并以此為基礎,進行基于OLS和NRS-RF的混凝土壩變形安全預測模型的應用研究。水位過程線如圖3所示,溫度過程線如圖4所示,經(jīng)過粗差處理的EX1測點水平位移過程線如圖5所示,由圖3~5可知,溫度對壩體水平位移有重要影響,溫度越高,大壩向上游的變形位移越大,溫度降低,則向下游的位移增大;水位升高,其向下游的變形位移增大,反之則向上游的位移增大。
圖3 水位變化過程線Fig.3 Water level process line
圖4 溫度變化過程線Fig.4 Temperature process line
圖5 位移過程線Fig.5 Displacement process line
因此,本文選取水位分量、時效分量、溫度分量作為模型的主要影響因素來分析,構建如下的混凝土壩變形的統(tǒng)計模型[2]:
δ=δH+δT+δθ=a0+a1H+a2H2+a3H3+b1T1+
b2T5+b3T20+b4T60+b5T90+c1θ+c2lnθ
(7)
式中:a0為常數(shù)項,a1~a3,b1~b5,c1~c2為回歸系數(shù);H,H2,H3為水位變量;Ti為監(jiān)測前i天(或旬)的氣溫和水溫的均值,i=1,5,20,60,90d;θ為相對于始測日的累計時間除以100。
根據(jù)以上選取的監(jiān)測數(shù)據(jù)進行鄰域粗糙集屬性約簡。在此鄰域決策系統(tǒng)內(nèi)DS=〈U,A,V,f〉,U=x1,x2,x3,…,xn為樣本空間,A={a1,a2,a3,…,a11}為條件屬性和決策屬性集合,其中條件屬性C=a1,a2,a3,…,a10分別表示水位變量H,H2,H3;時效變量θ,lnθ;監(jiān)測前5 d的溫度變量T5、監(jiān)測前20 d的溫度變量T20、監(jiān)測前60 d的溫度變量T60、監(jiān)測前90 d的溫度變量T90、監(jiān)測前1 d的溫度變量T1。決策屬性D=a11為大壩變形值。采用MATLAB軟件對監(jiān)測數(shù)據(jù)進行條件屬性約簡,設置將屬性重要度低于0.3的條件屬性剔除,約簡后得到符合要求的條件屬性。約簡結果如表1所示。
表1 鄰域粗糙集屬性約簡結果Tab.1 Neighborhood Rough Set attribute reduction results
由表1可以看到:屬性重要度低于0.3的條件屬性(水位變量a3,時效變量a4、a5,溫度變量a6、a9) 是被約簡的冗余屬性,而表1中被篩選出來的條件屬性對決策屬性(大壩變形a11)的影響程度較大,且起著關鍵作用,其中監(jiān)測前20 d的溫度變量T20(a7) 的屬性重要度最大,對決策屬性的影響程度最大。
4.4.1模型輸入變量
根據(jù)上述鄰域粗糙集屬性約簡分析結果,將預測模型的輸入變量選為H,H2,T20,T60,T1作為隨機森林模型的輸入變量。
4.4.2隨機森林參數(shù)優(yōu)化選取
根據(jù)上文所述,mtry參數(shù)的選取與輸入變量的個數(shù)有關,通過鄰域粗糙集約簡后的結果得出輸入變量的個數(shù)為5個,因此,mtry=1;由圖6可知,當ntree的值等于2 800時誤差最小,因此,ntree=2 800。
圖6 ntree與袋外誤差的關系Fig.6 Reletionship between ntree and OOB error
4.4.3結果分析
本文選取監(jiān)測點EX1 2010年1月1日至2011年7月25日的監(jiān)測數(shù)據(jù)進行訓練,圖7為前100個訓練數(shù)據(jù)與擬合數(shù)據(jù)對比結果。由圖7可知,訓練期的位移值在-4.87~2.28 mm之間波動,NRS-RF的擬合數(shù)據(jù)與實測數(shù)據(jù)的變化趨勢幾乎相同,且以均方根誤差作為模型擬合的評價指標,NRS-RF模型的擬合誤差為0.093,OLS模型的擬合誤差為0.868,由此可以說明NRS-RF模型擬合的準確性高、誤差小,效果較好。選取2011年7月26日至2011年8月25日的監(jiān)測數(shù)據(jù)進行預測,由圖8可知,預測期的位移值在-4.62~1.94 mm之間波動,NRS-RF模型預測的趨勢與實測數(shù)據(jù)的變化趨勢較為接近。因此,NRS-RF模型預測精度較高。
圖7 訓練實測數(shù)據(jù)與擬合數(shù)據(jù)對比Fig.7 Comparision of training measured data and fitted data
圖8 實測數(shù)據(jù)與預測數(shù)據(jù)對比Fig.8 Comparison of measured data and forecasted data
4.4.4模型預測性能分析
為了對NRS-RF模型進行預測性能分析,采用可以反映實測值和預測值誤差實際情況的均方根誤差RMSE(root-mean-square error)、平均絕對誤差MAE(Mean Absolute Error)及可反映實測值與預測值之間的相關程度的決定系數(shù)R2(R-squared)為模型評價指標。
(8)
(9)
(10)
分析圖8和表2可知:相比于傳統(tǒng)的統(tǒng)計學方法OLS模型的預測結果和各項評價指標,基于NRS-RF的混凝土壩變形監(jiān)測模型預測的水平位移RMSE低于0.3,MAE低于0.2,均處于較低的區(qū)間。因此,基于NRS-RF的混凝土壩變形預測模型預測性能較佳,預測結果更接近真實數(shù)據(jù)。
表2 模型預測性能比較Tab.2 Comparison of predictive performance of different models
本文針對目前混凝土壩變形監(jiān)控模型精準度、穩(wěn)定性及泛化性等方面的不足,提出基于鄰域粗糙集與隨機森林混凝土壩變形監(jiān)控模型。NRS-RF監(jiān)控模型的組合優(yōu)勢是:基于鄰域粗糙集模型的前向貪心數(shù)值屬性約簡來對混凝土壩變形影響因素進行屬性重要度約簡,進而得到核心影響因素。通過實例驗證,建立評價指標體系,進行模型預測性能分析,證實了NRS-RF組合模型的均方差和平均絕對誤差均較小,相關程度的決定系數(shù)較大,說明NRS-RF模型擬合效果較好、預測精度較高。