張研沁,狄宏規(guī),徐永剛
(1. 同濟大學(xué)道路與交通工程教育部重點實驗室,上海 200092;2. 寧波市軌道交通集團有限公司,浙江寧波 315100)
我國長三角地區(qū)地鐵線網(wǎng)規(guī)模大,軟土隧道沉降問題突出[1-2],如上海地鐵1 號線運營5 年后最大隧道累積沉降量超過200 mm[3]。過大的隧道沉降易造成結(jié)構(gòu)病害,如管片接縫張開與錯臺、開裂、襯砌滲漏水、軌面變形超限等[4]。這不僅會增加養(yǎng)護維修成本,還會影響地鐵線路結(jié)構(gòu)和運營安全,因此如何進行沉降控制和治理,是備受關(guān)注和亟待解決的問題。例如,上海、寧波、南京等城市均嘗試采用隧道底部注漿抬升或注漿加固穩(wěn)定的方法,對發(fā)生沉降的隧道進行治理[5-6]。但是,由于運營期施工空間和天窗時間有限,采用注漿進行沉降控制和治理相對困難且不經(jīng)濟。因此,若能在設(shè)計階段進行沉降預(yù)測或預(yù)處理,設(shè)計將更為有效。
導(dǎo)致隧道沉降的原因有很多,如軟弱地層、列車荷載作用、滲漏水、周邊開發(fā)等。不少學(xué)者分別研究和分析了列車循環(huán)荷載、周邊開發(fā)、隧道滲漏水、結(jié)構(gòu)形式[7-10]等單因素對隧道沉降的影響,然而長期沉降是由多因素耦合作用而引起的,因素難以剝離,單因素分析難以預(yù)測長期總沉降。現(xiàn)有的多因素分析方法(如智能算法)能夠預(yù)測隧道的長期沉降[11-13],考慮地鐵沉降的主要原因[14],但這類方法必須依賴所研究地鐵隧道的前期沉降數(shù)據(jù),在地鐵設(shè)計階段沒有該線路隧道前期沉降數(shù)據(jù)的情況下,往往不具備可行性。因此,現(xiàn)階段仍缺乏一個在設(shè)計階段實現(xiàn)、反映多因素耦合作用且具有一定準確度的地鐵盾構(gòu)隧道長期沉降預(yù)測模型。
筆者基于機器學(xué)習(xí)方法,建立了一個依托區(qū)域地質(zhì)信息和既有地鐵隧道的沉降資料,預(yù)測相似地區(qū)同類型線路長期沉降的預(yù)測模型。利用主成分分析(PCA),尋找沉降的主要影響因素以及縮減數(shù)據(jù)維度,比選5 種監(jiān)督學(xué)習(xí)算法在模型中的預(yù)測效果,并對較優(yōu)算法進一步調(diào)參,以南京地鐵2 號線為例進行算例分析,可為地鐵盾構(gòu)隧道的沉降預(yù)控提供一種新思路。
建立基于機器學(xué)習(xí)的地鐵盾構(gòu)隧道長期沉降預(yù)測模型的具體流程如圖1 所示,模型共包含原始數(shù)據(jù)集構(gòu)造與預(yù)處理、監(jiān)督學(xué)習(xí)算法比選、帶交叉驗證的網(wǎng)格搜索三大主要部分。數(shù)據(jù)集構(gòu)造與預(yù)處理是為了得到更適合訓(xùn)練的數(shù)據(jù),監(jiān)督學(xué)習(xí)算法比選與帶交叉驗證的網(wǎng)格搜索則是為了提高預(yù)測準確度。
監(jiān)督學(xué)習(xí)是最常見、最成功的機器學(xué)習(xí)類型,其中的輸入數(shù)據(jù)集是一個實例集,并以此得到輸出。每條實例相當于統(tǒng)計學(xué)中的樣本,其中元素包括標簽和屬性,如圖2 所示。標簽是機器學(xué)習(xí)的目標真值(即監(jiān)督),屬性則是影響標簽的各項因素。
本研究的數(shù)據(jù)集標簽為沉降,屬性為各影響因素,如土層性質(zhì)及隧道空間位置、地下水位變化、列車
圖1 建立沉降預(yù)測模型的流程 Figure 1 Flow chart of the settlement prediction model
圖2 數(shù)據(jù)集示意 Figure 2 Schematic of the dataset
振動荷載等。其中,土層性質(zhì)由土層參數(shù)和土層厚度數(shù)組表示,隧道空間位置由上覆土層、隧道層、下臥土層區(qū)分,地下水位由長期地表高程間接反映,列車振動荷載通過由列車時刻表計算的車速表征。由于數(shù)據(jù)資料限制,隧道滲漏水狀態(tài)、周邊施工等暫未考慮。
綜上分析,每條實例可表示為
式中:Sl為實例l 數(shù)組;sl表示實例l 某年后的沉降量;Cil表示實例l 第i 層土的土層參數(shù);hil表示實例l 第i層的土厚度;Gl表示實例l 的地面高程;vl表示實例l的車速。
需要指出的是,Cil中的土層參數(shù)結(jié)合地勘報告的數(shù)據(jù),可選取含水量w、重度γ、孔隙比e、塑性指數(shù)IP、液性指數(shù)IL、壓縮系數(shù)a、壓縮模量Es、黏聚力c、內(nèi)摩擦角φ、靜止側(cè)壓力系數(shù)K0等。經(jīng)過相關(guān)性分析和土力學(xué)知識證明,選取內(nèi)摩擦角、液性指數(shù)、孔隙比作為土層參數(shù)表征,這是一個三維數(shù)組,有
式中:ei為第i 層土孔隙比;ILi為第i 層土液性指數(shù);φi為第i 層土內(nèi)摩擦角。
此外,由于軟土地區(qū)地質(zhì)剖面圖中的土層一般不超過15 層,取上覆土1~7 層、隧道層、下臥土1~7層進行分析,即包含15×3 個土的參數(shù)、15 個土層厚度、1 個地面高程、1 個車速共62 個屬性。由于監(jiān)督學(xué)習(xí)的標簽要求為沉降真值,因此樣本數(shù)量m 取決于沿線沉降量測點數(shù),工程上一般每20 m 設(shè)置一個測點。
為使測試結(jié)果有效地反映全線范圍內(nèi)沉降預(yù)測的有效性,將數(shù)據(jù)集按照里程段分為多份(保證在全線范圍內(nèi)均勻),并在每一段內(nèi)隨機抽取10%的測點組成測試集(保證測試數(shù)據(jù)的選取隨機),其余部分組成訓(xùn)練集。為了消除各屬性量綱的影響,先對n 個屬性按列進行歸一化,得到的數(shù)據(jù)分布特性不變,數(shù)據(jù)大小介于0~1 之間。測試集的數(shù)據(jù)在建模期間默認為未知,因此歸一化操作僅在訓(xùn)練集中進行,之后再對測試集做與訓(xùn)練集同樣的縮放。另外,由于數(shù)據(jù)集維數(shù)較高,因此筆者采用主成分分析法進行數(shù)據(jù)降維降噪。
針對該模型的沉降預(yù)測效果,對以下5 種監(jiān)督學(xué)習(xí)算法進行比選:k 鄰近算法、線性回歸、決策樹回歸、核支持向量機、人工神經(jīng)網(wǎng)絡(luò)。k 鄰近算法適用于小型數(shù)據(jù)集,在數(shù)據(jù)量不大的情況下可能會得到更好的結(jié)果;線性回歸適用于龐大的數(shù)據(jù)集和高維數(shù)據(jù),在數(shù)據(jù)足夠豐富的情況下忽略非線性關(guān)系,能得到更加直觀的結(jié)果;決策樹可以可視化,并且可以創(chuàng)造精度更高的集成算法模型(如隨機森林或梯度提升樹等),對數(shù)據(jù)預(yù)處理要求較低;核支持向量機通過參數(shù)的調(diào)整能夠逼近任意函數(shù),很適合中等大小的數(shù)據(jù);人工神經(jīng)網(wǎng)絡(luò)通過隱藏層層數(shù)和節(jié)點數(shù)的調(diào)整,能夠達到極高的精確度,尤其適合龐大的數(shù)據(jù)集,并能夠通過聯(lián)網(wǎng)條件進行實時更新學(xué)習(xí)。
利用不同監(jiān)督學(xué)習(xí)算法構(gòu)造的模型在測試集上復(fù)出的分數(shù),比選出最適合沉降預(yù)測模型的監(jiān)督學(xué)習(xí)算法,如圖3 所示。
交叉驗證是一種評估泛化能力的統(tǒng)計學(xué)方法,將數(shù)據(jù)集多次劃分、學(xué)習(xí)、測試,并以測試集分數(shù)的均值反映整體泛化能力。網(wǎng)格搜索則是調(diào)參以提高泛化能力的典型方法,將每種參數(shù)取值組合下的測試集分數(shù)進行比選,得到泛化能力最高的參數(shù)取值組合。將兩者結(jié)合到一起,用交叉驗證來評估每種參數(shù)組合的性能,過程如圖4 所示。
圖3 監(jiān)督學(xué)習(xí)算法比選 Figure 3 supervised learning algorithm selection
圖4 帶交叉驗證的網(wǎng)格搜索 Figure 4 Grid search with cross-validation
數(shù)據(jù)來源于南京地鐵2 號線漢油段地勘報告、地質(zhì)剖面圖以及長期沉降監(jiān)測數(shù)據(jù)。線路自2010 年運營以來,資料保存完備,加之南京地區(qū)軟土分布廣泛,對于軟土區(qū)域盾構(gòu)隧道的長期沉降研究具有一定代表性,因此選取其進行算例分析。
圖5、6 分別為南京地鐵2 號線漢油段的地質(zhì)剖面圖和該區(qū)段運營9 年后的沉降曲線。將剖面圖轉(zhuǎn)化為各點的土層厚度、地面高程、隧道埋深等屬性,將沉降作為標簽分別輸入數(shù)據(jù)集。由于上、下行線路沉降趨勢相同,故本研究采用來自上行線路的共447 條數(shù)據(jù)。
圖5 算例地質(zhì)剖面圖 Figure 5 Geologic profile of the case
該算例58 個屬性(4 個0 列舍去)經(jīng)過主成分分析(PCA)后,數(shù)學(xué)變換為對標簽貢獻值逐漸減小的58 個主成分,其前21 個貢獻值之和已超過95%,故將余下的成分視為噪聲舍去,達到降低維數(shù)的目的,以方便后續(xù)模型的運算。
在21 個保留的主成分中,58 個屬性的重要程度熱力圖如圖7 所示,紅色、藍色分別表示正、負相關(guān),顏色越深表示因素越重要。由此,將因素劃分成模糊段1、清晰段1、模糊段2、清晰段2 四部分??梢钥闯?,影響隧道長期沉降的主要因素為隧道層附近幾層軟土的性質(zhì)(清晰段1)以及列車車速(清晰段2)。
采用不同監(jiān)督學(xué)習(xí)算法的模型,在訓(xùn)練集、測試集上的分數(shù)如表1 所示。該分數(shù)來自兩個數(shù)據(jù)集中預(yù)測值和標簽值的預(yù)測分數(shù)(回歸值R2),越接近1 代表預(yù)測越準確。顯然,有標簽提示的訓(xùn)練集分數(shù)高于沒有標簽 提示的測試集。
圖7 重要程度熱力圖 Figure 7 Attributes’ importance heat map
表1 監(jiān)督學(xué)習(xí)算法比選 Table 1 Supervised learning algorithm comparison
從表1 結(jié)果來看:K 鄰近在默認參數(shù)時,訓(xùn)練集和測試集分數(shù)接近,說明不調(diào)參的結(jié)果數(shù)據(jù)就已較好;線性回歸在測試集和訓(xùn)練集上的分數(shù)都很低,所以不考慮該方法;決策樹類在訓(xùn)練集上分數(shù)高而測試集上分數(shù)低,出現(xiàn)明顯的過擬合問題,所以需要調(diào)參;經(jīng)驗表明,核支持向量機和人工神經(jīng)網(wǎng)絡(luò)均十分依賴參數(shù)設(shè)置,因此需要調(diào)參。
對此,根據(jù)各算法函數(shù)中的參數(shù)對結(jié)果的影響和可取值的范圍,設(shè)置參數(shù)網(wǎng)格如表2 所示。分別采用帶交叉驗證的網(wǎng)格搜索進行枚舉計算,以確定最高交叉驗證平均分值的參數(shù)組合。
不同參數(shù)組合下的預(yù)測分數(shù)熱力圖分別如圖8(a)~(c)所示。對決策樹算法影響較大的兩個參數(shù)為最大樹深max_depth 和最大特征數(shù)max_features,它們在最優(yōu)組合下經(jīng)過10 折交叉驗證,訓(xùn)練集平均分數(shù)能夠達到0.69。同樣地,對核支持向量機算法影響較大的兩個參數(shù)為正則化參數(shù)C 和核寬度gamma,最優(yōu)組合下經(jīng)過10 折交叉驗證,訓(xùn)練集分數(shù)能夠達到0.8。經(jīng)過網(wǎng)格搜索,人工神經(jīng)網(wǎng)絡(luò)采用lbfgs 決策函數(shù)和relu 激活函數(shù),4 層隱藏層,alpha=10,且分數(shù)較高;隱藏層結(jié)構(gòu)為[40,60,60,50]時經(jīng)過10 折交叉驗證,訓(xùn)練集的平均分數(shù)最高,能達到0.82。
表2 參數(shù)網(wǎng)格 Table 2 Parameter grid
綜上所述,采用人工神經(jīng)網(wǎng)絡(luò)及對應(yīng)參數(shù),在本算例中,最終預(yù)測模型的沉降量預(yù)測值與真實值的預(yù)測分數(shù)為0.86,如圖9 所示。如前所述,測試集和訓(xùn)練集沿里程段均勻劃分,隨即均勻分布,代表全線沉降數(shù)據(jù),45 條(10%)測試集數(shù)據(jù)的里程隨機均勻分布于多個里程段內(nèi),在學(xué)習(xí)過程中不輸入沉降標簽,可以將其視作相同地鐵在類似地質(zhì)區(qū)域修建而沉降未知的
圖8 預(yù)測分數(shù)熱力圖 Figure 8 Scores heat map
圖9 模型預(yù)測結(jié)果 Figure 9 Model prediction results
情況。因此,對于沒有沉降標簽監(jiān)督的數(shù)據(jù),能夠預(yù)測其沉降,證明了在未知沉降量的情況下預(yù)測長期沉降的可能性;沉降預(yù)測準確度達到0.86,說明模型預(yù)測結(jié)果具有一定的可靠性。特別注意的是,個別誤差較大的點可能是由于未考慮周邊施工影響的不確定因素造成的。
1) 本研究基于機器學(xué)習(xí)方法,建立了盾構(gòu)隧道長期沉降模型。該模型能篩選主要影響因素,并尋找最佳算法和最優(yōu)參數(shù),對模型的泛化能力給予評價。該模型的算例驗證了在新建地質(zhì)情況明確的同類型地鐵中,能夠預(yù)測該新建地鐵的長期沉降,結(jié)果較為準確,為地鐵沉降預(yù)控提供新思路。在今后工程大數(shù)據(jù)的支持下,通過拓展數(shù)據(jù)集加強學(xué)習(xí),該模型的適用性和準確度還可能進一步提高。
2) 在監(jiān)督學(xué)習(xí)算法中,核支持向量機算法與人工神經(jīng)網(wǎng)絡(luò)算法對于該模型都能達到較高的精度,然而其對參數(shù)的依賴性很高,需要細致地調(diào)參才能提高預(yù)測精度。
3) 以人工神經(jīng)網(wǎng)絡(luò)算法作為監(jiān)督學(xué)習(xí)算法,調(diào)參后得到最終預(yù)測模型的預(yù)測準確度為0.86,10 倍交叉驗證的平均準確度為0.82;個別點的預(yù)測值與真值存在一定誤差,推測是由于預(yù)測模型中未考慮周邊施工影響等不確定因素而造成的。