王 飛,李東珺,閆 冬,王 威
(1.南陽(yáng)理工學(xué)院建筑與城市規(guī)劃學(xué)院,南陽(yáng) 473004;2.南陽(yáng)師范學(xué)院土木建筑工程學(xué)院,南陽(yáng) 473061;3.北京工業(yè)大學(xué)建筑與城市規(guī)劃學(xué)院,北京 100124)
中國(guó)是世界上震害最嚴(yán)重的國(guó)家之一,隨著城城鎮(zhèn)進(jìn)程的加快,許多中心城區(qū)面臨地震潛在次生災(zāi)害的風(fēng)險(xiǎn)日益增高[1-2]。由于飽和砂土或砂礫土液化導(dǎo)致的建筑物震陷是造成城區(qū)建筑物破壞的主要危害之一,也是衡量工程結(jié)構(gòu)失效與否的主要指標(biāo)之一[3-4]。因此,對(duì)建筑物震陷量進(jìn)行科學(xué)合理預(yù)測(cè)研究,是進(jìn)行地震小區(qū)劃及提出抗震對(duì)策措施的重要依據(jù)。
目前,關(guān)于建筑物液化沉降量的預(yù)測(cè)方法研究主要有兩類[5]:①確定性方法,如現(xiàn)場(chǎng)調(diào)查法和抽樣統(tǒng)計(jì)方法;②不確定性方法,如概率分析法、模糊數(shù)學(xué)法和人工神經(jīng)網(wǎng)絡(luò)等。一般來講,現(xiàn)場(chǎng)調(diào)查法是所有方法中最直觀、最可靠的方法,但存在工作量大、數(shù)據(jù)煩瑣、計(jì)算周期長(zhǎng)等缺陷。概率分析法雖能夠考慮和模擬隨機(jī)事件的不確定性,但具有結(jié)果不穩(wěn)定,沒有考慮隨機(jī)序列之間的相關(guān)性等缺陷。模糊數(shù)學(xué)理論在確定模糊算子時(shí),存在一定的主觀隨意性。人工神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練樣本和學(xué)習(xí)樣本的數(shù)量要求比較高。因此,有必要進(jìn)一步完善和豐富建筑物震陷量預(yù)測(cè)模型與方法。
高斯過程回歸(Gaussian process regression,GPR)是一種基于貝葉斯概率框架下的無參核方法[6-7]。該模型不僅可以對(duì)未知輸入進(jìn)行預(yù)測(cè),還可以先驗(yàn)概率的形式表征過程的先驗(yàn)知識(shí),從而提高模型性能,與BP(back propagation)神經(jīng)網(wǎng)絡(luò)與SVM(support vector machine)方法相比,其模型仿真參數(shù)更少,優(yōu)化和收斂過程也更易于實(shí)現(xiàn)。另外,高斯模型可從給定的樣本中選擇超參數(shù),對(duì)于其他機(jī)器學(xué)習(xí)方法則需要通過交叉驗(yàn)證的方法進(jìn)行獲取超參數(shù)。目前,許多學(xué)者將高斯模型廣泛應(yīng)用于不同的專業(yè)領(lǐng)域:如燕柳斌等[8]提出一種基于高斯過程機(jī)器學(xué)習(xí)的巖溶塌陷預(yù)測(cè)模型,并將其成功應(yīng)用于工程實(shí)例。夏戰(zhàn)國(guó)[9]針對(duì)軸承性能數(shù)據(jù)中的時(shí)序性難以回歸的問題,采用EM(expectation maximization)算法學(xué)習(xí)高斯回歸模型參數(shù),且采用Cholesky分解法降低算法復(fù)雜度,并與其他預(yù)測(cè)方法進(jìn)行驗(yàn)證對(duì)比分析。張?jiān)迄i等[10]針對(duì)圍巖變形的高度非線性問題,采用高斯過程回歸模型對(duì)日本及四川兩個(gè)變形隧道工程進(jìn)行仿真預(yù)測(cè)分析。龔艷冰等[11]為快速準(zhǔn)確預(yù)測(cè)洪澇災(zāi)害損失情況,提出基于高斯過程回歸模型的災(zāi)害損失預(yù)測(cè)方法,并成功應(yīng)用于重慶市的洪澇災(zāi)損仿真模擬過程中?;诖耍瑸榱颂岣吆透纳颇P偷姆夯芰皖A(yù)測(cè)精度,本文根據(jù)高斯過程理論和貝葉斯規(guī)則對(duì)訓(xùn)練樣本進(jìn)行的“歸納推理學(xué)習(xí)”,即綜合先驗(yàn)信息,調(diào)整各隨機(jī)變量的后驗(yàn)分布。采用EP(expectation propagation)算法,獲得預(yù)測(cè)樣本潛在函數(shù)的近似后驗(yàn)高斯分布,并與LSSVM(least squares support vector machine)模型、PLS(partial least squares)模型和MLR(multiple linear regression)模型進(jìn)行對(duì)比驗(yàn)證分析,結(jié)果分析驗(yàn)證了高斯過程回歸預(yù)測(cè)模型的精度性和可靠性[12-13]。
高斯過程又稱為正態(tài)隨機(jī)過程[14],設(shè)數(shù)據(jù)集D={(xi,yi),i=1,2,…,n}為模型的訓(xùn)練集,其中xi是其d維輸入變量,yi是目標(biāo)輸出。若f服從高斯分布,即:f~GP(m,k),則m(x)是函數(shù)m的均值函數(shù),k是協(xié)方差函數(shù)。根據(jù)高斯過程定義,均值函數(shù)f(x1),f(x2),…,f(xn)服從多元高斯分布,而且,m(xi)是多元高斯分布的均值向量,K是協(xié)方差矩陣,因此,服從高斯分布的均值函數(shù)可以描述為
f(xi)~MVN[m(xi),K],i=1,2,…,n
(1)
式(1)中:
(2)
(3)
式(3)中:K*=[k(x*,x1),k(x*,x2),…,k(x*,xn)],K**=k(x*,x*)。
根據(jù)多元高斯分布的條件形式,可以得出其回歸預(yù)測(cè)方程:
f*|X,y,X*~GP[m(x*),cov(f*)]
(4)
式(4)中:矩陣X是由xi列組成,矩陣X*是由xl*列組成。
(5)
(6)
根據(jù)上述分析,可以得出以下結(jié)論,協(xié)方差函數(shù)k的選擇對(duì)于高斯回歸過程分析至關(guān)重要。因此,協(xié)方差函數(shù)k必須滿足積分算子理論中Mercer定理?xiàng)l件,該定理?xiàng)l件的核函數(shù)可分為穩(wěn)態(tài)和非穩(wěn)態(tài)兩類。常用的平方協(xié)方差函數(shù)是指數(shù)函數(shù),即:
(7)
考慮到白噪聲的情況,式(7)可用式(8)替代:
(8)
在實(shí)際的高斯過程回歸模型預(yù)測(cè)研究中,一般會(huì)將協(xié)方差函數(shù)進(jìn)行預(yù)先設(shè)定[6],這樣可以使泛化更簡(jiǎn)單些。另外,在樣本數(shù)據(jù)分布的基礎(chǔ)之上,可以對(duì)較為復(fù)雜的情況進(jìn)行相關(guān)統(tǒng)計(jì)分析。為了使樣本數(shù)據(jù)更加清晰明確,有必要用更為復(fù)雜的協(xié)方差函數(shù)對(duì)樣本數(shù)據(jù)之間的關(guān)系進(jìn)行重新描述。
(9)
2008年汶川地震之后展開了液化專項(xiàng)考察,發(fā)現(xiàn)較多的飽和砂土液化現(xiàn)象,并導(dǎo)致了地表破壞、噴水冒砂、結(jié)構(gòu)不均勻震陷破壞等危害,影響范圍之廣[15],如圖1所示。
圖1 汶川地震中砂土液化破壞情況Fig.1 Sand liquefaction damage in Wenchuan Earthquake
一般來講,飽和砂土液化引起的建筑物震陷與三方面因素有關(guān)[5]:①地震動(dòng)方面,地震震級(jí)、烈度、地面峰值加速度和震中距等;②上部結(jié)構(gòu)特征方面,結(jié)構(gòu)類型、平面布置、基礎(chǔ)類型和荷載大小等;③地基土特性方面,土性、厚度、承載力、液化厚度及埋深等?;诖?,選取沉降因素為:地震烈度,長(zhǎng)高比,基底壓力,寬深比,土的相對(duì)密度,非液化層厚度和地下水位。不同烈度下基底壓力對(duì)建筑物沉降量的影響如表1所示,地基基礎(chǔ)震害等級(jí)劃分表詳如表2所示。
表1 基底壓力對(duì)多層建筑物沉降的影響Table 1 Effect of foundation pressures on induced settlements of multi-stones building
表2 地震基礎(chǔ)震害等級(jí)劃分程度Table 2 Gradation on seismic damage of foundation
強(qiáng)震導(dǎo)致承災(zāi)體發(fā)生沉降的原因相當(dāng)復(fù)雜,影響因素也比較繁多,主要是由于飽和砂土液化或軟黏土的軟化引起的,液化是造成建筑物發(fā)生震害的首要原因,大約50%以上的地基震害源于液化。鑒于此,在抗震防災(zāi)規(guī)劃設(shè)計(jì)里如能準(zhǔn)確預(yù)估液化沉降,可以為抗震措施提供重要依據(jù),借鑒李方明[5]液化判別及震陷預(yù)估思想,利用如日本新瀉地震液化震陷實(shí)例35個(gè)、唐山地震和海城地震實(shí)例20個(gè)及天津市建筑物震陷實(shí)例14個(gè),共計(jì)震陷實(shí)例69個(gè),選取其中61個(gè)樣本用來學(xué)習(xí)和測(cè)試,其中學(xué)習(xí)樣本41個(gè),測(cè)試樣本20個(gè),占樣本總數(shù)的33%,部分樣本數(shù)據(jù)如表3、表4所示。
表3 原始訓(xùn)練樣本Table 3 Original data of study samples
表4 原始測(cè)試樣本Table 4 Original data of forecast samples
PLS方法因能處理復(fù)共線性、高維性、強(qiáng)噪音、甚至數(shù)據(jù)缺失的復(fù)雜問題,而廣泛被應(yīng)用于統(tǒng)計(jì)學(xué)和災(zāi)害學(xué)等領(lǐng)域。PLS將因變量Y和自變量X進(jìn)行雙線性分解:Y=UQT+F,X=TPT+E,使得潛隱變量U和T盡可能多地?cái)y帶數(shù)據(jù)樣本中的變異矩陣信息,并使進(jìn)行最大重疊或相關(guān),即有:U=CT+e,系數(shù)C可以由最小二乘法求得,e為殘差矢量,以上要求表明:在提取U和T相關(guān)信息時(shí),盡可能代表Y和X的信息量,同時(shí)T對(duì)U又有最強(qiáng)的解釋能力。MLR是以多個(gè)解釋變量的給定值為條件的回歸分析,其一般表達(dá)形式為:Y=b0+b1X1+b2X2+…+bjXj+…+bkXk+μ,其中k是解釋變量的數(shù)目,bj(j=1,2,…,k)是回歸系數(shù),μ是去除k個(gè)自變量對(duì)Y影響的隨機(jī)誤差。MLR模型的參數(shù)估計(jì)出來后,即求出樣本回歸函數(shù)后,還需進(jìn)一步對(duì)該樣本回歸函數(shù)進(jìn)行統(tǒng)計(jì)檢驗(yàn),以判定其參數(shù)估計(jì)的可靠程度。LSSVM是基于多類核的機(jī)器學(xué)習(xí),其基本原理為:采用核函數(shù),根據(jù)Mercer定理,從原始空間抽取數(shù)據(jù)特征,將原始空間中的數(shù)據(jù)樣本映射為高維特征空間中的一個(gè)向量,從而可以解決線性不可分的難題,其是SVM的一個(gè)擴(kuò)展,可以表征為是SVM在二次損失函數(shù)下的一種形式,其只求解線性問題,且求解速度快,在函數(shù)逼近和估計(jì)方面有著廣泛應(yīng)用。
對(duì)于上述預(yù)測(cè)模型,需要對(duì)其進(jìn)行嚴(yán)格的統(tǒng)計(jì)交叉驗(yàn)證處理,以此來確定其有效性和是否處于病態(tài),采用內(nèi)外部相結(jié)合的方式來測(cè)試其可靠性,內(nèi)部驗(yàn)證主要有訓(xùn)練集擬和優(yōu)度(goodness-of-fit)和10重交叉驗(yàn)證(10-fold cross-validation)兩部分組成,10重交叉驗(yàn)證將訓(xùn)練集樣本均分為10組,每次抽出一組剩下9組進(jìn)行模型預(yù)測(cè),重復(fù)到每組都被抽中為止,以預(yù)測(cè)結(jié)果的優(yōu)劣程度作為評(píng)價(jià)標(biāo)準(zhǔn)。統(tǒng)計(jì)建模和交叉驗(yàn)證采用MATLAB工具箱ZP-explore[12-13]來完成,該程序已在各領(lǐng)域得到廣泛應(yīng)用和驗(yàn)證,并確認(rèn)了其科學(xué)性與可靠性。
基于上述建模思路,分別采用MLR、PLS、LSSVM和GPR在原始訓(xùn)練學(xué)習(xí)樣本基礎(chǔ)上進(jìn)行預(yù)測(cè)建模,在此過程中,除了GPR模型無須人為干預(yù),采用內(nèi)嵌最大化邊際似然法自動(dòng)獲取超參數(shù)外,其他三種方法均須選取模型參數(shù)確定策略,經(jīng)模型計(jì)算可確定超參數(shù),整體尺度的超參數(shù)overall scales為z1=0.337 5、z2=0.121 4、z3=1.384 6、z4=0.000 5。長(zhǎng)度尺度的超參數(shù)length scales為:r1=10.660 3、r2=10.664 7、r3=10.660 6、r4=10.664 1、r5=10.662 9、r6=10.603 2。另外,其他三種統(tǒng)計(jì)方法也分別對(duì)訓(xùn)練集和測(cè)試集樣本進(jìn)行建模分析。對(duì)于MLR模型參數(shù)的選擇和確定,考慮利用最大似然估計(jì)得到其參數(shù)估計(jì)值,經(jīng)模型計(jì)算可得其回歸系數(shù)為b0=0.013 8、b1=0.015 8、b2=0.002 4、b3=0.000 6、b4=-0.024 9、b5=-0.191 3、b6=0.001 1、b7=0.000 5。PLS模型最佳潛變量的數(shù)目由10-fold cross-validation確定,即:依次向該模型增加潛在變量的數(shù)目,同時(shí)得到其均方根誤差值(RMSCV)的大小,直到達(dá)到其最小時(shí)的潛變量個(gè)數(shù)為最佳,經(jīng)模型計(jì)算得到其最佳個(gè)數(shù)為1。LSSVM的建模思路是基于SVM方法基礎(chǔ)之上的,該模型采用核函數(shù)擬采取RBF核函數(shù),并基于網(wǎng)格的搜索方法來確定相關(guān)參數(shù)取值,在一定程度上提高了該模型的預(yù)測(cè)精度,為了與GPR模型進(jìn)行對(duì)比驗(yàn)證分析,四種模型的樣本訓(xùn)練集和測(cè)試集震陷量預(yù)測(cè)對(duì)比分析示意圖如圖2所示,非線性GPR模型測(cè)試集預(yù)測(cè)結(jié)果給出了90%置信區(qū)間。
表5 GPR模型與其他模型參數(shù)對(duì)比Table 5 Contrast of parameter analysis between GPR and other models
圖2 四種統(tǒng)計(jì)模型擬合預(yù)測(cè)結(jié)果Fig.2 Fitting prediction result of four statistical models
以上研究表明:非線性預(yù)測(cè)模型GPR模型表現(xiàn)出了優(yōu)秀的擬合和預(yù)測(cè)能力,相比來看,線性模型MLR和PLS模型表現(xiàn)較差,可看出 GPR和LSSVM模型表現(xiàn)出了良好的適應(yīng)能力和執(zhí)行能力,兩種模型訓(xùn)練樣本和測(cè)試樣本預(yù)測(cè)值和實(shí)際震陷量值較為接近,如圖3所示,表明兩種模型均有較強(qiáng)的自學(xué)能力和外推能力。也進(jìn)一步驗(yàn)證了模型的可靠性與適用性。
圖3 模型預(yù)測(cè)對(duì)比分析Fig.3 Comparison analysis of several models
(1)研究充分考慮建筑物震陷量的形成機(jī)理,構(gòu)建了建筑物震陷預(yù)測(cè)的高斯過程回歸非線性模型,該模型通過對(duì)原始訓(xùn)練樣本和測(cè)試樣本的預(yù)測(cè)后,建立了基于各輸入因素和輸出因素之間的非線性關(guān)系,并通過模型仿真對(duì)比分析和蒙特卡洛交叉驗(yàn)證,與其他統(tǒng)計(jì)模型進(jìn)行對(duì)比驗(yàn)證分析,顯示了模型優(yōu)勢(shì)之處。
(2)目前由于相關(guān)建筑物震陷實(shí)測(cè)基礎(chǔ)資料較少,在模型仿真過程中會(huì)導(dǎo)致數(shù)據(jù)過于離散化,因此會(huì)造成其預(yù)測(cè)精度不高,故須要增加新的實(shí)測(cè)學(xué)習(xí)樣本資料,并通過模型訓(xùn)練提高其泛化能力,進(jìn)一步提高其預(yù)測(cè)仿真效果及模型的適用性。