王仁超,馬鈺明
(天津大學(xué) 水利工程仿真與安全國家重點(diǎn)實(shí)驗(yàn)室,天津 300072)
大型水工建筑物變形監(jiān)測是掌握建筑物運(yùn)行工作性態(tài)、保障建筑物運(yùn)行安全的重要工作之一[1-3]。位移是大壩、渡槽等大型水工建筑物在內(nèi)外部環(huán)境影響下的直觀可靠監(jiān)測量,對(duì)位移觀測數(shù)據(jù)進(jìn)行科學(xué)分析并建立實(shí)時(shí)預(yù)測模型是大型水工建筑物安全監(jiān)測領(lǐng)域里的重要研究內(nèi)容[4-9]。傳統(tǒng)的數(shù)學(xué)監(jiān)測模型有統(tǒng)計(jì)模型、確定性模型和混合模型[7-12]。基于數(shù)理統(tǒng)計(jì)的多元回歸模型在具有復(fù)雜和高度非線性行為的變形預(yù)測中逐漸體現(xiàn)出局限性[10]。近些年來,伴隨著計(jì)算機(jī)科學(xué)的發(fā)展,機(jī)器學(xué)習(xí)模型在大型水工建筑物變形監(jiān)測中應(yīng)用廣泛[12]。Mata 等[13]驗(yàn)證了用人工神經(jīng)網(wǎng)絡(luò)監(jiān)測混凝土壩工作性能的有效性;李明軍等[14]用改進(jìn)粒子群算法優(yōu)化的極限學(xué)習(xí)機(jī)對(duì)拱壩的變形進(jìn)行預(yù)測;王彥磊等[15]改進(jìn)了隨機(jī)森林算法,并對(duì)渡槽的位移進(jìn)行了預(yù)測;姜振翔等[16]引入支持向量機(jī)建立重力壩的變形監(jiān)測模型。隨著機(jī)器學(xué)習(xí)算法的不斷發(fā)展,相關(guān)建筑物的變形預(yù)測精度也不斷被提升,其中核極限學(xué)習(xí)機(jī)(kernel extreme learning machine,KELM)[17]是Huang 等提出的一種基于前饋神經(jīng)網(wǎng)絡(luò),并通過引入核函數(shù)與正則化系數(shù)的新機(jī)器學(xué)習(xí)算法。與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)相比,核極限學(xué)習(xí)機(jī)不但學(xué)習(xí)速度快,精度高,同時(shí)還降低了隨機(jī)映射和樣本噪聲對(duì)模型的影響,具有更好的預(yù)測效果[18]。
本文采用核極限學(xué)習(xí)機(jī)網(wǎng)絡(luò)建立重力壩的變形預(yù)測模型,考慮到變形影響因子與位移監(jiān)測序列之間具有復(fù)雜高維非線性關(guān)系,影響模型的精度和泛化能力,采用主成分分析法(principal component analysis,PCA)對(duì)多維度的樣本變量進(jìn)行降維處理,降維后的樣本序列依舊蘊(yùn)含建筑物變形的效應(yīng)量與水壓、溫度、時(shí)效等因子之間的關(guān)系。同時(shí)為進(jìn)一步提升KELM 網(wǎng)絡(luò)的預(yù)測精度,引入布谷鳥搜索算法,在全局范圍內(nèi)高效尋找最優(yōu)解,為模型提供更精確的網(wǎng)絡(luò)參數(shù)。最后,建立基于PCA 和CS-KELM 算法的變形預(yù)測模型,以某混凝土重力壩為研究對(duì)象,對(duì)變形位移監(jiān)測序列進(jìn)行預(yù)測,驗(yàn)證模型的預(yù)測效果。
主成分分析法是一種多變量分析方法[19],主要思想是組合成新的綜合指標(biāo)表達(dá)原有變量相關(guān)性,可兼顧降低模型輸入變量維數(shù)和提取主要信息。通過構(gòu)造新變量代替原變量,將原變量的n維特征映射到新變量的k維特征上(k 設(shè)有數(shù)據(jù)集X={x1,x2,···,xm},經(jīng)過投影變換后的新坐標(biāo)系為W={w1,w2,···,wm},通過最大投影方差法得到目標(biāo)函數(shù): 使用拉格朗日乘子法求解式(1),得 λ為協(xié)方差矩陣XXT的特征值,對(duì)其進(jìn)行排序:λ1≥λ2≥···≥λm,得到累計(jì)貢獻(xiàn)率為。 核極限學(xué)習(xí)機(jī)是在單隱含層前饋神經(jīng)網(wǎng)絡(luò)極限學(xué)習(xí)機(jī)的基礎(chǔ)上,通過引入核函數(shù)映射和正則化理論優(yōu)化模型網(wǎng)絡(luò),提高精度和泛化能力的同時(shí)降低網(wǎng)絡(luò)的復(fù)雜度和隨機(jī)性。 對(duì)于n個(gè)不同樣本(xi,ti),i=1,2,···,n,當(dāng)ELM 網(wǎng)絡(luò)的隱含節(jié)點(diǎn)為L,激活函數(shù)為g(x) 時(shí),其表達(dá)形式[20]為: 式中:β為輸出層權(quán)重矩陣;ωi和bi為第i個(gè)隱含層節(jié)點(diǎn)的權(quán)重和偏置;T為樣本期望輸出矩陣。 對(duì)式(()5)引(入核函)數(shù),代替原有的隨機(jī)映射關(guān)系,定義核函數(shù)矩陣ΩELM=HHT,其中的元素為ΩELM(i,j)=,則標(biāo)準(zhǔn)KELM網(wǎng)絡(luò)的輸出為: 常見的核函數(shù)的形式有線性核函數(shù)、Sigmoid 核函數(shù)、多項(xiàng)式核函數(shù)和RBF 核函數(shù)[21],本文選用RBF 核函數(shù),表達(dá)式如下: 因此,正則化系數(shù)C和核參數(shù)δ 是影響KELM 網(wǎng)絡(luò)性能的關(guān)鍵因素。 布谷鳥算法(Cuckoo search,CS)是一種模擬布谷鳥的寄生育雛行為的新型元啟發(fā)算法。該算法通過初始化種群、Levy 飛行搜索、淘汰劣解鳥巢、更新最優(yōu)鳥巢4個(gè)部分操作,最終輸出符合優(yōu)化目標(biāo)鳥巢(最優(yōu)解)。研究表明,CS 算法比遺傳算法、粒子群算法具有更高的精度[22]。 設(shè)定用于淘汰低質(zhì)量鳥巢的適應(yīng)度函數(shù),本文選擇均方誤差為目標(biāo)函數(shù): Levy 飛行搜索鳥巢的過程中,包含基于隨機(jī)游動(dòng)的局部搜索和偏好游動(dòng)的全局搜索兩個(gè)部分?;陔S機(jī)游走尋優(yōu)搜索,其位置更新方程如下: 式中:?0為搜索步長;u、ν為標(biāo)準(zhǔn)正態(tài)分布隨機(jī)數(shù);為第m代中第i個(gè)鳥巢的位置;為第m代中最優(yōu)鳥巢的位置;φ的取值如下:,β為萊維飛行系數(shù),取1.5。 參數(shù)優(yōu)化后的KELM 網(wǎng)絡(luò)適合于非線性函數(shù)的擬合,學(xué)習(xí)速度和精度均優(yōu)于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型。變形影響因子與位移監(jiān)測序列之間存在復(fù)雜的高維非線性,為提升模型的預(yù)測精度和泛化能力,用PCA 算法對(duì)變形影響因子進(jìn)行降維,優(yōu)化KELM 網(wǎng)絡(luò)的輸入變量,構(gòu)建變形預(yù)測模型,其具體步驟如圖1 所示。首先針對(duì)變形影響因子進(jìn)行主成分提取,選取前v個(gè)累計(jì)貢獻(xiàn)率達(dá)95%的主成分。然后建立布谷鳥尋優(yōu)算法優(yōu)化的核極限學(xué)習(xí)機(jī)網(wǎng)絡(luò),并在Matlab 軟件上構(gòu)建該網(wǎng)絡(luò)。布谷鳥尋優(yōu)算法優(yōu)化核極限學(xué)習(xí)機(jī)的過程如下: 圖1 變形預(yù)測模型構(gòu)建流程Fig.1 Flowchart of deformation prediction model 步驟1:初始化鳥巢群體,隨機(jī)生成方案分配于矩陣X中。設(shè)置鳥巢數(shù)量n為20 個(gè),發(fā)現(xiàn)概率為0.25,迭代次數(shù)m為50。 步驟2:計(jì)算已生成鳥巢的適應(yīng)度值Fi,并找到當(dāng)前最優(yōu)適應(yīng)度鳥巢Xbest。 步驟3:通過Levy 飛行搜索新鳥巢,并比較新鳥巢與上一階段最優(yōu)鳥巢Xbest之間的適應(yīng)度值,將適應(yīng)度更好的鳥巢更新為最優(yōu)鳥巢Xbest,否則維持原狀,此時(shí)Xbest為當(dāng)前的最優(yōu)解。 步驟4:淘汰被發(fā)現(xiàn)的劣質(zhì)鳥巢,加入新鳥巢,保持鳥巢的群體數(shù)量不變。 步驟5:迭代m次后,對(duì)比迭代前后的適應(yīng)度值,將更優(yōu)適應(yīng)度的鳥巢放入下一代鳥巢群體中。 步驟6:迭代完成,輸出全局最佳解,得到KELM 網(wǎng)絡(luò)的最優(yōu)正則化系數(shù)C和核參數(shù)δ 值。 將提取后的主成分變量輸入到優(yōu)化后的KELM 網(wǎng)絡(luò)中,進(jìn)行位移變形預(yù)測。最后采用多種指標(biāo)評(píng)價(jià)模型的性能,如確定性系數(shù)、平均絕對(duì)百分比誤差、平均絕對(duì)誤差和均方根誤差等。 某碾壓混凝土重力壩由7 個(gè)壩段組成,布置有正垂線、倒垂線、引張線等多種變形監(jiān)測儀器。選用某壩段某測點(diǎn)水平位移X方向(沿壩軸方向)和Y方向(上下游方向)的自動(dòng)化監(jiān)測數(shù)據(jù)建立預(yù)測模型。以2005 年6 月1 日至2008 年2 月25 日的1 000 個(gè)監(jiān)測數(shù)據(jù)為訓(xùn)練集,2008 年2 月26 日至2008 年9 月13 日的200 個(gè)監(jiān)測數(shù)據(jù)為測試集。大壩變形主要由水壓分量 δH、溫度分量 δT和時(shí)效分量 δθ組成,δ=δH+δT+δθ。根據(jù)統(tǒng)計(jì)模型,確定重力壩變形各分量的構(gòu)成因子。水壓分量,Hi?(i=1,2,3);溫度分量,);時(shí)效分量,θ?θ0、ln(θ?θ0),分別用X1~X9 表示。 因輸入變量之間的量綱不同,對(duì)各變量進(jìn)行標(biāo)準(zhǔn)化處理,再計(jì)算數(shù)據(jù)的協(xié)方差矩陣,求出協(xié)方差矩陣的特征值和特征向量,并依次計(jì)算各成分的貢獻(xiàn)率,提取累計(jì)貢獻(xiàn)率達(dá)95%的主成分,計(jì)算結(jié)果見表1。 表1 樣本變量特征值和貢獻(xiàn)率計(jì)算結(jié)果Tab.1 Eigenvalues and contribution of sample variables 由表1 可知,前6 個(gè)成分的累計(jì)貢獻(xiàn)率達(dá)到99%,說明前6 個(gè)主成分包含了原始變量的主要信息,依據(jù)主成分規(guī)則可以將其作為主成分變量輸入到下一步的網(wǎng)絡(luò)模型中。圖2 為P1到P6主成分相對(duì)原始變量的相關(guān)系數(shù)絕對(duì)值圖。原始變量X1~X3、X4~X7、X8~X9 分別代表了水壓、溫度和時(shí)效分量。相關(guān)系數(shù)R的取值在[?1,1],|R|越接近于1,兩變量之間的相關(guān)程度越高。由圖2 可以看出,貢獻(xiàn)率最大的主成分P1與原始變量的相關(guān)程度所占比最高,其余主成分隨著貢獻(xiàn)率的降低,其相關(guān)程度所占比也逐步遞減。其中,主成分P1包含了水壓和部分溫度分量所蘊(yùn)含的主要信息;主成分P2包含了時(shí)效分量的主要信息;主成分P3~P6則包含了溫度分量的主要信息。因此,提取后的主成分包含原始序列的豐富信息,同時(shí)降低了模型變量輸入維數(shù),優(yōu)化模型輸入。 圖2P1~P6 主成分相關(guān)系數(shù)Fig.2 Score of correlation coefficient from P1 to P6 將得到的主成分變量輸入到KELM 網(wǎng)絡(luò)中進(jìn)行優(yōu)化。設(shè)置布谷鳥算法的初始鳥巢數(shù)量為20 個(gè),發(fā)現(xiàn)概率為0.25,迭代數(shù)為50,同時(shí)選取粒子群算法進(jìn)行對(duì)比。從圖3 可以看出,PSO 算法在收斂速度和精度上均不如CS 算法,得到最優(yōu)參數(shù)分別為C=150、δ=1.64和C=18.59、δ=0.87。 圖3 CS 與PSO 算法收斂性對(duì)比Fig.3 Comparison of convergence between CS and PSO 在Matlab 中建立KELM 網(wǎng)絡(luò),并輸入?yún)?shù)C和δ的最佳值。以P1至P6主成分為輸入變量,以實(shí)測位移為目標(biāo)值,進(jìn)行訓(xùn)練和預(yù)測,預(yù)測結(jié)果如圖4所示。 由圖4 看出預(yù)測值與實(shí)際值在變化趨勢上大致相同,但由于自動(dòng)化監(jiān)測采集數(shù)據(jù)存在一定的環(huán)境噪聲,導(dǎo)致預(yù)測值與實(shí)際值存在一定的系統(tǒng)偏差。在平穩(wěn)性較好的X方向序列中表現(xiàn)明顯,但數(shù)值偏小。在平穩(wěn)性較差的Y方向序列后半段中,同時(shí)受水位迅速降低影響,系統(tǒng)偏差值偏大。由表2 看出兩個(gè)數(shù)據(jù)集的確定性系數(shù)R2分別為0.943 和0.931,說明該模型預(yù)測質(zhì)量好,預(yù)測值能較好地反映實(shí)測值;預(yù)測的平均絕對(duì)誤差和均方根誤差都較小,說明模型預(yù)測的精度高。其中X方向位移的平均絕對(duì)百分比誤差小于5%,而切向位移的平均絕對(duì)百分比誤差遠(yuǎn)大于5%,是由于Y方向位移實(shí)測值有接近為0 的情況。 表2 預(yù)測模型性能指標(biāo)Tab.2 Performance indexes of forecast models 圖4 位移預(yù)測Fig.4 Forecast results of displacement 為探究訓(xùn)練集數(shù)量大小對(duì)本文所建模型的影響,分別在原訓(xùn)練集基礎(chǔ)上依次減少100 d,直至訓(xùn)練集大小為測試集一半,測試集樣本數(shù)量依舊為原有的200 個(gè)。對(duì)測點(diǎn)兩個(gè)方向的位移進(jìn)行預(yù)測,確定性系數(shù)R2和平均絕對(duì)誤差EMA隨數(shù)據(jù)集變化情況如圖5 所示。 從圖5 可以看出,當(dāng)訓(xùn)練樣本數(shù)量減少時(shí),模型的預(yù)測效果并沒有出現(xiàn)較大改變。在X方向位移預(yù)測中,當(dāng)減少天數(shù)為700 d 時(shí),確定性系數(shù)R2依舊能達(dá)到0.900;在Y方向位移預(yù)測中,平均絕對(duì)誤差在減少天數(shù)達(dá)到800 d 前,保持在較低水平。只有當(dāng)減少天數(shù)達(dá)到900 d 時(shí),預(yù)測精度才出現(xiàn)較大的下降??傮w來看,當(dāng)數(shù)據(jù)集減少達(dá)70%前,模型的預(yù)測效果均表現(xiàn)較好,預(yù)測精度波動(dòng)不大,但當(dāng)數(shù)據(jù)集減少過多時(shí),會(huì)導(dǎo)致模型的預(yù)測精度顯著下降。 圖5 模型預(yù)測指標(biāo)隨樣本集數(shù)目變化Fig.5 Prediction indicators R2 and EMA of the model with the number of training sets 在Matlab 中分別建立傳統(tǒng)的逐步回歸模型(SLR)、BP 神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)(SVM)和極限學(xué)習(xí)機(jī)(ELM)4 種模型,與本文組合模型(簡稱PCK 模型)進(jìn)行位移預(yù)測結(jié)果對(duì)比。其中ELM 模型和BP 模型的魯棒性較差,預(yù)測取為5 次預(yù)測結(jié)果中的最優(yōu)結(jié)果。圖6 為5 種模型的X方向和Y方向位移預(yù)測結(jié)果,表3 為各模型在測試集上的預(yù)測性能指標(biāo)。 圖6 位移預(yù)測結(jié)果對(duì)比Fig.6 Comparison of displacement prediction results 表3 不同模型的預(yù)測性能指標(biāo)Tab.3 Performance indexes of different forecast models 從圖6(a)可以看出,在初始預(yù)測序列,BP 模型的預(yù)測值與實(shí)測值的偏差程度稍大,可能由過擬合的原因?qū)е?。?008 年6 月25 日之后,受水位變化的影響位移逐漸變大,此時(shí)SLR 和SVM 模型的預(yù)測值偏離實(shí)測值上部,ELM 模型的預(yù)測值偏離實(shí)測值下部,PCK 模型的預(yù)測值更接近實(shí)測值。 在圖6(b)的預(yù)測結(jié)果中,由于Y方向位移序列受水位影響具有較強(qiáng)的非平穩(wěn)性和波動(dòng)性,BP 模型受整體預(yù)測偏差較大,預(yù)測精度偏低。SLR 模型在2008 年6 月25 日之后預(yù)測逐步偏離實(shí)際值,ELM 和SVM模型則在實(shí)測值的拐點(diǎn)變化處預(yù)測偏差較大,PCK 模型在拐點(diǎn)處也會(huì)出現(xiàn)偏差,但相比其他3 種模型,偏差程度最小,整體上PCK 模型更接近真實(shí)值。 由表3 看出本文模型與其他4 種模型在變形預(yù)測中具有良好的一致性。在X方向預(yù)測中,5 種模型的平均絕對(duì)誤差值均小于0.05 mm,各模型均有較好的精度,但本模型別的參數(shù)均低于其余4 組模型,表明本模型的精度最高,且在非平穩(wěn)性和波動(dòng)性較大的Y方向位移中,平均絕對(duì)誤差和均方根誤差值仍處于較小值,呈現(xiàn)較好的泛化性能。從5 個(gè)模型趨勢預(yù)測結(jié)果來看,無論變形位移序列是否發(fā)生較大變化,本模型的預(yù)測值與實(shí)際值的偏差程度都最低,證明本模型能有效預(yù)測變形隨時(shí)間變化的過程。 為進(jìn)一步驗(yàn)證模型的性能,選取不同壩段的10 個(gè)測點(diǎn),對(duì)壩體在Y方向上的變形位移進(jìn)行預(yù)測。統(tǒng)計(jì)各測點(diǎn)預(yù)測結(jié)果的確定性系數(shù)和平均絕對(duì)誤差,并與SVM 和SLR 模型進(jìn)行對(duì)比,結(jié)果如表4,模型在擬合效果和預(yù)測精度上均好于SVM 和SLR 模型。對(duì)于不同測點(diǎn)可能存在的復(fù)雜變形情況,傳統(tǒng)的逐步回歸模型在精度上不如SVM 和本文提出的PCK 模型,而SVM 模型受核參數(shù)難以確定的影響,導(dǎo)致其確定性系數(shù)波動(dòng)較大,泛化能力不強(qiáng)。本文提出的PCK 模型得益于主成分分析法對(duì)輸入變量的提取和布谷鳥算法對(duì)網(wǎng)絡(luò)參數(shù)的優(yōu)化,使其在精度和泛化能力上均有較好的表現(xiàn)。 表4 不同測點(diǎn)的預(yù)測結(jié)果對(duì)比Tab.4 Comparison of prediction results of different measuring points 本文結(jié)合主成分分析法、布谷鳥優(yōu)化算法和核極限學(xué)習(xí)機(jī)網(wǎng)絡(luò)建立了一種變形預(yù)測模型,該模型通過PCA 算法優(yōu)化模型輸入,并采用CS 算法優(yōu)化KELM 網(wǎng)絡(luò),提高了模型的預(yù)測準(zhǔn)確性。 (1)針對(duì)變形位移監(jiān)測序列具有高維非線性和非平穩(wěn)性,提出了基于PCA、CS 和KELM 算法的組合預(yù)測模型。通過PCA 法提取變形影響因子的主要信息,并借助KELM 網(wǎng)絡(luò)核映射的優(yōu)異性能,實(shí)現(xiàn)了對(duì)重力壩某測點(diǎn)在X方向(沿壩軸方線)和Y方向(上下游方向)的位移預(yù)測,結(jié)果表明該模型的預(yù)測效果良好。 (2)采用CS 算法優(yōu)化KELM 網(wǎng)絡(luò),提高了模型整體的預(yù)測準(zhǔn)確性,使模型在一定程度上減少訓(xùn)練樣本時(shí),依舊能保持較高的預(yù)測精度。 (3)通過單一測點(diǎn)和多測點(diǎn)的變形預(yù)測,對(duì)比傳統(tǒng)的逐步回歸模型和人工網(wǎng)絡(luò)模型,本文所建的模型在精度和泛化能力上均有較好表現(xiàn),在實(shí)際的大壩安全監(jiān)測領(lǐng)域中具有一定的推廣應(yīng)用價(jià)值。1.2 核極限學(xué)習(xí)機(jī)
1.3 布谷鳥搜索算法
2 基于PCA 和CS-KELM 算法的組合模型
3 實(shí)例計(jì)算與分析
3.1 模型組合
3.2 預(yù)測結(jié)果及性能評(píng)價(jià)
3.3 其他模型比較
4 結(jié)語