李 璐,徐根祺,楊 倩,王艷娥,趙正健
(1.西安思源學(xué)院 理工學(xué)院,西安 710038;2.西安交通工程學(xué)院 機(jī)械與電氣工程學(xué)院,西安 710030)
滑坡災(zāi)害的發(fā)生是在自然演變或人為因素的影響下,一種復(fù)雜的非線性動(dòng)力學(xué)演化過程[1]?;聻?zāi)害由于它本身高頻發(fā)生、分布區(qū)域廣泛及破壞力極強(qiáng),對(duì)山區(qū)人民生命、財(cái)產(chǎn)有極大的威脅,對(duì)防災(zāi)減災(zāi)工作提出嚴(yán)峻的考驗(yàn)[2]。近年來國(guó)家相關(guān)部門和單位陸續(xù)出臺(tái)相關(guān)政策,滑坡等地質(zhì)災(zāi)害的課題也成為熱門課題,相關(guān)學(xué)者對(duì)其研究也取得不錯(cuò)的成效?;略缙陬A(yù)報(bào)可以有效減少災(zāi)害的損失,影響滑坡發(fā)生的主要條件[3-4]:巖土條件、地質(zhì)構(gòu)造及地面地形的條件。近年來對(duì)滑坡的研究主要包括:1)通過地面調(diào)查結(jié)合遙感技術(shù)觀察并分析滑坡全域地形地貌,分析成災(zāi)機(jī)理[5];2)對(duì)滑坡易發(fā)區(qū)域地質(zhì)構(gòu)造分析滑坡形成的特征及成因,對(duì)滑坡滑動(dòng)面失穩(wěn)、變形及位移建模[6-7];3)地面外界因素如暴雨、坡體、地震等綜合影響,進(jìn)行滑坡災(zāi)害的分析及建模[8-9]。
隨著機(jī)器學(xué)習(xí)理論的發(fā)展,非線性模型被廣泛應(yīng)用在滑坡災(zāi)害預(yù)測(cè)的理論中[10],趙曉萌[11]等從降雨量特征結(jié)合機(jī)器學(xué)習(xí)相關(guān)知識(shí)進(jìn)行預(yù)測(cè)模型的建立;趙彬如[12]等從水文、氣象閾值進(jìn)行滑坡預(yù)測(cè)的研究,預(yù)測(cè)效果較好,但只適用于降雨型的滑坡災(zāi)害預(yù)測(cè);胡欣等[13]將SVM-BP模型應(yīng)用于降雨型的滑坡災(zāi)害安全評(píng)價(jià)的模型研究中,隨后馬娟、楊宗佶等[14-15]將多參數(shù)預(yù)警模式應(yīng)用于滑坡預(yù)測(cè)中,同時(shí)李麗敏等[16-17]也將多影響因子作為滑坡位移預(yù)測(cè)模型的輸入,針對(duì)滑坡災(zāi)害建模預(yù)報(bào)災(zāi)害的發(fā)生。針對(duì)滑坡體災(zāi)害概率預(yù)測(cè)及預(yù)警的相關(guān)研究目前存在以下不足[18]:地域成災(zāi)機(jī)理復(fù)雜,成災(zāi)因子單一,導(dǎo)致預(yù)測(cè)預(yù)警準(zhǔn)確率低;預(yù)測(cè)模型容易陷入局部最優(yōu)及模型本身的穩(wěn)定性及適應(yīng)性不足。本文針對(duì)這些問題分析滑坡全域地形地貌成災(zāi)機(jī)理并篩選因子,構(gòu)造滑坡災(zāi)害預(yù)測(cè)模型,引入核極限學(xué)習(xí)機(jī)(KELM,kernel extreme learning machine)應(yīng)用于滑坡預(yù)測(cè)預(yù)報(bào)中,改善極限學(xué)習(xí)機(jī)(ELM,extreme learning machine)奇點(diǎn)容易產(chǎn)生及隱含層數(shù)量確定問題,增加模型本身的穩(wěn)定性及適用性,并使用高斯核函數(shù)(RBF,radical basis function)作為核函數(shù)進(jìn)行模型建立。以研究區(qū)山陽縣山區(qū)6種影響因子作為滑坡預(yù)測(cè)模型的輸入,通過極限梯度提升樹算法Xgboost(Xtreme gradient boosting)確定KELM模型中的參數(shù)懲罰系數(shù)及寬度參數(shù),解決梯度決策樹算法容易局部最優(yōu)的問題,提高滑坡預(yù)測(cè)的精度。最后通過與其他預(yù)測(cè)算法進(jìn)行比對(duì),AUC均值、Precision、Accuracy及Recall都明顯提升,體現(xiàn)出超參數(shù)優(yōu)化后的模型在滑坡預(yù)測(cè)中較高的預(yù)測(cè)能力,給地質(zhì)災(zāi)害研究帶來活力及新思路。
ELM是一種單隱層的前饋神經(jīng)網(wǎng)絡(luò),對(duì)于線性問題計(jì)算速度快且擬合能力也較好,但由于其隱藏節(jié)點(diǎn)存在隨機(jī)映射特點(diǎn),所以訓(xùn)練的模型穩(wěn)定性和泛化性能力較差[19-20]。KELM在其基礎(chǔ)上將核函數(shù)引入解決隨機(jī)映射問題。針對(duì)于組不同的樣本,ELM隱含層節(jié)點(diǎn)數(shù)用表示,激勵(lì)函數(shù)用g(·)表示:
Hβ=U
(1)
(2)
H為隱含層的輸出矩陣,β為輸出權(quán)值矩陣,U為目標(biāo)輸出矩陣。
ELM學(xué)習(xí)過程中為提升穩(wěn)定性及泛化能力,引入正則化系數(shù)C利用最小二乘法求解最優(yōu)值[21]。
(3)
H+為H的廣義逆。針對(duì)ELM解決多分類問題,依據(jù)KKT優(yōu)化拉格朗日函數(shù)得到求解方案。當(dāng)特征映射h(x)未知的情況得出ELM的輸出函數(shù):
(4)
對(duì)角矩陣用I表示,正則化系數(shù)用C表示,輸出向量用U表示。依據(jù)Mercer’s條件,用核矩陣ΩELM代替隨機(jī)矩陣HHT得出:
K(xi,xj)=h(xi)h(xj)=ΩELM(i,j)
(5)
得到KELM的輸出模型為:
(6)
KELM中核函數(shù)會(huì)直接影響模型本身的性能。圖1為RBF高斯核函數(shù)曲線圖,x為分布中心偏移程度,sigma為分布的寬窄程度,當(dāng)樣本值接近分布中心x,對(duì)核函數(shù)值影響較大,反而影響較小,這與內(nèi)積原理相似,可以通過距離衡量樣本的相似性,高斯徑向基核函數(shù)因其是局部核函數(shù),所以局部學(xué)習(xí)能力強(qiáng)且只受相離較近樣本點(diǎn)的影響,所以其對(duì)于一定范圍內(nèi)距離的樣本可以在特征空間種線性分離預(yù)測(cè)較準(zhǔn)確。文中選取RBF為核函數(shù):
(7)
圖1 RBF高斯核函數(shù)
核極限學(xué)習(xí)機(jī)在ELM的基礎(chǔ)上引入了核函數(shù),通過非線性映射到高維特征空間的方式將線性不可分的問題進(jìn)行劃分,進(jìn)而提高了ELM性能。但由于核函數(shù)的引入,使得KELM算法對(duì)參數(shù)的選擇非常敏感,所以引入Xgboost算法對(duì)KELM正則化系數(shù)C和核函數(shù)進(jìn)行尋優(yōu),減少人為調(diào)參的復(fù)雜度,提高模型的準(zhǔn)確性。
Xgboost[22-23]優(yōu)化了梯度提升決策樹,將原來針對(duì)錯(cuò)誤樣本分類中權(quán)值分配的不斷迭代,改變?yōu)樨澬牟呗?,?xùn)練最佳方向是損失函數(shù)梯度下降的方向,最后通過加權(quán)求和的方法得出。并使用增加正則化優(yōu)化了損失函數(shù)求解的方法,模型復(fù)雜度得到一定降低并防止了過擬合現(xiàn)象,模型精度得到一定程度的提升。
損失函數(shù)增加正則化,求解最優(yōu)模型使用結(jié)構(gòu)風(fēng)險(xiǎn)最小的思想[24]設(shè)置目標(biāo)函數(shù)來尋優(yōu)迭代模型,如公式(8):
(8)
i為樣本索引符號(hào),I為樣本總量,l為決策樹的葉子節(jié)點(diǎn)數(shù)目,Yi為訓(xùn)練樣本實(shí)際值。根據(jù)殘差公式fn(Xi)=fn-1(Xi)+hn(Xi),可得出fN(Xi)決策樹訓(xùn)練(N=1,2,…,N)積累的殘差及Ω(hn(X))針對(duì)Ω(h(X))在n次訓(xùn)練葉子節(jié)點(diǎn)得分,葉子節(jié)點(diǎn)得分ω用L2正則化的表示:
(9)
使用泰勒展開公式進(jìn)行求解得到二次項(xiàng),如式(10):
(10)
并規(guī)定:
pi= ?fn-1 (Xi )l(yi,fn-1(Xi))
(11)
最終得出目標(biāo)函數(shù)如(12)所示:
(12)
用該目標(biāo)函數(shù)進(jìn)行模型最優(yōu)解的求解,可以自己定義損失函數(shù),對(duì)于模型構(gòu)建的靈活性有極大的提升。由于Xgboost基于思想通過不斷最小化目標(biāo)函數(shù)迭代生成決策樹,其預(yù)測(cè)偏差得到不斷降低,綜合兩方面因素,Xgboost泛化誤差得到整體降低,模型精度勢(shì)必得到一定程度的提升。
本文選取裂縫位移ΔX、岸坡水文地質(zhì)條件H、土壤含水率D、土壓力ΔF、斜坡傾角θ、及降雨量R6個(gè)滑坡誘發(fā)條件作為滑坡預(yù)測(cè)影響因子,監(jiān)測(cè)數(shù)據(jù)通過數(shù)據(jù)預(yù)處理作為模型輸入數(shù)據(jù),通過Xgboost優(yōu)化超參數(shù)C和并訓(xùn)練出 Xgboost-KELM模型,分別與GA及GC優(yōu)化的KELM模型比對(duì),最后通過驗(yàn)證集驗(yàn)證模型預(yù)測(cè)的結(jié)果。文中具體預(yù)測(cè)路線如圖2所示。
樣本數(shù)據(jù)使用陜西省山陽縣2018年3月到2020年3月的10個(gè)監(jiān)測(cè)點(diǎn)數(shù)據(jù)作為數(shù)據(jù)集,樣本集分為80%測(cè)試集和20%的兩個(gè)驗(yàn)證集。模型輸入數(shù)據(jù):裂縫位移ΔX、岸坡水文地質(zhì)條件H、土壤含水率D、土壓力ΔF、斜坡傾角θ、及降雨量R6個(gè)滑坡體影響因子。預(yù)報(bào)模型訓(xùn)練及驗(yàn)證數(shù)集總共1 280組數(shù)據(jù)集。
表1 監(jiān)測(cè)數(shù)據(jù)
監(jiān)測(cè)數(shù)據(jù)來源于不同的采集傳感器,由于環(huán)境的影響會(huì)出現(xiàn)一些缺失、離群或維度不統(tǒng)一的數(shù)據(jù),對(duì)于模型的建立有極大的消極影響,因此需要對(duì)監(jiān)測(cè)數(shù)據(jù)進(jìn)行預(yù)處理。
2.3.1 異常值處理
監(jiān)測(cè)數(shù)據(jù)中存在一部分偏離傳感器本身范圍的值或者偏離觀測(cè)值較大的值,如果不處理會(huì)影響數(shù)據(jù)本身預(yù)測(cè)的準(zhǔn)確性,如果距離達(dá)到5倍或者相距均值距離≥3倍標(biāo)準(zhǔn)差的數(shù)據(jù)為離群點(diǎn)。
2.3.2 缺失值的處理
監(jiān)測(cè)數(shù)據(jù)通過多傳感器傳輸,傳輸過程中經(jīng)常會(huì)出現(xiàn)遺漏或者離群點(diǎn)情況,會(huì)損失有效信息,導(dǎo)致屬性值確實(shí)。按照屬性因素方法進(jìn)行統(tǒng)計(jì)得出缺失率q,本文劃分兩種類別數(shù)據(jù)的缺失值,如表2所示。
表2 數(shù)據(jù)缺失值
2.3.3 數(shù)據(jù)歸一化
采集的監(jiān)測(cè)數(shù)據(jù)種類及數(shù)量都較大,多傳感器數(shù)據(jù)量綱不同有較大的差異,原始數(shù)據(jù)直接建模對(duì)于預(yù)測(cè)的準(zhǔn)確性影響極大,歸一化處理公式如下:
(13)
式中,R為某因素歸一化處理后的數(shù)據(jù)Rmin,和Rmax為某因素?cái)?shù)據(jù)中最小值及最大值。圖3為選取4個(gè)傳感器中部分監(jiān)測(cè)數(shù)據(jù)數(shù)據(jù)歸一化前后的數(shù)據(jù)分布圖,圖中可以看出歸一化前的數(shù)據(jù)跨度分布比較大,歸一化后的數(shù)據(jù)在[0~1]量綱內(nèi),避免了數(shù)據(jù)本身量綱問題對(duì)預(yù)測(cè)模型的影響。
圖3 監(jiān)測(cè)數(shù)據(jù)歸一化分布
選取高斯徑向基RBF 核函數(shù),根據(jù)(6)和(7)兩式可知需要優(yōu)化的參數(shù)有正則化系數(shù)C和高斯徑向基RBF 核函數(shù)中的核參數(shù)σ,其中C∈(0,a],σ∈(0,b]。正則化系數(shù)C對(duì)模型方差、偏差、訓(xùn)練誤差及測(cè)試誤差都有較大的影響,具體影響如表3所示。核參數(shù)σ主要影響模型的擬合程度,當(dāng)σ>0且較小時(shí)容易出現(xiàn)過擬合,相反σ>0較大時(shí)容易出現(xiàn)欠擬合。Xgboost優(yōu)化的核極限學(xué)習(xí)機(jī)就是利用 Xgboost優(yōu)化算法對(duì) KELM 中的參數(shù)進(jìn)行擇優(yōu)選取,從而提升 KELM 的性能,提高分類準(zhǔn)確度,限制模型復(fù)雜度,緩解模型過擬合問題。為了避免多次枚舉造成運(yùn)算量過大,采用貪心算法尋求最優(yōu)數(shù)結(jié)構(gòu),當(dāng)Gain信息增益達(dá)到樹的深度限制或Gain<0數(shù)停止分割,防止過擬合的前提下達(dá)到速度快擬合效果好。
表3 正則化參數(shù)C對(duì)模型指標(biāo)影響
尋優(yōu)具體流程如下:
STEP 1:數(shù)據(jù)標(biāo)準(zhǔn)化處理,劃分訓(xùn)練樣本;
STEP 2:初始化Xgboost算法參數(shù);
STEP 3:Xgboost損失函數(shù)使用KELM模型中均方誤差(MSE,mean-square error)代替,選擇Xgboost目標(biāo)函數(shù)下降最大點(diǎn)作為最佳切分點(diǎn),對(duì)RBF 核函數(shù)參數(shù)σ及正則化系數(shù)C進(jìn)行初始化;
STEP 4:將樣本特征順序排列,列出所有劃分特征、特征值及score分值,根據(jù)TOP1分裂子樹,同時(shí)計(jì)算分割的葉子節(jié)點(diǎn)的權(quán)重向量及信息增益;
STEP 5:判斷是否達(dá)到數(shù)的深度限值或增益小于0,更新并保存最終葉子節(jié)點(diǎn)的權(quán)重值與增益值;
STEP 6:判斷最大迭代次數(shù)的條件是否達(dá)到,如果滿足條件則確定此時(shí)的σ及C參數(shù)為最優(yōu)參數(shù),基于最優(yōu)參數(shù)構(gòu)建Xgboost-KELM最優(yōu)模型;不滿足條件則返回執(zhí)行STEP 4。
Xgboost參數(shù)設(shè)置:
1)通用參數(shù)
booster基學(xué)習(xí)器:gbtree(樹模型);
多線程:nthread;
迭代次數(shù)nround:1 000。
2)Booster 初始參數(shù)
eta:0.1,通過調(diào)整學(xué)習(xí)率調(diào)整模型最佳收斂速度;
min_child_weight:0,設(shè)置最小葉子節(jié)點(diǎn)樣本的權(quán)重和避免出現(xiàn)過擬合現(xiàn)象;
max_depth:8,通過改變樹的最大深度控制子節(jié)點(diǎn)分裂,避免出現(xiàn)過擬合現(xiàn)象;
gamma:節(jié)點(diǎn)分裂的依據(jù),后損失函數(shù)下降值大于該值分裂;
subsample:0.7,對(duì)樹隨機(jī)行比例劃分采樣控制;
n_estimator:120,控制最大樹的數(shù)量,防止數(shù)量大過擬合,數(shù)量小欠擬合;
lambda:1,L2正則化項(xiàng);
Alpha:1,L1正則化項(xiàng)。
3)目標(biāo)參數(shù)
objective:multi:softmax多分類問題;
eval_metric:[error,auc,mse],回歸模型。
使用訓(xùn)練集進(jìn)行訓(xùn)練Xgboost模型,當(dāng)Xgboost找尋最優(yōu)的分裂節(jié)點(diǎn)時(shí),可以基于KELM損失函數(shù)迭代確定Xgboost最佳參數(shù)。圖4為模型篩選最佳參數(shù)過程曲線圖,a、b表示最大樹數(shù)量與分類準(zhǔn)確率關(guān)系,a為整個(gè)范圍最大樹數(shù)量分類過程,最大樹數(shù)量n_estimator范圍[1~1 000],變化曲線先逐漸增加,增加至92棵樹時(shí)上升緩慢,之后提升不明顯漸漸趨于穩(wěn)定;b為90~150棵樹分類過程,隨之n_estimator數(shù)量增加,會(huì)存在不到1%的下降趨勢(shì),當(dāng)數(shù)量達(dá)到102棵樹時(shí)分類準(zhǔn)確率達(dá)到最高86.34%,取該數(shù)量為模型n_estimator最佳參數(shù)。c為樹最大深度分類變化過程,max_depth范圍為[1~10],迭代過程可以看出深度為6時(shí)分類準(zhǔn)確度最高達(dá)86.42%,max_depth最佳參數(shù)值取6;d為最小葉子權(quán)重變化過程,葉子節(jié)點(diǎn)的權(quán)重小于min_child_weight則停止拆分樹,min_child_weight范圍為[0~10],曲線變化過程可以得出權(quán)重為2時(shí)分類準(zhǔn)確率達(dá)到最高88.25%,min_child_weight最佳值取2。根據(jù)訓(xùn)練集訓(xùn)練結(jié)果得出Xgboost最終參數(shù)如表4所示。
圖4 不同參數(shù)分類準(zhǔn)確率
表4 Xgboost模型最終參數(shù)
為了獲取KELM最優(yōu)核參數(shù)σ及正則化C參數(shù)最佳組合,將測(cè)試集隨機(jī)分為4組作為訓(xùn)練樣本建立模型,參數(shù)的選值先從一個(gè)比較大的區(qū)間范圍進(jìn)行搜索,4組測(cè)試集驗(yàn)證后得出小范圍[500,1 000]×[0.2,0.3],之后進(jìn)行多次迭代訓(xùn)練,當(dāng)均方誤差達(dá)到最小值時(shí),取此時(shí)參數(shù)核參數(shù)σ及正則化C為最佳組合參數(shù)。圖5為4組測(cè)試集訓(xùn)練過程的均方誤差迭代曲線,數(shù)據(jù)集4收斂速度最慢,數(shù)據(jù)集2、3均方誤差較低但收斂速度在迭代次數(shù)12出現(xiàn)飽和,而數(shù)據(jù)集3均方誤差及收斂速度相比其他數(shù)據(jù)集表現(xiàn)最佳,均方誤差最低達(dá)到并穩(wěn)定于1.187×10-3。且在7次迭代收斂飽和。所以選取數(shù)據(jù)集3訓(xùn)練參數(shù)為模型最佳參數(shù),σ=0.262 4,C=703.24。
圖5 不同測(cè)試集的均方誤差
為驗(yàn)證模型的穩(wěn)定性及適應(yīng)能力,通過模型在新樣本集中的適應(yīng)度、準(zhǔn)確性及方差偏差驗(yàn)證。方差表示模型每次預(yù)期結(jié)果與實(shí)際結(jié)果的誤差的穩(wěn)定情況;偏差值表示每次預(yù)期結(jié)果與實(shí)際結(jié)果的偏差。模型誤差包括方差、偏差及其他無法避免誤差,圖6為偏差及方差示意圖。預(yù)測(cè)模型最佳選擇順序:1)方差小,偏差小;2)方差小,偏差大;3)方差大,偏差??;4)方差大,偏差大。
圖6 偏差及方差示意圖
精確率:在預(yù)期的正樣本中實(shí)際結(jié)果也為正樣本的占比。
precision=TP/(TP+FP)
(14)
準(zhǔn)確率:準(zhǔn)確率表示所有的預(yù)測(cè)樣本中,預(yù)測(cè)正確的占比。
Accuracy=(TP+TN)/(TP+FP+FN+TN)
(15)
召回率:預(yù)測(cè)結(jié)果準(zhǔn)確的正樣本占所有正樣本的比例。
recall=TP/(TP+FN)
(16)
AUC:通過計(jì)算ROC曲線與坐標(biāo)軸圍成的面積得到,介于[0.5,~1]之間,預(yù)測(cè)的真實(shí)性取決與AUC值接近1的程度,靠近1真實(shí)性高反之則反。
(17)
真正率:預(yù)期正樣本數(shù)/實(shí)際正樣本數(shù)。
(18)
假正率:預(yù)期為正的負(fù)樣本數(shù)/實(shí)際負(fù)樣本數(shù)。
(19)
實(shí)驗(yàn)采用KELM作為滑坡災(zāi)害預(yù)測(cè)模型,并用Xgboost優(yōu)化算法中的超參數(shù)尋優(yōu)。使用同一個(gè)驗(yàn)證集驗(yàn)證GC及GA優(yōu)化KELM模型預(yù)測(cè)效果比對(duì)。表5為在驗(yàn)證集1中128個(gè)數(shù)據(jù)中各模型輸入相同數(shù)據(jù)得出的預(yù)測(cè)結(jié)果的混淆矩陣對(duì)比表。
表5 不同模型混淆矩陣對(duì)比表
圖7為3種模型同一評(píng)價(jià)指標(biāo)的對(duì)比圖,柱狀圖的差異可以對(duì)比得出各個(gè)預(yù)測(cè)模型對(duì)應(yīng)評(píng)價(jià)指標(biāo)的好壞,從而反映預(yù)測(cè)模型性能的優(yōu)劣。4個(gè)評(píng)估參數(shù)中,Xgboost優(yōu)化KELM均明顯優(yōu)于GA和GC優(yōu)化的模型。本文的Xgboost-KELM模型AUC均值為0.985,相比GC優(yōu)化高約3個(gè)百分點(diǎn),比GA優(yōu)化高6個(gè)百分點(diǎn)。其他指標(biāo)Precision、Accuracy及Recall高于另外兩個(gè)模型百分比[1.7~7]范圍之間。實(shí)驗(yàn)結(jié)果說明Xgboost-KELM模型具有較好的預(yù)測(cè)效果,在滑坡災(zāi)害預(yù)測(cè)中有較好的預(yù)測(cè)能力。
圖7 評(píng)價(jià)指標(biāo)對(duì)比圖
圖8為驗(yàn)證集2中打亂隨機(jī)抽取的128個(gè)監(jiān)測(cè)數(shù)據(jù)使用Xgboost優(yōu)化KELM模型后的實(shí)際發(fā)生概率與預(yù)測(cè)發(fā)生概率比對(duì)圖。圖中實(shí)際值與預(yù)測(cè)值基本吻合,擬合情況較好。極限的幾個(gè)數(shù)據(jù)27、38、89及111發(fā)生概率存在一些差異,但是對(duì)應(yīng)風(fēng)險(xiǎn)等級(jí)都屬于同等級(jí)風(fēng)險(xiǎn)。準(zhǔn)確率達(dá)到98%。引入Xgboost對(duì)KELM參數(shù)值進(jìn)行優(yōu)化,實(shí)際預(yù)測(cè)精度較為理想。并使用驗(yàn)證集2進(jìn)行各模型穩(wěn)定性計(jì)算,Xgboost-KELM有較小的方差且偏差也較小,屬于最穩(wěn)定的“方差小、偏差小”模型,穩(wěn)定性能最強(qiáng),而GC-KELM介于“方差大、偏差小”與“方差大、偏差大”之間,模型不穩(wěn)定,GA-KELM屬于“方差大、偏差大”,模型最不穩(wěn)定。
圖8 Xgboost優(yōu)化模型預(yù)測(cè)結(jié)果
本文針對(duì)山陽縣研究區(qū)域的數(shù)據(jù)使用基于Xgboost優(yōu)化KELM模型建立滑坡災(zāi)害預(yù)測(cè)模型,通過仿真研究分析滑坡影響因子與發(fā)生概率之間關(guān)系,并與GA-KELM及GC-KELM建模結(jié)果進(jìn)行比較。
1)選用RBF高斯核函數(shù)的極限學(xué)習(xí)機(jī)模型較好地解決了ELM適用性及穩(wěn)定性不佳的問題;
2)使用KELM模型中均方誤差MSE作為損失函數(shù),訓(xùn)練模型并選擇目標(biāo)函數(shù)下降最大點(diǎn)作為最佳切分點(diǎn),確定最佳參數(shù);并使用Xgboost尋優(yōu)算法對(duì)核函數(shù)中的正則化系數(shù)C和核函數(shù)σ尋優(yōu),通過4組測(cè)試集的均方誤差迭代曲線得出最佳超參數(shù),建立Xgboost-KELM模型,并與GA及GC優(yōu)化KELM建模進(jìn)行比較;
3)通過幾種模型的樣本集1對(duì)比驗(yàn)證,結(jié)果表明Xgboost-KELM具有較高的Precision、Accuracy及Recall和AUC值,同時(shí)使用新樣本集2驗(yàn)證穩(wěn)定性及泛化能力,結(jié)果表明該模型穩(wěn)定性較好,進(jìn)一步證明該模型的應(yīng)用能有效提高滑坡災(zāi)害的預(yù)報(bào)概率,對(duì)滑坡災(zāi)害提前預(yù)警,降低自然災(zāi)害造成的損失具有重要意義。