楊 康,薛喜成,李識(shí)博
(西安科技大學(xué)地質(zhì)與環(huán)境學(xué)院,陜西 西安 710054)
進(jìn)入21世紀(jì)以來(lái),隨著世界氣候環(huán)境發(fā)生變化和人類(lèi)活動(dòng)能力及范圍的不斷擴(kuò)大,地質(zhì)災(zāi)害在自然因素和人類(lèi)工程活動(dòng)的雙重驅(qū)動(dòng)下呈現(xiàn)頻發(fā)態(tài)勢(shì)[1]。據(jù)自然資源部發(fā)布的《2020年全國(guó)地質(zhì)災(zāi)害災(zāi)情及2021年地質(zhì)災(zāi)害趨勢(shì)預(yù)測(cè)》,2020年全國(guó)共發(fā)生地質(zhì)災(zāi)害7 840起,共造成197人傷亡,直接經(jīng)濟(jì)損失達(dá)50.2億元。為保障人們的生命財(cái)產(chǎn)安全、減少災(zāi)害損失、提高防災(zāi)減災(zāi)工作效率,開(kāi)展地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)和區(qū)劃研究具有重要的應(yīng)用價(jià)值[2]。然而地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)結(jié)果的準(zhǔn)確性所受到的制約因素較多且評(píng)價(jià)方法亦多種多樣,如何選取適宜于研究區(qū)的評(píng)價(jià)方法,提高區(qū)域地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)結(jié)果的準(zhǔn)確性,成為國(guó)內(nèi)外學(xué)者研究的一個(gè)重點(diǎn)和難點(diǎn)。
傳統(tǒng)的地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)方法如模糊邏輯法[3]、層次分析法[4]、證據(jù)權(quán)法[5]、確定性系數(shù)法[6]、信息量法[7]等在一定的地質(zhì)環(huán)境背景下均能取得較好的綜合分析效果。其中,信息量法因其原理簡(jiǎn)單、適用性強(qiáng)等特點(diǎn),在區(qū)域地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)中的運(yùn)用最為廣泛且評(píng)價(jià)效果相對(duì)較好。然而總的來(lái)看,基于模糊邏輯法、層次分析法等經(jīng)驗(yàn)?zāi)P偷牡刭|(zhì)災(zāi)害易發(fā)性評(píng)價(jià)方法在評(píng)價(jià)過(guò)程中具有較強(qiáng)的主觀判斷性,而基于證據(jù)權(quán)法、確定性系數(shù)法、信息量法等統(tǒng)計(jì)模型的地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)方法又未能考慮各評(píng)價(jià)因子對(duì)地質(zhì)災(zāi)害易發(fā)性的影響差異,這也是導(dǎo)致該類(lèi)知識(shí)驅(qū)動(dòng)方法評(píng)價(jià)結(jié)果精度值相對(duì)較低的主要原因。近年來(lái),隨著新智能算法的不斷完善,各界學(xué)者開(kāi)始將機(jī)器學(xué)習(xí)引入到地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)研究中,該類(lèi)基于數(shù)據(jù)驅(qū)動(dòng)的分析方法通過(guò)對(duì)數(shù)據(jù)的訓(xùn)練[8],能夠較好地處理影響因子與地質(zhì)災(zāi)害易發(fā)性之間的非線性關(guān)系,使得評(píng)價(jià)結(jié)果具有一定的可靠性。其中,支持向量機(jī)(SVM)是在結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理算法上的發(fā)展,其在一定程度上可以避免計(jì)算結(jié)果過(guò)擬合的現(xiàn)象[2],相較于人工神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林模型具有數(shù)據(jù)量要求少、精度值更高等優(yōu)點(diǎn)。盡管如此,在模型運(yùn)算過(guò)程中,樣本數(shù)據(jù)集的創(chuàng)建與模型各類(lèi)參數(shù)值的設(shè)定均會(huì)在不同程度上對(duì)地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)結(jié)果的準(zhǔn)確性造成影響。
為合理設(shè)定支持向量機(jī)中的各類(lèi)參數(shù)值,Zhou等[9]針對(duì)滑坡位移的步進(jìn)特征,提出了基于誘發(fā)因素響應(yīng)的粒子群優(yōu)化與支持向量機(jī)耦合模型來(lái)預(yù)測(cè)滑坡位移;肖華瓶[10]在支持向量機(jī)算法的基礎(chǔ)上,提出了蟻群支持向量機(jī)分類(lèi)算法,其分類(lèi)精度和收斂速度都有了較大的提升;唐躍等[11]基于交叉驗(yàn)證法對(duì)支持向量機(jī)模型進(jìn)行了參數(shù)尋優(yōu),得到了最優(yōu)爆破塊度預(yù)測(cè)模型;Li等[12]基于滑坡監(jiān)測(cè)數(shù)據(jù),利用遺傳算法優(yōu)化支持向量機(jī)模型對(duì)滑坡位移率進(jìn)行了預(yù)測(cè)。就優(yōu)化算法而言,遺傳算法具有強(qiáng)大的全局搜索能力,能在較短時(shí)間內(nèi)搜索到全局最優(yōu)點(diǎn),且其適用范圍較廣,精度較高。為此,本文探索引入信息量法和遺傳算法,提出一種信息量融入GA優(yōu)化SVM模型下的地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)方法,并將其運(yùn)用于陜西省子長(zhǎng)市地質(zhì)災(zāi)害易發(fā)性區(qū)劃分級(jí)研究中,以期能夠?yàn)檠芯繀^(qū)內(nèi)防災(zāi)減災(zāi)工作部署提供一定的理論參考。
陜西省子長(zhǎng)市位于陜北黃土高原中部,介于東經(jīng)109°11′58″~110°01′22″、北緯36°59′30″~37°30′00″之間,總面積為2 405 km2(見(jiàn)圖1)。研究區(qū)地處華北陸塊鄂爾多斯地塊中東部,除在二疊紀(jì)末、三疊紀(jì)末、白堊紀(jì)末遭受區(qū)域隆升外,始終保持著穩(wěn)定沉積盆地特征,無(wú)顯著構(gòu)造運(yùn)動(dòng),褶皺構(gòu)造總體表現(xiàn)為軸向近南北的大型寬緩向斜,次級(jí)褶皺以短軸背斜、鼻狀背斜等平緩拱形隆起為主,斷裂構(gòu)造不發(fā)育[13],總體地質(zhì)構(gòu)造較為簡(jiǎn)單。區(qū)內(nèi)主要發(fā)育中-新生代地層,包括三疊系、侏羅系、白堊系、新近系和第四系,其中第四系黃土分布最為廣泛,幾乎遍布全區(qū),其余時(shí)代地層多沿河谷兩側(cè)零星出露。
圖1 陜西省子長(zhǎng)市地理位置及地質(zhì)災(zāi)害點(diǎn)分布圖
研究區(qū)屬溫帶半干旱大陸性季風(fēng)氣候,境內(nèi)四季分明,總體氣候特征為春季風(fēng)大沙多,夏季炎熱多雨,秋季涼爽多霜,冬季干旱寒冷[14]。年平均氣溫為9.1℃,極端最高氣溫為37.6℃,極端最低氣溫為-23.1℃,在黃土分布區(qū)易發(fā)生凍融,誘發(fā)地質(zhì)災(zāi)害。境內(nèi)河流屬黃河水系,主要河流有秀延河、澗峪岔河、大理河和永坪河。各河流的相對(duì)比降大、峽谷多、曲度大、水流急,河水的主要來(lái)源為降水。受氣候控制,多數(shù)冬、春二季枯水,進(jìn)入夏、秋季節(jié),洪水暴發(fā),常泛濫成災(zāi),由此誘發(fā)滑坡、崩塌、泥石流等地質(zhì)災(zāi)害[15]。
信息量(information value,簡(jiǎn)稱(chēng)INF)模型是一種源于信息量的統(tǒng)計(jì)預(yù)測(cè)方法,被學(xué)者們廣泛運(yùn)用于地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià),其可以較好地反映各類(lèi)成災(zāi)因子的相對(duì)敏感度和各類(lèi)成災(zāi)因子中不同分級(jí)區(qū)間的貢獻(xiàn)率的大小[16]。成災(zāi)因子的信息量值越大,對(duì)應(yīng)區(qū)間內(nèi)的地質(zhì)災(zāi)害易發(fā)程度越高。信息量值由條件概率來(lái)計(jì)算,在實(shí)際運(yùn)用中各成災(zāi)因子對(duì)地質(zhì)災(zāi)害發(fā)生的貢獻(xiàn)率用樣本頻率來(lái)計(jì)算,其數(shù)學(xué)表達(dá)式[7]為:
(1)
式中:IAi→B為成災(zāi)因子A中第i區(qū)間地質(zhì)災(zāi)害發(fā)生的信息量值;Ni為成災(zāi)因子A中第i區(qū)間的地質(zhì)災(zāi)害面積值或地質(zhì)災(zāi)害點(diǎn)數(shù)量;Si為成災(zāi)因子A中第i區(qū)間的分布面積;S為研究區(qū)域總面積;N為研究區(qū)域內(nèi)地質(zhì)災(zāi)害總面積或地質(zhì)災(zāi)害點(diǎn)總數(shù)量。
支持向量機(jī)(Support Vector Machines,簡(jiǎn)稱(chēng)SVM)模型是基于Vapnik-Chervonenkis理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理的機(jī)器學(xué)習(xí)方法,該模型一般被用來(lái)解決線性不可分和非線性不可分的分類(lèi)問(wèn)題[17]。其基本思想是通過(guò)映射函數(shù)將低維空間非線性映射到高維空間中,求解最優(yōu)線性分類(lèi)面,從而使得所有樣本與超平面距離最小。
假設(shè)n維空間訓(xùn)練樣本集為{Xi,Yi}[i=1,2,…,n(n為樣本個(gè)數(shù))],構(gòu)造線性回歸函數(shù)為
f(x)=ωφ(x)+b
(2)
式中:ω為方向向量;φ(x)為映射函數(shù);b為偏置項(xiàng)。
求解ω和b的問(wèn)題可轉(zhuǎn)化為求目標(biāo)函數(shù)的極值問(wèn)題,其表達(dá)式為[18]
(3)
(4)
求解上述問(wèn)題可得到SVM回歸函數(shù)為
(5)
式中:K(xi,xj)=φ(xi)φ(xj)為內(nèi)積核函數(shù),SVM通過(guò)核函數(shù)將樣本映射到更高維空間H,并在H中對(duì)原始問(wèn)題進(jìn)行線性分割。不同的核函數(shù)能構(gòu)造輸入空間不同類(lèi)型的非線性決策面[19],常見(jiàn)的滿足Mercer條件的核函數(shù)包括線性核函數(shù)、多項(xiàng)式核函數(shù)、徑向基核函數(shù)和sigmoid核函數(shù),顧及到先驗(yàn)知識(shí)不足的情況,徑向基核函數(shù)(Radial Basis Function,RBF)可以將樣本映射到一個(gè)更高維空間,當(dāng)類(lèi)標(biāo)簽與特征之間的關(guān)系為非線性的樣例時(shí),可以得到較好的處理效果[20],故本次選取RBF作為映射核函數(shù)。即:
K(xi,xj)=exp(-g‖xi-xj‖2)
(6)
式中:g為核函數(shù)參數(shù),g>0。
遺傳算法(Genetic Algorithm,GA)是在達(dá)爾文進(jìn)化論和孟德?tīng)栠z傳學(xué)理論的基礎(chǔ)上發(fā)展起來(lái)的一種自適應(yīng)啟發(fā)式搜索算法,旨在模擬生物進(jìn)化理論中最優(yōu)生存的過(guò)程[21]。該算法具有較強(qiáng)的魯棒性、并行性和全局尋優(yōu)能力,在諸多領(lǐng)域得到了廣泛的運(yùn)用。遺傳算法計(jì)算流程包括初始化種群、適應(yīng)度值計(jì)算、選擇、交叉和變異5個(gè)部分。首先,將問(wèn)題的解編碼為染色體,按照適應(yīng)度函數(shù)的概率分布篩選出高適應(yīng)度值的個(gè)體;再通過(guò)選擇、交叉和變異3個(gè)基本的遺傳算子使最具有生存能力的染色體以最大可能生存,群體逐代進(jìn)化到搜索空間中越來(lái)越好的區(qū)域;最后,末代種群中的最優(yōu)個(gè)體經(jīng)過(guò)解碼便可作為符合優(yōu)化目標(biāo)的近似最優(yōu)解。
在對(duì)信息量融入GA優(yōu)化SVM模型進(jìn)行訓(xùn)練之前需要構(gòu)建樣本數(shù)據(jù)集,樣本數(shù)據(jù)集的準(zhǔn)確性和合理性對(duì)模型的學(xué)習(xí)效果起著至關(guān)重要的作用。傳統(tǒng)的樣本數(shù)據(jù)集構(gòu)建方法是通過(guò)對(duì)歸一化后的各評(píng)價(jià)因子數(shù)據(jù)進(jìn)行提取以創(chuàng)建樣本數(shù)據(jù)集,但該類(lèi)方法不能準(zhǔn)確地對(duì)不同量綱評(píng)價(jià)因子賦值情況進(jìn)行表征,而引入適應(yīng)性較強(qiáng)的信息量模型則可以根據(jù)地質(zhì)災(zāi)害點(diǎn)的空間分布特征以及評(píng)價(jià)因子不同分級(jí)的區(qū)間面積來(lái)進(jìn)行求解,以得到更為合理的信息量值。提取各評(píng)價(jià)因子的信息量值來(lái)構(gòu)建樣本數(shù)據(jù)集不僅能夠有效消除各評(píng)價(jià)因子在量綱和性質(zhì)方面的差異,還可以有效地表示出各個(gè)評(píng)價(jià)因子的分級(jí)情況。在SVM模型進(jìn)行學(xué)習(xí)的過(guò)程中,其關(guān)鍵參數(shù)c、g的設(shè)定亦會(huì)對(duì)評(píng)價(jià)結(jié)果造成顯著的影響,其中,懲罰因子c決定了模型的訓(xùn)練誤差和泛化能力,RBF核函數(shù)參數(shù)g影響樣本在特征空間中的分布形式。GA與傳統(tǒng)搜索算法的不同在于該算法并不是基于單一評(píng)估函數(shù)的梯度或較高次統(tǒng)計(jì)以產(chǎn)生一個(gè)確定性的實(shí)驗(yàn)解序列,而是通過(guò)模擬自然界的進(jìn)化過(guò)程來(lái)搜索全局最優(yōu)解[22]。本文通過(guò)將信息量與GA結(jié)合,構(gòu)建信息量融入GA優(yōu)化SVM的地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)模型,解決了不同評(píng)價(jià)因子之間的量綱差異和SVM模型參數(shù)的賦值問(wèn)題,提高了模型預(yù)測(cè)結(jié)果的精確度,最終達(dá)到提高地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)結(jié)果準(zhǔn)確性、合理性的目的。信息量融入GA優(yōu)化SVM模型算法流程,見(jiàn)圖2。
圖2 信息量融入GA優(yōu)化SVM模型算法流程圖
具體的算法過(guò)程如下:
(1) 樣本數(shù)據(jù)集的構(gòu)建。首先根據(jù)地質(zhì)災(zāi)害點(diǎn)的空間分布情況以及各評(píng)價(jià)因子分級(jí)情況,按照信息量模型求解得到各評(píng)價(jià)因子的信息量值;再選取同等數(shù)量的非地質(zhì)災(zāi)害點(diǎn),將信息量值提取至樣本點(diǎn)上,共同構(gòu)建樣本數(shù)據(jù)集;然后以70%地質(zhì)災(zāi)害點(diǎn)與相同數(shù)量的非地質(zhì)災(zāi)害點(diǎn)的信息量值作為訓(xùn)練樣本數(shù)據(jù)集,剩余的30%地質(zhì)災(zāi)害點(diǎn)與相同數(shù)量的非地質(zhì)災(zāi)害點(diǎn)的信息量值作為測(cè)試樣本數(shù)據(jù)集。
(2) 信息量融入GA優(yōu)化SVM模型。首先將構(gòu)建的樣本數(shù)據(jù)集導(dǎo)入MATLAB軟件,采用GA對(duì)初始值進(jìn)行編碼,計(jì)算其適應(yīng)度,然后通過(guò)選擇、交叉和變異等操作直到滿足約束條件以獲取SVM中參數(shù)c、g的最優(yōu)值。
(3) 地質(zhì)災(zāi)害易發(fā)性指數(shù)的求解。在ArcGIS軟件平臺(tái)將全區(qū)轉(zhuǎn)化為點(diǎn),并將各評(píng)價(jià)因子信息量值提取至全區(qū)點(diǎn)集,代入訓(xùn)練好的模型中進(jìn)行求解。由于模型輸出的預(yù)測(cè)值是一個(gè)無(wú)標(biāo)定量,為了使評(píng)價(jià)模型的輸出結(jié)果能夠作為地質(zhì)災(zāi)害易發(fā)性指標(biāo)LSI(Landslide Susceptibility Index),需要將模型輸出結(jié)果映射到[0,1],其計(jì)算公式如下[23]:
(7)
式中:f(x)為SVM的輸出值;A、B為待定系數(shù),由貝葉斯公式和最大似然法估計(jì)確定。
(4) 地質(zhì)災(zāi)害易發(fā)性分區(qū)。將模型求解得到的全區(qū)點(diǎn)集輸出結(jié)果代入ArcGIS軟件,按照地質(zhì)災(zāi)害易發(fā)性指數(shù)將點(diǎn)轉(zhuǎn)化為柵格,根據(jù)自然間斷法與研究區(qū)實(shí)際情況將子長(zhǎng)市地質(zhì)災(zāi)害易發(fā)性劃分為極低易發(fā)區(qū)、低易發(fā)區(qū)、中易發(fā)區(qū)、高易發(fā)區(qū)和極高易發(fā)區(qū)5個(gè)等級(jí)。
(5) 精度檢驗(yàn)。為凸顯信息量融入GA優(yōu)化SVM模型的準(zhǔn)確性與合理性,文中還建立了單一的信息量模型和信息量融入SVM模型對(duì)研究區(qū)地質(zhì)災(zāi)害易發(fā)性進(jìn)行評(píng)價(jià),并對(duì)三類(lèi)模型評(píng)價(jià)結(jié)果進(jìn)行比較,最后采用受試者工作特征曲線對(duì)評(píng)價(jià)結(jié)果精度進(jìn)行檢驗(yàn)。
子長(zhǎng)市地質(zhì)災(zāi)害類(lèi)型發(fā)育有崩塌和滑坡兩種,地質(zhì)災(zāi)害的形成是多種成災(zāi)因子共同作用的結(jié)果,因此合理地選取適合于研究區(qū)的地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)因子對(duì)地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)結(jié)果至關(guān)重要。為保證評(píng)價(jià)結(jié)果的準(zhǔn)確性與合理性,本文在野外調(diào)查工作的基礎(chǔ)上,結(jié)合國(guó)內(nèi)外較為普遍選用的評(píng)價(jià)因子,從地形地貌、地質(zhì)環(huán)境和生態(tài)環(huán)境三個(gè)方面選取了高程、坡度、坡向、巖土體類(lèi)型、地質(zhì)災(zāi)害點(diǎn)密度、河流距離、道路距離、土地利用類(lèi)型和年均降雨量9個(gè)地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)因子。
地形地貌方面主要包括高程、坡度、坡向3個(gè)評(píng)價(jià)因子,地形地貌直接影響地質(zhì)災(zāi)害的發(fā)生,其中坡度和高程直接影響地表松散堆積物的分布,并且隨著坡度的增大,還會(huì)使得地表水徑流明顯變化[24]。研究區(qū)地形整體呈西高東低的趨勢(shì),綜合考慮研究尺度以及區(qū)內(nèi)地貌實(shí)際情況,將高程劃分為916~1 100 m、1 100~1 200 m、1 200~1 300 m、1 300~1 400 m、1 400~1 557 m五個(gè)等級(jí)。子長(zhǎng)市地質(zhì)災(zāi)害點(diǎn)多分布在坡度為0~40°范圍內(nèi),文中以10度間隔將坡度劃分為0~10°、10~20°、20~30°、30~40°、>40°五個(gè)等級(jí)。坡向代表著山坡不同的日照程度,其不同程度地影響著地質(zhì)災(zāi)害的易發(fā)性,本文基于ArcGIS坡向分析工具將坡向分為平面、北、東北、東、東南、南、西南、西、西北9種類(lèi)型。
地質(zhì)環(huán)境方面包括巖土體類(lèi)型、災(zāi)害點(diǎn)密度、河流距離和道路距離4個(gè)評(píng)價(jià)因子。研究區(qū)內(nèi)巖土體類(lèi)型可劃分為軟硬相間互層狀含煤、油頁(yè)巖碎屑巖類(lèi)和軟弱層狀黏土巖類(lèi)以及第四系黃土層3類(lèi),其中巖體多出露于深切河谷及強(qiáng)烈剝蝕后的山嶺地帶,區(qū)內(nèi)第四系黃土體大面積出露,土體中的垂直節(jié)理和含水層段是其主要軟弱結(jié)構(gòu)面,滑坡、崩塌的發(fā)生常與其相關(guān)。綜合考慮研究區(qū)地質(zhì)災(zāi)害點(diǎn)數(shù)量以及分級(jí)效果,基于ArcGIS對(duì)災(zāi)害點(diǎn)進(jìn)行密度分析,再將其以直線型閾值法進(jìn)行歸一化處理,最后按照相等間隔將災(zāi)害點(diǎn)密度劃分為0.0~0.2、0.2~0.4、0.4~0.6、0.6~0.8、0.8~1.0五個(gè)等級(jí),分別表示研究區(qū)內(nèi)地質(zhì)災(zāi)害點(diǎn)的分布情況。距河流的距離越近,對(duì)斜坡坡腳的沖刷、掏蝕作用愈明顯,地質(zhì)災(zāi)害易發(fā)性越高,在ArcGIS平臺(tái)中以河流為中心做5個(gè)等級(jí)的緩沖區(qū)分別代表不同河流距離對(duì)地質(zhì)災(zāi)害易發(fā)性的影響程度,河流距離劃分為0~100 m、100~300 m、300~600 m、600~1 000 m、>1 000 m五個(gè)等級(jí)。道路的修建破壞了坡體原有的穩(wěn)定結(jié)構(gòu),常常誘發(fā)各類(lèi)地質(zhì)災(zāi)害或存在較高的地質(zhì)災(zāi)害隱患,距道路距離越近地質(zhì)災(zāi)害易發(fā)性越高,本文以道路為中心向外以200 m為間隔做5個(gè)緩沖區(qū)將該道路距離劃分為0~200 m、200~400 m、400~600 m、600~800 m、>800 m五個(gè)等級(jí)。
生態(tài)環(huán)境方面包括土體利用類(lèi)型和年均降雨量2個(gè)評(píng)價(jià)因子。其中土地利用類(lèi)型一方面代表著不同強(qiáng)度的人類(lèi)工程活動(dòng),另一方面也表征著不同區(qū)域的植被覆蓋情況,本文將研究區(qū)土地利用類(lèi)型劃分為耕地、林地、草地、水體、建設(shè)用地和未利用地6種類(lèi)別。降雨不僅能加快對(duì)坡面的沖刷侵蝕,還增加了巖土的孔隙水壓力,從而誘發(fā)崩塌、滑坡災(zāi)害,子長(zhǎng)市歷年來(lái)地質(zhì)災(zāi)害多發(fā)生于強(qiáng)降雨之后,本文選取子長(zhǎng)市境內(nèi)多個(gè)氣象站站點(diǎn)2010—2015年的年平均降雨量進(jìn)行空間插值得到降雨量分布圖,并將其依照自然間斷法將年均降雨量劃分為489.09~514.15 mm、514.15~530.21 mm、530.21~546.28 mm、546.28~562.34 mm四個(gè)等級(jí)。
上述9個(gè)地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)因子及其分級(jí)結(jié)果,見(jiàn)圖3。
圖3 地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)因子及其分級(jí)
各評(píng)價(jià)因子信息量值可以有效反映出對(duì)應(yīng)評(píng)價(jià)因子對(duì)地質(zhì)災(zāi)害易發(fā)程度的影響,同時(shí)單個(gè)評(píng)價(jià)因子不同分級(jí)下的信息量值也可對(duì)地質(zhì)災(zāi)害易發(fā)程度進(jìn)行定量描述。通過(guò)對(duì)9個(gè)評(píng)價(jià)因子不同分級(jí)下地質(zhì)災(zāi)害點(diǎn)的空間分布情況進(jìn)行統(tǒng)計(jì),由公式(1)可計(jì)算得到各評(píng)價(jià)因子不同分級(jí)下的信息量值,結(jié)果見(jiàn)表1。
表1 各評(píng)價(jià)因子信息量值計(jì)算結(jié)果
隨機(jī)選取74處地質(zhì)災(zāi)害點(diǎn)(約占地質(zhì)災(zāi)害點(diǎn)數(shù)量的70%)與相同數(shù)量的非地質(zhì)災(zāi)害點(diǎn)的信息量值組成訓(xùn)練樣本數(shù)據(jù)集,剩余31處地質(zhì)災(zāi)害點(diǎn)(約占地質(zhì)災(zāi)害點(diǎn)數(shù)量的30%)與相同數(shù)量的非地質(zhì)災(zāi)害點(diǎn)的信息量值組成測(cè)試樣本數(shù)據(jù)集。
經(jīng)過(guò)選擇、交叉和變異等遺傳操作得到SVM參數(shù)c、g的最優(yōu)值分別為2.168、0.468。信息量融入GA優(yōu)化SVM模型的參數(shù)適應(yīng)度曲線,見(jiàn)圖4。
圖4 信息量融入GA優(yōu)化SVM模型的參數(shù)適應(yīng)度曲線
由圖4可知,在進(jìn)化代數(shù)為30時(shí),信息量融入GA優(yōu)化SVM模型的參數(shù)最佳適應(yīng)度曲線保持不變,適應(yīng)度均方根誤差約為0.06,表明在種群數(shù)量為200范圍內(nèi)已達(dá)到完全收斂。
將參數(shù)c、g值代入SVM模型中對(duì)訓(xùn)練樣本進(jìn)行學(xué)習(xí),并利用測(cè)試樣本數(shù)據(jù)對(duì)模型進(jìn)行檢驗(yàn),得到信息量融入GA優(yōu)化SVM模型的預(yù)測(cè)結(jié)果,見(jiàn)圖5。
圖5 信息量融入GA優(yōu)化SVM模型的預(yù)測(cè)結(jié)果
由圖5可知,信息量融入GA優(yōu)化SVM模型的預(yù)測(cè)效果較好,回歸系數(shù)R2達(dá)到0.8601,表明該模型的預(yù)測(cè)精度較高。
將全區(qū)轉(zhuǎn)化為點(diǎn)集,并將各點(diǎn)對(duì)應(yīng)的9個(gè)評(píng)價(jià)因子的信息量值進(jìn)行提取并導(dǎo)入訓(xùn)練好的模型中,利用公式(7)對(duì)模型輸出值進(jìn)行處理得到各點(diǎn)對(duì)應(yīng)的地質(zhì)災(zāi)害易發(fā)性指數(shù)值,將其導(dǎo)入ArcGIS軟件,以信息量融入SVM易發(fā)性指數(shù)值作為分類(lèi)依據(jù),按照自然間斷法對(duì)研究區(qū)地質(zhì)災(zāi)害易發(fā)性進(jìn)行重分類(lèi),得到子長(zhǎng)市地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)區(qū)劃圖,見(jiàn)圖6(a)。為凸顯出信息量融入GA優(yōu)化SVM模型的評(píng)價(jià)結(jié)果的合理性和適用性,本文對(duì)信息量(INF)模型和信息量融入SVM(INF-SVM)模型進(jìn)行求解,得到這2種模型下的子長(zhǎng)市地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)區(qū)劃圖,見(jiàn)圖6(b)和(c)。分別對(duì)3種評(píng)價(jià)模型下的子長(zhǎng)市地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)分區(qū)情況與地質(zhì)災(zāi)害點(diǎn)分布數(shù)量進(jìn)行統(tǒng)計(jì),結(jié)果見(jiàn)表2。
圖6 3種評(píng)價(jià)模型下子長(zhǎng)市地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)區(qū)劃圖
表2 3種評(píng)價(jià)模型下子長(zhǎng)市地質(zhì)災(zāi)害易發(fā)性分區(qū)統(tǒng)計(jì)結(jié)果
由圖6可知,3種評(píng)價(jià)模型下求解得到的研究區(qū)地質(zhì)災(zāi)害易發(fā)性區(qū)劃圖基本一致。其中,傳統(tǒng)信息量模型直接對(duì)各類(lèi)評(píng)價(jià)因子的信息量值進(jìn)行疊加處理,評(píng)價(jià)結(jié)果的區(qū)劃效果較為明顯,區(qū)內(nèi)中研究區(qū)易發(fā)區(qū)分布較廣;而支持向量機(jī)模型本質(zhì)上是對(duì)地質(zhì)災(zāi)害點(diǎn)和非地質(zhì)災(zāi)害點(diǎn)的各評(píng)價(jià)因子特征進(jìn)行學(xué)習(xí),綜合考慮各評(píng)價(jià)因子與地質(zhì)災(zāi)害易發(fā)性的非線性關(guān)系,并基于此進(jìn)行全區(qū)地質(zhì)災(zāi)害易發(fā)性預(yù)測(cè),由于研究區(qū)內(nèi)人類(lèi)工程活動(dòng)較為強(qiáng)烈,區(qū)域內(nèi)地質(zhì)災(zāi)害點(diǎn)數(shù)量也隨之分布較多,故評(píng)價(jià)結(jié)果表現(xiàn)為極高、高易發(fā)區(qū)集中于研究區(qū)中部、并沿道路和河流呈現(xiàn)樹(shù)枝狀分布。
由表2可知,3種評(píng)價(jià)模型下求解得到的子長(zhǎng)市地質(zhì)災(zāi)害點(diǎn)面積占比均表現(xiàn)為由極低易發(fā)區(qū)向極高易發(fā)區(qū)逐級(jí)遞減、地質(zhì)災(zāi)害點(diǎn)密度(地質(zhì)災(zāi)害點(diǎn)數(shù)量占比/地質(zhì)災(zāi)害點(diǎn)面積占比)由極低易發(fā)區(qū)向極高易發(fā)區(qū)基本保持逐級(jí)遞增趨勢(shì),表明3種模型的評(píng)價(jià)結(jié)果均較為合理,其中基于信息量融入GA優(yōu)化SVM模型的子長(zhǎng)市地質(zhì)災(zāi)害易發(fā)性分區(qū)評(píng)價(jià)結(jié)果在極高易發(fā)區(qū)中地質(zhì)災(zāi)害點(diǎn)數(shù)量占比高于INF模型和INF-SVM模型,說(shuō)明本文所建立的信息量融入GA優(yōu)化SVM模型對(duì)子長(zhǎng)市地質(zhì)災(zāi)害易發(fā)性分區(qū)更為合理,評(píng)價(jià)結(jié)果適用性更強(qiáng)。
現(xiàn)對(duì)信息量融入GA優(yōu)化SVM模型下的子長(zhǎng)市地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)結(jié)果概述如下:
(1) 地質(zhì)災(zāi)害極高、高易發(fā)區(qū)主要分布于研究區(qū)中南部、西部地區(qū),面積約為312 km2,占全區(qū)總面積的12.97%,區(qū)內(nèi)地質(zhì)災(zāi)害點(diǎn)數(shù)量占全區(qū)地質(zhì)災(zāi)害點(diǎn)總數(shù)的63.80%。對(duì)比本次子長(zhǎng)市地質(zhì)災(zāi)害調(diào)查結(jié)果可知,該兩類(lèi)分區(qū)內(nèi)的人口密度相對(duì)較大,加之修建道路、鐵路等,使得該區(qū)域內(nèi)地質(zhì)災(zāi)害發(fā)育較多,居民承災(zāi)體易損性高,屬于地質(zhì)災(zāi)害防災(zāi)減災(zāi)的重點(diǎn)研究區(qū)域。
(2) 地質(zhì)災(zāi)害中易發(fā)區(qū)呈樹(shù)杈狀沿河流、道路分布,面積為371 km2,占全區(qū)總面積的15.44%,區(qū)內(nèi)地質(zhì)災(zāi)害點(diǎn)數(shù)量占全區(qū)地質(zhì)災(zāi)害點(diǎn)總數(shù)的14.29%。受到河流對(duì)斜坡沖刷作用及人工切坡建房等因素的影響,該分區(qū)內(nèi)地質(zhì)災(zāi)害通常表現(xiàn)為規(guī)模較大,居民承災(zāi)體易損性相對(duì)較高。
(3) 地質(zhì)災(zāi)害低、極低易發(fā)區(qū)在全區(qū)分布最廣,兩類(lèi)分區(qū)下的面積約為1 722 km2,占全區(qū)總面積的71.59%,區(qū)內(nèi)地質(zhì)災(zāi)害點(diǎn)數(shù)量占全區(qū)地質(zhì)災(zāi)害點(diǎn)總數(shù)的21.90%。受土地利用類(lèi)型、坡度、高程等因素的綜合影響,此兩類(lèi)分區(qū)內(nèi)的地質(zhì)災(zāi)害通常表現(xiàn)為規(guī)模較小,強(qiáng)度較低,影響范圍較小且易損性較低。
受試者工作特征(Receiver Operating Characteristic,ROC)曲線是根據(jù)一系列不同的二分類(lèi)方式做出的曲線,用于反映所用分析方法的特異性與敏感性之間的相互關(guān)系,曲線下面積(Area Under Curve,AUC)可以表示模型對(duì)地質(zhì)災(zāi)害樣本的預(yù)測(cè)精度,AUC取值范圍為[0.5,1],其值越大表明預(yù)測(cè)精度越高。本文選取研究區(qū)內(nèi)105個(gè)地質(zhì)災(zāi)害點(diǎn)和同等數(shù)量的非地質(zhì)災(zāi)害點(diǎn)對(duì)3種模型下的子長(zhǎng)市地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)結(jié)果進(jìn)行精度檢驗(yàn)。3種評(píng)價(jià)模型的ROC曲線,見(jiàn)圖7。
圖7 3種評(píng)價(jià)模型的ROC曲線
由圖7可知,信息量融入GA優(yōu)化SVM模型ROC曲線的AUC值最高,為0.930,其次為INF-SVM模型,INF模型最小,表明采用信息量融入GA優(yōu)化SVM模型能夠客觀、準(zhǔn)確地對(duì)子長(zhǎng)市地質(zhì)災(zāi)害易發(fā)性進(jìn)行分級(jí)評(píng)價(jià),且評(píng)價(jià)結(jié)果的精度在3種評(píng)價(jià)模型中最高。
本文以子長(zhǎng)市作為研究區(qū),從地形地貌、地質(zhì)環(huán)境、生態(tài)環(huán)境三個(gè)方面選取了高程、坡度、坡向、巖土體類(lèi)型、地質(zhì)災(zāi)害點(diǎn)密度、河流距離、道路距離、土地利用類(lèi)型和年均降雨量作為地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)因子,將傳統(tǒng)的信息量模型與SVM相結(jié)合,利用GA對(duì)SVM關(guān)鍵參數(shù)進(jìn)行優(yōu)化選取,建立了信息量融入GA優(yōu)化SVM地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)模型,并將其運(yùn)用于研究區(qū)地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià),同時(shí)與單一的信息量(INF)模型和信息量融入SVM(INF-SVM)模型的評(píng)價(jià)結(jié)果進(jìn)行了比較,得到如下結(jié)論:
(1) 利用GA對(duì)SVM進(jìn)行優(yōu)化處理,得到SVM參數(shù)c、g的最優(yōu)值分別為2.168、0.468、信息量融入GA優(yōu)化SVM模型的適應(yīng)度曲線均方根誤差為0.06,且在測(cè)試集樣本中回歸系數(shù)R2為0.860 1,表明GA優(yōu)化效果較好,信息量融入GA優(yōu)化SVM模型可以有效減少SVM關(guān)鍵參數(shù)值的設(shè)定對(duì)評(píng)價(jià)結(jié)果造成的影響。
(2) 研究區(qū)地質(zhì)災(zāi)害極高、高易發(fā)區(qū)主要分布于研究區(qū)中南部、西部,區(qū)域內(nèi)地質(zhì)災(zāi)害受到人類(lèi)工程活動(dòng)的影響較大,地質(zhì)災(zāi)害的發(fā)生常具有較高的易損性,為地質(zhì)災(zāi)害防災(zāi)減災(zāi)工作的重點(diǎn)規(guī)劃區(qū)域;地質(zhì)災(zāi)害中易發(fā)區(qū)主要沿部分道路及支流呈樹(shù)枝狀散布,區(qū)內(nèi)地質(zhì)災(zāi)害的發(fā)生受到自然因素影響的較多,地質(zhì)災(zāi)害點(diǎn)數(shù)量占比相對(duì)較少;地質(zhì)災(zāi)害低、極低易發(fā)區(qū)在整個(gè)研究區(qū)范圍內(nèi)分布最廣,區(qū)域內(nèi)人口相對(duì)較少,人類(lèi)工程活動(dòng)強(qiáng)度較低,地質(zhì)災(zāi)害的發(fā)生也相對(duì)較少。
(3) INF模型、INF-SVM模型和信息量融入GA優(yōu)化SVM模型3種評(píng)價(jià)模型下得到的子長(zhǎng)市地質(zhì)災(zāi)害易發(fā)性分區(qū)評(píng)價(jià)結(jié)果基本保持一致,經(jīng)ROC曲線檢驗(yàn),基于信息量融入GA優(yōu)化SVM模型的ROC曲線AUC值為0.930,其評(píng)價(jià)結(jié)果的精度最高,表明該評(píng)價(jià)模型的評(píng)價(jià)效果較好。
(4) 將傳統(tǒng)的評(píng)價(jià)模型與機(jī)器學(xué)習(xí)模型相結(jié)合能夠有效避免單一評(píng)價(jià)模型的局限性,同時(shí)利用優(yōu)化算法對(duì)模型進(jìn)行優(yōu)化處理能夠有效解決模型參數(shù)的賦值問(wèn)題。本文提出的信息量融入GA優(yōu)化SVM模型在地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)中的研究結(jié)果經(jīng)檢驗(yàn)具有一定的可靠性,可為學(xué)者在同等地質(zhì)環(huán)境條件下的地質(zhì)災(zāi)害評(píng)價(jià)工作提供一定的參考,同時(shí)也為子長(zhǎng)市區(qū)域地質(zhì)災(zāi)害風(fēng)險(xiǎn)管控措施的制定提供了一定的理論基礎(chǔ)。