黃發(fā)明,石雨,歐陽(yáng)慰平,洪安宇,曾子強(qiáng),徐富剛
(南昌大學(xué) 建筑工程學(xué)院,南昌 330031)
如何有效開(kāi)展滑坡易發(fā)性預(yù)測(cè)制圖是現(xiàn)階段全世界范圍內(nèi)區(qū)域滑坡研究的重點(diǎn)和難點(diǎn)。通過(guò)將GIS與數(shù)據(jù)驅(qū)動(dòng)模型相結(jié)合,以圖像和數(shù)字的方式可構(gòu)建出更高效準(zhǔn)確的易發(fā)性預(yù)測(cè)模型。該易發(fā)性制圖的思路對(duì)滑坡高發(fā)地區(qū)的防災(zāi)減災(zāi)規(guī)劃具有重要意義[1]。
滑坡易發(fā)性可定義為特定地點(diǎn)在環(huán)境因子非線性耦合作用下發(fā)生滑坡的空間概率?;诘乩硐嗨菩砸?guī)律,即“地理環(huán)境越相似,地理特征越相近”可知,通過(guò)已經(jīng)發(fā)生滑坡的環(huán)境因子來(lái)建立預(yù)測(cè)模型,則潛在滑坡的空間位置有可能被預(yù)測(cè)[2]。很明顯,從滑坡樣本點(diǎn)中確定滑坡易發(fā)性與其環(huán)境因子的關(guān)系式是易發(fā)性預(yù)測(cè)的關(guān)鍵所在,因此,選擇用以獲取輸入變量的滑坡-環(huán)境因子關(guān)聯(lián)分析法非常重要。隨著遙感和GIS等基礎(chǔ)數(shù)據(jù)源獲取技術(shù)的進(jìn)步,易發(fā)性建模的空間數(shù)據(jù)源及其質(zhì)量有了較大提升[3]。一般而言,具體研究區(qū)內(nèi)的滑坡環(huán)境因子類型可通過(guò)相關(guān)文獻(xiàn)綜述和研究區(qū)的自然地理和地質(zhì)條件確定。筆者重點(diǎn)關(guān)注滑坡易發(fā)性建模過(guò)程中滑坡與其環(huán)境因子的非線性關(guān)聯(lián)分析這一不確定性因素,并進(jìn)一步研究其對(duì)滑坡易發(fā)性建模的影響。
啟發(fā)式模型、數(shù)理統(tǒng)計(jì)模型和機(jī)器學(xué)習(xí)模型是易發(fā)性預(yù)測(cè)過(guò)程中常用的3種類型[4]。啟發(fā)式模型[5]和數(shù)理統(tǒng)計(jì)模型被大量使用,主要有確定性因子(Certainty Factors,CF)[6]、層次分析法[7]和多元線性回歸[5]等;機(jī)器學(xué)習(xí)相關(guān)模型包括邏輯回歸(Logistic Regression,LR)[8]、C5.0決策樹(shù)[9]、人工神經(jīng)網(wǎng)絡(luò)[10-11]、隨機(jī)森林(Random Forest,RF)[12]、支持向量機(jī)(Support Vector Machines,SVM)[13]、卡方自動(dòng)交互檢測(cè)(Chi-squared Automatic Interaction Detector,CHAID)決策樹(shù)[14]和貝葉斯網(wǎng)絡(luò)[15]等。對(duì)于哪種類型的模型最適合易發(fā)性預(yù)測(cè),現(xiàn)階段還沒(méi)有一致的意見(jiàn),但優(yōu)秀的機(jī)器學(xué)習(xí)模型能夠提高滑坡易發(fā)性預(yù)測(cè)精度,對(duì)滑坡易發(fā)性區(qū)間劃分有著顯著影響,并可能進(jìn)一步改變滑坡易發(fā)性級(jí)別的劃分。筆者擬用CHAID決策樹(shù)這一被廣泛應(yīng)用的典型機(jī)器學(xué)習(xí)方法構(gòu)建滑坡易發(fā)性模型并探索建模不確定性特征。
在將建模預(yù)測(cè)出的滑坡易發(fā)性指數(shù)(Landslide Susceptibility Index,LSIs)與各類環(huán)境因子開(kāi)展聯(lián)系時(shí),需開(kāi)展滑坡與其基礎(chǔ)環(huán)境因子(不考慮誘發(fā)因子)之間的非線性關(guān)聯(lián)分析,其關(guān)聯(lián)值可直接作為易發(fā)性模型的輸入變量[16]。目前,常用的關(guān)聯(lián)分析法包括確定系數(shù)[17]、頻率比(Frequency Ratio,F(xiàn)R)[18]、熵指數(shù)(Index of Entropy,IOE)[16]和證據(jù)權(quán)重(Weight of Evidence,WOE)[19]等。不同關(guān)聯(lián)分析法的內(nèi)部計(jì)算思路具有較大的差異性,導(dǎo)致各方法下的易發(fā)性建模存在不確定性[20-21]。關(guān)聯(lián)分析法太粗糙會(huì)導(dǎo)致部分信息丟失,降低模型預(yù)測(cè)精度;優(yōu)秀的關(guān)聯(lián)分析法能獲取較準(zhǔn)確的環(huán)境因子影響滑坡發(fā)育的信息,進(jìn)一步提高滑坡環(huán)境因子分析及其建模的可靠性??梢?jiàn),探討不同關(guān)聯(lián)分析法對(duì)易發(fā)性預(yù)測(cè)建模的影響規(guī)律具有重要意義。
學(xué)者們采用不同關(guān)聯(lián)分析法和模型開(kāi)展易發(fā)性預(yù)測(cè)建模,例如:Zhang等[22]應(yīng)用IOE模型、LR-IOE和SVM-IOE模型獲得了中國(guó)陜西省府谷縣滑坡易發(fā)性圖,結(jié)果表明,LR-IOE模型的準(zhǔn)確率最高,其次是IOE模型和SVM-IOE模型。李文彬等[23]深入探討滑坡與其環(huán)境因子間的非線性聯(lián)接以及不同數(shù)據(jù)驅(qū)動(dòng)模型對(duì)滑坡易發(fā)性預(yù)測(cè)建模不確定性的影響規(guī)律,結(jié)果表明,RF模型預(yù)測(cè)性能最優(yōu),WOE-RF模型預(yù)測(cè)的滑坡易發(fā)性不確定性較低。張鐘遠(yuǎn)等[24]基于地理信息系統(tǒng)平臺(tái)構(gòu)建了云南省鎮(zhèn)康縣滑坡易發(fā)性預(yù)測(cè)指標(biāo)體系,結(jié)果顯示,頻率比耦合LR模型具有更高的成功率和預(yù)測(cè)率。但大多數(shù)情況下,現(xiàn)有研究使用特定的關(guān)聯(lián)分析法開(kāi)展易發(fā)性預(yù)測(cè)建模,而較少提供可信的依據(jù)和合理的解釋,并且較少深入探討這種不確定性因素對(duì)易發(fā)性預(yù)測(cè)建模的影響。通過(guò)探討關(guān)聯(lián)分析法耦合模型下的滑坡易發(fā)性結(jié)果的不確定性,更能深入理解易發(fā)性預(yù)測(cè)的可靠性和可行性,可降低關(guān)聯(lián)分析法不確定性因素帶來(lái)的影響。
筆者采用FR和WOE兩種非線性關(guān)聯(lián)分析法的計(jì)算數(shù)據(jù)值與原始環(huán)境因子數(shù)據(jù)(以下簡(jiǎn)稱“原始因子數(shù)據(jù)”)作為CHAID決策樹(shù)模型的輸入變量,以陜西省延長(zhǎng)縣為例,開(kāi)展滑坡易發(fā)性預(yù)測(cè)建模的不確定性分析,包括精度評(píng)價(jià)、LSIs分布規(guī)律和平均秩等。
FR和WOE兩種關(guān)聯(lián)法耦合CHAID決策樹(shù)模型時(shí)的易發(fā)性預(yù)測(cè)建模流程(圖1)如下:
1)獲取研究區(qū)滑坡編錄及相關(guān)環(huán)境因子數(shù)據(jù)源以便構(gòu)建易發(fā)性建模的空間數(shù)據(jù)集;
2)將FR、WOE和原始因子數(shù)據(jù)作為CHAID決策樹(shù)的輸入變量,形成3種耦合模型;
3)分別對(duì)3種耦合模型開(kāi)展易發(fā)性預(yù)測(cè)建模,然后在GIS中繪制滑坡易發(fā)性圖并劃分易發(fā)性等級(jí);
4)通過(guò)ROC精度、均值、標(biāo)準(zhǔn)差和平均秩等對(duì)易發(fā)性預(yù)測(cè)結(jié)果進(jìn)行不確定分析;
5)通過(guò)對(duì)比分析找到最佳關(guān)聯(lián)分析法,為易發(fā)性建模提供指導(dǎo)。
圖1 滑坡易發(fā)性預(yù)測(cè)建模流程圖Fig.1 Flowchart of landslide susceptibility prediction
1.1.1 頻率比 頻率比(Frequency Ratio,F(xiàn)R)反映了滑坡在各環(huán)境因子類別的分布狀況,闡述環(huán)境因子各屬性區(qū)間對(duì)滑坡的相對(duì)影響度,并且能夠很好地解釋滑坡與各因子之間的內(nèi)在聯(lián)系[25]。FR>1代表在對(duì)應(yīng)的環(huán)境因子條件下利于滑坡事件的發(fā)生;FR<1表明該環(huán)境因子區(qū)間的屬性與滑坡的發(fā)展關(guān)系較弱。利用環(huán)境因子的FR值作為各模型的輸入變量之一,其計(jì)算公式如式(1)。
(1)
式中:Nj為環(huán)境因子某區(qū)間中出現(xiàn)的滑坡柵格數(shù);N是全區(qū)已知滑坡所分布柵格的總數(shù);Sj是環(huán)境因子的單元數(shù);S是全區(qū)柵格總數(shù)。
1.1.2 證據(jù)權(quán) 證據(jù)權(quán)(Weight of Evidence,WOE)法在貝葉斯準(zhǔn)則基礎(chǔ)上綜合各類證據(jù)層來(lái)實(shí)現(xiàn)定量計(jì)算某事件的發(fā)生概率。WOE法通過(guò)將滑坡編錄和各類環(huán)境因子層進(jìn)行空間關(guān)聯(lián),從而得到滑坡處各環(huán)境因子的詳細(xì)分布特征權(quán)重因子W+和W-,其在每個(gè)環(huán)境因子分級(jí)中的計(jì)算如式(2)、式(3)所示。
(2)
(3)
CHAID決策樹(shù)以卡方統(tǒng)計(jì)量為基礎(chǔ)實(shí)現(xiàn)最優(yōu)決策樹(shù)構(gòu)建,也就是通過(guò)自變量和因變量間的解釋性來(lái)實(shí)現(xiàn)因變量的自動(dòng)判別。CHAID決策樹(shù)具有強(qiáng)大的非線性擬合預(yù)測(cè)性能,能容忍樣本數(shù)據(jù)缺失及樣本量不足等缺陷。CHAID模型設(shè)定樹(shù)生長(zhǎng)的層數(shù)、分裂及聚合閾值等停止標(biāo)準(zhǔn)來(lái)構(gòu)建準(zhǔn)確高效的預(yù)測(cè)或分類模型,同時(shí),為防止過(guò)擬合現(xiàn)象而用隨機(jī)分成的訓(xùn)練樣本構(gòu)建模型;最后再利用隨機(jī)分成的測(cè)試樣本對(duì)CHAID進(jìn)行逐步檢驗(yàn),以修正模型參數(shù)。
1.3.1 ROC 曲線精度分析 采用受試者工作特征(Receiver Operating Characteristic,ROC)曲線下面積(Area Under ROC,AUC)值作為一種量化指標(biāo)來(lái)整體評(píng)估建模性能。ROC曲線對(duì)測(cè)試集中各樣例進(jìn)行排序并依序選擇各截?cái)帱c(diǎn),再逐個(gè)把樣例作為正例來(lái)進(jìn)行計(jì)算,依據(jù)當(dāng)前分類器的“真陽(yáng)率”和“假陽(yáng)率”進(jìn)行ROC曲線的繪制,相關(guān)評(píng)價(jià)指標(biāo)如表1所示。AUC值等于隨機(jī)挑選的正樣本的排名高于隨機(jī)挑選的負(fù)樣本的概率,AUC值越大,則易發(fā)性模型預(yù)測(cè)性能越好[4]。
表1 ROC曲線的相關(guān)指標(biāo)
1.3.2 易發(fā)性指數(shù)統(tǒng)計(jì)規(guī)律分析 均值(Mean)是集中趨勢(shì)的測(cè)量,計(jì)算如式(4)所示(式中:Xn為第n個(gè)柵格單元的滑坡易發(fā)性指數(shù)值),其量化了研究區(qū)LSIs分布的整體偏向趨勢(shì),反映了LSIs分布的平均水平。標(biāo)準(zhǔn)差(Standard Deviation)是對(duì)圍繞平均值的離差的測(cè)量,計(jì)算如式(5)所示(式中:μ為滑坡易發(fā)性指數(shù)均值;Xi為第i個(gè)柵格單元的滑坡易發(fā)性指數(shù)值),量化了LSIs分布的離散程度,標(biāo)準(zhǔn)差越小,說(shuō)明LSIs越接近平均值,反之,則說(shuō)明其與平均值的差異越大。采用均值和標(biāo)準(zhǔn)差從整體上分析LSIs的分布特征,揭示不同關(guān)聯(lián)分析法和模型耦合模型下的預(yù)測(cè)性能,為滑坡易發(fā)性研究提供理論指導(dǎo)[23]。
(4)
(5)
1.3.3 易發(fā)性指數(shù)的差異顯著性 采用顯著性差異水平進(jìn)一步分析各耦合模型下易發(fā)性建模的不確定性。具體采用Kendall協(xié)同系數(shù)檢驗(yàn)法,對(duì)任意兩組不同耦合模型下預(yù)測(cè)出的LSIs進(jìn)行差異顯著性檢驗(yàn)。若Kendall秩相關(guān)系數(shù)W小于1及檢驗(yàn)結(jié)果的顯著性小于0.05,說(shuō)明這兩組耦合模型下LSIs的差異是顯著的,拒絕原假設(shè)。本文通過(guò)成對(duì)因子顯著性檢驗(yàn)發(fā)現(xiàn),W值為0.139,小于1,且P值均小于0.05,可見(jiàn),各耦合模型下的LSIs間差異顯著[27]。
延長(zhǎng)縣位于陜西東部,面積約2 368.7 km2,地勢(shì)從西北向東南方向傾斜。縣境內(nèi)屬黃土高原丘陵溝壑區(qū)(河谷階地、黃土溝谷區(qū)、黃土溝間區(qū)和巖質(zhì)丘陵區(qū)),出露三疊系中上統(tǒng)內(nèi)陸湖相碎屑沉積巖和第四系風(fēng)積、沖洪積和堆積黃土等地層,新近系砂礫巖在研究區(qū)出露較少(圖2)。另外,縣境內(nèi)地質(zhì)構(gòu)造活動(dòng)強(qiáng)度低,屬于暖溫帶干旱大陸性季風(fēng)氣候,年均降雨量約564 mm且集中在7、8、9月份。
圖2 延長(zhǎng)縣滑坡編錄圖Fig.2 Landslide inventory map of Yanchang
根據(jù)已有的滑坡野外調(diào)查資料和數(shù)據(jù)庫(kù)可知,延長(zhǎng)縣共發(fā)生滑坡82處,主要類型為小型淺層覆蓋滑坡,主要運(yùn)動(dòng)方式為牽引式(59%)和推移式滑動(dòng)(41%);縣境內(nèi)的小型滑坡45處(占比54.8%),中型滑坡36處(占比43.9%),大型滑坡只有1處。延長(zhǎng)縣滑坡分布位置如圖2所示,滑坡主要分布在縣域西部及周邊地區(qū),東部和中部較少;大部分發(fā)生滑坡的位置地勢(shì)較高,距離河流水系也較近。延長(zhǎng)縣滑坡的發(fā)生與地層巖性和工程活動(dòng)密切相關(guān)。
2.2.1 環(huán)境因子介紹 根據(jù)延長(zhǎng)境內(nèi)滑坡的特征及相關(guān)參考文獻(xiàn)的介紹,利用遙感影像和GIS軟件系統(tǒng)從數(shù)據(jù)源中提取14類滑坡環(huán)境因子,包括地形、水文、地表覆被和基礎(chǔ)地質(zhì)等[28-29]。其中,高程、NDVI、NDBI和MNDWI等12個(gè)因子為連續(xù)型數(shù)據(jù),而距河流距離和地層巖性2個(gè)因子為離散型數(shù)據(jù)(表2)。對(duì)于連續(xù)型環(huán)境因子,先通過(guò)小間隔對(duì)該因子進(jìn)行等分,再依據(jù)FR和WOE值將數(shù)值相近的區(qū)間合并成一個(gè)類別[30]。對(duì)于離散型數(shù)據(jù)類型的環(huán)境因子,采用固有的自然分組來(lái)進(jìn)行分級(jí):距河流距離因子按照距河流距離100、300、400、500、800、900、1 000 m和大于1 000 m進(jìn)行分類;地層巖性因子為三疊系砂巖夾砂質(zhì)泥巖和油頁(yè)巖(T2t)、三疊系厚層砂巖夾泥巖(T3h)、三疊系細(xì)砂層粉砂巖夾與泥巖互層(T3y)、三疊系厚層狀長(zhǎng)石石英砂巖(T2w)和第四系更新統(tǒng)風(fēng)積和洪積黃土(Qp1-3)[31]。另外,在使用原始因子數(shù)據(jù)作為CHAID決策樹(shù)模型的輸入變量時(shí),將距河流的距離和地層巖性兩種離散型數(shù)據(jù)類型的環(huán)境因子進(jìn)行了“啞變量”處理。
2.2.2 地形地貌因子 高程、坡度、坡向、剖面曲率、平面曲率、地形起伏度、地形粗糙度、地形切割深度和地形濕度指數(shù)等環(huán)境因子均從DEM中提取(圖3)[23,32]。以地形起伏度為例,分析其8個(gè)等級(jí)區(qū)間內(nèi)的FR和WOE值(表2),發(fā)現(xiàn)滑坡發(fā)生概率與研究區(qū)的地形起伏度大小成正比。在20~4區(qū)間內(nèi)發(fā)生滑坡的概率最大,為78.34%;其中,F(xiàn)R值均大于1,WOE值均為正值,35~40區(qū)域內(nèi)FR和WOE值最大,分別為2.843和1.148。FR和WOE值都顯示出地形起伏度大小與滑坡發(fā)生有著較強(qiáng)的正向相關(guān)性,可見(jiàn)關(guān)聯(lián)分析法在表達(dá)滑坡與地形起伏度的非線性關(guān)聯(lián)性時(shí)具有較為一致的趨勢(shì)和計(jì)算效果。
表2 環(huán)境因子的關(guān)聯(lián)分析值
續(xù)表2
續(xù)表2
圖3 延長(zhǎng)縣滑坡環(huán)境因子Fig.3 Landslide environmental factors in Yanchang
2.2.3 水文環(huán)境因子 由于河流對(duì)邊坡的浸潤(rùn)和侵蝕作用,越靠近河流的邊坡土壤含水量可能越高,導(dǎo)致斜坡體失穩(wěn)的可能性更高[33-34]。利用距河流距離和MNDWI來(lái)表征水文環(huán)境對(duì)滑坡發(fā)育的影響。以距河流的距離因子為例(表2),當(dāng)距河流距離小于400 m時(shí),滑坡發(fā)育的可能性更高(達(dá)74.41%),其中,F(xiàn)R值均大于1,WOE值均為正值;在100~300 m區(qū)域內(nèi),F(xiàn)R和WOE值最大,分別為1.873和0.992。
2.2.4 地表覆被因子 NDBI和NDVI分別反映了研究區(qū)域內(nèi)的建筑分布和自然植被對(duì)滑坡地質(zhì)災(zāi)害發(fā)育的影響[35]。從表2可知,當(dāng)NDVI在0.121~0.424范圍內(nèi)時(shí),其與滑坡有較強(qiáng)的關(guān)系,該區(qū)間包括了研究區(qū)內(nèi)近年來(lái)所有的已發(fā)生的滑坡;其中,在0.121~0.182范圍內(nèi),F(xiàn)R值大于1且WOE值為正數(shù)。NDBI能較好地反映研究區(qū)域內(nèi)建筑的分布情況,當(dāng)NBVI在0.730~0.949范圍內(nèi)時(shí)幾乎囊括了近年來(lái)研究區(qū)內(nèi)所有的滑坡,間接反映了人類工程建設(shè)對(duì)滑坡發(fā)育的影響。
2.2.5 基礎(chǔ)地質(zhì)因子 巖土類型表征滑坡體的物質(zhì)基礎(chǔ)[36-37],分析表2可知,T3h和T3y巖性區(qū)域面積僅占延長(zhǎng)縣面積的10.6%,而區(qū)域內(nèi)滑坡發(fā)生的概率高達(dá)23.2%,且FR值均大于1、WOE值均為正值,說(shuō)明T3h和T3y巖性區(qū)域內(nèi)滑坡發(fā)生的頻率較高;在Qp1-3巖性條件下,滑坡發(fā)生概率高達(dá)76.8%;在T2t巖性區(qū)域內(nèi),無(wú)滑坡分布;T2w巖性區(qū)域在研究區(qū)內(nèi)占比比較小,結(jié)果不具有研究意義。
30 m分辨率的柵格被廣泛用作滑坡易發(fā)性的制圖單元,基于30 m分辨率,整個(gè)延長(zhǎng)縣被劃分為2 622 482個(gè)柵格,已發(fā)生的82處滑坡被劃分為3 403個(gè)滑坡柵格[38]。通過(guò)FR和WOE兩種關(guān)聯(lián)法對(duì)14個(gè)環(huán)境因子各屬性區(qū)間進(jìn)行重新賦值,作為CHAID決策樹(shù)開(kāi)展易發(fā)性建模的輸入變量;同時(shí),也以原始因子數(shù)據(jù)作為輸入變量開(kāi)展單獨(dú)CHAID決策樹(shù)的滑坡易發(fā)性建模。通過(guò)SPSS modeler 18.0軟件把3 403個(gè)滑坡柵格單元賦值為1,同時(shí)隨機(jī)挑選與滑坡單元相同數(shù)量的非滑坡單元,并將其易發(fā)性賦值為0,作為模型輸出變量;然后按7∶3隨機(jī)劃分滑坡和非滑坡柵格單元(6 806個(gè))及其相關(guān)屬性值,得到模型訓(xùn)練集和測(cè)試集。最后將整個(gè)研究區(qū)柵格單元的FR和WOE關(guān)聯(lián)分析值以及原始因子數(shù)據(jù)代入訓(xùn)練好的模型中,預(yù)測(cè)延長(zhǎng)縣LSIs,并將其按照自然間斷點(diǎn)法[39]劃分為5個(gè)易發(fā)性級(jí)別。
在SPSS modeler軟件中進(jìn)行CHAID決策樹(shù)建模。以WOE樣本數(shù)據(jù)為例,首先需從外部源中讀取源節(jié)點(diǎn),將6 806個(gè)滑坡-非滑坡樣本數(shù)據(jù)導(dǎo)入SPSS modeler軟件中;接著對(duì)字段屬性、測(cè)量級(jí)別及各字段在建模中的角色進(jìn)行選擇或修改;再經(jīng)由分區(qū)選擇將樣本數(shù)據(jù)分為訓(xùn)練集(70%)和測(cè)試集(30%);然后在CHAID建模節(jié)點(diǎn)字段選項(xiàng)卡中使用預(yù)定義角色,應(yīng)用boosting算法創(chuàng)建一個(gè)整體,由其生成模型序列以增強(qiáng)模型預(yù)測(cè)的準(zhǔn)確度;選擇CHAID樹(shù)生長(zhǎng)算法并定制樹(shù)的最大深度值為5、父節(jié)點(diǎn)的最小記錄數(shù)為75、子節(jié)點(diǎn)的最小記錄數(shù)為15,以此來(lái)限制決策樹(shù)的增長(zhǎng);CHAID決策樹(shù)的其他參數(shù)使用SPSS modeler中的默認(rèn)值;最后將整體環(huán)境因子的WOE帶入訓(xùn)練好的CHAID決策樹(shù)模型中,實(shí)現(xiàn)延長(zhǎng)縣滑坡LSIs的準(zhǔn)確預(yù)測(cè)。FR-CHAID和單獨(dú)CHAID決策樹(shù)模型的建模步驟和參數(shù)設(shè)置與WOE-CHAID決策樹(shù)模型基本一致。
分兩步開(kāi)展滑坡易發(fā)性制圖,首先將3種耦合模型預(yù)測(cè)出的LSIs導(dǎo)入GIS軟件中,然后依據(jù)自然間斷點(diǎn)法將延長(zhǎng)縣滑坡易發(fā)性劃分為極高、高、中等、低和極低5類等級(jí)區(qū)間[33]。WOE-CHAID、FR-CHAID和單獨(dú)CHAID決策樹(shù)模型下的滑坡易發(fā)性結(jié)果如圖4所示。延長(zhǎng)縣大部分地區(qū)屬于低和極低易發(fā)區(qū),滑坡高和極高易發(fā)區(qū)主要位于坡度和高程中等且距離河流較近的山地丘陵地區(qū)。但3種耦合模型下得到的滑坡易發(fā)性級(jí)別存在顯著差異,圖4中延長(zhǎng)縣內(nèi)已發(fā)生的82處滑坡幾乎都落在WOE-CHAID和FR-CHAID決策樹(shù)模型預(yù)測(cè)的極高與高易發(fā)性等級(jí)區(qū)域內(nèi),而單獨(dú)CHAID決策樹(shù)模型預(yù)測(cè)的極高與高易發(fā)性等級(jí)區(qū)域與82處滑坡位置存在些許偏差。
圖5 CHAID決策樹(shù)模型的滑坡易發(fā)性建模ROC曲線Fig.5 ROC curve of landslide susceptibility modeling of CHAID decision tree
采用測(cè)試集AUC值作為具體指標(biāo)量化不同耦合模型的預(yù)測(cè)性能,AUC值越大,表明耦合模型預(yù)測(cè)性能越優(yōu)。WOE-CHAID、FR-CHAID和單獨(dú)CHAID決策樹(shù)模型的滑坡易發(fā)性結(jié)果ROC曲線如圖5所示。從圖5中可知,3種耦合模型下的結(jié)果均較好且相對(duì)穩(wěn)定,表現(xiàn)出良好的滑坡易發(fā)性性能。AUC精度從大到小依次為:AUC(WOE-CHAID)>AUC(FR-CHAID)>AUC(單獨(dú)的CHAID),說(shuō)明FR和WOE兩種關(guān)聯(lián)分析法在CHAID決策樹(shù)模型中具有比原始因子數(shù)據(jù)更穩(wěn)定的易發(fā)性預(yù)測(cè)性能。WOE耦合CHAID決策樹(shù)模型的易發(fā)性預(yù)測(cè)效果最好且預(yù)測(cè)效率最高,AUC精度較FR提高了2.1%,較原始因子數(shù)據(jù)提高了3.1%。
采用均值和標(biāo)準(zhǔn)差分別反映LSIs分布的平均水平和離散程度,并以此分析耦合模型下的易發(fā)性預(yù)測(cè)不確定性。WOE-CHAID、FR-CHAID和單獨(dú)CHAID決策樹(shù)模型預(yù)測(cè)的LSIs分布不確定性規(guī)律較為一致,在極低和低易發(fā)區(qū)分布較集中而在高和極高易發(fā)區(qū)分布逐漸減少。LSIs平均值從小到大排名為:?jiǎn)为?dú)的CHAID (0.364) 圖6 CHAID決策樹(shù)模型的LSIs分布Fig.6 LSIs distribution of CHAID decision tree 采用顯著性差異水平來(lái)進(jìn)一步分析各耦合模型下易發(fā)性建模的不確定性,通過(guò)該試驗(yàn)計(jì)算各耦合模型下預(yù)測(cè)的LSIs的平均秩,以便對(duì)易發(fā)性模型性能排序。平均秩越小則模型性能越好,最終模型比較結(jié)果為:WOE-CHAID決策樹(shù)模型預(yù)測(cè)LSIs的平均秩(值為1.85)最小,其次是FR-CHAID(值為2.06) 和單獨(dú)的CHAID決策樹(shù)(值為2.09)模型。顯著性差異水平和平均秩顯示出各耦合模型的易發(fā)性建模存在不確定性,如何規(guī)避這些不確定性是獲得可靠的易發(fā)性模型的重要研究?jī)?nèi)容。 滑坡環(huán)境因子的重要性反映了已發(fā)生的滑坡事件受該環(huán)境因子影響程度的大小[40]。由于原始因子數(shù)據(jù)和不同的關(guān)聯(lián)分析值在易發(fā)性預(yù)測(cè)建模中有著不同的表現(xiàn),基于CHAID決策樹(shù)模型中自帶的分類器屬性來(lái)評(píng)估在原始因子數(shù)據(jù)、FR和WOE等輸入變量下各個(gè)環(huán)境因子的重要性。另外,易發(fā)性建模中共使用14個(gè)環(huán)境因子(原始因子數(shù)據(jù)含“啞變量”類型,共23個(gè)環(huán)境因子),排名10名之后的環(huán)境因子重要性均小于0.04,因此僅展示重要性排名前10的環(huán)境因子。從圖7可知,坡度、地形起伏度、距河流的距離(原始因子數(shù)據(jù)中為100~300 m和500~800 m的兩個(gè)“啞變量”因子)、地形切割深度和地形粗糙度等5個(gè)環(huán)境因子在單獨(dú)CHAID、FR-CHAID和WOE-CHAID決策樹(shù)易發(fā)性預(yù)測(cè)中有著較大的貢獻(xiàn),占據(jù)重要性排名均在前5位,重要性均大于0.08。其次,平面曲率和地形濕度指數(shù)在所有決策樹(shù)模型中也發(fā)揮著相對(duì)重要的作用,重要性均大于0.04。 圖7 滑坡環(huán)境因子重要性Fig.7 The importance of environmental factors of 關(guān)聯(lián)分析法通過(guò)定量統(tǒng)計(jì)可直觀表現(xiàn)各環(huán)境因子不同屬性區(qū)間對(duì)滑坡易發(fā)性空間的影響性。Li等[27]、Saha等[41]對(duì)上述部分關(guān)聯(lián)分析法反映滑坡與其環(huán)境因子空間關(guān)聯(lián)的性能進(jìn)行了對(duì)比分析,所得結(jié)果與筆者研究基本一致。由上述分析可知,環(huán)境因子與滑坡間的空間信息的關(guān)聯(lián)性表達(dá)越充分,則LSIs的區(qū)分度越大,進(jìn)一步的易發(fā)性預(yù)測(cè)效果就越佳。在FR和WOE關(guān)聯(lián)分析法的環(huán)境因子分級(jí)中,WOE更能反映環(huán)境因子內(nèi)部影響滑坡發(fā)育的空間信息的差異,具有更優(yōu)的預(yù)測(cè)精度(AUC=86.3%);FR相較于WOE法更加簡(jiǎn)潔高效,在保證易發(fā)性精度的同時(shí)能有效避免太復(fù)雜的統(tǒng)計(jì)分析;基于原始因子數(shù)據(jù)進(jìn)行的單獨(dú)CHAID決策樹(shù)模型易發(fā)性預(yù)測(cè)精度略小于FR-CHAID和WOE-CHAID決策樹(shù)模型。此外,單獨(dú)的CHAID、FR-CHAID和WOE-CHAID決策樹(shù)模型預(yù)測(cè)的LSIs平均值逐漸減小而標(biāo)準(zhǔn)差逐漸增大,且平均秩也逐漸減小??梢?jiàn)關(guān)聯(lián)分析法的易發(fā)性預(yù)測(cè)建模效果較好,WOE優(yōu)于FR,而原始因子數(shù)據(jù)的易發(fā)性建模效果較差。 由文獻(xiàn)[27,42]可知,滑坡與環(huán)境因子(不考慮誘發(fā)因子)之間的非線性關(guān)聯(lián)分析法種類繁多。筆者僅使用FR和WOE兩種關(guān)聯(lián)分析法耦合CHAID決策樹(shù)模型進(jìn)行滑坡易發(fā)性的不確定性對(duì)比分析而并未考慮其他關(guān)聯(lián)分析法,在下一步研究中可以考慮使用概率法、信息量、確定性系數(shù)和熵指數(shù)等其他關(guān)聯(lián)分析法,耦合多種不同類型的模型開(kāi)展更加全面的易發(fā)性預(yù)測(cè)不確定性分析。 1)WOE-CHAID決策樹(shù)模型易發(fā)性預(yù)測(cè)的AUC精度最高,且均值和平均秩較小,標(biāo)準(zhǔn)差較大;FR-CHAID決策樹(shù)的AUC精度略低于WOE-CHAID,可見(jiàn)WOE具有更優(yōu)秀的非線性關(guān)聯(lián)性能。 2)將原始因子直接用作輸入變量的單獨(dú)CHAID決策樹(shù)模型的易發(fā)性預(yù)測(cè)精度整體略低于關(guān)聯(lián)分析法的耦合模型。為了提高滑坡易發(fā)性建模效率,可直接使用單獨(dú)CHAID決策樹(shù)模型,但要體現(xiàn)滑坡與其環(huán)境因子的空間關(guān)聯(lián)性或分析環(huán)境因子各子區(qū)間對(duì)滑坡發(fā)育的影響規(guī)律,則使用關(guān)聯(lián)分析法和CHAID決策樹(shù)模型耦合建模的優(yōu)勢(shì)顯著。 3)總體來(lái)說(shuō),WOE-CHAID決策樹(shù)模型的易發(fā)性預(yù)測(cè)結(jié)果可靠性最高,預(yù)測(cè)出的LSIs與實(shí)際的滑坡概率分布特征更加相符。4.3 耦合模型預(yù)測(cè)易發(fā)性指數(shù)的差異性分析
4.4 滑坡環(huán)境因子重要性分析
4.5 各關(guān)聯(lián)分析法的性能分析
5 結(jié)論