張?jiān)剑螣槦?/p>
(昆明理工大學(xué) 國土資源工程學(xué)院,云南 昆明 650031)
滑坡是一種危害性高、易發(fā)性難以評估的地質(zhì)災(zāi)害。我國滑坡發(fā)生十分頻繁,每年由于滑坡導(dǎo)致死亡的人數(shù)近百人,直接經(jīng)濟(jì)損失達(dá)到10億,云南省昆明市東川區(qū)尤為明顯,該區(qū)域海拔高,地形起伏大,自然環(huán)境復(fù)雜多變,滑坡災(zāi)害經(jīng)常發(fā)生,對國家和個人都造成了嚴(yán)重?fù)p失[1]。目前國內(nèi)外學(xué)者常用的滑坡易發(fā)性評價模型就是機(jī)器學(xué)習(xí)模型(BP 神經(jīng)網(wǎng)絡(luò)、決策樹)。在滑坡易發(fā)性評價中,機(jī)器學(xué)習(xí)算法客觀高效,在滑坡災(zāi)害易發(fā)性評價中具有良好的適用性[2]。各個國家和地區(qū)都開展過或正在開展地質(zhì)災(zāi)害的早期預(yù)測工作和減少災(zāi)害危害工作,我國在區(qū)域滑坡空間易發(fā)性分析上取得了很好的成效[3]。武雪玲等[4]通過支持向量機(jī)的方式對三峽庫區(qū)長江干流岸滑坡易發(fā)性進(jìn)行精度預(yù)測;郭子正等[5]通過證據(jù)權(quán)法和BP 神經(jīng)網(wǎng)絡(luò)相結(jié)合對三峽庫區(qū)萬州區(qū)滑坡進(jìn)行易發(fā)性評價。云南省昆明市東川區(qū)是滑坡頻發(fā)地區(qū),2020 年東川區(qū)滑坡隱患點(diǎn)153處,潛在經(jīng)濟(jì)損失達(dá)8 000 萬元,精準(zhǔn)地對云南省昆明市東川區(qū)滑坡進(jìn)行易發(fā)性評價對當(dāng)?shù)仡A(yù)防災(zāi)害發(fā)生有重要意義。
本文基于地理信息技術(shù),根據(jù)BP 神經(jīng)網(wǎng)絡(luò)和決策樹算法對云南省昆明市東川區(qū)滑坡地區(qū)進(jìn)行研究,進(jìn)而實(shí)現(xiàn)對云南省昆明市東川區(qū)滑坡的易發(fā)性評價。
自然資源部發(fā)布最新自然災(zāi)害報告,報告顯示在2020 年全國共發(fā)生地質(zhì)災(zāi)害7 840起,地裂縫143起,地面坍塌183起,崩塌1 797起,山體滑坡4 810起,滑坡占全部地質(zhì)災(zāi)害比例最大。云南省昆明市東川區(qū),坐落于云南省東北部和昆明市最北端,距離昆明150 公里,東川區(qū)地處云貴高原北部邊緣,境內(nèi)最高海拔為4 344.1米,最低海拔為695米,最高最低相差3 649.1米[6]。由于地形特殊,海拔差異大,地質(zhì)構(gòu)造復(fù)雜,在降雨和氣溫的共同作用下,地質(zhì)災(zāi)害頻發(fā),滑坡頻繁發(fā)生。本文以云南省昆明市東川區(qū)為研究區(qū)域,對其進(jìn)行滑坡易發(fā)性評價。通過兩種機(jī)器學(xué)習(xí)方法(BP 神經(jīng)網(wǎng)絡(luò)和決策樹)對云南省昆明市東川區(qū)滑坡進(jìn)行研究,進(jìn)行昆明市東川區(qū)滑坡易發(fā)性評價,輔助決策部門對滑坡災(zāi)害隱患點(diǎn)分級分類管理,針對不同易發(fā)性的災(zāi)害隱患點(diǎn)進(jìn)行監(jiān)控及防控。
1.2.1 研究區(qū)滑坡易發(fā)性評價多源數(shù)據(jù)?;诘刭|(zhì)災(zāi)害的調(diào)查資料和遙感影像以及GIS 工具,建立一個研究區(qū)滑坡空間數(shù)據(jù)集。主要數(shù)據(jù)來源為:
(1)研究區(qū)空間分辨率為30 米的數(shù)字高程數(shù)據(jù),通過ArcGIS 軟件獲得高程、坡度、坡向等地形數(shù)據(jù)。
(2)云南省昆明市行政區(qū)圖,獲得研究區(qū)行政區(qū)數(shù)據(jù)。
(3)第三次全國土地調(diào)查數(shù)據(jù),獲得研究區(qū)內(nèi)道路、水系等數(shù)據(jù)。
(4)東川區(qū)滑坡災(zāi)害隱患點(diǎn)數(shù)據(jù),我國地質(zhì)災(zāi)害管理部門通過多年工作,結(jié)合實(shí)際災(zāi)害發(fā)生的歷史情況,記錄了東川區(qū)的滑坡災(zāi)害隱患點(diǎn)數(shù)據(jù),作為地質(zhì)災(zāi)害監(jiān)測管理的本底數(shù)據(jù),滑坡隱患點(diǎn)為126處,分布情況如圖1 所示。
圖1 東川區(qū)滑坡隱患點(diǎn)圖
1.2.2 滑坡易發(fā)性評價影響因子?;率窃诘匦蔚孛病⒌刭|(zhì)、降水以及人為條件共同作用下形成的現(xiàn)象。因此滑坡評價影響因子的選擇是在滑坡預(yù)測中的關(guān)鍵一步[7]。地形因子能對斜坡進(jìn)行控制,能在很大程度上決定滑坡發(fā)育情況和分布情況,高程、坡度、坡向成為不可缺少的因素。人類活動頻繁的區(qū)域也是滑坡災(zāi)害易發(fā)地,道路、水系是誘發(fā)地質(zhì)災(zāi)害的重要因素。結(jié)合研究區(qū)的地質(zhì)災(zāi)害報告相關(guān)資料,研究區(qū)內(nèi)滑坡受地形地貌控制,由于斜坡高陡、海拔差異以及人類活動為滑坡的發(fā)生提供條件。因此本文選擇高程、坡向、坡度、道路、水系5 種影響因子作為東川區(qū)滑坡地質(zhì)災(zāi)害發(fā)生的評價影響因子。
本文結(jié)合每個評價因子的特點(diǎn),采用多種分級標(biāo)準(zhǔn),對評價因子進(jìn)行分級。高程和坡度坡向?yàn)檫B續(xù)型因子,道路水系為離散型因子。高程和坡度按照自然間斷點(diǎn)方法進(jìn)行分級,按照方向?qū)⑵孪蜻M(jìn)行分級??紤]到人類活動的相關(guān)因素,道路按照1 000 米為步長進(jìn)行分級,水系按照2 000 米為步長進(jìn)行分級。
BP 神經(jīng)網(wǎng)絡(luò)和決策樹模型被廣泛地應(yīng)用在滑坡預(yù)測上,S.Lee 等人[8]基于GIS 平臺,將統(tǒng)計(jì)學(xué)和神經(jīng)網(wǎng)絡(luò)作為基礎(chǔ)對滑坡敏感性進(jìn)行研究;Rohan Kumar 等[9]基于地勢、曲率、坡度角和排水距離等因素采用神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練和預(yù)測,實(shí)現(xiàn)山區(qū)滑坡的易發(fā)性評價;黃發(fā)明等人[10]用決策樹模型對江西省尋烏縣滑坡進(jìn)行危險性預(yù)測;朱清華[11]基于RF 模型和SVM 模型對陜西省灞橋區(qū)地質(zhì)災(zāi)害進(jìn)行易發(fā)性評價。
BP 網(wǎng)絡(luò)通過訓(xùn)練樣本數(shù)據(jù),不斷修正網(wǎng)絡(luò)權(quán)值和閾值使誤差函數(shù)沿負(fù)梯度方向下降,逼近期望輸出。它是一種應(yīng)用較為廣泛的神經(jīng)網(wǎng)絡(luò)模型,多用于函數(shù)逼近、模型識別分類、數(shù)據(jù)壓縮和時間序列預(yù)測等。決策樹算法是一種比較典型的預(yù)測方法,它是逼近離散函數(shù)值的一種算法,決策樹預(yù)測易于理解和實(shí)現(xiàn),數(shù)據(jù)準(zhǔn)備比較簡單,在相對短的時間內(nèi)能對大型數(shù)據(jù)源做出可行且良好的效果。
BP 神經(jīng)網(wǎng)絡(luò)是一種按照誤差逆向傳播算法訓(xùn)練的傳遞非線性函數(shù)的前饋型神經(jīng)網(wǎng)絡(luò)。BP 神經(jīng)網(wǎng)絡(luò)模型的拓?fù)浣Y(jié)構(gòu)由三部分組成,主要包括輸入層、隱含層和輸出層,是一種多層前饋神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)中的每個神經(jīng)元都是相互獨(dú)立的,不會相互影響,層與層之間通過信號傳遞建立聯(lián)系。BP 神經(jīng)網(wǎng)絡(luò)有工作階段和學(xué)習(xí)階段兩個部分,正向傳播信號即為工作階段,誤差反向傳播信號即為學(xué)習(xí)階段。將信號從輸入層輸入,再經(jīng)過隱藏層計(jì)算,最后在輸出層輸出信號的過程被稱為正向傳播。輸出層輸出的信號與期望不一樣,誤差的結(jié)果會沿著能減小的方向傳播,反復(fù)訓(xùn)練來減小誤差被稱為誤差反向傳播。
決策樹模型數(shù)據(jù)集是由帶屬性的實(shí)例組成,分成兩個樣本,即訓(xùn)練樣本和測試樣本。決策樹模型從原始節(jié)點(diǎn)開始進(jìn)行測試,會把樣本數(shù)據(jù)劃分到不同的樣本集里,這些子集就是新的子節(jié)點(diǎn)。決策樹算法處理的樣本屬性都為離散性的,而且決策樹的結(jié)果是否足夠好,對于測試屬性的選擇,修剪節(jié)點(diǎn)參考的原則和對樹本身的參數(shù)控制上都有一定的關(guān)系。綜上,決策樹算法的實(shí)現(xiàn)主要包括以下過程。首先,選擇訓(xùn)練樣本,構(gòu)造決策樹,選擇標(biāo)準(zhǔn)的測試屬性,按照其標(biāo)準(zhǔn)從上向下搭建決策樹的模型。其次,選擇測試集樣本,進(jìn)行枝葉修剪,對開始的決策樹進(jìn)行優(yōu)化,先進(jìn)行修剪再進(jìn)行測試和先進(jìn)行測試在進(jìn)行修剪視情況而定,遵循一定的原則,其原則是最小描述長度或期望錯誤率最小原則。決策樹算法比較經(jīng)典,算法復(fù)雜度較低,分類速度快,可以用于數(shù)據(jù)量大的快速檢索分類。決策樹算法分為兩種,包括ID3、C4.5 算法,決策樹C4.5 算法是在ID3 算法的基礎(chǔ)上優(yōu)化得來,C4.5 算法比ID3 分類速度和效率上有著明顯的提升。
2.3.1 基于BP 神經(jīng)網(wǎng)絡(luò)的滑坡空間易發(fā)性模型。本文建立了一個3 層的BP 神經(jīng)網(wǎng)絡(luò)。該模型以5 個評價影響因子作為輸入,所以輸入節(jié)點(diǎn)數(shù)為5,以發(fā)生滑坡為輸出,輸出節(jié)點(diǎn)數(shù)為1。研究表明,有一個隱層節(jié)點(diǎn)的神經(jīng)網(wǎng)絡(luò),只要隱層節(jié)點(diǎn)足夠多,就可以任意精度逼近一個非線性函數(shù)。因此本文建立含有一個隱藏層的多輸入單輸出的BP 神經(jīng)網(wǎng)絡(luò)預(yù)測模型。該BP 神經(jīng)網(wǎng)絡(luò)由一個輸入層、一個隱藏層和一個輸出層組成。將篩選出的影響因子作為輸入層(x1,…,x5),將識別的滑坡發(fā)生概率(y)作為輸出層。構(gòu)建的BP 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。
圖2 BP 神經(jīng)網(wǎng)絡(luò)模型圖
2.3.2 基于決策樹的滑坡空間易發(fā)性模型。決策樹模型的建立是將滑坡地質(zhì)災(zāi)害點(diǎn)數(shù)據(jù)集劃分為訓(xùn)練集和測試集,訓(xùn)練集占樣本數(shù)據(jù)的80%,測試集占樣本數(shù)據(jù)的20%。訓(xùn)練數(shù)據(jù)基于決策樹模型進(jìn)行模型計(jì)算。訓(xùn)練樣本集大約在20~30 個之間,測試樣本集在5~10 個之間,足以包含所有數(shù)據(jù)分布情況,明顯避開了誤認(rèn)為非滑坡區(qū)域的問題。最后通過正負(fù)樣本數(shù)據(jù)測試集進(jìn)行模型試驗(yàn),得到樣本最優(yōu)比例構(gòu)建的決策樹模型如圖3 所示。
圖3 決策樹模型圖
模型精度的驗(yàn)證和比較是對滑坡易發(fā)性分區(qū)的可靠驗(yàn)證的重要步驟。本文采用了接受者工作特性曲線(ROC)與其下面積(AUC)對BP 神經(jīng)網(wǎng)絡(luò)模型和決策數(shù)模型進(jìn)行評估。ROC 曲線廣泛地應(yīng)用于機(jī)器學(xué)習(xí)分類模型的評估,它以敏感度為縱坐標(biāo),1-特異性為橫坐標(biāo)[12]。AUC 取值范圍為[0,1],AUC 值越大代表分類效果越好,通常認(rèn)為AUC>0.7,表示分類預(yù)測能力較強(qiáng)[13]。本論文使用兩種機(jī)器學(xué)習(xí)算法,通過構(gòu)建BP神經(jīng)網(wǎng)絡(luò)和構(gòu)建決策樹來對模型進(jìn)行訓(xùn)練。兩種模型的精度對比,檢驗(yàn)?zāi)P陀?xùn)練效果的好壞,將精度較高的模型用來進(jìn)行滑坡易發(fā)性評價。本論文通過對模型進(jìn)行計(jì)算,得出BP 神經(jīng)網(wǎng)絡(luò)模型預(yù)測精度為79%,決策樹模型預(yù)測精度為85%。圖4 和圖5 表明決策樹模型的正確率(85%)比BP 神經(jīng)網(wǎng)絡(luò)模型(79%)更高。結(jié)果表明,采用決策樹模型對滑坡分布更敏感,預(yù)測結(jié)果更可靠,進(jìn)行滑坡災(zāi)害易發(fā)性評價更好。
圖4 BP 神經(jīng)網(wǎng)絡(luò)ROC 圖
圖5 決策樹ROC 圖
本文將滑坡隱患點(diǎn)數(shù)據(jù)集劃分為訓(xùn)練集和測試集,訓(xùn)練集占樣本數(shù)據(jù)的80%,測試集占樣本數(shù)據(jù)的20%[14]。訓(xùn)練數(shù)據(jù)基于決策樹模型進(jìn)行模型計(jì)算。訓(xùn)練樣本集24個,測試樣本6個,并提取5 種影響因子的屬性值。將整個研究區(qū)的屬性集帶入到?jīng)Q策樹模型中,通過ArcGIS 將研究區(qū)預(yù)測的易發(fā)性分為5 個等級,分別對應(yīng)極低易發(fā)區(qū)、較低易發(fā)區(qū)、中等易發(fā)區(qū)、較高易發(fā)區(qū)、極高易發(fā)區(qū),易發(fā)性等級越高越容易發(fā)生滑坡災(zāi)害,得到了東川區(qū)滑坡易發(fā)性區(qū)劃圖,如圖6 所示,圖中共126 個滑坡隱患點(diǎn),本文預(yù)測模型有效地劃分出滑坡極高發(fā)生區(qū)域(易發(fā)性等級5)、較高和中等發(fā)生區(qū)域(易發(fā)性等級4、3)、較低和極低發(fā)生區(qū)域(易發(fā)性等級2、1),可以看出易發(fā)性極低和較低地區(qū)整體以片狀分布,易發(fā)性極高和較高地區(qū)則以集群狀分布,符合滑坡的分布特點(diǎn)。研究區(qū)內(nèi)有極高易發(fā)性的區(qū)域分布在水系和道路密集地區(qū),高程較低處,說明人類活動和地形對滑坡影響很大。本文所建模型能夠很好地反映滑坡易發(fā)性現(xiàn)狀,表明決策樹模型對滑坡空間易發(fā)性評價是合理的。
圖6 東川區(qū)滑坡易發(fā)性分布圖
通過對云南省昆明市東川區(qū)進(jìn)行基于BP 神經(jīng)網(wǎng)絡(luò)和決策樹的滑坡易發(fā)性評價,得出以下結(jié)論:
(1)通過相關(guān)資料和野外考察,選取研究區(qū)內(nèi)的高程、坡度、坡向、道路、水系五個評價因子進(jìn)行評價,各類因子都對滑坡發(fā)育有影響,根據(jù)分析,研究區(qū)內(nèi)滑坡主要分布在水系和道路密集地區(qū),高程較低處。
(2)通過ROC 曲線,AUC 值進(jìn)行模型精度驗(yàn)證與比較,結(jié)果顯示決策樹模型更適用于滑坡易發(fā)性評價。決策樹模型的精度高于BP 神經(jīng)網(wǎng)絡(luò)模型,分區(qū)結(jié)果更精確,決策樹模型對空間易發(fā)性評價更合理。
(3)將數(shù)據(jù)代入構(gòu)建的決策樹模型中,結(jié)果顯示決策樹模型預(yù)測分布趨勢更符合滑坡分布規(guī)律,可通過滑坡易發(fā)性結(jié)果為防災(zāi)減災(zāi)提供幫助。