蔡抒 程先富
摘要:安徽大別山區(qū)是中國滑坡災(zāi)害發(fā)生較為嚴(yán)重的地區(qū)之一,開展滑坡易發(fā)性評價(jià)研究,可為判斷滑坡易發(fā)分區(qū)的空間分布、產(chǎn)生原因提供科學(xué)依據(jù)。本文采用極限梯度提升算法、K近鄰、邏輯回歸、支持向量機(jī)、Stacking模型融合方法,利用貝葉斯算法優(yōu)化模型,選擇安徽大別山區(qū)1959—2020年的降雨、植被覆蓋、地形地質(zhì)、水文等數(shù)據(jù)作為輸入,結(jié)果如下:(1)XGBoost模型驗(yàn)證集AUC為92.06%,Precision,Accuracy,Recall,F(xiàn)1-score得分較高,泛化能力好,適合做為研究區(qū)預(yù)測模型。模型得出的極高易發(fā)區(qū)和高易發(fā)區(qū)分別占總面積的23%和16.2%,分布范圍主要在金寨縣、霍山縣、舒城縣南部、潛山縣北部、太湖縣東部。(2)通過XGBoost模型的特征重要性排序發(fā)現(xiàn),巖性、坡度、8月降雨是最重要的影響因子,曲率、TWI是最不重要的影響因子。
關(guān)鍵詞:滑坡;機(jī)器學(xué)習(xí);安徽大別山區(qū)
中圖分類號:P642.22文獻(xiàn)標(biāo)志碼: A文章編號:1001-2443(2024)02-0152-09
近年來,地質(zhì)災(zāi)害在中國多地頻繁發(fā)生。其隱蔽性、突發(fā)性和破壞性的特點(diǎn),威脅著受災(zāi)地區(qū)人民的生命財(cái)產(chǎn)安全[1-2]。隨著極端天氣氣候事件發(fā)生的不確定性因素增加,可能導(dǎo)致的強(qiáng)降雨事件增多,加之大規(guī)?;A(chǔ)設(shè)施建設(shè)對地質(zhì)環(huán)境影響劇烈,我國的地質(zhì)災(zāi)害治理工作仍面臨嚴(yán)峻挑戰(zhàn)?;略诘刭|(zhì)災(zāi)害中占比較多,滑坡易發(fā)性是指地表或者坡面土層在自然或人為因素的作用下,出現(xiàn)結(jié)構(gòu)破壞、坡面變形等現(xiàn)象的概率,高易發(fā)性地區(qū)更容易產(chǎn)生滑坡。
滑坡易發(fā)性評價(jià)主要利用地理信息系統(tǒng)(Geographic Information System,GIS)技術(shù)獲得滑坡發(fā)生概率柵格圖,預(yù)測方法主要可分為啟發(fā)式模型[3]、常規(guī)數(shù)理統(tǒng)計(jì)模型[4]和機(jī)器學(xué)習(xí)模型[5]。信息價(jià)值模型[6]、熵指數(shù)[7]、確定性因子[8]、層次分析法[9]等多種統(tǒng)計(jì)方法也被廣泛應(yīng)用于滑坡易發(fā)性圖譜繪制,但統(tǒng)計(jì)模型通常建立在一定的假設(shè)前提之上,這些假設(shè)可能不符合實(shí)際情況,導(dǎo)致模型的預(yù)測能力受到限制,某些復(fù)雜的統(tǒng)計(jì)模型可能很難被解釋和理解,這對于一些需要解釋的場景來說可能會帶來困難。相比之下,機(jī)器學(xué)習(xí)模型對處理的樣本數(shù)據(jù)限制較少,建模過程相對簡單高效[10]。梯度增強(qiáng)機(jī)(Gradient Boosting Machine,GBM)和極端梯度提升算法(Extreme Gradient Boosting,XGBoost)由于其預(yù)測能力和魯棒性出眾被熱衷。Merghadi等[11]對阿爾及利亞的案例研究,應(yīng)用不同的機(jī)器學(xué)習(xí)技術(shù)進(jìn)行比較,結(jié)果表明,所有基于樹的集合(隨機(jī)森林、極限梯度提升樹)在Kappa等指標(biāo)上都優(yōu)于其他機(jī)器學(xué)習(xí)模型(K近鄰、支持向量機(jī)和神經(jīng)網(wǎng)絡(luò))。Cao等[12]選擇了12個(gè)因子,利用隨機(jī)森林、支持向量機(jī)和 XGBoost三種方法生成滑坡分區(qū)圖,發(fā)現(xiàn)XGBoost優(yōu)于其他兩種方法。在影響因子重要性上,Ali等[13]使用邏輯回歸模型和決策樹開展滑坡易發(fā)性評價(jià)時(shí),發(fā)現(xiàn)臺灣地區(qū)降雨引發(fā)的滑坡,其最重要的影響因素是與河流的距離。Shrestha等[14]利用最大熵模型,采用刀切法得到每個(gè)因子AUC值,通過計(jì)算發(fā)現(xiàn)距斷層距離、高程是最重要的影響因子。
安徽大別山地區(qū)地質(zhì)構(gòu)造復(fù)雜,山區(qū)海拔高,降雨加之人為活動導(dǎo)致該地區(qū)滑坡災(zāi)害頻繁。一些專家學(xué)者[15]對安徽大別山區(qū)滑坡的形成機(jī)理進(jìn)行了研究,樓少甫[16]對大別山區(qū)開發(fā)了滑坡地質(zhì)災(zāi)害信息管理系統(tǒng)。本文通過收集安徽大別山區(qū)已發(fā)生滑坡的相關(guān)資料,利用機(jī)器學(xué)習(xí)模型預(yù)測滑坡發(fā)生的概率,繪制易發(fā)分區(qū)圖,分析影響因子重要性,為當(dāng)?shù)卣疄?zāi)前預(yù)警提供科學(xué)依據(jù)。
1 研究區(qū)概況及數(shù)據(jù)來源
1.1 研究區(qū)概況
研究區(qū)包括裕安、金安、葉集、金寨、霍山、霍邱、舒城、潛山、岳西、太湖、宿松八縣三區(qū),地處安徽大別山腹地,共計(jì)2.36萬平方公里,如圖1所示。該區(qū)屬于北亞熱帶溫濕季風(fēng)區(qū),氣候溫暖濕潤,降水充沛。大別山山地地質(zhì)構(gòu)造基礎(chǔ)是古生代華力西中期的秦嶺大別山褶皺帶,主要由前震旦紀(jì)地層和侵入巖構(gòu)成,以花崗巖、片麻巖等為主。大別山為淮河水系和長江水系的分水嶺,也是我國南北水系的分水嶺。山北水往北流入淮河,山南水往南流入長江,山南北兩側(cè)水系豐富,是淮河中游長江下游的重要水源補(bǔ)給區(qū) 。山地南北兩側(cè)修建了許多水庫,有佛子嶺水庫、梅山水庫、響洪甸水庫、白蓮河水庫、南灣水庫等[17]。
1.2 數(shù)據(jù)來源
在滑坡易發(fā)性評價(jià)中,建立合適的評價(jià)體系是準(zhǔn)確預(yù)測的重要前提。影響因子的選取遵循以下條件:①影響因子和滑坡的形成因素相關(guān)。②控制模型影響因子的數(shù)量,盡可能避免因子間的共線性,減少模型過擬合風(fēng)險(xiǎn)。③結(jié)合研究區(qū)實(shí)際情況:根據(jù)爬取的滑坡新聞數(shù)據(jù),發(fā)現(xiàn)部分滑坡發(fā)生在6、7、8月強(qiáng)降雨過程中,因此選擇6、7、8月平均降雨量和年均降雨量作為誘發(fā)因子。從谷歌地圖影像上觀察發(fā)現(xiàn),有部分滑坡發(fā)生在植被茂盛和人類工程活動較多的地區(qū),如圖2所示,因此選擇NDVI、距道路距離和距建筑用地距離作為影響因子。
如表1所示,以柵格單元為評價(jià)單元,將所有數(shù)據(jù)轉(zhuǎn)換為30m柵格數(shù)據(jù),統(tǒng)一為蘭伯特投影。
2 數(shù)據(jù)處理及研究方法
2.1 數(shù)據(jù)處理
(1)本文對DEM 數(shù)據(jù)重采樣為30 m,提取坡度、坡向、曲率、地形起伏度、地表粗糙度五個(gè)地形因子和地形濕度指數(shù)(topographic wetness index,TWI)、水流強(qiáng)度指數(shù)(stream power index,SPI)2個(gè)水文因子。
(2)由于下載的滑坡點(diǎn)數(shù)據(jù)量較少,不能滿足機(jī)器學(xué)習(xí)模型需要的樣本點(diǎn)數(shù)量,本文采用Python爬蟲技術(shù)爬取百度新聞網(wǎng)站上2010—2020年安徽大別山區(qū)滑坡新聞,收集每個(gè)滑坡的地理位置。此外,還搜集了六安市國土資源局、金寨縣人民政府、霍山縣人民政府網(wǎng)站上歷史滑坡的地理位置或坐標(biāo),利用水經(jīng)微圖4.1軟件,下載相應(yīng)地區(qū)的谷歌地圖歷史影像數(shù)據(jù)。將影像數(shù)據(jù)導(dǎo)入ArcGIS,數(shù)字化滑坡的范圍,面轉(zhuǎn)柵格,再柵格轉(zhuǎn)點(diǎn),結(jié)合中科院歷史滑坡數(shù)據(jù)形成最終滑坡點(diǎn)數(shù)據(jù)集。在地勢平坦地區(qū),滑坡點(diǎn)周圍50~500 m范圍以及遠(yuǎn)離滑坡點(diǎn)密集的地區(qū)分別選取非滑坡區(qū)域,利用面轉(zhuǎn)柵格、柵格轉(zhuǎn)點(diǎn)工具生成非滑坡點(diǎn),導(dǎo)出為Excel表格,利用rand函數(shù)隨機(jī)選取和滑坡點(diǎn)數(shù)目相同的非滑坡點(diǎn),共計(jì)912個(gè)。
(3)利用Map2Shp桌面版軟件將地質(zhì)圖轉(zhuǎn)為保留屬性的shape格式。應(yīng)用ArcGIS10.2軟件導(dǎo)入圖幅經(jīng)緯度坐標(biāo),利用空間校正工具匹配圖幅經(jīng)緯度。按照地質(zhì)礦產(chǎn)術(shù)語分類代碼第10部分“巖石學(xué)(GB/T 9649.10—2009)”中的巖性代碼修改屬性信息。缺少的部分?jǐn)?shù)據(jù),利用安徽省1∶100萬巖性圖投影、數(shù)字化、添加屬性補(bǔ)全,和1∶20萬矢量數(shù)據(jù)合并并進(jìn)行拓?fù)錂z查。對照工程巖體分級標(biāo)準(zhǔn)(GB/T 50218—2014)中的巖石堅(jiān)硬程度劃分標(biāo)準(zhǔn)分類。地下水?dāng)?shù)據(jù)和巖性數(shù)據(jù)處理方法相同。
(4)NDVI數(shù)據(jù)利用ArcGIS柵格計(jì)算器工具求取21年平均值。
(5)應(yīng)用柵格計(jì)算器提取土地利用數(shù)據(jù)中的建筑用地,對道路、斷層、河流、建筑數(shù)據(jù)利用歐式距離、裁剪、重分類工具生成多環(huán)緩沖區(qū),分辨率為30 m。參照有關(guān)參考文獻(xiàn)分級值,將道路、斷層、建筑用地三類因子的多環(huán)緩沖區(qū)值設(shè)置為0~500m、500~1000 m、1000~1500 m、1500~2000 m、大于2000 m總共5個(gè)等級,河流多環(huán)緩沖區(qū)值設(shè)置為0~200 m、200~500 m、500~1000 m、1000~2000 m、大于2000 m總共5個(gè)等級。
(6)利用Python程序計(jì)算22個(gè)氣象站點(diǎn)1959—2020年6、7、8月平均降雨量和年均降雨量。利用ArcGIS反距離加權(quán)法插值得到降雨量柵格數(shù)據(jù)集,分辨率為30 m。
(7)將分類后的矢量數(shù)據(jù)面轉(zhuǎn)柵格為柵格數(shù)據(jù)。所有柵格數(shù)據(jù)設(shè)置為蘭伯特坐標(biāo)系,并統(tǒng)一為30 m分辨率,連續(xù)型數(shù)據(jù)統(tǒng)一按自然間斷法分為7級。
(8)利用ArcGIS多值提取至點(diǎn)工具,完成影響因子分級值與滑坡點(diǎn)、非滑坡點(diǎn)匹配,導(dǎo)出為csv格式,得到模型訓(xùn)練集和驗(yàn)證集。利用ArcGIS Python API編寫程序,多值提取至點(diǎn)并導(dǎo)出csv格式,總計(jì)26524738行,再與研究區(qū)點(diǎn)圖層匹配導(dǎo)出柵格文件。
2.2 研究方法
2.2.1 K近鄰 KNN(K-Nearest Neighbors)算法通俗的說就是“近朱者赤,近墨者黑”,其主要算法思想為:特征空間中的一個(gè)樣本,如果與其最類似的K個(gè)樣本中的大部分屬于某種類型,則該樣本也屬于該類別[18]。本文使用貝葉斯算法優(yōu)化模型得到最優(yōu)參數(shù)后,利用5折交叉驗(yàn)證對訓(xùn)練集進(jìn)行訓(xùn)練。
2.2.2 邏輯回歸模型(logistic regression,LR) 邏輯回歸模型是一種形式簡單的機(jī)器學(xué)習(xí)模型。該模型通過在線性回歸的基礎(chǔ)上增加一個(gè)sigmoid函數(shù)(非線形)映射,其計(jì)算代價(jià)不高,易于理解和實(shí)現(xiàn)[19]。本文使用貝葉斯算法優(yōu)化模型得到最優(yōu)參數(shù)后,利用5折交叉驗(yàn)證對訓(xùn)練集進(jìn)行訓(xùn)練。
2.2.3 極限梯度提升算法 極限梯度提升(Extreme Gradient Boosting,XGBoost)模型是梯度提升算法的一種代表算法,由陳天奇等[20]于2014年提出。XGBoost擴(kuò)展和改進(jìn)了梯度提升決策樹模型。其由多棵決策樹組成,決策樹對樣本特征進(jìn)行映射,使每個(gè)樣本落在該樹的某個(gè)葉子節(jié)點(diǎn)上,每個(gè)葉子節(jié)點(diǎn)包含權(quán)重得分,多顆決策樹共同參與,最后將所有樹的分?jǐn)?shù)累加起來作為最終的預(yù)測結(jié)果。本文使用貝葉斯算法優(yōu)化模型得到最優(yōu)參數(shù)后,利用5折交叉驗(yàn)證對訓(xùn)練集進(jìn)行訓(xùn)練。
2.2.4 Stacking 模型融合 Stacking算法由兩層結(jié)構(gòu)組成,利用原始數(shù)據(jù)構(gòu)建的多個(gè)學(xué)習(xí)器為初級學(xué)習(xí)器,其輸出結(jié)果構(gòu)建的學(xué)習(xí)器為次級學(xué)習(xí)器。算法的效果好壞取決于兩個(gè)方面:一個(gè)是基模型的預(yù)測效果,通?;P偷念A(yù)測效果越好,集成學(xué)習(xí)模型的預(yù)測效果越好;二是基模型之間需要有一定的差異性,以便讓不同的基模型學(xué)習(xí)到不同的特征,使每個(gè)模型充分發(fā)揮其優(yōu)點(diǎn)[21]。本研究將貝葉斯優(yōu)化后的SVC、XGBoost、LR模型作為基學(xué)習(xí)器,LR作為次學(xué)習(xí)器進(jìn)行集成。
3 結(jié)果與分析
3.1 精度評價(jià)
采用斯皮爾曼相關(guān)系數(shù)進(jìn)行相關(guān)性檢驗(yàn),發(fā)現(xiàn)年均降雨量和6月降雨量相關(guān)系數(shù)為0.94,地形起伏度和坡度、地表粗糙度相關(guān)系數(shù)分別為0.9、0.83,坡度和地表粗糙度相關(guān)系數(shù)為0.91,由于相關(guān)系數(shù)大于0.8為強(qiáng)相關(guān),因此要去除強(qiáng)相關(guān)因子。利用特征工程中遞歸式特征消除(Recursive Feature Elimination, RFE)方法,得到每個(gè)影響因子的重要性排名,結(jié)合文獻(xiàn)引用較多的因子,去除地表粗糙度因子、年均降雨量、地形起伏度3個(gè)因子。再利用斯皮爾曼相關(guān)系數(shù)進(jìn)行檢驗(yàn),沒有發(fā)現(xiàn)嚴(yán)重共線性因子。影響因子如圖3所示,其中地下水類型的圖例為:1為侵入巖風(fēng)化裂隙水,2為變質(zhì)巖類裂隙水,3為含鈣碎屑巖類溶蝕孔隙裂隙水,4為基巖裂隙水,5為巖漿巖類裂隙水,6為松散巖類孔隙水,7為混合花崗巖裂隙水,8為湖泊,9為火成巖風(fēng)化裂隙水,10為碎屑巖類孔隙裂隙水,11為碳酸鹽巖類裂隙巖溶水,12為裸露型巖溶水。
利用Python將滑坡、非滑坡數(shù)據(jù)合并,選擇數(shù)據(jù)的70%,總共1264個(gè)樣本作為訓(xùn)練集,剩余543個(gè)樣本作為驗(yàn)證集。數(shù)據(jù)集包括8個(gè)類別型變量和8個(gè)連續(xù)型變量,連續(xù)型變量包括NDVI、曲率、SPI、TWI、6月平均降雨量、7月平均降雨量、8月平均降雨量和坡度,利用自然間斷法重分類為7級。刪除缺失值,得到1807個(gè)樣本數(shù)據(jù),滑坡點(diǎn)數(shù)據(jù)和非滑坡點(diǎn)數(shù)據(jù)比例為50.36%和49.64%,數(shù)據(jù)平衡。
利用貝葉斯方法(BayesSearchCV),采用5折交叉驗(yàn)證對每個(gè)模型的重要超參數(shù)進(jìn)行優(yōu)化,再應(yīng)用學(xué)習(xí)曲線方法檢驗(yàn)?zāi)P头夯芰?。模型?yōu)化后的超參數(shù)值如表2所示。
XGBoost模型的訓(xùn)練集AUC為91.88%,驗(yàn)證集AUC為92.06%,Precision為82.19%,Accuracy為84.35%,Recall為87.91%,F(xiàn)1-score為84.96%。在訓(xùn)練集和驗(yàn)證集AUC指標(biāo)上,XGBoost模型AUC值最高;在Precision方面,XGBoost模型排名第二,Stacking模型Precision值最高;在Accuracy方面,Stacking模型最優(yōu),XGBoost模型次之;在Recall方面,KNN模型最優(yōu),其次是SVC和Stacking;在F1-score 評估方法中,Stacking模型最高,其次是 XGBoost。以驗(yàn)證集AUC指標(biāo)為主要評估指標(biāo),發(fā)現(xiàn)XGBoost模型在5個(gè)模型中表現(xiàn)最優(yōu),其次是Stacking模型。XGBoost模型采用集成方法,基于貪心算法思想,在建立決策樹的過程中找到最佳的分裂點(diǎn),和其他算法相比有一定優(yōu)勢[22]。ROC曲線如圖4所示。
選取準(zhǔn)確率(Accuracy)、AUC值、精確率(Precision)、召回率(Recall)、F1值這五項(xiàng)分類評價(jià)指標(biāo)評估模型的性能,如表3所示。
3.2 易發(fā)性評價(jià)及影響因子重要性分析
利用訓(xùn)練好的XGBoost模型對研究區(qū)的測試集數(shù)據(jù)進(jìn)行預(yù)測,采用自然間斷法將評價(jià)結(jié)果分為:極高易發(fā)區(qū)(0.742~0.999)、高易發(fā)區(qū)(0.473~0.742)、中易發(fā)區(qū)(0.180~0.473)、低易發(fā)區(qū)(0.001~0.180)4類,如圖6所示,分別占研究區(qū)總面積的23%、16.2%、13.3%、47.5%。極高易發(fā)區(qū),高易發(fā)區(qū)分布范圍主要在金寨縣、霍山縣、舒城縣南部、潛山縣北部、太湖東部和滑坡點(diǎn)密集區(qū)相一致,說明本文模型泛化結(jié)果較好。通過圖6發(fā)現(xiàn):極高易發(fā)區(qū)的坡度較高,植被茂盛,可能是導(dǎo)致滑坡的主要因素。
XGBoost模型的特征重要性排序進(jìn)一步分析,如圖7所示,巖性、坡度、8月降水是排名靠前的變量,說明在導(dǎo)致研究區(qū)滑坡發(fā)生的影響因子中,這三個(gè)因子是最重要的。坡度較大可能增大了潛在滑體的下滑力,破壞平衡導(dǎo)致滑坡發(fā)生,在降雨條件下容易斜坡積水,雨水加重了巖土體質(zhì)量并對巖土體有軟化作用,從而降低了抗剪強(qiáng)度。模型顯示重要性最低的兩個(gè)因子是TWI和曲率。表明這兩個(gè)因子對研究區(qū)滑坡的作用最小。
4 結(jié)論
本文以安徽大別山區(qū)歷史滑坡點(diǎn)數(shù)據(jù)為基礎(chǔ),利用機(jī)器學(xué)習(xí)模型預(yù)測滑坡發(fā)生概率,最后進(jìn)行特征重要性排序。得到如下結(jié)論:
(1)當(dāng)樣本點(diǎn)數(shù)量為900個(gè)左右時(shí),可以確保5個(gè)機(jī)器學(xué)習(xí)模型的訓(xùn)練和測試精度,而且模型泛化能力很好。當(dāng)非滑坡取樣點(diǎn)均勻分布整個(gè)研究區(qū)時(shí),模型預(yù)測的精度較高。
(2)研究區(qū)極高易發(fā)區(qū),高易發(fā)區(qū)主要分布在金寨縣、霍山縣、舒城縣南部、潛山縣北部、太湖東部。從結(jié)果上發(fā)現(xiàn),極高易發(fā)區(qū)和滑坡點(diǎn)密集區(qū)相一致,易發(fā)分區(qū)結(jié)果較為可信。巖性、坡度、8月降水在導(dǎo)致滑坡發(fā)生的影響因子中是最重要的影響因子。
參考文獻(xiàn)
[1] 周萍, 鄧輝, 張文江, 等. 基于信息量模型和機(jī)器學(xué)習(xí)方法的滑坡易發(fā)性評價(jià)研究: 以四川理縣為例[J]. 地理科學(xué), 2022, 42(9): 1665-1675.
[2] 解明禮, 巨能攀, 趙建軍, 等. 區(qū)域地質(zhì)災(zāi)害易發(fā)性分級方法對比分析研究[J]. 武漢大學(xué)學(xué)報(bào)(信息科學(xué)版), 2021, 46(7): 1003-1014.
[3] HUANG F M, CAO Z S, GUO J F, et al. Comparisons of heuristic, general statistical and machine learning models for landslide susceptibility prediction and mapping[J]. Catena, 2020, 191: 1-14.
[4] 薛文洋, 高猛, 朱亞勝. 基于ArcGIS與證據(jù)權(quán)法的崩塌易發(fā)性評價(jià)[J]. 世界有色金屬, 2019, 529(13): 154-156.
[5] 林榮福, 劉紀(jì)平, 徐勝華, 等. 隨機(jī)森林賦權(quán)信息量的滑坡易發(fā)性評價(jià)方法[J]. 測繪科學(xué), 2020, 45(12): 131-138.
[6] WANG Q, WANG Y, NIU R Q, et al. Integration of information theory, K-Means cluster analysis and the logistic regression model for landslide susceptibility mapping in the three gorges area, China[J]. Remote Sensing, 2017, 9(9): 28.
[7] BUI D T , SHAHABI H, SHIRZADI A, et al. Landslide detection and susceptibility mapping by AIRSAR data using support vector machine and index of entropy models in Cameron Highlands, Malaysia[J]. Remote Sensing, 2018, 10(10): 32.
[8] CHEN W, LI W P, CHAI H C, et al. GIS-based landslide susceptibility mapping using analytical hierarchy process (AHP) and certainty factor (CF) models for the Baozhong region of BaojiCity, China[J]. Environmental Earth Sciences, 2016, 75(1): 63.
[9] THI T N N, LIU C C. A new approach using AHP to generate landslide susceptibility maps in the Chen-Yu-Lan Watershed, Taiwan[J]. Sensors, 2019, 19(3): 18.
[10] MERGHADI A, YUNUS A P, DOU J, et al. Machine learning methods for landslide susceptibility studies: a comparative overview of algorithm performance[J]. Earth-Science Reviews, 2020, 207: 3225.
[11] MERGHADI A, ABDERRAHMANE B, BUI D T, et al. Landslide susceptibility assessment at Mila Basin (Algeria): a comparative assessment of prediction capability of advanced machine learning methods[J]. ISPRS International Journal of Geo-Information, 2018, 7(7): 30.
[12] CAO J, ZHANG Z, DU J, et al. Multi-geohazards susceptibility mapping based on machine learning-a case study in Jiuzhaigou, China [J]. Natural Hazards, 2020, 102(3): 851-871.
[13] ALI M Z,CHU H J,CHEN Y C, et al. Machine learning in earthquake- and typhoon-triggered landslide susceptibility mapping and critical factor identification[J]. Environmental Earth Sciences, 2021, 80(6): 233.
[14] SHRESTHA S, KANG T S, et al. Assessment of seismically-induced landslide susceptibility after the 2015 Gorkha earthquake, Nepal[J]. Bulletin of Engineering Geology and the Environment, 2019,78(3): 1829-1842.
[15] 楊穎達(dá),崔可銳,崔亮,等.皖大別山區(qū)滑坡的形成機(jī)理研究[J].安徽地質(zhì),2014,24(4): 275-279+307.
[16] 樓少甫.基于GIS的大別山區(qū)滑坡地質(zhì)災(zāi)害信息管理系統(tǒng)研究[D]. 合肥:合肥工業(yè)大學(xué), 2015: 54-63.
[17] 王哲. 大別山區(qū)生態(tài)產(chǎn)業(yè)開發(fā)及生態(tài)經(jīng)濟(jì)區(qū)建設(shè)研究[M]. 合肥:合肥工業(yè)大學(xué)出版社, 2017: 26-28.
[18] 何龍. 深入理解XGBoost高效機(jī)器學(xué)習(xí)算法與進(jìn)階[M]. 北京: 機(jī)械工業(yè)出版社, 2020: 45-47.
[19] 張華. 基于邏輯回歸的駕駛員信用評估研究[J]. 計(jì)算機(jī)時(shí)代, 2023, 369(3): 25-27+35.
[20] CHEN T Q, HE T, BENESTY M, et al. Xgboost: Extreme gradient boosting. R package version 1.0.0.2[EO/OL]. (2020-04-13) https://CRAN.R-project.org/package=xgboost, 2020-04-13.
[21] 夏曉圣. 中國PM2.5時(shí)空變化特征及其影響因子研究[D]. 蕪湖: 安徽師范大學(xué), 2020: 13-14.
[22] 黃靜, 鄭慧慧. 基于XGBoost的不平衡員工晉升預(yù)測[J]. 軟件工程, 2023, 26(3): 25-29.
[23] 王鑫, 廖彬, 李敏, 等. 融合LightGBM與SHAP的糖尿病預(yù)測及其特征分析方法[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2022, 43(9): 1877-1885.
The Comparative Analysis of Landslide Susceptibility Assessment of Dabie Mountain Area, Anhui Province Based on Different Models
CAI Shu, CHENG Xian-fu
(School of Geography and Tourism,Anhui Normal University,Wuhu 241000,China)
Abstract:Dabie Mountain area in Anhui Province is one of the areas in China with serious landslide disasters. Conducting a susceptibility assessment of landslides provides a scientific basis for determining the spatial distribution and causes of landslide-prone areas. In this study, extreme gradient boosting algorithm, K-nearest neighbor, logistic regression, support vector machine, and Stacking model fusion method were used, and Bayesian algorithm was used to optimize the model. The rainfall, vegetation cover, topography, geology, hydrology and other data in Dabie Mountain area from 1959 to 2020 were selected as inputs. The results are as follows:
(1) The AUC of the XGBoost model on the validation set is 92.06%, and the Precision, Accuracy, Recall, and F1-score are high, indicating good generalization ability and suitability as a prediction model for the research area. The extremely high and high susceptibility areas determined by the model account for 23% and 16.2% of the total area, respectively, mainly distributed in Jinzhai County, Huoshan County, the southern part of Shucheng County, the northern part of Qianshan County, and the eastern part of Taihu County.
(2) The feature importance ranking of the XGBoost model shows that lithology, slope, and rainfall in August are the most important influencing factors, while curvature and TWI are the least important influencing factors.
Key words:landslide;machine learning; Dabie Mountain area in Anhui Province
(責(zé)任編輯:鞏 劼)