郭亞雷,鄧念東,李宇新,周 陽(yáng),石 輝
(1. 西安科技大學(xué) 地質(zhì)與環(huán)境學(xué)院, 陜西 西安 710054; 2. 陜西省地質(zhì)調(diào)查院,陜西 西安 710043; 3. 陜西省水工環(huán)地質(zhì)調(diào)查中心,陜西 西安 710068)
滑坡作為嚴(yán)重的自然災(zāi)害,對(duì)人們的生命和財(cái)產(chǎn)安全造成了巨大的威脅[1-2]?;乱装l(fā)性評(píng)價(jià)指一定區(qū)域內(nèi)滑坡發(fā)生可能性的預(yù)測(cè),被認(rèn)為是對(duì)區(qū)域滑坡進(jìn)行防治措施的首要步驟以及土地空間規(guī)劃的有效借鑒。因此,科學(xué)嚴(yán)謹(jǐn)、高精度的滑坡易發(fā)性評(píng)價(jià)意義重大。目前,國(guó)內(nèi)外學(xué)者已進(jìn)行大量滑坡易發(fā)性評(píng)價(jià)相關(guān)的研究,評(píng)價(jià)方法主要包括定性和定量2種方法,隨著評(píng)價(jià)方法研究的深入,定性方法展現(xiàn)出主觀(guān)性大的缺點(diǎn),逐漸被定量方法所替代[3]。隨著計(jì)算機(jī)人工智能的飛速發(fā)展,一系列經(jīng)典的機(jī)器學(xué)習(xí)與數(shù)據(jù)發(fā)掘算法已經(jīng)應(yīng)用至滑坡易發(fā)性評(píng)價(jià),并取得了較優(yōu)的預(yù)測(cè)結(jié)果,諸如人工神經(jīng)網(wǎng)絡(luò)[4]、支持向量機(jī)[5]、樸素貝葉斯[6]、決策樹(shù)[7]等。田述軍等[8]基于不同評(píng)價(jià)單元,論述了斜坡單元和網(wǎng)格單元對(duì)滑坡易發(fā)性評(píng)價(jià)結(jié)果的影響。李文彥等[9]對(duì)滑坡易發(fā)性不同評(píng)價(jià)模型進(jìn)行對(duì)比,并驗(yàn)證了各模型的精度。由于滑坡發(fā)生機(jī)理復(fù)雜,影響因子數(shù)據(jù)與標(biāo)簽的關(guān)系通常呈非線(xiàn)性,以上機(jī)器學(xué)習(xí)算法在分析不同區(qū)域時(shí)仍存在一定適用性的差異,并且過(guò)擬合是機(jī)器學(xué)習(xí)算法進(jìn)行分類(lèi)時(shí)難以規(guī)避的問(wèn)題。集成學(xué)習(xí)是指將多個(gè)分類(lèi)器組合來(lái)共同解決分類(lèi)或回歸任務(wù)的模型,分類(lèi)器組成結(jié)構(gòu)主要分為同源集成與異源集成2類(lèi)[10]。研究表明,集成學(xué)習(xí)能有效克服單一機(jī)器學(xué)習(xí)模型自身的局限性,具有更高的泛化能力[11]。其中Adaboost[12]、Bagging[13]、隨機(jī)子空間(random subspace, RS)[14]、隨機(jī)森林[15]等集成學(xué)習(xí)方法已應(yīng)用于國(guó)內(nèi)外滑坡易發(fā)性評(píng)價(jià)研究中。為彌補(bǔ)不同集成學(xué)習(xí)各自預(yù)測(cè)的缺陷,堆疊Stacking模型可將多種模型進(jìn)行組合,從而提高分類(lèi)精度。同時(shí),非滑坡的選取影響著樣本數(shù)據(jù)純度,文中對(duì)評(píng)價(jià)因子進(jìn)行滑坡密度分析與篩選,在滑坡分布稀疏的區(qū)域與緩沖區(qū)疊加選取負(fù)樣本。
RA模型屬于Boosting算法族,由于Boosting算法通常使用弱分類(lèi)器,使得其個(gè)體學(xué)習(xí)器之間存在強(qiáng)依賴(lài)關(guān)系。 RA是Freund和Schapire提出的一種解決二分類(lèi)問(wèn)題的集成學(xué)習(xí)算法。主要目標(biāo)為將弱學(xué)習(xí)器“提升”為強(qiáng)學(xué)習(xí)器,其核心思想是根據(jù)訓(xùn)練集的權(quán)值分布來(lái)選擇各分類(lèi)器所使用的子集,對(duì)權(quán)值進(jìn)行調(diào)整。對(duì)集成系統(tǒng)中各個(gè)分類(lèi)器的分類(lèi)結(jié)果使用加權(quán)多數(shù)投票進(jìn)行組合,使具有較高訓(xùn)練精度的基分類(lèi)器在投票時(shí)具有更大的權(quán)重,具體流程為先對(duì)每個(gè)樣本賦予相同的初始權(quán)重,每一輪學(xué)習(xí)器訓(xùn)練過(guò)后都會(huì)根據(jù)其表現(xiàn)對(duì)每個(gè)樣本的權(quán)重進(jìn)行調(diào)整,增加對(duì)分錯(cuò)樣本的權(quán)重,從而在后續(xù)訓(xùn)練中加強(qiáng)對(duì)分錯(cuò)樣本的學(xué)習(xí),按這樣的過(guò)程重復(fù)訓(xùn)練出多個(gè)學(xué)習(xí)器,進(jìn)行加權(quán)組合。最后將對(duì)應(yīng)的權(quán)值之和最大的那個(gè)類(lèi)別作為分類(lèi)結(jié)果(圖1)。
圖1 RA模型分類(lèi)流程圖Fig. 1 Classification flow chart of RA model
DECORATE(diverse ensemble creation by oppositional relabeling of artificial training examples,DECORATE)是Melville和Mooney在2005年提出的一種集成學(xué)習(xí)算法,屬于同源集成的一類(lèi)。與Bagging和Boosting算法族的一個(gè)顯著的區(qū)別是,該算法的基本思想是通過(guò)利用人工訓(xùn)練樣例集來(lái)生成一些多樣化的分類(lèi)器。研究表明,DECORATE比Boosting對(duì)冗余樣本數(shù)據(jù)具有更強(qiáng)的魯棒性,比Bagging對(duì)缺失屬性值樣本具有更好的容忍性[16]。該算法首先統(tǒng)計(jì)訓(xùn)練集的分布特征,對(duì)于連續(xù)性屬性計(jì)算其均值與標(biāo)準(zhǔn)差,基于這2項(xiàng)指標(biāo)得到一定人工樣本數(shù)據(jù);對(duì)于離散值統(tǒng)計(jì)其出現(xiàn)的頻率,根據(jù)頻率同樣隨機(jī)選取一定量數(shù)據(jù)。對(duì)上述人工樣本數(shù)據(jù)通過(guò)概率元組的方式進(jìn)行類(lèi)別標(biāo)記,由于類(lèi)標(biāo)簽與集成系統(tǒng)分類(lèi)結(jié)果的差異,促進(jìn)了其個(gè)體分類(lèi)器之間多樣性。在每次迭代中,在擴(kuò)展訓(xùn)練集生成一個(gè)分類(lèi)器后,將擴(kuò)展集成系統(tǒng)與原集成系統(tǒng)分類(lèi)的訓(xùn)練精度進(jìn)行對(duì)比以及不斷進(jìn)行篩選,來(lái)保證該模型分類(lèi)精度不會(huì)降低。
RS模型隸屬于Bagging算法族的一類(lèi),是基于對(duì)訓(xùn)練集隨機(jī)抽樣的一類(lèi)集成學(xué)習(xí)算法[17]。首先,從訓(xùn)練集的屬性集合(A1,A2,…,An)隨機(jī)選取k個(gè)屬性(1 隨機(jī)森林主要是通過(guò)多棵決策樹(shù)中每棵樹(shù)的投票結(jié)果來(lái)獲取最優(yōu)的分類(lèi)結(jié)果。每棵決策樹(shù)因有回放的方式以及隨機(jī)獲取數(shù)據(jù)特征所得到的數(shù)據(jù)集而具備更全面的輸入變量信息。通過(guò)多棵決策樹(shù)的集成來(lái)實(shí)現(xiàn)模型的魯棒性并避免過(guò)擬合。隨機(jī)森林主要特征是能夠給出相應(yīng)輸入變量的重要性排序。隨機(jī)森林中用不純度來(lái)度量最佳分割,通過(guò)環(huán)境因子k在節(jié)點(diǎn)分割時(shí)的基尼指數(shù)的減少值DGk實(shí)現(xiàn)基礎(chǔ)環(huán)境因子重要性計(jì)算,其中涉及平均基尼減小值占所有基礎(chǔ)環(huán)境因子平均基尼減小值綜合的百分比計(jì)算,具體如式(1): (1) 式中:m,n,t分別為基礎(chǔ)環(huán)境因子總數(shù)、分類(lèi)樹(shù)棵數(shù)和單棵樹(shù)節(jié)點(diǎn)數(shù);DGkhj為k個(gè)因子在第h棵樹(shù)的第i個(gè)節(jié)點(diǎn)上基尼指數(shù)減小值;Pk為第k個(gè)基礎(chǔ)環(huán)境因子的重要性。 Stacking模型是一種異構(gòu)分類(lèi)器集成的模型,這是與同源集成模型主要的區(qū)別。模型由2層框架組成:第1層由RA、DECORATE、RS多個(gè)基分類(lèi)器組成;第2層為處理第1層輸出結(jié)果的元分類(lèi)器。首先將數(shù)據(jù)集分成訓(xùn)練集和測(cè)試集,利用訓(xùn)練集訓(xùn)練得到多個(gè)初級(jí)學(xué)習(xí)器,然后用初級(jí)學(xué)習(xí)器對(duì)測(cè)試集進(jìn)行預(yù)測(cè),并將輸出值作為下一階段訓(xùn)練的輸入值,最終的標(biāo)簽作為輸出值,用于訓(xùn)練次級(jí)學(xué)習(xí)器,再讓次學(xué)習(xí)器給基分類(lèi)器模型的結(jié)果分配權(quán)重,進(jìn)行重復(fù)訓(xùn)練后,將10倍交叉驗(yàn)證后的基分類(lèi)器訓(xùn)練結(jié)果的概率分布,作為元分類(lèi)器線(xiàn)性回歸模型的輸入,線(xiàn)性回歸模型對(duì)每個(gè)類(lèi)學(xué)習(xí)了一個(gè)分類(lèi)結(jié)果隸屬度的線(xiàn)性回歸函數(shù),歸一化后作為分類(lèi)概率,最后得到集成模型的分類(lèi)結(jié)果(圖2)。由于每次所使用的訓(xùn)練數(shù)據(jù)不同,因此可以在一定程度上防止過(guò)擬合。 圖2 Stacking模型流程圖Fig. 2 Flow chart of Stacking model 丹鳳縣位于秦嶺東段南麓, 地處陜、 豫、 鄂三省交界之丹江通道上段。縣域東西長(zhǎng)62.1 km, 南北寬 65.5 km,總面積為2 438 km2。屬于北亞熱帶向暖溫帶過(guò)度的季風(fēng)性半濕潤(rùn)山地氣候區(qū),氣候溫和,四季分明,平均氣溫13.8℃,年平均降雨量687.4 mm,年日照時(shí)間2 056 h,無(wú)霜期217 d。地勢(shì)西北高、東南低,高程介于324~2 011 m,相對(duì)高差1 687 m,縣域內(nèi)分布著自北而南的3條山脈;發(fā)育有丹江、銀花河、武關(guān)河和老君河4條河流河谷相間,呈“掌”狀地貌。通過(guò)研究區(qū)地質(zhì)災(zāi)害詳細(xì)調(diào)查,共圈定257處滑坡,通過(guò)GIS轉(zhuǎn)化為點(diǎn)映射至區(qū)內(nèi)(圖3)。 ①優(yōu):骨折完全愈合且功能正常,無(wú)痛、無(wú)畸形,生活自理能力同骨折前。②良:骨折愈合,無(wú)痛、無(wú)畸形,但存在10°~20°活動(dòng)度之差,生活能自理。③可:骨折略有畸形愈合,無(wú)痛,功能有所恢復(fù),生活可部分自理。④差:骨折愈合延遲,有疼痛感,功能受限,生活不能自理。 圖3 滑坡編錄圖Fig. 3 Landslide cataloging diagram 文中通過(guò)“地理空間數(shù)據(jù)云”獲取研究區(qū)DEM數(shù)字高程數(shù)據(jù)和Landsat 8遙感衛(wèi)星數(shù)據(jù);利用Bigemap地圖軟件下載1∶5萬(wàn)地質(zhì)圖以及道路、水系矢量數(shù)據(jù)。根據(jù)DEM數(shù)據(jù)在A(yíng)rcGIS軟件中生成坡度、坡向、曲率、地形濕度等指數(shù)因子,為模型數(shù)據(jù)庫(kù)的構(gòu)建奠定基礎(chǔ)。 選取合適的評(píng)價(jià)單元是滑坡易發(fā)性評(píng)價(jià)的基礎(chǔ),主要?jiǎng)澐譃闁鸥駟卧?、斜坡單元、地形單元[18]。由于柵格單元具有數(shù)據(jù)結(jié)構(gòu)簡(jiǎn)單、計(jì)算機(jī)處理高效的特點(diǎn),更適用于集成學(xué)習(xí)模型的訓(xùn)練與驗(yàn)證。根據(jù)湯國(guó)安經(jīng)驗(yàn)公式[19],文中采用30 m×30 m大小的柵格作為評(píng)價(jià)單元,將研究區(qū)共劃分為2 670 541個(gè)柵格。結(jié)合研究區(qū)地質(zhì)環(huán)境背景,初步選取高程、坡度、坡向、剖面曲率、平面曲率、TWI、NDVI、距河流距離、距道路距離、距斷層距離、地層巖性和年均降雨量共12個(gè)影響因子。對(duì)連續(xù)型因子分別采用Jenks自然間斷法和等間距法進(jìn)行分級(jí);離散型因子根據(jù)二級(jí)因子類(lèi)型進(jìn)行劃分(表1)。 表1 滑坡密度分析結(jié)果Table 1 Landslide density analysis results 續(xù)表 集成學(xué)習(xí)訓(xùn)練與驗(yàn)證的數(shù)據(jù)庫(kù)由正負(fù)樣本組成,通常將滑坡影響因子數(shù)據(jù)作為正樣本,選取等量的非滑坡區(qū)域提取負(fù)樣本數(shù)據(jù)。因此,非滑坡區(qū)域的選取直接影響到模型擬合的效果[20]。目前,主要有以下選取方法:1)在滑坡周界外一定距離作緩沖區(qū)處理,在其余范圍進(jìn)行隨機(jī)選取。該方法不足之處在于不同研究區(qū)緩沖區(qū)閾值難以確定。2)在特定的非滑坡區(qū)域進(jìn)行選取,比如水系區(qū)域、坡度小于2°的區(qū)域等[21]。該方法存在負(fù)樣本選取集中、數(shù)據(jù)覆蓋不全面的問(wèn)題,易造成分類(lèi)模型過(guò)擬合,從而導(dǎo)致結(jié)果準(zhǔn)確率降低。 為有效避免因數(shù)據(jù)冗余造成模型分類(lèi)精度下降,以及非滑坡因子屬性集中造成的過(guò)擬合問(wèn)題,文中通過(guò)統(tǒng)計(jì)各因子二級(jí)分類(lèi)的滑坡數(shù)量與滑坡密度(表1),剔除滑坡數(shù)量與密度同時(shí)最高的二級(jí)分類(lèi)范圍,選取其余區(qū)域與剔除滑坡緩沖區(qū)范圍進(jìn)行疊加,選取范圍如圖4所示。在該區(qū)域隨機(jī)生成257個(gè)非滑坡點(diǎn)并提取因子屬性信息。將正負(fù)樣本按照7∶3隨機(jī)劃分為訓(xùn)練集與驗(yàn)證集,分別包括179和78個(gè)樣本。 圖4 非滑坡選取范圍Fig. 4 Selection range of non-landslide 在R語(yǔ)言中利用隨機(jī)森林模型計(jì)算出各因子的權(quán)重值,對(duì)12個(gè)因子進(jìn)行重要性排序,結(jié)果見(jiàn)圖5。篩選出的高程、坡度、坡向、剖面曲率、平面曲率、距道路距離、距斷層距離、距河流距離、TWI、NDVI、年均降雨量、地層巖性12個(gè)重要因子中,地層巖性權(quán)重值為0.029 8,遠(yuǎn)小于其他類(lèi)因子權(quán)重值,其重要性最低,因此剔除影響較弱的地層巖性因子。 圖5 各因子權(quán)重分布圖Fig. 5 Weight distribution of each factor 對(duì)模型的訓(xùn)練集進(jìn)行相關(guān)性和共線(xiàn)性分析,可以降低因數(shù)據(jù)間高度相關(guān)或共線(xiàn)對(duì)模型分類(lèi)精度的影響。文中采用皮爾遜相關(guān)性(PCC)、方差膨脹因子(variance inflation factor, VIF)和容忍度(tolerance, TOL)進(jìn)行分析,其中TOL為VIF的倒數(shù)。通常認(rèn)為PCC大于0.5或VIF大于2時(shí),數(shù)據(jù)之間存在較強(qiáng)烈的相關(guān)性或較嚴(yán)重的共線(xiàn)性,需要進(jìn)行剔除[22]。同時(shí)采用相關(guān)屬性評(píng)估(correlation attribute evaluation,CAE)進(jìn)行10倍交叉驗(yàn)證,分析研究區(qū)滑坡發(fā)生的關(guān)聯(lián)度,其值越大代表該因子與區(qū)內(nèi)滑坡發(fā)生更密切。 由表2和表3結(jié)果可以看出,距水系距離與距道路距離的皮爾遜相關(guān)性為0.591,同時(shí)距水系距離VIF值為2.667,因此剔除距河流距離因子。根據(jù)圖6分析結(jié)果,其余10個(gè)因子對(duì)研究區(qū)滑坡均有一定作用。最終選取高程、坡度、坡向、剖面曲率、平面曲率、距道路距離、距斷層距離、TWI、NDVI、年均降雨量共10個(gè)因子作為一級(jí)指標(biāo)進(jìn)行評(píng)價(jià)。 表2 皮爾遜相關(guān)性指標(biāo)Table 2 Pearson correlation indicators 表3 影響因子共線(xiàn)性分析Table 3 Collinearity analysis of impact factors 圖6 影響因子CAE分析Fig. 6 CAE analysis of impact factors 文中采取的基分類(lèi)器分別為RA、DECORATE和RS模型,均在WEKA3.8軟件中進(jìn)行生成。對(duì)RA模型進(jìn)行參數(shù)設(shè)置,其中選擇決策樹(shù)為基分類(lèi)器,迭代次數(shù)為100次,收縮參數(shù)為0.1;DECORATE模型選擇J48樹(shù)算法為基分類(lèi)器,其中用于剪枝的置信因子設(shè)為0.25,成員分類(lèi)器數(shù)量選擇15個(gè),迭代次數(shù)為50;RS模型采用REP樹(shù)模型作為基分類(lèi)器,每一個(gè)子空間大小為0.5,迭代次數(shù)為100。將訓(xùn)練集代入RA、DECORATE和RS這3種集成模型中,通過(guò)10倍交叉驗(yàn)證分別得到訓(xùn)練正確率為74.7%、69.9%和74.9%,代入驗(yàn)證集數(shù)據(jù)得到預(yù)測(cè)率分別為76.5%、73.8%和72.6%。最終,將研究區(qū)11個(gè)因子屬性的2 670 541個(gè)柵格代入3種模型生成滑坡易發(fā)性指數(shù)(landslide susceptibility index, LSI)。根據(jù)自然間斷法,將LSI分為極低易發(fā)區(qū)、低易發(fā)區(qū)、中等易發(fā)區(qū)、高易發(fā)區(qū)和極高易發(fā)區(qū)5類(lèi)[23](圖7)。 同樣采用WEKA軟件構(gòu)建Stacking模型,其中基分類(lèi)器使用上述RA、DECORATE以及RS模型,分類(lèi)器參數(shù)選擇與單獨(dú)訓(xùn)練時(shí)一致;元分類(lèi)器選用線(xiàn)性回歸模型。通過(guò)10倍交叉驗(yàn)證進(jìn)行訓(xùn)練,得到訓(xùn)練正確率為75.5%。代入驗(yàn)證集數(shù)據(jù)得到預(yù)測(cè)率為77.1%,最終生成研究區(qū)各柵格LSI值,重分類(lèi)生成滑坡易發(fā)性分區(qū)圖(圖8)。 通過(guò)比較4種模型滑坡易發(fā)性分區(qū)結(jié)果,可以看出區(qū)域等級(jí)劃分趨勢(shì)基本一致。極高易發(fā)區(qū)主要集中在研究區(qū)中南部,極低易發(fā)區(qū)主要分布于研究區(qū)北至東北部。圖9對(duì)4種模型易發(fā)性分區(qū)進(jìn)行統(tǒng)計(jì),從各易發(fā)性等級(jí)對(duì)應(yīng)的滑坡密度可以看出,4種模型滑坡頻率比均隨著易發(fā)性等級(jí)提高而上升,說(shuō)明分區(qū)結(jié)果與事實(shí)相符。其中,Stacking模型高至極高易發(fā)區(qū)的滑坡頻率比為2.932,高于其余模型(RA模型為2.192,DECORATE模型為2.825以及RS模型為2.821),說(shuō)明Stacking模型對(duì)研究區(qū)滑坡預(yù)測(cè)更為敏感。 圖9 滑坡易發(fā)性等級(jí)分區(qū)對(duì)比Fig. 9 Comparison of landslide susceptibility grade zones 文中采取受試者工作特性曲線(xiàn)(receiver operating characteristic,ROC)及其線(xiàn)下面積(area under curve,AUC)對(duì)4種模型訓(xùn)練與驗(yàn)證進(jìn)行對(duì)比[24]。ROC曲線(xiàn)以敏感度(即實(shí)際為滑坡,預(yù)測(cè)為滑坡)為縱坐標(biāo)、1-特異性(即實(shí)際為非滑坡,預(yù)測(cè)為滑坡)為橫坐標(biāo),通過(guò)動(dòng)態(tài)分類(lèi)閾值避免界限值對(duì)結(jié)果的影響[25],如圖10、圖11所示。 圖10 訓(xùn)練集ROC曲線(xiàn) 圖11 驗(yàn)證集ROC曲線(xiàn)Fig. 10 ROC curve of train set Fig. 11 ROC curve of validation set 從圖10、圖11中可以看出,4種模型訓(xùn)練與驗(yàn)證集AUC值均大于0.7,表征其預(yù)測(cè)能力均較好[26],其中集成了3種基分類(lèi)器的Stacking模型AUC值高于其余單獨(dú)分類(lèi)器模型,說(shuō)明不同集成模型作為基分類(lèi)器組合成的Stacking模型泛化能力更好。 文中分別選取滑坡點(diǎn)和非滑坡點(diǎn)對(duì)Stacking模型及其基分類(lèi)器的效果進(jìn)行了對(duì)比,圖12為滑坡點(diǎn)及其周?chē)P鸵装l(fā)性結(jié)果對(duì)比,Stacking模型預(yù)測(cè)的易發(fā)性為極高易發(fā)、高易發(fā);RA、DOCORATE及RS模型預(yù)測(cè)出的易發(fā)性為高易發(fā)、中等易發(fā);圖13為非滑坡點(diǎn)及其周?chē)P鸵装l(fā)性對(duì)比結(jié)果,Stacking模型預(yù)測(cè)出的易發(fā)性等級(jí)為極低和低;RA、DOCORATE及RS模型預(yù)測(cè)出的易發(fā)性等級(jí)為低和中等。結(jié)果發(fā)現(xiàn),Stacking模型在易發(fā)性預(yù)測(cè)中,與歷史滑坡分布更加吻合,說(shuō)明其更適用于研究區(qū)滑坡易發(fā)性評(píng)價(jià),其易發(fā)性分區(qū)結(jié)果可以作為相關(guān)部門(mén)進(jìn)行土地規(guī)劃與滑坡防控的參考依據(jù)。 圖12 單個(gè)滑坡點(diǎn)易發(fā)性等級(jí)對(duì)比 圖13 單個(gè)非滑坡點(diǎn)易發(fā)性等級(jí)對(duì)比Fig. 12 Comparison of susceptibility grades of single landslide points Fig. 13 Comparison of susceptibility grades of single non landslide points 文中以Stacking模型進(jìn)行丹鳳縣滑坡易發(fā)性評(píng)價(jià),提供了一種新的評(píng)價(jià)方法與思路,仍存在一些問(wèn)題將在后續(xù)深入研究:1)文中以集成學(xué)習(xí)的分支選取RA、DECORATE和RS模型,尚未進(jìn)行基分類(lèi)器數(shù)量與種類(lèi)差異對(duì)堆疊效果影響的研究,來(lái)提升Stacking模型的泛化能力;2)文中基分類(lèi)器參數(shù)主要依靠試驗(yàn)確定,存在一定主觀(guān)性,后續(xù)可進(jìn)行模型參數(shù)的優(yōu)化選取,提高模型預(yù)測(cè)精度。 文中采用Stacking集成模型進(jìn)行了丹鳳縣滑坡易發(fā)性評(píng)價(jià),有以下結(jié)論: 1)結(jié)合相關(guān)文獻(xiàn)及地質(zhì)資料,文中選取高程、坡度、坡向、剖面曲率、平面曲率、TWI、NDVI、距水系距離、距道路距離、距斷層距離、地層巖性和年均降雨量共12個(gè)影響因子,CAE結(jié)果顯示其均對(duì)研究區(qū)滑坡具有關(guān)聯(lián)性,其中高程、TWI和距道路距離與滑坡發(fā)生最為密切。區(qū)內(nèi)滑坡主要集中發(fā)生在高程介于374~720 m、TWI介于8.88~12.55以及距道路距離介于3 108.58~5 364.30 m的區(qū)域中。通過(guò)VIF和皮爾遜相關(guān)性進(jìn)行因子相關(guān)性分析和隨機(jī)森林計(jì)算各因子權(quán)重,剔除距水系距離、地層巖性因子后選擇剩余10個(gè)因子構(gòu)建模型數(shù)據(jù)集。 2)通過(guò)WEKA軟件分別構(gòu)建了單一的RA、DECORATE、RS模型以及基于前三者的Stacking集成模型。訓(xùn)練與驗(yàn)證結(jié)果表明4種模型AUC值大于0.7,4種模型均具有良好的預(yù)測(cè)能力,其中Stacking模型較其他單一模型相比,訓(xùn)練成功率與驗(yàn)證預(yù)測(cè)率均最高,為國(guó)內(nèi)滑坡易發(fā)性評(píng)價(jià)的模型選擇提供了新的思路。 3)4種模型的滑坡易發(fā)性分區(qū)圖劃分趨勢(shì)基本一致,研究區(qū)滑坡高至極高易發(fā)區(qū)主要分布于研究區(qū)中南部,低易發(fā)區(qū)分布于北至東北側(cè)。通過(guò)等級(jí)分區(qū)統(tǒng)計(jì),Stacking模型的滑坡高至極高易發(fā)區(qū)滑坡頻率比達(dá)到2.932,高于3種單獨(dú)模型,表明其分區(qū)結(jié)果與歷史滑坡分布最為吻合。研究結(jié)果可作為相關(guān)部門(mén)進(jìn)行滑坡防治與土地利用的參考。1.4 隨機(jī)森林模型
1.5 Stacking模型
2 研究區(qū)概況及數(shù)據(jù)源
3 評(píng)價(jià)模型數(shù)據(jù)預(yù)處理
3.1 評(píng)價(jià)單元與影響因子的選取
3.2 模型數(shù)據(jù)集構(gòu)建
3.3 影響因子的篩選
4 滑坡易發(fā)性評(píng)價(jià)
4.1 基于基分類(lèi)器模型的滑坡易發(fā)性評(píng)價(jià)
4.2 基于Stacking模型的滑坡易發(fā)性評(píng)價(jià)
5 模型驗(yàn)證與討論
6 結(jié)論