閆舉生,譚建民
(中國地質調查局武漢地質調查中心,湖北 武漢 430205)
滑坡由于其頻發(fā)性,是對人類和自然損害最嚴重的地質災害之一,因此,對滑坡災害進行有效的預測預防和管理能夠極大地降低滑坡災害對人類生命財產和自然資源的威脅?;乱装l(fā)性評價作為滑坡災害預測預防的基礎,如何有效的提高滑坡易發(fā)性的精確性尤為重要。滑坡易發(fā)性評價模型一般分為確定性模型和非確定性模型,隨著GIS技術和計算機性能的不斷進步,非確定模型在區(qū)域滑坡易發(fā)性評價中應用的越來越廣泛,包括:信息量模型[1]、邏輯回歸模型[2]、人工神經網絡模型[3]、支持向量機模型[4]、決策樹模型[5]、隨機森林模型[6-7]等。
在易發(fā)性評價過程中,針對二級因子如何分級,在早先的工作中,大多數都根據對研究區(qū)的致災因子和滑坡災害的分布進行定性分析,以合理的等間距對致災因子進行等級劃分[8],后續(xù)的研究者將定量的數學分析方法加入到因子分級中[9],取得了較好的效果。但是,目前還沒有在同一區(qū)域,對兩種分級方法進行對比分析,從而確定哪一種分級方法更具有優(yōu)勢。因此,本文以湖北省遠安縣為研究區(qū),選取了人工神經網絡模型和隨機森林模型,分別將定性等間距劃分的指標因子和以頻率比法劃分的指標因子帶入模型計算,最后對比四個模型的成功率和預測率曲線,從而對比兩種分級方法的差異。
頻率比(Frequency Ration,FR)是基于統(tǒng)計分析對滑坡指標因子進行區(qū)間分類,其計算公式為:
(1)
式中,N——指分類內滑坡面積;
N0——指研究區(qū)滑坡總面積;
S——指分類面積;
S0——指研究區(qū)總面積。
頻率比表征了指標因子各屬性區(qū)間對滑坡易發(fā)性的重要程度,FR-1>0表示該分類區(qū)間對滑坡發(fā)生有不同程度的影響,而FR-1<0則說明該屬性區(qū)間與滑坡形成相關性很小甚至無關[10]。通過計算滑坡影響指標因子各區(qū)間的頻率比,并對頻率比相近的區(qū)間進行合并,可實現對指標因子狀態(tài)的科學劃分。
B-P神經網絡模型(ANN)是人工神經網絡模型中廣泛應用的模型之一。假設神經網絡中輸入xi,i=1,2,……,n(滑坡易發(fā)性分析中的指標因子),ωi表示每個指標因子的權重,其表示每個輸入神經元與輸出神經元的連接強度。取其特征函數為雙曲正切函數,如下式:
(2)
(3)
式中,S——激活函數,表示神經元的輸入總和;
θ——神經元的閾值;
y——神經元的輸出。
B-P傳播網絡采用參數優(yōu)化方法實現權值的調整。參數優(yōu)化是在一個特定模型結構N中,采用數據D優(yōu)化網絡參數,目標是求得使損失函數L(W)=L(W|D,N)達到最小時的網絡參數W。
隨機森林是多個決策樹模型的組合,因此每棵樹都依賴于獨立采樣的隨機向量的值,并且森林中所有樹的分布均相同,模型的泛化錯誤會隨著森林中樹木數量的變大而趨于極限。樹分類器森林的泛化誤差取決于森林中單個樹木的強度以及它們之間的相關性[7]。
為了提高模型的外推預測能力,隨機森林通過生成不同的訓練集以增加子決策樹間的差異。通過n輪訓練,得到子決策樹分類模型序列,再由它們組合成多決策樹分類模型,該模型的最終結果根據多數投票法得到。最終的分類決策模型為:
(4)
式中:I(x)——示性函數;
hi——單個決策樹分類模型;
Y——輸出變量;
H(x)——組合分類模型。
遠安縣位于湖北省鄂西山區(qū),屬宜昌市轄區(qū)。地勢西高東低,范圍由東徑110°13′至111°55′,北緯30°52′至31°22′。全區(qū)縣域總面積1 752 km2,東鄰荊門市,西、西南和宜昌市夷陵區(qū)接壤,北鄰南漳、保康(圖1)。遠安縣屬長江中游亞熱帶濕潤季風氣候,具有氣候宜人、四季分明的特點??h區(qū)大的地質構造自西向東分別為黃陵背斜、石橋坪向斜、遠安地塹和當陽向斜。境內地層自前震旦系至第四系(除第三系外)均有出露,地層分布自西向東由老漸新。
遠安縣地處鄂西山區(qū),在地形地貌、水文氣象、地層巖性、地質構造等地質地理條件和采礦、修路等人類活動的綜合作用下,縣內滑坡、崩塌等地質災害廣泛發(fā)育,嚴重威脅著人類生命財產安全。其中,滑坡是遠安縣最主要的地質災害,全縣共發(fā)育滑坡災害177處,占災害點總數的62.11%。
圖1 遠安縣地理位置以及滑坡點分布圖Fig.1 Location of Yuan'an County and distribution of landslides
單元網格的劃分是否恰當,對地質災害易發(fā)性評價結果的可靠性影響較大,也影響著評價過程中各因素獲取的難易程度。小比例尺如1∶5 萬以下,一般采用柵格單元進行滑坡易發(fā)性評價。結合遠安縣地形地貌,以及該縣有5%的滑坡規(guī)模小于100 m3,本文采用10 m×10 m分辨率的柵格作為滑坡易發(fā)性評價的基本單元,統(tǒng)計得該縣共計有17 458 568個柵格單元,利用ArcGIS中柵格轉點工具將柵格單元數據轉變?yōu)辄c文件,再通過SPSS軟件打開點文件對應的dbf數據文件,便得到各指標因子的數據。
滑坡受斜坡地質條件與環(huán)境因素共同影響,因此,本文基于收集到的資料選取了8個指標因子:高程、坡度、坡向、地層巖性、斜坡結構、斷層、水系、公路。其中,地層巖性和斜坡結構屬于離散型因子,每個分類代表了具體的含義和對滑坡的影響程度,因此不需要進一步的等級劃分(圖2);其余6個指標因子屬于連續(xù)型因子,需要對各因子進行等級劃分。
根據研究區(qū)地理地質環(huán)境和滑坡分布特征,對各連續(xù)型指標因子的等級采取定性的等間距劃分。研究區(qū)高程分布在85~1 320 m,因此按200 m的間距將高程分為7個等級;坡度范圍為0°~80°,以15°的間距將坡度分為6個等級;坡向由-1°~360°,其中-1°表示平地,按ArcGIS默認的坡向分類,將坡向分為9個等級;斷層、道路、水系由于各自的分布和對滑坡災害的影響范圍不同,因此各自按不同的距離緩沖,其中斷層的影響距離較遠,以1 000 m的間距緩沖;道路的影響距離很近,以200 m的距離緩沖;水系的影響距離中等,以500 m的距離緩沖。根據以上定性分析,得到連續(xù)型指標因子等間距劃分的分布如圖3所示。
圖2 離散型指標因子Fig.2 Discrete index factors of study
圖3 連續(xù)型指標因子等間距劃分Fig.3 The equal interval division of continuous index factor
首先將連續(xù)型因子離散化,以較小的間距對各因子進行區(qū)間劃分,計算出各小區(qū)間內的滑坡相對頻率比,繪制各因子的滑坡頻率比統(tǒng)計圖,最后對頻率比相近的區(qū)間進行合并,得到各因子的等級劃分。
以50 m為間距對高程進行區(qū)間劃分,計算各區(qū)間的滑坡相對頻率比,根據高程滑坡頻率比統(tǒng)計圖(圖4a),將高程劃分為5個級別:①350~500 m;②250~350 m,500~650 m;③650~750 m;④100~250 m,800~850 m,950~1 050 m;⑤50~100 m,850~950 m,>1 050 m。其中在350~500 m的區(qū)段易發(fā)生滑坡,在50~100 m,850~950 m,>1 050 m區(qū)段不易發(fā)生滑坡。
以5°為間距對坡度進行區(qū)間劃分,計算各區(qū)間的滑坡相對頻率比,根據坡度滑坡頻率比統(tǒng)計圖(圖4b),將坡度劃分為5個級別:①5°~20°;②15°~20°;③20°~50°,65°~70°;④0°~5°,50°~65°;⑤>65°。其中在5°~20°的區(qū)段易發(fā)生滑坡,在>65°區(qū)段不易發(fā)生滑坡。
以15°為間距對坡向進行區(qū)間劃分,計算各區(qū)間的滑坡相對頻率比,根據坡向滑坡頻率比統(tǒng)計圖(圖4c),將坡度劃分為6個級別:①45°~75°,180°~210°,330°~345°;②0~15°,30°~45°,75°~90°,210°~225°,285°~300°,345°~360°;③15°~30°,150°~180°;④90°~105°,135°~150°,225°~240°,275°~285°,300°~315°;⑤105°~135°,240°~285°,300°~330°;⑥-1°(平地)。其中在45°~75°,180°~210°,330°~345°的區(qū)段易發(fā)生滑坡,在-1°(平臺)區(qū)段不易發(fā)生滑坡。
以200 m對斷層做多環(huán)緩沖區(qū),計算各區(qū)間的滑坡相對頻率比,根據斷層滑坡頻率比統(tǒng)計圖(圖4d),將斷層劃分為6個級別:①2 000~2 400 m;②600~1 000 m,1400~2 000 m;③1 000~1 200 m,2 400~2 600 m;④400~600 m,2 600~2 800;⑤0~400 m,3 400~3 800 m;⑥2 800~3 400,>3 800 m。其中在200~2 400 m的區(qū)段易發(fā)生滑坡,在2 800~3 400,>3 800 m區(qū)段不易發(fā)生滑坡。
圖4 各連續(xù)型指標因子頻率比統(tǒng)計圖Fig.4 Frequency ratio chart of continuous index factor
以100 m對道路做多環(huán)緩沖區(qū),計算各區(qū)間的滑坡相對頻率比,根據道路滑坡頻率比統(tǒng)計圖(圖4e),將道路劃分為5個級別:①0~100 m;②100~200 m;③200~300 m;④300~400 m;⑤>400 m。其中在0~100 m的區(qū)段易發(fā)生滑坡,在>400 m區(qū)段不易發(fā)生滑坡。
以200 m對水系做多環(huán)緩沖區(qū),計算各區(qū)間的滑坡相對頻率比,根據水系滑坡頻率比統(tǒng)計圖(圖4f),將水系劃分為5個級別:①0~400 m;②400~600 m;③600~1 000 m,2 000~2 200 m;④1 000~2 000 m,2 200~2 400;⑤>2 400 m。其中在0~400 m的區(qū)段易發(fā)生滑坡,在>2 400 m區(qū)段不易發(fā)生滑坡。
根據以上分級數據,利用ArcGIS重分類工具將各因子區(qū)段重分類,得到基于頻率比法劃分的因子分布如圖5所示。
圖5 連續(xù)型指標因子頻率比法劃分Fig.5 Frequency ratio method division of continuous index factor
影響滑坡形成的各個指標因子之間存在一定的相關性,因此,必須對因子進行處理,以減少因子之間的疊加影響。本文利用SPSS軟件對各致災因子進行了相關性分析,相關性系數的絕對值>0.5,表明因子間相關性較強。從表1和表2可以看出,通過定性等間距劃分的因子和頻率比法劃分的因子各自之間的相關性系數的絕對值均小于0.5,因而在該研究區(qū)所提取的8個指標因子之間的相關性較弱,可將因子全部帶入模型中進行滑坡易發(fā)性評價。
表1 連續(xù)型因子定性等間距劃分相關性系數Table 1 The correlation coefficient of equal interval division continuous type factor qualitative
表2 連續(xù)型因子頻率比法劃分相關性系數Table 2 The correlation coefficient of frequency ratio continuous type factor qualitative
分別將等間距劃分的因子和頻率比法劃分的因子代入人工神經網絡和隨機森林模型中計算,得到了4個模型,分別記為:ANN模型、RF模型、FR-ANN模型和FR-RF模型,將各模型計算得到的研究區(qū)滑坡易發(fā)性指數導入ArcGIS出圖,得到各模型的滑坡易發(fā)性分區(qū)圖(圖6~圖7)。根據分區(qū)圖可以看出,各模型的結果存在一些的差異,但區(qū)劃結果的基本趨勢相同。研究區(qū)極高易發(fā)區(qū)和高易發(fā)區(qū)主要分布在東部軟硬相間的碎屑巖地區(qū),極低易發(fā)區(qū)主要為中部地勢平坦的區(qū)域,滑坡發(fā)生的可能性較小。西部地勢相對復雜,在水系、構造發(fā)育,地層巖性為軟硬相間的碎屑巖類的區(qū)域分布有極高和高易發(fā)區(qū),而在相對平坦,水系、構造相對不發(fā)育,出露其他巖性的地區(qū),則主要為極低、低和中易發(fā)區(qū)。并且,在軟硬相間的碎屑巖地區(qū),極高和高易發(fā)區(qū)的分布與道路的相關性極高,說明研究區(qū)修建道路等人類工程活動對該縣滑坡的發(fā)生具有很大的影響。易發(fā)性分區(qū)結果與歷史滑坡災害點分布相對一致。
圖6 人工神經網絡模型易發(fā)性分區(qū)圖Fig.6 Landslide susceptibility maps based on ANNandFR-ANN
圖7 隨機森林模型易發(fā)性分區(qū)圖Fig.7 Landslide susceptibility maps based on RFandFR-RF
為了對比模型在滑坡易發(fā)性評價中的精度,本文采用ROC曲線對評價結果進行分析,在滑坡易發(fā)性評價中ROC曲線即易發(fā)區(qū)面積與實際滑坡面積各百分比累加形成的曲線(圖 8)。其中,AUC值為曲線下的面積,代表了成功率的大小。AUC值越接近于1,代表該模型的預測成功率越高,預測效果越好。各模型的成功率曲線和預測率曲線的AUC值如圖8所示,從圖8得到每個模型的成功率與預測率均相近,而對于定性的等間距因子分級和基于頻率比法的因子分級所得到結果顯示,無論是人工神經網絡還是隨機森林模型,基于頻率比法的因子分級均表現出了更高的精確性。其中人工神經網絡模型,基于頻率比的因子分級相較于等間距因子分級的成功率和預測率AUC值提高了0.035(3.5%)和0.034(3.4%);隨機森林模型,基于頻率比的因子分級相較于等間距因子分級的成功率和預測率AUC值提高了0.042(4.2%)和0.043(4.3%)。
圖8 各模型成功率曲線(上)和預測率曲線(下)Fig.8 The success rate curve andpredictionratecurve of models
(1)本文以湖北省遠安縣為研究區(qū),提取了提取出了與滑坡發(fā)生相關的8類指標因子:高程、坡度、坡向、地層巖性、斜坡結構、斷層、水系、公路。針對連續(xù)型致災因子,選取定性等間距劃分和以頻率比法劃分得到兩類指標因子體系,分別帶入ANN模型和RF模型,得到4幅研究區(qū)易發(fā)性評價區(qū)劃圖。根據區(qū)劃圖顯示,研究區(qū)極高和高易發(fā)區(qū)主要分布在東部軟硬相間的碎屑巖地區(qū),極低易發(fā)區(qū)主要為中部地勢平坦的區(qū)域,滑坡發(fā)生的可能性較小。西部地勢相對復雜,在水系、構造發(fā)育,地層巖性為軟硬相間的碎屑巖類的區(qū)域分布有極高和高易發(fā)區(qū),其中,極高和高易發(fā)區(qū)的分布與道路的相關性極高。在相對平坦,水系、構造相對不發(fā)育,出露其他巖性的地區(qū),則主要為極低、低和中易發(fā)區(qū)。結果與歷史滑坡災害點分布相對一致。因此,該縣東部地區(qū)和西部軟硬相間的碎屑巖地區(qū),在以后的道路修建等人類工程活動中,應特別注意對于邊坡的治理與修復。
(2)利用ROC曲線對四種模型的結果進行了分析。人工神經網絡模型中,基于頻率比的因子分級相較于等間距因子分級的成功率和預測率AUC值提高了0.035(3.5%)和0.034(3.4%);隨機森林模型中,基于頻率比的因子分級相較于等間距因子分級的成功率和預測率AUC值提高了0.042(4.2%)和0.043(4.3%),以上說明,無論是人工神經網絡還是隨機森林模型,基于頻率比法的因子分級均表現出了更高的精確性。因此,在以后的易發(fā)性評價工作中應,在工作時間允許的條件下,應選擇較復雜的基于數學統(tǒng)計理論的方法對因子進行分級。
(3)本文對大范圍的區(qū)域進行滑坡易發(fā)性評價,認為基于頻率比法的因子分級精確性更高,研究過程中耗費大量的時間進行數據處理和分析,因此文中研究方法更適合詳細的精確化研究。