凈文常,李孝攀,楊家鳴
(1.中鐵第一勘察設(shè)計院集團(tuán)有限公司,西安 710043; 2.中南大學(xué)土木工程學(xué)院,長沙 410075)
昌都林芝區(qū)域位于青藏高原東南部,地貌形態(tài)受青藏高原地貌隆升的影響,總體地勢西高東低。地勢急劇隆升抬起,河流快速強(qiáng)烈下切,為典型的“V”形高山峽谷地貌,地貌形態(tài)以丘狀高原及構(gòu)造侵蝕形成的深切峽谷地貌為其總體特征。該區(qū)域自東向西可劃分為橫斷山高山峽谷區(qū)及藏南高山峽谷區(qū)兩個地貌單元,伯舒拉嶺作為兩個地貌單元的分界,也作為為昌都市和林芝市的分界,更是三江(金沙江、瀾滄江、怒江)流域和雅魯藏布流域的分水嶺。昌都林芝區(qū)域滑坡災(zāi)害分布廣泛且尤為突出,在該區(qū)域內(nèi)開展工程建設(shè)有較大的工程風(fēng)險。因此,查明該區(qū)域的滑坡分布規(guī)律及其易發(fā)屬性,對擬建工程的建、管、養(yǎng)工作具有重要作用。
對滑坡進(jìn)行風(fēng)險評價和管理作為國際上積極倡導(dǎo)和推廣的有效減災(zāi)途徑??傮w而言,其流程一般包括滑坡區(qū)域確定、易發(fā)性分析、危害分析和風(fēng)險計算4個逐步遞進(jìn)的步驟。其中,滑坡易發(fā)性分析是風(fēng)險評價和管理的基礎(chǔ)和核心環(huán)節(jié),即通過獲取滑坡分布數(shù)據(jù),確定其分布規(guī)律,分析滑坡災(zāi)害因子與滑坡發(fā)生的關(guān)系,從而定性或定量分析出現(xiàn)有或潛在的滑坡空間分布和發(fā)生概率?;乱装l(fā)性評價有利于風(fēng)險分析及預(yù)防管理,對減少滑坡災(zāi)害損失至關(guān)重要。
滑坡易發(fā)性評價是依托區(qū)域空間信息及地理資料,對滑坡特性(發(fā)生概率等)的定性或定量評估,最早起源于1970年[1]?,F(xiàn)階段,滑坡易發(fā)性方面研究一般采用啟發(fā)式分析及概率性統(tǒng)計兩類方法。其中,啟發(fā)式分析主要指以專家主觀經(jīng)驗為基礎(chǔ),依托研究區(qū)域的歷史數(shù)據(jù),分析給出區(qū)域的滑坡災(zāi)害特征,層次分析法[2]等是其中的典型方法;而概率性統(tǒng)計則是利用概率學(xué)模型,基于區(qū)域的地理特征及災(zāi)點分布概況,預(yù)測區(qū)域各部分的滑坡發(fā)生概率,Logistic回歸[3]等表現(xiàn)出色。概率性統(tǒng)計方法由于評價準(zhǔn)則客觀科學(xué),且能較好處理線性及非線性問題,其結(jié)果精度和可靠度往往優(yōu)于啟發(fā)式分析方法。然而,對于高維空間的復(fù)雜問題,概率性統(tǒng)計方法不可避免地存在欠擬合,預(yù)測準(zhǔn)確度不高。目前,由于計算機(jī)性能的日益強(qiáng)大,支持向量機(jī)[4]、BP神經(jīng)網(wǎng)絡(luò)[5]等機(jī)器學(xué)習(xí)模型開始用于滑坡易發(fā)性分析,其依托有監(jiān)督的反饋訓(xùn)練機(jī)制,能使構(gòu)建的模型逐步契合實際情形,以保證模型精度高于傳統(tǒng)的概率性統(tǒng)計方法。其中,深度信念網(wǎng)絡(luò)(DBN)[6]等深度學(xué)習(xí)模型,以其更深層次、更為復(fù)雜的架構(gòu)深入分析滑坡誘發(fā)規(guī)律,在滑坡易發(fā)性評估中通常取得精度更高的結(jié)果。
對此,本研究將基于昌都林芝區(qū)域的地理屬性及空間信息,建立DBN網(wǎng)絡(luò)架構(gòu),結(jié)合區(qū)域內(nèi)的滑坡災(zāi)害分布情況,獲取該區(qū)域內(nèi)各單元的滑坡易發(fā)性,評判昌都林芝區(qū)域的滑坡風(fēng)險,為該區(qū)域的工程建設(shè)提供一定的理論指導(dǎo),為滑坡災(zāi)害風(fēng)險規(guī)避及土地綜合利用提供一定的理論支持。
昌都林芝區(qū)域位于西藏東南區(qū)域,其間主要的交通道路有G318、G317和G214,昌都市卡若區(qū)、察雅縣、八宿縣、洛隆縣,林芝市波密縣和巴宜區(qū)兩市六區(qū)縣人口占據(jù)了昌都市和林芝市總?cè)丝诘?0%,正在大規(guī)模開展基礎(chǔ)設(shè)施建設(shè),滑坡災(zāi)害對改區(qū)域的影響更大,因此選擇此兩市六區(qū)縣作為研究區(qū)域,研究區(qū)域如圖1所示。
圖1 昌都林芝區(qū)域(兩市六區(qū)縣)
從地形地貌方面分析,昌都林芝區(qū)域受青藏高原地貌隆升作用,總體地勢呈現(xiàn)西高東低,為典型“V”形地貌,并表現(xiàn)出丘狀高原及深切峽谷特征;在地質(zhì)方面,昌都林芝區(qū)域構(gòu)造極其發(fā)育,褶皺斷裂密集分布,并以深大活動斷裂為主控,其中共有3個一級構(gòu)造,分別為岡底斯—念青唐古拉地塊、班公湖—怒江縫合帶、羌塘地塊,以及5個二級構(gòu)造,如喜馬拉雅地塊等。此外,昌都至林芝區(qū)域地層巖性十分復(fù)雜,地層時代從震旦系至新生界均有分布,并伴隨多種復(fù)雜不良地質(zhì),其中以高位遠(yuǎn)程滑坡較為典型;在水文方面,昌都至林芝區(qū)域的地表水系主要涉及瀾滄江、怒江、雅魯藏布江三大河流,而地下水系則以第四系孔隙潛水、基巖裂隙水、構(gòu)造裂隙水和巖溶水為主;在氣候上,昌都林芝區(qū)域以伯舒拉嶺為界線,東部為高原亞溫帶亞濕潤氣候區(qū)(昌都地區(qū)),西部為高原溫帶濕潤半濕潤季風(fēng)氣候區(qū)(林芝地區(qū))。
考慮到建立機(jī)器學(xué)習(xí)模型往往需要區(qū)域內(nèi)的滑坡分布數(shù)據(jù),本研究選定昌都林芝區(qū)域兩市六區(qū)縣的面狀領(lǐng)域作為范圍界定?;诖死肎IS平臺實現(xiàn)紙質(zhì)圖件數(shù)字化,并從中國科學(xué)院資源環(huán)境科學(xué)與數(shù)據(jù)中心、國家地球系統(tǒng)科學(xué)數(shù)據(jù)中心及MAPGIS開源數(shù)據(jù)庫等獲取有關(guān)數(shù)據(jù)進(jìn)行補(bǔ)充,整合形成了該范圍內(nèi)的滑坡信息數(shù)據(jù)集,共有324個滑坡點,具體分布概況如圖2所示。
圖2 昌都林芝區(qū)域的滑坡分布概況
通常情況下,滑坡災(zāi)害的發(fā)生是多重因素相互作用的綜合產(chǎn)物,而這些與滑坡災(zāi)害具有顯著聯(lián)系的因素便是致災(zāi)因子。有研究[6]指出,致災(zāi)因子選取的合理性往往對滑坡易發(fā)性的評價結(jié)果至關(guān)重要。對此,本研究依托前人的研究成果[7],并結(jié)合昌都林芝區(qū)域地勢極高及活動斷裂特征明顯等自然特性,從地形地貌、地質(zhì)特征、水文環(huán)境、人類活動4個方面分析滑坡發(fā)生機(jī)制,選取了高程[8](圖3)、坡度[9](圖4)、坡向[10](圖5)、地形起伏度[11](圖6)、巖性[12](圖7)、距斷裂帶距離[13](圖8)、植被覆蓋度[14](圖9)、降雨量[15](圖10)、距水系距離[16](圖11)、距道路距離[17](圖12)10個致災(zāi)因子,其具體表述如表1所示。
表1 昌都林芝區(qū)域的滑坡致災(zāi)因子數(shù)據(jù)說明
圖3 昌都林芝區(qū)域高程分布
圖4 昌都林芝區(qū)域坡度分布
圖5 昌都林芝區(qū)域坡向分布
圖7 昌都林芝區(qū)域巖性分布
圖8 昌都林芝區(qū)域距離斷裂帶距離分布
圖9 昌都林芝區(qū)域植被覆蓋度分布
圖10 昌都林芝區(qū)域降雨量分布
圖11 昌都林芝區(qū)域距離水系距離分布
圖12 昌都林芝區(qū)域距離道路距離分布
為有效評估昌都林芝區(qū)域的滑坡易發(fā)性,需基于區(qū)域的水文分布情況及地理特征,對區(qū)域進(jìn)行單元劃分,而后利用訓(xùn)練好的模型進(jìn)行逐一分析,以進(jìn)行各區(qū)劃單元的易發(fā)屬性提取。對此,本研究具體可以分成3步。一是數(shù)據(jù)整理,主要為準(zhǔn)備模型訓(xùn)練、模型驗證及模型預(yù)測數(shù)據(jù)集,為相應(yīng)的模型建立及區(qū)劃分析提供數(shù)據(jù)支持;二是滑坡易發(fā)性評價,主要是基于昌都林芝區(qū)域內(nèi)的滑坡歷史分布,利用性能較好的DBN深入分析區(qū)域內(nèi)的滑坡誘發(fā)機(jī)制,而后將區(qū)域單元輸入模型,提取昌都林芝區(qū)域的滑坡概率特征。同時,本研究還依托SVM、BP、Logistic回歸獲取區(qū)域的滑坡發(fā)生概率,為后續(xù)模型性能比對予以支撐;三是模型性能評估,具體為利用區(qū)劃數(shù)據(jù)統(tǒng)計結(jié)果及ROC曲線,驗證基于DBN評估結(jié)果的科學(xué)性及合理性。
在建立滑坡易發(fā)性評價模型前,需要對災(zāi)點數(shù)據(jù)集、區(qū)域致災(zāi)因子數(shù)據(jù)集進(jìn)行整理,并將其分成模型訓(xùn)練、模型驗證、模型預(yù)測數(shù)據(jù)集,以更好地支持后續(xù)的滑坡易發(fā)性區(qū)劃與評估。
一般而言,依托機(jī)器學(xué)習(xí)模型進(jìn)行滑坡易發(fā)性評估時,各分類樣本的比例接近1∶1,模型性能達(dá)到最優(yōu)。對此,本研究主要采集了線路區(qū)域內(nèi)324個滑坡點,相應(yīng)地需要獲取324個非滑坡點。于此,本研究利用GIS平臺的生成隨機(jī)點工具,在區(qū)域內(nèi)任意生成了324個樣本點作為非滑坡點。而后,本研究將324個滑坡點及非滑坡點整合,提取了共648個點的高程、坡度、坡向等10個致災(zāi)因子數(shù)據(jù),形成了災(zāi)點數(shù)據(jù)集。為了保證模型訓(xùn)練性能及避免出現(xiàn)過擬合,本研究將災(zāi)點數(shù)據(jù)集按7∶3分成兩部分,分別作為模型訓(xùn)練、模型驗證數(shù)據(jù)集。
考慮到昌都林芝區(qū)域內(nèi)各部分地理特征差異明顯,本研究將基于區(qū)域?qū)傩赃M(jìn)行區(qū)域單元劃分,予以昌都林芝區(qū)域的滑坡易發(fā)性提取有力支撐。目前,區(qū)域單元主要有柵格單元、斜坡單元、地貌單元、行政單元和唯一條件單元五種[18]。其中,斜坡單元充分考慮了地形分割的邊坡情況,與實際地貌的切合程度較高,對區(qū)域?qū)傩缘臏?zhǔn)確獲取十分有利[19]。對此,本研究對區(qū)域進(jìn)行斜坡單元劃分,具體為設(shè)定河流閾值為1 000,將區(qū)域劃分成224 102個斜坡單元。隨后,本研究提取了這224 102個斜坡單元的高程、坡度、坡向等致災(zāi)因子信息,整合成模型預(yù)測數(shù)據(jù)集。
考慮到DBN的性能優(yōu)越,本研究主要依托DBN分析滑坡易發(fā)性,并引入SVM、BP、Logistic回歸作為對比模型,以驗證DBN的性能。其中,DBN、SVM、BP及Logistic模型的具體闡述如下。
2.2.1 DBN深度信念網(wǎng)絡(luò)
深度信念網(wǎng)絡(luò)是一種深度學(xué)習(xí)的生成模型,由Geoffrey Hinton在2006年提出。它是由多個受限玻爾茲曼機(jī)(Restricted Boltzmann machine,RBM)堆疊而成,并在最后一層建立BP全連接層進(jìn)行預(yù)測及回歸,實現(xiàn)了無監(jiān)督和有監(jiān)督的交叉整合。其中,RBM作為模型先導(dǎo)部分,可對輸入數(shù)據(jù)進(jìn)行無監(jiān)督預(yù)訓(xùn)練,依托貪婪算法深入剖析數(shù)據(jù)間隱藏特征,并將其輸出作為后續(xù)BP層的輸入;而BP層則可進(jìn)行維度裁剪,將高維特征降低到預(yù)期的維度空間內(nèi),同時利用Sigmoid激活函數(shù)進(jìn)行數(shù)據(jù)收縮,保證輸出數(shù)據(jù)的值域可控。因此,DBN可有效處理數(shù)據(jù)分類問題,有利于精準(zhǔn)實現(xiàn)滑坡易發(fā)性的提取。
為保證模型的精度,本研究進(jìn)行了多次調(diào)參,最終設(shè)置了隱藏單元數(shù)為100、50、20的三層RBM結(jié)構(gòu),用于數(shù)據(jù)預(yù)分析,并將BP層的輸入節(jié)點數(shù)設(shè)為10,代表10個滑坡影響因子,輸出節(jié)點數(shù)設(shè)為1,代表區(qū)域斜坡單元的滑坡發(fā)生概率。其中,BP層的優(yōu)化器為Adam,損失函數(shù)為Mean squared error(MSE),迭代次數(shù)為3 000次,學(xué)習(xí)率為0.001,訓(xùn)練批次為100。
2.2.2 比對模型
(1)SVM
SVM是一種有監(jiān)督的機(jī)器學(xué)習(xí)算法,其基礎(chǔ)源于Corinna Cortes和Vapnik于1995年提出的軟邊距非線性SVM理論。SVM的本質(zhì)思想是結(jié)構(gòu)風(fēng)險最小原則,基本原理是數(shù)據(jù)的維度映射,具體是通過將低維度空間內(nèi)混雜的、不可劃分的數(shù)據(jù)投影到高維度空間內(nèi),并在相應(yīng)的高維度空間內(nèi)尋找最優(yōu)分類超平面,以實現(xiàn)數(shù)據(jù)的正確分類。
需要注意的是,SVM中的數(shù)據(jù)投影核函數(shù)對模型精度的影響十分顯著。在本研究中,將核函數(shù)設(shè)定為Radial basis function (RBF),以更好展示致災(zāi)因子與滑坡災(zāi)害間的非線性關(guān)系,并將懲罰系數(shù)設(shè)定為0.05,用于有效防止模型過擬合。
(2)BP
BP神經(jīng)網(wǎng)絡(luò)結(jié)合了誤差反向傳播算法的人工網(wǎng)絡(luò)模型,由Rumelhart和McClelland于1986年提出。該模型的核心原理是模擬人類大腦的神經(jīng)元結(jié)構(gòu),以建立推理模型,其本質(zhì)仍屬于非線性動力學(xué)系統(tǒng),具有較強(qiáng)的非線性函數(shù)逼近能力,并表現(xiàn)出自適應(yīng)、高容錯、學(xué)習(xí)能力強(qiáng)的特性。典型的BP網(wǎng)絡(luò)結(jié)構(gòu)有輸入、隱藏、輸出三層,其通過正向傳遞和逆向反饋機(jī)制進(jìn)行迭代訓(xùn)練,以提高模型精度。
在依托BP評價滑坡易發(fā)性時,本研究主要基于多層感知器(MLP)進(jìn)行模型構(gòu)建。其中,本研究將輸入層設(shè)為10,對應(yīng)10個致災(zāi)因子,隱藏層設(shè)為10,輸出層設(shè)為1,并將輸出層的激活函數(shù)設(shè)為“Sigmoid”,用于輸出概率。
(3)Logistic回歸
Logistic回歸[20]是一種多元統(tǒng)計方法,其本質(zhì)是依托多個自變量和1個因變量間的數(shù)據(jù)特征,建立多對一的回歸關(guān)系。該模型可以根據(jù)建立的函數(shù)關(guān)系和輸入的自變量求解任一研究領(lǐng)域任一事件的發(fā)生概率,并具有變量約束不強(qiáng)的優(yōu)點。其具體的計算公式如下
(1)
式中,β0為常數(shù)項;βi為xi的邏輯回歸系數(shù);ρ為概率。
一般而言,Logistic回歸并不需要過多的參數(shù)設(shè)置。于此,本研究在利用Logistic回歸模型評價滑坡易發(fā)性時,僅將懲罰系數(shù)設(shè)定為0.1,用于防止模型訓(xùn)練的過擬合情形。
在實現(xiàn)滑坡易發(fā)性評價后,本研究將從2個方面去評估模型性能。一是對DBN等4個模型的區(qū)劃結(jié)果進(jìn)行統(tǒng)計,獲取各易發(fā)性等級內(nèi)的滑坡數(shù)量、區(qū)域面積及滑坡點密度,分析比對模型的預(yù)測情況;二是引入ROC曲線以輔助評估。ROC曲線,是基于真假陽性率繪制的一種坐標(biāo)圖式分析工具,用以反映變量的特異、敏感性及模型精度。通常情況下,ROC的曲線下方面積值(AUC)處于[0,1]之間,且AUC越大,模型精度越高。一般而言,模型的AUC值達(dá)到0.9,可認(rèn)為建立模型的性能十分出色。于此,本研究將利用AUC值評價模型的預(yù)測性能。
依托上述流程可知,本研究首先利用DBN、SVM、BP、Logistic回歸獲取了區(qū)域內(nèi)224 102個斜坡單元的滑坡概率,而后需要對其進(jìn)行滑坡易發(fā)性等級劃分。目前,滑坡易發(fā)性區(qū)劃的方法以自然間斷點法為主,其基本原理是對分類間隔進(jìn)行深入識別,以保證同一類別間的差異最小,不同類別間的差異最大。自然間斷點法可以有效提取數(shù)據(jù)分隔節(jié)點,使得數(shù)據(jù)的分類效果顯著。然而,自然間斷點法不可避免地存在隨機(jī)性,如滑坡發(fā)生概率相同的區(qū)域在不同條件下(不同區(qū)域、不同模型)可能會被歸為不同的滑坡易發(fā)性等級,這導(dǎo)致了模型的相互比較缺乏依據(jù)。對此,本研究引入了戴福初等[21]的研究成果,將各斜坡單元分成極低(<0.1)、低(0.1~0.3)、中(0.3~0.5)、高(0.5~0.75)、極高(>0.75)5個級別,制定了區(qū)域滑坡易發(fā)性區(qū)劃圖(圖13~圖16)。這種方法的好處在于給出了十分明確的數(shù)據(jù)劃分節(jié)點,保證了區(qū)域滑坡易發(fā)性等級評估的唯一性,同時為不同模型區(qū)劃性能間的比較提供了有力支撐。最后,為了展示模型區(qū)劃結(jié)果的差異性,本研究還統(tǒng)計了圖層內(nèi)各級別的滑坡數(shù)量、區(qū)域面積及滑坡密度(表2)。
圖14 基于Logistic回歸的區(qū)域易發(fā)性評價
圖15 基于BP的區(qū)域易發(fā)性評價
圖16 基于DBN的區(qū)域易發(fā)性評價
表2 基于SVM、BP、Logistic及DBN的區(qū)劃結(jié)果統(tǒng)計
根據(jù)圖表數(shù)據(jù)顯示,DBN、SVM、BP、Logistic回歸的區(qū)劃結(jié)果存在一定的相似性,這是因為模型的區(qū)劃結(jié)果均表明,滑坡高易發(fā)區(qū)域呈帶狀貫穿整個線路所經(jīng)地區(qū),其形狀高度契合區(qū)域內(nèi)的河流走向及國道分布,而滑坡低易發(fā)區(qū)域則呈塊狀分布于高易發(fā)區(qū)域附近;其次,Logistic回歸的區(qū)劃結(jié)果并未包含極高滑坡易發(fā)性區(qū)域,這說明Logistic回歸的區(qū)劃結(jié)果不盡合理,而由DBN、SVM、BP的區(qū)劃結(jié)果可知,滑坡點密度與各滑坡易發(fā)性等級基本呈正向關(guān)系,展示了區(qū)劃結(jié)果的科學(xué)性;最后,從圖17中的滑坡歷史災(zāi)點在各易發(fā)性等級中的占比分布數(shù)據(jù)看,在基于DBN的區(qū)劃結(jié)果中,位于極低、低區(qū)域的滑坡總比例為20.370%,優(yōu)于SVM的21.605%,略差于BP的18.519%,而DBN的極高、高區(qū)域滑坡占比達(dá)67.593%,遠(yuǎn)大于SVM的59.259%和BP的56.173%,這展示了DBN的區(qū)劃結(jié)果更契合于實際滑坡分布。此外,在滑坡密集分布地帶,DBN的區(qū)劃結(jié)果均為極高易發(fā)性區(qū)域,這揭示了DBN的數(shù)據(jù)挖掘能力更好。
圖17 各易發(fā)性等級中的滑坡占比
為了評估SVM、BP、Logistic回歸、DBN的預(yù)測性能,本研究繪制了這4個模型的ROC曲線圖,并獲取了其曲線下面積AUC值(圖18)。
圖18 SVM、BP、Logistic回歸及DBN的ROC曲線
由圖18可知,4個模型的AUC值均在0.85以上,表明它們的預(yù)測性能均較好。而在這4個模型中,以DBN的表現(xiàn)最為出色,其AUC值為0.90,優(yōu)于SVN的0.88、BP的0.88和Logistic的0.87。
依托DBN的區(qū)域滑坡易發(fā)性評價結(jié)果,昌都林芝區(qū)域滑坡發(fā)生概率較大,其極高、高滑坡易發(fā)性區(qū)域的占比達(dá)67.593%。其中,極高滑坡易發(fā)性區(qū)域高度契合于河流及道路走向,在河流、道路網(wǎng)密集處,往往更傾向于發(fā)生滑坡,如伯舒拉嶺附近的三江匯流地帶及214國道、317國道的交界處等。因此,在河流及道路附近區(qū)域建設(shè)工程時,需要注意滑坡防治和風(fēng)險轉(zhuǎn)移,尤其是河流網(wǎng)及道路網(wǎng)密度較高的區(qū)域。
(1)選定了昌都林芝區(qū)域的滑坡災(zāi)害致災(zāi)因子。以昌都林芝兩市六區(qū)縣為研究對象,從地形地貌、地質(zhì)特征、水文環(huán)境、人類活動四方面確定了昌都林芝區(qū)域滑坡致災(zāi)因子體系,并利用區(qū)域324個滑坡歷史災(zāi)點及各因子數(shù)據(jù)集構(gòu)建了基于DBN的滑坡易發(fā)性評價模型。
(2)驗證了深度信念網(wǎng)絡(luò)的精度。針對昌都林芝區(qū)域,ROC曲線的精度評估表明DBN的滑坡易發(fā)性預(yù)測性能較好,優(yōu)于SVM、BP及Logistic回歸。此外,DBN具有較好的可移植性,其仍能有效用于評估相似區(qū)域的滑坡易發(fā)性。
(3)利用二維領(lǐng)域內(nèi)表現(xiàn)出色的DBN評價了昌都林芝區(qū)域的滑坡易發(fā)性。研究結(jié)果顯示,昌都林芝區(qū)域滑坡極高易發(fā)性區(qū)域分布集中,主要分布于河流和道路兩側(cè),在后續(xù)開展工程建設(shè)時應(yīng)適當(dāng)遠(yuǎn)離河流和道路。