王 鑫,趙 康,蔣葉林,朱 文
(1.昆明理工大學(xué) 國土資源工程學(xué)院,云南 昆明 650031;2.武漢大學(xué) 測繪遙感信息工程國家重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430072;3.云南省基礎(chǔ)地理信息中心,云南 昆明 650034)
泥石流是我國地質(zhì)災(zāi)害中危害和影響程度僅次于地震的災(zāi)害種類之一[1],開展泥石流易發(fā)性區(qū)劃研究可為地質(zhì)災(zāi)害防治工作提供參考,對保障人民生命財(cái)產(chǎn)安全和社會(huì)穩(wěn)定意義重大[2]。云南省目前廣泛使用的泥石流易發(fā)性區(qū)劃成果存在受主觀經(jīng)驗(yàn)影響較大和時(shí)空顆粒度較粗等問題,怒江流域是云南省泥石流災(zāi)害的典型高頻發(fā)區(qū),精細(xì)、準(zhǔn)確的怒江流域泥石流區(qū)劃成果對當(dāng)?shù)胤罏?zāi)減災(zāi)工作具有重要意義。
怒江流域地形、地質(zhì)、地貌、氣候等條件復(fù)雜,區(qū)域泥石流觸發(fā)機(jī)理研究難度很大[3]。同時(shí),地域環(huán)境的差異性使泥石流研究模型一般不具有普適性[4]。在泥石流觸發(fā)機(jī)理不明確的情況下,提高模型在預(yù)測泥石流發(fā)生概率方面的有效性需先分析數(shù)據(jù)中的非線性關(guān)系[5]。神經(jīng)網(wǎng)絡(luò)良好的非線性映射能力,能夠在海量地質(zhì)數(shù)據(jù)中揭示數(shù)據(jù)內(nèi)部聯(lián)系,在泥石流易發(fā)性評價(jià)中應(yīng)用效果顯著[6]。在眾多神經(jīng)網(wǎng)絡(luò)算法中,反向傳播(BP)算法應(yīng)用最為廣泛[7]。本文以怒江流域?yàn)檠芯繉ο?,分析泥石流?zāi)害的影響因子,通過BP神經(jīng)網(wǎng)絡(luò)技術(shù)構(gòu)建泥石流易發(fā)性動(dòng)態(tài)區(qū)劃模型。
怒江流域地處云南省西北部,高山陡坡的地形、密集的河流以及復(fù)雜的地質(zhì)類型為泥石流提供了孕育環(huán)境,也為泥石流觸發(fā)機(jī)理研究帶來了挑戰(zhàn)。李益敏等[8]選取至斷裂帶距離、巖性、年均降水量、至道路距離、至居民點(diǎn)距離為評價(jià)指標(biāo),采用確定性系數(shù)模型CF和多因子疊加權(quán)重確定法開展了怒江泥石流易發(fā)性評價(jià)研究,精度達(dá)到了74.2%;孔艷等[9]選取地貌類型、土壤類型、土地利用類型以及公路分布為評價(jià)指標(biāo),采用統(tǒng)計(jì)指標(biāo)法和層次分析法相結(jié)合的方法對該區(qū)域的泥石流危險(xiǎn)性進(jìn)行了分區(qū)和評價(jià),精度達(dá)到了75.6%;魏蘇杭[10]選取至斷裂帶距離、巖土體類型、流域高差、平均坡度、河流縱坡降、河流彎曲系數(shù)、流域面積、流域累積匯水流量、植被指數(shù)(INDV)、多年平均降雨量、至公路距離、至自然村距離等12個(gè)因子,通過確定性系數(shù)法和多因子疊加權(quán)重確定法進(jìn)行了泥石流易發(fā)性評價(jià);李芳[11]選取了地貌、坡度、地震烈度、河網(wǎng)密度、巖土體類型、斷裂、路網(wǎng)密度、坡向等8個(gè)因素作為易發(fā)性評價(jià)因子,將信息量法與層次分析法相結(jié)合進(jìn)行了易發(fā)性評價(jià),精度達(dá)到了78.78%。
以上研究存在的不足主要有:①影響因子的組合受主觀經(jīng)驗(yàn)影響較大,直接影響評價(jià)結(jié)果的準(zhǔn)確性;②未充分利用歷年災(zāi)害數(shù)據(jù),如已發(fā)生的泥石流、滑坡、崩塌災(zāi)害可能為泥石流的孕育提供物質(zhì)基礎(chǔ);③現(xiàn)有易發(fā)性區(qū)劃成果是靜態(tài)的空間區(qū)劃,未反映易發(fā)分區(qū)隨時(shí)間的變化規(guī)律。
隨著大數(shù)據(jù)技術(shù)的發(fā)展,機(jī)器學(xué)習(xí)為研究非線性變量關(guān)系提供了解決辦法[12],可以有效避免主觀因素對分析結(jié)果的影響。在機(jī)器學(xué)習(xí)方法中,BP神經(jīng)網(wǎng)絡(luò)具有出色的非線性分析能力,可用來篩選泥石流觸發(fā)因素[13]。因此,本文基于廣泛搜集的泥石流影響因子及歷史災(zāi)害數(shù)據(jù),通過相關(guān)性分析篩選出評價(jià)因子,采用BP神經(jīng)網(wǎng)絡(luò)技術(shù),以月為時(shí)間維度構(gòu)建泥石流易發(fā)性動(dòng)態(tài)區(qū)劃模型。
相關(guān)研究表明,泥石流的形成與觸發(fā)受地形、地質(zhì)、地貌、氣象等多方面因素影響,且這些影響因素具有時(shí)空維度特征,內(nèi)在關(guān)系復(fù)雜。傳統(tǒng)的數(shù)據(jù)處理分析方法很難應(yīng)對此類多源、異構(gòu)、海量的環(huán)境和災(zāi)害數(shù)據(jù)。將大數(shù)據(jù)與高性能計(jì)算方法應(yīng)用于地質(zhì)災(zāi)害研究是當(dāng)今的熱門手段[14],本文集成了GIS服務(wù)平臺(tái)以及基于Hadoop組件的分析計(jì)算處理能力,總體研究框架如圖1所示。
圖1 總體研究架構(gòu)
針對多源異構(gòu)的地質(zhì)環(huán)境數(shù)據(jù)特征,Hadoop提供了分布式處理引擎、空間數(shù)據(jù)引擎、Map/Reduce處理框架等;基于Hadoop的HBase分布式數(shù)據(jù)庫可以滿足大數(shù)據(jù)快速存取需求;TensorFlow提供了分析和挖掘算法庫;GIS平臺(tái)用于空間計(jì)算分析和可視化表達(dá)輸出。通過以上完整的支撐架構(gòu),可以實(shí)現(xiàn)從搜集相關(guān)數(shù)據(jù)到泥石流易發(fā)性區(qū)劃可視化的完整流程。
2.2.1 影響因子搜集及預(yù)處理
泥石流是在水力、地貌、地質(zhì)和人為共同作用下發(fā)生承載流動(dòng)固體相互作用的流動(dòng)現(xiàn)象[15]。可將形成泥石流的條件歸納為水源、物源和地形條件:水源是泥石流形成的必然條件和主要?jiǎng)恿16],主要搜集降雨數(shù)據(jù)為影響因子;物源是泥石流形成的物質(zhì)基礎(chǔ),主要搜集土壤質(zhì)地、INDV、土壤侵蝕、土地利用、土壤類型等數(shù)據(jù);地形條件是形成泥石流的制約條件,可以控制泥石流的規(guī)模和運(yùn)動(dòng),主要搜集地貌、高程、坡度、坡向潛在影響因子等數(shù)據(jù)。
根據(jù)研究需要,從時(shí)間維度、空間維度和指標(biāo)維度對數(shù)據(jù)進(jìn)行處理變換:空間維度上,將分辨率細(xì)化為30 m×30 m的細(xì)評價(jià)網(wǎng)格;時(shí)間維度上,以月為時(shí)間維度,選取當(dāng)月降雨量為有效降雨量,前兩個(gè)月的降雨量作為前期降雨量的累積,分別用R0、R1、R2表示;指標(biāo)維度上,歷史發(fā)生的自然災(zāi)害(如滑坡、崩塌等)會(huì)為泥石流的孕育提供物質(zhì)基礎(chǔ),提出歷史災(zāi)害發(fā)生率(Ho)和歷史災(zāi)害最近距離(Hd)兩個(gè)指標(biāo)來衡量歷史自然災(zāi)害對泥石流易發(fā)性的影響。
(1)
Hd=minθ,
(2)
式中:a、b、c分別為滑坡、崩塌、泥石流的發(fā)生次數(shù);ai、bi、ci分別為i評價(jià)單元的滑坡、崩塌、泥石流的發(fā)生次數(shù);θ為評價(jià)單元至災(zāi)害點(diǎn)的距離。
將影響因子進(jìn)行匯總,結(jié)果見表1。
表1 影響因子匯總
2.2.2 數(shù)據(jù)相關(guān)性分析
檢驗(yàn)采集的影響因子和提出的指標(biāo)與泥石流發(fā)生的相關(guān)性,剔除不關(guān)聯(lián)或弱關(guān)聯(lián)因子,以保證模型分析結(jié)果的準(zhǔn)確性,也是為了避免浪費(fèi)計(jì)算資源。多源變量不服從正態(tài)分布,且分為連續(xù)變量和分類變量,因此采用Spearman秩相關(guān)系數(shù)評價(jià)變量和泥石流易發(fā)性之間的相關(guān)性[17]。相關(guān)系數(shù)的取值范圍為 (-1,+1),-1表示完全負(fù)相關(guān),+1表示完全正相關(guān),0表示沒有線性關(guān)系。相關(guān)性系數(shù)如表2所示。
表2 各影響因子的相關(guān)性系數(shù)
由于怒江州內(nèi)多以高山陡坡地形為主,艱苦的監(jiān)測條件使大量泥石流災(zāi)害事件未能統(tǒng)計(jì)入庫,導(dǎo)致實(shí)驗(yàn)數(shù)據(jù)存在誤差。因此,本實(shí)驗(yàn)將相關(guān)系數(shù)在區(qū)間(-0.1,0.1)的變量視為弱相關(guān)并剔除,保留土壤質(zhì)地(Clay、Silt、Sand)、INDV、土壤類型、高程、坡度、坡向、降雨量(R0、R1、R2)以及歷史災(zāi)害影響因子(Ho、Hd)等13個(gè)評價(jià)指標(biāo)用于模型訓(xùn)練。
BP神經(jīng)網(wǎng)絡(luò)是由輸入層、隱藏層和輸出層組成的復(fù)雜網(wǎng)絡(luò),由于輸入層和輸出層節(jié)點(diǎn)是確定的,隱藏層層數(shù)和隱藏層節(jié)點(diǎn)數(shù)在很大程度上影響了網(wǎng)絡(luò)的性能。在神經(jīng)網(wǎng)絡(luò)中,當(dāng)且僅當(dāng)數(shù)據(jù)非線性分離時(shí)才需要隱藏層,且如果隱藏層數(shù)大于2,超出的隱藏層可以學(xué)習(xí)復(fù)雜的描述[18]。在神經(jīng)網(wǎng)絡(luò)中,隱藏神經(jīng)元的數(shù)量應(yīng)在輸入層和輸出層的層數(shù)之間。隱藏神經(jīng)元的數(shù)量應(yīng)為輸入層層數(shù)的2/3加上輸出層層數(shù)的2/3。
以上是學(xué)者根據(jù)經(jīng)驗(yàn)得出的大致區(qū)間結(jié)論,隱藏層層數(shù)和隱藏層節(jié)點(diǎn)數(shù)的最佳取值需要通過實(shí)驗(yàn)獲得。因此本文建立了一個(gè)3~6層、隱藏層節(jié)點(diǎn)數(shù)為7~11的BP神經(jīng)網(wǎng)絡(luò),即該BP神經(jīng)網(wǎng)絡(luò)模型包含1個(gè)輸入層、2~5個(gè)隱含層和1個(gè)輸出層。將篩選后的影響因子作為輸入層(x1,x2,…,x13),將預(yù)測的泥石流易發(fā)性概率(y)作為輸出層。
激活函數(shù)是在人工神經(jīng)元上將神經(jīng)元的輸入映射到輸出的函數(shù)。根據(jù)泥石流易發(fā)性區(qū)劃,需要利用Sigmoid將多層感知器最后的結(jié)果映射到(0,1)之間,完成數(shù)據(jù)歸一化,得到概率值
(3)
二分類中最常用的損失函數(shù)為交叉熵,交叉熵是實(shí)際輸出與期望輸出的距離,距離越小,分布越接近。假設(shè)p為期望輸出,q為實(shí)際輸出,則
H(p,q)=-∑p(x)logq(x)。
(4)
構(gòu)建的BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖5所示。
圖2 BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
經(jīng)分析得知,怒江流域在每年4-9月伴隨降雨量的劇增而常發(fā)生泥石流災(zāi)害,因此采用等距取樣,在時(shí)間和空間上皆保證數(shù)據(jù)分布均勻。為保證模型有良好的穩(wěn)定性,本文通過10折交叉驗(yàn)證將數(shù)據(jù)分為10份,依次取其中的1份作為驗(yàn)證集,剩下的9份作為訓(xùn)練集;最后取10次實(shí)驗(yàn)?zāi)P途鹊钠骄底鳛樽詈竽P偷木取?/p>
結(jié)合Python語言采用TensorFlow學(xué)習(xí)框架構(gòu)建2.3中提出的網(wǎng)絡(luò)模型,并將BP神經(jīng)網(wǎng)絡(luò)的隱藏層數(shù)、隱藏層節(jié)點(diǎn)數(shù)以及訓(xùn)練得出的AUC值繪制成三維圖(見圖3)。
圖3 模型訓(xùn)練AUC值
由圖3可知,模型精度隨著隱藏層數(shù)和節(jié)點(diǎn)數(shù)的增加先上升后趨于平穩(wěn),因此選擇 4、9作為所建模型的最佳隱藏層數(shù)和節(jié)點(diǎn)數(shù),該模型精度達(dá)到了98.44%。
將2019年4-9月各評價(jià)單元的13個(gè)評價(jià)指標(biāo)動(dòng)態(tài)輸入最佳預(yù)測模型中,將易發(fā)性概率以0.2為步長劃分成5個(gè)等級,得到了動(dòng)態(tài)區(qū)劃圖(見圖4)。圖中疊加了云南省地質(zhì)環(huán)境監(jiān)測院重點(diǎn)監(jiān)測的413個(gè)隱患點(diǎn)以及對應(yīng)時(shí)空發(fā)生的泥石流事件。
(a)4月區(qū)劃圖
隱患點(diǎn)等級越高表示該點(diǎn)越容易發(fā)生泥石流災(zāi)害,且隱患點(diǎn)分類等級與實(shí)驗(yàn)易發(fā)性區(qū)劃等級相同。由圖4可知,預(yù)測模型劃分的高發(fā)生(對應(yīng)隱患點(diǎn)等級為4,共111個(gè)隱患點(diǎn))、極易發(fā)生(對應(yīng)隱患點(diǎn)等級為5,共42個(gè)隱患點(diǎn))區(qū)域覆蓋隱患點(diǎn)各86個(gè)和31個(gè),準(zhǔn)確率達(dá)到了77.5%和73.8%;搜集的2019年9起泥石流災(zāi)害事件中,該區(qū)劃模型準(zhǔn)確預(yù)測到了7起,準(zhǔn)確率達(dá)到了77.7%。無論從與隱患點(diǎn)等級劃分的吻合程度分析,還是從預(yù)測泥石流災(zāi)害發(fā)生的契合度分析,所建模型都能從時(shí)空角度較好地反映怒江泥石流易發(fā)性現(xiàn)狀。
針對在我國頻發(fā)的泥石流地質(zhì)災(zāi)害,如何準(zhǔn)確預(yù)測泥石流的發(fā)生,及時(shí)發(fā)布信息提醒群眾撤離是防災(zāi)減災(zāi)工作的重點(diǎn)和難點(diǎn)。時(shí)空大數(shù)據(jù)分析不僅提供了多種分析手段,也能在不同程度上節(jié)省人力和物力。
經(jīng)與泥石流災(zāi)害歷史記錄進(jìn)行比對,本文提出的基于BP神經(jīng)網(wǎng)絡(luò)的預(yù)測模型準(zhǔn)確地反映了怒江流域泥石流災(zāi)害易發(fā)性的時(shí)空變化規(guī)律。將研究范圍擴(kuò)大至整個(gè)省份,對數(shù)據(jù)進(jìn)行集中管理,結(jié)合其他大數(shù)據(jù)分析技術(shù)進(jìn)行泥石流預(yù)測,將是后續(xù)的研究方向。