摘要:
區(qū)域地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)樣本數(shù)據(jù)的可靠性是影響最終評(píng)價(jià)結(jié)果的關(guān)鍵因素之一。以陜西省白河縣236處地質(zhì)災(zāi)害為研究對(duì)象,分別采用層次聚類算法與動(dòng)態(tài)K-means聚類算法對(duì)地質(zhì)災(zāi)害樣本數(shù)據(jù)進(jìn)行聚類分析并獲得其樣本純度。分析結(jié)果表明:層次聚類算法與K-means聚類算法得到樣本純度分別為91.53% 與92.80%;結(jié)合兩種算法結(jié)果,剔除樣本噪聲點(diǎn)20個(gè),確定有效樣本點(diǎn)216個(gè),得到最終樣本純度為91.53%。利用樣本提純前后數(shù)據(jù)分別建立信息量模型(Ⅳ前、Ⅳ后),開展區(qū)域地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)。評(píng)價(jià)結(jié)果表明:Ⅳ前模型與Ⅳ后模型得到的區(qū)域易發(fā)性區(qū)劃圖中,地質(zhì)災(zāi)害落入極高-高易發(fā)區(qū)的數(shù)量分別為149個(gè)與167個(gè),分別占災(zāi)害總數(shù)的63.13%與70.77%,災(zāi)害密度分別為0.508個(gè)/km2 與0.584個(gè)/km2,較初始樣本條件,樣本提純后極高-高易發(fā)區(qū)內(nèi)災(zāi)害點(diǎn)數(shù)增加18個(gè),災(zāi)害密度增加0.076個(gè)/km2,地質(zhì)災(zāi)害分布更集中,預(yù)測(cè)結(jié)果準(zhǔn)確度更高。研究結(jié)果可為地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)研究中的初始樣本數(shù)據(jù)提純提供一定的理論與科學(xué)依據(jù)。
關(guān) 鍵 詞:
地質(zhì)災(zāi)害; 易發(fā)性評(píng)價(jià); 評(píng)價(jià)指標(biāo); 樣本純度; 聚類算法; 信息量模型
中圖法分類號(hào): P642
文獻(xiàn)標(biāo)志碼: A
DOI:10.16232/j.cnki.1001-4179.2023.03.018
0 引 言
地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)是進(jìn)行區(qū)域地質(zhì)災(zāi)害風(fēng)險(xiǎn)調(diào)查評(píng)價(jià)的基礎(chǔ)性工作,其區(qū)劃成果圖不僅可作為區(qū)域地質(zhì)災(zāi)害危險(xiǎn)性評(píng)價(jià)、風(fēng)險(xiǎn)性評(píng)價(jià)成果的基礎(chǔ)性圖件,還可為建設(shè)工程地質(zhì)災(zāi)害危險(xiǎn)性評(píng)估提供評(píng)估依據(jù)。因此,區(qū)域地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)越來越成為地質(zhì)學(xué)者們研究的熱點(diǎn)問題。
目前,區(qū)域地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)研究重點(diǎn)與難點(diǎn)主要集中在以下3個(gè)方面:評(píng)價(jià)指標(biāo)的分析與選取、評(píng)價(jià)單元的選取與劃分、評(píng)價(jià)模型的建立。針對(duì)以上3個(gè)方面,學(xué)者們已經(jīng)做了大量的研究工作。例如,王念秦等[1]采用Pearson相關(guān)系數(shù)法對(duì)11項(xiàng)評(píng)價(jià)指標(biāo)因子作相關(guān)性分析,發(fā)現(xiàn)地形起伏度與坡度因子呈強(qiáng)相關(guān),剔除地形起伏度因子后利用剩余10項(xiàng)因子開展了府谷縣滑坡易發(fā)性評(píng)價(jià)研究;田凡凡等[2]采用主成分分析法與Pearson相關(guān)系數(shù)法對(duì)歷史滑坡影響因素進(jìn)行遴選,建立研究區(qū)滑坡評(píng)價(jià)因子指標(biāo)分級(jí)體系,開展丹鳳縣滑坡易發(fā)性評(píng)價(jià)研究,得到較好的評(píng)價(jià)結(jié)果;鄭玲靜等[3]采用斜坡單元作為基本評(píng)價(jià)單元,開展云南省小江流域滑坡敏感性評(píng)價(jià),評(píng)價(jià)結(jié)果表明,斜坡單元對(duì)于地形復(fù)雜且范圍較小的區(qū)域評(píng)價(jià)具有較好的效果;唐川等[4]采用地貌單元作為評(píng)價(jià)單元,開展汶川縣城周邊區(qū)域地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià),評(píng)價(jià)結(jié)果表明,在小范圍、大比例尺區(qū)域內(nèi),采用地貌單元作為評(píng)價(jià)單元進(jìn)行易發(fā)性評(píng)價(jià)分區(qū)具有良好的適用性與可塑性;田欽等[5]建立信息量和邏輯回歸耦合模型,開展江西省寧都地區(qū)滑坡易發(fā)性評(píng)價(jià),評(píng)價(jià)結(jié)果表明,采用耦合模型較單一模型預(yù)測(cè)結(jié)果精度更高;郭子正等[6] 提出基于邏輯回歸-模糊層次分析方法(LR-FAHP)的加權(quán)頻率比模型,通過對(duì)指標(biāo)因子的重要性進(jìn)行排序,實(shí)現(xiàn)各指標(biāo)因子權(quán)重的定量計(jì)算,從而建立不同類型滑坡的評(píng)價(jià)指標(biāo)體系,再基于GIS平臺(tái)實(shí)現(xiàn)了全區(qū)滑坡災(zāi)害的易發(fā)性等級(jí)預(yù)測(cè)。
學(xué)者們?cè)谥笜?biāo)選取、評(píng)價(jià)單元?jiǎng)澐?、評(píng)價(jià)模型建立方面嘗試突破的時(shí)候,往往未考慮初始地質(zhì)災(zāi)害樣本數(shù)據(jù)的可靠性或假設(shè)初始樣本數(shù)據(jù)均為正常,很少對(duì)初始樣本預(yù)先進(jìn)行處理,導(dǎo)致樣本純度不夠,評(píng)價(jià)模型受噪聲點(diǎn)干擾較強(qiáng)、預(yù)測(cè)結(jié)果精度差、甚至出現(xiàn)結(jié)論失真。目前針對(duì)樣本數(shù)據(jù)提純的方法主要有分箱法、回歸法及聚類算法。分箱法存在樣本數(shù)據(jù)信息丟失、計(jì)算量大、需要對(duì)數(shù)據(jù)進(jìn)行編碼等缺點(diǎn)?;貧w法多適用于樣本數(shù)據(jù)呈線性分布的情況,對(duì)數(shù)據(jù)空間分布復(fù)雜、不規(guī)則的情況處理效果并不理想。聚類算法具有簡單、高效、快速收斂、可以對(duì)任意形狀進(jìn)行聚類等優(yōu)點(diǎn)??紤]到地質(zhì)災(zāi)害影響因子的多元性、復(fù)雜性,導(dǎo)致樣本特征空間分布的不規(guī)則性,本文采用聚類算法中的層次聚類算法與K-means聚類算法對(duì)初始樣本進(jìn)行聚類分析,剔除樣本異常點(diǎn)(噪聲點(diǎn)),提高樣本純度,進(jìn)而達(dá)到提高預(yù)測(cè)結(jié)果精度的目的。
1 聚類分析法與信息量模型簡介
1.1 聚類分析法
聚類分析就是根據(jù)多個(gè)指標(biāo)進(jìn)行數(shù)學(xué)分類的一種多元統(tǒng)計(jì)方法,屬于非監(jiān)督分類算法[7-8],即樣本數(shù)據(jù)沒有類別標(biāo)簽,是通過樣本間特性屬性的差異劃分為不同的簇或類別,衡量樣本間或簇間的差異程度用相似度來表示。樣本間或簇間的相似度通常用歐氏距離來衡量。常用的聚類算法有層次聚類算法與K-means聚類算法兩種,以下分別介紹這兩種聚類方法的原理。
(1) 層次聚類算法。
層次聚類是基于簇間的相似度在不同層次上分析數(shù)據(jù),從而形成樹形的聚類結(jié)構(gòu)。它假設(shè)每個(gè)樣本點(diǎn)為單獨(dú)的簇類,然后在算法運(yùn)行的每一次迭代中找出相似度較高的簇類進(jìn)行合并,不斷重復(fù)該過程,直到達(dá)到預(yù)設(shè)的簇類數(shù)K或只有一個(gè)簇類。聚合層次聚類的基本思想可分為以下幾步:
① 計(jì)算樣本數(shù)據(jù)集的相似矩陣(n維對(duì)稱矩陣),矩陣中每個(gè)元素代表樣本間的距離;
② 假設(shè)每個(gè)樣本點(diǎn)為一個(gè)簇;
③ 合并相似度最高的兩個(gè)簇類,迭代循環(huán),不斷更新相似矩陣,當(dāng)簇類數(shù)為預(yù)設(shè)K時(shí),終止迭代循環(huán)。
簇間相似度的計(jì)算方法有很多種,考慮到地質(zhì)災(zāi)害影響因素復(fù)雜,樣本數(shù)據(jù)多維分布多樣,因此本次采用最小距離法(單鏈接法)、最大距離法(全鏈接法)、平均距離法(均鏈接法)以及離差平方和法分別對(duì)樣本數(shù)據(jù)進(jìn)行聚類分析,樣本間距離計(jì)算方法采用歐氏距離算法。
(2) K-means聚類算法。
K-means算法屬于動(dòng)態(tài)聚類算法中較常用的一種聚類分析法,其算法的基本思想大概可分為以下幾個(gè)步驟:
① 隨機(jī)選取K個(gè)點(diǎn)作為聚類中心點(diǎn);
② 計(jì)算所有樣本點(diǎn)與聚類中心的距離(相似度),將該樣本點(diǎn)分到最近的聚類中心,形成K個(gè)簇;
③ 重新計(jì)算每個(gè)簇類的質(zhì)心(均值);
④ 重復(fù)步驟②~③,直到質(zhì)心的位置不再發(fā)生變化或達(dá)到設(shè)定的迭代次數(shù),結(jié)束計(jì)算。
本文用到的各聚類算法優(yōu)缺點(diǎn)如表1所列。
1.2 信息量模型
信息量法是以信息論為基礎(chǔ)的統(tǒng)計(jì)方法,最初用于地學(xué)上的礦產(chǎn)資源勘查方面,近些年來,被用于地質(zhì)災(zāi)害領(lǐng)域[9-11]。信息量模型的實(shí)現(xiàn)過程如下:
(1) 計(jì)算各指標(biāo)因子xi對(duì)地質(zhì)災(zāi)害事件(K)所提供的信息量值I(xi,K):
I(xi,K)=lnP(xi|K)P(xi)(1)
式中:P(xi|K)為地質(zhì)災(zāi)害發(fā)生條件下,評(píng)價(jià)因子分級(jí)xi的先驗(yàn)概率;P(xi)為評(píng)價(jià)區(qū)內(nèi)出現(xiàn)xi的概率。
公式(1)計(jì)算所得信息量值是理論解,在地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)中,多采用樣本頻率值近似取代理論概率值計(jì)算信息量值,具體計(jì)算公式與含義如下:
I(xi,K)=lnNi/NSi/S(2)
式中:Ni為評(píng)價(jià)因子分級(jí)xi內(nèi)的地質(zhì)災(zāi)害評(píng)價(jià)單元數(shù)或地質(zhì)災(zāi)害點(diǎn)數(shù);N為地質(zhì)災(zāi)害所占評(píng)價(jià)單元數(shù)或地質(zhì)災(zāi)害點(diǎn)總數(shù);Si為評(píng)價(jià)因子分級(jí)xi面積;S為研究區(qū)總面積。
(2) 計(jì)算n類評(píng)價(jià)因子組合對(duì)地質(zhì)災(zāi)害發(fā)生提供的綜合信息量值:
Ii=ni=1I(xi,K)=ni=1lnNi/NSi/S(3)
其中,綜合信息量值越大,表明地質(zhì)災(zāi)害易發(fā)性程度越高。
2 研究區(qū)概況
白河縣位于陜西省安康市東部,地處東經(jīng)113°55′~114°38′、北緯25°24′~25°55′,總面積為1 455 km2,海拔170~1 901 m,境內(nèi)地勢(shì)呈南高北低、北陡南緩的特征,山脈與溝谷相間。地貌以河谷階地、低山區(qū)、低中山區(qū)為主。白河縣屬熱帶濕潤大陸季風(fēng)氣候區(qū),區(qū)內(nèi)氣候溫和,雨量充沛,多年平均氣溫15.6℃。區(qū)內(nèi)水系屬漢江水系,水系發(fā)達(dá),共發(fā)育有765條河流,主要河流有漢江、白石河、冷水河、麻虎河等。境內(nèi)褶皺、斷裂發(fā)育,主要褶皺有旬陽復(fù)背斜、呂河-茅坪復(fù)向斜、神灘河-神河背斜等,區(qū)域性斷裂主要以公館-白河斷裂、石門-陳莊斷裂、麻坪河斷裂為主。通過光學(xué)遙感解譯以及實(shí)地調(diào)查走訪等手段,境內(nèi)共確認(rèn)地質(zhì)災(zāi)害隱患236處。研究區(qū)地理位置與地質(zhì)災(zāi)害點(diǎn)空間分布如圖1所示。
3 樣本數(shù)據(jù)處理
3.1 數(shù)據(jù)來源
地質(zhì)災(zāi)害樣本數(shù)據(jù)來源主要包含:白河縣地質(zhì)災(zāi)害調(diào)查數(shù)據(jù)庫、分辨率為25 m×25 m的高程數(shù)字模型(DEM)、1∶50 000遙感影像圖、陜西省氣象站點(diǎn)年降雨量數(shù)據(jù)圖層(2001~2020年)、1∶50 000水系分布圖、1∶50 000區(qū)域地質(zhì)圖等。
3.2 評(píng)價(jià)指標(biāo)提取
通過分析白河縣區(qū)域地質(zhì)環(huán)境條件、地質(zhì)災(zāi)害發(fā)育特征、分布規(guī)律等,在充分了解地質(zhì)災(zāi)害孕災(zāi)環(huán)境條件的基礎(chǔ)上,選取坡度、坡向、高程、曲率、水系、地形濕度指數(shù)(TWI)、年降雨量、歸一化植被指數(shù)(NDVI)、土地利用類型、距斷層距離共10項(xiàng)特征屬性作為評(píng)價(jià)指標(biāo)。借助ArcGIS技術(shù)從各數(shù)據(jù)源中提取評(píng)價(jià)因子圖層,并將地質(zhì)災(zāi)害點(diǎn)疊加各圖層,提取地質(zhì)災(zāi)害點(diǎn)樣本屬性數(shù)據(jù)。各評(píng)價(jià)因子與地質(zhì)災(zāi)害點(diǎn)的疊加分布圖如圖2所示。
3.3 樣本數(shù)據(jù)歸一化
為了消除地質(zhì)災(zāi)害樣本數(shù)據(jù)特征屬性之間因量綱、數(shù)據(jù)類型不同對(duì)聚類分析結(jié)果造成的誤差影響,論文采用Z-score標(biāo)準(zhǔn)化法對(duì)樣本數(shù)據(jù)進(jìn)行歸一化處理。Z-score標(biāo)準(zhǔn)化法通過計(jì)算樣本數(shù)據(jù)的均值與標(biāo)準(zhǔn)差來實(shí)現(xiàn)數(shù)據(jù)歸一化,經(jīng)處理后的數(shù)據(jù)符合正態(tài)分布,即樣本的均值為0,標(biāo)準(zhǔn)差為1,轉(zhuǎn)化函數(shù)公式如下:
X*=x-uσ(4)
式中:x為樣本數(shù)據(jù),u為所有數(shù)據(jù)的均值,σ為樣本數(shù)據(jù)的標(biāo)準(zhǔn)差。
3.4 樣本數(shù)據(jù)聚類分析
論文采用R語言實(shí)現(xiàn)樣本數(shù)據(jù)聚類分析,通過對(duì)236處樣本數(shù)據(jù)進(jìn)行聚類分析,得到表2聚類結(jié)果。
從表2聚類分析結(jié)果可知:最小距離法與平均距離法、離差平方和法與K-means聚類算法的聚類結(jié)果相同,噪聲點(diǎn)、有效樣本點(diǎn)個(gè)數(shù)及其對(duì)應(yīng)的地質(zhì)災(zāi)害點(diǎn)均相同。考慮到不同聚類方法聚類結(jié)果的異同性,論文采用不同聚類算法結(jié)果取并集的原則確定樣本的最終噪聲點(diǎn)、有效樣本點(diǎn)數(shù)以及樣本純度?;趯哟尉垲愃惴ㄋ镁垲惤Y(jié)果取并集可得噪聲點(diǎn)數(shù)為20個(gè),有效樣本點(diǎn)數(shù)為216個(gè),樣本純度為91.53%;基于K-means聚類算法所得聚類結(jié)果取并集可得噪聲點(diǎn)數(shù)為17個(gè),有效樣本點(diǎn)數(shù)為219個(gè),樣本純度為92.80%;綜合兩類聚類算法結(jié)果可得,噪聲點(diǎn)數(shù)為20個(gè),有效樣本點(diǎn)數(shù)為216個(gè),樣本純度為91.53%。
提取樣本噪聲點(diǎn)各評(píng)價(jià)指標(biāo)屬性值,如表3所列。從統(tǒng)計(jì)學(xué)角度分析發(fā)現(xiàn),樣本2,8,28,64,80,97,110,114,115,139,211,233坡度均小于20°,與其他有效樣本點(diǎn)相比,坡度數(shù)據(jù)異常。此外,根據(jù)滑坡、崩塌坡度統(tǒng)計(jì)文獻(xiàn)[12-13]發(fā)現(xiàn):滑坡坡度主要分布在20°~45°之間,崩塌坡度主要分布在30°~50°之間,即坡度小于20°時(shí),坡體處于相對(duì)穩(wěn)定的狀態(tài),不易誘發(fā)滑坡、崩塌的發(fā)生。為進(jìn)一步驗(yàn)證這些噪聲點(diǎn)是由坡度異常
造成,對(duì)12處噪聲點(diǎn)坡度進(jìn)行實(shí)測(cè),發(fā)現(xiàn)這些噪聲點(diǎn)坡度與實(shí)測(cè)坡度有較大差異,12處噪聲點(diǎn)實(shí)測(cè)坡度分別為60°,45°,30°,35°,40°,55°,25°,40°,55°,50°,30°,45°,因此,可以判斷此12個(gè)樣本點(diǎn)數(shù)據(jù)異常是由坡度異常引起。樣本84,92,103,104,109,113,141,227年降雨量與其他有效樣本點(diǎn)相比存在較大差異,并且與區(qū)域年降雨量統(tǒng)計(jì)數(shù)據(jù)存在較大差異。因此,可以判斷此8處樣本點(diǎn)數(shù)據(jù)異常是由年降雨量失真引起。
4 易發(fā)性評(píng)價(jià)
4.1 評(píng)價(jià)指標(biāo)分級(jí)體系
本文采用25 m×25 m柵格單元作為最小評(píng)價(jià)單元,將研究區(qū)劃分為2 328 000個(gè)評(píng)價(jià)單元。采用自然間斷點(diǎn)法與相等間隔法對(duì)研究區(qū)各評(píng)價(jià)因子指標(biāo)值進(jìn)行分級(jí)處理,確定分級(jí)邊界值。利用提純前的236處樣本與提純后的216處樣本,基于統(tǒng)一的分級(jí)規(guī)則,分別建立評(píng)價(jià)指標(biāo)分級(jí)體系。統(tǒng)計(jì)不同因子分級(jí)內(nèi)的地質(zhì)災(zāi)害數(shù)量、面積以及對(duì)應(yīng)的災(zāi)害百分比與面積百分比,通過上述信息量計(jì)算公式(2)分別計(jì)算不同因子分級(jí)的信息量值,具體指標(biāo)如表4所列。
4.2 研究區(qū)易發(fā)性評(píng)價(jià)
基于樣本提純前后所得的信息量值按照公式(3)進(jìn)行圖層疊加,分別得到基于初始樣本的地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)區(qū)劃圖與基于樣本提純后的地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)區(qū)劃圖,按照自然間斷點(diǎn)法將區(qū)劃圖劃分為5個(gè)區(qū)劃等級(jí),分別為極低易發(fā)區(qū)、低易發(fā)區(qū)、中易發(fā)區(qū)、高易發(fā)區(qū)、極高易發(fā)區(qū)。地質(zhì)災(zāi)害易發(fā)性區(qū)劃圖如圖3~4所示。
分別統(tǒng)計(jì)樣本提純前后生成的易發(fā)性區(qū)劃圖不同區(qū)劃等級(jí)所占面積、災(zāi)害數(shù)量、災(zāi)害百分比、災(zāi)害密度,如表5所列。從表5統(tǒng)計(jì)可知:基于初始樣本生成的易發(fā)區(qū)劃圖中,極高-高易發(fā)區(qū)所占面積為293.33 km2,落入該區(qū)的災(zāi)害數(shù)為149個(gè),占災(zāi)害總數(shù)的63.13%,災(zāi)害密度為0.508個(gè)/km2;樣本提純后生成的易發(fā)區(qū)劃圖中,極高-高易發(fā)區(qū)所占面積為286.03 km2,落入該區(qū)的災(zāi)害數(shù)為167個(gè),占災(zāi)害總數(shù)的70.77%,災(zāi)害密度為0.584個(gè)/km2。通過對(duì)比發(fā)現(xiàn):樣本提純后較初始樣本條件下,極高-高易發(fā)區(qū)面積減少7.30 km2,災(zāi)害點(diǎn)數(shù)增加18個(gè),災(zāi)害密度增加0.076 個(gè)/km2,地質(zhì)災(zāi)害分布更集中,預(yù)測(cè)精度更高。
此外,從易發(fā)性評(píng)價(jià)區(qū)劃圖中發(fā)現(xiàn),極高-高易發(fā)區(qū)沿河道兩側(cè)呈線狀分布,地質(zhì)災(zāi)害受河流影響較大。主要原因有以下兩方面:① 河道兩側(cè)坡體居民居住較多,坡體受人工工程活動(dòng)影響強(qiáng)烈;② 坡體受河流侵蝕作用強(qiáng)烈,造成坡體臨空面增加,容易誘發(fā)地質(zhì)災(zāi)害的發(fā)生。極低-低易發(fā)區(qū)主要分布于高山地帶,呈面狀分布,主要是由于高山區(qū)人類工程活動(dòng)較弱,且受河流侵蝕作用相對(duì)較弱,誘發(fā)的地質(zhì)災(zāi)害較少。
5 結(jié) 論
本文以陜西省白河縣地質(zhì)災(zāi)害為研究對(duì)象,首先采用層次聚類算法與動(dòng)態(tài)K-means聚類算法對(duì)初始樣本數(shù)據(jù)進(jìn)行聚類分析,提取有效樣本,然后基于樣本提純前后數(shù)據(jù)分別建立信息量模型,最后對(duì)整個(gè)區(qū)域地質(zhì)災(zāi)害易發(fā)性做出區(qū)劃與評(píng)價(jià),得到如下結(jié)論:
(1) 基于層次聚類算法所得噪聲點(diǎn)數(shù)為20個(gè),有效樣本點(diǎn)數(shù)為216個(gè),樣本純度為91.53%;基于K-means聚類算法所得噪聲點(diǎn)數(shù)為17個(gè),有效樣本點(diǎn)數(shù)為219個(gè),樣本純度為92.80%;綜合兩類聚類算法結(jié)果綜合確定,樣本噪聲點(diǎn)數(shù)為20個(gè),有效樣本點(diǎn)數(shù)為216個(gè),樣本純度為91.53%。
(2) 通過聚類分析發(fā)現(xiàn),共有 12個(gè)樣本噪聲點(diǎn)是由坡度異常導(dǎo)致,剩余8個(gè)樣本噪聲點(diǎn)是由年降雨量數(shù)據(jù)異常造成。
(3) 對(duì)比樣本提純前后生成的地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)結(jié)果發(fā)現(xiàn):樣本提純后較初始樣本條件下,極高-高易發(fā)區(qū)面積減少7.30 km2,災(zāi)害點(diǎn)數(shù)增加18個(gè),災(zāi)害密度增加0.076個(gè)/km2,地質(zhì)災(zāi)害分布更集中,預(yù)測(cè)精度更高。此研究成果可為地質(zhì)災(zāi)害易發(fā)性評(píng)價(jià)初始樣本數(shù)據(jù)提純提供一定的理論與科學(xué)依據(jù)。
(4) 從易發(fā)性評(píng)價(jià)區(qū)劃圖中發(fā)現(xiàn),極高-高易發(fā)區(qū)沿河道兩側(cè)呈線狀分布,地質(zhì)災(zāi)害受河流影響較大;極低-低易發(fā)區(qū)主要分布于高山地帶,呈面狀分布,主要是由于高山區(qū)人類工程活動(dòng)較弱,且受河流侵蝕作用相對(duì)較弱,誘發(fā)的地質(zhì)災(zāi)害較少。
參考文獻(xiàn):
[1] 王念秦,朱文博,郭有金.基于PSO-SVM模型的滑坡易發(fā)性評(píng)價(jià)[J].長江科學(xué)院院報(bào),2021,38(4):56-62.
[2] 田凡凡,薛喜成,郭有金.基于主元分析和信息量模型的滑坡易發(fā)性評(píng)價(jià):以丹鳳縣為例[J].能源與環(huán)保,2021,43(8):6-12,24.
[3] 鄭玲靜,李秀珍,徐瑞池.基于斜坡單元的區(qū)域滑坡敏感性評(píng)價(jià):以云南省小江流域?yàn)槔跩].科學(xué)技術(shù)與工程,2021,21(28):12322-12329.
[4] 唐川,馬國超.基于地貌單元的小區(qū)域地質(zhì)災(zāi)害易發(fā)性分區(qū)方法研究[J].地理科學(xué),2015,35(1):91-98.
[5] 田欽,張彪,郭建飛,等.基于信息量和邏輯回歸耦合模型的滑坡易發(fā)性評(píng)價(jià)[J].科學(xué)技術(shù)與工程,2020,20(21):8460-8468.
[6] 郭子正,殷坤龍,黃發(fā)明,等.基于滑坡分類和加權(quán)頻率比模型的滑坡易發(fā)性評(píng)價(jià)[J].巖石力學(xué)與工程學(xué)報(bào),2019,38(2):287-300.
[7] 何靜,劉強(qiáng),許丁友,等.基于聚類-信息量耦合模型下的廣元市滑坡災(zāi)害易發(fā)性評(píng)價(jià)[J].測(cè)繪與空間地理信息,2020,43(12):25-31.
[8] 郭敏.基于聚類分析法的韓城市地質(zhì)災(zāi)害風(fēng)險(xiǎn)評(píng)價(jià)[D].西安:長安大學(xué),2020.
[9] 儀政,宋琨,黃海峰,等.信息量與多模型耦合的滑坡易發(fā)性評(píng)價(jià)研究[J].人民長江,2021,52(10):146-151.
[10] 周天倫,曾超,范晨,等.基于快速聚類-信息量模型的汶川及周邊兩縣滑坡易發(fā)性評(píng)價(jià)[J].中國地質(zhì)災(zāi)害與防治學(xué)報(bào),2021,32(5):137-150.
[11] 李怡靜,胡奇超,劉華贊,等.耦合信息量和Logistic回歸模型的滑坡易發(fā)性評(píng)價(jià)[J].人民長江,2021,52(6):95-102.
[12] 郭果,陳筠,李明惠,等.土質(zhì)滑坡發(fā)育概率與坡度間關(guān)系研究[J].工程地質(zhì)學(xué)報(bào),2013,21(4):607-612.
[13] 徐永年,匡尚富,李文武,等.邊坡形狀對(duì)崩塌的影響[J].泥沙研究,1999(5):69-75.
(編輯:劉 媛)
Evaluation of geological disaster susceptibility based on sample optimization by clustering algorithm
LIU Tieming1,GUO Youjin2,LIU Yanling2
(1.Xi′an Geological Environment Monitoring Station,Xi′an 710007,China; 2.Northwest Engineering Corporation Limited,Power China Group,Xi′an 710100,China)
Abstract:
The reliability of sample data for regional geological hazard susceptibility evaluation is one of the key factors affecting the final evaluation results.Taking 236 geological hazards in Baihe County,Shaanxi Province as the research objects,hierarchical clustering algorithm and dynamic K-means clustering algorithm were used to cluster and analyze the geological hazard sample data and obtain their sample purity,respectively.The analysis results indicated that the sample purity produced by hierarchical clustering algorithm and K-means clustering algorithm were 91.53% and 92.80%,respectively.Combining the results of these two algorithms,20 sample noise points were eliminated,and 216 valid sample points were finally determined with a sample purity of 91.53%.The data before and after sample purification were used to establish an information value(IV) model,namely the pre-IV and post-IV models,to carry out regional geological hazard susceptibility evaluation.The results showed that the number of geological hazards located in the very high and high susceptibility zones of regional susceptibility maps generated by the pre-IV and post-IV models were 149 and 167,accounting for 63.13% and 70.77% of the total hazards,and the hazard densities were 0.508/km2 and 0.584/km2,respectively.Compared with initial samples,the number of hazards in very high and high prone regions increased by 18 after sample purification,and the hazard density increased by 0.076/km2,which made the distribution of geological hazards more concentrated and the prediction results more accurate.The results can provide theoretical and scientific basis for initial sample data purification in geological hazard susceptibility evaluation research.
Key words:
geological hazard;susceptibility evaluation;evaluation indicators;sample purity;clustering algorithm;information value model