戴俊威,MWAKAPESA Deborah Simon
(1.韶關學院 商學院,廣東 韶關 512005;2.江西理工大學 信息工程學院,江西 贛州 341000)
我國黃土面積占全國陸地面積的6.6%,主要占據(jù)西北與華北區(qū)域,其地貌呈現(xiàn)地勢交平、側(cè)壁不明顯、滑動面為軟塑帶,地層為全、厚、大和透水性差而聞名于世. 由于惡劣的地質(zhì)環(huán)境及大量的人類工程活動,黃土地區(qū)的黃土滑坡頻繁發(fā)生且具有多發(fā)性、隱蔽性、災難性和復雜性等特征,嚴重威脅著當?shù)厝嗣袢罕姷纳敭a(chǎn)安全,而滑坡敏感性評價是預測滑坡發(fā)生的概率大小,能有效地減少滑坡災害帶來的損失,因此,對黃土滑坡進行敏感性評價具有重大意義.
聚類分析根據(jù)研究對象(柵格)的相似特征將其劃分成不同的類別,同一類別下的柵格具有一定的相似性,而不同類別柵格之間則差異較大,因其能夠發(fā)現(xiàn)柵格數(shù)據(jù)潛在的分布模式,被廣泛應用于構建滑坡易發(fā)性評價模型. Ding 等采用K 均值(K-means)聚類算法構建三江并流區(qū)域的泥石流滑坡危險性評價模型,設置參數(shù)為5(很高危險性、高危險性、中等危險性、低危險性和極低危險性),使得聚類結果類型很少,聚類效果差,形成預測精度下降[1]. 由于模糊C 均值聚類(Fuzzy c-means,F(xiàn)CM)算法具有在未知聚類種類的情況下,可結合相關知識探索分類,Wan 等采用FCM 算法來建立滑坡敏感性評價模型,并在Shei-Pei 自然公園等研究區(qū)開展了研究[2-3]. 但是FCM 算法仍然具有無確定的聚類結果,需結合相關知識構建分類模型.
綜上所述,雖然國內(nèi)外已有學者采用聚類算法構建滑坡敏感性評價模型,但成果不多,主要問題是模型構建需要設置參數(shù),若模型參數(shù)設置不當,會影響聚類效果,導致預測精度下降,筆者研究采用無須設置參數(shù)的CURE(Clustering using representatives)聚類算法來建立區(qū)域滑坡敏感性評價模型,可以大大提高評價模型的預測精度.
坐落于陜西省延安市的寶塔區(qū)是一個3 556 km2的山區(qū),見圖1,其地理位置覆蓋范圍為東經(jīng)109°14′至110°07′,北緯36°11′至37°02′,海拔高度在800~1 400 m 之間.
圖1 陜西延安寶塔區(qū)地理概況
延河與汾川河流經(jīng)該區(qū),豐富的水資源形成了縱橫交錯的樹狀地表水系網(wǎng). 作為黃土高原的一部分,第四系風積黃土在該地占主導地位,黃土覆蓋于下伏不平的基巖之上,長期受到密網(wǎng)水系的侵蝕,加之該地區(qū)年內(nèi)降雨較為不均,雨季多集中在6—9月,雨量達到58~117 mm,導致該地區(qū)雨季滑坡災害頻發(fā). 由于該地區(qū)地質(zhì)情況復雜,并且作為覆蓋黃河中上游的黃土高原的一部分,該地區(qū)一直暴露在惡劣的土壤侵蝕中,這些因素都與頻繁的滑坡高度相關.
山體滑坡的發(fā)生與多種因素有關,由于這些因素的選擇沒有一個固定的標準,因此,在繪制滑坡的敏感性地圖時,如何合理地選擇這些因素非常重要[4].根據(jù)以往對寶塔區(qū)的研究,選擇了7 個滑坡條件因子進行建模,它們分別是:坡高、坡角、坡向、曲率、地層巖性、植被覆蓋指數(shù)(Normalized difference vegetation index,NDVI)和降雨量.
坡高:在高原地區(qū),坡高與滑坡發(fā)生的概率高度相關,寶塔區(qū)的坡高在20~120 m 之間.
坡角:坡度對物體的滑動和重力作用下的水流有很大影響,進而影響到斜坡的穩(wěn)定性[5],寶塔區(qū)坡度在25°~55°之間.
坡向:不同坡向光照強度不同,通常朝北方向的陰坡比朝南方向的陽坡更容易發(fā)生滑坡災害.
曲率:曲率將影響地表水勢的走向,導致滑坡的發(fā)生.
地層巖性:地層巖性是滑坡的物質(zhì)基礎,是衡量暴露在滑坡中的巖石/土壤類型的指標.
NDVI:NDVI 是一個與土壤結構相關的基礎生態(tài)因子.
降雨量:選擇降雨量作為滑坡影響因子是因為頻繁的降雨很容易滲透到土壤中,寶塔區(qū)多天坑、黃土結構縫隙和風化裂縫,頻繁的降雨將在不透水層上形成飽和區(qū)域,進而產(chǎn)生孔隙水壓力,增加巖石和土塊的重量. 以往的研究也記錄了雨季滑坡事件發(fā)生的頻率[6].
滑坡因素的坡高、坡角、坡向和曲率的地圖由數(shù)字高程模型生成,分辨率為25 m,比例為1∶10 000,NDVI 和地層巖性地圖由增強型專題繪圖儀+遙感影像開發(fā),地質(zhì)地圖的比例為1∶50 000,降雨量地圖根據(jù)氣象數(shù)據(jù)創(chuàng)建,比例為1∶50 000. 在對滑坡敏感性地圖建模的過程中將這些滑坡因素稱為屬性.
首先用無須指定聚類參數(shù)的代表點的聚類法對研究區(qū)的樣本進行聚類,隨后使用K-means 聚類算法將這類聚類結果分成多個滑坡敏感性等級,這樣可克服目前使用的聚類方法需指定聚類參數(shù)的弊端.
CURE 是一種在大型數(shù)據(jù)集中執(zhí)行分類任務的聚類算法. 它的工作原理是通過使用一些定義好的代表點(柵格)將大數(shù)據(jù)集劃分為多個聚類子集,并以自下而上的方式創(chuàng)建聚類子集的層次結構. 這意味著該算法要首先指定一個較小規(guī)模的數(shù)據(jù)集,并將數(shù)據(jù)集中的每個樣本作為一個單獨的集群. 然后,它從每個聚類中隨機選擇一小部分分布較好的點作為這些聚類的代表點(Representative points,RePts),并計算每個聚類的RePt 和其他聚類的RePt 之間的距離(歐氏距離). 然后,該算法將RePts 縮小,并將2 個具有最接近RePts 的子類合并. 縮小和合并的過程將不斷重復,直到獲得所需的多個子集.
K-means 是一種廣泛使用的聚類算法,該算法將未標記的數(shù)據(jù)集作為輸入,將數(shù)據(jù)集劃分為k個聚類,并重復該過程,直到k值逐漸趨于穩(wěn)定. K-means 聚類算法主要完成2 個任務:
(1)通過迭代過程確定k個中心點或質(zhì)心的最佳值.
(2)將每個數(shù)據(jù)點分配給它最近的k中心. 靠近特定k中心的那些數(shù)據(jù)點創(chuàng)建一個集群. 因此,每個集群都有具有一些共性的數(shù)據(jù)點,并且遠離其他集群.
滑坡密度L(Landslide density)是用一個子類中每平方千米(km2)的滑坡數(shù)量來計算的,用于指定該子類的敏感性等級. 當一個子類中的滑坡數(shù)為零時,意味著L也等于零,對于這類情況,將基于該地區(qū)的地質(zhì)地貌特征來確定敏感性等級.
對研究區(qū)506 個觀測點進行了采樣,其中有293 個觀測點記錄了滑坡信息,依據(jù)工程技術人員的經(jīng)驗,選取213 個觀測點為不滑坡點,這樣就構成了研究所用到的數(shù)據(jù)測試集. 這些數(shù)據(jù)集中,存在滑坡現(xiàn)象的樣本將被設置為標簽為1 的正樣本,而不存在滑坡現(xiàn)象的樣本將被視作標簽為0 的負樣本. 對于所有樣本都對它們在7月份的坡高、坡角、坡向、曲率、地層巖性、NDVI 和降雨量進行了采樣,這樣,每個樣本都具備7 個屬性值,這些屬性值將成為后續(xù)用于聚類的輸入指標.
采用CURE 聚類算法建立區(qū)域滑坡敏感性評價模型主要過程如下:
(1)敏感性單元的劃分
借助MAPGIS 軟件的二次開發(fā)功能,按照規(guī)則單元劃分的方法,將研究區(qū)劃分為5 672 922 個柵格,每個網(wǎng)格的尺寸為25 mm×25 mm,其中滑坡觀測點的柵格數(shù)為24 589. 在CURE 算法中,每個網(wǎng)格被視為帶權的節(jié)點,其中權值即為上述7 個屬性的值,隨后對其進行歸一化處理,見表1.
表1 部分聚類子集柵格數(shù)據(jù)
(2)聚類子集的劃分
將每個柵格上所有經(jīng)歸一化后的指標變量(屬性)值分別輸入到CURE 算法中,得到了483 個具有顯著特征的聚集子集,這些子集錯綜復雜地分布在研究區(qū)內(nèi),且把研究區(qū)內(nèi)具有相似地質(zhì)、地貌的斜坡聚集在同一個聚類子集中,見表1.它們無須人工設置各種參數(shù)卻能對研究區(qū)進行較好地聚類,這表明CURE算法在區(qū)域滑坡敏感性評價中具有較好的適用性.
上述的聚類結果只是把具有相同地質(zhì)地貌的柵格聚集到同一個聚類子集,但是每個聚類子集的敏感性信息不知道. 因此,應用K-means 算法,根據(jù)各個子集的L值將各子集劃分為4 個敏感性等級(低、中等、高和極高),然后在ArcGIS 10.2 平臺上描繪滑坡敏感性地圖. 首先,確定每個子集的滑坡數(shù)量,計算每個子集的L. 輸入每個聚類子集的L至K-means 算法,參數(shù)K設置為4(低、中等、高和極高),依據(jù)L值,把483 個聚類子集劃分為4 個易感等級(圖2),劃分原則是高滑坡密度意味著高敏感性,而低滑坡密度意味著低敏感性. 如果聚類子集的L值為零,依據(jù)其地質(zhì)、地貌特征,由專家確定其敏感性等級.
圖2 研究區(qū)敏感性評價圖
經(jīng)上述分析后,研究區(qū)的34%的聚類子集為中等等級,其次是30%的聚類子集為低等等級,19%的聚類子集為高等級和17%的聚類子集為極高等級. 依據(jù)實際調(diào)查結果,其分布與實際相吻合,見圖2.
由圖2 可以看出,低敏感性地區(qū)主要散落在寶塔區(qū)南部;中度敏感性地區(qū)主要存在于北部延河流域外的黃土梁峁地帶、汾川河南部區(qū)域;而極高和高敏感性區(qū)主要分布在延河溝谷區(qū)內(nèi),該區(qū)域為延河流域中NDVI 較低的區(qū)域,植被少導致水土流失較為嚴重. 與專家繪制的西安地調(diào)中心提供的地質(zhì)災害危險區(qū)規(guī)劃圖對比,分區(qū)結果與其高度吻合.
為評價文中提出方法的有效性,在這項研究中使用了準確度A(Accuracy)作為評價指標,該指標計算如下:
其中,tp為真陽性數(shù),個;tn為真陰性數(shù),個;fp為假陽性數(shù),個;fn為假陰性數(shù),個. 具體而言,tp和fp是分別被正確預測為滑坡和非滑坡的樣本數(shù),而tn和fn是分別被錯誤預測為滑坡和非滑坡的樣本數(shù).
準確度是衡量區(qū)域滑坡敏感性評價圖標準性的指標之一,實驗以293 個滑坡和213 個非滑坡觀測點為測試樣本. 在對比方法上,選擇了KPSO(K-means+particle swam optimization)算法,它是K-means 算法和粒子群優(yōu)化算法的整合,是最近應用于分析滑坡敏感性的有效聚類算法之一,其中以Wan 等提出的方法為代表[7]. 這2 種方法的A值見表2. 從表2 可以看出,CURE 算法的A值比KPSO 算法高17.2%,這一結果體現(xiàn)了CURE 算法比KPSO 算法的聚類能力更優(yōu)越. 其原因在于,KPSO 算法仍然需要設定參數(shù)來確定聚類子集的個數(shù),而對于地質(zhì)地貌復雜的研究區(qū),聚類子集的參數(shù)是很難設置,因此影響了聚類效果,從而造成預測準確度低下,而CURE 算法無須設置參數(shù),采用自上而下的層次聚類方式形成聚類子集,聚類效果較好,從而獲得較高的預測準確度.
表2 區(qū)域滑坡算法A 結果
以延安寶塔區(qū)為研究區(qū)域,進行了基于CURE 聚類算法滑坡敏感性評價,獲得了如下結論:
(1)基于寶塔區(qū)地形特點,選取了7 個滑坡因素作為模型構建的條件屬性,探究了CURE 聚類算法在繪制滑坡敏感性地圖中的應用;
(2)選取準確度為評價指標衡量了2 種聚類算法的聚類結果,結果顯示,CURE 算法的準確度可達到83.4%,并比KPSO 算法的高17.2%,充分證明了CURE 算法有助于滑坡敏感性預測;
(3)將CURE 聚類算法與滑坡因素相融合能有效構建區(qū)域滑坡敏感性評價模型,同時,該方法還可為制定滑坡預防策略及土地規(guī)劃問題提供思路.