劉衛(wèi)明,李忠利,毛伊敏
(1.江西理工大學信息工程學院,江西贛州341000;2.江西理工大學資源與環(huán)境工程學院,江西贛州341000)
滑坡是世界上最具破壞性的常見地質(zhì)災害之一,對人類生命安全、環(huán)境、資源和財產(chǎn)構成很大的威脅[1]。滑坡形成的因素具有多樣性和復雜性,給滑坡預測分析造成了一定的困擾,其中降雨是引發(fā)區(qū)域滑坡的最重要因素之一[2]。由于降雨具有較高的隨機性和不確定性,無法對其進行準確的刻畫,因此滑坡的危險性預測將會面臨較大的考驗。
聚類算法能夠根據(jù)數(shù)據(jù)對象之間的較高相似度、聚簇之間的較高分離度的特點實現(xiàn)數(shù)據(jù)對象的有效劃分,諸多學者借助聚類算法分析技術在滑坡危險性預測中展開了大量研究。阮云凱等[3]引入K均值粒子群優(yōu)化算法K-PSO(K-means Particle Swarm Optimization)和熵值法,建立滑坡敏感性分析模型,有效地確定8個影響因子和影響因子權重值,在旭龍水電站庫區(qū)實驗中的滑坡敏感性預測結果與實際滑坡狀態(tài)情況具有較好的一致性。張俊等[4]選取7個致災因子作為滑坡易發(fā)性的評價指標,使用滑坡面積比與分級面積比曲線對指標因子分級,采用快速聚類法(K-means Cluster)對滑坡易發(fā)性評價體系進行分級,實驗證明滑坡災害易發(fā)性評價體系預測精度較高。桑議惠[5]從影響滑坡等災害的敏感因子空間分布出發(fā),構建楚雄州中小學?;碌葹暮︼L險評估體系,結合層次分析法AHP(Analytic Hierarchy Process)和K-means聚類算法,確定影響因子在體系層次中的權重,建立風險評估模型,實驗結果表明該滑坡風險評估效果較好。Chen等[6]選取四川省滑坡地區(qū)漢源縣為研究對象,建立具有遺傳算法、差分演化、滑坡空間建模的粒子群優(yōu)化自適應神經(jīng)-模糊推理系統(tǒng)模型,通過概率確定滑坡與坡高、坡度等調(diào)節(jié)因素的關系,采用提出的系統(tǒng)模型進行建模,通過變動率指標RoC(Rate of Change)曲線評估滑坡敏感性圖,實驗結果表明該系統(tǒng)模型精度較高。
但是,傳統(tǒng)的聚類算法針對滑坡危險性預測效果不是很理想,主要問題表現(xiàn)為兩點:一方面難以實現(xiàn)不確定數(shù)據(jù)降雨的有效刻畫;另一方面?zhèn)鹘y(tǒng)聚類算法需預先確定聚類數(shù)目k,難以適應大規(guī)模數(shù)據(jù),后期容易陷入局部最優(yōu)、聚類停滯等問題。傳統(tǒng)聚類算法的滑坡危險性預測受以上兩種因素影響,預測精度普遍不高,因此需要一種能夠有效刻畫不確定數(shù)據(jù)和提高滑坡危險性預測精度的方法。
蟻群聚類算法中的新型自適應蟻群聚類算法NAC(New Ant Clustering)[7]算法針對聚類數(shù)目 k需預先確定的問題,簡化參數(shù),自適應確定閾值,有效地避免了聚簇數(shù)目k的預先設置,提高算法聚類質(zhì)量。遺傳改進蟻群聚類算法GIACCA(Genetic Improved Ant Colony Clustering Algorithm)[8]對遺傳算法找出蟻群聚類算法最優(yōu)參數(shù)組合,有效避開人為設置聚類數(shù)目k,減少盲目設置參數(shù)的次數(shù),加快小規(guī)模數(shù)據(jù)算法收斂速度和聚類效果。改進K-means蟻群聚類算法CKmACCA(Changed K-means Ant Colony Clustering Algorithm)[9]在每次迭代結束時隨機選擇信息素最小的節(jié)點進行變異操作,更新變異點到聚類中心點,一定程度上改善了后期停滯和早熟現(xiàn)象,然而沒有解決預先設置聚類數(shù)目k的問題。但是,傳統(tǒng)蟻群聚類算法難以高效處理大規(guī)模數(shù)據(jù),無法有效刻畫滑坡預測中的不確定降雨。本文在分析傳統(tǒng)蟻群聚類算法優(yōu)劣勢的基礎上,提出一種不確定近似骨架遺傳蟻群聚類算法APPBCU(Uncertain data ant clustering algorithm based on approximate backbone),構建一種Gauss點概率模型,實現(xiàn)不確定數(shù)據(jù)的有效刻畫,采用改進遺傳蟻群聚類算法,加載近似骨架理論,縮減迭代次數(shù),建立不確定近似骨架遺傳蟻群聚類算法模型,并在UCI真實數(shù)據(jù)集和延安市寶塔區(qū)滑坡實驗數(shù)據(jù)集上進行實驗分析,進而驗證了該算法的有效性以及其應用到滑坡危險性預測中的可行性。
處理不確定數(shù)據(jù)通常只考慮屬性不確定性,并不能有效地處理權重不確定性數(shù)據(jù),本文在基于Gauss分布函數(shù)的區(qū)間值數(shù)據(jù)處理方式和不確定數(shù)據(jù)的點概率模型的基礎上,使用面積積分法,根據(jù)Gauss分布函數(shù)區(qū)間相似度對數(shù)據(jù)對象之間距離進行拓展,結合點概率相異度和距離之間的可替換關系,得到一種Gauss點概率不確定數(shù)據(jù)模型,該模型能夠綜合處理屬性不確定和存在不確定的數(shù)據(jù)計算。
定理1(Gauss點概率不確定數(shù)據(jù)距離度量)若不確定數(shù)據(jù)對象中存在兩觀測點a和b,則a和b間的距離DS( a ,b ) 定義為:
其中,i,j代表維度,xi是第 i維的屬性值,是 xij等特征矢量的第i維求和,存在概率p是[0,1]的隨機數(shù),k為屬性維數(shù)。
證明由d維屬性X和元組存在概率p組合而成的(X,p)的元組,其中pi為第i維屬性的存在概率,X={x1,x2,x3,…,xd} 。兩個不確定元組(xi,pi) 和 (xj,pj) 之間的相異度 dYij為:
若兩個觀測點 a= (x11,x12,x13,…,x1d) 和b= (x21,x22,x23,…,x2d)為區(qū)間值數(shù)據(jù),a和b之間的Gauss分布函數(shù)區(qū)間值數(shù)據(jù)相似度可用S(x珋,y珋)表示,其中x珋,y珋分別代表兩個區(qū)間值數(shù)據(jù),分別表示為x珋=[x-,x+],y珋=[ y-,y+],根據(jù)文獻[10]得Gauss分布函數(shù)區(qū)間相似度計算方法,對距離度量進行擴展,按照面積計算法,每個特征矢量xjm由區(qū)間數(shù)表示,則兩個觀測點a和b之間的距離D( a ,b ) 可以定義為:
蟻群聚類算法容易出現(xiàn)運算周期長、過早陷入局部最優(yōu)、后期搜索速度慢等問題[11]。針對蟻群聚類算法存在的問題,本文采用信息素重分配方式改變局部信息素更新規(guī)則,引入自適應動態(tài)變量實現(xiàn)全局信息素更新,使信息素濃度的更新得到一定的優(yōu)化[12];引入遺傳算法,結合蟻群聚類算法,基于遺傳算法的快速全局搜索能力與蟻群算法的正反饋機制,初步實現(xiàn)全局最優(yōu)解的快速搜索,從而在一定程度上提高蟻群搜索最優(yōu)路徑效率,減小蟻群重復往返概率,縮短運算周期,加快算法收斂速度。綜合上述的自適應動態(tài)變量和遺傳算法的優(yōu)點,設計改進蟻群聚類算法SGACA(Smart Genetic Ant Colony Algorithm)。
定義1(局部信息素更新標準) 在t時刻螞蟻(a+1)從對象A轉移到對象B,對一條路徑總信息素T進行重新分配,經(jīng)過路徑的原有信息素和本次搜索信息素濃度信息求加權平均,未經(jīng)過路徑信息素保持不變,直至所有R個螞蟻迭代完成為止,更新規(guī)則為:
定義2(全局信息素更新標準) 全局信息素更新中,引入自適應動態(tài)變量 ε( ε∈ ( 0 ,1 ) ),控制單次迭代信息素濃度更新比重,使路徑信息素濃度實現(xiàn)最大加成,避免陷入局部最優(yōu),更新規(guī)則為:
自適應遺傳蟻群聚類算法(SGACA)具體步驟如下所示:
算法1SGACA
輸入:R,F(xiàn),Q。
輸出:全局最優(yōu)解解集。
Step 1Co←;1←Q;R,F(xiàn)。/*初始化全局最優(yōu)解解集Co、蟻群聚類算法和遺傳算法參數(shù)、信息素總量Q,設置螞蟻數(shù)R、螞蟻之間相似度閾值F*/
Step 2n × m←divide( )R ,F(xiàn)A,B=S(A,B)。/* 將 R個螞蟻隨機分布在n×m的二維平面,生成n×m個合法編碼作為原始種群,計算種群螞蟻的對象間相似度閾值F,其中A和B為螞蟻,S(A,B)為兩螞蟻之間的距離*/
Step 3根據(jù)任意兩螞蟻對象之間相似度閾值FA,B,選擇一部分個體作為父本,采用均勻交叉方法按照交叉概率0.8進行交叉產(chǎn)生新個體,將其與全局最優(yōu)解一同加入新種群,對新種群采用高斯變異方法按照變異概率0.2進行變異操作,計算 FA,B,更新全局最優(yōu)解,使 FA,B接近 F。
Step 4按照式(4)和式(5)的全局和局部信息素更新規(guī)則更新信息素,對全局最優(yōu)解路徑信息素進行累加直至信息素累加和達到1或者迭代次數(shù)TD達到最大值時停止,否則返回Step 3。
Step 5輸出全局最優(yōu)解解集,退出*/
為了解決不確定數(shù)據(jù)對聚類效果影響問題,本文基于近似骨架理論[13],提出一種不確定近似骨架蟻群聚類算法APPBCU。該算法流程如下所示:
(1)對不確定數(shù)據(jù)集UD按照采樣比例λ實施q次采樣,得采樣數(shù)據(jù)集UDq,使用SGACA對采樣數(shù)據(jù)集UDq進行聚簇,獲得q個局部最優(yōu)解解集 Co=(co1,co2,…,coq);
(2)采用貪心搜索集合交算法SIGS(Set Intersection algorithm by using Greedy Search)[14]對 q 個局部最優(yōu)解進行集合交運算,生成近似骨架簇APBq近似骨架 APPBone(co1,co2,…,coq) ,使用最小生成樹的K-means層次聚類算法,根據(jù)簇簇合并條件[15]合并近似骨架簇,生成k個新簇,標記新簇簇中心為ce1,ce2,…,ceK,得到 k個初始解生成的解集,標記為 Cp={cp1,cp2,…,cpk};
(3)以初始解解集 Cp={cp1,cp2,…,cpk} 為聚類搜索起始點,執(zhí)行改進蟻群聚類算法,最終獲得聚類結果 Cc={cluster1,cluster2,…,clusterk} 。
算法2APPBCU
Step 6Cp=Cp∪cpi;/*獲得不確定數(shù)據(jù)對象的聚類初始解解集,其中cpi為選中距離第i個簇心最近的不確定數(shù)據(jù)對象i∈[1,…,k]*/
Step 7Cc←SGACACp,()k。/*再次調(diào)用改進蟻群聚類算法SGACA得最終聚類結果*/
實驗的操作平臺為Windows 7旗艦版,編程語言為Python,硬件信息:AMD四核3.0 GHz CPU,內(nèi)存8 GB,SSD存儲介質(zhì)。近似骨架蟻群聚類算法具有局部搜索速度快、能有效解決初始解陷入局部最優(yōu)問題的優(yōu)點。為了驗證近似骨架蟻群聚類算法的有效性,選用 Iris、Wine、Haberman、Ecoli四個UCI標準數(shù)據(jù)集作為實驗數(shù)據(jù)集,如表1所示。
3.1.1 不確定UCI數(shù)據(jù)集生成
本文基于均勻分布理論[16],為實驗數(shù)據(jù)集D的多維對象o構建n個樣本點,使數(shù)據(jù)集具備不確定性特點,變量w表示數(shù)據(jù)集的不確定性。具體實現(xiàn)采用均勻分布生成法:基于均勻分布構建一個超矩形U使其能表述對象的不確定性,對于任意的對象o,在滿足每個維度的區(qū)間范圍服從均勻分布的條件下,每個屬性維度從[0,w]選擇統(tǒng)一區(qū)間[a,b]j,生成其他 n -1 個樣本。
本文采用金萍等[17]提出的不確定數(shù)據(jù)集生成方式獲得UCI不確定數(shù)據(jù)集:在UCI數(shù)據(jù)集的每一維度設置擾動區(qū)間L=0.1×max_length,其中max_length為該維度上全部對象點之間最大距離,使用擾動因子控制數(shù)據(jù)對象對應的主引導記錄模塊MBR(Main Boot Record)大小。在每個MBR中分別采用平均分布獲得n個不確定樣本點。UCI不確定數(shù)據(jù)集的產(chǎn)生主要受到以下幾個參數(shù)的影響:不確定數(shù)據(jù)對象的個數(shù)N,MBR分布數(shù)據(jù)對象個數(shù)S和擾動因子β,初始狀態(tài)設置S=100,β =0.5 。
3.1.2 評價標準與參數(shù)設置
F測度能夠全面評價顯著性區(qū)域的檢測效果,驗證算法的有效性[18]。F值受準確率P和召回率R兩個指標影響,三者關系為:
其中,NXY表示聚類Y中類別數(shù)X的數(shù)目,NX表示類別數(shù)X中所有的數(shù)據(jù)對象個數(shù),NY表示聚類Y中所有的數(shù)據(jù)對象個數(shù),F(xiàn)X為類別數(shù)X的F值,P、R、FX和F的值介于 [ 0 ,1]。P和R越接近1,算法聚類效果越貼近實際,F(xiàn)測度綜合衡量聚類結果的準確率和召回率,其值越大,算法聚類效果越好。
參數(shù)設置:采樣參數(shù)λ越大,抽樣規(guī)模越大,算法聚類結果越好,但是時間消耗也越多,尋找平衡聚類質(zhì)量和時間消耗的采樣參數(shù)λ成為實驗的關鍵之處。通過實驗證明,當λ超過0.05時,F(xiàn)測度變化趨于平穩(wěn),所以文中設置λ=0.05。蟻群聚類算法的迭代次數(shù)主要受信息素揮發(fā)系數(shù)ρ影響。實驗證明,當ρ太大時,以前搜索過的路徑可能會被重新選擇,容易陷入局部最優(yōu)解,當ρ=0.5時,迭代次數(shù)趨于穩(wěn)定,全局最優(yōu)解收斂效果最好。
3.1.3 實驗結果分析
為了驗證近似骨架蟻群聚類算法的有效性,本文選擇 K-PSO、NAC、GIACCA、CKMACCA 和近似骨架蟻群聚類算法APPBC(certain data ant clustering algorithm based on approximate backbone)進行對比實驗。在 Iris、Wine、Haberman、Ecoli數(shù)據(jù)集基礎上,設定參數(shù)β和S不變,變化參數(shù)N,獲得不確定數(shù)據(jù)集Dataset1;設定參數(shù)N和S不變,變化參數(shù)β,獲得不確定數(shù)據(jù)集Dataset2;設定參數(shù)N和β不變,變化參數(shù)S,獲得不確定數(shù)據(jù)集Dataset3。在三個不確定數(shù)據(jù)集上的實驗結果表明,Dataset1表現(xiàn)的結果與 Dataset2、Dataset3不同,Dataset2和Dataset3結果相似(以Dataset3表現(xiàn)結果為例進行說明),F(xiàn)測度隨參數(shù)變化圖如圖1和圖2所示。
由式(6)~式(8)得:
從圖1可以發(fā)現(xiàn),在Iris數(shù)據(jù)集上實驗時,APPBC算法的F值波動較大,無法呈現(xiàn)明顯的收斂效果,這是因為Iris數(shù)據(jù)集非線性數(shù)據(jù)分布對APPBC算法的近似骨架發(fā)現(xiàn)過程造成了干擾。而其他三個數(shù)據(jù)集的F值具有一定的發(fā)展趨勢,當N小于100時,NAC算法和K-PSO算法具有較高的F值,GIACCA算法的F值最小。因為NAC算法簡化了參數(shù)選取,能夠自適應調(diào)整螞蟻運動閾值,前期收斂速度快,聚類效果較為明顯;K-PSO算法采用粒子群算法,初始化參數(shù)較少,粒子位置和速度易于確定,加快全局優(yōu)化速度,提高收斂速度。GIACCA算法需要采用遺傳算法進行參數(shù)組合尋優(yōu),參數(shù)設置較多。當N介于100~250時,NAC變化偏緩,CKMACCA算法的F值陡然增大,因為在基于改進K-means算法的基礎上,蟻群聚類算法具有較強的可伸縮性和高效性,能夠較快地發(fā)現(xiàn)聚類中心,實現(xiàn)聚簇效果;K-PSO算法對每個粒子對象的位置和速度進行更新,采用K-means算法進行聚類,加快了前期收斂速度。當N逐漸增大達到300時,CKMACCA算法F值增速減緩甚至有降低趨勢,因為聚類結果容易陷入局部最優(yōu),K-PSO算法和GIACCA算法的收斂速度受迭代次數(shù)的影響減緩并逐漸趨向平緩;NAC的F值一直處于較低位置,這是因為以上四種算法不能解決聚類結果容易陷入局部最優(yōu)的問題;APPBC算法一直具有較高的F值,這是因為定義了信息素重分配機制和自適應動態(tài)變量以及加載遺傳算法,使蟻群算法收斂速度加快,避免過早陷入局部最優(yōu),引入了近似骨架理論,縮減了迭代次數(shù),加快了后期收斂速度,提高了聚類效果。
圖2中顯示當S小于40時,NAC不再具有較快的增速,這是因為NAC算法在數(shù)據(jù)對象個數(shù)較小時,尋找最優(yōu)聚簇中心不理想,收斂效果不佳。當S小于60時,K-PSO算法收斂速度較快,聚簇效果較好,F(xiàn)值增長較快,因為K-PSO算法采用K-means均值算法重新初始化粒子群,加快了聚簇中心的形成,聚簇中心選取較為準確。CKMACCA算法的F值隨著S在60~100變化時,增速相對其他四個算法較快,后期值也比較高,因為CKMACCA算法受聚簇中心選取影響,數(shù)據(jù)對象個數(shù)對聚簇的劃分產(chǎn)生了一定作用。APPBC算法因采用SGACA,對信息素重分配和動態(tài)變化變量,避免聚類結果陷入局部最優(yōu),引入近似骨架理論,縮減了算法迭代次數(shù),從而加快收斂速度,提高了聚類精度。
為了進一步驗證近似骨架蟻群聚類算法的性能,設置迭代次數(shù)為50次,四個參數(shù)N=200,S=100,β =0.5,ρ=0.5 ,計算四種算法在四個 UCI數(shù)據(jù)集上的運行時間,運行時間如表2所示。
Table 2 Running time of the four algorithms on UCI datasets表2 UCI數(shù)據(jù)集上四種算法運行時間表 s
從表2可以看出 CKMACCA、GIACCA和 K-PSO算法的運行時間相差不大,這是因為它們解決了聚類結果容易陷入局部最優(yōu)的問題,提高了后期收斂速度,影響聚類效果。但是,APPBC算法的時間消耗較其它四種的時間消耗要小,ICCA算法在Ecoli數(shù)據(jù)集上的時間消耗相對要大得多,這是因為ICCA算法容易陷入局部最優(yōu),對于多屬性和多類別的數(shù)據(jù)集聚簇準確度不高,APPBC算法的近似骨架縮減了迭代次數(shù),使用改進遺傳蟻群聚類算法使得初始解更加接近收斂結果。
3.2.1 數(shù)據(jù)來源及數(shù)據(jù)預處理
延安寶塔區(qū)滑坡災害數(shù)據(jù)來源于陜西省地質(zhì)調(diào)查院提供的地質(zhì)災害數(shù)據(jù)文件,文中采用ARCGIS軟件對延安寶塔區(qū)進行柵格化,網(wǎng)格大小設置為5 m×5 m,劃分網(wǎng)格單元5 672 922個,采用毛伊敏等[19]提出的各屬性數(shù)據(jù)提取方式,選取坡型、坡度、坡高、坡向、植被分布、巖土體類型以及降雨作為評價因素,以滑坡危險性等級作為最后的決策因素。
為了提高實驗結果的準確率,對實驗數(shù)據(jù)集進行數(shù)據(jù)預處理,獲得有效的記錄數(shù)據(jù)5 667 252條,每條記錄由七個評價因子組成,連續(xù)屬性坡高、坡度和坡向按連續(xù)值進行運算;離散屬性坡型、植被、巖土體結構經(jīng)過賦值歸一化按連續(xù)值進行處理[20];而降雨不確定數(shù)據(jù)是區(qū)間值數(shù)據(jù),只能確定取值的范圍,具有不確定性,無法直接按照連續(xù)值進行計算。文中采用Gauss點概率不確定數(shù)據(jù)模型對降雨進行刻畫,解決不確定數(shù)據(jù)無法有效刻畫的難題。
3.2.2 滑坡危險性預測模型的構建
首先利用自適應遺傳蟻群聚類算法將延安市寶塔區(qū)5 672 922個滑坡數(shù)據(jù)集劃分為等同大小的586個簇,初始狀態(tài)每個簇均設置為空,隨機讀取其中一個數(shù)據(jù)對象作為一個簇的中心點,通過Gauss點概率不確定數(shù)據(jù)距離度量公式計算滑坡區(qū)域任意新對象與中心點之間的距離,選取距離較遠的對象再重新劃分一個簇,直至所有的簇劃分完成,形成586個簇,每個簇都是一個局部最優(yōu)解解集;然后將每個局部最優(yōu)解解集看做一個整體,采用SIGS方法對所有局部最優(yōu)解求集合交,得到所有的近似骨架簇,對586個初始簇集進行離群點檢驗,對簇簇之間符合合并條件的近似骨架簇進行合并,形成493個初始解解集;最后再次運行自適應遺傳蟻群聚類算法,以所有聚類初始解解集為搜索起點,聚簇得到493個簇。
3.2.3 危險性等級的劃分
滑坡危險性等級作為危險性預測的決策因子,如何劃分滑坡危險性等級制約著滑坡危險性預測的準確率。由文獻[21]可知,具有相似特征的滑坡也具有相似的滑坡發(fā)生趨勢,延安寶塔區(qū)滑坡危險性等級可以通過具有較高相似度的聚類子集的危險性等級進行預測,利用含有已知降雨信息的聚類子集滑坡單元危險性等級特征,使用直接搜索法[22]和專家評價法[23]對滑坡危險性進行預測。聚類子集中的評價單元若只含有一個確定的危險性等級單元,則該聚類子集的危險性等級為該單元的危險性等級;聚類子集中的評價單元含有的各危險性等級單元不等同時,按照少數(shù)服從多數(shù)原則評定;對于未含有確定危險性等級單元和含有等同確定危險性等級單元的聚類子集危險性等級則由專家進行評定,結合區(qū)域調(diào)查結果判定滑坡危險性等級,繼而評定其余單元的危險性等級。
3.2.4 評價標準
Kappa系數(shù)是一種較為簡單、準確度較高的評價方法?;谡`差矩陣的Kappa系數(shù)精度評價方法能夠在統(tǒng)計意義上反映分類結果的優(yōu)越性[24],其值介于[-1,1],其值越大,預測值和觀測值的一致性越大。Kappa系數(shù)定義為:
其中,Pr()a表示觀測和預測一致的數(shù)量與總體觀測點的比例,Pr()e表示同等級觀測總和、預測總和占總體觀測點的比例之和,pii為第i類型被正確分類的數(shù)目,Pi+為第i類型所在列的數(shù)目之和,P+i為第i類型所在行的數(shù)目之和,N為總體觀測點數(shù)目。
3.2.5 滑坡危險性預測精度評價分析
為了驗證文中的不確定數(shù)據(jù)處理方式是否達到了提高滑坡危險性預測精度的目標,采用對比傳統(tǒng)的不確定數(shù)據(jù)處理方式進行驗證。在傳統(tǒng)聚類算法滑坡危險性預測實驗中,降雨通常以離散值進行處理,定量法[25]是使用最為廣泛的一種方法,直接將降雨屬性值劃分為以下幾類:小雨、中雨、大雨、暴雨、大暴雨、特大暴雨,傳統(tǒng)聚類算法使用歐氏距離公式[26]計算兩個數(shù)據(jù)對象之間的距離。延安寶塔區(qū)滑坡災害觀測點有428個,在數(shù)據(jù)預處理階段,所有滑坡觀測點被柵格化為1 367個單元,含有降雨信息觀測點為1 036個,其余331個為不含降雨信息的穩(wěn)定單元。分別采用近似骨架蟻群聚類算法和不確定近似骨架蟻群聚類算法對延安寶塔區(qū)滑坡危險性預測精度進行預測,從觀測數(shù)據(jù)中獲得危險性等級劃分表,如表3所示。
Table 3 Division of landslide hazard grades of the two algorithms表3 兩種算法滑坡危險性預測等級劃分表
近似骨架蟻群聚類算法和不確定近似骨架蟻群聚類算法在滿足相同的聚類條件時,由式(10)~式(12)計算得到不確定近似骨架蟻群聚類算法的預測精度為93.3%,比近似骨架蟻群聚類算法高4個百分點,Kappa系數(shù)值為0.894 3,比近似骨架蟻群聚類算法的值高0.07。實驗結果表明,不確定近似骨架蟻群聚類算法具有較好的滑坡危險性預測準確性。不確定近似骨架蟻群聚類算法預測精度和Kappa系數(shù)值比近似骨架蟻群聚類算法的值高,是因為構建了Gauss點概率模型,有效實現(xiàn)了不確定屬性降雨的刻畫,降低了傳統(tǒng)算法對不確定數(shù)據(jù)處理方式帶來的誤差系數(shù),提高了滑坡危險性預測的準確度;另外,引入了自適應動態(tài)變量更新信息素,引入遺傳算法加快全局最優(yōu)解搜索,加快最優(yōu)解收斂速度,加載近似骨架理論,降低了滑坡實驗數(shù)據(jù)規(guī)模,縮減了迭代次數(shù),加快了后期聚類收斂速度,提高了算法效率。
滑坡危險性預測的難點在于對不確定數(shù)據(jù)降雨進行有效處理,本文提出Gauss點概率模型刻畫不確定數(shù)據(jù),對降雨進行相似度度量,改進局部和全局信息素更新規(guī)則和加載遺傳算法,避免蟻群算法過早陷入局部最優(yōu),構建不確定近似骨架蟻群聚類算法滑坡危險性預測模型,縮減算法迭代次數(shù)。在UCI真實數(shù)據(jù)集和延安寶塔區(qū)滑坡實驗數(shù)據(jù)集上的實驗表明,不確定近似骨架遺傳蟻群聚類算法的聚類效果要好于實驗對比的算法,對于滑坡危險性預測是一種可行性較高的方法。