馮 永,陳鵬舉
(1.河南工業(yè)大學(xué) 土木建筑學(xué)院,河南 鄭州450001;2.浙江省工程物探勘察院,浙江 杭州310005)
巖溶塌陷的影響環(huán)境非常復(fù)雜,影響因素種類繁多且相互制約[1],影響因素如巖性、地下水波動、人類工程活動等通常用定性的數(shù)據(jù)形式給出,近年來,許多學(xué)者對巖溶塌陷危險性評價方法進行了研究,采用了灰色統(tǒng)計、神經(jīng)網(wǎng)絡(luò)等新方法,盡管定量預(yù)測的數(shù)學(xué)理論已相當(dāng)成熟,但是處理這種大量定性數(shù)據(jù)問題卻有很大的局限性.
聚類分析是數(shù)據(jù)處理中一種重要的方法,對于定量的數(shù)據(jù),模糊k-means算法是一種很有效的算法,然而,對定性數(shù)據(jù)的問題處理,模糊kmeans算法就不再適合了.Huang通過定義一個組合的非相似度,將k-means算法推廣k-modes算法(簡稱為K-M法)和k-pr ototypes算法,用于處理定性數(shù)據(jù)(qualitative data)和混合值(mixed nu meric and categorical val ues)數(shù)據(jù),取得了良好的效果[2-4].但遇到特殊的屬性類時,會出現(xiàn)屬性值丟失現(xiàn)象.作者引入一種改進的模糊K-M法,將會有效地克服屬性值丟失現(xiàn)象.作者以武漢市巖溶地面塌陷危險性預(yù)測為例,在分析巖溶塌陷影響因素的基礎(chǔ)上,利用此方法對武漢市巖溶塌陷危險性進行了預(yù)測,探討利用該方法預(yù)測巖溶塌陷的可行性.
模糊K-Modes算法是模糊K-Means聚類的推廣算法,具體模型為
根據(jù)拉格朗日定理對上述模型求最優(yōu),可得到以下命題:
命題1 對于固定中心集vj,j=1,…c,最優(yōu)權(quán)重為wij為
一般中心只選取多個屬性值中的一個,就忽略了出現(xiàn)次數(shù)較少的屬性值,對聚類的精度造成一定的影響.所以采用每類中各屬性的各屬性值的頻率來表示這一類的中心[5],具體做法如下.
不妨設(shè)所有屬性均為分類屬性,其中第j個屬性Aj有nj個屬性值,即Aj是{Aj1,…,Ajn1}的集合,j=1,…,m,則第p個聚類中心vp的第j個分量可表示為:
將以上屬性間距離定義應(yīng)用到模糊k-modes算法定義的距離當(dāng)中就得到了改進的聚類方法.一般來說用類中樣本的屬性頻率反映聚類中心比簡單的取出出現(xiàn)最多的屬性值做聚類中心要精確的多.不妨設(shè)L為最大循環(huán)次數(shù).
具體算法如下:
(2)根據(jù)命題1計算各樣本屬于每一類的隸屬度W(0),根據(jù)該隸屬度確定分類,由上公式(3)重新選取初始中心V(0)={v(0)1,…,v(0)k}∈Rk×p,置t=1,l=1.
(3)根據(jù)命題1確定隸屬度矩陣W(t),如果目標(biāo) 函 數(shù)其中ε為足夠小的數(shù),則算法終止,否則,進入第4步.
(4)根據(jù)隸屬度矩陣W(t)確定分類,由上公式(3)式 計 算 聚 類 中心 V(t),如 果 目 標(biāo) 函 數(shù),則算法終止;否則,令t=t+1,l=l+1,進入第5步.
(5)如果l>L,則終止循環(huán),否則,重復(fù)第3步.
筆者提出可以根據(jù)以下方法求得初始聚類中心,設(shè)需選取k個聚類中心,則
(1)從原始數(shù)據(jù)中選取距離最遠的兩個樣本,并將其定為兩個初始的聚類中心v(0)1,v(0)2.令t=2.
(2)如果k>t,則在原始數(shù)據(jù)中剔出之前選出的樣本后,找出一樣本xi使得
武漢市屬于巖溶地面塌陷嚴(yán)重、多發(fā)區(qū),自1930年以來,武漢地區(qū)已發(fā)生過10多次不同規(guī)模的塌陷,而且近年來發(fā)生頻率有提高的趨勢,影響到了城市空間利用,因此對該地區(qū)巖溶塌陷危險性進行準(zhǔn)確預(yù)測具有十分重要的現(xiàn)實意義.武漢市地質(zhì)環(huán)境簡述如下.
(1)地層巖性:研究地層主要由第四系松散地層、石炭系—三疊系碳酸鹽巖、第三系黏土巖和粉砂巖組成.
(2)地質(zhì)構(gòu)造:區(qū)內(nèi)影響巖溶發(fā)育的主要褶皺和斷裂有關(guān)山向斜,青菱斷裂等.
(3)水文地質(zhì)條件:含水層類型主要有孔隙承壓水和裂隙巖溶水,兩者在局部地區(qū)水力聯(lián)系密切,地下水動態(tài)特征受長江影響顯著,存在地下水開采井.
(4)巖溶地質(zhì)特征:區(qū)內(nèi)巖溶類型分為埋藏型和覆蓋型,巖溶在構(gòu)造活躍處比較發(fā)育.
在巖溶塌陷區(qū)域危險性指標(biāo)方面,由于研究區(qū)域的不同,各自取得的指標(biāo)也不盡相同[1,6-7],對于武漢市的地質(zhì)條件來講,巖性,覆蓋型巖溶分布及巖溶發(fā)育是巖溶發(fā)育的基礎(chǔ)條件,而區(qū)域的構(gòu)造情況(如關(guān)山向斜,青菱斷裂)對于巖溶發(fā)育及產(chǎn)生也具有重要的影響,覆蓋層是巖溶地面塌陷發(fā)生的物質(zhì)基礎(chǔ),而水文地質(zhì)條件是塌陷的重要因素,結(jié)合以上有關(guān)巖溶地面塌陷影響因素的分析,考慮武漢市的基本情況以及目前的資料,借鑒相關(guān)文獻[1,6-8],通過征詢專家意見,最終選定如下的危險性評價指標(biāo)體系(見表1).
表1 巖溶塌陷危險性評估指標(biāo)Tab.1 The evaluation system for karst collapse in Wuhan
將研究區(qū)域按分成1 633個單元(150 m×150 m),見下圖1.以上每一指標(biāo)變量均為定性數(shù)據(jù)且類別個數(shù)也不一樣,甚至有的指標(biāo)變量如距離長江遠有6個級別,由于各區(qū)域單元格中會有各級別相疊加的情況,所以根據(jù)疊加情況,再次把各單元格中各屬性對巖溶地面塌陷危險性影響程度進行劃分,且每一屬性均由定性數(shù)據(jù)表示,經(jīng)重新劃分后,指標(biāo)變量如距離長江遠就有10個級別,分別用0~9的整數(shù)表示.共可得1 633個樣本數(shù)據(jù)且均為定性屬性.
根據(jù)前面介紹的改進的模糊k-modes算法的計算過程,將數(shù)據(jù)樣本分為4類,令參數(shù)p=1.2,利用matlab編制以上計算步驟,結(jié)果如下:
① 初始聚類中心V(0)為 :
②最終的聚類中心.由于最終聚類中心由各類的各屬性值的頻率表示,且每一屬性值的個數(shù)不一樣,所以下面僅列舉了最終聚類中心的前兩個指標(biāo)(巖性、巖溶分布類型)的值:
依據(jù)聚類結(jié)果,將1 633個單元的歸屬類別導(dǎo)入Map GIS軟件,根據(jù)各單元類別,輸出預(yù)測圖,武漢市覆蓋型巖溶地面塌陷危險性預(yù)測圖,如圖1所示.
圖1 武漢市巖溶塌陷危險性預(yù)測成果圖Fig.1 Karst collapse forecast in Wuhan city based on f uzzy k-modes algorith m
通過以上分析,將研究區(qū)巖溶地面塌陷危險性分為極高危險區(qū)、高危險區(qū)、中等危險區(qū)及低危險區(qū)四級,與實際計算結(jié)果對比表明既往塌陷點均發(fā)生在極高危險區(qū),而且研究成果和以往關(guān)于研究區(qū)的危險性分區(qū)成果大致相同,說明利用該改進模糊K-M法可以得到比較可靠的巖溶地面塌陷危險性預(yù)測結(jié)果.
通過以上分析,作者提出的改進模糊K-M法巖溶地面塌陷預(yù)測中得到了很好的應(yīng)用,可知這種改進的模糊聚類算法的突出優(yōu)點是:
(1)不需要人為量化指標(biāo)數(shù)值,計算過程相對客觀,提高了預(yù)測結(jié)果的可信性;
(2)基于各屬性值的頻率來定義各數(shù)據(jù)間的距離,可以有效地避免屬性值丟失的現(xiàn)象,從而可以綜合考慮各因素的影響,使出現(xiàn)次數(shù)較少的屬性值也對聚類結(jié)果有所貢獻;
(3)聚類中心的選取依據(jù)自動搜索的方法,該方法完全是基于聚類的基本思想,可以有效的保證選取的初始聚類中心,可代表不同的類別;
(4)在選取初始聚類中心時,其距離依據(jù)自定義距離計算,該距離不僅計算方便,而且可以更好地反映多值屬性之間的差異,從而保證選取的聚類中心的有效性.可以看出該算法不僅可以提高聚類精度,也提高了收斂速度.
筆者在分析武漢市巖溶塌陷影響因素的基礎(chǔ)上,利用改進模糊K-M法對武漢市巖溶塌陷危險性進行了預(yù)測,研究結(jié)果表明該方法在巖溶地面塌陷危險性預(yù)測方面具有諸多優(yōu)點,值得推廣應(yīng)用.
[1] 胡成,陳植華,丁國平,等.GIS技術(shù)在巖溶塌陷預(yù)測中的應(yīng)用[J].桂林工學(xué)院學(xué)報,2000,20(2):117-119.
[2] HUANG Z.Extensions to the k-means algorithm for clustering large data set with categorical values[J].Data Mining Knowledge Discovery,1998,2(3):283-304.
[3] BENATI S.Categorical data f uzzy clustering:An analysis of local search heuristics[J].Co mputers&Operations Research,2006,7(4):157-163.
[4] MICHAEL K N,JOYCE C W.Clustering categorical data sets using tabu search techniques[J].Pattern Recognition,2002,35:2783-2790.
[5] 王宇,楊莉.基于凝聚函數(shù)的混合屬性數(shù)據(jù)聚類算法[J].大連理工大學(xué)學(xué)報,2006,46(3):446-448.
[6] 雷明堂,蔣小珍,李瑜,等.城市巖溶塌陷地質(zhì)災(zāi)害風(fēng)險評估-以貴州六盤水市為例[J].中國地質(zhì)災(zāi)害與防治學(xué)報,2000,11(4):23-27.
[7] 陳學(xué)軍,陳植華,陳先華,等.桂林市西城區(qū)巖溶塌陷模糊層次綜合預(yù)測[J].桂林工學(xué)院學(xué)報,2000,20(2):112-116.
[8] 張麗霞,熊大軍,王集寧,等.萊蕪市巖溶塌陷原因分析與評價[J].山東地質(zhì),2002,18(3):32-35.