王玉玲,王 蒙,閆 巖,宮淑蘭,汪 明,徐 亞
?
基于聚類算法的ERT污染區(qū)域識別方法
王玉玲1*,王 蒙1,2,閆 巖1,宮淑蘭1,汪 明1,徐 亞3
(1.山東建筑大學信息與電氣工程學院,山東省智能建筑技術(shù)重點實驗室,山東 濟南 250101;2.林雪平大學科學工程學院,瑞典 林雪平 58183;3.中國環(huán)境科學研究院,北京 100012)
本文提出將聚類算法引入到ERT監(jiān)測系統(tǒng)中,采用K均值(K-means)聚類、模糊C均值算法(FCM)以及混合高斯模型(GMM)3種常用聚類算法對ERT檢測結(jié)果進行污染區(qū)域識別,通過一個數(shù)值模型分析了3種算法的識別效果.研究結(jié)果表明當污染區(qū)域與背景土壤的電阻率區(qū)分度較大時(電阻率差異性大于30%),采用3種聚類算法都可以識別出污染區(qū)域,K-means和FCM的識別效果優(yōu)于GMM算法.最后,給出一個實際場地調(diào)查的應用案例.
ERT檢測;污染場地;聚類算法;污染區(qū)域識別
我國存在大量污染場地,這些污染場地會造成對土壤和地下水污染,對人類健康和環(huán)境產(chǎn)生危害[1-2],因此,對污染場地的檢測和修復是亟待解決的問題.由于電阻率成像(ERT)方法具有快速、費用低等優(yōu)點,近年來開始嘗試將ERT應用于場地污染及修復進程監(jiān)測領(lǐng)域[3-4].在采用ERT進行場地監(jiān)測時,通常會周期性地對場地進行ERT檢測,這些檢測數(shù)據(jù)需要被實時地分析處理.然而,目前對ERT檢測數(shù)據(jù)的分析處理主要依靠人工完成,因此很難保證識別的效率和準確性,這成為制約ERT監(jiān)測系統(tǒng)應用的關(guān)鍵問題之一.
近年來人工智能技術(shù)取得了高速發(fā)展,涌現(xiàn)出了許多新技術(shù)新方法,這些方法已被用來解決醫(yī)學圖像處理、自動駕駛等領(lǐng)域的問題,獲得了良好的應用效果[5-7].其中,聚類算法用于在事先并不知道任何樣本的類別標號的情況下,按照個體或樣本的特征通過某種算法來把一組未知類別的樣本劃分成若干類別,使同一類別內(nèi)的個體具有盡可能高的同質(zhì)性,而類別之間則應具有盡可能高的異質(zhì)性.
常用的聚類算法包括:K均值(K-means)算法、模糊C均值算法(FCM)、混合高斯模型(GMM)等.國內(nèi)外學者對這些算法開展了大量研究[8-9].針對K-means算法對初始中心點的選擇十分敏感,易陷入局部最優(yōu)解的問題,Bradley等[10]提出了基于分布模式估計初始中心的方法,該方法使得迭代求解收斂于更優(yōu)的局部最小值;Bagirov[11]研究了一種改進的最小平方和聚類問題的全局K-means算法,改善了K-means算法中初始中心點的選擇問題; Tzortzis[12]提出了一種MinMax K-means算法,該算法根據(jù)類別的方差對每個類別賦予不同權(quán)重,得到一個優(yōu)化的K-means目標函數(shù),解決了對初始值的依賴.模糊C均值算法(FCM)[13]是在C均值基礎(chǔ)上的一種改進算法,采用隸屬度函數(shù)表示樣本點隸屬于某一類別的程度,通過優(yōu)化各個樣本點對不同類別中心的隸屬度,使不同類之間的相似性最小化,同類之間的相似性最大化,從而決定各樣本點的類別.Wang等[14]在FCM算法的基礎(chǔ)上增加了空間信息,基于局部空間相似性度量模型自適應地確定初始聚類中心和初始隸屬度.然后根據(jù)其固有的像素間的相關(guān)性,對模糊隸屬度函數(shù)進行修正. GMM是由多個高斯分布函數(shù)的線性組合建立的模型.Huang等[15]提出了一種基于高斯混合模型搜索圖像全局閾值的有效方法,該方法具有較強的魯棒性,但是對于對比度較差的圖像處理效果不精確.這些聚類算法被應用于醫(yī)學圖像處理領(lǐng)域: Baid[16]對K-means算法、高斯混合模型和模糊C均值聚類算法在腦腫瘤分割中的應用進行了比較研究;Kannan等[17]利用FCM算法對乳房以及大腦核磁共振圖像進行了有效分割,其中該算法可將乳腺分為四個集群:脂肪、正常組織、良性病變以及惡性病變; Janssen等[18]采用GMM算法對人腦圖像進行分割;徐立等[19]提出一種新的基于腦部MR圖像的腫瘤診斷方法,該方法通過多閾值分割形態(tài)學操作檢測圖像的畸形區(qū)域,提取用于分類的高斯混合模型(GMM)特征,利用決策樹分類器對腫瘤圖像類型進行分類;Lalaoui等[20]提出了一種改進的期望最大化(MEM)算法并且對比了五種算法(K-means、FCM、MS、ES以及MEM算法)在分割人腦圖像中的效果.除此以外,Li等[21]采用K-means算法對為巖石間斷集進行識別.然而目前尚未有將聚類算法用于ERT檢測結(jié)果中土壤污染區(qū)域的識別的報道.
研究表明,土壤的電阻率受到多種因素的影響,例如土壤類型、含水率、孔隙水離子濃度等[22-23],這使得在對ERT檢測得到的電阻率數(shù)據(jù)進行解釋時,沒有一個普適的電阻率值可以用來劃分污染土壤以及未受污染的土壤,不合理的閾值會導致錯誤的污染區(qū)域判定.針對此問題,本文研究了采用聚類算法,利用數(shù)據(jù)之間的相似性和差異性將ERT數(shù)據(jù)劃分成若干類別,從而實現(xiàn)污染區(qū)域自動識別.
K-means算法是聚類算法中使用最廣泛的算法之一,它把個對象根據(jù)屬性分為個類別,使得聚類結(jié)果滿足:同一聚類中的對象相似度較高;而不同聚類中的對象相似度較小.定義損失函數(shù)如下:
式中:x為待分類的數(shù)據(jù)點;為第個類別的聚類中心;r∈{0,1}來表示數(shù)據(jù)點x對于聚類的歸屬(其中=1,...,;=1,...,),如果數(shù)據(jù)點x屬于第聚類,則r=1,否則為0.
K-means通過迭代求解,得到使得損失函數(shù)最小的所有數(shù)據(jù)點的歸屬值{r}和聚類中心{}.
模糊C均值聚類(FCM)用隸屬度確定每個數(shù)據(jù)點屬于某個聚類的程度.它是硬C均值聚類(HCM)方法的一種改進.FCM把個向量x(=1,2,…,)分為個模糊組,隸屬矩陣的元素允取的取值范圍為[0,1].
FCM定義了目標函數(shù)如下:
式中:u介于0,1間;c為模糊組的聚類中心,d=||c-x||為第個聚類中心與第個數(shù)據(jù)點間的歐幾里德距離,是隸屬度因子.一個數(shù)據(jù)的隸屬度之和等于1:
基于(4)和(5),構(gòu)造新的目標函數(shù)如下:
式中:是約束式的拉格朗日乘子.對所有輸入?yún)⒘壳髮?使式(6)達到最小的必要條件為: