張忠?guī)?,?梅,楊鵬飛
(蘭州交通大學(xué) 電子與信息工程學(xué)院,蘭州 730070)
近些年,由于人口的不斷增長和生產(chǎn)技術(shù)的持續(xù)發(fā)展,環(huán)境污染日益嚴(yán)重,空氣質(zhì)量不斷下降,嚴(yán)重影響了公眾健康.為此,研究者在大氣污染源識別、污染物的遠(yuǎn)程傳輸途徑以及制定和實施有效的控制和緩解策略等方面開展了大量的研究工作.空氣污染數(shù)據(jù)測量值并不是一個值或者具有單一的屬性,而是由不同類型的污染物元素組成的,所以采集的污染物數(shù)據(jù)集通常是多維數(shù)據(jù)集,同時包含了大量的異常值,因此,在對污染物溯源分析、傳播路徑研究時,需要綜合考慮這些因素,而污染物數(shù)據(jù)的多維性、空間的復(fù)雜分布、異常點的干擾等影響了這些研究的結(jié)果準(zhǔn)確性[1].聚類分析按照數(shù)據(jù)點間的相似性進(jìn)行分類,使得相似的數(shù)據(jù)點自然地被劃分到同一個簇,不相似的數(shù)據(jù)點被劃分到不同簇.聚類分析有利于更準(zhǔn)確地分析區(qū)域間的污染特征,揭示不同地區(qū)間污染的相似性與關(guān)聯(lián)性,明晰污染特征[2].
作為數(shù)據(jù)挖掘中的一種重要技術(shù),聚類是大氣污染分析中一個強(qiáng)有力的工具[3],常用的算法有k-Means[4-5],k-Medoids[6]以及DBSCAN(density-based spatial clustering of applications with noise)[7]等.文獻(xiàn)[8]使用SOM(self organizing maps)和k-Means分析了氣象條件與幾種空氣污染物之間的關(guān)系;文獻(xiàn)[9]使用k-Means算法分析了不同空氣污染排放源特征;文獻(xiàn)[10]在空氣污染監(jiān)測網(wǎng)絡(luò)中,使用一種基于k-Medoids算法的分區(qū)方法來檢測信息冗余;文獻(xiàn)[11]采用分布式實現(xiàn)的k-Means對不同位置空氣污染模式進(jìn)行了研究;文獻(xiàn)[12]利用DBSCAN算法和Convex-Hull技術(shù),構(gòu)建了一種新的技術(shù)來預(yù)測未來幾天的天氣,該預(yù)測方法旨在減輕空氣污染對人們生活的影響;文獻(xiàn)[13]對大氣污染的空氣輸送軌跡進(jìn)行聚類分析模擬研究,給污染物來源和輸送途徑的研究提供新方法,進(jìn)一步為大氣污染防控和污染監(jiān)測站點的合理配置提供科學(xué)依據(jù);文獻(xiàn)[14]使用SOM算法,在給定的區(qū)域發(fā)現(xiàn)健康和不健康地區(qū),并揭示了空氣污染模式,有助于及時采取必要的預(yù)防措施,進(jìn)一步控制污染.
在聚類算法中,根據(jù)數(shù)據(jù)特征選擇合適的相似性方法對獲得精確的聚類結(jié)果至關(guān)重要.常見的相似性計算方法有歐氏距離、曼哈頓距離和余弦相似度等,但是這些傳統(tǒng)相似性度量方法具有一定的局限性,比如應(yīng)用最廣泛的歐氏距離,并不適用于維數(shù)較大的數(shù)據(jù).而大氣污染數(shù)據(jù)通常由多個污染元素組成,從而屬性較多,每個數(shù)據(jù)點具有較高的維數(shù),對這種情況通常的處理方式是對高維度數(shù)據(jù)集進(jìn)行降維處理.但對于大氣污染抽樣數(shù)據(jù)集,進(jìn)行降維處理會丟失污染信息,使一些污染元素特征模糊,導(dǎo)致聚類結(jié)果不準(zhǔn)確.而且大氣污染抽樣數(shù)據(jù)集中同一個數(shù)據(jù)點的不同元素間的數(shù)量級差別通常非常大,比如,在同一時刻元素Si的濃度為15.211 μg/m3,元素As的濃度為0.002 μg/m3,在這種情況下,如果使用常用的歐氏距離,元素As假如有很明顯的相對濃度變化,即它攜帶了很明顯的污染特征,但由于元素Si、As的濃度之間的數(shù)量級相差懸殊,即使Si的相對濃度稍有變化,它對歐氏距離的貢獻(xiàn)也會遠(yuǎn)大于As.這時,最常用的手段是對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,但標(biāo)準(zhǔn)化處理不可避免地會造成數(shù)據(jù)污染特征損失.為了提高對大氣污染物數(shù)據(jù)聚類的準(zhǔn)確性,本文根據(jù)大氣污染物數(shù)據(jù)的特點,提出了一種新的距離度量方法.在該方法中,首先分別獲得兩點在每一維下的兩個值,求得這兩個值的較大值和較小值的差值與較大值的比值;然后將兩點在所有維度下的比值的最大值定義為這兩點間的距離.如果兩個點的大氣污染抽樣數(shù)據(jù)距離(air pollution data distance,簡稱PD距離)小意味著兩點污染程度處于同一水平,否則表示兩個點之間某種污染物的濃度急劇變化,即發(fā)生了某種元素的嚴(yán)重污染.
常用的度量數(shù)據(jù)點之間相似性的函數(shù)包括三個距離函數(shù)和兩個相似性函數(shù).首先,將大氣污染采樣數(shù)據(jù)集表示如下:
Dp={x1,x2,…,xn},
(1)
其中:n為數(shù)據(jù)集D中數(shù)據(jù)點的數(shù)量;p為每個數(shù)據(jù)點的屬性數(shù)量.
對于數(shù)據(jù)集中任意兩個點xi(1≤i≤n)∈Dp,xj(1≤j≤n)∈Dp,
xi={xi1,xi2,…,xip},
(2)
xj={xj1,xj2,…,xjp}.
(3)
其中:xi(1≤i≤n)∈Dp是p維上第i個數(shù)據(jù)點;xj(1≤j≤n)∈Dp是p維上第j個數(shù)據(jù)點;xik(1≤i≤n,1≤k≤p)∈Dp是一個非負(fù)的數(shù)值,表示點i在第k維的屬性值.
常用的距離函數(shù)和相似性函數(shù)有:
1) 歐氏距離(Euclidean metric,簡寫為EUC).歐氏距離是常見的距離計算方式,用于各種聚類算法,它用來計算兩點之間的最短距離,其表達(dá)式為
(4)
2) 曼哈頓(或城市街區(qū))距離(Manhattan distance,簡寫為MH).計算的距離是兩點之間對應(yīng)分量的差值之和,其表達(dá)式為
(5)
3) 切比雪夫距離(Chebyshev distance,簡寫為CB).它取兩點任意一維之間的最大距離值,其表達(dá)式為
(6)
4) 余弦相似性(Cosine similarity,簡寫為CON).余弦相似性是內(nèi)積空間中兩個向量之間相似性的度量,度量的是它們夾角的余弦值,其表達(dá)式為
(7)
5) 皮爾遜相關(guān)系數(shù)(Pearson correlation coefficient,簡寫為PEAR).該函數(shù)是用于度量兩個向量xi和xj之間的相關(guān)性,其表達(dá)式為
(8)
1.2.1 大氣污染抽樣數(shù)據(jù)特點
在對特定領(lǐng)域的數(shù)據(jù)進(jìn)行聚類分析時,為得到更好的結(jié)果,需要分析樣本數(shù)據(jù)的特征以及基本性質(zhì).對于大氣污染抽樣數(shù)據(jù),有以下特性:
1) 大氣污染抽樣數(shù)據(jù)點都包含同樣的污染特征或?qū)傩?,每個屬性的類型通常都是數(shù)值型的.這些屬性都是污染物排放量的一個組成部分,因此兩個大氣污染物的數(shù)據(jù)點是否相似取決于這兩個數(shù)據(jù)點的每一維屬性.當(dāng)且僅當(dāng)所有屬性都相似時,兩個污染物數(shù)據(jù)點才是相似的.
2) 大氣污染抽樣數(shù)據(jù)通常包含了很多種污染元素濃度或污染指標(biāo)情況,數(shù)據(jù)屬性較多,因此每個數(shù)據(jù)點的維數(shù)都較高.
3) 由于大氣中顆粒物濃度差異較大,尤其在遭遇極端天氣情況下,大氣污染抽樣數(shù)據(jù)集中不同元素的污染物濃度有時會相差好幾個數(shù)量級.
1.2.2 PD距離
本節(jié)將詳細(xì)描述適用于大氣污染數(shù)據(jù)聚類的PD距離度量.
定義1對于Dp中的兩個點xi和xj,xik,xjk分別為點xi和xj在第k維的值.定義higher()函數(shù),若xik≥xjk,則higher(xik,xjk)=xik;若xik 定義2對于Dp中的兩個點xi和xj,xik,xjk分別為點xi和xj在第k維的值.定義lower()函數(shù),若xik≤xjk,則lower(xik,xjk)=xik;若xik>xjk,則lower(xik,xjk)=xjk. 對于每一維度,設(shè)xi,xj∈Dp,則 (9) 其中:higher(xik,xjk)=xik為xik,xjk中較大值;lower(xik,xjk)=xik為xik,xjk中較小值. 同時,考慮到較強(qiáng)的空氣污染可以導(dǎo)致數(shù)據(jù)某一維的數(shù)據(jù)值急劇增大,而急劇增大的數(shù)據(jù)正好可以反應(yīng)出當(dāng)前污染特征.比如:硝酸根和硫酸根離子的濃度急劇增大意味著酸雨污染.由此,本文定義xi和xj間的PD距離如下: (10) PD距離滿足以下性質(zhì): 1) 反應(yīng)了污染物濃度變化特征.使用PD距離度量不用對數(shù)據(jù)集進(jìn)行降維或標(biāo)準(zhǔn)化處理,保留了數(shù)據(jù)集的全部信息,在式(9)中,通過higher(xik,xjk)-lower(xik,xjk),刻畫了大氣污染數(shù)據(jù)集中第k維上某污染元素濃度的變化,可以很好地反應(yīng)出數(shù)據(jù)集中污染濃度變化特征. 2) 對稱點之間距離相等,即PD(xi,xj)=PD(xj,xi).對于一對點xi,xj∈Dp,xi到xj的距離等于xj到xi的距離. 3) 消除了維數(shù)的影響.如式(9)所示,PD距離的大小取決于一對點(xi,xj)在相同維度下,較大值與較小值的差與較大值的比值.從式(9)中可以看出,兩點之間PD距離的大小與其它維度無關(guān),因此,它可以消除數(shù)據(jù)的維數(shù)對聚類結(jié)果的影響. 4) 消除數(shù)量級的影響.在大氣污染抽樣數(shù)據(jù)集中,不同污染物濃度的數(shù)量級可能差別很大.比如:某日某地區(qū)沙塵暴天氣,空氣質(zhì)量指數(shù)中PM10的指數(shù)遠(yuǎn)高于其他污染指數(shù),各指數(shù)間數(shù)量級相差很大.如果使用常見的距離度量,其他污染物指數(shù)的變化就會被掩蓋;而在PD距離中,通過higher(xik,xjk)-lower(xik,xjk)與higher(xik,xjk)作商,可以消除不同污染物濃度值之間數(shù)量級的影響,從而降低大氣污染抽樣數(shù)據(jù)集中每一維上數(shù)據(jù)數(shù)量級不同對聚類結(jié)果的影響.因此,PD距離度量適用于大氣污染抽樣數(shù)據(jù)集聚類分析中的距離計算. 通過在4個經(jīng)典聚類算法及兩個新聚類算法中切換不同的相似性函數(shù),對比分析PD距離與其它幾個距離及相似度在同一數(shù)據(jù)集上的聚類性能.使用的數(shù)據(jù)集包括人工合成大氣污染受體數(shù)據(jù)集、真實大氣污染受體數(shù)據(jù)集和蘭州市空氣污染指數(shù)數(shù)據(jù)集. 2.1.1 對比算法分析 為了評估PD距離的實際性能,對比實驗使用了6種聚類算法,也是大氣污染物分析中較為常見的聚類方法.其中:k-Means,k-Medoids,DBSCAN,OPTICS[15]4個算法是非常經(jīng)典的聚類算法;MulSim[16]和AnyDBC[17]是近幾年提出的新算法,由相應(yīng)作者提供代碼.下面對6個對比算法進(jìn)行簡單分析. k-Means和k-Medoids這兩個算法是基于劃分的經(jīng)典算法,k-Medoids算法實質(zhì)上是對k-Means算法的優(yōu)化和改進(jìn).二者都是先隨機(jī)選取中心點,然后將剩余點劃分到離它最近中心點所在的簇;更新簇中心,重復(fù)這一過程,直到中心點不再變化.二者的區(qū)別是更新簇中心的方式,k-Means更新的簇中心是簇中所有點的平均值,k-Medoids挑選的簇中心是實際樣本點.這兩個算法中,初始中心點的選取對結(jié)果影響較大. DBSCAN和OPTICS這兩個優(yōu)秀的算法是基于密度的聚類算法.DBSCAN的特性是將出現(xiàn)在特征空間密集區(qū)域的“核心點”與被分類為不屬于任何簇的離群值(“噪聲點”)分開.它可以識別具有任意形狀的簇,但如果數(shù)據(jù)集密度不均勻時,得到的結(jié)果較差,且結(jié)果受參數(shù)影響較大.OPTICS算法可以看作DBSCAN的改進(jìn)算法,在聚類過程中,首先創(chuàng)建一個存放核心點與其核心距離按可達(dá)距離升序排列的所有鄰居點的隊列和一個存放按處理先后順序輸出的數(shù)據(jù)點的隊列;然后,迭代地搜索核心點及其直接可達(dá)點,將可達(dá)距離最小的點放到結(jié)果序列中,直到所有數(shù)據(jù)點都被標(biāo)記;最后生成一個以數(shù)據(jù)點輸出次序為橫軸,可達(dá)距離為縱軸的增廣的簇排序.OPTICS算法可以獲得任意密度下的結(jié)果. MulSim和AnyDBC是近幾年提出的新算法.MulSim定義了一種新的策略,即當(dāng)且僅當(dāng)一個點與另一個點相似,且同時與這個點一個或多個最近鄰相似,則將這兩個點劃分在同一簇.這種策略可以發(fā)現(xiàn)數(shù)據(jù)集中任意密度、任意形狀、任意大小的簇.AnyDBC算法的核心是一種主動學(xué)習(xí)的方法,與經(jīng)典算法相比,AnyDBC不是對所有的數(shù)據(jù)點進(jìn)行搜索查找,而是學(xué)習(xí)當(dāng)前數(shù)據(jù)集的簇結(jié)構(gòu),選擇一些最理想的對象來進(jìn)行范圍查詢.因此AnyDBC與DBSCAN相比,它最終執(zhí)行的查詢范圍要少得多.此外,AnyDBC基于初始簇進(jìn)行劃分,以減少搜索時間.對于數(shù)據(jù)量非常大和復(fù)雜的數(shù)據(jù)集,AnyDBC有著出色的表現(xiàn). 2.1.2 評價指標(biāo)分析 本文使用的算法評價指標(biāo)有三個:兩個外部評價方法和一個內(nèi)部評價方法. 當(dāng)數(shù)據(jù)集中簇的真實結(jié)構(gòu)已知時,使用外部評價方法ARI(adjusted rand index)[18]和NMI(normalized mutual information)[19],ARI取值范圍是[-1,1],NMI取值范圍是[0,1],這兩個指標(biāo)的值越大表示聚類結(jié)果與真實結(jié)果越接近;當(dāng)數(shù)據(jù)集中簇的真實結(jié)構(gòu)未知時,使用內(nèi)部評價方法DBI(davies-bouldin index),DBI也稱為戴維森堡丁指數(shù),它的值越小,代表簇內(nèi)越緊密、簇間越離散,意味著聚類效果越好. 2.1.3 參數(shù)分析 圖1、表1和表2分別展示了PD距離與對比的相似性函數(shù)分別在3個數(shù)據(jù)集和6個對比算法下的實驗結(jié)果,表中包含了最優(yōu)聚類結(jié)果下的評價指標(biāo)以及相應(yīng)的參數(shù)值.其中:k-Means,k-Medoids的參數(shù)k為簇的個數(shù);DBSCAN的兩個參數(shù)ε和MinPts分別為每個點的最小鄰域半徑以及半徑內(nèi)最小點的個數(shù);OPTICS中k為最近鄰的個數(shù);MulSim中兩個參數(shù)為距離閾值k和兩點中某一點的鄰居數(shù)m;AnyDBC有兩個參數(shù),分別是最小鄰域半徑r以及半徑內(nèi)最小點的個數(shù)m. 圖1 在人工合成的大氣污染抽樣數(shù)據(jù)集上的聚類結(jié)果Fig.1 Clustering results on the synthetic air pollution datasets 表1 在真實空氣污染采樣數(shù)據(jù)集上的聚類結(jié)果 對于k-Means與k-Medoids算法,當(dāng)數(shù)據(jù)集簇數(shù)已知時,使用ARI和NMI評價指標(biāo),迭代地調(diào)整算法各自相應(yīng)的參數(shù),得到最大的ARI和NMI,確定最優(yōu)的聚類結(jié)果.當(dāng)數(shù)據(jù)集簇數(shù)k未知時,使用DBI評價指標(biāo),迭代地調(diào)整算法中各自相應(yīng)的參數(shù),得到最小的DBI,確定最優(yōu)的聚類結(jié)果. 對于算法DBSCAN,OPTICS,MulSim和AnyDBC,其最優(yōu)結(jié)果都通過對相應(yīng)的外部評價指標(biāo)和內(nèi)部評價指標(biāo)迭代尋優(yōu)獲得. 2.2.1 數(shù)據(jù)集介紹 本實驗評估從具有不同特征的人工合成的大氣污染抽樣數(shù)據(jù)集所得到的聚類結(jié)果,數(shù)據(jù)集來自文獻(xiàn)[20].該數(shù)據(jù)集形成過程為:每次從8個標(biāo)準(zhǔn)污染源中隨機(jī)選擇兩個,改變它們的質(zhì)量濃度,得到新的源貢獻(xiàn)的中心點;然后根據(jù)標(biāo)準(zhǔn)源成分譜,生成800個受體數(shù)據(jù)點并標(biāo)記為簇1;接下來重復(fù)3次該過程,再生成3組各包含800個受體數(shù)據(jù)點,并分別標(biāo)記為簇2、簇3和簇4;最后將4組數(shù)據(jù)點隨機(jī)打亂順序,加入到同一個數(shù)據(jù)集中,形成共有3 200個帶標(biāo)簽的數(shù)據(jù)點的數(shù)據(jù)集. 2.2.2 結(jié)果分析 如圖1所示,圖中展示了PD距離與其他對比相似性函數(shù)在人工合成的大氣污染抽樣數(shù)據(jù)集中6個對比算法下的聚類評價結(jié)果,其中包括最優(yōu)結(jié)果的ARI和NMI值.對于每個算法,通過設(shè)置相應(yīng)的輸入?yún)?shù)迭代進(jìn)行,其最優(yōu)的聚類結(jié)果都由最大的ARI和NMI確定.由于已知數(shù)據(jù)集共有4個簇,因此k-Means和k-Medoids中參數(shù)k的值設(shè)為4.圖1中OPTICS算法在余弦距離和皮爾遜相關(guān)系數(shù)中存在無效值,AnyDBC算法在切比雪夫距離中存在無效值,這是因為這兩種算法都是基于密度的聚類算法,由于數(shù)據(jù)集的特殊性,在調(diào)整參數(shù)對ARI和NMI迭代尋優(yōu)的過程中,始終無法得到有效的密度,導(dǎo)致每一個數(shù)據(jù)點被劃分為一個單獨的簇,產(chǎn)生了無效的聚類結(jié)果. 1) 在k-Means和k-Medoids算法中,使用PD距離的聚類結(jié)果最好,ARI和NMI值都為1.000,可以準(zhǔn)確地識別出數(shù)據(jù)集中的真實簇結(jié)構(gòu),優(yōu)于其他距離函數(shù)下的聚類結(jié)果;采用余弦相似度和皮爾遜相關(guān)系數(shù)的結(jié)果分別獲得了第二位和第三位的名次;使用切比雪夫距離和歐氏距離的結(jié)果值緊隨其后;在這兩個算法中,使用曼哈頓距離下的聚類結(jié)果最差. 2) 在DBSCAN和OPTICS算法中,PD距離下的聚類結(jié)果與其他距離及相似度下的聚類結(jié)果相比仍為最優(yōu).在DBSCAN算法中,使用PD距離得到的ARI和NMI結(jié)果值均為1.000;切比雪夫距離和歐氏距離下的結(jié)果值排名第二和第三;曼哈頓距離下的聚類結(jié)果相較之下為最差.在OPTICS算法中,使用PD距離的聚類結(jié)果與切比雪夫距離下的結(jié)果一樣,同為最優(yōu);其后分別是曼哈頓和歐氏距離下的結(jié)果值. 3) 在MulSim和AnyDBC兩個算法中,PD距離下的ARI和NMI值均為1.000.在MulSim算法中,歐氏距離和切比雪夫距離下的結(jié)果與PD距離下的結(jié)果同為最優(yōu);曼哈頓距離和皮爾遜相關(guān)系數(shù)下的結(jié)果分別排第二位和第三位.AnyDBC算法中,PD距離下的結(jié)果最優(yōu);歐氏距離和切比雪夫距離下的結(jié)果值也較好,但次于PD距離.對于曼哈頓距離,通過大量實驗調(diào)整參數(shù),聚類結(jié)果始終為一個簇,結(jié)果值無效. 根據(jù)以上分析可得:在該數(shù)據(jù)集上,6個聚類算法使用PD距離的聚類結(jié)果均為最優(yōu),而其他距離函數(shù)在不同的算法中表現(xiàn)不一致. 2.3.1 數(shù)據(jù)集介紹 2.3.2 結(jié)果分析 如表1所列,表中展示了PD距離與其它對比相似度函數(shù)在空氣污染真實采樣數(shù)據(jù)集中6個對比算法下的聚類評價結(jié)果.由于數(shù)據(jù)集為實際采樣中得到,真實簇結(jié)構(gòu)未知,因此使用內(nèi)部評價指標(biāo)DBI.DBI的值越小,聚類效果越好.所以對于每個算法,通過設(shè)置相應(yīng)的輸入?yún)?shù)迭代進(jìn)行,其最優(yōu)的聚類結(jié)果都由最小的DBI確定.在k-Means和k-Medoids算法中,參數(shù)的值是評價指標(biāo)值最好時所對應(yīng)的參數(shù).觀察表1中數(shù)據(jù)可得: 1) 在k-Means算法和k-Medoids算法中,最好的聚類結(jié)果是在使用PD距離時獲得.在k-Means算法中,僅次于最優(yōu)值的分別是曼哈頓距離和皮爾遜相關(guān)系數(shù)下的結(jié)果值,歐氏距離則在該算法中表現(xiàn)不佳;在k-Medoids算法中,排名第二位和第三位的分別是在余弦相似度和皮爾遜相關(guān)系數(shù)下的取值. 2) 在DBSCAN算法中,聚類效果最好的是使用PD距離下的結(jié)果,排名第二位的是使用切比雪夫距離下的結(jié)果,使用曼哈頓距離下的結(jié)果和使用歐氏距離下的結(jié)果很接近,分別排第三、第四名,效果最差的是使用余弦相似度下的結(jié)果;在OPTICS算法中,DBI值最小的是使用PD距離函數(shù)的結(jié)果,其次分別是使用曼哈頓距離和歐氏距離的結(jié)果,使用余弦相似度下的結(jié)果最差. 綜合所有結(jié)果可知:在真實空氣污染采樣數(shù)據(jù)集上,使用PD距離函數(shù)在絕大多數(shù)算法中均能取得較優(yōu)的聚類結(jié)果. 2.4.1 數(shù)據(jù)集介紹 本實驗使用蘭州市空氣質(zhì)量指數(shù)數(shù)據(jù)集來評估PD距離的性能,空氣質(zhì)量指數(shù)數(shù)據(jù)由蘭州氣象局提供.數(shù)據(jù)集包含了2001-2011年的蘭州空氣質(zhì)量指數(shù),每天一個數(shù)據(jù),共4 018個數(shù)據(jù)點,包含了SO2、NO2和PM10三種空氣污染物濃度. 2.4.2 結(jié)果分析 如表2所列,表中展示了PD距離與其他對比相似度函數(shù)在蘭州市空氣質(zhì)量指數(shù)數(shù)據(jù)集中6個對比算法下的聚類評價結(jié)果,本實驗采用內(nèi)部評價的方法.由于蘭州市為溫帶大陸性氣候,四季特征分明,每個季節(jié)的空氣質(zhì)量也相差較大,故在k-Means和k-Medoids這兩個算法中將參數(shù)k設(shè)為4,然后尋找最優(yōu)值.在OPTICS算法中,采用PD距離在鄰居個數(shù)大于2時,算法將數(shù)據(jù)集劃為一個簇,聚類結(jié)果無效;為了消除參數(shù)范圍不同帶來的影響,將其他距離函數(shù)下的參數(shù)也在鄰居小于2的值中尋優(yōu). 1) 在k-Means和k-Medoids算法中,6個距離下的DBI值都較高,相比之下,在PD距離下的DBI值最小,聚類效果最好.其中:在k-Means算法中,采用歐氏距離和切比雪夫距離的聚類結(jié)果分別排第二和第三位,采用余弦相似度的結(jié)果最差;在k-Medoids算法中,采用曼哈頓距離和歐氏距離下的聚類結(jié)果較優(yōu),使用皮爾遜相關(guān)系數(shù)的結(jié)果最差. 表2 蘭州市空氣質(zhì)量指數(shù)數(shù)據(jù)集上的聚類結(jié)果 2) 在DBSCAN算法中,聚類結(jié)果最優(yōu)的是使用PD距離下的結(jié)果,使用切比雪夫距離和曼哈頓距離下的結(jié)果雖然不如使用PD距離下的結(jié)果,但也表現(xiàn)較優(yōu),最差的是使用皮爾遜相關(guān)系數(shù)下的結(jié)果.在OPTICS算法中,使用PD距離得到的DBI值最小,結(jié)果最優(yōu),其余的結(jié)果值相差不大,使用余弦相似度和皮爾遜相關(guān)系數(shù)不能產(chǎn)生正確的劃分. 3) 在MulSim算法中,使用PD距離的結(jié)果明顯優(yōu)于其他距離函數(shù)下的結(jié)果.其中:使用余弦相似度的結(jié)果排名第二位,使用曼哈頓距離的結(jié)果排名第三位,使用皮爾遜相關(guān)系數(shù)的結(jié)果最差.在AnyDBC算法中,使用PD距離的結(jié)果值最優(yōu),排名第二位和第三位的結(jié)果值分別是使用曼哈頓距離函數(shù)的結(jié)果值和使用歐氏距離函數(shù)的結(jié)果值.DBI值最大的是使用余弦相似度下的結(jié)果值,聚類效果最差. 由以上分析可得:在蘭州市空氣質(zhì)量指數(shù)數(shù)據(jù)集上,PD距離在6個聚類算法中表現(xiàn)仍為最優(yōu),聚類效果最好,性能優(yōu)于其他傳統(tǒng)距離函數(shù)以及相似性函數(shù);歐氏距離函數(shù)在k-Means和k-Medoids這兩個算法中表現(xiàn)較優(yōu);切比雪夫距離和曼哈頓距離在DBSCAN算法中表現(xiàn)較好;余弦相似度在MulSim算法中結(jié)果較好. 為了提高對大氣污染抽樣數(shù)據(jù)聚類的精確性,本文針對大氣污染物數(shù)據(jù)的特點,提出了一種新的相似性度量——PD距離.PD距離用所有維度的最大值檢測是否發(fā)生了某種污染,另外還可以反應(yīng)大氣污染物濃度變化特征,消除維數(shù)以及不同屬性間數(shù)量級的差異對聚類結(jié)果的影響.為了驗證PD距離的性能,在3個大氣污染抽樣數(shù)據(jù)集中,將PD距離與其他5個傳統(tǒng)的距離及相似性度量方法分別在6個聚類算法中進(jìn)行對比.仿真實驗結(jié)果表明:使用PD距離得到的聚類結(jié)果在6個聚類算法中均優(yōu)于使用其他傳統(tǒng)距離得到的結(jié)果.在下一步的研究中,將基于PD距離提出一種基于密度的大氣污染數(shù)據(jù)聚類算法,得到更優(yōu)的聚類結(jié)果,并在此基礎(chǔ)上進(jìn)一步分析大氣污染特征.2 仿真實驗結(jié)果分析
2.1 對比算法及評價指標(biāo)和參數(shù)分析
2.2 人工合成大氣污染抽樣數(shù)據(jù)集實驗分析
2.3 真實空氣污染采樣數(shù)據(jù)集實驗分析
2.4 蘭州市空氣質(zhì)量指數(shù)數(shù)據(jù)集實驗分析
3 結(jié)論