徐恒鵬,李 岳,史國良,王 瑋*,軒淑艷(1.南開大學(xué)計算機與控制工程學(xué)院,天津 00071;2.南開大學(xué)軟件學(xué)院,天津 00071;.南開大學(xué)環(huán)境科學(xué)與工程學(xué)院,國家環(huán)境保護城市空氣顆粒物污染防治重點實驗室,天津 00071;.河北省唐山市玉田縣環(huán)境保護局,河北 唐山 06199)
?
基于模糊聚類的PM2.5擬合組分選擇模型的研究
徐恒鵬1,2,李 岳1,2,史國良3,王 瑋1,2*,軒淑艷4(1.南開大學(xué)計算機與控制工程學(xué)院,天津 300071;2.南開大學(xué)軟件學(xué)院,天津 300071;3.南開大學(xué)環(huán)境科學(xué)與工程學(xué)院,國家環(huán)境保護城市空氣顆粒物污染防治重點實驗室,天津 300071;4.河北省唐山市玉田縣環(huán)境保護局,河北 唐山 064199)
摘要:提出了一種新的P M2.5源成分譜擬合組分選擇模型,在充分考慮擬合過程的物理意義的基礎(chǔ)上,采用聚類正確率作為組分選擇的依據(jù).實驗驗證,該模型能夠準(zhǔn)確獲取較好的擬合主組分, 相比與經(jīng)驗選或者手動盲選所得擬合結(jié)果,我們提出的模型將成功擬合(誤差范圍在0~0.05之間)的比例由40%提升到83%.
關(guān)鍵詞:PM2.5源成分譜;組分選擇;CMB受體模型;源解析;模糊聚類
* 責(zé)任作者, 副教授, kevinwangwei@nankai.edu.cn
近年來,多地頻發(fā)的霧霾天氣,讓PM2.5成為時下最為熱門的詞匯之一,國家出臺了《國十條》以指導(dǎo)當(dāng)前大氣污染防治[1].在進行大氣污染治理之前,必須明確各種大氣污染源類的分擔(dān)率.大氣顆粒物源解析的方法主要分為兩大類:擴散模型和受體模型,其中發(fā)展最為迅速和成熟的是受體模型.自20世紀(jì)70年代以來,提出了化學(xué)質(zhì)量平衡法(CMB)、因子分析法(FA)等受體模型,其中化學(xué)質(zhì)量平衡(CMB)模型由于其物理意義明確且能定量計算各個源類貢獻度而成為發(fā)展最迅速、應(yīng)用最廣泛的源解析技術(shù)[2],被我國環(huán)保部和美國EPA列為推薦模型,在中國得到了廣泛的發(fā)展和應(yīng)用[3].胡珊等[4]利用CMB模型對珠江三角洲PM2.5進行致癌風(fēng)險及源解析、馮銀廠等[5]采用CMB模型對烏魯木齊環(huán)境空氣中TSP和 PM10源解析、鄒長武等[6]采用CMB模型提出了一種混合塵溯解析新方法.
雖然CMB模型在我國的顆粒物防治工作中發(fā)揮了重要作用,但是在利用CMB進行擬合時,如何選取擬合組分仍沒有得到很好的解決.靠人工或經(jīng)驗挑選擬合組分,不僅工作量大且可能漏掉更優(yōu)結(jié)果,很多研究人員提出了不同的解決思路,如2001馮銀廠等[7]提出“窮舉法”方法,即通過增加一些診斷方法以期獲取“最優(yōu)”的擬合結(jié)果[7].
本文針對PM2.5源成分譜在CMB模型擬合過程中存在的人工或經(jīng)驗選取組分時工作量大且較難獲取“最優(yōu)”擬合結(jié)果的問題,提出了一種基于模糊聚類的PM2.5源成分譜擬合組分選擇模型,旨在為PM2.5源成分譜在CMB模型擬合過程中的組分選擇問題提供一種新的解決思路,并對本文提出的組分選擇方法進行了可行性研究.
PM2.5源成分譜數(shù)據(jù)是典型的小樣本、高維度數(shù)據(jù),且不同維度含量的數(shù)量級有時相差極大,出現(xiàn)維數(shù)災(zāi)難[8],即隨著維數(shù)的增加,計算量呈指數(shù)倍增長.有鑒于此,可將PM2.5源成分譜擬合組分問題轉(zhuǎn)換為機器學(xué)習(xí)中的特征選擇問題.通過特征選擇方法,對源成分譜數(shù)據(jù)進行處理,將得到的相應(yīng) “主組分”當(dāng)作參與擬合的組分.本文采用模糊聚類方法對源成分譜數(shù)據(jù)進行聚類,將聚類正確率作為PM2.5源成分譜擬合組分選擇依據(jù)或標(biāo)準(zhǔn).
圖1 算法整體流程Fig.1 The flow chart of algorithm
本文提出的基于模糊聚類的PM2.5源成分譜的參與擬合組分選擇模型的實驗流程如圖1所示.輸入為PM2.5源成分譜數(shù)據(jù),首先設(shè)定組分變異、組分含量橫向?qū)Ρ纫约敖M分含量縱向?qū)Ρ冗@3組參數(shù)的取值,進而生成候選組分集集合,對所有組分候選集進行聚類中心初始化,再用FSC聚類算法進行模糊聚類,最后計算聚類正確率,將聚類正確率最高的參數(shù)對應(yīng)的候選組分集作為參與擬合的最佳組分集.在進行聚類中心初始化時采用協(xié)方差矩陣進行樣本篩選及聚類中心初始化操作,在后面章節(jié)2.1、2.2、2.3、2.4將詳細介紹.
1.1 組分候選集生成方法
PM2.5源成分譜中,樣本數(shù)目少,組分?jǐn)?shù)目較多,根據(jù)組分的物理意義,設(shè)定3組參數(shù)來生成擬合組分候選集.
組分變異參數(shù):對于每種源類,其中某組分變異系數(shù)越小,說明該組分離散度越小.將該組分納入CMB等主流源解析模型中,擬合結(jié)果更準(zhǔn)確.組分變異系數(shù)其中,cvi,l表示對于源類i中組分l的變異系數(shù),σi,l表示源類i中組分l的標(biāo)準(zhǔn)差,ui,l表示源類i中組分l的均值.
組分含量橫向?qū)Ρ葏?shù):即組分含量大小.對于每種源類,組分含量較大的若干個組分,一般均為該源類的必選組分,需納入CMB等主流源解析模型,也可稱為組分含量橫向?qū)Ρ认禂?shù).
組分含量縱向?qū)Ρ葏?shù):對于某種源類,有一些標(biāo)識性組分是其他源類所不具有的,組分含量縱向?qū)Ρ认禂?shù)用來找出該種源類的標(biāo)識性組分.對于源類i,假設(shè)組分l是其標(biāo)識性組分,那么para_veri,l值就為1(測量精確的情況).對比系數(shù)如下:
式中,para_veri,l表示源類i中組分l的組分縱向?qū)Ρ认禂?shù);ui,l表示源類i中組分l的均值;n表示源類個數(shù).
設(shè)定上述3個參數(shù)取值范圍,組合生成不同的候選組分集η.例如,可以將求出的變異系數(shù)劃分為10個取值空間,即10個候選集.對于組分含量橫向?qū)Ρ燃翱v向?qū)Ρ葏?shù)也可以通過設(shè)定范圍來生成各自的候選組分集.最終,將上述生成的三類組分候選集進行簡單組合去重后,生成最終的候選組分集η.
1.2 FSC模糊加權(quán)軟子空間聚類算法
過去幾十年里,針對已有的傳統(tǒng)聚類方法,出現(xiàn)了很多基于特征加權(quán)或特征選擇的數(shù)據(jù)挖掘方法,其中子空間聚類是目前高維數(shù)據(jù)聚類分析中一個非常重要的研究領(lǐng)域[9-10].根據(jù)聚類方法的不同,主要分為兩種聚類形式[12-13]:硬子空間聚類、軟子空間聚類.
軟子空間聚類算法具有更好的適應(yīng)性與靈活性,可以分為模糊加權(quán)子空間聚類方法及熵加權(quán)子空間聚類算法.模糊加權(quán)子空間聚類算法包括FWKM、FSC[11]、AWA,該類方法對每一類的各組分進行模糊加權(quán),對于每一個組分,樣本分布越緊湊,則組分獲得權(quán)值越大,與CMB擬合算法思想一致.此外,組分方差越小,所占權(quán)重越大,同時為權(quán)重賦予一個模糊指數(shù),使該聚類算法更具有適應(yīng)性.
在FSC算法中,一個源類在某個組分或特征上的密度越大,該組分或特征對于該源類的貢獻度或權(quán)值越大.對于給定的源成分譜樣本數(shù)據(jù)集,本文利用軟子空間聚類算法得到k個源類中心值,即每個源類的信息:.定義uji表示第i個樣本xi屬于第j個聚類中心zj的模糊隸屬度,定義U表示整個源類的模糊隸屬度矩陣,.
此外,以期更好發(fā)現(xiàn)各個數(shù)據(jù)簇相應(yīng)的子空間結(jié)構(gòu),軟子空間聚類算法在聚類過程中對每個數(shù)據(jù)簇的全部特征賦予一個特征加權(quán)系數(shù).因此,定義wjh表示第h個特征對于第j個數(shù)據(jù)簇的重要性或貢獻度,則W表示整個源分譜樣本數(shù)據(jù)集的特征加權(quán)系數(shù)矩陣,.
FSC模糊聚類的目標(biāo)函數(shù)如下[11]:
文獻[11]給出了上述公式的詳細算法步驟及W、Z和U的迭代公式.
在初始化聚類中心時Z時,采用了基于協(xié)方差矩陣的樣本篩選方法[14].
1.3 基于模糊聚類的PM2.5源成分譜組分選擇模型描述
本文采用聚類正確率作為組分選擇衡量標(biāo)準(zhǔn).聚類正確率是指被正確劃分樣本占總體樣本的比率,定義為:
其中,numl表示源類l被正確劃分的樣本數(shù),N表示所有源成分譜樣本數(shù)目.
對于組分候選集中每一個組分集合ηt,利用文獻[11]樣本篩選方法進行聚類中心初始化,然后根據(jù)算法FSC進行模糊聚類,最后計算該ηt下的聚類正確率CAt.最后選取CA數(shù)組中最大的值對應(yīng)的組分候選集作為輸出.
測繪新技術(shù)在建筑工程測量中的地位越來越重要,尤其是隨著建筑工程行業(yè)的規(guī)模不斷壯大其重要性越來越突出。但與此同時,傳統(tǒng)的測繪技術(shù)因為效率、準(zhǔn)確性和可靠性的問題很難再滿足建筑工程發(fā)展的需要。在這種狀況下,越來越多的新的測繪技術(shù)不斷涌現(xiàn)對推動測繪事業(yè)的發(fā)展以及提高建筑工程測量的準(zhǔn)確度和可靠性起到了重要作用。
算法描述如下:
算法.Dim_Sel algorithm
輸入:PM2.5源成分譜數(shù)據(jù)集,源類個數(shù)k,組分候選集η,模糊加權(quán)系數(shù)α,一個無窮小參數(shù)ε.
輸出:輸出最佳參與擬合組分
第1步:從候選集η選取一個組分集ηt;
第2步:按照文獻[14]樣本篩選算法進行聚類中心初始化;
第3步:按照文獻[11]模糊聚類算法聚類; 第4步:依據(jù)公式(3)計算聚類正確率CA ;
第5步:計算出每個閾值對應(yīng)的CA,找到CA最大值對應(yīng)的組分候選集輸出.
2.1 受體生成方法
為了保證實驗結(jié)果的準(zhǔn)確性、有效性,實驗所用的PM2.5源成分譜數(shù)據(jù)是來自于實際監(jiān)測數(shù)據(jù),該數(shù)據(jù)集中,每個樣本包括101個屬性,含有3個源類:SOIL類、COAL類、VEHICLE類,即在進行模糊聚類時源類個數(shù)k設(shè)定為3.實驗所用源解析工具是美國環(huán)保EPA-CMB8.2[15]受體模型軟件.受體生成方法參考相關(guān)文獻,從PM2.5源成分譜3種源類中隨機選取3個樣本,再按照隨機設(shè)定的貢獻度生成一條受體.實驗時,隨機生成30條受體數(shù)據(jù),對所有組分候選集進行驗證,進而證明本文提出的組分選擇的方法可行性.
2.2 擬合結(jié)果衡量方法
CMB軟件擬合得出的各個源類的貢獻度需與真實貢獻度進行比較,本文采用相似度系數(shù)及平均絕對誤差A(yù)AE[16]進行衡量.相似度系數(shù)包括夾角余弦和相關(guān)系數(shù).
夾角余弦函數(shù)忽略兩數(shù)據(jù)點(向量)之間的絕對長度而考慮其在方向上的相互關(guān)系,擬合貢獻度與真實貢獻度越相近,其值越大.
相關(guān)系數(shù)是關(guān)于向量標(biāo)準(zhǔn)差的夾角余弦,它表示兩個向量線性相關(guān)的程度,若兩個向量越相近,其值越大.
通過計算擬合貢獻值和真實貢獻度的平均絕對誤差(AAE)來表示擬合值和真實值的平均差異,若AAE的值較低,表明擬合值和真實值較接近.本文通過上述3種衡量標(biāo)準(zhǔn),對算法Dim_sel驗證.
2.3 聚類正確率與組分選擇的關(guān)系驗證
圖2為閾值集η與聚類正確率CA關(guān)系,其中,橫坐標(biāo)表示閾值集η,縱坐標(biāo)表示聚類正確率.從圖2可知第11組組分候選集相對應(yīng)的聚類正確率最高,約為84%.
圖2 聚類正確率變化Fig.2 Variation of CA
圖3、圖4、圖5中分別為采用相似系數(shù)、夾角余弦及平均絕對誤差對擬合結(jié)果進行評估的折線圖,橫坐標(biāo)代表組分候選集η,縱坐標(biāo)分別為30條受體擬合結(jié)果與真實貢獻度的相似系數(shù)、夾角余弦及平均絕對誤差的平均值大小.圖3與圖4的走勢和圖2的走勢近乎一致,圖5的走勢和圖2的走勢幾乎相反,表明選擇聚類正確率較高的點對應(yīng)的組分候選集進行CMB擬合,其擬合正確率較高,說明了將聚類正確率作為擬合組分選擇標(biāo)準(zhǔn)的有效性.
圖3 相似系數(shù)衡量擬合結(jié)果變化Fig.3 Evaluation of fitting results by similarity factor
圖4 夾角余弦衡量擬合擬合結(jié)果變化Fig.4 Evaluation of fitting results by angle cosine
圖5 平均絕對誤差衡量擬合結(jié)果變化Fig.5 Evaluation of fitting results by AAE
2.4 參與擬合最佳組分與盲選法對比試驗
圖6為候選集組分個數(shù)與聚類正確率對應(yīng)關(guān)系圖,從圖中可知聚類正確率最高點對應(yīng)的參與擬合組分是16個,其中包含了Al、Si、OC、EC等3種源類的標(biāo)識性組分,也是擬合過程中人工經(jīng)驗篩選的必選組分,也包含了Ca、K、Cr、Fe等主要組分[2,5,7].
圖6 候選集組分個數(shù)與聚類正確率Fig.6 The number of components corresponding to CA
本文設(shè)計了兩組實驗進行對比:對于實驗隨機生成的30條受體,一組選取聚類正確率最高點對應(yīng)的16個組分進行擬合;另一組采用k折交叉驗證思想,對20次手動盲選選取組分進行擬合,其中選取組分中均含三種源類常用的擬合組分Al,Si,OC,EC等.手動盲選實驗中即包含隨機選取組分,又包含三種源類的常用組分,使對比實驗結(jié)果更加客觀與穩(wěn)定.
圖7為利用AAE對20次手動盲選實驗的擬合結(jié)果進行衡量,橫坐標(biāo)表示受體ID,縱坐標(biāo)表示AAE.三條線分別對應(yīng)20次手動盲選實驗中每個受體擬合結(jié)果的AAE的平均值,最大值及最小值.從圖7可知:最大值線和最小值線之間的浮動較大,說明采用手動盲選組分選擇方法得到的擬合結(jié)果較為隨機且常出現(xiàn)無法得到擬合結(jié)果的情況;平均值線與最小值線浮動較小,說明平均值線可較好體現(xiàn)手動盲選實驗的擬合結(jié)果.
圖8為利用AAE對盲選及算法選組分?jǐn)M合所得到的結(jié)果進行衡量對比折線圖.橫坐標(biāo)代表受體ID,縱坐標(biāo)是AAE,即30條受體擬合結(jié)果與真實貢獻度之間的平均絕對誤差,其值越小表示擬合結(jié)果越精確.采用聚類正確率最高的16個組分所得擬合結(jié)果的AAE均遠低于20次手動盲選擬合結(jié)果AAE的平均值,再次表明采用本文算法模型選取的組分所得擬合結(jié)果較大程度上優(yōu)于隨機選取組分所得擬合結(jié)果,并且一定程度上減少了擬合實驗的次數(shù),同時減少了PM2.5源解析過程中的工作量.
圖7 AEE衡量盲選擬合結(jié)果Fig.7 Evaluation of Random selection fitting results by AEE
圖8 AEE衡量擬合結(jié)果對比Fig.8 Fitting results contrast based on the AEE
圖9 COAL源擬合結(jié)果對比Fig.9 The comparison diagram of COAL fitting results
圖9、圖10、圖11分別表示源類COAL、SOIL、VEHICLE的算法選及隨機手選的擬合結(jié)果與真實貢獻度的比較.橫坐標(biāo)表示受體ID,縱坐標(biāo)表示擬合結(jié)果減去真實貢獻度的差值的絕對值.觀察得知,手動盲選對應(yīng)的86%以上的受體的擬合結(jié)果與真實貢獻度的誤差絕對值均遠高于算法選所對應(yīng)的誤差絕對值,即采用隨機手選的組分較難得到精確度較高的CMB擬合結(jié)果.
圖10 SOIL源擬合誤差對比圖Fig.10 The comparison diagram of SOIL fitting results
圖11 VEHICLE源擬合結(jié)果Fig.11 The comparison diagram of VEHICLE fitting results
采用算法選組分進行CMB擬合,所得3種源類的擬合結(jié)果絕對誤差值范圍在(0~0.05)之內(nèi)的比例達到83%,但采用手動盲選組分進行擬合的比例僅為40%,即采用本文提出的組分選擇模型篩選的組分參與的擬合效果與真實貢獻度的誤差較小,而手動盲選的擬合結(jié)果則和真實貢獻度曲線誤差較大,進一步表明了算法模型的有效性.
本文提出了一種基于模糊聚類的PM2.5擬合組分選擇模型,通過選取聚類正確率較高的值所對應(yīng)的組分來進行CMB擬合.實驗結(jié)果表明,采用本文提出的PM2.5擬合組分選擇方法,有86%的受體所得擬合結(jié)果優(yōu)于手動盲選所得擬合結(jié)果,其誤差范圍在0~0.05之間的比例由40%提升到83%,在一定程度上提高了PM2.5源成分譜CMB擬合結(jié)果的精確度.
參考文獻:
[1] 大氣污染防治行動計劃 [J].中國環(huán)保產(chǎn)業(yè), 2013,(10):4-9.
[2] Shi G L, Tian Y Z, Zhang Y F, et al.Estimation of the concentrations of primary and secondary organic carbon in ambient particulate matter: Application of the CMB-Iteration method [J].Atmospheric Environment, 2011,45(32):5692-5698.
[3] 朱 坦,吳 琳,畢曉輝,等.大氣顆粒物源解析受體模型優(yōu)化技術(shù)研究 [J].中國環(huán)境科學(xué), 2010,30(7):865-870.
[4] 胡 珊,張遠航,魏永杰.珠江三角洲大氣細顆粒物的致癌風(fēng)險及源解析 [J].中國環(huán)境科學(xué), 2010,30(11):1202-1208.
[5] 馮銀廠,彭 林,吳建會,等.烏魯木齊市環(huán)境空氣中TSP和P M10來源解析 [J].中國環(huán)境科學(xué), 2005,25(S1):30-33.
[6] 鄒長武,印紅玲,劉盛余,等.大氣顆粒物混合塵溯源解析新方法[J].中國環(huán)境科學(xué), 2011,31(6):881-885.
[7] 馮銀廠.關(guān)于化學(xué)質(zhì)量平衡(CMB)受體模型應(yīng)用中若干技術(shù)問題的研究 [D].天津:南開大學(xué), 2002.
[8] Scott D W.Multivariate density estimation: theory, practice, and visualization [M].Wiley.com, 2009.
[9] Müller E, Günnemann S, Assent I, et al.Evaluating clustering in subspace projections of high dimensional data [J].Proceedings of the VLDB Endowment, 2009,2(1):1270-1281.
[10] Parsons L, Haque E, Liu H.Subspace clustering for high dimensional data: a review [J].ACM SIGKDD Explorations Newsletter, 2004,6(1):90-105.
[11] Gan G, Wu J.A convergence theorem for the fuzzy subspace clustering (FSC) algorithm [J].Pattern Recognition, 2008,41(6): 1939–1947.
[12] Deng Z, Choi K S, Chung F L, et al.Enhanced soft subspace clustering integrating within-cluster and between-cluster information [J].Pattern Recognition, 2010,43(3):767–781.
[13] Jing L, Ng M K, Huang J Z.An Entropy Weighting k-Means Algorithm for Subspace Clustering of High-Dimensional Sparse Data [J].IEEE Transactions on Knowledge & Data Engineering, 2007,19(8):1026-1041.
[14] 徐恒鵬.基于智能信息處理的PM2.5源解析問題的研究 [D].天津:南開大學(xué), 2014.
[15] Habre R, Coull B, Koutrakis P.Impact of source collinearity in simulated PM2.5data on the PMF receptor model solution [J].Atmospheric Environment, 2011,45(38):6938-6946.
[16] Christensen W F, Gunst R F.Measurement error models in chemical mass balance analysis of air quality data [J].Atmospheric Environment, 2004,38(5):733–744.
The fitting component selection model of PM2.5based on fuzzy clustering.
XU Heng-peng1,2, LI Yue1,2, SHI Guo-liang3, WANG Wei1,2*, XUAN Shu-yan4(1.College of Computer and Control Engineering, NanKai University, Tianjin 300071, China;2.College of Software, NanKai University, Tianjin 300071, China;3.State Environmental Protection Key Laboratory of Urban Ambient Air Particulate Matter Pollution Prevention and Control, College of Environmental Science and Engineering, NanKai University, Tianjin 300071, China;4.Yutian Environmental Protection Agency, Tangshan 064199, China).China Environmental Science, 2016,36(1):12~17
Abstract:In current research, there is a lack of uniform standards for components selection in PM2.5source profile apportionment.Researchers tend to choose the component manually and empirically, leading to a subsequent poor fitting result, or even failures.Concerning on this problem, this paper has proposed an innovative component selection model of PM2.5source profiles apportionment.On the basis of the physical representative of each component, the proposed model calculates the accuracy of fuzzy clustering as the standard score for selection.The experiments prove that our model outperforms the traditional empirical models.The successful rate for fitting, measured by the fitting errors in 0 to 0.05, grows to 83% by implementing our model, in contrast to rate of 40% from the traditional selection model.
Key words:PM2.5source profile;components selection;CMB receptor model;source apportionment;fuzzy clustering
中圖分類號:X513
文獻標(biāo)識碼:A
文章編號:1000-6923(2016)01-0012-06
收稿日期:2015-06-01
作者簡介:徐恒鵬(1988-),男,山東臨沂人,在讀博士,主要從事PM2.5源成分譜擬合模型研究.發(fā)表論文1篇.