趙 英,崔福義,郭 亮
(哈爾濱工業(yè)大學城市水資源與水環(huán)境國家重點實驗室,150090 哈爾濱,zhaoying@hit.edu.cn)
數(shù)據(jù)挖掘技術(shù)在松花江水質(zhì)預測中的應(yīng)用
趙 英,崔福義,郭 亮
(哈爾濱工業(yè)大學城市水資源與水環(huán)境國家重點實驗室,150090 哈爾濱,zhaoying@hit.edu.cn)
為更好地實現(xiàn)松花江水質(zhì)預測,對水質(zhì)的科學管理起到指導作用,應(yīng)用人工神經(jīng)網(wǎng)絡(luò)技術(shù)(ANN,Artifical Neural Networts),利用松花江四方臺監(jiān)測站某連續(xù)3年水質(zhì)數(shù)據(jù),建立水質(zhì)預測模型,實現(xiàn)對松花江主要污染指標CODMn的預測.為保證預測模型具有較高的預測精度,將數(shù)據(jù)按月分期,應(yīng)用聚類分析法對數(shù)據(jù)進行處理,剔除異常數(shù)據(jù),使有效數(shù)據(jù)能夠均勻分布.并通過測試研究驗證聚類分析法處理數(shù)據(jù)后對預測精度的影響效果.結(jié)果表明,將聚類分析法應(yīng)用到水質(zhì)預測中后,可較大地改善模型預測效果,成績顯著.
水質(zhì)預測;預測模型;聚類分析法;人工神經(jīng)網(wǎng)絡(luò)
近年來,隨著我國工業(yè)化以及城鎮(zhèn)化進程加快,全國各地流域環(huán)境遭受不同程度污染,對人體健、生態(tài)安全以及生產(chǎn)和生活構(gòu)成重要影響.松花江流域干流為沿江城市的主要飲用水源,監(jiān)測數(shù)據(jù)表明,目前水質(zhì)污染狀況非常嚴重,已對吉林省、黑龍江省生態(tài)環(huán)境和人民生產(chǎn)生活造成了重大影響.面對新的形勢和要求,目前我國流域環(huán)境監(jiān)測、水質(zhì)預測等技術(shù)方法與環(huán)境污染的客觀要求已明顯滯后.因此,研發(fā)應(yīng)對水環(huán)境監(jiān)測、預測新方法,提高科學的環(huán)境管理和綜合決策能力,在今后很長一段時期是十分緊迫和必要的.
2002~2006年松花江水域水質(zhì)狀況見表1.可以看出,2002~2006年劣Ⅴ類水質(zhì)所占的百分數(shù)總體呈上升趨勢,由此可知松花江水域水質(zhì)污染狀況有加重的趨勢,可見建立松花江水域的預測模型,探討未來水質(zhì)的變化情況具有一定意義,對于松花江水域的管理、防治水污染、確保飲用水安全起到積極的作用.從主要污染指標一欄中可以看出,2002~2006年5年中主要污染指標包含CODMn、石油類、氨氮、生化需氧量、揮發(fā)酚,其中CODMn連續(xù)5年出現(xiàn),可見CODMn的超標是造成松花江水域污染的最主要因素,因此,確定以 CODMn為預測對象.
表1 2002-2006年松花江水域水質(zhì)類別分析和主要污染指標對比
在綜合分析松花江主要污染指標、水廠日常檢測的原水水質(zhì)參數(shù)種類、課題實際需要以及對CODMn值產(chǎn)生影響等因素后,確定水溫、濁度、色度、pH值、氨氮、亞硝酸鹽、電導率、堿度、水流量9種水質(zhì)參數(shù)為CODMn的影響因子.除此之外任何水質(zhì)參數(shù)的變化都是連續(xù)的,因此,也將當日的CODMn作為影響因子,以10種影響因子預測次日的CODMn.
數(shù)據(jù)挖掘技術(shù)有很多種,但其在水質(zhì)預測領(lǐng)域中的應(yīng)用并不多.分析本文水質(zhì)數(shù)據(jù)的特點,就單個水質(zhì)參數(shù)而言,這些數(shù)據(jù)變化幅度不大,且都是正實數(shù),不包含向量等復雜數(shù)據(jù),并且數(shù)據(jù)為日監(jiān)測數(shù)值,頻度不大.聚類分析法是數(shù)據(jù)挖掘技術(shù)中較常用的一種方法,處理過程簡單易懂,實用性較強.因此,綜合本文數(shù)據(jù)特點選擇聚類分析法即可以方便地解決數(shù)據(jù)處理的問題,達到預期效果[1-4].
聚類分析是依據(jù)樣本間關(guān)聯(lián)的度量標準將其自動分成幾個類,且使同一類中的樣本相似,而屬于不同類的樣本相異的一組方法.一個聚類分析系統(tǒng)的輸入是一組樣本和一個度量兩個樣本間相似度(或相異度)的標準,聚類分析的輸出是數(shù)據(jù)集的幾個類(簇),這些類構(gòu)成一個分區(qū)或分區(qū)結(jié)構(gòu).聚類分析的一個附加結(jié)果是對每個類的綜合描述,這種結(jié)果對于進一步深入分析數(shù)據(jù)集的特征尤為重要.這樣應(yīng)用聚類分析法可以將水質(zhì)數(shù)據(jù)中的離群數(shù)據(jù)即異常數(shù)據(jù)剔除掉,提高預測模型精度[5-9].
聚類分析可以根據(jù)聚類中心點來進行數(shù)據(jù)篩選,一方面可以剔除孤立點,另一方面還可以剔除一些距離中心點過遠的異常數(shù)據(jù),不僅可以剔除異常數(shù)據(jù),還可以使過濾后的數(shù)據(jù)具有良好的規(guī)范性[10-13].
在選擇研究數(shù)據(jù)時,剔除的是預測模型中對預測對象有影響的水質(zhì)參數(shù)的異常值.根據(jù)上節(jié)確定的影響因子,水溫、濁度、色度、pH值、氨氮、亞硝酸鹽、電導率、堿度、水流量9種水質(zhì)參數(shù)均為聚類分析對象,此外訓練時預測對象的數(shù)據(jù)也可能存在異常,因此,將次日的CODMn值也作為聚類分析對象,即本研究共計10組研究數(shù)據(jù).
本文現(xiàn)有包含以上10組水質(zhì)參數(shù)的松花江四方臺監(jiān)測站某連續(xù)3年日檢測數(shù)據(jù)1 028組,因為每個月份的數(shù)據(jù)均具有不同的水質(zhì)特點,按照月份分期,首先選取K-平均算法進行聚類分析,剔除樣本數(shù)目過少的類,因為將每個月的數(shù)據(jù)分成3組(按3年的劃分),在計算中,如果每組的數(shù)據(jù)樣本數(shù)少于該月樣本總數(shù)的10%,剔除該類,并重新進行劃分計算.接著對樣本與中心之間的距離進行分析,剔除距離較遠的樣本,采用歐式距離進行計算,剔除所有距離大于500的異常樣本點,從而使所獲得的數(shù)據(jù)具有較好的規(guī)范性.
應(yīng)用聚類分析法時采用SPSS(Statistical Package for the Social Science)軟件,其是目前世界上最著名的數(shù)據(jù)分析軟件.SPSS最突出的特點是操作界面極為友好,使用Windows的窗口方式即可展示各種管理和分析數(shù)據(jù)方法的功能,使用對話框就可展示出各種功能選擇項,無需編程,只根據(jù)需要進行圖形用戶界面操作就可以實現(xiàn)數(shù)據(jù)的分析和處理.
在本文聚類分析研究中采用K-平均算法,其具體流程如下:
1)任意選擇3個樣本作為初始類的中心;2)根據(jù)類中對象的平均值,將每個樣本重新聚合到最類似的類;3)更新類的平均值,即計算每個類中樣本的平均值,將其作為中心點;4)重復2)、3)直到不再發(fā)生變化.
使用K-平均算法進行聚類,根據(jù)各個類的樣本數(shù)目來剔除孤立點.第一次聚類結(jié)果見表2.
表2 K-平均算法聚類結(jié)果(1)
從表2中選取類樣本數(shù)少于該月總樣本數(shù)10%的類,進行剔除,選取的類分別是4月類1、10月類1、11月類1、12月類3.剔除這些類,并對4月、10月、11月、12月重新進行聚類.得到的結(jié)果如表3所示.
躺著想了許久才發(fā)現(xiàn)面膜還沒洗,該死,又過時間了,臉上的水分都被吸走了。就像他死后,我的感情也被有他在的那段時間吸走了。
分析表3注意到4月類2樣本數(shù)目仍然少于該月樣本總數(shù)10%的類,剔除該類,重新對4月數(shù)據(jù)進行聚類計算,結(jié)果如表4所示.
表3 K-平均算法聚類結(jié)果(2)
表4 K-平均算法聚類結(jié)果(3)
至此,獲得了36個可以表征各個月特征的聚類中心點.以這些中心點為中心,計算所屬類內(nèi)各樣本Xi與中心點X0的距離,采用歐式距離進行計算,剔除所有di≥500的異常樣本點.
在剔除數(shù)據(jù)的同時考察剩余樣本的個數(shù).其中m為剔除后該月剩余樣本數(shù)目.剔除情況如表5所示.
表5 K-平均算法聚類后樣本分布情況(1) 個
從表5可以看出,8月份與9月份樣本被剔除的最多,8月份剔除樣本數(shù)達本月監(jiān)測個數(shù)的46%,9月份為17%.由于水質(zhì)的變化相當復雜,受很多因素影響,本文在剔除異常數(shù)據(jù)時是以水域某一時段(某月)內(nèi)的通常狀況為標準,對于非正常狀態(tài)下對水域的影響因素考慮較少,為避免過多地刪除數(shù)據(jù),規(guī)定在某一時段內(nèi)(某月)因機械或人為等因素產(chǎn)生一些異常數(shù)據(jù)不應(yīng)該大于本時段內(nèi)所監(jiān)測數(shù)據(jù)個數(shù)的10%,若大于這個值,說明該月可能存在一些水質(zhì)異常變化,這些值雖然偏離常規(guī)狀態(tài)下的監(jiān)測值,但也是水質(zhì)真實狀況的反應(yīng),不應(yīng)該予以剔除.在8、9月份初步得到的異常值都大于10%,再次對這兩個月的數(shù)據(jù)進行處理,將剔除所有di≥800的異常樣本點,減少剔除異常數(shù)據(jù)數(shù)目,避免刪除反映水質(zhì)真實狀況的數(shù)據(jù).剔除情況如表6所示.
表6 K-平均算法聚類后樣本分布情況(2) 個
表6中8、9月份的剔除樣本數(shù)均小于該月監(jiān)測個數(shù)的10%.剩余樣本總數(shù)為984.
經(jīng)過綜合分析認為:人工神經(jīng)網(wǎng)絡(luò)模型屬于一種黑箱模型,其在沒有明確提供給過程內(nèi)部的物理演化過程知識的情況下,也可以在一個過程的輸入與輸出之間直接建立關(guān)系,即使這些數(shù)據(jù)中含有噪聲或錯誤[14-15].這些特性說明ANN網(wǎng)絡(luò)非常適合復雜的松花江水質(zhì)預測模型的建立,可以幫助進一步捕捉、探索其水質(zhì)演變過程中的規(guī)律.并且神經(jīng)網(wǎng)絡(luò)的建模過程非常靈活,可以采用不同的非線性函數(shù)來模擬其過程的非線性特征.因此,確定選擇人工神經(jīng)網(wǎng)絡(luò)技術(shù)作為本文的建模方法.
MATLAB是美國Mathworks公司1982年推出的數(shù)學軟件,它具有強大的數(shù)值計算能力和優(yōu)秀的數(shù)據(jù)可視化能力[16].其提供的神經(jīng)網(wǎng)絡(luò)設(shè)計與仿真GUI,是進行神經(jīng)網(wǎng)絡(luò)系統(tǒng)分析與設(shè)計的絕佳工具,使用戶能夠方便地通過圖形用戶界面進行神經(jīng)網(wǎng)絡(luò)的建模與仿真,無需編程.本文應(yīng)用MATLAB的GUI功能實現(xiàn)建模與仿真.
模型規(guī)模較大,不便于訓練,也會降低網(wǎng)絡(luò)的性能.理論已經(jīng)證明,具有單隱層的BP神經(jīng)網(wǎng)絡(luò)模型,當隱層神經(jīng)元數(shù)目足夠多時,可以以任意精度逼近任何一個具有有限間斷點的非線性函數(shù)[17],因此,本文建立的是單隱層BP神經(jīng)網(wǎng)絡(luò).
由于影響因子共有10項,模型輸入有10個變量,預測對象是次日的CODMn,即輸出為1個變量.對于隱含層神經(jīng)元個數(shù)的確定,有很多文獻介紹了一些方法,但只是一些經(jīng)驗方法,并不具有權(quán)威性,并且針對不同水域、不同情況的預測模型,即使輸入、輸出變量相同,當達到最佳預測效果時,其隱含層神經(jīng)元個數(shù)都不一定是相同的.因此,根據(jù)經(jīng)驗,隱含層分別從10~20選值,同時在選擇隱含層神經(jīng)元傳遞函數(shù)時,分別選用LOGSIG和TANSIG函數(shù).BP網(wǎng)絡(luò)最后一層神經(jīng)元的特性決定了整個神經(jīng)網(wǎng)絡(luò)的輸出特性.當最后一層神經(jīng)元采用Sigmoid型函數(shù),整個網(wǎng)絡(luò)的輸出就被限制在一個較小的范圍內(nèi);如果最后一層神經(jīng)元采用PURELIN型函數(shù),則整個網(wǎng)絡(luò)輸出可以取任意值,因此,選擇輸出層的神經(jīng)元傳遞函數(shù)為PURELIN.
在確定好上述參數(shù)和函數(shù)后,應(yīng)用MATLAB的GUI工具建立網(wǎng)絡(luò)模型.圖1是建立的網(wǎng)絡(luò)模型之一.
因為隱含層神經(jīng)元個數(shù)分別選擇從11~20,神經(jīng)元傳遞函數(shù)分別選擇LOGSIG和TANSIG函數(shù),這樣就根據(jù)隱含層神經(jīng)元個數(shù)和傳遞函數(shù)的不同建立20種模型,分別應(yīng)用不同的訓練集數(shù)據(jù)進行訓練,選擇最優(yōu)模型作為預測模型.
為考察聚類分析法對數(shù)據(jù)處理的效果,對其處理后得到的結(jié)果應(yīng)用到水質(zhì)預測模型中,并與未經(jīng)過處理的數(shù)據(jù)進行對比,考察其應(yīng)用效果.
由于未應(yīng)用聚類分析法處理數(shù)據(jù),有效數(shù)據(jù)共有1 028組,經(jīng)劃分得到訓練集數(shù)據(jù)992組,測試集數(shù)據(jù)36組.
利用上述訓練集數(shù)據(jù),應(yīng)用MATLAB軟件建模,經(jīng)過對比分析,得到最優(yōu)模型結(jié)構(gòu)為隱含層神經(jīng)元個數(shù)為16,傳遞函數(shù)是TANSIG,將其作為預測模型.
為了使模型測試結(jié)果具有一致性和普遍性,測試集選用前文某連續(xù)3年中其中1年每月1、2、3日的監(jiān)測值,若某一日的值不存在,則選用順延日期的監(jiān)測值,這樣每月3組數(shù)值,共形成36組測試集.應(yīng)用預測模型對測試集數(shù)據(jù)進行預測研究,得到的預測值與實測值結(jié)果如表7所示.
CODMn預測值與實測值對比曲線和誤差曲線如圖2,3,圖中的預測時間從1月開始至12月止,時間順序與表7中的時間順序相同.
在對比曲線中,對預測值與實測值二組數(shù)據(jù)進行相關(guān)性分析,可知相關(guān)系數(shù)為0.886.通過對預測誤差曲線中的數(shù)據(jù)進行分析可以得出:最大預測誤差為11.61%,最小預測誤差為1.18%,平均預測誤差為4.76%.
表7 傳統(tǒng)方法CODMn預測值與實測值 mg·L-1
圖2 CODMn預測值與實測值對比曲線
應(yīng)用聚類分析法處理數(shù)據(jù)后得到有效數(shù)據(jù)984組,劃分成訓練集數(shù)據(jù)948組,測試集數(shù)據(jù)36組,為了使對比具有同等性,測試集數(shù)據(jù)與前文相同.
應(yīng)用MATLAB軟件建模,經(jīng)過對比分析得到最優(yōu)預測模型結(jié)構(gòu)為隱含層神經(jīng)元個數(shù)19,傳遞函數(shù)是LOGSIG,將其作為預測模型.
應(yīng)用預測模型對測試集數(shù)據(jù)進行預測,得到的預測值與實測值結(jié)果如表8所示.
圖3 CODMn預測誤差
表8 聚類分析法應(yīng)用后CODMn預測值與實測值 mg·L-1
CODMn預測值與實測值對比曲線和誤差曲線如圖4,5,圖中的預測時間從1月開始至12月止,時間順序與表8中的時間順序相同.在對比曲線中,對預測值與實測值二組數(shù)據(jù)進行相關(guān)性分析,可知相關(guān)系數(shù)為0.925.通過對預測誤差曲線中的數(shù)據(jù)進行分析,可以得出:最大預測誤差為9.52%,最小預測誤差為1.15%,平均預測誤差為3.91%.
從以上的對比研究可以看出,應(yīng)用聚類分析方法對訓練數(shù)據(jù)進行處理后,預測模型的預測效果得到較大提高.比較兩者預測值與實測值的相關(guān)系數(shù),可知應(yīng)用該方法后的相關(guān)性要明顯好于應(yīng)用前;后者比前者最大預測誤差降低了2.09個百分點,可見數(shù)據(jù)經(jīng)過處理后,偏離聚類中心的異常點被刪除掉,因此,最大誤差降低很多;兩者的最小預測誤差幾乎接近,是因為聚類過程中保留了離中心點位置較近的所有數(shù)據(jù),并不影響預測的最小誤差;從整體效果上看,數(shù)據(jù)經(jīng)過聚類處理后離聚類中心點的平均值要小,因此,后者的平均誤差比前者小,從數(shù)據(jù)上看降低了0.85個百分點,可見將聚類分析法應(yīng)用到水質(zhì)預測中可較大地改善模型預測效果,成績顯著.
圖4 CODMn預測值與實測值對比曲線
圖5 CODMn預測誤差
本研究將數(shù)據(jù)挖掘技術(shù)、人工神經(jīng)網(wǎng)絡(luò)技術(shù)引入到水質(zhì)預測模型研究中,可實現(xiàn)對地表水體的水質(zhì)預測.本研究成果不僅可應(yīng)用到松花江四方臺監(jiān)測站,也可以推廣到其他地表水體的任何水質(zhì)參數(shù)的水質(zhì)預測中,為地表水體水質(zhì)預測提供有效的方法,從而為水廠的安全、正常生產(chǎn)提供借鑒和指導.
[1]MASTROGIANNIS N,BOUTSINAS B,GIANNIKOS I.A method for improving the accuracy of data mining classification algorithms[J].Computers & Operations Research,2009,36(10):2829 -2839.
[2]YIN Yunfei.A proximate dynamics model for data mining[J].Expert Systems with Applications,2009,36(6):9819-9833.
[3]CHU B,TSAI M,HO C.Toward a hybrid data mining model for customer retention[J].Knowledge- Based Systems,2007,20(8):703 -718.
[4]廖曉玉.空間數(shù)據(jù)挖掘在地表水水質(zhì)評價與預測中的應(yīng)用研究[D].長春:東北師范大學,2006.
[5]DIXON M,GALLOP J R,LAMBERT S C,et al.Data mining to support anaerobic WWTP monitoring[J].Control Engineering Practice,2007,15:987 -999.
[6]EL-SEBAKHY E A.Data mining in forecasting PVT correlations of crude oil systems based on type-1 fuzzy logic inference systems[J].Computers & Geosciences (2008), doi:10.1016/j. cageo.2007.10.016.
[7]YANG Yubin,LIN Hui,GUO Zhongyang,et al.A data mining approach for heavy rainfall forecasting based on satellite image sequence analysis[J].Computers& Geosciences,2007,33:20-30.
[8]SENCAN A.Modeling of thermodynamic properties of refrigerant/absorbent couples using data mining process[J].Energy Conversion and Management,2007,48:470-480.
[9]CHEN Qiuwen,MYNETT A E.Integration of data mining techniques and heuristic knowledge in fuzzy logic modelling of eutrophication in Taihu Lake[J].Ecological Modelling,2003,162:55 -67.
[10]SHAW M J,SUBRAMANIAM C,TAN G W,et al.Knowledge management and data mining for marketing[J].Decision Support Systems,2001,31:127 -137.
[11]GIBERTA K,SPATE J,SANCHEZ-MARRE M,et al.Chapter twelve data mining for environmental systems[J].Developments in Integrated Environmental Assessment,2008,3:205 -228.
[12]周東華.數(shù)據(jù)挖掘中聚類分析的研究與應(yīng)用[D].天津:天津大學,2006.
[13]GELBARD R,CARMELI A,BITTMANN R M,et al.Cluster analysis using multi- algorithm voting in cross- cultural studies[J].Expert Systems with Applications,2009,36(7):10438 -10446.
[14]MAIER H R,MORGAN N,CHOW C W K.Use of artificial neural networks for predicting optimal alum doses and treated water quality parameters[J].Environmental Modelling & Software,2004,19(5):485 -494.
[15]SHETTY G R,MALKI H,CHELLAM S.Predicting contaminant removal during municipal drinking water nanofiltration using artificial neural networks[J].Journal of Membrane Science,2003,212(1/2):99 -112.
[16]張宜華.精通MATLAB5[M].北京:清華大學出版社,1999.
[17]莊鎮(zhèn)泉,王熙法.神經(jīng)網(wǎng)絡(luò)與神經(jīng)計算機[M].北京:科學出版社,1994:100 -112.
Application of data mining technology in water quality forecast of Songhua River
ZHAO Ying,CUI Fu-yi,GUO Liang
(State Key Laboratory of Urban Water Resource and Environment,Harbin Institute of Technology,150090 Harbin,China,zhaoying@hit.edu.cn)
To better achieve water quality forecast of Songhua River and instruct scientific management of water quality,a water quality forecasting model is set up by ANN technology and is trained by water-quality data from Sifangtai Monitoring Station of the Songhua River.The model could be applied to forecast CODMnthat is one of the main pollution indicators in Songhua River.To improve forecasting accuracy,the data is divided into 12 groups and handled by excluding abnormal data based on clustering analysis.At last a test is carried out to verify the effect of clustering analysis,and the results indicate that the clustering analysis in waterquality forecasting model can improve the forecasting effect significantly.
water quality forecast;forecasting model;clustering analysis;artificial neural networks
X321
A
0367-6234(2011)10-0033-07
2010-05-21.
中國博士后基金資助項目(20110491056);黑龍江省博士后基金資助項目(LBH-Z10172);2011年哈爾濱工業(yè)大學科研創(chuàng)新基金資助項目.
趙 英(1978—),女,博士,講師;
崔福義(1958—),男,教授,博士生導師.
(編輯 劉 彤)