張繼國,管耀宗,朱永忠
(1. 河海大學(xué)水利信息統(tǒng)計與管理研究所,江蘇 常州 213022; 2. 河海大學(xué)理學(xué)院,江蘇 南京 210098)
?
降雨空間分布的模糊熵聚類分析
張繼國1,管耀宗2,朱永忠2
(1. 河海大學(xué)水利信息統(tǒng)計與管理研究所,江蘇 常州213022; 2. 河海大學(xué)理學(xué)院,江蘇 南京210098)
為了提高降雨量插值精度,充分挖掘降雨變量信息,利用模糊熵聚類分析算法,對流域內(nèi)雨量站進(jìn)行模糊熵聚類研究,通過基于可能性分布和距離判定的聚類有效性函數(shù)確定模糊熵系數(shù)和聚類數(shù),從而得到模糊聚類結(jié)果,改進(jìn)原有的插值方法。以淮河流域蚌埠站以上區(qū)域99個雨量站雨量數(shù)據(jù),分別在一般情況下和模糊熵聚類情況下做交叉驗證,結(jié)果顯示,模糊熵聚類分析在反距離平方插值法中對降雨精度有所提升。
降雨空間分布;降雨數(shù)據(jù)精度;模糊熵聚類分析;聚類有效性分析;降雨量插值
HohaiUniversity,Changzhou213022,China;2.CollegeofSciences,HohaiUniversity,Nanjing210098,China)
降雨量是水文模型中徑流模擬最基本、最主要的一個輸入項,是研究其他水文問題的基礎(chǔ)。其空間分布特征是影響產(chǎn)匯流模擬及其他一系列水文問題的重要控制因素[1]。隨著研究的深入,水文模型對降雨數(shù)據(jù)精度和廣度的要求越來越高。理論上獲取高精度降雨數(shù)據(jù)的方法是建立高密度的雨量站網(wǎng),但是由于經(jīng)濟條件和技術(shù)手段的約束,大部分地區(qū)氣象觀測站點數(shù)量不足,分布密度有限。因此,利用現(xiàn)有氣象觀測站的數(shù)據(jù),通過空間插值對觀測數(shù)據(jù)進(jìn)行補充尤為重要,孔云峰等[2]通過多種插值方法探究了美國德州的空間雨量數(shù)據(jù)。然而,大尺度流域上的降雨空間具有很強的時空分布不均勻性和復(fù)雜性,對此,在區(qū)域內(nèi)對已有站點作聚類分區(qū)處理,即將復(fù)雜的降雨測量站點系統(tǒng)劃分成不同的子系統(tǒng),減少不確定性因素的影響,是一種切實有效的研究方法[3]。李生辰等[4]在2007年研究了青藏高原降雨分區(qū)問題。楊絢等[5]在2008年通過降雨變化特征對中國干旱地區(qū)進(jìn)行了聚類劃分;鄭永宏等[6]2012年研究了湖北省的降雨分區(qū)問題。
聚類分區(qū)主要分硬聚類和模糊聚類。相對于硬聚類,模糊聚類方法能夠?qū)︻惻c類之間有交叉的數(shù)據(jù)樣本集進(jìn)行有效的聚類,所得的聚類結(jié)果明顯優(yōu)于硬聚類方法。由于模糊聚類建立了數(shù)據(jù)樣本對于類別的不確定性的描述,表達(dá)了樣本類屬的模糊性,因此能夠更客觀地反映實際情況[7],并被廣泛應(yīng)用于水文研究中[8-9]。本文根據(jù)模糊熵聚類算法,將淮河流域蚌埠站以上的99個雨量站進(jìn)行模糊劃分,并研究模糊聚類分析在降雨量插值精度中的應(yīng)用,為流域內(nèi)雨量建模分析、水文循環(huán)研究、災(zāi)害預(yù)報等提供理論依據(jù)。
1.1模糊熵目標(biāo)函數(shù)
Tran等提出的模糊熵聚類算法(fuzzy entropy clustering)[10]是在模糊C均值聚類算法(fuzzyC-means clustering)基礎(chǔ)上,引入熵的概念,對隸屬度值分布進(jìn)行了算法優(yōu)化。
(1)
(2)
式中:C——聚類數(shù);T——樣本數(shù);uit——成員xt對聚類Ci的隸屬度;n——模糊熵系數(shù);θi——聚類中心;d(xt,θi)——樣本xt與θi的差異距離。
利用拉格朗日算子對目標(biāo)函數(shù)求極值可以得到模糊熵聚類算法隸屬度矩陣和聚類中心的更新方程(推導(dǎo)過程見文獻(xiàn)[10]):
uit={∑Cj=1ed2(xt,θi)ed2(xt,θj)[?1n}-1θi=∑Tt=1uitxt∑Tt=1uitì?í?????ù?úúúúú(3)(4)
1.2聚類數(shù)的確定
相應(yīng)地,每一個聚類中心對T個樣本構(gòu)成的可能性分布也有一個香農(nóng)信息熵,由此定義可能性劃分熵為
(5)
范九倫[12]根據(jù)Bezdek劃分熵和可能性劃分熵定義了基于可能性分布的聚類有效性函數(shù)(式(6)),并提出當(dāng)HP(U;C)取得最大值的時候,U為最佳聚類隸屬度矩陣、C為最佳聚類數(shù)。
(6)
1.3模糊熵系數(shù)的確定
在已知數(shù)據(jù)樣本中選取Xi、Xj、Xk、Xl(i、j、k、l=1,2,…,T)4個樣本作為樣本空間Ω,其隸屬度向量為ui、uj、uk、ul,定義基于距離判定的模糊聚類有效函數(shù)為
(7)
式中:P{*}——事件*發(fā)生占總樣本空間Ω的比例。
1.4研究步驟
1.5聚類合理性驗證
通過真實降雨量矩陣Z、一般情況下的插值雨量矩陣Z′和模糊熵聚類情況下的插值雨量矩陣Z*計算多個交叉統(tǒng)計量[13]。記Xo,Xe分別是已知降雨量數(shù)據(jù)和交叉檢驗的插值計算降雨量數(shù)據(jù),N為數(shù)據(jù)個數(shù),各統(tǒng)計量(相關(guān)系數(shù)R、平均相對誤差RMAE、均方根誤差RMSE、復(fù)合相對誤差CRE)計算公式如下:
(8)
相關(guān)系數(shù)除去了偏差和方差的影響,考慮了插值估計數(shù)據(jù)與實際數(shù)據(jù)變化的同步性,表示了插值估計序列替代實際觀測序列的潛在能力。平均相對誤差和均方根誤差反映了插值估計序列與實際序列比較得到的誤差平均情況。復(fù)合相對誤差是描述插值序列與實際序列的相似性指標(biāo),該統(tǒng)計量對大誤差數(shù)據(jù)十分敏感。
2.1數(shù)據(jù)來源及相似度計算
研究數(shù)據(jù)來自淮河流域蚌埠站以上區(qū)域99個雨量站1953—2013年732個月的降雨量數(shù)據(jù),站點基本情況見文獻(xiàn)[14]。
淮河流域位于東經(jīng)112°~118°、北緯31°~35°的區(qū)域內(nèi),介于長江和黃河兩大流域之間。在氣候上,它處于南北氣候過渡帶,降水時空分布嚴(yán)重不均,差異較大?;春佑质俏覈媳狈降囊粭l自然分界線。因此,研究淮河流域的降水時空不確定性具有較高的科學(xué)價值。
(9)
(10)
2.2聚類結(jié)果
研究發(fā)現(xiàn),當(dāng)聚類數(shù)過大時,出現(xiàn)聚類中心彼此靠近并有重合現(xiàn)象;模糊熵系數(shù)小于0.02時聚類劃分過于分明,近似硬聚類,當(dāng)系數(shù)大于0.03時聚類間過于模糊。因此,擬定聚類數(shù)C=2、3、4、5,模糊熵系數(shù)n=0.02、0.022、0.024、0.026、0.028、0.03和停止閾值ε=0.000 1。計算相應(yīng)的聚類有效性值HP,當(dāng)C=2、3、4、5時,HP=0.000 4、0.101 1、0.058 4、0.032 6。比較可得,當(dāng)C=3時,HP取得最大值,因此選取最優(yōu)聚類數(shù)C*=3。
在C*=3的情況下分別計算各模糊熵系數(shù)對應(yīng)隸屬度矩陣的距離判定有效性值E,當(dāng)n=0.02、0.022、0.024、0.026、0.028、0.03時,E=0.761 8、0.763 2、0.764 0、0.764 2、0.762 5、0.764 1。比較可得,在C*=3的情況下,當(dāng)n*=0.026時E取得最大值。從而得到相應(yīng)的最優(yōu)隸屬度矩陣U*。聚類結(jié)果如圖1所示(圖中所示星點表示已知雨量站位置)。
圖1 聚類隸屬度分布Fig. 1 Distribution of degree of membership in EFC
圖1中3幅圖分別表示3個聚類的隸屬度分布,其中顏色越淺表示該區(qū)域?qū)Υ司垲惖碾`屬度越高,反之越低。中部雨量站集中在第一聚類中,南部雨量站集中在第二聚類中,北部雨量站集中在第三聚類中??梢钥闯?算法得到的聚類結(jié)果有明顯的地理位置聚攏性,十分符合實際情況,即地理位置較近的地方,降雨量差異性較小。此外,分區(qū)多以緯度劃分為主,說明降雨量在緯度變化中的差異變化大,符合我國淮河流域基本自然情況,即南北降雨量差異大、東西降雨量差異小。
表1 交叉驗證統(tǒng)計量對比Table 1 Comparison of statistics in cross-validation
2.3驗證結(jié)果
模糊熵聚類情況下和一般情況下反距離平方加權(quán)插值法各交叉統(tǒng)計量如表1所示。
可以看出,與一般情況相比,模糊熵聚類分析情況下,站點雨量插值與測量值相關(guān)系數(shù)有所提高,各類誤差都有所下降,表明模糊熵聚類方法具有一定的優(yōu)越性。
通過模糊熵聚類分析,可以深入挖掘降雨信息在流域內(nèi)的分布,有利于更加深入地探究降雨系統(tǒng)內(nèi)部的關(guān)系,以及多種不確定因素。本文對淮河流域蚌埠站以上區(qū)域降雨量數(shù)據(jù)進(jìn)行了模糊熵聚類分析,獲得模糊熵聚類結(jié)果。同時,通過交叉驗證法,說明了模糊熵聚類算法在反距離平方加權(quán)插值中的實用性。
[1] 石朋,芮孝芳. 降雨空間插值方法的比較與改進(jìn)[J]. 河海大學(xué)學(xué)報(自然科學(xué)版),2005,33(4):361-365. (SHI Peng, RUI Xiaofang. Comparison and improvement of spatial rainfall interpolation methods. [J]. Journal of Hehai University (Natural Sciences), 2005,33(4):361-365. (in Chinese))
[2] 孔云峰,仝文偉. 降雨量地面觀測數(shù)據(jù)空間探索與插值方法探討[J]. 地理研究,2008,27(5):1097-1108.(KONG Yunfeng, TONG Wenwei. Spatial exploration and interpolation of the surface precipitation data[J]. Geographical Research, 2008, 27(5):1097-1108. (in Chinese))
[3] 張繼國, 謝平, 龔艷冰, 等.降雨信息空間插值研究評述與展望[J].水資源與水工程學(xué)報, 2012, 23(1):6-9. (ZHANG Jiguo, XIE Ping, GONG Yanbing, et al. Review and perspectives of the research on spatial interpolation of rainfall information [J]. Journal of Water Resources and Water Engineering, 2012,23(1):6-9.(in Chinese))
[4] 李生辰, 徐亮, 郭英香, 等.近34a青藏高原年降水變化及其分區(qū)[J].中國沙漠, 2007, 27(2):307-314. (LI Shengchen, XU Liang, GUO Yingxiang, et al. Change of annual precipitation over QinghaiXizang Plateau and subregions in recent 34 years [J]. Journal of Desert Research, 2007, 27(2): 307-314. (in Chinese))
[5] 楊絢, 李棟梁.中國干旱氣候分區(qū)及其降水量變化特征[J].干旱氣象, 2008, 26(2):17-24. (YANG Xuan, LI Dongliang. Precipitation variation characteristics and arid climate division in China [J]. Arid Meteorology, 2008, 26(2):17-24.(in Chinese))
[6] 鄭永宏, 林愛文, 代偵勇.湖北省降水分區(qū)研究[J].長江流域資源與環(huán)境, 2012, 21(7):859-863. (ZHENG Yonghong, LIN Aiwen, DAI Zhenyong. Research on precipitation regionalization in Hubei Province [J]. Resources and Environment in the Yangtze Basin, 2012,21(7):859-863.(in Chinese))
[7] 雷鳴. 模糊聚類新算法的研究[D].天津:天津大學(xué),2007.
[8] 冀鴻蘭,卞雪軍,徐晶. 黃河內(nèi)蒙古段流凌預(yù)報可變模糊聚類循環(huán)迭代模型[J]. 水利水電科技進(jìn)展,2013,33(4):14-17. (JI Honglan, BIAN Xuejun, XU Jing. Variable fuzzy clustering loop iteration model for ice-run forecast in Inner Mongolia reach of Yellow River [J]. Advances in Science and Technology of Water Resources, 2013, 33(4):14-17.(in Chinese))
[9] 樊哲超,陳建生,董海洲,等. 應(yīng)用環(huán)境同位素和模糊聚類方法研究堤防滲漏[J]. 水利水電科技進(jìn)展,2005,25(2):8-10,57. (FAN Zhechao, CHEN Jiansheng, DONG Haizhou, et al. Application of environmental isotope and fuzzy clustering method to study of seepage from dykes [J]. Advances In Science and Technology of Water Resources, 2005, 25(2):8-10,57.(in Chinese))
[10] WU Xiaohong, ZHOU Jianjiang. Possibilistic fuzzy entropy clustering[J]. Journal of Computational Information Systems, 2007, 3(1):25-33.
[11] BEZDEK J C. Pattem recognition with fuzzy objective function algorithms [M]. New York: Plenum, 1981.
[12] 范九倫. 模糊聚類新算法與聚類有效性問題研究[D].西安:西安電子科技大學(xué),1998.
[13] 熊秋芬,黃玫,熊敏詮,等. 基于國家氣象觀測站逐日降水格點數(shù)據(jù)的交叉檢驗誤差分析[J]. 高原氣象,2011,30(6):1615-1625.(XIONG Qiufen, HUANG Mei, XIONG Minquan, et al. Cross-validation error analysis of daily gridded precipitation based on China meteorological observation [J]. Plateau Meteorology,2011,30(6):1615-1625. (in Chinese))
[14] 張繼國.降雨時空分布不均勻性信息熵研究[D].南京:河海大學(xué),2004.
Fuzzy entropy clustering analysis of spatial distribution of precipitation
ZHANG Jiguo1, GUAN Yaozong2, ZHU Yongzhong2
(1.InstituteofInformationStatisticsandManagementofWaterResources,
In order to improve the accuracy of precipitation interpolation and fully explore the information regarding precipitation variables, fuzzy entropy clustering (FEC) was carried out at rain gauge stations in a basin. A clustering validity function, based on possibility distribution and distance determination, was used to determine the fuzzy entropy coefficient and the number of clusters, so as to obtain the fuzzy clustering results and improve the original interpolation method. Based on data from 99 rain gauge stations located above the Bengbu Station in the Huaihe River Basin, cross validation was conducted under non-clustering and FEC conditions. The results demonstrate that FEC improves the precipitation accuracy in the inverse distance squared interpolation method.
spatial distribution of precipitation; accuracy of precipitation data; fuzzy entropy clustering (FEC) analysis; clustering validity analysis; precipitation interpolation
1000-1980(2016)04-0353-05
10.3876/j.issn.1000-1980.2016.04.012
2015-10-17
江蘇省自然科學(xué)基金(BK20131135);江蘇省自然科學(xué)青年基金(BK20130242)
張繼國(1956—),男,湖北漢川人,教授,主要從事水文不確定性分析、信息熵理論與方法研究。E-mail:zhangjg@hhuc.edu.cn
P467
A