蘇 仁,旦木仁加甫
(1.新疆巴音郭楞水文勘測局,新疆 庫爾勒 841000;2.新疆水文局,新疆 烏魯木齊 830000)
每年年初,政府水行政主管部門要求提供河流汛期(4—9月)來水定性預(yù)報(bào)成果,由于新疆河流汛期來水集中度高(如黃水溝汛期來水占年水量的77%)、變幅大、隨機(jī)性強(qiáng),加之水文站網(wǎng)密度又稀少,導(dǎo)致預(yù)報(bào)精度不高。本文采用K-均值聚類分析和逐步回歸周期分析技術(shù),用黃水溝水文站歷年汛期逐月流量建立預(yù)報(bào)模型,對(duì)建模期外的次年汛期逐月流量進(jìn)行定性預(yù)報(bào),確保有效提高預(yù)報(bào)精度。
K-均值聚類分析技術(shù)常用于樣本數(shù)據(jù)的聚類分型,該技術(shù)主要特點(diǎn)是對(duì)大樣本資料指定聚類數(shù)并實(shí)現(xiàn)快速聚類,可由SPSS統(tǒng)計(jì)軟件實(shí)現(xiàn)聚類分型:按指定的聚類數(shù)和距離最近原則對(duì)樣本數(shù)據(jù)進(jìn)行初始聚類分型,再進(jìn)行迭代計(jì)算,直到達(dá)到聚類終止條件時(shí)的分型即為最終聚類成果。把各樣本數(shù)據(jù)聚類分型值按時(shí)間順序排列,即為用于定性預(yù)報(bào)的類型值序列。
用逐步回歸周期分析技術(shù)進(jìn)行定性預(yù)報(bào):對(duì)統(tǒng)計(jì)年限為n的類型值序列Y(t)(t為時(shí)間),取m為n/2的整數(shù),k=2、3、…、m+1,采用周期均值疊加法得到m個(gè)周期(長度為不同k),把每個(gè)周期的振幅值排列為m個(gè)長度為n的序列;然后用逐步回歸法對(duì)Y(t)與m個(gè)周期序列進(jìn)行回歸分析,通過最終引進(jìn)和剔除雙重檢驗(yàn)的各周期序列就是Y(t)不同長度k的周期。預(yù)報(bào)模型為:
Y(t)=A+∑Ai×Xi(t)+ξ(t)
(1)
式中,i—周期總數(shù);A、Ai—常數(shù)項(xiàng)和回歸系數(shù);Xi(t)—Y(t)通過統(tǒng)計(jì)檢驗(yàn)的不同長度k的周期;ξ(t)—噪聲項(xiàng)。
將通過統(tǒng)計(jì)檢驗(yàn)的各周期振幅外延值代入(1)式,便計(jì)得相應(yīng)的類隸屬定性預(yù)報(bào)值。
對(duì)黃水溝水文站1955—2019年汛期逐月流量過程進(jìn)行K-均值聚類分析:根據(jù)表1所建的SPSS數(shù)據(jù)文件,依次單擊菜單“分析→分類→K-均值聚類分析”,在彈出的K-均值聚類分析對(duì)話框中把逐月流量和相應(yīng)年份分別選入變量和個(gè)案標(biāo)記依據(jù)列表框,選擇“迭代與分類”方法,設(shè)置“聚類數(shù)”為2;在迭代對(duì)話框中,設(shè)置迭代聚類上限為20,迭代聚類終止條件(即收斂標(biāo)準(zhǔn))為0.01;在保存、統(tǒng)計(jì)量對(duì)話框中分別選用“聚類成員”、“每個(gè)個(gè)案的聚類信息”,其余均選用默認(rèn)選項(xiàng)。最后通過4次迭代達(dá)到了聚類終止條件。
表1 黃水溝水文站汛期(4—9月)逐月流量過程
SPSS輸出的統(tǒng)計(jì)分析結(jié)果如下。
(1)初始聚類中心
SPSS系統(tǒng)自動(dòng)指定的2個(gè)初始類中心點(diǎn)見表2,其代表性不是最好,需要通過迭代過程尋找更好的類中心點(diǎn)來代替初始類中心點(diǎn)。
表2 初始聚類中心
(2)迭代歷史記錄
2個(gè)類中心每次迭代時(shí)的變化記錄見表3,第4次迭代后2個(gè)類中心點(diǎn)變化均接近或小于指定的收斂準(zhǔn)則(0.01),達(dá)到聚類結(jié)果的要求,聚類分析結(jié)束。
表3 迭代歷史記錄
(3)K-均值聚類分析的類成員
黃水溝水文站汛期(4—9月)逐月流量過程聚類成果見表4,分1、2兩類,Y(t)列是類型值序列。
表4 黃水溝水文站汛期(4—9月)逐月流量過程聚類成果
(4)最終聚類中心
2個(gè)類的最終聚類中心見表5,可見,第1類各指標(biāo)數(shù)值相對(duì)來講較高,第2類較低。
由于黃水溝水文站汛期(4—9月)水量占年水量比例高達(dá)77%,集中度高,所以汛期水量與年水量的豐枯性是相對(duì)一致或同步的,由表5可見,類1、2多年平均年徑流量分別是4.718×108m3和2.603×108m3,與黃水溝水文站多年平均年徑流量2.993×108m3相比,類1年徑流量顯著偏豐,類2則顯著偏枯,所以可以明確:類1汛期(4—9月)逐月流量過程呈現(xiàn)正常偏豐的特點(diǎn),類2則呈現(xiàn)正常偏枯的特點(diǎn)。
表5 最終聚類中心
(5)類成員樣本數(shù)
表6顯示2個(gè)類的類成員樣本數(shù)情況,其中,第1類有12個(gè)汛期(4—9月)流量過程樣本,第2類有53個(gè)。
表6 每個(gè)聚類中的樣本數(shù)
用逐步回歸周期分析技術(shù)從表4類型值序列Y(t)中計(jì)得6個(gè)周期,見表7,其中X1(t)、X2(t)、X3(t)、X4(t)、X5(t)、X6(t)分別是長度為29、21、17、13、30、18年的第一、二、三、四、五、六周期序列(樣本容量n均為65),表內(nèi)數(shù)值即為相應(yīng)振幅。Y(t)具體預(yù)報(bào)模型為:
表7 逐步回歸周期分析及擬合計(jì)算成果表
Y′(t)=A+∑Ai×Xi(t)
(2)
式中,Y′(t)是Y(t)的擬合值,i=1、2、…、6時(shí),模型常數(shù)項(xiàng)和回歸系數(shù)依序?yàn)椋篈=-3.2232,A1=0.5720,A2=0.5392,A3=0.4310,A4=0.5908,A5=0.3243,A6=0.3181。
F檢驗(yàn):n=65、信度α=0.001時(shí),F(xiàn)=43.06>F(0.001)=4.40,通過相應(yīng)信度的F檢驗(yàn),說明模型回歸系數(shù)Ai為0的假設(shè)不成立,有統(tǒng)計(jì)學(xué)意義。
表7中W(t)是黃水溝水文站1955—2019年類型值序列Y(t)與相應(yīng)擬合值Y′(t)之間的相對(duì)誤差,其中Y′(t)由(2)式計(jì)得;若|W(t)|≤20%為合格,由表7可見,在65年擬合檢驗(yàn)期內(nèi),僅1996、2007、2019年不合格,其它年份均合格,合格率高達(dá)95.4%,說明擬合的非常好,式(1)中ξ(t)已很平穩(wěn),計(jì)得的6個(gè)周期是有效的。
對(duì)Y(t)序列,取t為2020年時(shí),對(duì)應(yīng)6個(gè)周期的外延振幅依次是2、1.67、2、1.8、2和1.67,代入預(yù)報(bào)模型(2)式得Y′(2020)=1.92,與類型值1相差很大,而與類型值2十分接近,表明黃水溝水文站2020年汛期(4—9月)逐月流量過程大概率地屬于類型值序列中的第2類,即呈現(xiàn)正常偏枯特點(diǎn)的可能性較大。表8是2020年汛期逐月流量實(shí)況與類隸屬的判斷,可見,2020年各月平均流量與類1、2流量均值相比,僅4月與類1相近,其余5個(gè)月與類2相近,表明呈現(xiàn)正常偏枯特點(diǎn)的定性預(yù)報(bào)總體正確。
表8 2020年汛期(4—9月)逐月流量實(shí)況與類隸屬的判斷 單位:m3/s
(1)僅用黃水溝水文站本站歷年汛期逐月流量過程分型與建模,并對(duì)次年汛期來水類隸屬進(jìn)行定性預(yù)報(bào),既不受河流汛期來水集中度高、變幅大、隨機(jī)性強(qiáng)的影響,又規(guī)避了水文站網(wǎng)稀少現(xiàn)狀的制約。
(2)類型值預(yù)報(bào)模型通過了信度為0.001的F檢驗(yàn),說明有統(tǒng)計(jì)學(xué)意義。
(3)|W(t)|≤20%為合格時(shí),在65年擬合檢驗(yàn)期內(nèi),合格率高達(dá)95.4%,擬合很好,表明計(jì)得的6個(gè)周期是有效的。
(4)從2020年汛期逐月流量實(shí)況與類隸屬的判斷來看,僅4月定性預(yù)報(bào)不合格,其余5個(gè)月均合格,表明定性預(yù)報(bào)總體正確,本文所述聚類分型與類型值預(yù)報(bào)的技術(shù)適用于長期水文定性預(yù)報(bào)。